[mecab-users 364] Re: Windows版MecabでのUTF-8使用について

Back to archive index

柳原 啓美 yanag****@two-t*****
2009年 5月 26日 (火) 11:02:43 JST


柳原です。
お返事ありがとうございます。

> それはそういうものです。コマンドラインプロンプトは
> Shift-JIS 環境で実行されるため、UTF-8 の辞書を使うと
> 文字化けします。
> 
> UTF8 が正しく動作しているかを確認するには、
> 1. notepad を起動して、適当な解析したい文を入力
> 2. utf8 で保存
> 3. mecab.exe file.txt -o output.txt

書き方が悪かったようです。すみません。
文字化けについて困っているのではなく、
解析が行われないことについて困っているのです。
上記の通り、テキストファイルで保存して実行すると、

input.txt
すもももももももものうち

output.txt
すもももももももものうち	名詞,一般,*,*,*,*,*
EOS

となります。
結果として、

すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS

このような形を期待しているのですが、UTF-8の辞書では
output.txtの解析結果が正しいのでしょうか?

以上、よろしくお願いいたします。




mecab-users メーリングリストの案内
Back to archive index