TSUCHIYA Masatoshi
tsuch****@namaz*****
2007年 10月 12日 (金) 15:58:57 JST
>> On Wed, 03 Oct 2007 23:42:46 +0900 >> tsuch****@namaz***** (TSUCHIYA Masatoshi) said as follows: >mecab-0.96 + mecab-ipadic-20070801 の組合わせで,新聞の解析をさせていた >ところ,漢数字を含む箇所でかなり奇妙な解析結果が出ることに気付きました. この件ですが,字種に基づいてまとめ上げを行う未知語処理に問題があるのでは ないでしょうか? >in: 四国運輸局運航部旅客船事業適正化対策官 >out: 四国運輸局運航部旅客船事業適正化対策官 名詞,数,*,*,*,*,* 試しに 2-best を出力させてみると,以下のようになり,第2位の解として,ま あまあ普通そうな解析結果が得られています. $ mecab -N 2 四国運輸局運航部旅客船事業適正化対策官 四国運輸局運航部旅客船事業適正化対策官 名詞,数,*,*,*,*,* EOS 四国 名詞,固有名詞,地域,一般,*,*,四国,シコク,シコク 運輸 名詞,一般,*,*,*,*,運輸,ウンユ,ウンユ 局 名詞,接尾,一般,*,*,*,局,キョク,キョク 運航 名詞,サ変接続,*,*,*,*,運航,ウンコウ,ウンコー 部 名詞,接尾,一般,*,*,*,部,ブ,ブ 旅客船 名詞,一般,*,*,*,*,旅客船,リョカクセン,リョカクセン 事業 名詞,一般,*,*,*,*,事業,ジギョウ,ジギョー 適正 名詞,形容動詞語幹,*,*,*,*,適正,テキセイ,テキセイ 化 名詞,接尾,サ変接続,*,*,*,化,カ,カ 対策 名詞,サ変接続,*,*,*,*,対策,タイサク,タイサク 官 名詞,接尾,一般,*,*,*,官,カン,カン EOS char.def によれば,漢数字の「四」は, 0x56DB KANJINUMERIC KANJI KANJI 0 0 2 KANJINUMERIC 1 1 0 という字種として定義されています.この定義では, CharProperty::seekToOtherType() は「KANJINUMERIC または KANJI ではない文 字」に行き当たるまでを1語としてまとめ上げるので,上記のような結果になるの ではないでしょうか. どう修正するのが良いのか悩ましいのですが,とりあえず,ad-hoc には ~/.mecabrc にでも, max-grouping-size = 10 と書いておけば,[mecab-users 307] の例はとりあえず,それなりの解析結果に なります. それと,1点質問なのですが,http://mecab.sourceforge.net/ によると, IPA 辞書, IPAコーパスに基づき CRF でパラメータ推定した辞書です. (推奨) となっていますが,ここで学習に使っているIPAコーパスとは, http://cl.aist-nara.ac.jp/index.php?%BC%AB%C1%B3%B8%C0%B8%EC%A5%C7%A1%BC%A5%BF%A4%CB%B4%D8%A4%B9%A4%EB%BE%F0%CA%F3 IPAコーパス 対象テキストは,(1)公開済みのIPAL辞書に収められている文例集約15000文. (2)『日本語表現文型 中級』(筑波大学日本語教育研究会,凡人社,1983)の 中に収め られている、「文型・文法」欄の例文約1600文.日本の大学に留学 する一般外国人留学生を対象とした中級程度の日 本語教材.(3)岩波新書13 冊および岩波ジュニア新書7冊の約41000文(ただし,著作権の問題が解決して いないので公 開は1冊分(長尾真著「人工知能と人間」)の約2500文のみ). のことでしょうか? つまり,RWC などの新聞由来のコーパスは,Mecab 用 IPA 辞 書の学習には使われていないということですか? -- 土屋 雅稔 ( TSUCHIYA Masatoshi )