Kazumasa Ozaki
zaki1****@laven*****
2006年 11月 14日 (火) 17:46:05 JST
小崎です.よろしくお願いします. % mecab-cost-train -y -c 1.0 corpus model というように,mecab-cost-train のオプションに -y をつけることで出来る テキストモデルファイル model.txt がありますが, このファイルの左側にある数値は それに対応している右側の素性の重要度を表しているということでいいのでしょ うか? 例えば, -0.005362387974618362286583 B00:形容詞,2,3,2/助動詞,1,2 -0.016397139084277943810175 B00:形容詞,2,3,2/接続詞,1,0 0.010625887945311706175855 B00:形容詞,2,3,2/接続詞,1,1 という内容だとしたら,「形容詞,2,3,2/助動詞,1,2」という素性の重要度が 「-0.005362387974618362286583」である,という理解で良いのでしょうか? もう一つ質問ですが, mecab-dict-gen で配布用辞書を作成しますが, コーパスから得たCRFパラメータから,実際に出力先される *.csv や matrix.def にあるようなコスト値(Short int型)へ どのように変換されているのですか? どのソースファイルを見ればその部分が理解できるかも教えていただけると幸い です. 基本的な質問で申し訳ありません. 質問の内容がまとまっていないとは思いますが,御指導よろしくお願い致します. -- ------------------------------------ 名古屋工業大学 徳田・李研究室 B4 小崎和正 zaki1****@laven***** ------------------------------------