[mecab-users 101] Re: CRFパラメータ学習について

Back to archive index

Taku Kudo taku****@chase*****
2006年 5月 9日 (火) 02:29:08 JST


くどうです

> > テキストモデルファイル (model.txt) の平均を取るという方法があります。
>
>   これを現在試してみています。平均というのは、model.txtの右側に対応す
> る左側の値の平均をとればよいという理解で正しいでしょうか。

はいそのとおりです。平均をとったファイルを

mecab-tool -b -i foo.txt -o foo

としてバイナリに変換すればそのまま辞書作成のモデルになります。

>
>   データには偏りがあるので、元のコーパスをn分割するのに(x mod n)行目の
> データをx番目のファイルとするようにしてみています。

はい。もし余裕があるのでしたら、重複を許しつつランダムにサンプリングして、最後にマージするといい結果が得られるかもしれません。



mecab-users メーリングリストの案内
Back to archive index