[mecab-users 140] コーパスからの学習について

Back to archive index

nomoto nomot****@la*****
2006年 7月 20日 (木) 23:33:14 JST


野本です。

mecab の使用環境は
mecab-0.91
mecab-jumandic-5.1

コーパスからmecabのオリジナル辞書に学習を行なうところで質問です。
mecabにより多くのコーパスを学習させたいと考え、複数の京大コーパスを学習させたいのですが、
3つのコーパスを1ファイルに結合し、1ファイル8万行のコーパスにして学習に使ったところ次のようなエラーが出ました。

/usr/local/libexec/meab/mecab-cost-train -c 1.0 corpus model
と、コマンドを入力し、解析中に

Done! writing model file ...
terminate called after throwing an instance of 'std::bad_alloc'
  what():  St9bad_alloc
  Abort trap (core dumped)


というように、メモリ不足を示すようなエラーが発生してしまいます。
メモリを増設すればこのエラーは解決するのでしょうか?

ちなみに、現在のメモリは512Mで、6万行のコーパスまでは問題なく学習できました。
一応、メモリの消費をおさえる
/usr/local/libexec/mecab/mecab-cost-train -y -c 1.0 corpus model
というコマンドもありますが、こちらの方でもコーパスの量を増やしていけば、
上記のようなエラーが出てしまうのでしょうか?

また、一度に8万行ではなく、4万、4万、といったように、分割してmecabに学習させる方法はあるのでしょうか?



mecab-users メーリングリストの案内
Back to archive index