[mecab-users 342] 近代文語UniDic 0.9のご案内

Back to archive index

Toshinobu OGISO ogiso****@ogiso*****
2008年 12月 1日 (月) 12:32:12 JST


(重複して受け取られた場合はご容赦ください)

近代文語UniDic 0.9のご案内

このたび「近代文語UniDic」 ver.0.9を公開しました。
近代文語UniDicは日本語形態素解析辞書UniDicをもとにして近代文語文を解析
できるようにした形態素解析辞書です。「短単位」や「見出しの階層構造」な
どのUniDicの特長をそのまま引き継いでいます。

解析対象は主として明治期の文語論説文で、一般的な文章であれば96〜98%程
度の精度で解析できています。(文学作品ではこれだけの精度は出ません。)
Ver.0.9では見出し語を増やし(約21.1万→23.6万)、学習コーパスを修正・
追加したことにより全体に解析精度が向上しています。

形態素解析システム「茶筌(ChaSen)」と「和布蕪(MeCab)」で利用できる
UTF-8版の辞書を公開しています。また、簡単に利用できるようにまとめた
Windows用パッケージを用意しています。

近代文語UniDicは次のページから無償でダウンロードできます。
http://www.kokken.go.jp/lrc/index.php?UniDic%2F%B6%E1%C2%E5%CA%B8%B8%ECUniDic
このページに利用条件・解析サンプル・学会のデモで使用したスライドなども
掲載しておりますので、ご覧いただければ幸いです。

※なお、現代語版のUniDicについては次のページをご覧ください。
http://download.unidic.org

--
国立国語研究所 研究開発部門 言語資源グループ
小木曽 智信 (おぎそ としのぶ)
togis****@kokke*****




mecab-users メーリングリストの案内
Back to archive index