ホーム > 未分類 > mecabの辞書にuni-dicを使用してみた。

mecabの辞書にuni-dicを使用してみた。

2009 年 11 月 26 日 miya コメントをどうぞ コメント

先日の記事「MySQLによる日本語全文検索」で紹介した日本語全文検索システムではmecabを分かち書きに使用しているが、精度に不満があって、いろいろ調べた結果、CentOSやMacPortsでインストールされるIPA辞書は既にメンテナンスが終了しており、NAIST-DICというプロジェクトに引き継がれていることがわかった。

そこで、NAIST-DICをテストしてみたのだが、こちらもイマイチ。

さらにいろいろ調べてみたら、uni-dicという辞書があることがわかった。

幸いuni-dicはバイナリ辞書でも配布されているので、解凍すればすぐ使えるということで、手元のMacOSXにインストールしてテストしてみた結果、なかなか良好な結果が得られた。

また、配布元に書いてある「国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています」が気に入ったので、早速辞書をおきかえてみた。

ちなみに、今回のシステムではphpからシステムコマンドで呼び出しているので、辞書の入れ替えはコマンドのオプションを変更するのみで対応した。

mecab -d /path/to/uni-dic -Owakati

以上のように-dオプションの引数で辞書へのパスを指定すれば、設定ファイル等を変更しなくても辞書の変更が可能になる。

検索の精度に関しては、ぜひ以下のページでお試しを。

JULIA OPEN WATER MANUAL

カテゴリー: 未分類 タグ:
  1. コメントはまだありません。
  1. トラックバックはまだありません。