PHPやJavaScriptなどの覚え書き、たまに愚痴、反省など。
mecabの辞書にuni-dicを使用してみた。
先日の記事「MySQLによる日本語全文検索」で紹介した日本語全文検索システムではmecabを分かち書きに使用しているが、精度に不満があって、いろいろ調べた結果、CentOSやMacPortsでインストールされるIPA辞書は既にメンテナンスが終了しており、NAIST-DICというプロジェクトに引き継がれていることがわかった。
そこで、NAIST-DICをテストしてみたのだが、こちらもイマイチ。
さらにいろいろ調べてみたら、uni-dicという辞書があることがわかった。
幸いuni-dicはバイナリ辞書でも配布されているので、解凍すればすぐ使えるということで、手元のMacOSXにインストールしてテストしてみた結果、なかなか良好な結果が得られた。
また、配布元に書いてある「国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています」が気に入ったので、早速辞書をおきかえてみた。
ちなみに、今回のシステムではphpからシステムコマンドで呼び出しているので、辞書の入れ替えはコマンドのオプションを変更するのみで対応した。
mecab -d /path/to/uni-dic -Owakati
以上のように-dオプションの引数で辞書へのパスを指定すれば、設定ファイル等を変更しなくても辞書の変更が可能になる。
検索の精度に関しては、ぜひ以下のページでお試しを。
| この記事は miya によって 2009 年 11 月 26 日 5:48 AM に投稿されました, 未分類 以下に保存されています。 RSS 2.0 を通してコメントをフォローする。 コメントを残すか、ご自分のサイトからトラックバックできます。 |
コメント無し
トラックバックはありません。
Additional comments powered by BackType