blog.bouzuya.net

2013-01-22 Kuromoji とは

そういえば、何度か Kuromoji を使った記事を書いているけれど、何をするものか書いていなかったので、改めて書いておく。

Kuromoji は Java で書かれたオープンソースの日本語形態素解析器である。 Apache Software Foundation に寄付されており、Apache Lucene と Apache Solr の日本語サポートをしている、らしい。公式にそう書いてあるのだからそうなのだろう。

そもそも、形態素解析とは、なんて書きはじめてもぼくには正しく説明できない。おそらく形態素という文章における意味を持つ最小の単位を取り出すための解析である。具体的には「これはペンです。」から「ペン」の品詞は名詞だということを調べるようなものだと思う。

もっと別の例で考える。

日本語の文章からある単語の出てくる数を数えたいとする。

日本語はわかち書き ( 空白区切り ) でないため、英語などのわかち書きの言語と比べて、単語の区切りがわかりづらい。英文なら空白で文字列を区切るだけでもそれらしい結果が出るが、日本語ではそうはいかない。

そこで形態素解析器を使う。

単語の分割は、形態素解析の基本的な機能である。それに加えて、品詞の分類や、漢字から読みへの展開などの機能がある。形態素解析器があれば、日本語の文章からある単語の出てくる数を数えるのは苦ではない。文章を形態素解析器に入れれば、単語に分割されて出てくるからだ。

Kuromoji の良いところは辞書を含んでいることだ。他の形態素解析器では辞書ファイルを用意しなければならないことが多い。Kuromoji は jar を用意すれば、それで十分だ。なんと手軽だろう。

機能は少ないかもしれないが、上記のような用途なら十分である。ぼくはしばらくはこれを使おうと思っている。Clojure なら Leiningen に数行書くだけで使うことができる。なんともお手軽である。

19 min.