blog.bouzuya.net

2016-08-26 kraken で kuromoji.js をためしている

bouzuya/krakentakuyaa/kuromoji.js をためしている。

Kuromoji (Java) 自体は 2013-01-112013-01-152013-01-162013-01-22 あたりで触れている。当時は Clojure 経由でためしたようだ。

kuromoji.js は Kuromoji を JavaScript に移植したもの。厳密にはすこし違うみたいだけど、手軽に使えるという意味では同じだった。

こんな感じで Tokenizer をつくって返す関数を書いて…… 、push はしてないけど tokens.json という名前で entry 別の tokens を出力するようにした。 tokens.json が 240 MB になったので、これはまずいと思い、何かしら集計しようと思っている。

このとおり、形態素解析自体は kuromoji.js のおかげで簡単にできたのだけど、それをどうするのかという部分が宙に浮いてしまっている。2016-08-11 に "kuromoji.js で単語のつながりを基に関連記事を列挙してみたい。" と書いたのだけど、単純に同じ単語だけで抜き出すのもどうなのかなと……。難しそうなのは、余計な単語を除去すること、重要な単語を選ぶこと、似た記事を選ぶこと。

悩ましい。中途半端だけど時間もないので、また保留しておく。