2016-08-26 kraken で kuromoji.js をためしている
bouzuya/kraken で takuyaa/kuromoji.js をためしている。
Kuromoji (Java) 自体は 2013-01-11 や 2013-01-15、 2013-01-16、 2013-01-22 あたりで触れている。当時は Clojure 経由でためしたようだ。
kuromoji.js は Kuromoji を JavaScript に移植したもの。厳密にはすこし違うみたいだけど、手軽に使えるという意味では同じだった。
こんな感じで Tokenizer をつくって返す関数を書いて…… 、push はしてないけど tokens.json
という名前で entry 別の tokens を出力するようにした。 tokens.json
が 240 MB になったので、これはまずいと思い、何かしら集計しようと思っている。
このとおり、形態素解析自体は kuromoji.js のおかげで簡単にできたのだけど、それをどうするのかという部分が宙に浮いてしまっている。2016-08-11 に "kuromoji.js で単語のつながりを基に関連記事を列挙してみたい。" と書いたのだけど、単純に同じ単語だけで抜き出すのもどうなのかなと……。難しそうなのは、余計な単語を除去すること、重要な単語を選ぶこと、似た記事を選ぶこと。
悩ましい。中途半端だけど時間もないので、また保留しておく。