先達はあらまほしきこと、テキストマイニングにてもことならず

 昨日までにかなり解析が進んで、20人のレポートと10のリファレンス文書から抽出した28,339種類のキーワードの一覧表を作成して、リファレンス文書に高頻度で出現するキーワードのレポートでの出現の相関を調べることができるようになったのである。
 ところで、抽出の際に拾ったキーワードには、多くのかけらが混じっている。今回キーワードのうち、1文字のものは4,800ほどあった。数字やひらがな1文字だけでは意味を持たないので削除した。漢字一文字も大抵は意味を持たないのでどんどん消したが、昔の中国の国名を表す場合には残さなければならない。それも「隋」は間違いなかろうが、「明」など怪しいという例外も出てくる。
 抽出した語彙を気まぐれに削っている後ろめたさを感じながら社員食堂で昼ごはんを食べていて、テキストマイニングの先達は、どのようにしてこの壁を突破したのか、ひとつ調べてみようではないかと思いいたる。ついにKH Coder のページに到達。

本ブログではamazon associate広告を利用しています。