文献整理2020(8) nysolのインストール

 22日の雨の宵に、nysolをmacOS Big Sur (11.1 Beta)のMBA (mid 2015)にインストールする。ネットで検索すると情報はいろいろと見つかるが、nysolのソフトウェア一覧リストにしたがって順にインストールしていく。
 beta版のOSにはついていけないかも、とbrewコマンドに警告を出されたりしながらも、MCMDはうまく醸造できた。ところが次からがうまくいかない。一晩がかりでxcode 12.3betaをダウンロード・インストールしてうまくいくようになったものもあった。また、fumiについてはあらかじめ形態素解析システムJUMAN、構文解析システムKNPを 別途インストールしておく必要があるのが、上記ソフトウェア一覧リストのインストール手順からは少し読み取りにくくておろおろしてしまったが、それぞれbrew install jumanppでjuman++ 1.02(JUMAN後継版)、brew tap uetchy/nlp; brew install knpでknp 4.19をインストールしておいてgem install nysol-fumiで入った。
 それで、早くdeep learningを試してみたいのであるが、JUMAN(形態素解析システム)は半角スペースが入っているとだめらしいとの情報もあって、残念なことに筆者の手持ちの文献はすべて英文で(半角スペースを使った分かち書きだらけで)あるので、この部分は英文用の形態素解析システムを用意しなければならないと考え、Tree-taggerをインストール。
 文献索引集の15,000編の文献書誌情報を収録した39.3 MBのBibTeXソースファイルを通してみたら、数分で658万語の形態素解析をこなすことがわかった。もう少しノイズを減らして(というようなことを考えてもとても手をつけることができないくらい巨大なデータを相手に意味のある結果が出せるように進化してきているのであろうが)deep learningに持っていけば文献をいくつかのグループに分けていけるに違いない。そちらも面白いが、redbiomと関連付け、特徴的なシーケンスをもとに深層を浚うことに興味がもりもりわいてきている。

本ブログではamazon associate広告を利用しています。