文献整理2020 (7) ZOTEROのbetter BibTeXから抽出したキーワードでmy Index Medicusをつくるその3

 参考文献15,000のキーワードリストを作成するというのはあまりにも規模が大きすぎて、筆者の環境では1回LaTeXを通すのがオーバーナイトで終わらない。
 そこで、「機械学習」を追加クエリにしてヒットする401編の部分集合で指慣らしにとりかかる。
 ZOTEROからエクスポートしたbetter BibLaTeXファイルをもとに、キーワードの出現頻度を調べ、キーワードを挙げている文献のcitekeyのリストを作り、タイトルと抄録を並べたパートのあとに文献リストが続くという編集方針は変えないで進めるが、さすがに400程度ならどんどん進められてデバグも早い。
 著者のあげたキーワードを出現頻度順に並べる際には、表記のゆらぎを考えて異口同音のものをまとめる必要がある。また、もともとの検索のクエリにしたようなものはほとんどの文献で出現するが、これは筆者の狙いであるdata miningの目的にはあまり意味がない。その一方で、たった1回しか出現しなくても重要な概念を現す一語に巡り合ったりもするので、著者の押すキーワードのクロスリファレンスリストを作るのであるが、これは要約や(著者がオープンにしている場合には)論文全文から機械学習で選別する際にする測度で見つけられそうである。というのはこの間読んだinterface誌2017年6月号の足立悠:AI…Pythonだけじゃないもう1つの定番データ解析「R」入門の受け売りであって、今後の研究次第ということである。
 締めにテキストエディタで索引語を探してその後ろに\index{索引語}コマンドを打って、索引リストを作る。upLaTeX→Biber→upLaTeX→upLaTeX→upmendex→upLaTeXを通してあっという間に150ページの索引集ができる。
 しかし、できあがったmy index medicusの使い勝手は期待ほどはかばかしいものではない。
 なぜ使えないのか半日考えてみて、文献を読むときにたどっていく、参考文献のリンク(のネットワーク)がないことに気がついた。また、例えばredbiomのようなソフトウェアで別のデータベースからリトリーブされる関連データへのリンクがないことも気になる。しかしこれらはもともとindex medicusにもなかったもののはずである。

本ブログではamazon associate広告を利用しています。