文献整理2020 (4) ZOTEROのbetter BibTeXからexportしたBetter BibLaTeXファイルからキーワード分析

 書けん申請書は厳しいお取り調べ(機関チェック)をくぐり抜けたのであるが、(通らないなりにも)内容を見直しタイトルも手直しする予定である。
 そこでZOTEROで収集した17,048編の論文から国内外のこの分野の機械学習のトレンドの先を見通す(ことができるのか?)。
 まずはZOTEROを開いて収集した論文をすべて選択して(例としてお示しするのは、湯川先生の象の卵以外の業績のうちの2編である)、macOSなら[control]+クリックで出てくるプルダウンメニューで「選択されたアイテムをエクスポート…」を選択する。
f:id:suushinagai:20201028214742p:plain
 さらにオプション画面に遷移するので、フォーマット: Better BibLaTeXを選択する。オプションは「メモをエクスポート」、「雑誌略誌名を使用」だけチェックを入れている。また、ZOTERO本体の環境設定→Better BibLaTeXのExportメニューでExport Unicode as plain-text latex commands (recommended)にチェックを入れている。
f:id:suushinagai:20201028214804p:plain
 これで、BibLaTeX用のファイル(拡張子.bibつき)に、文献情報がエクスポートされる。
 上述の筆者の17,048編の論文から出発した場合、著者名不詳のものを除外して16,870編分、309,507行のテキストファイル(サイズ38,313KB)が生成された。
 1編の論文(article)の書誌情報は、下記の通り@articleから始まり、タイトル、出版年月日、雑誌名、巻、号、ページ数、などマークアップされている。
@article{citekey,
item1 = {contents of item_1},
:
itemn = {contents of item_n}
}
 なお、本来のbibファイルにはPubMedのAbstractやKeywordsは多分定義されていないのであろうが、Better BibTeXZOTEROの収集した余分のデータもexportしてくれるので、これを利用して、キーワードを抽出してみる。
 macOSならターミナルからawkを使うのであろうが、執務室では封印していて、Windows PCで四苦八苦する。
 上記のbibファイルをテキストエディタxyzzyに読みこみ、正規表現を使って検索置換を繰り返し、
keywords = {keyword list},
以外の行をバサバサ消す。
 たとえば、検索文字列「@article{[a-zA-Z0-9\,\-]+\n」→置換文字列「」、同様に「title = .*\,\n」→「」、「year = .*\,\n」→「」など。
 最終的にキーワードリストがついていたもの16,870編分のキーワード246,928語をcsvファイル(3,658 KB)に書き出し、Excelに読み込んでソートをかけてユニークなキーワード25,139語に集約した。
 その中で関連のあるキーワードは67編に付された「machine learning」のみであることが判明した。ということだけのためにキーワードリストを作ったわけではない。
 キーワードをもとに、元の収集文献をいくつかの島に分けて、時系列でabstractをレイアウトしてMyIndexMedicusを組版するのが筆者の最終目標への第一歩である。このためにはbibファイルを原稿ファイルの一部に取り込む荒業が必要で、LaTeXのマクロに再入門しなければまったく歯が立たない。今の職場に赴任した頃に参考書にしていた八衢本の改訂版を手がかりに進んでみる。
xymtex.com
 ただし、キーワードをもとにした検索でヒットした論文を集めて眺めるだけなら、最初のメニューの「選択されたアイテムからレポートを作成する」を選び、HTML文書としてDropboxに保存すればよい。これなら湯船でiPadに読み込んでチェックしたり、doiのリンクをたどっていくことも可能である。

本ブログではamazon associate広告を利用しています。