文献整理2020 (2) ZOTERO、PubMed RSSからの新規文献継ぎ足しモードへ

 PubMedで引いて出てくる文献の初回登録を夜を日に継いで続けてきたのが終わって、全部で「21471個のアイテム」が登録された。フリーにダウンロードできるPDFファイルは自動的にダウンロードされていて、Zotero database directory/storageフォルダには、12989フォルダ、25,161ファイルが登録され、14.3 GBになっている。Evernoteで筆者が11年間に蓄積したファイル(ノート)がようやく40000(データベースのファイルサイズは191 GB)になろうかというのと較べると、各方面に色々とご迷惑をおかけしたことと思うがわずか10日間でここまで効率的に網羅的な文献データベースが構築できるのは素晴らしい。
 トラブルとしては、13000件くらいをかためてリトリーブ中に、Zoteroのメモリ使用量が逼迫しているというアラートが出て、チェックすると9.4 GBになっていたことがあった。Zoteroが異常終了してしまったので詳細は確認できていないが、8 GB DRAM実装しているので、SSDの仮想記憶領域を使ってしのいでいたのだろうと推測している。その後は、リトリーブされた最後のPMIDを探し、その次から読み込み直すようにして作業を再開した。
 なお、半日がかりで6769件のリトリーブが終わった9月7日の時点で、すでにダウンロードデータの嵩が7.9 GBに達しているのに、それから15000件リトリーブしてもあまり嵩が増えていないのは、重複したエントリがある場合にファイルの実体を一つしか持たないためではないかと推測する。
 現在のところは、網羅的に全文検索はできそうになかったりする面が少し気になるが、おいおい検討して報告したい。
 なお、Dropboxにデータベースファイルを置くと破損しやすいと警告が出るのであるが、これまでのところ幸いに壊れたことはない。ただし、初回登録モード中のZoteroのリトリーブが一段落したところで一旦quitした後、Dropboxでのファイルのシンクは延々と続くことに気がついた。特にZotero database directory/zotero.sqliteは現在1.3 GBに成長していて、シンク途中で不用意にシャットダウンなどしてしまうと破損するかもしれない。
 今後は同じ検索式で新着RSSに上がってくる論文リストに目を通し、目ぼしいものをピックアップして追加する継ぎ足しモードに移行する。この作業をiPadでできると湯船につかっている時間が使えてよいのだが。

本ブログではamazon associate広告を利用しています。