文献整理2020(9) 論文のフルテキストをscrapingするには

 nysolがインストールできたことで気が大きくなって、論文の(アブストラクトだけではなく)全文をdeep learningしてみたい(させてあげたい?)と思うようになった。それも1編や2編なら自分で読むほうが早い(と一応見えを張ってみる)けれど、今抱えている15,000編をざっくりいくつかのグループに分けたりできるとあとの展開に有利であると考えるようになった。
 もともとPubMedでヒットしたPMIDをダウンロードしてZOTEROに食わせたら、次々とPubMedを引いて登録してくれて、さらにPDFが公開されている論文については自動的にダウンロードして、それぞれ固有のフォルダに格納してくれるのである。PDFと一緒に論文のフルテキストが掲載されているページをダウンロードする設定にできないか、かなり時間をかけて探してみたが、そういう設定にはできないようである。
 それでは、フォルダの中を確認してPDFがあるのにテキストファイルがないなら、PDFからテキストをエクスポートしていければよいと気がついた。しかしcitekeyとの関連をどう保つかが難しい。
 そこで、ZOTERO開発者の方にお願いしたいのは、書誌データやHTMLファイルを保存するフォルダ名をcitekeyにしてほしい(ユニークな名前という点ではPMIDでも可)ということと、それぞれの参考文献やsupplemental dataを自動ダウンロードする設定かアドオンをなんとかして入れてもらえないだろうかということである。そのままインプリメントするとDoS攻撃ソフトになってしまうから、10秒に1リクエストしかしないというような制限をかけるべきなのであろう。
 と考えるうちに、いっそこの際ZOTEROはひとまずおいて、汎用scrapingソフトウェアの応用問題として、論文の全文公開ページをweb scrapingしていく戦略の方が楽かもしれないと考えるようになった。
 
www.crummy.com

qiita.com

本ブログではamazon associate広告を利用しています。