Semantic Scholarを使い始めたのはかれこれ2年前である。
自分のアカウントの中のLibraryに保存した論文をヒントにAIが「この論文を読んだ研究者が読んでいる」新着論文を勧めてくれるのがResearch Feedsで、これこそが『日刊my Index Medicus』かもしれないが、さらにそれをメールで受け取るように設定すると、毎日興味を引きそうな新着論文のリストが届くというしかけになっている。
これは重宝するはずであるが、毎日毎日送ってもらえることへの感激が、いつの間にか「また今日も来てる」にかわり、さらに544通も未読のまま放置してしまっていた。
とは言え、この資産をそのままゴミ箱に放り込むわけにはいかない。
何とか最小限の作業でPaperPileにインポートしたいが、なかなかうまくいかなかった。
やり方として試してみたのが下記の2つである:
1. Gmailのデータを書き出す機能を使って、届いたリコメンデーションメールを一括ダウンロードして、書誌情報を抜き出す
まる一日試してみて思い知ったのは、(おそらく)json形式のデータで、含まれる書誌情報が大量のHTMLタグに埋もれてしまい、テキストエディタで細工するのが難しいことであった。
2.Semantic ScholarのResearch Feedsのページで、[View Older Recommendations]をクリックして以前のrecommendationを下へ下へと追加表示させ、付随するabstractが省略表示されているのをExpandしたうえで全部選択([CNTL]+[A])して、テキストエディタにコピーペーストする
こちらの方は、最終的にテキストデータとしてペーストできる。そのメリットが計り知れないことは、テ料理研究家の読者のみなさんに説明の必要はないことと思う。一方で、Expandをしているときに別のリンク(例えば著者名に貼られている「この著者の著作論文リストのページへのリンク」)をつい誤ってクリックすると、そのページに飛んだ後戻ってこられるのは最新の「本日のResearch Feedsのページ」で、復旧のためには以前のrecommendationを手繰って表示させるところからやり直さなければならない。作業を続けているうちに、疲労のあまり何度地雷を踏んでしまったことか。いっそ全部いっぺんにExpand/Collapseできるボタンを設置してもらえないものかと恨みたくなる。
まあここはシューティングゲームでもやっているような感覚でこなすのがおしゃれということになるのだろう。2022年2月からのリコメンデーション3070件(重複あり)を回収。
まずKH Coderでキーワードを抜き出すことを目ざして、テ料理の下ごしらえ。Visual Studio Codeの正規表現の書法に少し違和感を感じつつ、文献情報の間の不要の情報を一掃するパターン作りを「機械学習」する。
\n([0-9]+\n)*(PDF|arXiv|Cambridge Press|Science|Thieme|Springer|Publisher|Taylor & Fransis|Wolters Kluwer|IEEE)\(opens in a new tab\)\n\n(In Library|Save)\n\nAlert\n\nCite\n\nNot Relevant[\n]+