文献整理2022 season 5 (7) PubMed書誌データをscrapeする

 1年分ごとにfetchしたデータはそれぞれ数MB~30MB程度のファイルにおさまり、shell scriptでcatすると600万行ほどのファイルにまとまった。
 書誌情報が構造化されて登録されている中で、タイトルと抄録のテキストからキーワードを収集しようとすると、行頭にTI あるいはABから始まる行を抜き出すことになる。
learn.microsoft.com
 一日がかりでVisual Code Studioで試行錯誤した結果、TI あるいはABから始まる行以外を消去するには、正規表現を用いて
^(?!(TI|AB)).+\n
にマッチする行をnull文字に置換すればよいと悟った。その前に、次の行にラップしているのを一行化しておくことはいうまでもないが、久々に一行野郎に酔いしれて、MHから始まるキーワードリストも抽出してみたりする。

本ブログではamazon associate広告を利用しています。