Google Driveの容量がいっぱいになり、Gmailの受信すら危うくなった。
論文PDFとデータで膨れ上がったクラウドをどう整理するか。
退職後の研究環境を見直す中で、現実的な運用にたどり着いた。
そしてその先に、思いがけず新しい研究の構想が見えてきた。
在職中に他の論文データベースシステムを使って構築してきた、秘伝のタレ状態の10000件ほどの論文データベースを、退職前にPaperPileに統合した。
その時には所属機関のsubscriptionで課金なくダウンロードできたものも多かったが、退職するといきなり不便な思いをかこつこととなった。
それで工夫を凝らして旧所属機関のアカウントを何とか保持し、今日に至っている。
ところが、今年のはじめから、あちこちに、何とかできそうにない問題が持ち上がってきた。
- PaperPileが、ダウンロードした文献の抄録やPDFファイルを保存するGoogle Driveの容量をほぼ使い切ってしまった。
特にGmailの送受信にも使っているメインのアカウントのGoogle Driveは、もうあと数十MBでメールの受信もできなくなるところまで追い詰められ、しきりに有料のGoogle Oneサービスに移行して容量を増やすことを勧めるメッセージが表示されるが、年金生活ゆえなんとかして無料の範囲でおさめたい。
- メインPCの4 TBのSSDが満杯になって、PaperPileと連動させたいTeX Live 2025をアンインストールしても、PixInsightが動かせなくなってしまった。
Google Drive容量パンクへの対処
chatGPTと協議した結果、Google Oneアップグレードというゴージャスなコースは選択せずに、以下の方針で運用サイズを切り詰めるという現実的な解に到達した。
実際に行った削減方針
- Google DriveのPaperPileディレクトリを丸ごとバックアップして、ダウンロードしたPDFファイルはいつでもリストアできるようにUSBフラッシュディスクに保存する(所詮17 GB以内のサイズであるから、うまくいけば安価な16 GB USBフラッシュにバックアップできる)
- PaperPileに収蔵している論文PDFのうち、10秒以内にリカバリできるものはローカルに持たない(PaperPileにはopen accessのPDFへのリンクは残して、PDFは削除する)
- 同じくPaperPileに収蔵している古いreviewのPDFは削除する(必要になった時には、バックアップからリカバリすると腹をくくる)
- PaperPileに保存されている全エントリはメタデータを含めて、そのまま参照できる状態で残す
- PixInsightの生成する中間ファイルは、処理が終了したら削除して、残すのは元の撮像データと結果だけにする
この方針で作業した結果、Google Driveの使用率は99%から80%に減少、メインSSDにも2 TBほどの空き容量が確保できた。
ついでに、在職時の業務には欠かせなかったクラウドサービスも、そろそろ仕舞いを考える潮時であることに気がついた。
Evernote, Dropbox…をやめるのは身を切られるよりもつらい。いまのところ非常勤の職の特定支出額控除*1で図書費として計上することは可能かどうか検討中。
www.nta.go.jp
ここまでは単なる整理の話だが、問題はその先だった…
空き容量から見えてきた新しい構想
この空き容量を利用して、60年前のepoch-makingな研究が、その後のテクノロジーの進歩とともに進化し、派生した約4000の論文をpubmedで引き、nbib方式で一括ダウンロードしたのをPaperPileに読み込ませた。
そのnbibファイルに含まれるタイトルや抄録から、KHCoderを用いてキーワードを抽出し、それをもとに研究の進化を系統樹として見える化し、SSDの空いたスペースにインストールしたTeX Live 2026で、PaperPileの文献データを連携させて網羅的なreviewにする夢を見ている。
叢雲のように湧いてくる論文をかき分けて探険する知的空間の壮大な旅は、やってできなくもなさそうな気がしているが、いまのところまだ見果てぬ夢でしかない。
*1:給与所得者が次の1から7の特定支出をした場合、その年の特定支出の額の合計額が、給与所得控除額の2分の1相当額を超えるときは、確定申告によりその超える部分の金額を給与所得控除後の所得金額から差し引くことができる制度