OCRの認識ミスがないので、一旦一つ一つのレコードを改行記号で区切ることができたら後はあれよあれよという間で、昨晩までにExcelに読み込み、ソートをかけながらアクセッションナンバーを縦一列のカラムに分取することに成功。
従来のやり方では、お次は例の巨大なファイルをダウンロードして解凍し(おそらく10 GB以上になるであろう)、こけさんのお手を煩わせて巨大なファイルを読み込めるエディタを探しまくったあげくに、awkの一行野郎様で一アクセッションナンバー一ファイルにする、ということであった。
しかし、今年は一味違う。アクセッションナンバーをまとめたカラムに100ずつのところに印を入れて、csvファイルでセーブ。その後、xyzzyで読み込んで文字列置換によって、1行に100個のアクセッションナンバーが並んだ状態を作る。これをEntrez nucleotideのqueryに入れると、100本の配列がきれいに並んで返ってくる(Entrezはqueryの100ワード目までしか見ないというので、100個ずつに小分けしている)。見事である。これをFASTAでセーブする、というのを45回繰り返して目的の配列の取得を完了。
後は、この45のファイルをマージするだけなのであるが、どうも間違いが起こりそうで、なかなかこわい。HTMLでファイル読み込みのスクリプトが書けなかったであろうか。いや、JavaScriptか?とか混乱しながら、往年のデファクトバイブルがSst Iに貸したまま行方不明になっているのに気づく。さらにこちらも偉大なる大将軍様が借りていったまま、返却を見ていないことを思い出す。[メタゲ]