サバティカルデータ解析

 それで、6月14日の自然誌の記載を参考に、HMPのホームページからたどっていってパイロシーケンスされたおよそ7200万本分の塩基配列の詰まったファイルをダウンロードするのであるが、これがbzipで圧縮かけて2.7 GBである。遠慮してftpプロトコールでダウンロードするのに2.5時間。これを7-zipで解凍するのに30分。できたファイルが、40 GBのテキストファイル1本というのもいさぎのよい話であるが、shellで確かめたら中身は単純なFASTAファイルである。このあたり、1000Base-Tと既存の基幹PCの性能限界スレスレであり、おうちのY!BBで内職するような規模から100倍は大きい。
 急遽、データを収めるためのUSBハードディスクを用意。フォーマットに4時間、コピーに30分と今のところはデータ転送が律速段階なのである。これからの解析マシンにUSB 3.0は必須である。
 ここから先はテキストエディタなど役に立たないから、やはり一行野郎様の出番であろう。

本ブログではamazon associate広告を利用しています。