awkの威力

 帰宅して夕食をとりながらUSBハードディスクをMacbook Airにつないで、データをコピー。こちらは15分ほどで終了。ついで、X11コンソールを開いて
$ awk 'END {print NR}' SRP002395-7514-cs-nbp-rc.fsa
と入力。カーソルは改行したまま。awkの中をすべてのキャラクタが流れ切るのにおそらく15分くらいはかかるのであろうと予測して、ひと風呂浴びて出てくると、ファイルの中身の行数が表示されていた。その答えは予想通り、
144063406
であった。塩基配列は72,031,703本ということだ。これまでに経験した最大のデータ量の約1万倍のデータ量なり。これが次世代シーケンサを使った国際コンソーシアムのプロジェクトの小手調べ部分の成果なのである。なお、NCBI全体の配列データが100 GBを越えたのは数年前のことであるが、その半分弱のサイズのデータを一気にお茶の間で「テ料理」しているというのは、ちょっと不思議な感覚である。首っ引きのレシピは、自炊した《伊藤博康:入門JGAWK:サンデープログラマのための言語型テキスト変換プログラム》で、MS-DOSにインストールするバイナリをPC-VANとか日経MIXからダウンロードする方法の解説など陳腐化しすぎて新鮮な部分もあるが、シンタックスに関しては全く問題ない。西古松の家から小さかった子どもをニノミヤムセンに遊びに連れて行った時に購入した記憶あり。約20年未来の自分への投資であったということになる。

本ブログではamazon associate広告を利用しています。