再解析

 昨晩、解析結果を整理していて、あとawkコマンドを2つ打ったら集計結果が出るというところまで到達したつもりで喜んだら、配列(実験)番号とサンプル番号が必ずしもひとかたまりでないことに気がついて、暗礁に乗り上げる。「次世代」の場合には、複数サンプルにタグをつけて混ぜれば、一回のランで流すことができるので、同じサンプル番号の配列が配列番号のクラスタを作らず、実にランダムに配置されてしまう。解析結果をレスキューしようとすると、60万の配列一本一本について、配列番号から対照表を引いてサンプル番号への対応付けが必要である。awkでやろうとすれば60万行のスクリプトと膨大な計算時間が必要になる。BLASTの結果の出力に配列番号しか出力されないのが敗因であるが、これは仕様上仕方のないことといえよう。
 明け方がっかりして一眠りしたところで、夢でうなされて起きる。夢の中で、ああこれは前に何度も見たことのある禍々しい夢のシリーズであるなと気がついている。かなり精神的に追い詰められていることを自覚せざるをえない。
 もう一度元のファイルで配列番号にサンプル番号を紛れ込ませておいてBLASTするほうが早い、という方針で再解析をスタート。今回のBLASTは30数時間コースになりそうで、非常に強い台風16号の接近で停電など起きないうちにデータをセーブできるかどうかが勝負の分かれ目である。

本ブログではamazon associate広告を利用しています。