Mac miniで初期解析のやり直し

 本店営業部での接客の合間を縫って、40 GBのFASTAファイルをtrで一本化。続いてawkにて制約条件で何段階かのふるいにかける。今回は悪知恵を働かせて、塩基配列長に下限を設けており、これで40%ほどの配列がドロップアウトして600,000本ほどが残る。筆者の要求するクオリティでは1サンプルあたりの使えるデータは2,000本くらいになって(解析は)楽でよいとしても、20 bpとか30 bpの配列が堂々と公開されているのはいかがなものか。むしろ半分以上が520 bp超読めていることに感激すべきであろうか。まあ、このくらいのリードでかなり精密に群集構造が読めるという腹づもりなのであろう。
 それで、ファイルサイズが500 MBを切ったので、細工の仕上げをmi(耳かきエディタ)の文字列置換でと思ったら、正規表現エスケープシーケンスの書法がxyzzyと異なることに気がつく。xyzzy流に\n(改行)と書いても一向に検出されないのは、mi流では改行は\rであるからなのであった。

本ブログではamazon associate広告を利用しています。