配列解析

 というので、腹をきめてデータをダウンロード。系統計算を最短時間で終わらせるために、あらかじめ文字列ソート、local BLASTで同じものをふるいわけしてまとめたり、アセンブルしてしまうことにし、タグ打ちには最も適していると思われるXML形式でのダウンロードを選択。
  約8000本の配列が2.0 GBのXMLにおさまった。以前収集したこれとかこれをダウンロードし直さないといけないのはとてもつらく、気持ちが萎えてしまいそうである…。これらのファイルから、csvファイルを生成するXSLファイルを書いて、まずは表計算ソフトに読み込んで同じ山の中で配列が1字1句一致するものをまとめる。どれとどれがアイデンティカルかは新設したタグに書き込むとして、これをもう一度XMLに戻して、今度はFASTAに変換し、別の山で残ったものとlocal BLASTで比較して、多くのものは部分配列なのでそれをアセンブルして長さを稼ぐとともにさらに統合する段取りであるが、さて、この最後の「おまとめ」をどのくらい自動化できるかが、作業の進捗を大きく左右する。数万の配列から最終的に残るのは一体どのくらいであろうかと、楽しみではある。[XML]

本ブログではamazon associate広告を利用しています。