一行野郎

初一行野郎樣

大晦日に到着していた業務メールに返信しておいて、open data investigationを続ける。 hatenablogのキーワード検索ページをダウンロードしたHTMLファイルから、VSCで"entry-title-link" classを目印にエントリのURLだけを抜き出すのに、正規表現で試行錯誤…

文献整理2022 season 5 (7) PubMed書誌データをscrapeする

1年分ごとにfetchしたデータはそれぞれ数MB~30MB程度のファイルにおさまり、shell scriptでcatすると600万行ほどのファイルにまとまった。 書誌情報が構造化されて登録されている中で、タイトルと抄録のテキストからキーワードを収集しようとすると、行頭…

ハヤブサなみの応答性でデータファイルの精密調査

昨晩は、コマンドを打ってから答えが返ってくるのに15分ほどかかるのを数回繰り返して早朝になってしまった。寝不足で出勤し、営業部詰めの合間に、awkの一行野郎様でファイルの構造の調査を続ける。 サンプルは1被験者あたり18か所くらいからとっているの…

awkの威力

帰宅して夕食をとりながらUSBハードディスクをMacbook Airにつないで、データをコピー。こちらは15分ほどで終了。ついで、X11コンソールを開いて $ awk 'END {print NR}' SRP002395-7514-cs-nbp-rc.fsa と入力。カーソルは改行したまま。awkの中をすべてのキ…

HTMLの表をExcelに読み込む方法

気象庁ホームページで過去の気象データを表示したのをExcelに読み込ませようとして、ブラウザ上で必要なデータを選択してExcelにコピーペーストすると、すべてのデータが一つのセルに入ってしまうことに気がついた。選択したのをドラッグしていってドロップ…

電話帳並みのディレクトリから抜いたアクセッションナンバーをもとに配列を得る方法

OCRの認識ミスがないので、一旦一つ一つのレコードを改行記号で区切ることができたら後はあれよあれよという間で、昨晩までにExcelに読み込み、ソートをかけながらアクセッションナンバーを縦一列のカラムに分取することに成功。 従来のやり方では、お次は例…

GenBankからのデータダウンロード

朝、かなりブロードな条件でひっかかったwhole genome amplification from single cellのデータにびっくり。そういうカテゴリのものもとりこぼさないように選別すると30万件くらいのデータとなる。11時間がかりでダウンロードしてみれば2.49 GBになる。例に…

bio_excel.xls

849個のファイルを読み込むところまでは機嫌よいが、ワークシートに書き出しを命じた途端、メモリが足りませんとだだをこねる。サブセットでこの有様であるから、いわんやフルセット(4,129個)においてをや。 これは、awkでひとまとめにする方が早そうである…

awkの1行スクリプトでシークエンスファイルを分解

momonga linux 2がネットワークにつながらない件は、見当違いのところを疑って丸二日悩んだ割に、あっさりと解決。問題は、ネットマスクの設定ミス。 で、Pen III 600 MHzデュアルの機械の方がつながったので、早速シーケンスファイルのbzip2で固めたやつを…

awkは語れず

というので、入荷したファイルから削り節を作るスクリプト(katsuw.awk)の捏造に取りかかる。 いろいろとX11コンソールで一行スクリプトを試してみて、行頭に「>」のある行の$NFでアクセッションナンバーがとれることを確認したので、これをファイル名として…

AWKを語らず

てきとーなフィルタを通して不要なものを切り捨てれば、なんとか扱えるサイズになるであろう…と考えて、そういえば「テ料理本」があったはず、と書棚を探すに、見つからず。AWKの第一歩をダウンロードして、第一歩を踏み出す。 が、こういう「鰹節形式」でい…

本ブログではamazon associate広告を利用しています。