xdoc2txt 1.30 R2

 本日は終日執筆。その中でどうしても1700編のPDFファイルからOCRで抽出したテキストの長さについて言及しなければならなくなって、これをなるだけ簡単に調べるにはどうしたらよいかと考えていて、以前検討したxdoc2txtを試してみる。
 エイリアスを作って(というのは懐かしいMacOS流の呼び方である)ドラッグ&ドロップ、というのはどうもうまくいかない。xdoc2txt.exe本体をProgram Filesフォルダ直下にコピーして(パスが通るようにしておいて)コマンドプロンプトからxdoc2txt -f *.pdfとコマンド一発でカレントディレクトリのすべてのPDFファイルの(この場合には)OCRテキストが同名の.txtに流し込まれるというのは、脳内麻薬が出っぱなしになるくらいの快感である。あとは、dir > directory.txtとでもしてディレクトリの情報をテキストにして表計算ソフトに読み込めばよろしい。
 それで平均2.0 ± 1.7 MBのPDFファイルをテキスト化すると約1/80、たった26 ± 16 KBになってしまうことが判明した。マルチフォントの面などでプレーンテキストでは情報が欠落してしまうところもあるが、その代償になんとファイルサイズの膨れ上がることであろうか。と感嘆。
 Adobe Acrobat 7 Standardで行ったOCRにはかなり誤変換が含まれるのもorzなところである。これもあらかじめxdoc2txtで作ったテキストファイルで誤変換をプルーフリードしたのを対象にmknmzして、リンクはもとのPDFファイルに対して張るように設定すればよい。しかし、そういう精度向上の試みは次の機会にということになるであろう。すでに上の子も温泉都シティーへの撤退準備に入っているし。[文献整理]

本ブログではamazon associate広告を利用しています。