最近増えているらしいPDFスパムをxdoc2txtで解析しているという例をお見かけして、このソフトをGoogle Desktop Searchのアドインに登録するユーティリティも発見。PDFファイルを解析してテキストデータへデコードしてくれるのであるが、そうなると思いだされるのが、以前そのテキスト化に艱難辛苦した、ばーじーずたくそのみっくあうとらいんである。するするテキスト化されることに大いなる期待があったが、「パスワードで保護されたWORD/EXCEL/PowerPoint/一太郎/PDFは表示できません。」という1行を読み落としていてぬか喜びに終わりぬ。
結局あれから19か月、あのアプローチはいまだにデータベースをローカルに再構築する唯一のパスウェイのようである。分類のおおもとという、ものがものだけにパスワード保護によるリバースエンジニアリングの回避はやむを得ない措置かもしれないのだが、もしこれがxml形式でダウンロード可能ならどれだけ作業が早く進むだろうと考えてしまうのである。共同研究者になればよいだけのことかもしれないが。[Win]