読取革命V11の辞書を鍛える

 一日がかりで、舊字を使ふ業界用語を覚えさせる。まず、以前スキャンしたキーワード集をOCRし、変換ミスしている字を辞書登録していく。かなりごちゃごちゃ入り組んだ舊字の中には正しく変換される確率がゼロというものもあった。このあたり2つのペインで画像とOCR結果を見比べながら作業自体は円滑に進む。さらに、仕上がったキーワード4000個をテキストで抜いて専門用語辞書に登録してしまう。ここまでチューニングすれば、もう一度もとのファイルをOCRしても誤変換が生じるはずもないと思っていたら…頑として誤変換する強情さに呆れるのを通り越して泣かされる。ひょっとするとこれはスキャンしたイメージでは解像できないということかも…
 さらに、これだけ鍛えたところでPDFファイルをバッチ処理する方法がないことに気がつくのはorzである。指定フォルダをフェッチしてOCRする機能はあるがその対象は画像ファイルのみでPDFは無視される。いや、鍛え甲斐がない分、諦めがつくというべきか。
 あわててネットで調べたところによれば、PDFのOCRバッチ処理できるのは、どうもe.Typist V12であるようだ。以前SCSI接続のハードウェア込みでMacでお世話になっていたそのv2あたりから安価にアップグレードできそうなのであるが、旧版のシリアルナンバーなど、とっくの昔に廃棄してしまったような気がしてならない。明日仕事の合間に必死で探してみるつもりではある。とは言え、バージョンアップをお考えのお客さまにあてた説明文の中には、V12のWin Vista対応にあたり「認識結果をPDF(pdfFactory)ファイルに出力する」機能は割愛されたと、不吉なことが書いてある。V11の売れ残りを探すべきかもしれない。[文献整理]

本ブログではamazon associate広告を利用しています。