やさしくPDF OCR体験版(2)

 TIFFイメージをため込むテンポラリディレクトリをCドライブに掘られるので、OOo.org 2.0などもアンインストールして空き容量を確保、4回に分けてなんとか310ページ分のテキスト化を完了。
 ただし、もともとお作法本のような本で、イタリック書体のところが多く、Nが/Vに、†がtにかわっていたりするのは茶飯事。読み取り分解能は、一応ドキュメントの400 dpiで解析しているのでこれ以上認識率の改善は難しい。
 たった20,000行ばかりなのであるから、必要なところだけ取捨選択して直していこうかと…。古事記の注釈を始めた本居宣長の心境がわかるような気がしてきた。
 追記:できた。変換ミスを片っ端から検索・置換で直していって、認識アルゴリズムの癖というやつは、2度あることは3度あるということを体得。約8時間かかって、8,600行ほどになった。後はこれをExcelに読み込んで…まだまだ先は長い。[Win]

本ブログではamazon associate広告を利用しています。