やさしくPDF OCR体験版

 もうひとつ、電話帳並みのPDFファイルから基準配列の名前を抜き出すために、Vectorからダウンロードして試用。eTypistを作っていた会社の製品とは、お懐かしい限りである。一度に認識できるのは100ページまでなので、310ページを4回に分けて認識させないといけないが、結果の方はまずまず。少し分解能をあげて最初の100ページを再度試行中。1ページずつTIFFファイルに落としてOCR処理をやることになる。こちらも、ディスクアクセスが続いていて、しばらく時間がかかりそうなので、今晩はこのまま放置して帰宅することに。
 読み取ったテキストを透明化してPDFファイルに貼り付けることもできるそうで、Google Desktopにインデクシングしてもらうにはこういう裏技があったのか、と目からウロコの落ちる思い。
 

Tags: ソフトウェア メタゲ 文献整理 Win
本日のツッコミ(全4件) [ツッコミを入れる]

  knee [昨日の連隊長の御質問は、もうすでに自分は連隊をお離れになっているように聞こえましたが。将軍様も。 現フロンテイヤ〜ン..]
 
  やぢを [ 親分の戦略構想で、同じ連隊ながら本隊を離れ、奇襲部隊に配置替えになりました。]
 
  こけ [某所で聞いてみたところ、http://www.kaoriya.net/OSXvimBBEdit、TextMat..]
 
  やぢを [いつもながらかたじけないですm(_'_)m>こけさま]
 

本ブログではamazon associate広告を利用しています。