仮想書籍の虫干し(3)ハイスループットな文献コピーの電子化

 昨日は、2台のスキャナを稼働させ、PDFのとれないinhouseの会議の配布資料や古い文献のデジタル化に半日以上を費やす。台風の接近もほとんど気にならないくらい夢中になっていて、最接近を迎える頃あわててほうほうの体で退去したのであった。
 さて、筆者の死蔵していた多くの文献は、ある時期までは両面コピーで、その後A3見開きでセンターをあわせてコピーをとって、二つ折りしてホッチキスで綴じてある。数年前からは、PDFから両面プリントしたものに変わる。積み上げると1 mとはいかないまでもかなりの厚みになる。出世(?)すると両面コピーをとる暇もなくなるくらいこき使われることがよくわかる。というより、見開きを両面コピーにとれる機械が身の回りにない職場に来てしまったというべきか。
 過去にさかのぼってPDFをとれるのは、PNASくらいで、Natureは1992年以前、Scienceも1995年あたり?より前は有料になっている。さらに今では社が契約を打ち切ってしまって以前コピーをとった論文のPDFがとれないものもちらほらとある。こういうのはscanするにかぎるのだが、これがちょうどA3二つ折りの暗黒時代にぶつかっているのである。なるだけ手間をかけたくないということで、ホッチキスを外して二つ折りのままスキャナに突っこんでみると、ペーパージャムが多発してとても仕事にならない。
 そこで一計を案じ、折り返し部を3mmほどカットする。幸いにも営業課にロータリーカッターがあるのでこれでシュパッとカットするとページあたり1枚の紙に変身するわけである。このまま両面読み取りをして空白のページを自動削除させてもよいが、ホッチキスの穴で引っかかって起こるマルチフィードやペーパージャムが多発するようなら一応表裏くらいは手で合わせて片面スキャンするのが得策かもしれない。なお、スキャナに入れるサイドを軽く谷折りしておいてから仕分けすると、仕分け後の紙が谷折り→山折り→…となって、マルチフィードが発生しにくいいい感じのさばけ方になることがわかった。
 これをScanSnapにセットして、スキャンさせる。なお、searchable PDFにするためのOCR処理は夜中の間にバッチで行わせることにして、ここでは素のPDFファイルを保存するモードにする。スキャナから排出された紙がそのままゴミ箱に入るように置くと、後は文献を「給紙」してはスキャンボタンを押すというループに入る。
 後日記:読み取りの解像度と画像圧縮度を検討したところ、600 dpiのカラーレーザープリンタに出してもちゃんと読める最低条件は、スーパーファイン、カラー写真の再現性を考えると圧縮度2あたりがよいであろう。ただし、白黒カラー自動判別モードで取り込むと、白黒ページは1 bitビットマップ画像、カラーページは24 bitフルカラー画像として保存されてしまう。白黒写真を含むページのための8 bitグレイスケール画像として保存されるモードが用意されていないのである。したがって、白黒写真の入ったページをスキャンする場合は、フルカラーモードに設定しておく必要がある。フルカラーモードでは単なるテキストだけのページも24 bitフルカラー画像として保存されるので、全体としてファイル容量が大きくなってしまうことに注意が必要である。一方、OCRに関しては印刷原稿そのものの印字品質にもよるが、最低の解像度(ノーマル)と最高の画像圧縮度(5)でも誤認識は生じなかった。
 ハイスループットぶりの実測値は後に記載することとして、数年分の勉強の成果が数時間のうちにブラックホールに呑み込まれてしまうというのも痛快。本日のパフォーマンスは、約6時間で209報、600〜700ページ読み込み。ディスク使用量は(今はOCRデータの付加中であるので未確定であるが)5.6 GBとなっている。先の大統一PDFファイルフォルダとあわせるとすでに20 GBを越えている。まあ、まだおしまいが見えない程度には文献持ちであるので心配は無用であるが、倍の40 GBには届くまい。
 こういう作業をやっていると、つい思い出してしまうのが政権基盤を揺るがした、例のあの消えた記録問題である。筆者の文献などは、ほとんど古文書に域に達したものであるし、もともとのコピーを再入手することもまあ可能であるので、別にマルチフィードで1ページ読み飛ばしていないかどうか厳密なチェックをしているわけではない。そんなことをしていたら能率があがらないからでもあるのだが、ふと、こうやって機械的に食わせる作業を続けるうちに、ついつい読み込んだつもりで確認もせずにシュレッダにかけてしまうような心理状態にいたったと説明されればわからんでもないな、などと思われるのである。[文献整理]

本ブログではamazon associate広告を利用しています。