昨晩のインデクシング結果を、namazu.cgi経由で検索しようとするとどうしても文字コードが混乱する。しかも、webページ生成用のheaderのテンプレートにと書いてみても無効である。一方、kakasiの分かち書きとnamazuのインデクシングがうまくいっていることは、索引語ファイルのなかみが整然としていることから明らかである。
となると、問題の根源がnamazu.cgiとApacheにあることは間違いなさそうである。
というので、どうもApacheのデフォルトのエンコーディングがUTF-8に設定されていることによるらしいのである。httpd.confを調べてDEFAULT ENCODING=UTF-8→EUC-JPに書き換えて解決。このへんは、知らずにtDiaryをインストールしたらハマってしまうところであったに違いない。
残る問題は、一部にOCRのかかってないファイルが混入していたことと、ファイルの作成日時を出版日に書き換えること―これはnamazuの検索結果で表示されるので良い手がかりになる。の2点で、すでにOCRの方は昨晩からバッチ処理が進行中である。タイムスタンプの方はOCR処理ずみのものに施すのがよいであろうから、来週なかばからの作業となるであろう。[文献整理]