Namazuによる全文検索用インデクシングのおさらい(2)

 昨晩のインデクシング結果を、namazu.cgi経由で検索しようとするとどうしても文字コードが混乱する。しかも、webページ生成用のheaderのテンプレートにと書いてみても無効である。一方、kakasi分かち書きnamazuのインデクシングがうまくいっていることは、索引語ファイルのなかみが整然としていることから明らかである。
 となると、問題の根源がnamazu.cgiApacheにあることは間違いなさそうである。
 というので、どうもApacheのデフォルトのエンコーディングUTF-8に設定されていることによるらしいのである。httpd.confを調べてDEFAULT ENCODING=UTF-8EUC-JPに書き換えて解決。このへんは、知らずにtDiaryをインストールしたらハマってしまうところであったに違いない。
 残る問題は、一部にOCRのかかってないファイルが混入していたことと、ファイルの作成日時を出版日に書き換えること―これはnamazuの検索結果で表示されるので良い手がかりになる。の2点で、すでにOCRの方は昨晩からバッチ処理が進行中である。タイムスタンプの方はOCR処理ずみのものに施すのがよいであろうから、来週なかばからの作業となるであろう。[文献整理]

本ブログではamazon associate広告を利用しています。