GoogleDesktopSearch★XDoc Ver.1.01

 Google Desktop SearchPDFファイルのテキストからのインデックス作成がうまくいってないように見える点についての補足なり。
 Google Desktop Search★XdocVer.1.01をインストールし、さらに説明書に従ってconfファイルを編集し、PDF読み込みの項のコメントを外して、GDSTweakで再インデクシングさせるとPDFの中までうまく検索できるようになった。一方、Windows Desktop Searchでは従前のGDSと同じでPDF文書が「絶対にあるはずの」キーワード検索で拾えない。PDFファイルそのものに変更はないので当然であるけれど、これが陰性対照ということになる。
 GDSのインデクシング対象にPDF文書を指定しているのに、どうしてこれまで検索できなかったかと考えるに、筆者の私見であるが、GDS本体やWDSのクローリングでは、文字コードの不具合か圧縮のかかったままの文字化けしたテキストから懸命にキーワードを拾っていたのではないかと推量する。そういう意味では、GoogleDesktopSearch★XDocに同梱されているzlib.dllのおかげである可能性が高いのかもしれない。確認は、zlib.dll欠損株を作れば確認できるわけである。
 もっともこのあたりはPDF文書の作りかた(圧縮や保護のかけ方…今回の文献PDFでは保護はかけていないが、公式サイトで公表されているPDFではテキスト読みとりを謝絶するものもある)のバリエーションによっては顕在化しないのかもしれないが、このミッションでは結構クリティカルであった。GDSで最初からうまくいったらNamazuの出番はなかったであろうから…。
 GDSでうまくいくのが確認できたら、豊富とは言えないリソースをWDSに食いつぶされるのもしのびないので、こちら(バージョン4.0で「プログラムの追加と削除」に表示されない例)を参考におかくれいただく。[Google]

本ブログではamazon associate広告を利用しています。