計算したい(28) 初商い

 年のはじめの試しとて、KHCoderオフィシャルパッケージBase版のインストールを試みる。
 正月2日で販売会社は休業しているが、オンライン購入でクレジット決済を利用すると、手続き後1時間以内にダウンロードするための情報をメールで知らせてくるとの説明を読み、初商いを決心した。
 まずユーザー登録を行なうが、アカデミックなドメインのメールアカウントを登録することが、アカデミックディスカウント対象機関への所属を証明することを兼ねている。途中で「登録ユーザー本人の使用に限る」こと、「代理購入ではない」ことを誓約させられることを鑑みるに、なんとかしてお安くソフトウェアを入手しようとして人間性をディスカウントしてしまうことが起こったりしたのかもしれない。
 購入手続き終了後約30分で、登録したメールアカウントにメールが届き、記載されていたプロダクトキー、ダウンロードURL、そのサイトへのログインに使うパスワードを用いて、KHCoder OfficialPackage_3.02c(887MB)とインストール説明書をダウンロード。
 2台のPCで使えるライセンスなので、X400とUM890 Proの両方にインストールした。
 解析対象のテキストは、380 MB、468ページのPDFファイルでWordファイルにエクスポートすると、445671単語を含む400 MBのファイルが回収できる。そこからエクスポートしたプレーンなテキストファイルは、たった1.4MBほどにしぼんでしまう(何かバグがあるのだろうか)。エクスポートをWordの.docファイル形式にすると397 MBのファイルになって、KHCoderで23,598行の文章を読み込んで、315,821語を抽出できた。ここまでほぼ想定通りに進んだが、不要な単語が9割を占めるので、別のテキストの索引語になっているものを強制抽出するように設定して、S/N比をあげるように設定するが、いまいち意図通りにはいかず。

本ブログではamazon associate広告を利用しています。