CDデータベースファイルの大きさ

 筆者は、所有するCDとともに、これから買いたいCDを一緒に管理したい。
 持っているCDをドライブのスロットに放り込めば、(例えば)iTunesが自動的にオンラインのGracenoteなどのデータベースにアクセスしてアノテーションデータがセットされる。
 しかし、これから買いたいCDについては、Amazonのwishlistで管理している方が多いのではないだろうか。
 両方合わせて、CDリストから演奏者や作曲者や曲名で検索してほしいCDにマークをつけて、入手できたら入手ずみマークに変わるとよいと考えた。
 そのために必要なのは、CDデータベースの元のデータセット一式である。CDなんてまあ、40年前にはなかったのであるから、その種類は有限である。古今東西のCDは一体何種類なのだろうか。それらのデータを全部合わせると一体どのくらいのサイズになるのだろうか?読者のみなさんもぜひご一緒に考えてみよう!
 色々調べてみたら、freedb-complete-date.tar.bz2の大きさは、強力なbzip2アーカイバで凍結してあって1 GBにも満たない。とは言え、以前600 MBくらいのアーカイブファイルをほどいてみたら20 GB超にインフレートしてのけぞったこともある。油断は禁物である。
後日記(2017.11.21)>1時間かけてftpダウンロードしたfreedb-complete-20171101.tar.bz2 (946.5 MB)をおよそ100分かけて解凍すると、classical CDのフォルダの中には、354,131枚分のCDの情報が別々のテキストファイルとしておさめられていて、サイズは(計算が全く合わないのであるが)「453,662,166バイト(1.46 GB)」と表示される。他にblues, country, data, folk, jazz, misc, newage, reggae, rock, soundtrackジャンルがあり、全部合わせると3,748,294枚分のデータが「3,852,961,308バイト(15.43 GB)」に収まっているということである。このdiscrepancyはよくわからない。

本ブログではamazon associate広告を利用しています。