
ポータブル音楽プレーヤーで聴く音楽ファイル(MP3、AAC、WMAなど)は、原音の忠実な再現という点では、かなり粗悪なものです。しかし、その粗悪さはこれまであまり知られていませんでした。
オーディオデータの圧縮は、本質的には非常にシンプルです。ソフトウェアは、冗長性を取り除き、離散的な時間間隔でオーディオ信号を近似することで、デジタルオーディオデータを圧縮します。サンプル時間間隔が長いほど、近似の精度は低下します。そのため、サンプリングレートが高い(サンプリング時間が短い)MP3は、サンプリングレートが低いMP3よりも高品質になります。
人間の耳が音声圧縮アルゴリズムの理論的な限界を識別できるほど正確かどうかを検証するため、ニューヨーク市ロックフェラー大学の物理学者ジェイコブ・N・オッペンハイムとマルセロ・O・マグナスコは、被験者に音を聞かせました。研究者たちは、被験者が音のタイミングと周波数の違いを区別できるかどうかを調べたかったのです。この研究の基本的な根拠は、MP3コーデックなど、ほぼすべての音声圧縮アルゴリズムが、人間の聴覚システムの仕組みを科学者が詳細に理解するずっと前から開発された線形予測モデルに基づいて信号を外挿しているという点です。この線形モデルは、音のタイミングと周波数には特定のカットオフ限界があるとしています。つまり、ある時点で2つの音の周波数または時間が非常に接近し、人間は違いを聞き取れないということです。さらに、時間と周波数は関連しており、一方の軸(例えば時間)の精度が高くなると、もう一方の軸の精度はそれに応じて低下します。人間の聴覚が線形規則に従うのであれば、高品質のファイルと元の録音の間で品質の劣化は聞こえないはずです (十分に高いサンプリング レートが与えられている場合。192kbps のひどいリッピングの話ではありません)。

実験は5つの課題に分かれており、被験者は基準音とそれとは異なる音を組み合わせた音を聴取しました。これらの課題では、以下の点がテストされました。
1) 周波数の違いのみ
2) タイミングの違いのみ
3) 気を散らす音の周波数の違い
4) 気を散らす音とのタイミングの違い
5) 周波数とタイミングの差を同時に測定する
多くのオーディオマニアにとっては驚きではないと思いますが、人間の聴覚が線形応答曲線を描いていることはまず間違いありません。実際、最も複雑だと考えられていたタスク 5 では、被験者の多くが線形モデルが予測するよりも最大 13 倍も鋭敏に音の違いを聞き分けることができました。音の時間と周波数の違いを最も巧みに聞き分けていたのはミュージシャンでした。エレクトロニック ミュージシャンの 1 人は、約 3 ミリ秒間隔で鳴る音を聞き分けることができました。これは、音の 1 つの周期がわずか 2.27 ミリ秒しか続かないため、注目に値します。同じ被験者は、周波数の区別では他の人ほど良い成績を収めませんでした。別のプロの音楽家は、周波数の区別に優れ、音の時間的な区別も得意でした。

さらに興味深いことに、研究者たちは、作曲家と指揮者が課題5において最も優れた成績を収めたことを発見しました。これは、交響楽団全体の中で同時に演奏される多数の音符の周波数とタイミングを識別する必要性が高いためです。最後に、研究者たちは、被験者のほとんどにおいて、音符間の時間差を識別する時間的洞察力が、周波数洞察力よりもはるかに発達していることを発見しました。
では、これは一体何を意味するのでしょうか?著者たちは、オーディオエンジニアはオーディオ圧縮へのアプローチを再考すべきであり、場合によっては圧縮を実現するために使用している線形モデルを完全に放棄すべきだと明言しています。また、オーディオ処理アルゴリズムの見直しは音声認識ソフトウェアの性能向上につながり、ソナー研究や電波天文学への応用も期待されています。これは素晴らしいことですが、これらのコーデックが利用可能になったからといって、自分の音楽コレクション全体をリッピングし直すのが待ち遠しいとは思えません。