3Dゲームのサウンドにデバイスのバーチャル7.1サラウンドが必ずしも有用ではない理由

現在のゲームのサウンドはOSの仕様上『デバイスに依存しない設計』で出力されている。

ゲームエンジンによってゲーム内の3D空間の任意の座標から発せられるサウンドが処理され、OSのミキサーを介してそのデータを受け取った『サウンドデバイス』にはただ再生する働きしか要求されていない。

デバイス独自のアルゴリズムによる『バーチャルサラウンド』が適用されるのはゲームエンジンで演算された『処理済みのステレオないし5.1/7.1chの音源に対してのみ』で、オブジェクトベースのサウンドのパフォーマンスを向上させることは原理的に不可能。

人間の聴覚は『ステレオ』であり、LとRのスピーカーの振動板から発せられる『2つの波形』によってすべての音源を認識し、脳がそれぞれの音を聞き分けている。

ステレオの再生能力の高いデバイスを使用し、サウンドはゲームエンジンにすべて任せるのが最適である。

人間が2つの耳であらゆる方向からの音を認識できるのは、『時間差』『位相差』『頭部や耳たぶに吸収・回折される際の高音成分の減衰』によって左右の耳に到達する波形の微妙な違いを脳が聞き分けられるようになっているため。
ゲームエンジンはそれに基づいて可能な限り適切にサウンドを生成しているので、デバイスによる処理を二重に適用するとかえって定位を損なってしまう。

バーチャルサラウンドのメカニズムは左右の音声に対し『遅延』『位相差』『音量差』を追加することであり、心理的に『離れた位置』から聞こえるような音響を再現し、非常に広い空間で聴取していると錯覚させるものになっている。


今日のほとんどすべてのゲームタイトルのサウンドがデバイスに依存しない設計になっている以上、
デバイス側のアルゴリズムで演出されるバーチャルサラウンドを適用しても定位はよくならないどころか、
余計な残響・遅延・逆位相の音が追加されることでぼやけてしまう可能性が非常に高いです。

ゲームに特別なサウンドデバイスが有用であるというのはWindows XPよりも前、
現在のOSとゲームのサウンドエンジンとは動作が異なっていた時代の話です。
当時はサウンドデバイス側の機能によってゲーム音声が再現される仕様でしたが、
それはすでに廃止され、ゲーム側で処理が完結するようになっています。

もともと3Dゲームのサウンドはステレオで最適な定位を得られる仕様です。

重要なのは、「7.1chであっても最終的に”ステレオの耳”で聴取している」ということです。
「7.1chのほうが情報量が多く、FPSゲームには有利になる」というのは誤解です。
チャンネル数の多い音声信号を用いるのは「ステレオヘッドホンの情報量を増やす」のが目的ではなく、
映画館のような物理的に広い空間の任意の位置にいる聴衆に適切な音響を届けるため」なのです。
両耳に密着して聴取するヘッドホン・イヤホンにはそれが当てはまらないし、
あえて映画館の音響を再現したところでどうして定位が向上すると思うのでしょうか。
定位ではなく臨場感や迫力は向上するかもしれませんが……

人間の聴覚は本質的に「ステレオ」であり、耳の形状の非対称性や、頭部・肩などの部位が
物理的な「障害物」として作用する際の音のわずかな遅延・減衰・位相の変化を脳が認識し、
方角や距離を瞬時に把握できる構造になっています。

このメカニズムが理解されるようになったのは1930年代以降のことです。
かつて「立体音響」というのは、聴者の周囲に設置された無限個のマイクで収録した音声を、
無限個のスピーカーから再生することが理想的であると考えられていました。
想像してみてください。
自分の周囲がマイクとスピーカーで埋め尽くされている光景を……。
しかしそれは失敗に終わり、やがて「ステレオ」の概念が確立されていったのです。

一人称視点で繰り広げられる3Dゲームは、このような人間の聴覚を再現したサウンドを生成し、
デバイス側の機能によらずステレオヘッドホンで最適な音響を得られるようになっています。

「サラウンド」の処理はゲーム側ですでに行われているので、デバイスで処理を重複させると
逆効果になるということを私は繰り返し強調しています。
サラウンドが二重に適用されるために本来の定位が損なわれ、独特のスカスカな音になり、
左右や前後があいまいに感じられる不適切なサウンドになってしまうことが多いです。

自分の「周囲」から出ている音の方角や距離がぼやけてしまううえ、
自分自身(主人公)が発する音にまで余計な残響が加えられるため、
本来のゲームサウンドよりも劣化して聞こえることがほとんどです。
それだけでなく、ゲームのBGMやナレーションなど「定位とは関係のない音声」にまで
サラウンドが適用され、全体的に不適切な音響になります。

毎度毎度、ゲーミングオーディオデバイスを購入するユーザーがそれを学習しないため、
メーカーが味をしめて同じような製品を延々と販売し続けているのが現実です。


大切なのは人間の聴覚に合わせることであって、マルチチャンネルサウンドを強制することではありません。


「両耳に密着して聴取するヘッドホン・イヤホン」と、「部屋に据え置きのスピーカー」の違いを考えましょう。

耳に密着しているヘッドホンというのはそれ自体が高い遮音性を持っているため、
左右の音声が不必要に混ざり合って聞こえる現象(=クロストーク)がほとんど発生しません。
左の耳にはLチャンネルの音だけが聞こえるようになっています。

では部屋に据え置きされたスピーカーはどうでしょうか。
耳に密着しているヘッドホンと違い、空間を伝わる間に左右の音声が混ざり合います。
Rチャンネルの音は右耳だけでなく左耳でも聞こえるということです。
これをクロストークといいます。

バーチャルサラウンドというのはこのクロストークをデバイスやそのアプリで追加し、
あたかも広い空間でスピーカーから出ているような音響を再現する技術なのです。

7.1chのサラウンドも同様にフロントLR・サイドLR・リアLR・センター・サブウーファーの
各チャンネルをクロストークによって再現しています。

クロストークというのはバーチャルサラウンドそのものであるため、
LRの独立した音声テストでは必然的に悪い結果が出ます。


各チャンネルの音声が独立した定位を再現しているものと思っている人が多いですが、
最終的にステレオへダウンミックスしなければすべてのチャンネルを再生することができないため、
元の音源がマルチチャンネルでない場合はほとんど意味がありません。

7.1chの音源をダウンミックスせずに再生すると、
フロントのLチャンネルとRチャンネルしか聞こえなくなってしまいます。
これはステレオよりも圧倒的に不利な音響です。

サラウンドは多重音声信号を収録した映画のDVDなどを視聴する場合には有用ですが、
3Dゲームはもともとチャンネルベースではなくオブジェクトベースの音源を処理しており、
サウンドはチャンネルに依存せず、ステレオヘッドホンで聴取するものとして設計されているので、
ことさらマルチチャンネルにこだわる必要はありません。

ゲームにおいてはステレオ信号を7.1chにアップミックスするのは愚の骨頂であり、
ぼやけたり、距離がわかりにくくなったりするだけの残念なサウンドになります。

7.1chで収録されているゲームであっても、ステレオの再生環境のほうが一般的であるため、
必ず「ステレオヘッドホンで最適に聴取するサウンドオプション」を設けてあります。
デバイスに合わせて7.1chで出力するより、ステレオに最適化したほうが効果的です。

再生しようとしている音源がステレオかマルチチャンネルかも把握せずに、
無条件でサラウンドのほうがいいと考えてしまうのが間違いなのです。

もう一度いいますが、
大切なのは人間の聴覚に合わせることであって、マルチチャンネルサウンドを強制することではありません。

音源に対する位相差やローパスフィルターがどのように知覚されるかを理解しやすい動画。
これはサウンドエンジンによる相違であってデバイスの処理ではないことが重要です。


移動する複数の音源の処理や反響の与える影響がよくわかる動画。
どこにも「7.1サラウンド」の出てくる余地などありませんね。
まさに人間の聴覚が「ステレオ」だからです。


「最終的にステレオヘッドホンで聴取している」という重要な概念を理解できれば、
7.1chをステレオにダウンミックスするよりも、ステレオで生成されたサウンドを
そのまま再生したほうがいいということがわかります。

DolbyやDTSのテクノロジーはサポートしているゲームであれば有用かもしれませんが、
やはり本質的にステレオの出力であるため、デバイスそのものに要求されることではありません。
ブランドやライセンス料といった利権の関与が大きいということを覚えておいてください。

ステレオの基本的な処理と再生能力の高いサウンドデバイスを選ぶことが最適です。
サラウンドはソフトウェア的な処理であり、OSやゲームそのものに実装されているので、
現代のサウンドデバイスに求められる要素ではありません。
ステレオの能力が高ければ、サウンドの処理などソフトウェア側でいくらでもできるからです。


私はバーチャルサラウンドをかたくなに否定しているかのように思われるかもしれませんが、
否定というよりも、デバイスメーカーのプロモーションと実態が食い違っている点を指摘しています。

ゲームエンジンに実装されているサラウンドには効果がある、というか必須なものです。
ユーザーが意識しなくてもゲームはそのサウンドエンジンで動作しているからです。
しかし多くの人が考えている「バーチャルサラウンド」は、ゲームエンジンで生成された音の、
「出口で独自の加工を施している」に過ぎません。

だから本当に従来の音声を超えるものを実現するためには、
ゲームエンジンに対して技術を適用する必要があるということです。

音の出口でどんなに加工したところで、元の音声よりよくなるはずがありません。

人間の左右の耳には0.6ミリ秒(1/1700秒)未満の遅延を認識する聴覚があるため、
デバイスによるゲームサウンドの加工がわずかでも遅れていれば、
それだけ本来の定位を損なわせる可能性があるということを意味しています。

「そんなに短い遅延を聞き分けられるわけがないだろう」と思いますか?

人間の左右の耳は20cmほど離れています。
空気中を伝わる音の速さは秒速340mです。
左右の耳の間隔0.2mを音速の340m毎秒で除算すると0.000588235…

耳間と音速の計算により左右の耳に到達する音は最大で0.6ミリ秒ほどの遅延をもたらすことがわかります。
つまり3時方向(真右)から発せられている音が右耳に到達すると、
その1/1700秒後に左耳にも届くということです。

音源が2時の方向になるとより遅延が小さくなるのですが、
人間の聴覚がそれを認識可能であるからこそ「2時方向から聞こえた」と判断することができるのです。

左右の耳に到達するわずかな時間差によって音の方向を認識しています。

さらに詳しく見ていくと、自分の頭部が障害物となり、
音の波が吸収されたり回折したりして音量が若干小さく、
位相も変化したものが左耳には到達するということも理解できます。
人間の聴覚はこの音質の違いを認識できるため、音源が後方であっても前方であっても
聞き分けることが可能になっているのです。

そして3Dゲームは本質的にこのメカニズムに基づいたサウンドをリアルタイムに生成し、
デバイス(ハードウェア)の機能に依存せず、ステレオヘッドホンへ出力するようになっています。

デバイスによるクロストーク処理が1ミリ秒以上遅れているとすれば、
人間の耳には同一音源ではなく「別の音」として認識され、
「右から出ている音なのに左から聞こえる気がする」ような感覚に陥る可能性があります。
おそらくデバイスのバーチャルサラウンドは根本的に遅延が大きすぎるために
ろくな結果をもたらさないのだと考えられます。

ゲーム側で最適なサウンドが生成されているのに、どうしてバーチャルサラウンドを
わざわざ利用しなければならないのか??????
というのが私の投げかけている最大の疑問なのです。



とはいえ私はバーチャルサラウンドを気に入っている人や、慣れている人を否定していません。

究極のところ、自分の好みの音響でゲームをプレイすればいいのです。
サラウンドを気に入っているのであればぜひとも有効にするべきです。


ステレオかマルチチャンネルかは賛否あるものとして考えていくのが建設的でしょう。
一概に否定しても肯定しても思考停止に陥ってしまうからです。



イヤホンにもヘッドホンにもステレオスピーカーには物理的な「上下」はありません。
イヤホンを上下逆に(つまりシュアがけのように)つけても正しく聴取することができます。
ゲームの音声が上下逆に聞こえて混乱するようなことは決してありません。

このことからも足音や銃声を聞き分けるのにデバイスそのものの構造は無関係であることがわかります。
ゲームの音響は、グラフィックに連動したサウンドエンジンの演算によってリアルタイムに生成され、
最終的にヘッドホン端子から出力されているだけなのです。

しかしイヤーピースやヘッドバンドの長さを適切に合わせないと、左右のバランスが悪くなったり、
遮音性が低下して聞き取りにくくなったりするので注意してください。
もちろん「左右」を間違えないように……。


もしゲームのサウンドがデバイスに依存する仕様だとしたら、
スマホゲームをプレイする場合にサウンドカードをどうやって実装するというのでしょうか?
一部のノートパソコンが対応している「外付けビデオカード」のようなものが必要なのでしょうか?
そんなことはありません。

スマホ用のUSB DACやBluetoothオーディオもパソコンと同様、
ゲームエンジンで生成されたサウンドを出力するだけの構造です。

2 件のコメント:

質問や話題の投稿等お気軽にどうぞ!