JP2024119834A

JP2024119834A - ボリュメトリックオーディオソースのための空間広がりモデル化

Info

Publication number: JP2024119834A
Application number: JP2024082256A
Authority: JP
Inventors: ブルーイン，ウェルネルデ
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2020-07-22
Filing date: 2024-05-21
Publication date: 2024-09-03
Also published as: US20230353968A1; CN116113918A; WO2022017594A1; JP2023534862A; EP4185945A1; JP7493673B2

Abstract

【課題】所与のリスニング位置におけるリスナーが受信したオーディオに著しく寄与するボリュメトリックオーディオソースの幾何学的広がりの部分を決定するための極めて低複雑度のパラメトリックモデルを提供する方法およびシステムを提供する。【解決手段】リスナーのためのオーディオソースをレンダリングするための方法８００は、オーディオソースの空間広がりを示す空間広がり値を取得することｓ８０２と、オーディオソースとリスナーとの間の距離を指定する距離値を取得することｓ８０４と、距離値がしきい距離値よりも小さいかどうかを決定することｓ８０６と、距離値がしきい距離値よりも小さいと決定したことの結果として、有効空間広がり値を使用して、リスナーに対してオーディオソースをレンダリングすることｓ８０８と、含む。【選択図】図８

Description

ボリュメトリック（ｖｏｌｕｍｅｔｒｉｃ）オーディオソースのための空間広がり（ｓｐａｔｉａｌｅｘｔｅｎｔ）モデル化のための方法およびシステムに関する実施形態が開示される。

ＸＲ（仮想現実、拡張現実、または複合現実）シーンは、そのシーンの空間内に空間的に分布された多くのオーディオソースを含み得る。これらのオーディオソースの多くは、空間における特定の明確に規定されたロケーションを有し、点状のソースと見なされ得る。これらのオーディオソースは、一般に、リスナーに対して点状のオーディオオブジェクトとしてレンダリングされる。

しかしながら、ＸＲシーンはまた、しばしば、点状の性質というよりむしろボリュメトリック性質のものであるオーディオソースを含んでおり、これは、オーディオソースが１つまたは複数の空間次元におけるある空間広がりを有することを意味する。

いくつかの場合には、そのようなボリュメトリックオーディオソースは、シーン中の単一の物理的エンティティ（たとえば、飛行機、ピアノ、列車、工場における輸送パイプなど）に対応し得る。これらのボリュメトリックオーディオソースのうちのいくつかは、単一コヒーレント（ｃｏｈｅｒｅｎｔ）オーディオソースとしてオーディオを放射し得、他のものは、より、空間的に広げられた拡散（ｄｉｆｆｕｓｅ）オーディオソースのように、オーディオを放射し得る。

他の場合には、単一の物理的エンティティに対応するのではなく、ボリュメトリックオーディオソースは、ともに複合ボリュメトリック（ｃｏｍｐｏｕｎｄｖｏｌｕｍｅｔｒｉｃ）オーディオソースと見なされ得る多数の（おそらく、さらに連続体の）非依存オーディオソースを含んでいる、シーン中のエリアを表現し得る。このタイプのボリュメトリックオーディオソースの例は、海辺の海岸および混んでいるハイウェイである。混んでいるハイウェイの例では、各車は、原則として非依存オーディオソースであるが、多くの車がその上にあるハイウェイは、複合ボリュメトリックオーディオソースと見なされ得る。

上記で説明された海岸およびハイウェイの例のように、多くの場合、ボリュメトリックオーディオソースの空間広がりは、その空間次元のうちの１つまたは複数において極めて大きくなり得、いくつかの場合には、これは、（たとえば、リスナーからボリュメトリックオーディオソースまでの距離に関して）事実上無限に大きくさえなり得る。

一般に、ＸＲシーンについてのシーン説明データは、ボリュメトリックオーディオソースの広がりを、ソースの物理的ジオメトリに関して指定する（たとえば、１つまたは複数の次元におけるソースの物理的サイズ、またはソースの物理的ジオメトリを説明する幾何学的メッシュ構造）。ソースのこの指定された物理的ジオメトリは、一般に、ＸＲシーン中のいくつかの対応する物理的（また、しばしば、視覚的）エンティティ（たとえば、車、ピアノなど）の物理的ジオメトリに直接関係する。

しかしながら、上記で説明されたように、ボリュメトリックオーディオソースは、上記で説明された海岸および混んでいるハイウェイのように、１つまたは複数の次元において物理的に極めて大きくなり得る。そのような場合、その広がりデータ中で一般に指定されるようなボリュメトリックオーディオソースの物理的サイズまたはジオメトリは、しばしば、リスナーに対してオーディオソースをレンダリングするために直接使用されるのにあまり適していない。

詳細には、多くの場合、ボリュメトリックオーディオソースの幾何学的広がりの限られた部分のみが、所与のリスニング位置におけるリスナーによって受信されたオーディオエネルギーに顕著に寄与する。これは、幾何学的広がりの外側部分が、リスナーから非常に遠く離れているので、距離および中間減衰により、かなりのオーディオエネルギーがこれらの外側部分からリスナーに達しない、極めて大きい（特に「無限に」大きい）ボリュメトリックソースの場合、当てはまる。

それは、リスナーに近いソースの部分からリスナーに達するオーディオエネルギーが、本質的に、リスナーからより遠くに離れている部分から来るオーディオエネルギーよりまさるような、中程度のサイズのボリュメトリックオーディオソースの近くにリスナーが来る場合にも、当てはまり得る。したがって、所与のボリュメトリックオーディオソースの「音響的に関連のある（ａｃｏｕｓｔｉｃａｌｌｙｒｅｌｅｖａｎｔ）」部分は、ソースに対するリスナーの位置に依存し得る。

したがって、大きいボリュメトリックオーディオソースの場合、所与のリスニング位置におけるリスナーに対してオーディオソースがどのくらい広くまたは高くレンダリングされるべきであるかについて、直接測度として、指定された幾何学的広がりを単に使用することは、しばしば、あまり適切でないかまたは好都合でない。実際、そうすることは様々な問題を生じ得る。

オーディオレンダリングのために直接、ボリュメトリックオーディオソースの指定された幾何学的広がりを使用することの１つの問題は、ソースの得られた主観的空間広がり（たとえば、リスナーによって知覚されたソースのサイズ）が、不自然になり得る（たとえば、不自然に広い、すなわち、空間広がりが、実生活で知覚されるよりも広く知覚され得る）ことである。この問題は、たとえば、ボリュメトリックオーディオソースのオーディオが、そのソースの指定された幾何学的広がりのエッジに位置する仮想ラウドスピーカーを使用してリスナーに対してレンダリングされる、レンダリングシナリオにおいて生じ得る。上記で説明された、これらの仮想ラウドスピーカーは、多くの場合、あまりに広く離間される。

ソースの幾何学的な広がりの代わりに、ソースの意図された知覚される空間広がりを指定することも、意図された知覚される空間広がりが、ある特定のリスニング位置のみについて有効であり、（６自由度ＸＲ使用事例において必要とされるであろう）他のリスニング位置についての意図された知覚される空間広がりを導出することは、簡単でないかまたは可能でさえないことがあるので、問題になろう。

さらに、ボリュメトリックオーディオソースによって放射されたオーディオを正確にレンダリングするために高度な物理的モデル化技法が使用されるレンダリングシナリオでは、レンダリングのために必要とされる算出複雑さは、一般に、ソースの物理的サイズが増加するにつれて急速に増大する。大きいボリュメトリックソース（たとえば、上記で説明された海岸および混んでいるハイウェイ、および通過する列車）の場合、リスナーに対してソースをレンダリングするために直接、ソースの指定された幾何学的広がりを使用することは、特にリアルタイム対話型ＸＲ適用例では、過大な算出労力を容易に必要とし得る。さらに、この算出労力のかなりの部分は、その部分が、特定のリスナー位置におけるオーディオにさえ著しくは寄与しないボリュメトリックソースの部分によって放射されるオーディオをレンダリングするために使用されるので、不必要に費やされることさえある。

したがって、知覚的に適切なおよび算出効率の良いやり方で大きいボリュメトリックオーディオソースをレンダリングすることが可能であるために、そのソースの指定された幾何学的広がりと、場合によっては他のプロパティとに基づいて、所与のリスニング位置におけるボリュメトリックオーディオソースの音響的に関連のある空間広がりをモデル化するための方法を有することは、極めて有益であろう。モデルが既存のリアルタイムレンダラアーキテクチャへの軽量アドオンとして実装され得るように、モデルが極めて簡単なものであれば、特に望ましいであろう。

本開示の実施形態は、ボリュメトリックオーディオソースの有効空間広がり（ｅｆｆｅｃｔｉｖｅｓｐａｔｉａｌｅｘｔｅｎｔ）、すなわち、所与のリスニング位置におけるリスナーによって受信されたオーディオに著しく寄与するボリュメトリックオーディオソースの幾何学的広がりの部分、を決定するための極めて低複雑度のパラメトリックモデルを提供するための方法およびシステムを対象とする。

モデルのパラメータは、（ｉ）１つまたは複数の次元におけるボリュメトリックオーディオソースの幾何学的広がりのサイズを示すサイズパラメータおよび／または（ｉｉ）リスナーからボリュメトリックオーディオソースまでの距離を示す距離パラメータを含む。

モデルのパラメータは、（ｉ）ボリュメトリックオーディオソースのコヒーレンスプロパティを示すパラメータ（たとえば、コヒーレント、拡散、または中間の何か）および／または（ｉｉ）周波数パラメータ（（部分的）コヒーレントソースの場合）をも含み得る。

決定された有効空間広がりは、リスナーに対してボリュメトリックオーディオソースをレンダリングする際に使用され得る。たとえば、決定された有効空間広がりは、（ｉ）所与のリスニング位置におけるボリュメトリックオーディオソースのためのターゲット聴覚レンダリングサイズを決定すること、および／または（ｉｉ）レンダリングのために幾何学的空間広がりの他の音響的に関連のない部分を放棄しながら、リスナーに対してボリュメトリックソースのオーディオをレンダリングするために、ボリュメトリックオーディオソースの幾何学的広がりの音響的に関連のあるサブ部分のみを選択することを行うために使用され得る。

一態様では、リスナーのためのオーディオソースをレンダリングするための方法が提供される。本方法は、オーディオソースの空間広がりを示す空間広がり値を取得することと、（「観測距離」としても知られる）オーディオソースとリスナーとの間の距離を指定する距離値を取得することとを含む。本方法は、距離値がしきい距離値よりも小さいかどうかを決定することをも含む。本方法は、距離値がしきい距離値よりも小さいと決定したことの結果として、有効空間広がり値を使用して、リスナーに対してオーディオソースをレンダリングすることをさらに含む。

別の態様では、コンピュータプログラムが提供される。コンピュータプログラムは、処理回路によって実行されたとき、処理回路に、本明細書で開示される実施形態のいずれか１つに記載の方法を実施させる命令を備える。別の態様では、コンピュータプログラムを含んでいるキャリアが提供され、キャリアは、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体のうちの１つである。

別の態様では、本明細書で開示される実施形態のいずれか１つに記載の方法を実施するように適応された装置が提供される。一実施形態では、本装置は、処理回路とメモリとを備え、メモリは、処理回路によって実行可能な命令を含んでおり、それにより、本装置は、本明細書で開示される実施形態のいずれか１つに記載の方法を実施するように適応される。

利点

大きいボリュメトリックオーディオソースの場合、本開示の実施形態による有効空間広がりを使用することは、ソースの幾何学的広がりを直接使用するよりも、ソースのより自然なおよび現実的な空間レンダリングを可能にする。

また、特定のリスニング位置についてのみ有効である、ボリュメトリックオーディオソースの意図された知覚される空間広がりを直接指定することと比較して、本開示の実施形態によるモデル化された有効空間広がりは、任意のリスニング位置において有効である。

さらに、いくつかのレンダリングシナリオでは、本開示の実施形態による方法およびシステムは、所与のリスニング位置における音響的に関連のある幾何学的広がりの部分のみがレンダリングの際に考慮されるので、大きいボリュメトリックオーディオソースのオーディオをレンダリングする際により良い算出効率を可能にする。

また、本開示の実施形態では、有効空間広がりを決定するためのパラメトリックモデルが、極めて単純であり、既存のレンダーアーキテクチャへの軽量アドオンとして容易に実装され得る。

本明細書に組み込まれ、明細書の一部をなす添付の図面は、様々な実施形態を示している。

オーディオレンダリングのために使用される異なるパラメータを示す図である。一実施形態による、フルインコヒーレント（ｆｕｌｌｙｉｎｃｏｈｅｒｅｎｔ）または拡散１次元ボリュメトリックオーディオソースの音圧レベル（ＳＰＬ：ＳｏｕｎｄＰｒｅｓｓｕｒｅＬｅｖｅｌ）の挙動を示す図である。一実施形態による、コヒーレント１次元ボリュメトリックオーディオソースのＳＰＬの挙動を示す図である。一実施形態による、コヒーレント１次元ボリュメトリックオーディオソースのＳＰＬの挙動を示す図である。いくつかの実施形態による、システムを示す図である。いくつかの実施形態による、システムを示す図である。いくつかの実施形態による、システムを示す図である。いくつかの実施形態による、システムを示す図である。一実施形態による、プロセスの図である。一実施形態による、装置の図である。

有効空間広がり：定性的モデル

上記で説明されたように、所与のリスニング位置におけるリスナーのためのボリュメトリックオーディオソースの音響的に関連のある、または有効な、空間広がりを、そのソースの物理的特性のうちのいくつかから推測することができるモデルを見つけることが望ましい。

そのようなモデルを開発するための妥当な一般的な開始時の仮定は、特定のリスニング位置におけるソースの知覚されたラウドネスに著しくは寄与しないボリュメトリックオーディオソースの部分（それらの部分から来るオーディオがレンダリングに含まれるか否かにかかわらず、リスナーは、ラウドネスのいかなる差をも知覚することが可能でないという意味において）が、その同じリスニング位置における（ソースの知覚された空間広がりを含む）ソースの知覚された空間プロパティにも著しくは寄与しないことになることである。

モデルを構築するための開始点は、単一の次元においてサイズＬの可変幾何学的空間広がりを有する１次元ボリュメトリックオーディオソース（すなわち、線ソース）（すなわち、可変長さＬをもつ音響線ソース）の単純な場合である。この線ソースの場合、線ソースの中間点に対して垂直距離Ｄに位置する観測点Ｏにおける音圧レベル（ＳＰＬ）の挙動は、ソース長さＬの関数として評価され得る（図１参照）。

線ソースの長さＬが極めて小さい場合、線ソースは本質的に点ソースである。長さＬが、長さに沿って一定のソース強度密度を伴って、線ソースの両側において着実に増加する（たとえば、長さ２Ｌにおいて、ソースは、長さＬにおいてよりも２倍の量の音響エネルギーを放射する）につれて、観測点ＯにおけるＳＰＬも増加することが予想される。

しかしながら、ソース長さＬが増加するにつれて、観測点におけるＳＰＬへのソースの外側エッジからの寄与は、これらの外側部分から観測点までの増加する距離によりますます小さくなる。したがって、長さＬを増加させることの関数としてＳＰＬが増加するレートは、減少し得る。ある時点において、ソースが極めて長くなったとき、ＳＰＬが増加するレートは、ＳＰＬがもはやソース長さのさらなる増加とともに増加しなくなるように、有意でなくなり得る。言い換えれば、ＳＰＬは、線ソースのある長さ（Ｌ_ｅｆｆ）を越えると、飽和することになる。

一定のソース強度密度を有する無限に長い線ソースの場合、異なる観測点Ｏにおける、無限に長い線ソースのサイズＬ_ｅｆｆの異なるセグメントは、ソースの音響的にかなりの部分になり得る。言い換えれば、リスナーが無限に長い線ソースに対して平行な線に沿って移動するにつれて、リスナーは事実上、リスナーとともに移動するサイズＬ_ｅｆｆの空間窓を通してソースを知覚する。

本開示のいくつかの実施形態では、１次元ボリュメトリックオーディオソース（すなわち、線ソース）の有効空間広がりは、最も小さいソースセグメントのサイズとして規定され、そのセグメントによる所与のリスニング位置における音レベルは、完全なソースの音レベルを下回るしきい音レベル差値（ｔｈｒｅｓｈｏｌｄｓｏｕｎｄｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅｖａｌｕｅ）よりも小さい。言い換えれば、有効空間広がりのエッジを越える線ソースの部分を追加することは、リスニング位置における音レベルに、しきい音レベル差値よりも多くを追加しない。

有効空間広がりを決定する際に使用されるしきい音レベル差値は、異なるやり方で選定され得るが、相対的に（たとえば、完全なソースによる線形音圧の、ある割合として、または、完全なソースのＳＰＬを下回る、ある数のデシベルとして）最も好都合に規定され得る。

目的は、ソースの物理的サイズを、対応する知覚された聴覚サイズにリンクすることであるので、しきい音レベル差値がこの知覚された聴覚サイズと関係を有するように、しきい音レベル差値を選択することが望ましい。詳細には、得られた有効空間広がりが、（知覚測度である）ラウドネスが完全なソースのラウドネスと区別不可能である最も小さいソースセグメントのサイズに対応するように、しきい音レベル差値を選択することが望ましいことがある。このコンテキストでは、したがって、しきい音レベル差値をセットするための知覚的に関連のある基準は、ラウドネスについての丁度可知差（ＪＮＤ：ｊｕｓｔ－ｎｏｔｉｃｅａｂｌｅ－ｄｉｆｆｅｒｅｎｃｅ）であり、これは音響知覚文献から約１ｄＢＳＰＬであることが知られている。

有効空間広がり：定量的モデル

ボリュメトリックオーディオソースは、点ソースの高密度分布として、物理的にモデル化され得る。１次元ボリュメトリックオーディオソースの場合、総圧力応答（ｔｏｔａｌｐｒｅｓｓｕｒｅｒｅｓｐｏｎｓｅ）Ｐ_ｌｉｎｅが、次のように表され得る。

ここで、Ｎは、１次元ボリュメトリックオーディオソースをモデル化するために使用される点ソースの総数であり、Ａ_ｉ（ω）は、ラジアル周波数ωにおけるｉ番目の点ソースの複素振幅であり、ｋは、波数ω／ｃであり、ｃは空気中の音速であり、ｒ_ｉは、ｉ番目の点ソースから観測点

までの距離である。

次いで、１次元ボリュメトリックソースの音圧レベル（ＳＰＬ）は、次のように表され得る。

このようにして連続ボリュメトリックソースをモデル化するとき、当該の全周波数範囲（たとえば、０～２０ｋＨｚ）にわたる正確な結果を取得するために、個々の点ソース間の十分に小さい離間が使用されるべきである。

（そのすべての点が、同じ音響信号をコヒーレントに放射する）コヒーレント１次元ボリュメトリックオーディオソースと、（そのすべての点が、非依存フル無相関信号を放射する）拡散１次元ボリュメトリックソースとを含む、様々なタイプの１次元ボリュメトリックオーディオソースがある。これらの２つの極端なタイプの１次元ボリュメトリックオーディオソースは、以下でより詳細に説明されるように、様々な態様で著しく別様に挙動する。

拡散１次元ボリュメトリックオーディオソース

拡散ボリュメトリックオーディオソースは、すべて周波数非依存ＳＰＬ対距離挙動（ｆｒｅｑｕｅｎｃｙ－ｉｎｄｅｐｅｎｄｅｎｔＳＰＬ－ｖｓ－ｄｉｓｔａｎｃｅｂｅｈａｖｉｏｒ）を有する非依存点ソースの高密度分布と見なされ得るので、拡散ボリュメトリックオーディオソースの挙動も周波数非依存である。したがって、以下の結果は、任意の個々の周波数についてならびに広帯域について有効である。

図２は、０．１ｍ、１ｍ、１０ｍ、および１００ｍの観測距離Ｄについて、線ソース長さＬの関数として、フルインコヒーレントまたは拡散１次元ボリュメトリックオーディオソースの総ＳＰＬについてのシミュレーション結果を示す。

４つの曲線すべての１つの共通特性は、それらが２つの別個の領域を有することであり、すなわち、小さい線ソース長さにおいて（または大きい観測距離において）、ＳＰＬは、線ソース長さＬの倍増ごとに３ｄＢの一定のレートで増加し（水平軸上の対数スケールに留意されたい）、長い線ソース長さにおいて（または、小さい観測距離において）、ＳＰＬは、Ｌの関数として一定になる。

小さい線ソース長さにおける（または、長い観測距離における）長さの倍増ごとの３ｄＢＳＰＬ増加は、総圧力についての表現（式１）において、総圧力を決定する際に式１中の複素振幅Ａ_ｉのみが関連のあるものであるように、個々の点ソースから観測点までの距離ｒ_ｉが本質的に等しいということから、説明され得る。個々の点ソースについてのソースパワーが等しいと仮定される場合、式１および２から、以下の関係が成り立つことが容易に示され得る。

式３は、点ソースの数Ｎを倍増したときのＳＰＬの３ｄＢ増加を暗示する。個々の点ソース間の離間が均等であることがさらに仮定された場合、式３は、線ソース長さＬの倍増について３ｄＢＳＰＬ増加を暗示する。

大きい線ソース長さにおける（または、小さい観測距離における）定数値までのＳＰＬの飽和は、上記で説明された定性的モデルに一致する。上記で説明されたように、ＳＰＬの飽和は、長さが増加するにつれて、外側エッジにおける新たに追加された点ソースの寄与が、ますます有意でなくなり、最終的に完全に有意でなくなるということから、説明され得る。言い換えれば、拡散１次元ボリュメトリックオーディオソースが、ある線ソース長さに達すると、長さをさらに増加することは、ＳＰＬのさらなる増加につながらない。

異なる観測距離についての曲線を比較することは、２つの領域間、すなわち、ＳＰＬが増加する領域とＳＰＬが実質的に定数値において維持される領域との間、の遷移が発生する線ソース長さＬは、観測距離に依存し、遷移長さが、より大きい観測距離の場合、より大きくなることを示す。

極めて長い拡散１次元ボリュメトリックオーディオソースの有効空間広がりは、ＳＰＬが、極めて大きいソース長さにおいて観測された飽和ＳＰＬを下回るあるしきい音レベル差値である、線ソース長さＬを見つけることによって、図２に示されている曲線から推定され得る。ＳＰＬが飽和する線ソース長さは、観測距離Ｄに比例することが見つけられる。

ラウドネス差についてのＪＮＤが、しきい音レベル差値をセットするための基準として選定される場合、しきい音レベル差値は、約１ｄＢＳＰＬに等しい。その場合、ＳＰＬが飽和する（すなわち、この特定の場合、－１ｄＢ点）線ソース長さは、観測距離Ｄの約６倍の値を有することが見つけられる。

したがって、６Ｄまたはそれよりも大きい長さを有するソースの有効空間広がりは、６Ｄに等しい（すなわち、それは、観測距離Ｄに比例する）。等価的に、Ｌ／６よりも小さい観測距離において、空間広がりは６Ｄに等しい。

６Ｄよりも小さい線ソース長さまたは等価的にＬ／６よりも大きい観測距離の場合、有効空間広がりは、単に線ソース長さＬに等しい（すなわち、１次元ボリュメトリックソースのあらゆる部分が、観測点において受信された音に著しく寄与する）。この特徴付けは、１次元拡散ボリュメトリックソースのように挙動するオーディオソースのより効率的なおよび現実的なレンダリングを可能にする。

有効空間広がりは、（ｉ）長さに関してまたは（ｉｉ）角度スパン（「開口角度（ｏｐｅｎｉｎｇａｎｇｌｅ）」）に関してのいずれかで表され得る。有効空間広がりが長さに関して表される場合、飽和長さよりも大きい線ソース長さについての有効空間広がりは、観測距離Ｄに比例する（たとえば、有効空間広がりは、いくつかのオーディオソースについて６Ｄに等しい）。対照的に、有効空間広がりが角度スパン（「開口角度（ＯＡ）」）に関して表される場合、有効空間広がりは定数値を有する（すなわち、観測距離に非依存）。開口角度（ＯＡ）についての一般的な表現は、ＯＡ＝２＊ａｔａｎ（（０．５＊長さの単位での有効空間広がり）／Ｄ）であり、ここで、ａｔａｎは逆正接関数になる。拡散ソースの場合、長さの単位での有効空間広がりは６Ｄであり、したがって、ＯＡについての表現は、ＯＡ＝２＊ａｔａｎ（（０．５＊６Ｄ）／Ｄ）＝２＊ａｔａｎ（３）＝１４３度である。したがって、レンダラがＯＡおよびＤを取得した場合、レンダラは長さの単位で有効空間広がりを計算することができる。

図２に示されている曲線の別の共通の特性は、ＳＰＬが、長さの倍増ごとに３ｄＢ増加する領域において、ＳＰＬは、観測距離の１０倍の増加について２０ｄＢだけ減少する、または等価的に距離の倍増ごとに６ｄＢだけ減少することである。これは、この領域において、１次元拡散ボリュメトリックオーディオソースが、ＳＰＬに関して点ソースのように挙動すること（すなわち、ｐ∝１／ｒ）を意味する。対照的に、ＳＰＬが線ソース長さの関数として一定である領域において、ＳＰＬは、距離の１０倍の各増加について１０ｄＢのみだけ減少する、または距離の倍増ごとに３ｄＢだけ減少する。これは、この領域において、１次元拡散ボリュメトリックソースが、理論的な線ソースのように挙動すること

を意味する。有限長さ線ソースのこの距離依存ＳＰＬ挙動は、２０１９年１２月１９日に出願された、米国仮特許出願第６２／９５０，２７２号において説明されている。

コヒーレント１次元ボリュメトリックオーディオソース

フルコヒーレント均等１次元ボリュメトリックオーディオソースの場合、式１中のすべての振幅Ａ_ｉが同等である（すなわち、Ａ_ｉ＝Ａ∀ｉ）。ボリュメトリックオーディオソースの個々の点ソースの位相項

の周波数依存性およびコヒーレンシにより、ボリュメトリックオーディオソースの総圧力応答も周波数依存であることになり、したがって、個々の周波数についてのならびに広帯域についての有効空間広がりを分析することが必要である。

図３は、様々な周波数および１つの観測距離について、線ソース長さの関数としてＳＰＬ応答を示す。拡散１次元ボリュメトリックオーディオソースのように、コヒーレント１次元ボリュメトリックオーディオソースの場合、個々の周波数の各々について、ある線ソース長さを越えるとＳＰＬの予想された飽和があるが、図２に示されている曲線とは異なり、今度は、飽和長さは周波数に依存する。

小さい線ソース長さにおけるＳＰＬは、長さの倍増ごとに、拡散１次元ボリュメトリックオーディオソースについて図２に示されている３ｄＢの代わりに、６ｄＢのレートで増加する。拡散ソースの場合と同じ推論に従うと、小さい線ソース長さ（または、大きい観測距離）について、個々の点ソースから観測点までの距離ｒ_ｉは、本質的に等しく、ボリュメトリックオーディオソースの個々の点ソースについての圧力Ｐ_ｉは、すべて共通圧力Ｐと同等であり、したがって、（前述のように個々の点ソースについて、等しいパワーおよび等しい離間の仮定では）式１は、下記に低減する。

これは以下につながる。

これは、実際に、長さＬの倍増ごとの観測された６ｄＢ増加に一致する。

多くの他の観測距離についての対応するシミュレーション結果の分析に基づいて、拡散ソースについて行われたものと同じ、有効空間広がりを決定するためのやり方を使用して、小さい観測距離（または大きい線ソース長さ）について、有効空間広がりは、周波数依存であり、

（ｆは周波数であり、ｃ_１は定数である）に等しいものとして表され得るが、有効空間広がりは、大きい観測距離（または、小さい線ソース長さ）について、この場合も、単に線ソース長さＬに等しい。

２つの領域間の遷移距離がＬ^２ｆに比例していることが見つけられ、比例係数は

に等しい。前述のように、飽和長さを見つけるためのしきい音レベル差値としてラウドネス差についてのＪＮＤ（１ｄＢＳＰＬ）を使用する特定の選定の場合、ｃ_１が約１８．４に等しいことが経験的に見つけられた。

上記で示されたように、コヒーレント１次元ボリュメトリックオーディオソースの挙動は、周波数依存であり、また一般に、周波数依存のやり方でレンダリングされることになる。コヒーレント１次元ボリュメトリックオーディオソースの広帯域挙動を観測するために、シミュレーションが、２０Ｈｚから２０ｋＨｚまでの１２８個の一様に離間した周波数について行われ得、すべての個々の周波数についての結果が、広帯域の結果を取得するために合計され、白色ソーススペクトル仮定を暗示し得る。

図４は、いくつかの観測距離Ｄについて、線ソース長さＬの関数として広帯域ＳＰＬを示す。図４を（周波数非依存拡散ソースのＳＰＬを示す）図２と比較すると、コヒーレントソースの全体的な広帯域挙動と拡散ソースの全体的な広帯域挙動とは、特に極めて小さい線ソース長さおよび極めて大きい線ソース長さについて、かなり類似している。主要な差は、（１）コヒーレントソースの遷移領域が、はるかに広いこと、および（２）コヒーレントソースの遷移領域内にいくらかのリップル（ｒｉｐｐｌｅ）があることである。さらに、大きい観測距離において、コヒーレントソースについてのＳＰＬは、拡散ソースについての線ソース長さの倍増ごとの３ｄＢの代わりに、（個々の周波数について観測されるように）線ソース長さの倍増ごとに６ｄＢだけ増加する。

小さい観測距離（または大きい線ソース長さ）について、広帯域有効空間広がりは、観測距離Ｄの平方根に比例し、すなわち

であるが、広帯域有効空間広がりは、大きい観測距離（または、小さいソース長さ）について、この場合も、単に線ソース長さＬに等しい。２つの領域間の遷移距離は、線ソース長さＬの２乗に比例し、比例係数は

に等しい。飽和長さを見つけるためのしきい音レベル差値としてラウドネス差についてのＪＮＤ（１ｄＢＳＰＬ）を使用する特定の選定の場合、ｃ_２が３．５にほぼ等しいことが見つけられた。

シミュレーションからの結果の概要

１次元ボリュメトリックオーディオソースの有効空間広がりは、ある遷移距離（別名、しきい距離値）よりも大きい観測距離について（またはある遷移長さよりも小さい線ソース長さについて）、線ソース長さＬに等しい。

遷移距離よりも小さい観測距離について（または、遷移長さよりも大きい線ソース長さについて）、有効空間広がりは、拡散１次元ボリュメトリックオーディオソースの場合、観測距離Ｄに比例するが、有効空間広がりは、コヒーレント１次元ボリュメトリックオーディオソースの場合、Ｄの平方根に比例する。

遷移距離は、拡散１次元ボリュメトリックオーディオソースの場合、ソース長さＬに比例するが、コヒーレント１次元ボリュメトリックオーディオソースの場合、遷移距離はＬの２乗に比例する。

有効空間広がりのためのパラメトリックモデル

上記で説明されたシミュレーション結果は、観測距離Ｄの関数としての、長さＬの１次元ボリュメトリックオーディオソースの有効空間広がりＬ_ｅｆｆのための以下のパラメトリックモデルにつながる。

拡散１次元ボリュメトリックソース：

コヒーレント１次元ボリュメトリックソース、周波数依存：

コヒーレント１次元ボリュメトリックソース、広帯域：

１ｄＢ（ラウドネスについてのＪＮＤ）のしきい音レベル差値の特定の選定の場合、定数は、以下の近似値、すなわち、ｃ_０≒６、ｃ_１≒１８．４、およびｃ_２≒３．５を有することが経験的に見つけられた。

数値例

以下は、有効空間広がりのためのパラメトリックモデルが、１次元ボリュメトリックオーディオソースのレンダリングにどのように影響を及ぼすかを示す例である。

例１：

「無限に」長い拡散ソース（たとえば、海辺における海岸線）の場合、有効空間広がりは、任意の実際に関連のある観測距離におけるリスナーにとって「ｃ_０Ｄ」範囲にあることになる。したがって、有効空間広がりは、１ｍの観測距離において６ｍ（１４３度）、１０ｍの観測距離において６０ｍ（１４３度）、および１００ｍの観測距離において６００ｍ（１４３度）であることになる。

例２：

長さＬ＝１０ｍをもつ拡散１次元ボリュメトリックソースの場合、有効空間広がりは、０．１ｍの観測距離において０．６ｍ（１４３度）、１ｍの観測距離において６ｍ（１４３度）、１．７ｍよりも大きい任意の観測距離において１０ｍ（これは、１０ｍ観測距離において５３度、および１００ｍ観測距離において６度を生じる）であることになる。

例３：

長さＬ＝１０ｍをもつコヒーレント１次元ボリュメトリックソースの場合、広帯域有効空間広がりは、０．１ｍの観測距離において１．１ｍ（１６０度）、１ｍの観測距離において３．５ｍ（１２１度）、および８．２ｍよりも大きい任意の観測距離において１０ｍであることになる。

例４：

長さＬ＝１０ｍをもつコヒーレント１次元ボリュメトリックソースの場合、有効空間広がりは以下の通りである。

ｆ＝１００Ｈｚにおいて：１ｍの観測距離において１．８ｍ（８５度）、および３０ｍよりも大きい任意の観測距離において１０ｍ、

ｆ＝１０００Ｈｚにおいて：１ｍの観測距離において０．６ｍ（３２度）、および３００ｍよりも大きい任意の観測距離において１０ｍ。

ボリュメトリックオーディオソースをレンダリングする際に有効空間広がりを利用すること

レンダラが、様々なやり方で、導出された有効空間広がりを使用し得る。

ターゲット空間広がりをセットする：

導出された有効空間広がりは、特定のリスニング位置におけるリスナーに対して長いボリュメトリックオーディオソースをレンダリングするためのターゲット空間広がりをセットするために使用され得る。これは、単に、受信された幾何学的広がりデータを使用することと比較して、より適切なレンダリングされたソース幅をリスナーに配信することになる。たとえば、１つのシナリオでは、導出された有効空間広がりは、特定のリスニング位置におけるリスナーに対してソースをレンダリングするために使用される仮想ステレオラウドスピーカーの最適位置を決定するために使用され得る。別のシナリオでは、導出された有効空間広がりは、特定のリスニング位置におけるリスナーに対してボリュメトリックオーディオソースをレンダリングするために使用される空間拡幅（ｓｐａｔｉａｌｗｉｄｅｎｉｎｇ）アルゴリズムにおけるターゲット空間幅をセットするために使用され得る。

空間窓を決定する：

極めて長いボリュメトリックオーディオソースの場合、導出された有効空間広がりは、ソースに沿って、ソースから離れて、および／またはソースに向かって移動しているリスナーに対して時間的にどの瞬間にソースのどの部分をレンダリングすべきか決定するために使用され得る。これは、リスナーとともにスライドしている空間窓を適用するようなものであり、（リスナーの位置の変化に従って動的に更新される）導出された有効空間広がりが、空間窓の幅を決定する。

算出能力を節約する：

何らかの形態の物理的モデル化を使用して、ボリュメトリックオーディオソースからのオーディオがレンダリングされる使用事例では、特定のリスニング位置におけるリスナーに対してレンダリングされる必要があるソースの部分を限定するために、導出された有効空間広がりを使用することによって、算出能力が節約され得る。

２Ｄおよび３Ｄボリュメトリックオーディオソースへの拡張

上記で説明された１次元定量的パラメトリックモデルは、少なくとも、わずか１つの空間次元においてかなりの空間広がりを有するボリュメトリックオーディオソースの場合は、有効であり、これは、他の２つの次元における広がりが、これらの次元における広がりが主要な（長い）次元における有効空間広がりに著しく影響を及ぼさないように、観測距離に対して十分に小さい場合を意味する。特に、これは、特定の観測距離において、ソースが、他の２つの次元において本質的に点ソースのように挙動する場合、当てはまることになる。

上記で識別された仮特許出願は、ソース長さと観測距離との関数として、１次元オーディオソースが、点ソースのようにいつ挙動するかを決定するためのモデルを説明する。詳細には、この文書は、拡散１次元オーディオソースが、ソースの長さを超える観測距離において点ソースのように挙動することを説明する。

したがって、拡散２Ｄボリュメトリックオーディオソースが、２つの次元、次元１および次元２における２つのサイズを有し、ここで、次元１におけるサイズが次元２におけるサイズよりも長い、場合、式６の１次元定量的有効空間広がりモデルは、次元２におけるサイズが観測距離Ｄをよりも小さい場合（または、観測距離Ｄが、次元２におけるサイズであるＬ_２よりも大きい場合）、この２Ｄソースの次元１に適用され得る。

同様の基準が、コヒーレント２Ｄボリュメトリックソースについての１次元式７および８の有効性のために取得され得る。その場合、１次元モデルは、次元２におけるサイズが（１）式７の周波数依存モデルについて

または（２）式８の広帯域モデルについて

よりも小さい場合（または、等価的に、観測距離が、周波数依存モデルについてｆ（Ｌ_２）^２／３３９、または広帯域モデルについて２３（Ｌ_２）^２よりも大きい場合）に有効である。

たとえば、１０ｍの幅と１ｍの高さとをもつ２Ｄ拡散ソースを有する場合、観測距離が１ｍよりも大きい場合、その（長い次元における）有効空間広がりは式６（Ｌ＝１０ｍの場合）から計算され得る。同じサイズのフルコヒーレント２Ｄソースの場合、観測距離が１．５ｍよりも大きい場合、５００Ｈｚにおける（長い次元における）有効空間広がりは、式８から計算され得る。

これらの例は、式６～８の１次元定量的モデルが適用可能であるためのボリュメトリックソースの「１次元性（１－ｄｉｍｅｎｓｉｏｎａｌｎｅｓｓ）」に関する要件が、かなり緩く、１次元モデルが、実際、広範囲の「長い」２Ｄ（および３Ｄ）ボリュメトリックソースにも適用され得ることを示す。

１次元モデルの有効性のための上記で説明された定量的基準は、有効空間広がりのための１次元モデルが適用される領域と適用されない領域との間の厳密な境界としてではなく、それを示すものとして理解されるべきであることに留意されたい。これは、１次元モデルが適用され得る２Ｄソースのタイプ、および／または所与の２Ｄソースが１次元モデルによってモデル化され得る条件を識別するための手段を提供する。

したがって、本開示の実施形態の追加の特徴は、レンダラが、上記の基準に基づいて、１次元モデルを２Ｄまたは３Ｄボリュメトリックソースに適用すべきか否か、および／あるいは２Ｄまたは３Ｄボリュメトリックソースを簡略化された１次元モデルに従ってレンダリングすることと、より複雑な２Ｄまたは３Ｄモデルを使用してレンダリングすることとの間でいつ切り替えるべきかを決定し得ることである。

２つ以上の次元においてかなりの広がりを有する（したがって、上記で説明された、１次元オーディオソースと見なされることが可能であるための基準を満たさない）ボリュメトリックオーディオソースの場合、上記で説明された同じ定性的モデルおよび原理が、依然として適用される。

概して、１つの次元における幾何学的な空間広がりを拡大することは、（１つまたは複数の）他の次元における有効空間広がりを増加させる影響を有する。たとえば、所与の観測距離Ｄについて、長さＬを有する純粋な１次元ソース（すなわち、線ソース）と、長さＬおよび高さＨを有する２次元ソース（すなわち、面ソース）との比較では、長さＬのための次元に沿った２次元ソースの有効広がりは、１次元ソースの場合のものよりも大きくなることになる。また、有効空間広がりが観測距離の関数である領域と、有効空間広がりが単に幾何学的な広がりの物理的サイズに等しい領域との間の遷移距離は、線ソースの場合よりも面ソースの場合に小さくなる。言い換えれば、２Ｄ面ソースの場合、ソースの幅全体が、すでに、等しい幅の線ソースの場合よりも短い距離におけるレンダリングにおいて考慮に入れられる必要がある。

上記の例では、２次元面ソースは、（上記で説明された１次元モデルにおけるような点ソースの代わりに）長さＬに沿って分布されたサイズＨの垂直線ソースの連続体から構成されたものと考えられ得る。これらの垂直線ソースの各々は、点ソースの１／ｒ減衰よりも緩やかな距離減衰を有し、したがって、ソースの水平広がりに沿った点は、（所与のＳＰＬベースの有意性基準、たとえば、上記で説明された１ｄＢＳＰＬラウドネスＪＮＤ基準に関して）有意でなくなるように観測位置からより遠くに離れている必要がある。これの結果は、２次元面ソースの場合、各次元における空間広がりが、個々に、２つの次元の各々についてのものよりも大きくなることになることである。

各次元における有効空間広がりは、その次元における広がりの幾何学的なサイズによって依然として制限されることに留意されたい（すなわち、有効空間広がりは、幾何学的なサイズを決して超えないことになる）。

上記の説明は、ソースパワーが面にわたってほぼ均等に分布される矩形２Ｄ面ソースについて成り立つ。このクラスの２Ｄソースのために、式６～８の１次元定量的モデルの単純な拡張が、以下で説明されるように構成され得る。

仮出願は、３つの異なる観測距離領域、ソースがそれぞれ、（小さいソース長さおよび／または大きい観測距離における）点ソースのように挙動する領域と、（大きいソース長さおよび／または小さい観測距離における）線ソースのように挙動する領域と、中間の挙動を伴う遷移領域とを基本的に識別する、有限長さ１次元ソースのための距離依存ＳＰＬ減衰関数についてのパラメトリックモデルを開示する。

したがって、上記で説明されたように長さＬ_２の垂直線ソースの連続分布から構成されたものと見なされ得る、幅Ｌ_１および高さＬ_２を有する均等な矩形２Ｄ面ソースの場合、（観測距離Ｄにおける）これらの垂直線ソースの各々のＳＰＬは、仮出願において開示された式３から決定され得る。

観測距離Ｄにおける２Ｄ面ソースの総圧力応答は、今や、上記で提供された式１中の（点ソース圧力応答に対応する）１／ｒ_ｉ距離依存性を、仮出願からの式３の距離依存減衰モデルによって置き換えることによってシミュレートされ得る。言い換えれば、２Ｄ面ソースは、サイズＬ_２の有限長さ線ソースに対応する距離減衰関数を各々有する、点状ソースのサイズＬ_１の１次元分布としてモデル化され得る。

様々なサイズの均等な２Ｄ矩形ソースについてそのようなシミュレーション実行することは、観測距離が高さＬ_２よりも小さい場合、得られた有効空間広がりに単純なスケーリング係数αを単に適用することによって、これらのソースにとっても式６～８の１次元モデルが有効であるとの結論を生じ、したがって、式６が以下に修正される。

拡散２Ｄ矩形ソースの場合、スケーリング係数αは、ソースの高さＬ_２と観測距離Ｄとの間の比の単調な関数である。下記の表は、シミュレーションから取得されたＬ_２／Ｄの関数としてのαについての値を提供する。

表：ソース高さＬ_２と観測距離Ｄの比の関数としてのスケーリング係数α。

より任意の形状の２Ｄおよび３Ｄ広がりおよび／または均等でないパワー分布について、本開示の実施形態による有効空間広がりの同じ定性的概念が、依然として適用される。

均等なパワー分布をもつ基本的な２Ｄおよび３Ｄの幾何学的な広がり形状（たとえば、円、球体、円柱、矩形、ボックス）について、上記のモデルと同様の観測距離の関数としての有効空間広がりのための特定のパラメトリックモデルを作ることは、完全に実現可能である。

パラメトリックモデルの実装

いくつかの実施形態では、オーディオレンダラは、ソースの幾何学的広がり（たとえば、物理的サイズ）、形状、および／または他の特性に関する受信された情報に基づいて、ボリュメトリックオーディオソースの有効空間広がりを決定する。そのような実施形態では、上記で説明されたパラメトリックモデルが、オーディオレンダラにおいて実装され得、レンダラは、（１つまたは複数の）パラメトリックモデル、受信されたソース情報、およびリスナー距離から遷移距離と有効空間広がりとを決定する。

いくつかの実施形態では、レンダラは、（１つまたは複数の）パラメトリックモデルを設定するためのパラメータを、たとえば、ビットストリーム中で受信し得る。詳細には、モデルによって使用される選択されたＳＰＬしきい音レベル差値に関係するパラメータｃ_０、ｃ_１、およびｃ_２は、レンダラによって受信され得る。

ビットストリーム中でソース固有メタデータとしてオーディオレンダラに送られ得る他のモデルパラメータは、以下である。

（１）レンダラにパラメトリックモデルのバージョン（拡散、コヒーレント広帯域、またはコヒーレント周波数依存）のうちのどれを使用すべきかを命令する、またはモデルのバージョンの混合（場合によっては周波数依存）を指定する（たとえば、低い周波数のためにコヒーレント周波数依存モデル、高い周波数のために拡散モデル、中間周波数においてこれらの２つのモデルの混合を使用する）、ボリュメトリックソースについてのコヒーレンスデータ。

（２）ソースが「無限に長い」と見なされるべきであることを示すフラグ。この場合、レンダラは、有効空間広がりを決定するためにソースの幾何学的な広がりデータを無視し得、常に、ソースについての有効空間広がりを決定するために遷移距離よりも小さい距離のための式を使用し得る。

（３）レンダラに、ソースのために有効空間広がりモデルを使用すべきか否かを命令するフラグ。特定のボリュメトリックソースのためのモデルを使用することは、常に適切であるまたは望まれるとは限らない。これは、たとえば、そのフル広がりからの音を放射しないが、限られた数の個々の音ソースを含んでいる単に概念ボリューム（ｃｏｎｃｅｐｔｕａｌｖｏｌｕｍｅ）である、ボリュメトリックソースの場合、当てはまり得る。

他の実施形態では、（１つまたは複数の）パラメトリックモデルは、レンダラの外部に、たとえば、エンコーダにおいて実装され得る。そのようなシナリオでは、遷移距離、および／または、遷移距離よりも小さい観測距離についての有効空間広がり（これは、拡散１次元オーディオソースの場合、開口角度に関して定数である）が、レンダラに送信される。これらの実施形態では、レンダラは、したがって（１つまたは複数の）パラメトリックモデルを実装する必要はなく、ただ、ソースをレンダリングするために２つの「空間広がりモード」、すなわち、レンダラがレンダリングのために（絶対サイズに関して一定である）受信された幾何学的広がりを使用するあるモードと、レンダラが（相対的に角度に関して一定である）受信された有効空間広がりを使用する代替モードとの間で切り替えることが可能である必要があり、受信された遷移距離が、２つのモード間の選択基準として使用される。

手短に上記で述べられたように、定量的パラメトリックモデルは、広がりにわたって均等なソースパワー分布を仮定する。これは、「妥当に（ｒｅａｓｏｎａｂｌｙ）」均等であるソースへの定量的モデルの適用を制限するが、この基準を満たす、多くの関連のあるタイプのソースがある（たとえば、混んでいるハイウェイ、海の海岸線、高速列車など）。

上記の開示では、中心観測位置のみが考慮された。しかしながら、非中心観測位置の場合、同じ定性的概念モデルが依然として適用される。極めて長いソース（詳細には無限に長いソース）の場合、横方向観測位置は、有効空間広がりについて関連性がないものであり、したがって、定量的パラメトリックモデルは任意の観測位置に適用される。

仮出願は、ボリュメトリックソースのコヒーレンスプロパティと部分的コヒーレントボリュメトリックソースの処理とがどのように決定されるかを説明する。

例示的なシステムおよび／または方法

図５は、本開示のいくつかの実施形態による、オーディオソースをレンダリングするための例示的なシステム５００を示す。システム５００は、エンコーダ５０１とオーディオレンダラ５０２とを含む。オーディオレンダラ５０２は、有効空間広がり計算モジュール５２６とオーディオレンダリングモジュール５２８とを含む。随意に、オーディオレンダラ５０２は、空間広がり計算モジュール５２２およびしきい距離値計算モジュール５２４をも含み得る。

システム５００では、レンダラ５０２は、エンコーダ５０１から、オーディオ入力信号５１２とオーディオソースメタデータ５１４とを受信する。メタデータ５１４は、（ｉ）オーディオソースに関連付けられたコヒーレンス情報、（ｉｉ）オーディオソースに関連付けられた空間広がりデータまたはジオメトリ情報、および／または（ｉｉｉ）オーディオソースの有効空間広がりを計算するために必要とされるしきい距離値のいずれか１つまたは組合せを含み得る。コヒーレンス情報は、たとえば、オーディオソースがコヒーレントソースまたは拡散ソースであることを示す、オーディオソースのコヒーレンスプロパティを示す。ジオメトリ情報は、オーディオソースのジオメトリを示す。

メタデータ５１４が空間広がりデータとしきい距離値とを含む場合、有効空間広がり計算モジュール５２６は、空間広がりデータ、しきい距離値、およびオーディオソースとリスナーとの間の距離を指定する距離値に基づいて、オーディオソースの有効空間広がりを計算し、レンダリングモジュール５２８は、オーディオソースの有効空間広がりを使用してオーディオソースをレンダリングする。

メタデータ５１４が、空間広がりデータを含むが、しきい距離値を含まない場合、しきい距離値計算モジュール５２４は、受信された空間広がりデータに基づいてしきい距離値を計算する。次いで、有効空間広がり計算モジュール５２６は、空間広がりデータ、しきい距離値、およびオーディオソースとリスナーとの間の距離を指定する距離値に基づいて、オーディオソースの有効空間広がりを計算し、オーディオレンダリングモジュール５２８は、オーディオソースの有効空間広がりを使用してオーディオソースをレンダリングする。

メタデータ５１４が空間広がりデータもしきい距離値も含まないが、ジオメトリ情報を含む場合、空間広がり計算モジュール５２２は、ジオメトリ情報に基づいて空間広がりを計算し、しきい距離値計算ユニット５２４は、計算された空間広がりに基づいてしきい距離値を計算する。次いで、有効空間広がり計算モジュール５２６は、計算された空間広がりデータ、計算されたしきい距離値、およびオーディオソースとリスナーとの間の距離を指定する距離値に基づいて、オーディオソースの有効空間広がりを計算し、オーディオレンダリングモジュール５２８は、オーディオソースの有効空間広がりを使用してオーディオソースをレンダリングする。

図６は、ＸＲシーンのための音を作り出すための例示的なレンダラ５０２を示す。システム６００は、コントローラ６０１と、オーディオ信号６５１（たとえば、マルチチャネルオーディオ信号）を修正するための信号修正器６０２と、左スピーカー６０４と、右スピーカー６０５とを含む。１つのオーディオ信号と２つのスピーカーとが図６に示されているが、これは、単に説明の目的であり、いかなる形でも本開示の実施形態を限定しない。コントローラ６０１は、１つまたは複数のパラメータを受信し、受信されたパラメータに基づいてオーディオ信号６５１に対する修正を実施する（たとえば、ボリュームレベルを増加または減少させる）ように信号修正器６０２をトリガするように設定され得る。受信されたパラメータは、（１）リスナーの位置に関する情報６５３（たとえば、オーディオソースへの方向および距離）および（２）本明細書で説明されたオーディオオブジェクトに関するメタデータ５１４を含む。

本開示のいくつかの実施形態では、情報６５３は、図７Ａに示されているＸＲシステム７００中に含まれる１つまたは複数のセンサーから提供され得る。図７Ａに示されているように、ＸＲシステム７００は、ユーザによって装着されるように設定される。図７Ｂに示されているように、ＸＲシステム７００は、配向検知ユニット７０１と、位置検知ユニット７０２と、システム６００のコントローラ６０１に結合された処理ユニット７０３とを備え得る。配向検知ユニット７０１は、リスナーの配向の変化を検出し、検出された変化に関する情報を処理ユニット７０３に提供するように設定される。いくつかの実施形態では、処理ユニット７０３は、配向検知ユニット７０１によって検出された配向の検出された変化を前提として、（何らかの座標系に関する）絶対配向を決定する。配向および位置の決定のための異なるシステム、たとえば、ｌｉｇｈｔｈｏｕｓｅトラッカー（ｌｉｄａｒ）を使用するＨＴＣＶｉｖｅシステムもあり得る。一実施形態では、配向検知ユニット７０１は、配向の検出された変化を前提として、（何らかの座標系に関する）絶対配向を決定し得る。この場合、処理ユニット７０３は、単に、配向検知ユニット７０１からの絶対配向データと位置検知ユニット７０２からの絶対位置データとを多重化し得る。いくつかの実施形態では、配向検知ユニット７０１は、１つまたは複数の加速度計および／または１つまたは複数のジャイロスコープを備え得る。

図８は、リスナーのためのオーディオソースをレンダリングするための、一実施形態による、プロセス８００を示すフローチャートである。プロセス８００は、ステップｓ８０２において始まり得、レンダラ５０２によって実施され得る。ステップｓ８０２は、オーディオソースの第１の空間広がりを示す少なくとも第１の空間広がり値を取得することを含む。ステップｓ８０４は、オーディオソースとリスナーとの間の距離を指定する距離値を取得することを含む。ステップｓ８０６は、距離値がしきい距離値よりも小さいかどうかを決定することを含む。ステップｓ８０８は、距離値がしきい距離値よりも小さいと決定したことの結果として、有効空間広がり値を使用して、リスナーに対してオーディオソースをレンダリングすることを含む。

いくつかの実施形態では、しきい距離値は、第１の空間広がり値の関数である。いくつかの実施形態では、有効空間広がり値は、距離値の関数である。

いくつかの実施形態では、有効空間広がり値は、距離値のべき乗に比例し、べき乗は０．５から１の間の値を有する。

いくつかの実施形態では、プロセス８００は、コヒーレンスプロパティ情報を取得することをさらに含む。コヒーレンスプロパティ情報は、オーディオソースについてのコヒーレンス度（ｄｅｇｒｅｅｏｆｃｏｈｅｒｅｎｃｅ）を示す。したがって、コヒーレンスプロパティ情報は、オーディオソースが、コヒーレントソースであるのか、拡散ソースであるのか、またはこれらの混合であるのかに関する決定を行うために使用され得る。

いくつかの実施形態では、プロセス８００は、取得されたコヒーレンスプロパティ情報に基づいて、有効空間広がり値を計算することをさらに含む。

いくつかの実施形態では、プロセス８００は、取得されたコヒーレンスプロパティ情報に基づいて、オーディオソースが、拡散ソースまたはコヒーレントソースのいずれかのものであるのかを決定することをさらに含む。

ソースが拡散ソースである場合、有効空間広がり値を計算することは、Ｃ_０×Ｄに基づいて有効空間広がり値を計算することを含み、ここで、Ｃ_０が定数であり、Ｄが取得された距離値である。

ソースがコヒーレントソースである場合、有効空間広がり値を計算することは、

に基づいて有効空間広がり値を計算することを含み、ここで、Ｃ_１が定数であり、Ｄが取得された距離値である。

いくつかの実施形態では、有効空間広がり値は、オーディオソースのセグメントを識別するために使用され、オーディオソースの識別されたセグメントは、リスナーのためのオーディオソースの音響的に関連のあるセグメントである。

いくつかの実施形態では、第１の空間広がり値を取得することは、エンコーダから、オーディオソースに関連付けられたメタデータを受信することを含む。メタデータは、オーディオソースに関連付けられたジオメトリ情報を含む。第１の空間広がり値を取得することは、メタデータ中に含まれるジオメトリ情報に基づいて、第１の空間広がり値を導出することをさらに含む。

いくつかの実施形態では、プロセス８００は、オーディオソースに関連付けられたメタデータを受信することをさらに含み、メタデータは、（ｉ）オーディオソースのサイズが本質的に無限であることを示すフラグ、および／または（ｉｉ）オーディオソースをレンダリングするために有効空間広がりモデルを使用すべきかどうかを命令するフラグを含む。

いくつかの実施形態では、オーディオソースをレンダリングすることは、有効空間広がり値に基づいて、１つまたは複数の仮想ラウドスピーカーのための位置を決定することと、オーディオソースをレンダリングするために前記１つまたは複数の仮想ラウドスピーカーを使用することとを含む。

いくつかの実施形態では、オーディオソースは、本質的に１次元（１Ｄ）オーディオソースである。

いくつかの実施形態では、オーディオソースは、２次元（２Ｄ）オーディオソースまたは３次元（３Ｄ）オーディオソースであり、プロセス８００は、エンコーダから、２Ｄオーディオソースまたは３Ｄオーディオソースをレンダリングするために１Ｄ有効空間広がりモデルを使用すべきかどうかを示すフラグを含むメタデータを受信することを含む。

いくつかの実施形態では、オーディオソースは、２次元（２Ｄ）オーディオソース（すなわち、オーディオソースは第１の空間次元（たとえば、幅）における第１の空間広がりを有し、オーディオソースは第２の空間次元（たとえば、高さ）における第２の空間広がりを有する）、または３次元（３Ｄ）オーディオソース（すなわち、オーディオソースは、第１の空間次元（たとえば、幅）における第１の空間広がりと、第２の空間次元（たとえば、高さ）における第２の空間広がりと、第３の空間次元（たとえば、深度）における第３の空間広がりとを有する）であり、プロセス８００は、２Ｄオーディオソースまたは３Ｄオーディオソースをレンダリングするために本明細書で説明される１Ｄ有効空間広がりモデルが使用され得るかどうか、および／あるいは（ｉ）１Ｄモデルに従って２Ｄオーディオソースまたは３Ｄオーディオソースをレンダリングすることと（ｉｉ）より複雑な２Ｄモデルまたは３Ｄモデルを使用することとの間でいつ切り替えるべきかを決定することを含む。上記で説明されたように、２Ｄオーディオソースまたは３Ｄオーディオソースが、オーディオソースの１Ｄ有効空間広がりを使用してレンダリングされ得るかどうかに関する決定は、他の１つまたは２つの次元のサイズと観測距離とに基づき得る。たとえば、５０メートルの幅（Ｌ）および１メートルの高さ（Ｈ）を有する２Ｄオーディオソースを仮定すれば、レンダーは、Ｈおよび観測距離に基づいて（たとえば、観測距離＞Ｈであると決定したことに基づいて）、レンダーが、Ｌｅｆｆの有効長さを有する１Ｄオーディオソースとしてオーディオソースがレンダリングされ得ると決定するように設定され得、ここで、Ｌｅｆｆ＜Ｌである。

したがって、いくつかの実施形態では、オーディオソースの第１の空間広がりは、第１の空間次元における空間広がりであり、方法は、ｉ）オーディオソースの第２の空間広がりを示す第２の空間広がり値を取得することであって、第２の空間広がりが、第２の空間次元における空間広がりである、第２の空間広がり値を取得することと、ｉｉ）オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、有効空間広がり値を導出すべきか否かを決定することとをさらに含む。いくつかの実施形態では、オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、有効空間広がり値を導出すべきか否かを決定することは、オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、有効空間広がり値が導出され得ることを示すフラグを受信することを含む。いくつかの実施形態では、オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、有効空間広がり値を導出すべきか否かを決定することは、ｉ）第１の空間広がり値または第２の空間広がり値と距離値との間の差が、しきい値よりも大きいかどうか、あるいは、ｉｉ）第１の空間広がり値または第２の空間広がり値と距離値の関数である値との間の差が、しきい値よりも大きいかどうかを決定することを含む。いくつかの実施形態では、オーディオソースが拡散オーディオソースである場合、方法は、第１の空間広がり値または第２の空間広がり値と距離値との間の差が、しきい値よりも大きいかどうかを決定することを含み、オーディオソースが拡散オーディオソースでない場合、方法は、第１の空間広がり値または第２の空間広がり値と距離値の関数である値との間の差が、しきい値よりも大きいかどうかを決定することを含む。いくつかの実施形態では、第１の空間広がり値または第２の空間広がり値と距離値との間の差が、しきい値よりも大きいかどうかを決定することは、距離値が、第１の空間広がり値または第２の空間広がり値よりも大きいかどうかを決定することからなる。

図９は、システム５００またはシステム５００の一部分（たとえば、レンダラ５０２）および／またはシステム６００を実装するための、いくつかの実施形態による、装置９００のブロック図である。図９に示されているように、装置９００は、１つまたは複数のプロセッサ（Ｐ）９５５（たとえば、汎用マイクロプロセッサ、および／または、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など、１つまたは複数の他のプロセッサなど）を含み得る処理回路（ＰＣ）９０２であって、そのプロセッサが、単一のハウジングにおいてまたは単一のデータセンタにおいて共同サイト式であり得るかあるいは地理的に分散され得る（すなわち、装置９００が分散コンピューティング装置であり得る）、処理回路（ＰＣ）９０２と、少なくとも１つのネットワークインターフェース９４８であって、各ネットワークインターフェース９４８は、装置９００が、ネットワークインターフェース９４８が（直接または間接的に）接続されるネットワーク１１０（たとえば、インターネットプロトコル（ＩＰ）ネットワーク）に接続された他のノードにデータを送信し、他のノードからデータを受信することを可能にするための送信機（Ｔｘ）９４５および受信機（Ｒｘ）９４７を備える（たとえば、ネットワークインターフェース９４８はネットワーク１１０に無線で接続され得、その場合、ネットワークインターフェース９４８はアンテナ構成に接続される）、少なくとも１つのネットワークインターフェース９４８と、１つまたは複数の不揮発性記憶デバイスおよび／または１つまたは複数の揮発性記憶デバイスを含み得る１つまたは複数の記憶ユニット（別名「データ記憶システム」）９０８とを備え得る。ＰＣ９０２がプログラマブルプロセッサを含む実施形態では、コンピュータプログラム製品（ＣＰＰ）９４１が提供され得る。ＣＰＰ９４１はコンピュータ可読媒体（ＣＲＭ）９４２を含み、ＣＲＭ９４２は、コンピュータ可読命令（ＣＲＩ）９４４を備えるコンピュータプログラム（ＣＰ）９４３を記憶する。ＣＲＭ９４２は、磁気媒体（たとえば、ハードディスク）、光媒体、メモリデバイス（たとえば、ランダムアクセスメモリ、フラッシュメモリ）など、非一時的コンピュータ可読媒体であり得る。いくつかの実施形態では、コンピュータプログラム９４３のＣＲＩ９４４は、ＰＣ９０２によって実行されたとき、ＣＲＩが、装置９００に、本明細書で説明されるステップ（たとえば、フローチャートを参照しながら本明細書で説明されるステップ）を実施させるように設定される。他の実施形態では、装置９００は、コードの必要なしに本明細書で説明されるステップを実施するように設定され得る。すなわち、たとえば、ＰＣ９０２は、単に１つまたは複数のＡＳＩＣからなり得る。したがって、本明細書で説明される実施形態の特徴は、ハードウェアおよび／またはソフトウェアで実装され得る。

上記で説明された実施形態は、少なくともいくつかの利点を提供する。たとえば、大きいボリュメトリックオーディオソースのために本開示の実施形態による有効空間広がりを使用することは、ソースの幾何学的広がりを直接使用するよりも、ソースのより自然なおよび現実的な空間レンダリングを可能にする。また、特定のリスニング位置についてのみ有効である、ボリュメトリックオーディオソースの意図された知覚される空間広がりを直接指定することと比較して、本開示の実施形態によるモデル化された有効空間広がりは、任意のリスニング位置において有効である。さらに、いくつかのレンダリングシナリオでは、本開示の実施形態による方法およびシステムは、所与のリスニング位置における音響的に関連のある幾何学的広がりの部分のみがレンダリングの際に考慮されるので、大きいボリュメトリックオーディオソースのオーディオをレンダリングする際により良い算出効率を可能にする。別の例として、本開示の実施形態では、有効空間広がりを決定するためのパラメトリックモデルが、極めて単純であり、既存のレンダーアーキテクチャへの軽量アドオンとして容易に実装され得る。

様々な実施形態が本明細書で説明されたが、それらの実施形態は、限定ではなく、例として提示されたにすぎないことを理解されたい。したがって、本開示の広さおよび範囲は、上記で説明された例示的な実施形態のいずれによっても限定されるべきでない。その上、本明細書で別段に示されていない限り、またはコンテキストによって明確に否定されていない限り、上記で説明されたエレメントのそれらのすべての考えられる変形形態における任意の組合せが、本開示によって包含される。

さらに、上記で説明され、図面に示されたプロセスおよびメッセージフローは、ステップのシーケンスとして示されたが、これは、説明のためにのみ行われた。したがって、いくつかのステップが追加され得、いくつかのステップが省略され得、ステップの順序が並べ替えられ得、いくつかのステップが並行して実施され得ることが企図される。

Claims

リスナーのためのオーディオソースをレンダリングするための方法（８００）であって、前記方法は、
前記オーディオソースの第１の空間広がりを示す少なくとも第１の空間広がり値を取得すること（ｓ８０２）と、
前記オーディオソースと前記リスナーとの間の距離を指定する距離値を取得すること（ｓ８０４）と、
前記距離値がしきい距離値よりも小さいかどうかを決定すること（ｓ８０６）と、
前記距離値が前記しきい距離値よりも小さいと決定したことの結果として、有効空間広がり値を使用して、前記リスナーに対して前記オーディオソースをレンダリングすること（ｓ８０８）と
を含む、方法（８００）。
前記有効空間広がり値が、前記距離値の関数である、請求項１に記載の方法。
前記有効空間広がり値を備えるメタデータを受信することをさらに含む、請求項１に記載の方法。
前記有効空間広がり値が、開口角度値である、請求項３に記載の方法。
前記しきい距離値が、前記第１の空間広がり値の関数である、請求項１から４のいずれか一項に記載の方法。
前記有効空間広がり値が、前記距離値のべき乗に比例し、前記べき乗が、両端値を含む、０．５から１の間の値を有する、請求項１から５のいずれか一項に記載の方法。
前記方法は、コヒーレンスプロパティ情報を取得することをさらに含み、前記コヒーレンスプロパティ情報が前記オーディオソースについてのコヒーレンス度を示す、請求項１から６のいずれか一項に記載の方法。
前記方法が、前記取得されたコヒーレンスプロパティ情報に基づいて、前記有効空間広がり値を計算することをさらに含む、請求項７に記載の方法。
前記方法は、
前記オーディオソースについての前記コヒーレンス度に基づいて、前記オーディオソースが、拡散ソース、コヒーレントソース、または拡散ソースとコヒーレントソースとの混合のいずれであるのかを決定すること
をさらに含む、請求項８に記載の方法。
前記ソースが拡散ソースである場合、前記有効空間広がり値を計算することが、Ｃ_０×Ｄに基づいて前記有効空間広がり値を計算することを含み、ここで、Ｃ_０が定数であり、Ｄが前記距離値である、
請求項１から９のいずれか一項に記載の方法。
前記ソースがコヒーレントソースである場合、
前記有効空間広がり値を計算することが、

に基づいて前記有効空間広がり値を計算することを含み、ここで、Ｃ_１が定数であり、Ｄが前記距離値である、
請求項１から９のいずれか一項に記載の方法。
前記有効空間広がり値が、前記オーディオソースのセグメントを識別するために使用され、前記オーディオソースの前記セグメントが、前記リスナーのための前記オーディオソースの音響的に関連のあるセグメントである、請求項１から１１のいずれか一項に記載の方法。
前記オーディオソースをレンダリングすることが、前記オーディオソースの前記識別されたセグメントのみをレンダリングすることを含む、請求項１２に記載の方法。
前記第１の空間広がり値を取得することは、（ｉ）エンコーダから、前記オーディオソースに関連付けられたメタデータを受信することであって、前記メタデータが前記オーディオソースに関連付けられたジオメトリ情報を含む、メタデータを受信することと、（ｉｉ）前記メタデータ中に含まれる前記ジオメトリ情報に基づいて、前記第１の空間広がり値を導出することとを含む、請求項１から１２のいずれか一項に記載の方法。
前記方法は、前記オーディオソースに関連付けられたメタデータを受信することをさらに含み、前記メタデータが、（ｉ）前記オーディオソースのサイズが本質的に無限であることを示すフラグ、および／または（ｉｉ）前記オーディオソースをレンダリングするために有効空間広がりモデルを使用すべきかどうかを命令するフラグ、および／または（ｉｉｉ）前記しきい値距離を含む、請求項１から１４のいずれか一項に記載の方法。
前記オーディオソースをレンダリングすることが、
前記有効空間広がり値に基づいて、１つまたは複数の仮想ラウドスピーカーのための位置を決定することと、
前記オーディオソースをレンダリングするために前記１つまたは複数の仮想ラウドスピーカーを使用することと
を含む、請求項１から１５のいずれか一項に記載の方法。
前記オーディオソースが、本質的に１次元（１Ｄ）オーディオソースである、請求項１から１６のいずれか一項に記載の方法。
前記オーディオソースの前記第１の空間広がりが、第１の空間次元における空間広がりであり、
前記方法は、
前記オーディオソースの第２の空間広がりを示す第２の空間広がり値を取得することであって、前記第２の空間広がりが、第２の空間次元における空間広がりである、第２の空間広がり値を取得することと、
前記オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、前記有効空間広がり値を導出すべきか否かを決定することと
をさらに含む、請求項１から１６のいずれか一項に記載の方法。
前記オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、前記有効空間広がり値を導出すべきか否かを決定することは、前記オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、前記有効空間広がり値が導出され得ることを示すフラグを受信することを含む、請求項１８に記載の方法。
前記オーディオソースが１つの空間次元のみにおける空間広がりを有するかのように、前記有効空間広がり値を導出すべきか否かを決定することは、
ｉ）前記第１の空間広がり値または前記第２の空間広がり値と前記距離値との間の差が、しきい値よりも大きいかどうか、あるいは
ｉｉ）前記第１の空間広がり値または前記第２の空間広がり値と前記距離値の関数である値との間の差が、しきい値よりも大きいかどうか
を決定することを含む、請求項１８に記載の方法。
前記オーディオソースが拡散オーディオソースである場合、前記方法は、前記第１の空間広がり値または前記第２の空間広がり値と前記距離値との間の前記差が、しきい値よりも大きいかどうかを決定することを含み、
前記オーディオソースが拡散オーディオソースでない場合、前記方法は、前記第１の空間広がり値または前記第２の空間広がり値と前記距離値の関数である前記値との間の前記差が、しきい値よりも大きいかどうかを決定することを含む、
請求項２０に記載の方法。
前記第１の空間広がり値または前記第２の空間広がり値と前記距離値との間の前記差が、しきい値よりも大きいかどうかを決定することは、前記距離値が、前記第１の空間広がり値または前記第２の空間広がり値よりも大きいかどうかを決定することからなる、請求項２０または２１に記載の方法。
処理回路（９０２）によって実行されたとき、前記処理回路に、請求項１から２２のいずれか一項に記載の方法を実施させる命令（９４４）を備える、コンピュータプログラム（９４３）。
請求項に２３に記載のコンピュータプログラムを含んでいるキャリアであって、前記キャリアが、電子信号、光信号、無線信号、およびコンピュータ可読記憶媒体（９４２）のうちの１つである、キャリア。
リスナーのためのオーディオソースをレンダリングするための装置（９００）であって、前記装置は、
前記オーディオソースの空間広がりを示す空間広がり値を取得すること（ｓ８０２）と、
前記オーディオソースと前記リスナーとの間の距離を指定する距離値を取得すること（ｓ８０４）と、
前記距離値がしきい距離値よりも小さいかどうかを決定すること（ｓ８０６）と、
前記距離値が前記しきい距離値よりも小さいと決定したことの結果として、有効空間広がり値を使用して、前記リスナーに対して前記オーディオソースをレンダリングすること（ｓ８０８）と
を行うように設定された、装置（９００）。
前記装置が、請求項２から２２のいずれか一項に記載の方法を実施するようにさらに設定された、請求項２５に記載の装置。
リスナーのためのオーディオソースをレンダリングするための装置（９００）であって、前記装置が、
メモリ（９４２）と、
前記メモリに結合された処理回路（９０２）と
を備え、前記処理回路は、前記装置に、
前記オーディオソースの空間広がりを示す空間広がり値を取得すること（ｓ８０２）と、
前記オーディオソースと前記リスナーとの間の距離を指定する距離値を取得すること（ｓ８０４）と、
前記距離値がしきい距離値よりも小さいかどうかを決定すること（ｓ８０６）と、
前記距離値が前記しきい距離値よりも小さいと決定したことの結果として、有効空間広がり値を使用して、前記リスナーに対して前記オーディオソースをレンダリングすること（ｓ８０８）と
を行わせるように設定された、装置（９００）。