以下、添付した図面を参照し本発明の実施形態について本発明が属する技術分野における通常の知識を有する者が容易に実施し得るように詳細に説明する。しかしながら、本発明は様々な異なる形態に具現されてもよく、ここで説明する実施形態に限定されない。そして、図面において、本発明を明確に説明するために説明と関係のない部分は省略しており、明細書全体にわたって類似した部分に対しては類似した図面符号を付している。
また、ある部分がある構成要素を「含む」という際、これは特に反対する記載がない限り、他の構成要素を除くのではなく、他の構成要素を更に含むことを意味する。
本出願は、韓国特許出願第10−2016−0122515号(2016年9月23日)、及び第10−2017−0018515号(2017年2月10日)に基づく優先権を主張し、優先権の基礎となる前記各出願に述べられた実施形態及び記載事項は、本出願の詳細な説明に含まれるとする。
図1は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置を示すブロック図である。
本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置100は、受信部10、プロセッサ30、及び出力部70を含む。
受信部10は、入力オーディオ信号を受信する。この際、入力オーディオ信号は音響収集装置が受信した音響が変換されたものである。音響収集装置はマイクである。また、音響収集装置は複数のマイクを含むマイクアレイであってもよい。
プロセッサ30は、受信部10が受信した入力オーディオ信号をプロセッシングする。詳しくは、プロセッサ30は、フォーマットコンバータ、レンダラ、及びポストプロセッシング部を含む。フォーマットコンバータは、入力オーディオ信号のフォーマットを他のフォーマットに変換する。詳しくは、フォーマットコンバータはオブジェクト信号をアンビソニック信号に変換する。この際、アンビソニック信号はマイクアレイを介して録音された信号である。また、アンビソニック信号は、マイクアレイを介して録音した信号を球面調和関数(spherical harmonics)の基底に対する係数(coefficient)に変換した信号であってもよい。また、フォーマットコンバータはアンビソニック信号をオブジェクト信号に変換する。詳しくは、フォーマットコンバータはアンビソニック信号の次数を変更する。例えば、フォーマットコンバータはHoA(Higher Order Ambisonics)信号をFoA(First Order Ambisonics)信号に変更する。また、フォーマットコンバータは入力オーディオ信号に関する位置情報を獲得し、獲得した位置情報に基づいて入力オーディオ信号のフォーマットを変換する。この際、位置情報はオーディオ信号に当たる音響を収集したマイクアレイに関する情報である。詳しくは、マイクアレイに関する情報は、マイクアレイを構成するマイクの配列情報、個数情報、位置情報、周波数特性情報、及びビームパターン情報のうち少なくとも一つを含む。また、入力オーディオ信号に関する位置情報は音源の位置を示す情報を含む。
レンダラは入力オーディオ信号をレンダリングする。詳しくは、レンダラはフォーマットが変換された入力オーディオ信号をレンダリングする。この際、入力オーディオ信号はラウドスピーカチャネル信号、オブジェクト信号、及びアンビソニック信号のうち少なくともいずれか一つを含む。具体的な実施形態において、レンダラはオーディオ信号のフォーマットが示す情報を利用して入力オーディオ信号が3次元上に位置する仮想のサウンドオブジェクトによって表現されるようにするオーディオ信号にレンダリングする。例えば、レンダラは入力オーディオ信号を複数のスピーカにマッチングしてレンダリングする。また、レンダラは入力オーディオ信号をバイノーラルレンダリングする。
また、レンダラはオブジェクト信号とアンビソニック信号の時間を同期化する時間同期化部(Time Synchronizer)を含む。
また、レンダラはアンビソニック信号の6自由度(6 Degrees Of Freedom、6DOF)を制御する6DOF制御部を含む。この際、6DOF制御部は、アンビソニック信号の特定方向成分の大きさを変更する方向変更部を含む。詳しくは、6DOF制御部は、オーディオ信号がシミュレーションする仮想の空間における聴者の位置に応じて、アンビソニック信号の特定方向成分の大きさを変更する。方向変更部は、アンビソニック信号の特定方向成分の大きさを変更するための行列を生成する方向変更行列生成部(Directional Modification Matrix Generator)を含む。また、6DOF制御部はアンビソニック信号をチャネル信号に変換する変換部を含み、6DOF制御部はチャネル信号に対応する仮想のスピーカとオーディオ信号の聴者との間の相対的位置を演算する相対的位置演算部を含む。
出力部70は、レンダリングされたオーディオ信号を出力する。詳しくは、出力部70は2つ以上のラウドスピーカを介してオーディオ信号を出力する。別の具体的な実施形態において、出力部70は2チャネルステレオヘッドホンを介してオーディオ信号を出力してもよい。
オーディオ信号処理装置100は、アンビソニック信号とオブジェクト信号を共に処理する。この際、オーディオ信号処理装置100の具体的な動作については図2を介して説明する。
図2は、本発明の実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がアンビソニック信号とオブジェクト信号を共にプロセッシングする動作を示すブロック図である。
上述したアンビソニック(Ambisonics)は、オーディオ信号処理装置が音場に関する情報を獲得し、獲得した情報を利用して音を再現する方法の一つである。詳しくは、アンビソニックはオーディオ信号処理装置が以下のようにオーディオ信号をプロセッシングすることを示す。
理想的なアンビソニック信号のプロセッシングのために、オーディオ信号処理装置は空間上の一点に入射する全方向の音響から音源に関する情報を獲得すべきである。しかし、マイクの大きさを減らすには限界があるため、オーディオ信号処理装置は球の表面から収集された音響から無限に小さい点に入射する信号を演算して音源に関する情報を獲得し、獲得した情報を使用する。詳しくは、球面座標系上において、マイクアレイの各マイクの位置は、座標系中心からの距離、方位角(または水平角)、及び高度角(または垂直角)で表現される。オーディオ信号処理装置は、球面座標系における各マイクの座標値を介して球面調和関数の基底を獲得する。この際、オーディオ信号処理装置は、球面調和関数の各基底に基づいてマイクアレイ信号を球面調和関数ドメインにプロジェクション(projection)する。
例えば、マイクアレイ信号は球状のマイクアレイを介して録音される。球面座標系の中心をマイクアレイの中心と一致させると、マイクアレイの中心から各マイクまでの距離はいずれも一定である。よって、各マイクの位置は方位角θと高度角Φのみで表現される。マイクアレイにおいて、q番目のマイクの位置を(θq、Φq)とすると、該当マイクを介して録音された信号Paは球面調和関数ドメインで以下の数式のように表現される。
Paは、マイクを介して録音された信号を示す。(θq、Φq)は、q番目のマイクの方位角と高度角を示す。Yは、方位角と高度角を因子として有する球面調和関数を示す。mはそれぞれ球面調和関数との次数(order)を示し、nはディグリー(degree)を示す。Bは、球面調和関数に対応するアンビソニック係数を示す。本明細書において、アンビソニック係数はアンビソニック信号と称される。詳しくは、アンビソニック信号はFoA信号及びHoA信号のうちいずれか一つを示す。
この際、オーディオ信号処理装置は、球面調和関数を利用して擬似逆行列(pseudo inverse matrix)を利用してアンビソニック信号を獲得する。詳しくは、オーディオ信号処理装置は以下の数式を使用してアンビソニック信号を獲得する。
Paは上述したようにマイクを介して録音された信号を示し、Bは球面調和関数に対応するアンビソニック係数を示す。pinv(Y)は、Yの擬似逆行列を示す。
上述したオブジェクト信号は、一つのサウンドオブジェクトに対応するオーディオ信号を示す。詳しくは、オブジェクト信号は特定のサウンドオブジェクトに近接した音響収集装置から獲得された信号である。オブジェクト信号は、特定地点で収集可能な全ての音響を空間上に表現するアンビソニック信号とは異なって、いずれか一つのサウンドオブジェクトが出力する音が特定地点に伝達されることを表現するために使用される。オーディオ信号処理装置は、オブジェクト信号に対応するサウンドオブジェクトの位置を利用してオブジェクト信号をアンビソニック信号のフォーマットで示す。この際、オーディオ信号処理装置は、サウンドオブジェクトに当たる音響を収集するマイクに設置された外部センサと、位置測定の基準点に設置された外部センサを使用してサウンドオブジェクトの位置を測定する。別の具体的な実施形態において、オーディオ信号処理装置は、マイクで収集されたオーディオ信号を分析してサウンドオブジェクトの位置を推定する。詳しくは、オーディオ信号処理装置は以下の数式を使用してオブジェクト信号をアンビソニック信号で示す。
θsとΦsそれぞれは、オブジェクトに対応するサウンドオブジェクトの位置を示す方位角と高度角を示す。Yは、方位角と高度角を因子として有する球面調和関数を示す。Bsnmは、オブジェクト信号が変換されたアンビソニック信号を示す。
よって、オーディオ信号処理装置がオブジェクト信号とアンビソニック信号を同時にプロセッシングする際、オーディオ信号処理装置は以下のうち少なくともいずれか一つの方法を使用する。詳しくは、オーディオ信号処理装置は、オブジェクト信号とアンビソニック信号を別途に出力する。また、オーディオ信号処理装置は、オブジェクト信号をアンビソニック信号フォーマットに変換し、アンビソニック信号フォーマットに変換されたオブジェクト信号とアンビソニック信号を出力する。この際、アンビソニック信号フォーマットに変換されたオブジェクト信号とアンビソニック信号はHoA信号である。また、アンビソニック信号フォーマットに変換されたオブジェクト信号とアンビソニック信号はFoA信号である。別の具体的な実施形態において、オーディオ信号処理装置は、オブジェクト信号なしにアンビソニック信号のみを出力してもよい。この際、アンビソニック信号はFoA信号である。アンビソニック信号は空間上の一地点から収集された全ての音響を含むと仮定するため、アンビソニック信号はオブジェクト信号に当たる信号成分を含んでいると仮定してもよい。よって、オーディオ信号処理装置は、前記実施形態のようにオブジェクト信号を別途にプロセッシングせずにアンビソニック信号のみをプロセッシングしても、オブジェクト信号に当たるサウンドオブジェクトを再現することができる。
具体的な実施形態において、オーディオ信号処理装置はアンビソニック信号とオブジェクト信号を図2の実施形態のように処理する。アンビソニック変換部31は、アンビエント音響をアンビソニック信号に変更する。フォーマットコンバータ33は、オブジェクト信号とアンビソニック信号のフォーマットを変更する。この際、フォーマットコンバータ33はオブジェクト信号をアンビソニック信号のフォーマットに変換する。詳しくは、フォーマットコンバータ33はオブジェクト信号をHoA信号に変換する。また、フォーマットコンバータ33はオブジェクト信号をFoA信号に変換する。また、フォーマットコンバータ33はHoA信号をFoA信号に変換する。ポストプロセッサ35は、フォーマットが変換されたオーディオ信号をポストプロセッシングする。レンダラ37は、ポストプロセッシングされたオーディオ信号をレンダリングする。この際、レンダラ37はバイノーラルレンダラである。よって、レンダラ37は、ポストプロセッシングされたオーディオ信号をバイノーラルレンダリングする。
オーディオ信号処理装置は、オーディオ信号をレンダリングして仮想の空間に位置する音源をシミュレーションする。この際、オーディオ信号処理装置は、オーディオ信号をレンダリングするための情報を必要とする。オーディオ信号をレンダリングするための情報はメタデータの形式で伝達され、オーディオ信号処理装置はメタデータに基づいてオーディオ信号をレンダリングする。特に、メタデータはコンテンツ製作者が意図したレンダリング方法に関する情報、及びレンダリング環境に関する情報を含む。それによって、オーディオ信号処理装置はコンテンツ製作者の意図を反映してオーディオ信号をレンダリングすることができる。メタデータの種類及びフォーマットについて、図3乃至図16を介して説明する。
図3は、本発明の実施形態によってバイノーラルレンダリングの適用程度を示すメタデータのシンタックスを示す図である。
メタデータは、オーディオ信号をレンダリングする際に聴者の頭の動きを反映し、オーディオ信号をレンダリングするのかを示す頭の動き適用情報を含む。この際、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータから頭の動き適用情報を獲得する。オーディオ信号処理装置は、頭の動き適用情報に基づいて聴者の頭の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。また、頭の動きは頭の回転(head rotation)を示す。オーディオ信号処理装置は、頭の動き適用情報に応じて聴者の頭の動きを反映せずに、オブジェクト信号をレンダリングする。また、オーディオ信号処理装置は、頭の動き適用情報に応じて聴者の頭の動きを反映し、オブジェクト信号をレンダリングしてもよい。聴者の頭に付いている蜂のように、聴者の頭の動きに応じて一緒に動くオブジェクトがあることがある。聴者の頭が回転する場合でも、聴者との間の相対的位置は変化しないか非常に少なく変化する。よって、オーディオ信号処理装置は、聴者の頭の動きを反映せずに該当オブジェクトをシミュレーションするオーディオ信号をレンダリングする。このような実施形態を介して、オーディオ信号処理装置の演算量を減らすことができる。
また、メタデータは、バイノーラルレンダリングの適用強度を示すバイノーラル効果強度情報を含む。この際、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータからバイノーラル効果の強度を獲得する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオブジェクト信号にバイノーラルレンダリングの適用強度(level)を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオーディオ信号にバイノーラルレンダリングの適用するのかを決定する。上述したように、オーディオ信号処理装置がオーディオ信号をバイノーラルレンダリングすれば、オーディオ信号処理装置は3次元空間にオーディオ信号が表現する音像が位置するようにシミュレーションする。但し、バイノーラルレンダリングはHRTFまたはBRIRのような伝達関数を使用するため、バイノーラルレンダリングによってオーディオ信号の音色が変形する可能性がある。また、オーディオ信号が表現する音像の種類によっては、空間感よりは音色がより重要な可能性がある。よって、オーディオ信号が含むコンテンツの製作者は、バイノーラル効果強度情報を設定してオーディオ信号のバイノーラルレンダリングの適用程度を決定する。詳しくは、バイノーラル効果強度情報は、バイノーラルレンダリングが適用されていないことを示す。この際、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオーディオ信号をバイノーラルレンダリングを使用せずにレンダリングする。また、バイノーラル効果強度情報は、バイノーラルレンダリングが適用される際にバイノーラルレンダリングのためのHRTFまたはBRIRの適用強度を示す。
詳しくは、バイノーラル効果強度情報は量子化されたレベルに区分される。別の具体的な実施形態において、バイノーラル効果強度情報はMild、Normal、及びStrongのように3段階に区分される。また、バイノーラル効果強度情報は、図3(a)の実施形態のように5段階に区分されてもよい。別の具体的な実施形態において、バイノーラル効果強度情報は0と1との間の連続した実数のうちいずれか一つの値で表現されてもよい。
オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報をオーディオ信号が含むオーディオトラック別に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度情報をオーディオ信号が含むオーディオソース別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報を信号特性別に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度情報をオーディオ信号が含むオブジェクト別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報を各オーディオトラックの時間区間別に適用する。この際、時間区間はオーディオ信号のフレームである。詳しくは、メタデータは、図3(b)の実施形態のようにバイノーラル効果強度情報をトラック別、フレーム別に区分する。
また、メタデータは、バイノーラル効果強度情報の適用が強制されるのかを示すバイノーラル効果強度強制可否情報を含む。オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータからバイノーラル効果強度強制可否情報を獲得し、バイノーラル効果強度強制可否情報に応じてバイノーラル強化強度情報を選択的に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度強制可否情報に応じてバイノーラル効果強度情報を強制に適用する。オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報をオーディオ信号が含むオーディオトラック別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報をオーディオ信号が含むオーディオソース別に適用する。また、オーディオ信号処理装置は、バイノーラル効果強度強制可否情報を信号特性別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報をオーディオ信号が含むオブジェクト別に適用する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度強制可否情報を各オーディオトラックの時間区間別に適用する。具体的な実施形態において、バイノーラル効果強度強制可否情報の具体的な形式は図3(c)のようである。
オーディオ信号をレンダリングするオーディオ信号処理装置は、バイノーラル効果強度情報を使用してバイノーラルレンダリングだけでなく他の立体音響の適用可否を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に応じてバイノーラル効果強度情報が指示するオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。このような実施形態を介して、オーディオ信号をレンダリングするオーディオ信号処理装置の演算効率を上げられる。また、このような実施形態を介して、オーディオ信号が含むコンテンツの製作者が意図したコンテンツ経験が聴者に精巧に伝達される。
同じオーディオ信号でも、多様な装置を介してレンダリングされる。特に、多様な映像表示装置を介してコンテンツが消費されることで、オーディオ信号のレンダリング環境も多様になりつつある。例えば、同じオーディオ信号がヘッドマウントディスプレイ(head mounted display、HMD)形態のVR機器にレンダリングされてもよく、携帯やテレビにレンダリングされてもよい。よって、同じオーディオ信号であってもオーディオ信号がレンダリングされる装置に応じて異なるようにレンダリングされる必要がある。それについては図4を介して説明する。
図4は、本発明の実施形態によってオーディオ信号がレンダリングされる装置の特性に応じてレンダリング条件を調整するためのメタデータのシンタックスを示す図である。
メタデータは、該当メタデータが生成される際に基準となるオーディオ信号処理装置の特性を示すリファレンス装置特性パラメータを含む。詳しくは、リファレンス装置特性パラメータは、オーディオ信号が含むコンテンツの製作者がオーディオ信号をレンダリングすると意図したオーディオ信号処理装置の特性を示す。
オーディオ信号リファレンス装置特性パラメータは、オーディオ信号がレンダリングされる映像表示装置の特性を含む。詳しくは、リファレンス装置特性パラメータは、映像表示装置のスクリーン特性を含む。詳しくは、スクリーン特性は、スクリーンのタイプ、スクリーンの解像度、スクリーンのサイズ、及びスクリーンの画面割合のうち少なくともいずれか一つを含む。スクリーンのタイプは、テレビ、パソコンのモニタ、携帯、及びHMDのうち少なくともいずれか一つを含む。また、スクリーンのタイプは、スクリーンの解像度と組み合わせられて区分される。例えば、装置特性パラメータは、HDをサポートするHMDとUHDをサポートするHMDを区別して示してもよい。スクリーンの画面割合は、1:1、4:3、15:9、及び16:9のうち少なくともいずれか一つを含む。また、リファレンス装置特性パラメータは、具体的なモデル名を含む。
詳しくは、リファレンス装置特性パラメータは、聴者と映像表示装置の位置関係を含む。聴者と映像表示装置の位置関係は、聴者と映像表示装置のスクリーンとの間の距離を含む。また、聴者と映像表示装置の位置関係は、聴者が映像表示装置を眺める視聴角度を含む。聴者と映像表示装置のスクリーンとの間の距離は、オーディオコンテンツを製作する際の製作環境に応じて異なり得る。また、装置特性パラメータは、視聴角度を90度以下、90度乃至110度、110度乃至130度、130度以上のように区別して示す。
また、リファレンス装置特性パラメータは、オーディオ信号出力特性を含む。オーディオ信号出力特性は、ラウドネスレベル、出力装置のタイプ及び出力に使用されるEQのうち少なくともいずれか一つを含む。リファレンス装置特性パラメータは、ラウドネスレベルをSPL(Sound Pressure Level)値に示す。詳しくは、リファレンス装置特性パラメータは、メタデータが意図するラウドネスレベルの範囲を示す。別の具体的な実施形態において、リファレンス装置特性パラメータは、メタデータが意図するラウドネスレベルの値を示す。出力装置のタイプは、ヘッドホン及びスピーカのうち少なくともいずれか一つを含む。また、出力装置のタイプは、ヘッドホン、スピーカの出力特性に応じて細分化される。また、出力に使用されるEQは、創作家コンテンツを製作する際に使用したEQである。詳しくは、リファレンス装置特性パラメータは、図4のようなシンタックスを有する。
オーディオ信号処理装置は、リファレンス装置特性パラメータとオーディオ信号処理装置の特性の差に基づいてオーディオ信号をレンダリングする。具体的な実施形態において、オーディオ信号処理装置は、リファレンス装置特性パラメータが示す聴者と映像出力装置のスクリーンとの間の距離と、実際の装置特性パラメータが示す聴者と映像出力装置のスクリーンとの間の距離の差に基づいてオーディオ信号の大きさを調整する。別の具体的な実施形態において、オーディオ信号処理装置は、リファレンス装置特性パラメータが示す視聴角度と実際の装置特性パラメータが示す視聴角度の差に基づいて、メタデータが示す音像の位置を補正してオーディオ信号をレンダリングする。また別の具体的な実施形態において、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルに基づいて、オーディオ信号処理装置の出力レベルを調整する。詳しくは、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルにオーディオ信号処理装置の出力レベルを調整する。また、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルをユーザに表示する。詳しくは、オーディオ信号処理装置は、リファレンス装置特性パラメータが示すラウドネスレベルと、等ラウドネス曲線(Equal Loudness Contour)に基づいてオーディオ信号処理装置の出力レベルを調整する。
オーディオ信号処理装置は、複数のリファレンス装置特性パラメータセットのうちいずれか一つを選択し、選択したリファレンス装置特性パラメータセットに当たるメタデータを利用してオーディオ信号をレンダリングする。詳しくは、オーディオ信号処理装置は、オーディオ信号処理装置の特性に基づいて複数のリファレンス装置特性パラメータセットのうちいずれか一つを選択する。この際、リファレンス装置特性パラメータセットは、上述した装置特性パラメータのうち少なくともいずれか一つを含む。オーディオ信号処理装置は、複数のリファレンス装置特性パラメータセットと、複数のリファレンス装置特性パラメータセットそれぞれに当たるメタデータを含むメタデータセットを受信する。この際、メタデータセットは、リファレンス装置特性パラメータセットの個数を示すスクリーン最適情報個数(numScreenOptimizedInfo)を含む。スクリーン最適情報個数は5ビット表示され、最大32個を示す。
オーディオ信号処理装置は、個人化(personalization)パラメータを使用してオーディオ信号をバイノーラルレンダリングする。この際、個人化パラメータは、聴者によって設定されるパラメータを示す。詳しくは、個人化パラメータはHRTF、身体情報及び3Dモデルのうち少なくともいずれか一つを含む。個人化パラメータは、オーディオ信号レンダリングに影響を及ぼす。よって、聴者が設定した個人化パラメータが適用されれば、オーディオ信号が含むコンテンツの製作者の意図がレンダリングされたオーディオに反映されない可能性がある。結果的に、オーディオ信号がコンテンツを介して伝達しようとするコンテンツの経験が伝達できない恐れがある。よって、メタデータは個人化パラメータの適用可否を示す個人化適用可否情報を含む。オーディオ信号処理装置は、個人化適用可否情報に基づいて個人化パラメータを適用し、オーディオ信号をバイノーラルレンダリングするのかを決定する。個人化適用可否情報が個人化パラメータの適用を許容されないことを示せば、オーディオ信号処理装置は個人化パラメータを適用せずにオーディオ信号をバイノーラルレンダリングする。
オーディオ信号が含むコンテンツの製作者は、メタデータを使用してオーディオ信号処理装置の演算量の最適化を誘導する。詳しくは、メタデータは、オーディオ信号のサウンドレベルを示すサウンドレベル情報を含む。オーディオ信号処理装置は、サウンドレベル情報に基づいてオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングすることは、バイノーラルレンダリングを適用せずにオーディオ信号をレンダリングすることを含む。
例えば、メタデータは、サウンドレベルが0であることを示すミュート情報を含む。この際、オーディオ信号処理装置は、ミュート情報に基づいてオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。詳しくは、オーディオ信号処理装置は、ミュート情報がサウンドレベルが0であることを示すオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。
別の具体的な実施形態において、オーディオ信号処理装置は、サウンドレベルが一定大きさ以下のオーディオ信号を該当オーディオ信号がシミュレーションする音像の位置を反映せずにレンダリングする。
また別の具体的な実施形態において、オーディオ信号処理装置は、第1時間区間に当たるオーディオ信号のサウンドレベルと第2時間区間に当たるオーディオ信号のサウンドレベルに基づき、第2時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映せずに、第2時間区間に当たるオーディオ信号をレンダリングする。この際、第1時間区間は第2時間区間の前に位置する時間区間である。また、第1時間区間と第2時間区間は連続した時間区間である。詳しくは、オーディオ信号処理装置は、第1時間区間に当たるオーディオ信号のサウンドレベルと第2時間区間に当たるオーディオ信号のサウンドレベルの差を比較し、第2時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映せずに、第2時間区間に当たるオーディオ信号をレンダリングする。例えば、第1時間区間に当たるオーディオ信号のサウンドレベルと第2時間区間に当たるオーディオ信号のサウンドレベルの差が指定された値以上であれば、オーディオ信号処理装置は、第2時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映せずに、第2時間区間に当たるオーディオ信号をレンダリングする。聴者が大きい音の後に相対的に小さい音を聞く場合、聴者は時間マスキングエフェクト(temporal masking effect)によって相対的に小さい音をよく認識できない恐れがある。聴者が大きい音の後に相対的に小さい音を聞く場合、聴者は空間マスキングエフェクト(spatial masking effect)によって相対的に小さい音を出す音源の位置をよく認識できない恐れがある。よって、相対的に大きい音の後に聞こえる小さい音に立体音響を再現するためのレンダリングを適用しても聴者に及ぼす影響はわずかな可能性がある。よって、オーディオ信号処理装置は、演算効率を上げるために大きい音の後に聞こえる小さい音に立体音響を再現するためのレンダリング適用しない。
具体的な実施形態において、メタデータはサウンドレベルをオーディオトラック、オーディオソース、オブジェクト、及び時間区間のうちいずれか一つに区分して示す。上述した時間区間は、オーディオ信号のフレームである。また、上述した実施形態において、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映してレンダリングするのかが変更されるのかに応じて、フェードイン・フェードアウトを適用してオーディオ信号をレンダリングする。オーディオ信号処理装置は、このような実施形態を介して選択的に立体音響レンダリングを適用することで、レンダリングされる音響が不自然に聞こえることを防止する。
また、メタデータはオーディオ信号がシミュレーション音像の位置に対する聴者の動きを反映してオーディオ信号をレンダリングするのかを示す動き適用可否情報を含む。オーディオ信号処理装置は、メタデータから動き適用可否情報を獲得する。オーディオ信号処理装置は、動き適用可否情報に基づいて聴者の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。詳しくは、メタデータは聴者の頭の動きを反映し、オーディオ信号をレンダリングするのかを示すヘッドトラッキング適用可否情報を含む。この際、オーディオ信号処理装置はメタデータからヘッドトラッキング適用可否情報を獲得する。オーディオ信号処理装置は、ヘッドトラッキング適用可否情報に基づいて聴者の頭の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。オーディオ信号処理装置は、ヘッドトラッキング適用可否情報に基づいて聴者の頭の動きを反映せずに、オブジェクト信号をレンダリングする。聴者の頭に付いている蜂のように聴者の頭の動きに応じて一緒に動くオブジェクトの場合、オブジェクトの相対的な位置変化が起こらないか非常に小さい変化のみが起こる。よって、オーディオ信号処理装置は、このようなオブジェクトを示すオーディオ信号に対して聴者の頭の動きを反映せずに、該当オブジェクトをシミュレーションするオーディオ信号をレンダリングする。
オーディオ信号処理装置は、上述した実施形態によるメタデータを使用して演算効率を最適化する。
図5乃至図8を介して、メタデータの具体的な構造とフォーマットを説明する。
図5は、本発明の実施形態による付加情報の分類を示す図である。
付加情報はメタデータを含む。付加情報は、付加情報がシグナリングするオーディオ信号の時間区間の相対的な長さによって区分される。詳しくは、付加情報は、付加情報がシグナリングするオーディオ信号の時間区間の相対的な長さによってヘッダパラメータとメタデータパラメータに区分される。ヘッダパラメータは、オーディオ信号をレンダリングする際によく変更される可能性が低いパラメータを含む。ヘッダパラメータが含むパラメータは、オーディオ信号が含むコンテンツが終了されるかレンダリング構成(configuration)が変更される前まで同じく維持される情報である。例えば、ヘッダパラメータはアンビソニック信号の次数を含む。メタデータパラメータは、オーディオ信号をレンダリングする際によく変更される可能性が高いパラメータを含む。例えば、メタデータパラメータは、オーディオ信号がシミュレーションするオブジェクトの位置に関する情報を含む。詳しくは、オブジェクトの位置に関する情報は方位角(azimuth)、高度角(elevation)、距離(distance)のうち少なくともいずれか一つである。
また、付加情報のタイプは、オーディオ信号レンダリングのための情報を含むエレメントパラメータと、オーディオ信号自体に関する情報以外の情報を含むジェネラルパラメータに区分される。詳しくは、ジェネラルパラメータは、オーディオ信号自体に関する情報を含む。
ヘッダパラメータの具体的な構造及びフォーマットについては、図6乃至図7を介して説明する。
図6は、本発明の実施形態によるヘッダパラメータの構造を示す図である。
ヘッダパラメータは、オーディオ信号が含む構成成分(component)のタイプ別に情報を含む。詳しくは、ヘッダパラメータは、全体のオーディオ信号、アンビソニック信号、及びチャネル信号別に情報を含む。詳しくは、全体のオーディオ信号を示すヘッダパラメータはGAO_HDRと称される。
GAO_HDRは、オーディオ信号のサンプリングレートに関する情報を含む。オーディオ信号処理装置は、サンプリングレートに関する情報を基準にHRTFまたはBRIRに基づくフィルタ係数を算出する。オーディオ信号処理装置は、オーディオ信号をバイノーラルレンダリングする際、サンプリングレートに当たるフィルタ係数が存在しなければ、オーディオ信号処理装置は、オーディオ信号をリサンプリング(resampling)してフィルタ係数を算定する。オーディオ信号がWAVファイルやAACファイルのようにサンプリングレートに関する情報を含めば、GAO_HDRはサンプリングレートに関する情報を含まない。
また、GAO_HDRは、エレメントメタデータが示すフレーム別長さを示す情報を含む。フレーム別長さは、音質、バイノーラルレンダリングアルゴリズム、メモリ、演算量など、様々な制約条件を基準に設定される。フレーム別長さは、ポストプロダクション(post−production)またはエンコーディングの際に設定される。製作者はフレーム別長さを介して、オーディオ信号がバイノーラルレンダリングされる際に時間別(time resolution)密度を調節する。
また、GAO_HDRは、オーディオ信号が含む構成成分のタイプによる構成成分の個数を含む。詳しくは、GAO_HDRは、オーディオ信号が含むアンビソニック信号の個数、チャネル信号の個数、オブジェクトオーディオ信号の個数それぞれを含む。
GAO_HDRは、以下の表が含む情報のうち少なくともいずれか一つを含む。この際、GENはジェネラルパラメータを示し、ELEはエレメントパラメータを示す。
GAO_HDRが示す構成成分のタイプによる構成成分の個数が1つ以上であれば、各構成成分に当たるヘッダパラメータがGAO_HDRと共にオーディオ信号処理装置に伝達される。詳しくは、構成成分のタイプによる構成成分の個数が1つ以上であれば、GAO_HDRは各構成成分に当たるヘッダパラメータを含む。詳しくは、構成成分のタイプによる構成成分の個数が1つ以上であれば、GAO_HDRは各構成成分に当たるヘッダパラメータを連結するリンク情報を含む。
図7は、本発明の実施形態によるGAO_HDRの具体的なフォーマットを示す図である。
アンビソニック信号を示すヘッダパラメータは、GAO_HOA_HDRと称される。GAO_HOA_HDRは、アンビソニック信号をレンダリングする際に使用するスピーカレイアウトに関する情報を含む。上述したように、オーディオ信号処理装置はアンビソニック信号をチャネル信号に変換し、変換したアンビソニック信号をバイノーラルレンダリングする。この際、オーディオ信号処理装置は、スピーカレイアウトに関する情報に基づいてアンビソニック信号をチャネル信号に変換する。スピーカレイアウトに関する情報は、CICP(Code Independent Coding Point)インデックスである。スピーカレイアウトに関する情報によってスピーカレイアウトが決定されなければ、別途のファイルを介してスピーカレイアウトに関する情報がオーディオ信号処理装置に伝達される。スピーカレイアウト上のスピーカ数が減ると、バイノーラルレンダリングが必要な音源の個数も減る。よって、スピーカレイアウトに応じてバイノーラルレンダリングに必要な演算量が調整される。
GAO_HOA_HDRは、オーディオ信号処理男装置が該当アンビソニック信号をバイノーラルレンダリングする際に使用するバイノーラルレンダリングモードに関する情報を含む。オーディオ信号処理装置は、バイノーラルレンダリングモードに基づいて該当アンビソニック信号をバイノーラルレンダリングする。この際、バイノーラルレンダリングモードは、チャネルレンダリングの後にユーザの頭の動きを適用するレンダリングモードと、ユーザの頭の動きを適用した後にチャネルレンダリングを適用するモードのうちいずれか一つを示す。この際、頭の動きは頭の回転を示す。詳しくは、オーディオ信号処理装置は、第1アンビソニック信号に頭の動きに当たる回転マトリックスを適用して第2アンビソニック信号を生成し、第2アンビソニック信号をチャネルレンダリングする。オーディオ信号処理装置は、このようなレンダリングモードを介してアンビソニック信号の音色を維持する。また、オーディオ信号処理装置は第1アンビソニック信号をチャネル信号に変換し、頭の動きに応じて第1チャネル信号のスピーカレイアウトを変更した後、チャネル信号をバイノーラルレンダリングする。オーディオ信号処理装置は、このようなレンダリングモードを介してアンビソニック信号がシミュレーションする音像の位置を精巧に表現することができる。GAO_HOA_HDRがバイノーラルレンダリングモードに関する情報を含めば、製作者はコンテンツ特性に応じてバイノーラルレンダリングモードを選択する。例えば、製作者は、自動車の音のような広帯域のノイズのような音響は、アンビソニック信号をチャネルレンダリングした後、チャネルレンダリングされたアンビソニック信号に頭の動きを適用する。自動車の音の位置よりは音色が重要なためである。また、会話の音のように音像の位置が重要な場合、製作者はアンビソニック信号に頭の動きを適用した後、頭の動きが適用されたアンビソニック信号をチャネルレンダリングする。
GAO_HOA_HDRは、アンビソニック信号がシミュレーションする音像の位置が時間の変化に応じて回転されるのかを示す情報を含む。オーディオ信号がシミュレーションする音像の位置が時間の変化に応じて回転されるのかを示す情報は、フラッグの形態に表示される。オーディオ信号がシミュレーションする音像の位置が時間の変化に応じて回転されなければ、オーディオ信号処理装置は、最初に獲得したアンビソニック信号がシミュレーションする音像の位置回転に関する情報を続けて使用する。
GAO_HOA_HDRは、アンビソニック信号が含むコンテンツの言語を示す情報を含む。オーディオ信号処理装置は、オーディオ信号が含むコンテンツの言語を示す情報に基づいてアンビソニック信号を選択的にレンダリングする。
詳しくは、GAO_HOA_HDRは、以下の表が含む情報のうち少なくともいずれか一つを含む。
チャネル信号を示すヘッダパラメータは、GAO_CHN_HDRと称される。GAO_CHN_HDRは、チャネル信号のスピーカレイアウトに関する情報を示す情報を含む。
GAO_CHN_HDRは、GAO_HOA_HDRが含む情報を少なくともいずれか一つ含む。詳しくは、GAO_CHN_HDRは、以下の表が含む情報のうち少なくともいずれか一つを含む。
チャネル信号を示すヘッダパラメータは、GAO_OBJ_HDRと称される。GAO_OBJ_HDRは、GAO_HOA_HDRが含む情報を少なくともいずれか一つ含む。詳しくは、GAO_OBJ_HDRは、以下の表が含む情報のうち少なくともいずれか一つを含む。
メタデータパラメータの具体的な構造及びフォーマットについては、図8を介して説明する。
図8は、本発明の実施形態によるメタデータパラメータの構造を示す図である。
メタデータパラメータは、オーディオ信号が含む構成成分のタイプ別に情報を含む。詳しくは、メタデータパラメータは、全体のオーディオ信号、アンビソニック信号、オブジェクト信号、及びチャネル信号別に情報を含む。この際、全体のオーディオ信号を示すメタデータパラメータはGAO_METAと称される。
GAO_META示す構成成分のタイプによる構成成分の個数が1つ以上であれば、各構成成分に当たるメタデータパラメータがGAO_METAと共にオーディオ信号処理装置に伝達される。詳しくは、構成成分のタイプによる構成成分の個数が1つ以上であれば、GAO_METAは各構成成分に当たるメタデータパラメータを含む。詳しくは、構成成分のタイプによる構成成分の個数が1つ以上であれば、GAO_METAは各構成成分に当たるメタデータパラメータを連結するリンク情報を含む。
オブジェクト信号を示すメタデータパラメータは、GAO_META_OBJと称される。GAO_META_OBJは、上述したヘッドトラッキング適用可否情報を含む。この際、オーディオ信号処理装置は、GAO_META_OBJからヘッドトラッキング適用可否情報をレンダリングするのかを示す情報を獲得する。オーディオ信号処理装置は、ヘッドトラッキング適用可否情報に基づいて聴者の頭の動きを反映し、オブジェクト信号をレンダリングするのかを決定する。
GAO_META_OBJは、上述した外バイノーラル効果強度情報を含む。この際、オーディオ信号処理装置は、GAO_META_OBJからバイノーラル効果強度情報を示す情報を獲得する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオブジェクト信号に適用するバイノーラルレンダリングの適用強度を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてオブジェクト信号をバイノーラルレンダリングするのかを決定する。
GAO_META_OBJは、上述した外サウンドレベル情報を含む。この際、オーディオ信号処理装置は、GAO_META_OBJからサウンドレベル情報を獲得する。また、オーディオ信号処理装置は、サウンドレベル情報に基づき、オブジェクト信号がシミュレーションする音像の位置を反映してレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報に基づいてオブジェクト信号をバイノーラルレンダリングするのかを決定する。
詳しくは、GAO_META_OBJは、以下の表に示した情報のうち少なくともいずれか一つを含む。
GAO_META_CHNとGAO_META_HOAは、上述した外バイノーラル効果強度情報を含む。この際、オーディオ信号処理装置は、GAO_META_CHNまたはGAO_META_HOAからバイノーラル効果強度情報を示す情報を獲得する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてチャネル信号に適用するバイノーラルレンダリングの適用強度を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてチャネル信号をバイノーラルレンダリングするのかを決定する。また、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてアンビソニック信号に適用するバイノーラルレンダリングの適用強度を決定する。詳しくは、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいてアンビソニック信号をバイノーラルレンダリングするのかを決定する。
GAO_META_CHNとGAO_META_HOAは、上述した外サウンドレベル情報を含む。この際、オーディオ信号処理装置は、GAO_META_CHNとGAO_META_HOAからサウンドレベル情報を獲得する。また、オーディオ信号処理装置は、サウンドレベル情報に基づき、チャネル信号がシミュレーションする音像の位置を反映してレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報に基づいてチャネル信号をバイノーラルレンダリングするのかを決定する。また、オーディオ信号処理装置は、サウンドレベル情報に基づき、アンビソニック信号がシミュレーションする音像の位置を反映してレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報に基づいてアンビソニック信号をバイノーラルレンダリングするのかを決定する。
GAO_META_CHNとGAO_META_OBJは、同じ種類のパラメータを含む。また、具体的な実施形態によって、GAO_META_CHNとGAO_META_OBJは異なる種類のパラメータを含んでもよい。詳しくは、GAO_META_CHNとGAO_META_OBJは、以下の表に示した情報のうち少なくともいずれか一つを含む。
オーディオ信号は、ファイルの形態でオーディオ信号処理装置に伝達される。また、オーディオ信号は、ストリーミングを介してオーディオ信号処理装置に伝達される。また、オーディオ信号は、放送信号を介してオーディオ信号処理装置に伝達される。オーディオ信号の伝達形態に応じて、メタデータの伝達方法も異なり得る。それについては、図9乃至図12を介して説明する。
図9は、本発明の一実施形態によるオーディオ信号処理装置がオーディオ信号とは別にメタデータを獲得する動作を示す図である。
オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号をエンコーディングしたオーディオ信号ビットストリームとは別途にメタデータをオーディオ信号処理装置に伝達する。よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータをオーディオ信号とは別途に獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータをオーディオ信号とは異なる伝送ファイルまたは他の伝送ストリームから獲得する。具体的な実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、伝送ストリームまたは伝送ファイルを第2リンクを介して受信し、メタデータを第2リンクを介して受信する。この際、伝送ファイルまたは伝送ストリームは、オーディオ信号をエンコーディングしたオーディオビットストリームを含むか、オーディオ信号をエンコーディングしたオーディオビットストリームとビデオ信号をエンコーディングしたビデオビットストリームを全て含む。
図9の実施形態は、オーディオ信号処理装置を含む映像信号処理装置を示す。映像信号処理装置は、第1リンクURL1を介してオーディオ信号とビデオ信号を含む伝送ストリーム(transport stream)を受信する。映像信号処理装置は、第2リンクURL2からメタデータ(metadata)を受信する。映像信号処理装置は、伝送ストリームをデマクシングし、オーディオビットストリームAとビデオビットストリームVを抽出する。オーディオ信号処理装置のデコーダ(Audio Decoder)は、オーディオビットストリームAをデコードしてオーディオ信号(audio signal)を獲得する。オーディオ信号処理装置のオーディオレンダラ(Audio Renderer)は、オーディオ信号とメタデータを受信する。この際、オーディオ信号処理装置のレンダラは、メタデータインタフェース(Metadata Interface)を使用してメタデータを受信する。また、オーディオ信号処理装置のレンダラは、メタデータに基づいてオーディオ信号をレンダリングする。オーディオレンダラは、メタデータを処理するモジュール(G−format)とオーディオ信号を処理するモジュール(G−core)を含む。また、オーディオレンダラは、映像信号処理装置のユーザの頭の動きに基づいてオーディオ信号をレンダリングする。映像信号処理装置は、レンダリングされたビデオを一緒に出力する。また、ビデオレンダラはビデオ信号(video signal)をレンダリングする。この際、ビデオレンダラは、映像信号処理装置のユーザの頭の動きに基づいてビデオ信号をレンダリングする。また、映像処理装置は、制御部(Controller)を使用してユーザ入力を受信する。また、制御部は、デマックス(Demux)とメタデータインタフェースの動作を制御する。図9の実施形態において、実線で示した部分は図9の実施形態によるオーディオ信号処理装置が含むモジュールを示す。また、点線で示した部分は映像信号処理装置が含むモジュールであって、省略されるか代替されてもよい。
図10は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオ信号と共にメタデータを獲得する動作を示す図である。
オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号をエンコーディングしたオーディオ信号ビットストリームと一緒にメタデータを伝達する。オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータをオーディオ信号と一緒に獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、同じ伝送ファイルまたは伝送ストリームからメタデータとオーディオ信号と一緒に獲得する。この際、伝送ファイルまたは伝送ストリームは、オーディオ信号をエンコーディングしたオーディオビットストリームとメタデータを含むか、オーディオ信号をエンコーディングしたオーディオビットストリーム、ビデオ信号をエンコーディングしたビデオビットストリーム、及びメタデータを全て含む。例えば、伝送ファイルのユーザデータフィールドはメタデータを含む。詳しくは、伝送ファイルがmp4であれば、mp4のユーザデータフィールドであるUTDAはメタデータを含む。別の具体的な実施形態において、伝送ファイルがmp4であれば、mp4の個別ボックス(box)またはエレメントがメタデータを含む。
図10の実施形態は、オーディオ信号処理装置を含む映像信号処理装置を示す。映像信号処理装置は、第1リンクURL1を介してオーディオ信号、ビデオ信号、及びメタデータを含む伝送ストリームを受信する。映像信号処理装置は、伝送ストリームをパージングしてメタデータを抽出する。この際、映像信号処理装置は、パーサ(Parser)を使用して伝送ストリームをパージングする。映像信号処理装置は、伝送ストリームをデマクシングし、オーディオ信号とビデオ信号を抽出する。オーディオ信号処理装置のデコーダは、デマクシングされたオーディオ信号Aをデコードする。オーディオ信号処理装置のオーディオレンダラは、デコードされたオーディオ信号とメタデータを受信する。この際、オーディオ信号処理装置のレンダラは、メタデータインタフェースを使用してメタデータを受信する。また、オーディオ信号処理装置のレンダラは、メタデータに基づいてデコードされたオーディオ信号をレンダリングする。オーディオ信号処理装置と映像信号処理装置の他の動作は、図9を介して説明した実施形態と同じである。
図11は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオ信号とメタデータをリンクするリンク情報を共に獲得する動作を示す図である。
オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、伝送ストリームまたは伝送ファイルを介してメタデータをリンクするリンク情報を伝達する。よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、伝送ストリームまたは伝送ファイルからメタデータをリンクするリンク情報を獲得し、リンク情報を使用してメタデータを獲得する。この際、伝送ファイルまたは伝送ストリームは、オーディオ信号をエンコーディングしたビットストリームを含むか、オーディオ信号をエンコーディングしたビットストリームとビデオ信号をエンコーディングしたビットストリームを全て含む。例えば、伝送ファイルのユーザデータフィールドがメタデータをリンクするリンク情報を含む。伝送ファイルがmp4であれば、mp4のユーザデータフィールドであるUTDAはメタデータをリンクするリンク情報を含む。別の具体的な実施形態において、伝送ファイルがmp4であれば、mp4の個別ボックスまたはエレメントがメタデータをリンクするリンク情報を含む。オーディオ信号をレンダリングするオーディオ信号処理装置は、リンク情報を使用して獲得されたメタデータを受信する。
図11の実施形態は、オーディオ信号処理装置を含む映像信号処理装置を示す。映像信号処理装置は、第1リンクURL1を介してオーディオ信号、ビデオ信号、及びメタデータをリンクするリンク情報を含む伝送ストリームを受信する。映像信号処理装置は、伝送ストリームをデマクシングし、オーディオビットストリームA、ビデオビットストリームV、及びメタデータをリンクするリンク情報を抽出する。オーディオ信号処理装置のデコーダは、オーディオビットストリームAをデコードしてオーディオ信号を獲得する。オーディオ信号処理装置のレンダラは、メタデータインタフェースを使用してリンク情報が支持する第2リンクURL2からメタデータを受信する。オーディオ信号処理装置のオーディオレンダラは、オーディオ信号とメタデータを受信する。また、オーディオ信号処理装置のレンダラは、メタデータに基づいてオーディオ信号をレンダリングする。オーディオ信号処理装置と映像信号処理装置の他の動作は、図9を介して説明した実施形態と同じである。
図12乃至図13は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理装置がオーディオビットストリームに基づいてメタデータを獲得する動作を示す図である。
オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオビットストリームにメタデータを挿入する。よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオビットストリームからメタデータを獲得する。詳しくは、オーディオビットストリームのユーザデータフィールドはメタデータを含む。それによって、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオビットストリームからメタデータをパージングするパーサを含む。別の具体的な実施形態において、オーディオ信号処理装置のデコーダは、オーディオビットストリームからメタデータを獲得する。
図12の実施形態において、オーディオ信号処理装置のパーサはオーディオビットストリームからメタデータを獲得する。オーディオ信号処理装置のレンダラは、パーサからメタデータを受信する。図13の実施形態において、オーディオ信号処理装置のデコーダはオーディオビットストリームからメタデータを獲得する。オーディオ信号処理装置のレンダラは、オーディオ信号処理装置のデコーダからメタデータを受信する。図12乃至図13の実施形態において、オーディオ信号処理装置と映像信号処理装置の他の動作は、図9を介して説明した実施形態と同じである。
オーディオ信号処理装置がストリーミングを介してオーディオ信号を受信すれば、オーディオ信号処理装置はストリーミングの途中からオーディオ信号を受信してもよい。よって、オーディオ信号をレンダリングするために必要な情報は周期的に伝送されるべきである。それについては、図14乃至図16を介して説明する。
図14は、本発明の一実施形態によるオーディオ信号処理装置が伝送ストリーミングを介してオーディオ信号を受信する際のオーディオ信号処理装置がメタデータを獲得する方法を示す図である。
オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームにメタデータを周期的に挿入する。この際、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームにフレーム単位でメタデータを挿入する。具体的な実施形態において、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームに、上述したヘッダパラメータとメタデータパラメータを周期的に挿入する。この際、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置はマルチメディアストリームに、ヘッダパラメータをメタデータパラメータよりも大きい周期で挿入する。詳しくは、フレームに含まれたメタデータパラメータの長さが他のフレームに含まれたメタデータパラメータの長さよりも小さければ、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、該当フレームにヘッダパラメータを挿入する。
よって、オーディオ信号をレンダリングするオーディオ信号処理装置は、マルチメディアストリームから周期的にメタデータを獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、マルチメディアストリームからフレーム単位でメタデータを獲得する。オーディオ信号をレンダリングするオーディオ信号処理装置がフレーム単位でメタデータを獲得すれば、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータとオーディオ信号の同期を取るためにオーディオ信号とメタデータを更にパッキング(Packing)しなくてもよい。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータとオーディオ信号を効率的管理することができる。メタデータの具体的なシンタックスについては、図15乃至図16を介して説明する。
図15乃至図16は、本発明の実施形態によるAACファイルのシンタックスを示す図である。詳しくは、図15(a)は、本発明の実施形態によるオーディオ信号処理装置がAACファイルが含むエレメントのIDを判断するシンタックスを示す。図15(b)と図15(c)は、本発明の実施形態によるオーディオ信号処理装置のデータストリームエレメントパージング動作のシンタックスを示す。
上述したように、マルチメディアストリームはフレーム単位でメタデータを含む。詳しくは、AACファイルがストリーミングを介して伝送されれば、図15乃至図16のようなシンタックスを有する。オーディオ信号処理装置は、AACファイルが含むエレメントのIDがデータストリームエレメントID_DSEを示すのかを判断する。AACファイルが含むエレメントのIDがデータストリームエレメントID_DSEを示せば、オーディオ信号処理装置はデータストリームエレメントパージング動作(GaoReadDSE)を行う。
図16(a)は、上述したヘッダパラメータのシンタックスを示す。図16(b)は、上述したメタデータパラメータのシンタックスを示す。また、オーディオ信号処理装置は、ヘッダパラメータをパージング(GaoReadDSEHDR)し、メタデータパラメータをパージング(GaoReadDSEMeta)する。
本発明の実施形態をサポートしないレガシオーディオ信号処理装置がデコーディング・レンダリングし得るチャネルの数が、本発明の実施形態によるオーディオ信号処理装置がデコーディング・レンダリングし得るチャネルの数よりも小さい。また、レガシオーディオファイルフォーマットも、オーディオ信号処理装置がデコーディング・レンダリングし得るチャネルの数よりも小さい数のオーディオ信号のみを含む。よって、レガシオーディオファイルフォーマットを介して本発明の実施形態によるオーディオ信号処理装置のためのオーディオ信号を伝送することは難しい。また、新たなファイルフォーマットを使用すれば、レガシオーディオ信号処理装置との互換性が問題になり得る。よって、レガシオーディオファイルフォーマットを利用するオーディオ信号処理方法については、図17を介して説明する。
図17は、本発明の一実施形態によってオーディオ信号が含むチャネルの和よりも少数のチャネルをサポートするオーディオファイルフォーマットを利用するオーディオ信号処理方法を示す図である。
オーディオファイルが複数のコンテンツを含めば、オーディオファイルは複数のトラックを含む。例えば、一つのオーディオファイルは、同じ映画のせりふを互いに異なる言語で録音された複数のトラックを含む。また、オーディオファイルは互いに異なる音楽を含む複数のトラックを含む。オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、オーディオファイルのトラックを利用してオーディオファイルがサポートするチャネルの数よりも多いチャネルを有するオーディオ信号をオーディオファイルにエンコーディングする。
詳しくは、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号の複数のオーディオ信号成分をオーディオファイルが含む複数のトラックに分けて挿入する。この際、複数の信号成分は、オブジェクト信号、チャネル信号、及びアンビソニック信号のうち少なくともいずれか一つである。また、オーディオファイルの各トラックは、複数の信号成分のチャネル数の和よりも小さい数のチャネルのみをサポートする。また、オーディオファイルの各トラックに含まれる信号成分のチャネル数は、オーディオファイルの各トラックがサポートするチャネル数よりも小さい。詳しくは、オーディオ信号が第1信号成分と第2信号成分を含めば、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、フォーマットの第1トラックにオーディオファイルがサポートするチャネル数をサポートする第1信号成分を挿入し、オーディオファイルの第2トラックに第2信号成分を挿入する。上述したように、第1トラックは予め指定されたトラックである。また、第1信号成分は、オーディオ信号がシミュレーションする音像の位置を表現するためのメタデータなしにレンダリングされるオーディオ信号成分である。詳しくは、第1信号成分は、バイノーラルレンダリングのためのメタデータなしにレンダリングされるオーディオ信号成分である。また、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、予め指定されたトラック順に応じて第1信号成分以外の信号成分を挿入する。別の具体的な実施形態において、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、第1トラックにメタデータを挿入する。この際、メタデータは第1信号成分以外の信号成分が含まれたトラックを指す。また、メタデータはオーディオ信号をレンダリングするのに使用される。詳しくは、メタデータは図3乃至図8を介して説明したメタデータである。
オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルが含む複数のトラックに含まれたオーディオ信号成分を同時にレンダリングする。この際、複数のオーディオ信号成分は、オブジェクト信号、チャネル信号、及びアンビソニック信号のうち少なくともいずれか一つである。また、上述したように、オーディオファイルの各トラックは、複数のオーディオ信号成分のチャネル数の和よりも小さい数のチャネルをサポートする。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルの第1トラックに含まれた第1オーディオ信号成分と第2トラックに含まれた第2オーディオ成分を一緒にレンダリングする。この際、第1トラックは、上述したように複数のトラックのうち予め指定された位置のトラックである。例えば、第1トラックは、前記オーディオファイルの複数のトラックのうち最初トラックであってもよい。この際、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルの複数のトラックがオーディオ信号成分を含むのかを予め指定されたトラック順から確認する。別の具体的な実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、第1トラックからメタデータを獲得し、獲得したメタデータに基づいてオーディオ成分を獲得する。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、獲得したメタデータに基づいてオーディオ信号成分を含むトラックを判断する。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、第1トラックからメタデータを獲得し、獲得したメタデータに基づいてオーディオ成分をレンダリングする。詳しくは、メタデータは図3乃至図8を介して説明したメタデータである。
また、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号処理装置の能力(capability)に応じてオーディオファイルが含む複数のトラックを選択し、選択した複数のトラックをレンダリングする。詳しくは、オーディオ信号をレンダリングするオーディオ信号処理装置は、複数のトラックがそれぞれ含むオーディオ成分の特徴及びオーディオ信号処理装置の能力に応じて複数のトラックを選択する。上述した実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号処理装置の能力に応じて第1オーディオ信号成分と第2オーディオ信号成分を選択する。
図17の実施形態において、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、図17(a)のようにFOA信号とメタデータを一つのトラックにエンコーディングする。図17の実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置は、図17(b)のMP4ファイルが含むAACファイルを生成する。詳しくは、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第1アンビソニック信号FOAとメタデータAACファイルの第1トラックTRK0に挿入する。オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第1オブジェクト信号OBJ0と第2オブジェクト信号OBJ1をAACファイルの第2トラックTRK1に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第3オブジェクト信号OBJ2と第4オブジェクト信号OBJ3をAACファイルの第3トラックTRK2に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第5オブジェクト信号OBJ4と第6オブジェクト信号OBJ5をAACファイルの第4トラックTRK3に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第7オブジェクト信号OBJ6と第8オブジェクト信号OBJ7をAACファイルの第5トラックTRK4に挿入する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第2アンビソニック信号FOA1をAACファイルの第6トラックTRJ5に挿入する。この際、第2アンビソニック信号FOA1は4つのチャネルを含む1次アンビソニック信号である。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第3アンビソニック信号HOA2をAACファイルの第7トラックTRK6に挿入する。第3アンビソニック信号HOA2アンビソニック信号は5チャネルを含み、第2アンビソニック信号HOA1と第3アンビソニック信号HOA2は2次アンビソニック信号を構成する。また、オーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置は、第4アンビソニック信号HOA3をAACファイルの第8トラックTRK7に挿入する。第4アンビソニック信号HOA2アンビソニック信号は7チャネルを含み、第2アンビソニック信号FOA1、第3アンビソニック信号HOA2、及び第4アンビソニック信号HOA3は3次アンビソニック信号を構成する。
図17(c)に実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置のデコーダは、AACファイルのトラックが含むオーディオ信号をデコーディングする。この際、オーディオ信号をレンダリングするオーディオ信号処理装置のデコーダは、AACファイルの第1トラックTRK0に含まれたメタデータをデコーディングしない。上述したように、オーディオ信号をレンダリングするオーディオ信号処理装置は、メタデータに基づいてオーディオ信号成分を含むAACファイルのトラックを判断し、AACファイルのトラックが含むオーディオ信号をデコーディングする。図17(d)の実施形態において、オーディオ信号をレンダリングするオーディオ信号処理装置のレンダラは、AACファイルのトラックが含むオーディオ信号成分OBJ/HOA/CHN AudioをメタデータOBJ/HOA/CHN Metadataに基づいてレンダリングする。特に、オーディオ信号をレンダリングするオーディオ信号処理装置は、複数のトラックをオーディオ信号処理装置の能力に応じて選択的にレンダリングする。例えば、4つのチャネルを含む信号をレンダリングし得るオーディオ信号処理装置は、第2アンビソニック信号FOA1をレンダリングする。この際、9つのチャネルを含む信号をレンダリングし得るオーディオ信号処理装置は、第2アンビソニック信号FOA1と第3アンビソニック信号HOA2を同時にレンダリングする。また、16つのチャネルを含む信号をレンダリングし得るオーディオ信号処理装置は、第2アンビソニック信号FOA1、第3アンビソニック信号HOA2、及び第4アンビソニック信号HOA3を同時にレンダリングする。
このような実施形態を介して、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルフォーマットの個別のトラックがサポートするチャネル数よりも多いチャネル数を含むオーディ信号をレンダリングすることができる。また、異なる個数のチャネルでコーディング・レンダリングをサポートするオーディオ信号処理装置間の互換性を確保することができる。
図18は、本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置を示すブロック図である。
本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号を処理するオーディオ信号処理装置300は、受信部310、プロセッサ330、及び出力部370を含む。
受信部310は、入力オーディオ信号を受信する。この際、オーディオ信号は音響収集装置が受信した音響が変換されたものである。音響収集装置はマイクである。また、音響収集装置は複数のマイクを含むマイクアレイであってもよい。
プロセッサ330は、受信部310が受信したオーディオ信号をエンコーディングしてビットストリームを生成し、オーディオ信号に対するメタデータを生成する。詳しくは、プロセッサ330は、フォーマットコンバータ、及びメタデータ生成部を含む。フォーマットコンバータは、入力オーディオ信号のフォーマットを他のフォーマットに変換する。詳しくは、フォーマットコンバータはオブジェクト信号をアンビソニック信号に変換する。この際、アンビソニック信号はマイクアレイを介して録音された信号である。また、アンビソニック信号は、マイクアレイを介して録音した信号を球面調和関数の基底に対する係数に変換した信号であってもよい。また、フォーマットコンバータはアンビソニック信号をオブジェクト信号に変換する。詳しくは、フォーマットコンバータはアンビソニック信号の次数を変更する。例えば、フォーマットコンバータはHoA信号を信号に変更する。また、フォーマットコンバータは入力オーディオ信号に関する情報を獲得し、獲得した位置情報に基づいて入力オーディオ信号のフォーマットを変換する。この際、位置情報はオーディオ信号に当たる音響を収集したマイクアレイに関する情報である。詳しくは、マイクアレイに関する情報は、マイクアレイを構成するマイクの配列情報、個数情報、位置情報、周波数特性情報、及びビームパターン情報のうち少なくとも一つを含む。また、入力オーディオ信号に関する位置情報は音源の位置を示す情報を含む。
メタデータ生成部は、入力オーディオ信号に当たるメタデータを生成する。詳しくは、メタデータ生成部は、入力オーディオ信号をレンダリングするのに使用されるメタデータを生成する。この際、メタデータは図3乃至図17を介して説明した実施形態におけるメタデータである。また、メタデータは図9乃至図17を介して説明した実施形態によってオーディオ信号処理装置に伝達される。
また、プロセッサ330は、オーディオ信号の複数のオーディオ信号成分をオーディオファイルフォーマットが含む複数のトラックに分けて挿入する。この際、複数の信号成分は、オブジェクト信号、チャネル信号、及びアンビソニック信号のうち少なくともいずれか一つである。詳しくは、プロセッサ330は、図17を介して説明した実施形態のように動作する。
出力部370は、ビットストリームとメタデータを出力する。
図19は、本発明の一実施形態によってオーディオ信号を伝達するためにオーディオ信号処理装置の動作方法を示す順序図である。
オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、オーディオ信号を受信する(S1901)。
オーディオ信号処理装置は、受信したオーディオ信号をエンコーディングする(S1903)。詳しくは、オーディオ信号処理装置は、オーディオ信号に対するメタデータを生成する。メタデータはオーディオ信号をレンダリングするのに使用される。この際、レンダリングはバイノーラルレンダリングである。詳しくは、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映するための情報を含む、オーディオ信号に対するメタデータを生成する。オーディオ信号処理装置は、メタデータが支持する時間区間に当たるサウンドレベルをメタデータに挿入する。この際、サウンドレベルはオーディオ信号がシミュレーションする音像の位置を反映し、オーディオ信号をレンダリングするのかを決定するのに使用される。
詳しくは、オーディオ信号処理装置は、オーディオ信号に適用されるバイノーラルレンダリングの強度を示すバイノーラル効果強度情報をメタデータに挿入する。この際、バイノーラル効果強度情報は、HRTFまたはBRIRの相対的な大きさを変更するのに使用される。また、バイノーラル効果強度情報は、オーディオ信号のオーディオ信号成分別にバイノーラルレンダリングの強度を指示する。また、バイノーラル効果強度情報は、フレーム単位でバイノーラルレンダリングの適用強度を示す。
オーディオ信号処理装置は、聴者の動きを反映してオーディオ信号をレンダリングするのかを示す動き適用可否情報をメタデータに挿入する。この際、聴者の動きは、聴者の頭の動きを含む。
オーディオ信号処理装置は、聴者よって設定されるパラメータである個人化パラメータの適用許容可否を示す個人化パラメータ適用情報をメタデータに挿入する。この際、個人化パラメータ適用情報は、個人化パラメータの適用が許容されないことを示す。詳しくは、メタデータのフォーマットは図3乃至図16を介して説明した実施形態のようである。
また、オーディオ信号処理装置は、受信したオーディオ信号の複数のオーディオ信号成分を複数のトラックに含むオーディオファイルを生成する。詳しくは、オーディオ信号処理装置は、オーディオ信号の第1オーディオ信号成分を第1トラックに含み、オーディオ信号の第2オーディオ信号成分を第2トラックに含むオーディオファイルを生成する。この際、第1トラックと第2トラックそれぞれがサポートするオーディオ信号のチャネル数が、オーディオ信号のチャネル数の和よりも小さい。また、第1トラックは、オーディオファイルの複数のトラックのうち予め指定された位置のトラックである。詳しくは、第1トラックは最初のトラックである。また、オーディオ信号エンコーディング装置は、第1トラックにメタデータを挿入する。この際、メタデータは、オーディオファイルの複数のトラックのうちどのトラックがオーディオ信号のオーディオ信号成分を含むのかを示す。別の具体的な実施形態において、オーディオ信号処理装置は、オーディオ信号の複数のオーディオ信号成分を複数のトラックに指定された順に挿入する。詳しくは、オーディオ信号を伝達するために、オーディオ信号を処理するオーディオ信号処理装置は、図17乃至図18を介して説明した実施形態のように動作する。
オーディオ信号処理装置は、エンコーディングされたオーディオ信号を出力する(S1905)。また、オーディオ信号処理装置は、生成したメタデータを出力する。また、オーディオ信号エンコーディング装置は、生成したオーディオファイルを出力する。
図20は、本発明の一実施形態によってオーディオ信号をレンダリングするオーディオ信号処理の動作方法を示す順序図である。
オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオ信号を受信する(S2001)。詳しくは、オーディオ信号処理装置は、オーディオ信号を含むオーディオファイルを受信する。
オーディオ信号処理装置は、受信したオーディオ信号をレンダリングする(S2003)。オーディオ信号処理装置は、受信したオーディオ信号をバイノーラルレンダリングする。また、オーディオ信号処理装置は、受信したオーディオ信号に対するメタデータに基づいてオーディオ信号がシミュレーションする音像の位置を反映してオーディオ信号をレンダリングする。詳しくは、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映してオーディオ信号をレンダリングするのかを決定する。この際、オーディオ信号処理装置は、決定によってオーディオ信号をレンダリングする。
具体的な実施形態において、メタデータは、メタデータが支持する時間区間に当たるサウンドレベルを示すサウンドレベル情報を含む。オーディオ信号処理装置は、サウンドレベル情報に基づき、オーディオ信号がシミュレーションする音像の位置を反映してオーディオ信号をレンダリングするのかを決定する。例えば、オーディオ信号処理装置は、第1時間区間に当たるオーディオ信号のサウンドレベルと第2時間区間に当たるオーディオ信号のサウンドレベルの差を比較する。この際、オーディオ信号処理装置は、比較結果に基づいて第2時間区間に当たるオーディオ信号を前記第2時間区間に当たるオーディオ信号がシミュレーションする音像の位置を反映し、前記オーディオ信号をレンダリングするのかを決定する。この際、第1時間区間は第2時間区間よりも先の時間である。また、第1時間区間と第2時間区間は連続した時間区間である。別の具体的な実施形態において、オーディオ信号処理装置は、サウンドレベル情報が示すサウンドレベルが予め指定された値よりも小さいのかに基づき、オーディオ信号がシミュレーションする音像の位置を反映して、前記オーディオ信号をレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、サウンドレベル情報がミュートを示せば、オーディオ信号がシミュレーションする音像の位置を反映せずにオーディオ信号をレンダリングする。
また、メタデータは、バイノーラルレンダリングの適用強度を示すバイノーラル効果強度情報を含む。この際、オーディオ信号処理装置は、バイノーラル効果強度情報に基づいて前記オーディオ信号に対するバイノーラルレンダリングの適用強度を決定する。また、オーディオ信号処理装置は、決定されたバイノーラルレンダリング適用強度でモードで前記オーディオ信号をバイノーラルレンダリングする。詳しくは、前記オーディオ信号処理装置は、前記決定されたバイノーラルレンダリングの適用強度に応じてバイノーラルレンダリングのためのHRTF、またはBRIRの相対的な大きさを変更する。バイノーラル効果強度情報は、前記オーディオ信号の成分別にバイノーラルレンダリングの強度を指示する。また、バイノーラル効果強度情報は、フレーム単位でバイノーラルレンダリングの強度を指示する。
また、上述した実施形態において、オーディオ信号処理装置は、オーディオ信号がシミュレーションする音像の位置を反映してレンダリングするのかが変更されるのかに応じて、フェードイン・フェードアウトを適用してオーディオ信号をレンダリングする。
また、メタデータは、聴者の動きを反映してオーディオ信号をレンダリングするのかを示す動き適用可否情報を含む。この際、オーディオ信号処理装置は、動き適用可否情報に基づいて聴者の頭の動きを反映し、オーディオ信号をレンダリングするのかを決定する。詳しくは、オーディオ信号処理装置は、動き適用可否情報に応じて聴者の頭の動きを反映せずに、オーディオ信号をレンダリングする。この際、聴者の動きは、聴者の頭の動きを含む。
また、メタデータは、聴者よって設定されるパラメータである個人化パラメータの適用許容可否を示す個人化パラメータ適用情報を含む。この際、オーディオ信号処理装置は、個人化パラメータ適用情報に基づいてオーディオ信号をレンダリングする。詳しくは、オーディオ信号処理装置は、個人化パラメータ適用情報に応じて個人化パラメータを適用せずに、オーディオ信号をレンダリングする。メタデータの具体的なフォーマットは、図3乃至図16を介して説明した実施形態のようである。また、メタデータは図9乃至図14を介して説明した実施形態によって伝達される。
オーディオ信号処理装置は、オーディオ信号を含むオーディオファイルの複数のトラックそれぞれに含まれた複数のオーディオ信号成分を同時にレンダリングする。オーディオ信号処理装置は、オーディオ信号を含むオーディオファイルの第1トラックに含まれた第1オーディオ信号成分と第2トラックに含まれた第2オーディオ信号成分を同時にレンダリングする。この際、第1トラックと第2トラックそれぞれがサポートするオーディオ信号のチャネル数が、オーディオ信号のチャネル数の和よりも小さい。この際、第1トラックは、オーディオファイルの複数のトラックのうち予め指定された位置のトラックである。また、前記第1トラックはメタデータを含む。この際、オーディオ信号処理装置は、メタデータに基づいてオーディオ信号成分を含むオーディオファイルのトラックを判断する。また、オーディオ信号処理装置は、メタデータに基づいて第1オーディオ信号成分と第2オーディオ信号成分をレンダリングする。詳しくは、オーディオ信号処理装置は、メタデータに基づいて第1オーディオ信号成分と第2オーディオ信号成分をバイノーラルレンダリングする。また、オーディオ信号をレンダリングするオーディオ信号処理装置は、オーディオファイルの複数のトラックがオーディオ信号のオーディオ信号成分を含むのかを予め指定されたトラック順から確認する。
オーディオ信号処理装置は、レンダリングされたオーディオ信号を出力する(S2005)。上述したように、オーディオ信号処理装置は2つ以上のラウドスピーカを介してレンダリングされたオーディオ信号を出力する。別の具体的な実施形態において、オーディオ信号処理装置は、2チャネルステレオヘッドホンを介してレンダリングされたオーディオ信号を出力してもよい。
これまで本発明を具体的な実施形態を介して説明したが、当業者であれば本発明の趣旨及び範囲を逸脱せずに修正、変更し得るはずである。つまり、本発明はマルチオーディオ信号に対するプロセッシングの実施形態について説明したが、本発明はオーディオ信号のみならず、ビデオ信号を含む多様なマルチメディア信号にも同じく適用及び拡張することができる。よって、本発明の詳細な説明及び実施形態から本発明の属する技術分野に属する者が容易に類推し得るものは、本発明の権利範囲に属すると解される。