WO2024241707A1

WO2024241707A1 - 情報処理装置および方法、並びにプログラム

Info

Publication number: WO2024241707A1
Application number: PCT/JP2024/013177
Authority: WO
Inventors: 光行畠中; 徹知念; 明文河野; 弘幸本間
Original assignee: ソニーグループ株式会社
Priority date: 2023-05-22
Filing date: 2024-03-29
Publication date: 2024-11-28

Abstract

本技術は、クリップ歪みの発生を抑制することができるようにする情報処理装置および方法、並びにプログラムに関する。情報処理装置は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、複数の位置または向きごとのラウドネス情報に基づいて、オブジェクトのオーディオデータのレベル補正を行うレベル補正部とを備える。本技術は情報処理装置に適用することができる。

Description

情報処理装置および方法、並びにプログラム

　本技術は、情報処理装置および方法、並びにプログラムに関し、特に、クリップ歪みの発生を抑制できるようにした情報処理装置および方法、並びにプログラムに関する。

　従来、仮想的な空間内においてリスナの位置や向きを変化させることができる自由視点オーディオシステムが知られている。

　また、オーディオデータのゲイン調整に関する技術として、オブジェクト位置や参照位置に基づいてレンダリング時のゲインを決定する技術（例えば、特許文献１参照）や、複数のプロファイルごとにラウドネスを決定する技術が提案されている（例えば、特許文献２参照）。

特開２０２１－１９３８４２号公報特開２０２２－１６６３３１号公報

　ところで、自由視点オーディオシステムにおいては、仮想的な空間でのリスナの位置や向きの変化に伴い、空間に配置されたスピーカの数が少ない領域にオブジェクトが多数集中してしまうことがある。

　そのような場合、レンダリング処理によって生成される各スピーカの出力信号のレベルがデジタルオーディオデータとしての記録可能な範囲を超えてしまい、その結果、クリップ歪みが発生してしまうことがある。すなわち、再生音がクリップして歪んだ音となってしまうことがある。そうすると、再生音の品質が低下してしまうことになる。

　本技術は、このような状況に鑑みてなされたものであり、クリップ歪みの発生を抑制することができるようにするものである。

　本技術の第１の側面の情報処理装置は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うレベル補正部とを備える。

　本技術の第１の側面の情報処理方法は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うステップを含む。

　本技術の第１の側面においては、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報が取得され、複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正が行われる。

　本技術の第２の側面の情報処理装置は、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成する生成部と、前記ビットストリームを送信する通信部とを備える。

　本技術の第２の側面においては、オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームが生成され、前記ビットストリームが送信される。

　本技術の第３の側面の情報処理装置は、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する補正部を備える。

　本技術の第３の側面の情報処理方法は、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正するステップを含む。

　本技術の第３の側面においては、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報が補正される。

　本技術の第４の側面の情報処理装置は、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する制御部を備える。

　本技術の第４の側面の情報処理方法は、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成するステップを含む。

　本技術の第４の側面においては、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報が生成される。

　本技術の第５の側面の情報処理装置は、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成する生成部と、前記ビットストリームを送信する通信部とを備える。

　本技術の第５の側面においては、空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームが生成され、前記ビットストリームが送信される。

再生音のクリップ歪みについて説明する図である。水平方向への領域分割について説明する図である。垂直方向への領域分割について説明する図である。分割点について説明する図である。マルチアングルラウドネス情報の例を示す図である。サーバの構成例を示す図である。クライアントの構成例を示す図である。ビットストリーム送信処理を説明するフローチャートである。出力信号生成処理を説明するフローチャートである。減衰係数算出処理を説明するフローチャートである。出力信号生成処理を説明するフローチャートである。 CVPの選択について説明する図である。出力信号生成処理を説明するフローチャートである。補間処理について説明する図である。出力信号生成処理を説明するフローチャートである。ラウドネスモードについて説明する図である。測定ラウドネスモードについて説明する図である。グループモードについて説明する図である。グループモードについて説明する図である。グループモードについて説明する図である。制作ラウドネスモードについて説明する図である。制作ラウドネスモードについて説明する図である。制作側と再生側の処理の流れについて説明する図である。マルチラウドネス情報のシンタックス例を示す図である。構成情報の切り替えについて説明する図である。構成情報の切り替えについて説明する図である。表示画面例を示す図である。表示画面例を示す図である。表示画面例を示す図である。表示画面例を示す図である。情報処理装置の構成例を示す図である。構成情報生成処理を説明するフローチャートである。サーバの構成例を示す図である。ビットストリーム送信処理を説明するフローチャートである。クライアントの構成例を示す図である。クライアントの機能的な構成例を示す図である。出力オーディオデータ生成処理を説明するフローチャートである。メタデータ生成処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、空間内における各位置について、複数の方向ごとにラウドネス情報を定めておくことで、クリップ歪みの発生を抑制できるようにするものである。

　特に、本技術によれば、実在するスピーカの数が少ない状況等において、スピーカの数が少ない領域に大量のオブジェクトが集中した場合であっても、クリップ歪みの発生を低減させることができる。

　例えば図１の矢印Q11に示すように、多数のオブジェクトの音からなるコンテンツを再生する自由視点オーディオシステムについて考える。

　この場合、実空間内において、リスナ（ユーザ）の前方、すなわち図中、上側に多数のスピーカが配置されており、リスナの後方、すなわち図中、下側には少ない数のスピーカしか配置されていないとする。また、実空間においては、ユーザは常に前方を向いた状態でコンテンツの音を聴取するものとする。

　コンテンツを構成する複数のオブジェクトが配置される仮想的な空間（仮想空間）内においては、リスナは自身の位置を移動させたり、自身が向いている方向（リスナの向き）を変化させたりすることができる。

　例えば仮想空間において、矢印A11に示すようにユーザがオブジェクト側、すなわち前方を向いている場合、矢印Q12に示すように複数のオブジェクトの音が、複数の各スピーカにより出力されることになる。

　この場合、オブジェクトの数は多いが、それらのオブジェクトの音の出力を担当するスピーカの数も多いため、各スピーカへの負荷は低い状態となる。

　これに対して、例えば仮想空間において、矢印A12に示すようにユーザがオブジェクト側とは反対側、すなわち後方を向いている場合、矢印Q13に示すように複数のオブジェクトの音は、少数のスピーカにより出力されることになる。

　この場合、オブジェクトの数が多いのに対して、それらのオブジェクトの音の出力を担当するスピーカの数は少ないため、各スピーカへの負荷は高い状態となってしまう。

　このように、自由視点オーディオシステムでは仮想空間でのリスナ位置の移動や、リスナの試聴方向（向き）の変化に伴い、実空間におけるリア方向、すなわちリスナの後方など、実在するスピーカが少ない領域にオブジェクトが多数集中してしまうことがある。

　そうすると、レンダリング処理により生成される各スピーカの出力信号のレベルが、PCM（Pulse Code Modulation）データなど、デジタルオーディオデータとして記録可能な範囲を超えることになり、結果として再生音がクリップして歪んだ音となってしまう。

　そこで本技術では、複数の位置または方向ごとにラウドネス情報を定めておくことで、任意の視点かつ試聴方向に対して再生音のクリップ歪みを低減（抑制）することができるようにした。

　それでは、以下、本技術について説明する。

　例えば本技術では、コンテンツを構成する１または複数のオブジェクトが配置される仮想空間内において、複数の視点位置が制御視点（Control Viewpoint（以下CVPとも称する））としてコンテンツ制作者により予め指定（設定）される。なお、オブジェクトが配置される仮想空間は、２次元空間であってもよいし、３次元空間であってもよいが、以下では仮想空間が３次元空間であるものとして説明を行う。

　コンテンツ制作者は、コンテンツ再生時にリスナに受聴位置として欲しい仮想空間内の位置、つまりコンテンツの音を聴かせたい視点の位置をCVP（制御視点）として予め指定（設定）する。なお、コンテンツは、例えば、音のみからなるオーディオコンテンツであってもよいし、映像と、その映像に付随する音声とからなるビデオコンテンツであってもよい。

　例えばコンテンツの制作過程において芸術（音楽）性を高めるために、オブジェクトの物理的な配置に囚われず、敢えて目に見える場所とは異なる位置に意図的にオブジェクトを配置したいことがある。

　そこで本技術では、コンテンツ制作者が仮想空間内に複数のCVPを設定するとともに、CVPごとにオブジェクトの配置位置を決定することができるようになされている。すなわち、同じオブジェクトであってもCVPごとに仮想空間におけるオブジェクトの配置位置が異なる。このようにすることで、芸術性の高いコンテンツを制作することができる。

　また、コンテンツの制作時においては、３次元の仮想空間内に存在する全てのCVPについて、CVPの位置を基準として水平方向および垂直方向への領域分割が行われる。例えば、まず水平方向への領域分割が行われた後、垂直方向への領域分割が行われる。

　具体的には、例えば図２の矢印Q21に示すように、仮想空間上の位置P11に１つのCVPが配置されているとする。このとき、CVP（位置P11）を中心とする球の表面上に複数の点を分割点として配置することで、水平方向の領域分割を行うとする。

　この例では、位置P11を含む水平面上で、かつ球表面上となる位置に分割点DV11を含む８個の分割点が設けられている。ここでは、球表面に描かれた各円が１つの分割点を表している。また、CVP（位置P11）から見た分割点の方向を示す直線を分割線と称することとする。この例では、分割線L11と球との交点の位置が分割点DV11となっている。

　コンテンツ制作時には、例えばCVPから見た水平方向の領域が、所定の水平分割数の各分割線により等分割され、各分割線と球との交点位置に分割点が設定される。

　したがって、この例ではCVP（位置P11）を垂直方向から見ると、矢印Q22に示すように、球の中心である位置P11から４５度間隔で合計８本の分割線が設けられ、これにより８個の分割点が設けられている。なお、ここでは分割線により領域が等分割される例について説明するが、これに限らず領域が水平方向に不等分割されるようにしてもよい。

　また、各分割点、より詳細には水平方向の各分割線に対しては、それらの分割線を識別するための水平分割インデックスｊが付与される。図２では、各分割点の近傍に記された数値が水平分割インデックスｊの値を示している。したがって、例えば分割点DV11の水平方向の分割線L11の水平分割インデックスｊの値は「５」とされていることが分かる。

　例えばコンテンツの音の再生にあたり、リスナの向き（試聴方向）に応じて水平方向の１つの分割線（分割点）を選択する必要がある場合には、矢印Q23に示すようにリスナの向きを示す直線L12とのなす角度が最も小さい分割線を選択することが考えられる。換言すれば、水平方向の向きが、直線L12により示されるリスナの向きと最も近い分割線が選択される。この例では、直線L12とのなす角度が最も小さい分割線L11が選択されることになる。

　なお、例えば直線L12とのなす角度が最も小さい分割線が２つある場合、つまり２つの各分割線の方向の間の方向がリスナの向きとなる場合には、リスナの向きの時間変化を考慮し、直前の時刻におけるリスナの向きに近い向きの分割線が選択されるようにしてもよい。その他、例えばラウドネス情報など、分割線に対応する何らかの値が利用される場合には、２つの分割線について按分等が行われるようにしてもよい。

　また、以下では、分割線L11など、水平方向への領域分割のための分割線を、特に水平分割線とも称することとする。

　以上のように水平方向の領域分割が行われると、次に垂直方向への領域分割が行われる。例えば水平分割線ごとに、CVPから見て水平分割線の方向から垂直方向に対して領域分割が行われる。

　具体的には、例えば図３の矢印Q31に示すように、位置P11と１つの水平分割線を含む垂直平面上で、かつ球表面上となる位置に分割点DV21を含む３個の分割点が設けられる。なお、図３において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図３では、球表面に描かれた各円が１つの分割点を表している。また、CVP（位置P11）から見た分割点の方向を示す直線が分割線となっている。この例では、分割線L21と球との交点の位置が分割点DV21となっている。

　コンテンツ制作時には、例えばCVPから見た垂直方向の領域が、所定の垂直分割数の各分割線により分割され、各分割線と球との交点位置に分割点が設定される。

　この例では、所定の水平分割線の方向を垂直方向の角度、すなわち垂直方向角度＝０度として、垂直方向角度が０度、-90度、および90度となる３つの各方向に分割線が設けられている。この場合、垂直方向角度が０度となる方向の分割線は、１つの水平分割線と等しくなる（同じものとなる）。

　このような垂直方向への領域分割により、図３の例では３個の分割点が設けられている。

　また、各分割点、より詳細には垂直方向の各分割線に対しては、それらの分割線を識別するための垂直分割インデックスｋが付与される。図３では、各分割点の近傍に記された数値が垂直分割インデックスｋの値を示している。したがって、例えば分割点DV21の垂直方向の分割線L21の垂直分割インデックスｋの値は「０」とされていることが分かる。

　例えばコンテンツの音の再生にあたり、リスナの向き（試聴方向）に応じて垂直方向の１つの分割線（分割点）を選択する必要がある場合には、矢印Q32に示すようにリスナの向きを示す直線L22とのなす角度が最も小さい分割線を選択することが考えられる。換言すれば、垂直方向の向きが、直線L22により示されるリスナの向きと最も近い分割線が選択される。この例では、直線L22とのなす角度が最も小さい分割線L21が選択されることになる。

　以下では、分割線L21など、垂直方向への領域分割のための分割線を、特に垂直分割線とも称することとする。

　水平方向と垂直方向の領域分割を行うと、各分割線に対応する分割点が設けられたことになる。換言すれば、CVPを基準とした複数の方向（向き）、すなわちCVPにいるリスナが取りうる複数の各向きに対応する分割点が設けられたことになる。

　例えば図２に示した水平方向の領域分割と、図３に示した垂直方向の領域分割を行うと、その結果として、図４に示すように合計で24個の分割点が設けられることになる。なお、図４において図２または図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図４の例では、１つのCVPに対して、水平分割インデックスｊと垂直分割インデックスｋの組み合わせごとに分割点が設けられている。ここでは、水平方向に８分割され、垂直方向に３分割されているため、合計で２４個の分割点が設けられている。

　なお、ここでは分割点の個数を分かりやすくするため、垂直方向角度が-90度や90度となる分割線に対応する分割点が僅かにずらされた位置に描かれているが、これらの分割点は実際には同じ位置に配置されている。

　コンテンツ制作時には、CVPごとに設定された各分割点に対して、CVPにいるリスナがそれらの分割点に対応する方向を向いたときのラウドネス情報loudnessInfo[i][j][k]が予め算出されて対応付けられる。

　例えば、所定のCVPについてのある１つの分割点に対して設定されたラウドネス情報loudnessInfo[i][j][k]は、リスナがその所定のCVPの位置で、その分割点の方向を向いている場合に再生されるコンテンツの音についてのラウドネスに関する情報である。この場合、ラウドネス情報は、例えばコンテンツを構成する全オブジェクトのオーディオデータに基づき算出（決定）される。

　ラウドネス情報loudnessInfo[i][j][k]は、オブジェクトのオーディオデータのゲイン制御（レベル補正）に用いられる情報である。また、ラウドネス情報loudnessInfo[i][j][k]における配列の要素であるｉ、ｊ、およびｋは、それぞれCVPを識別するCVPインデックスｉ、水平分割インデックスｊ、および垂直分割インデックスｋを示している。

　ラウドネス情報には、MPEG（Moving Picture Experts Group）規格、例えばISO23003-4 Information technology MPEG audio technologies Part 4:Dynamic Range Controlで規定されているDRC（Dynamic Range Control）やPeak Limiterによるゲイン制御に用いるピーク値等の情報が含まれるようにすることができる。

　すなわち、例えばラウドネス情報には、予めコンテンツ制作者等により定められた、コンテンツ全体を通したサンプルピークレベル値やトゥルーピークレベル値などが含まれているようにすることができる。

　ここでいうサンプルピークレベル値は、レンダリング処理後のオーディオデータとしてのPCMデータ全体におけるサンプル値のピーク値（最大値）である。また、トゥルーピークレベル値は、適宜、レンダリング処理やDRC処理などを行って得られるDA（Digital to Analog）変換後のオーディオ信号全体の波形のピーク値である。

　以下では、説明を簡単にするため、主にラウドネス情報loudnessInfo[i][j][k]がサンプルピークレベル値である場合について説明する。そのため、以下では、特に明記しない場合、ラウドネス情報はサンプルピークレベル値を示していることとする。

　本技術では、CVPごとに上述した分割点が複数設定され、各CVPについての複数の分割点に対してラウドネス情報が定められる。なお、１つのCVPに対して１つのラウドネス情報が定められるようにしてもよい。

　換言すれば、１または複数の各CVPについて、CVPを基準とした１または複数の方向（向き）ごと、すなわちCVPにいるリスナのとり得る１または複数の向きごとにラウドネス情報が定められる。このことは、仮想空間におけるリスナのとり得る複数の位置または向きごとにラウドネス情報が定められることであるともいうことができる。ここでは、リスナのとり得る全ての位置や方向に対してラウドネス情報が定められるのではなく、リスナが移動可能な位置やリスナが向くことのできる方向のうちの離散的ないくつかの位置と方向に対してラウドネス情報が定められる。

　例えば図５に示すようにラウドネス情報を記述することができる。本技術では、例えば各CVPの分割点ごとのラウドネス情報を含むマルチアングルラウドネス情報が図５に示すフォーマットでビットストリームに記述される。

　図５に示す例では、NumOfContorlViewpointsはCVPの数（CVP数）を示しており、マルチアングルラウドネス情報には、CVP数の分だけ、すなわち各CVPについて、水平分割数numOfDivs_h[i]、および垂直分割数numOfDivs_v[i]が格納されている。

　また、マルチアングルラウドネス情報には、各CVPについて、水平分割数numOfDivs_h[i]と垂直分割数numOfDivs_v[i]により定まる分割点数だけラウドネス情報loudnessInfo[i][j][k]が格納されている。

　したがって図５の例では、マルチアングルラウドネス情報には、CVPごとの水平分割数および垂直分割数と、各CVPについての分割点ごとのラウドネス情報とが含まれている。

　本技術では、各CVPの複数の分割点（方向）ごとに定められたラウドネス情報に基づいて、コンテンツの音の再生時におけるクリップ歪みの発生が抑制される。

　まず、ラウドネス情報を用いたクリップ歪みの抑制手法の１つの例として、全スピーカについて、スピーカへと供給されるコンテンツの出力信号の再生レベルを自動的に一律に下げることにより、クリップ歪みの発生を抑制する手法について説明する。

　この手法は、例えば３次元の仮想空間における任意の位置をリスナの位置（視点位置）とし、リスナが複数の各CVP間等を自由に移動可能な自由視点オーディオコンテンツに対して適用可能である。

　具体的には、この手法では、コンテンツの再生側（クライアント側）において、全CVPの全ての分割点におけるラウドネス情報に基づいて、ラウドネス情報としてのサンプルピークレベル値の最大値が最大ピーク値maxPeakとして求められる。

　換言すれば、CVPインデックスｉ、水平分割インデックスｊ、および垂直分割インデックスｋの全ての組み合わせが対象とされて、それらの組み合わせごとのラウドネス情報loudnessInfo[i][j][k]のうちの最も値の大きいものが最大ピーク値maxPeakとされる。この最大ピーク値maxPeakは、最もクリップ歪みが大きくなる方向（分割点）のラウドネス情報である。

　最大ピーク値maxPeakは、例えば次式（１）により求めることができる。

　次に、最大ピーク値maxPeakに基づいて、その最大ピーク値maxPeakがオーディオデータの最大記録可能値を超えた分が超過値として算出される。そして、その超過値に基づきオーディオデータ（出力信号）のピーク値を最大記録可能値へと調整するための減衰量を示す減衰係数decayFacが算出される。

　レベル補正（ゲイン調整）によって、全フレームの全チャンネルの出力信号を、減衰係数decayFacにより示される減衰量分だけ一律に減衰させれば、出力信号に基づくコンテンツの音の再生時にクリップ歪みが発生することはなくなるはずである。

　なお、ここでいう最大記録可能値とは、PCMデータなどのデジタルオーディオデータとして記録可能な、オーディオデータに基づく音のレベルがとり得る値（範囲）の最大値（音のレベルの最大値）である。例えば最大記録可能値は0[dB]などとされる。

　具体的な例として、例えば最大記録可能値が0[dB]である場合、減衰係数decayFacは次式（２）により算出される。なお、式（２）において「＾」はべき乗を表している。

　最大ピーク値maxPeak、すなわちラウドネス情報loudnessInfo[i][j][k]に基づいて、減衰係数decayFacが算出されると、その減衰係数decayFacがレンダリング処理で得られたスピーカごとの出力信号に対して適用される。これにより、各スピーカへと供給される出力信号に基づく再生音のレベルが最大記録可能値以下に減衰され、クリップ歪みの発生が抑制される。

　なお、出力信号とは、レンダリング処理により生成された、マルチチャンネル構成の各チャンネルに対応するスピーカへと供給されるオーディオ信号である。

〈サーバの構成例〉
　図６は、本技術を適用したサーバの一実施の形態の構成例を示す図である。

　図６に示すサーバ１１は情報処理装置であり、取得部２１、ビットストリームエンコーダ２２、および通信部２３を有している。

　取得部２１は、サーバ１１の内部、またはサーバ１１の外部からコンテンツを構成する各オブジェクトのオーディオデータ（Object Audio）、システム構成情報（Config Info）、各オブジェクトのメタデータ（Object Metadata）、および各CVPの分割点ごとのラウドネス情報（Loudness Info）を取得する。なお、前述したデータ以外のデータを取得してもよい。

　システム構成情報は、コンテンツ全体に関する情報である。例えばシステム構成情報には、コンテンツを構成するオブジェクトの数を示すオブジェクト数や、仮想空間内に設定されたCVPの数であるCVP数を示す情報、および各CVPの仮想空間内における絶対的な位置を示すCVP位置情報が含まれている。

　オブジェクトのメタデータには、CVPごとに、オブジェクトの位置を示すオブジェクト位置情報が含まれている。

　オブジェクト位置情報は、極座標で表現された、CVPから見たオブジェクトの相対的な位置を示す座標情報とされてもよいし、CVPごとに定められ、絶対座標（直交座標）で表現された、仮想空間におけるオブジェクトの絶対的な位置を示す座標情報とされてもよい。

　また、オブジェクトのメタデータには、オブジェクト位置情報の他、例えばオブジェクトのオーディオデータのゲイン情報や、優先度情報、オブジェクトの広がり具合いを示すスプレッド情報などが含まれるようにしてもよい。

　取得部２１は、取得したオーディオデータ（Object Audio）、システム構成情報（Config Info）、メタデータ（Object Metadata）、およびラウドネス情報（Loudness Info）をビットストリームエンコーダ２２に供給する。

　ビットストリームエンコーダ２２は、取得部２１から供給されたオーディオデータ、システム構成情報、メタデータ、ラウドネス情報に対して適宜符号化を行うことで、ビットストリームを生成し、通信部２３に供給する生成部として機能する。

　ビットストリームには、オーディオデータ、システム構成情報、メタデータ、およびマルチアングルラウドネス情報が含まれている。また、マルチアングルラウドネス情報には、CVPごとの水平分割数および垂直分割数と、各CVPについての分割点ごとのラウドネス情報とが含まれている。

　なお、システム構成情報とマルチアングルラウドネス情報は、コンテンツのフレームごとに生成されてもよいし、複数のフレームからなる区間ごとに生成されてもよいし、コンテンツ全体に対して１つだけ生成されてもよい。また、システム構成情報やマルチアングルラウドネス情報は、オブジェクトのオーディオデータとは異なるタイミングで送信されるようにしてもよい。

　通信部２３は、ビットストリームエンコーダ２２から供給されたビットストリームを、コンテンツの再生側の情報処理装置であるクライアントへと送信する。

〈クライアントの構成例〉
　図７は、本技術を適用したクライアントの一実施の形態の構成例を示す図である。

　図７に示すクライアント５１は、サーバ１１により送信されたビットストリームを受信してコンテンツを再生する情報処理装置である。クライアント５１は、例えばパーソナルコンピュータやタブレット端末、スマートフォンなどからなる。

　クライアント５１は、通信部６１、ビットストリームデコーダ６２、メタデコーダ６３、レンダリング処理部６４、ラウドネス情報処理部６５、およびDRC処理部６６を有している。また、クライアント５１にはマルチチャンネル構成のスピーカシステムであるスピーカ７１が接続されている。

　通信部６１は、サーバ１１から送信されてきたビットストリームを受信してビットストリームデコーダ６２へと供給する。通信部６１は、ビットストリームを受信することで、ラウドネス情報を取得する取得部として機能する。

　ビットストリームデコーダ６２は、通信部６１から供給されたビットストリーム、より詳細にはビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行う復号部として機能する。ビットストリームデコーダ６２での復号等により、ビットストリームからオーディオデータ、システム構成情報、メタデータ、およびマルチアングルラウドネス情報が抽出される。

　ビットストリームデコーダ６２は、オーディオデータをレンダリング処理部６４に供給するとともに、システム構成情報をメタデコーダ６３およびラウドネス情報処理部６５に供給する。また、ビットストリームデコーダ６２は、メタデータをメタデコーダ６３に供給するとともにマルチアングルラウドネス情報をラウドネス情報処理部６５に供給する。

　メタデコーダ６３およびラウドネス情報処理部６５には、オブジェクトが配置された３次元の仮想空間におけるリスナの絶対的な位置を示すリスナ位置情報が供給される。

　また、メタデコーダ６３およびラウドネス情報処理部６５には、適宜、３次元の仮想空間におけるリスナの向きを示すリスナ向き情報も供給される。例えばリスナ向き情報は、リスナの水平方向の向きを示すヨー角（水平方向角度）と、リスナの垂直方向の向きを示すピッチ角（垂直方向角度）とからなる。なお、リスナ向き情報に、リスナの回転角度を示すロール角が含まれるようにしてもよい。

　メタデコーダ６３は、供給されたリスナ位置情報と、ビットストリームデコーダ６２からのメタデータおよびシステム構成情報とに基づいて、リスナ基準オブジェクト位置情報を生成し、レンダリング処理部６４に供給する。

　例えばリスナ基準オブジェクト位置情報は、仮想空間におけるリスナの位置を基準（原点）とする極座標系の座標（極座標）により表現された、リスナから見たオブジェクトの相対的な位置を示す情報である。

　例えばメタデータに含まれているオブジェクト位置情報が、CVPから見たオブジェクトの相対的な位置を示す座標情報であるとする。そのような場合、メタデコーダ６３は、システム構成情報に含まれているCVP位置情報と、オブジェクト位置情報とに基づいて、仮想空間におけるオブジェクトの絶対的な位置を示す位置情報を算出し、算出された位置情報と、リスナ位置情報とに基づいてリスナ基準オブジェクト位置情報を生成（算出）する。

　また、例えばメタデータに含まれているオブジェクト位置情報が、仮想空間におけるオブジェクトの絶対的な位置を示す座標情報である場合、メタデコーダ６３は、オブジェクト位置情報とリスナ位置情報に基づいてリスナ基準オブジェクト位置情報を生成する。

　レンダリング処理部６４は、ビットストリームデコーダ６２から供給されたオブジェクトのオーディオデータと、メタデコーダ６３から供給されたリスナ基準オブジェクト位置情報とに基づいてレンダリング処理を行い、チャンネルごとの出力信号を生成する。

　レンダリング処理部６４では、例えばVBAP（Vector Based Amplitude Panning）など、MPEG-Hで規定された極座標系でのレンダリング処理が行われて出力信号が生成される。なお、レンダリング処理は、VBAPに限らず他のどのような処理であってもよい。例えば、BRIR(Binaural Room Impulse Response)やHRTF(Head Related Transfer Function)、HOA(Higher Order Ambisonics)などがレンダリング処理に用いられてもよい。

　各チャンネルの出力信号は、スピーカ７１としてのスピーカシステムを構成する各チャンネルに対応するスピーカへと供給されるオーディオデータ（オーディオ信号）である。スピーカ７１では各チャンネルの出力信号により、全オブジェクトの音を含むコンテンツの音が再生される。このとき各オブジェクトの音（音像）は、仮想空間におけるオブジェクト位置情報により示される位置に定位する。

　ラウドネス情報処理部６５は、供給されたリスナ位置情報と、ビットストリームデコーダ６２からのマルチアングルラウドネス情報およびシステム構成情報とを適宜用いて、ラウドネス情報に関する処理を行い、その処理結果をDRC処理部６６に供給する。

　例えばラウドネス情報処理部６５は、マルチアングルラウドネス情報、すなわち全てのCVPの全ての分割点のラウドネス情報に基づいて、上述した減衰係数decayFacを算出し、DRC処理部６６へと供給する。

　DRC処理部６６は、ラウドネス情報処理部６５から供給された、ラウドネス情報に関する処理の結果と、レンダリング処理部６４から供給された出力信号とに基づいて、出力信号のレベル補正（ゲイン調整）を行い、レベル補正後の出力信号を最終的な出力信号としてスピーカ７１に供給する。すなわち、DRC処理部６６は、各CVPの複数の分割点ごとのラウドネス情報に基づいて出力信号のレベル補正を行うレベル補正部（ゲイン調整部）として機能する。

　例えばDRC処理部６６は、ラウドネス情報処理部６５から供給された減衰係数decayFacに基づいて出力信号のレベル補正を行ったり、必要に応じて減衰係数decayFacに基づくレベル補正後の出力信号に対してDRC処理によるレベル補正を行ったりする。また、より詳細には、DRC処理部６６はデジタル信号である出力信号に対してDA変換を行い、その結果得られたアナログ信号である出力信号をスピーカ７１に供給する。

　スピーカ７１は、DRC処理部６６から供給された出力信号に基づいて、コンテンツの音を再生する。

〈ビットストリーム送信処理の説明〉
　続いて、サーバ１１およびクライアント５１の動作について説明する。

　まず、図８のフローチャートを参照して、サーバ１１によるビットストリーム送信処理について説明する。

　ステップＳ１１において取得部２１は、ビットストリームの生成に必要な情報を取得してビットストリームエンコーダ２２に供給する。

　例えば取得部２１は、各オブジェクトのオーディオデータ、システム構成情報、各オブジェクトのメタデータ、各CVPの水平分割数や垂直分割数、各CVPの分割点ごとのラウドネス情報などを取得する。

　ステップＳ１２においてビットストリームエンコーダ２２は、適宜、取得部２１から供給されたオーディオデータ、システム構成情報、メタデータ、ラウドネス情報の符号化や多重化を行ってビットストリームを生成し、通信部２３に供給する。

　ステップＳ１３において通信部２３は、ビットストリームエンコーダ２２から供給されたビットストリームをクライアント５１へと送信し、ビットストリーム送信処理は終了する。

　以上のようにしてサーバ１１は、各CVPについて、CVPから見た複数の方向ごと、すなわち複数の分割点ごとのラウドネス情報を含むビットストリームを生成し、クライアント５１へと送信する。これにより、ビットストリームの供給を受けるクライアント５１では、これらのラウドネス情報に基づき、コンテンツの再生時にクリップ歪みの発生を抑制することができるようになる。

〈出力信号生成処理の説明〉
　次に、図９のフローチャートを参照して、クライアント５１による出力信号生成処理について説明する。この出力信号生成処理は、図８のステップＳ１３の処理が行われると開始される。

　ステップＳ４１において通信部６１は、図８のステップＳ１３でサーバ１１から送信されたビットストリームを受信してビットストリームデコーダ６２へと供給する。

　ステップＳ４２においてビットストリームデコーダ６２は、通信部６１から供給されたビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行い、ビットストリームに含まれている各種の情報を抽出する。これにより、ビットストリームからオーディオデータ、システム構成情報、メタデータ、およびマルチアングルラウドネス情報が抽出される。

　ビットストリームデコーダ６２は、オーディオデータをレンダリング処理部６４に供給し、システム構成情報およびメタデータをメタデコーダ６３に供給し、システム構成情報およびマルチアングルラウドネス情報をラウドネス情報処理部６５に供給する。

　ステップＳ４３においてラウドネス情報処理部６５は、減衰係数算出処理を行うことで、全CVPの全分割点のラウドネス情報と最大記録可能値とに基づいて減衰係数decayFacを算出し、DRC処理部６６に供給する。なお、減衰係数算出処理の詳細は後述する。

　また、後述するステップＳ４６では、減衰係数decayFacとして、全チャンネルおよび全フレームで共通して同じものが用いられるため、ステップＳ４３の処理は１度だけ行われる。これに対して、以降において説明するステップＳ４４乃至ステップＳ４６の処理は、コンテンツ（オーディオデータ）のフレームごとに行われる。特にステップＳ４６では、各フレームについて、スピーカ７１に対応するチャンネルごとに処理が行われる。

　ステップＳ４４においてメタデコーダ６３は、供給されたリスナ位置情報と、ビットストリームデコーダ６２からのメタデータおよびシステム構成情報とに基づいて、リスナ基準オブジェクト位置情報を算出（生成）し、レンダリング処理部６４に供給する。

　ステップＳ４５においてレンダリング処理部６４は、ビットストリームデコーダ６２から供給されたオブジェクトのオーディオデータと、メタデコーダ６３から供給されたリスナ基準オブジェクト位置情報とに基づいてVBAP等のレンダリング処理を行う。例えばレンダリング処理では、オブジェクトごとに、そのオブジェクトの音を再生するための各チャンネルの出力信号が生成される。そして、オブジェクトごとに得られた、同じチャンネルの出力信号が加算されて、最終的なチャンネルごとの出力信号とされる。レンダリング処理部６４は、レンダリング処理により得られたチャンネルごとの出力信号をDRC処理部６６に供給する。

　ステップＳ４６においてDRC処理部６６は、レンダリング処理部６４から供給された出力信号に対してDRC処理を行う。

　例えばDRC処理部６６は、ラウドネス情報処理部６５から供給された減衰係数decayFacに基づいて、各チャンネルの出力信号に対してレベル補正（ゲイン調整）を行う。

　具体的には、例えばレベル補正前の出力信号、すなわちレンダリング処理部６４の出力となる信号をrender_out[fr][ch]とし、レベル補正後の出力信号をout[fr][ch]とする。ここで、frおよびchは、それぞれフレームおよびチャンネルを示すインデックスである。

　この場合、DRC処理部６６は、各フレームについて、チャンネルごとに次式（３）を計算することで、レベル補正後の出力信号out[fr][ch]を生成する。すなわち、式（３）では、出力信号render_out[fr][ch]に対して減衰係数decayFacが乗算されてレベル補正が行われる。

　また、DRC処理部６６は、レベル補正後の出力信号に対してさらにDRC処理を行うとともに、DRC処理により得られた出力信号に対してDA変換を行い、その結果得られたアナログの出力信号をスピーカ７１へと供給する。

　スピーカ７１は、DRC処理部６６から供給された出力信号に基づいてコンテンツの音を出力（再生）する。スピーカ７１によりコンテンツの音が再生されると、出力信号生成処理は終了する。

　なお、DRC処理部６６では、減衰係数decayFacに基づくレベル補正が行われれば、特にDRC処理は行われなくてもよい。

　以上のようにしてクライアント５１は、ラウドネス情報に基づいて減衰係数decayFacを算出し、その減衰係数decayFacに基づいて出力信号のレベル補正を行う。このようにすることで、出力信号に基づく再生音のレベルが最大記録可能値以下に減衰されるので、クリップ歪みの発生を抑制することができる。

〈減衰係数算出処理の説明〉
　図１０のフローチャートを参照して、図９のステップＳ４３の処理に対応する減衰係数算出処理について説明する。

　ステップＳ７１においてラウドネス情報処理部６５は、ビットストリームデコーダ６２から供給されたマルチアングルラウドネス情報から、CVPごとに水平分割数および垂直分割数を取得する。

　例えばラウドネス情報処理部６５は、図５に示したマルチアングルラウドネス情報から、各CVPインデックスｉについて、水平分割数numOfDivs_h[i]と垂直分割数numOfDivs_v[i]を読み出す。これにより、各CVPでの水平方向と垂直方向への分割数が特定される。

　ステップＳ７２においてラウドネス情報処理部６５は、最大ピーク値cur_peakの値を最大ピーク値cur_peak＝0.0とする。この最大ピーク値cur_peakは、上述の最大ピーク値maxPeakに相当し、現時点では仮の値「0.0」に設定される。

　ステップＳ７３においてラウドネス情報処理部６５は、ビットストリームデコーダ６２から供給されたシステム構成情報に基づいて、仮想空間内で設定されている複数のCVPのうちの１つを処理対象とするCVPとして選択する。

　ステップＳ７４においてラウドネス情報処理部６５は、マルチアングルラウドネス情報に基づいて、処理対象のCVPに対して定められた複数の分割点のうちの１つを処理対象の分割点として選択する。例えば、水平分割インデックスｊと垂直分割インデックスｋの１つの組み合わせにより定まる分割点が処理対象の分割点として選択される。

　ラウドネス情報処理部６５は、マルチアングルラウドネス情報から、処理対象のCVPの処理対象の分割点に対して定められたラウドネス情報loudnessInfo[i][j][k]を読み出す。この場合、特にラウドネス情報loudnessInfo[i][j][k]はサンプルピークレベル値とされる。

　ステップＳ７５においてラウドネス情報処理部６５は、読み出した処理対象の分割点のラウドネス情報loudnessInfo[i][j][k]の値が、最大ピーク値cur_peakよりも大きいか否かを判定する。

　ステップＳ７５においてラウドネス情報の値が最大ピーク値cur_peakよりも大きいと判定された場合、その後、ステップＳ７６の処理が行われる。

　ステップＳ７６においてラウドネス情報処理部６５は、最大ピーク値cur_peakを、処理対象の分割点のラウドネス情報loudnessInfo[i][j][k]の値に更新する。このような更新により、最大ピーク値cur_peakの値は、これまで処理対象とされた分割点のラウドネス情報のうち、最も値が大きいラウドネス情報の値となる。

　ステップＳ７６の処理が行われて最大ピーク値cur_peakが更新されると、その後、処理はステップＳ７７へと進む。

　これに対して、ステップＳ７５においてラウドネス情報の値が最大ピーク値cur_peakよりも大きくないと判定された場合、ステップＳ７６の処理は行われず、すなわち最大ピーク値cur_peakの更新は行われず、その後、処理はステップＳ７７へと進む。

　ステップＳ７６の処理が行われたか、またはステップＳ７５においてラウドネス情報の値が最大ピーク値cur_peakよりも大きくないと判定されると、ステップＳ７７の処理が行われる。

　ステップＳ７７においてラウドネス情報処理部６５は、処理対象のCVPの全ての分割点について処理を行ったか否かを判定する。すなわち、処理対象のCVPについて、全ての分割点が処理対象とされたか否かが判定される。

　ステップＳ７７において、全ての分割点について処理を行っていないと判定された場合、すなわち、まだ全ての分割点が処理対象とされていないと判定された場合、処理はステップＳ７４に戻り、上述した処理が繰り返し行われる。この場合、まだ処理対象とされていない新たな分割点が処理対象とされて上述の処理が行われる。

　これに対して、ステップＳ７７において全ての分割点が処理対象とされたと判定された場合、ステップＳ７８においてラウドネス情報処理部６５は、全てのCVPについて処理を行ったか否かを判定する。すなわち、全てのCVPが処理対象とされたか否かが判定される。

　ステップＳ７８において、全てのCVPについて処理を行っていないと判定された場合、すなわち、まだ全てのCVPが処理対象とされていないと判定された場合、処理はステップＳ７３に戻り、上述した処理が繰り返し行われる。この場合、まだ処理対象とされていない新たなCVPが処理対象とされて上述の処理が行われる。

　一方、ステップＳ７８において全てのCVPが処理対象とされたと判定された場合、その後、処理はステップＳ７９へと進む。

　以上のステップＳ７３乃至ステップＳ７８の処理は、上述した式（１）の計算を行う処理であるといえる。最大ピーク値cur_peakは、全てのCVPの全ての分割点のラウドネス情報のうちの最も値が大きいラウドネス情報となる。

　ステップＳ７９においてラウドネス情報処理部６５は、最終的な最大ピーク値cur_peakの値が、予め定められた最大記録可能値よりも大きいか否かを判定する。ここでは、最大記録可能値は、例えば0.0[dB]とされる。

　ステップＳ７９において最大ピーク値cur_peakが最大記録可能値よりも大きいと判定された場合、ステップＳ８０においてラウドネス情報処理部６５は、最大ピーク値cur_peakに基づいて減衰係数decayFacを算出する。

　具体的にはラウドネス情報処理部６５は、次式（４）に示すように最大ピーク値cur_peakに基づいてゲインgain_dbを求め、得られたゲインgain_dbに基づいて以下の式（５）を計算することで減衰係数decayFacを算出する。これらの式（４）および式（５）では、上述の式（２）と同様の計算が行われる。すなわち、式（４）および式（５）の計算は、式（２）の計算と同じ計算である。

　一方、ステップＳ７９において最大ピーク値cur_peakが最大記録可能値以下であると判定された場合、ステップＳ８１においてラウドネス情報処理部６５は、最大ピーク値cur_peakの値によらず、減衰係数decayFacを「1.0」とする。すなわち、減衰係数decayFac＝1.0とされる。

　これは、最大ピーク値cur_peakが最大記録可能値以下である場合には、コンテンツの再生時にクリップ歪みが生じないからである。このような場合、後段のDRC処理部６６では、実質的にクリップ歪みのためのレベル補正は行われない。

　ステップＳ８０またはステップＳ８１の処理が行われると、ラウドネス情報処理部６５は、算出した減衰係数decayFacをDRC処理部６６に供給し、減衰係数算出処理は終了する。減衰係数算出処理が終了すると、図９のステップＳ４３が行われたことになるので、その後、処理は図９のステップＳ４４へと進む。

　以上のようにしてクライアント５１は、全CVPの全ての分割点におけるラウドネス情報に基づいて減衰係数decayFacを算出する。このような減衰係数decayFacを用いれば、レベル補正によりクリップ歪みの発生を抑制することができる。

〈第２の実施の形態〉
〈出力信号生成処理の説明〉
　ところで、上述した第１の実施の形態では、最大記録可能値に合わせて複数の各チャンネルの出力信号全体を一律に減衰させるため、場合によってはコンテンツの再生音が小さくなりすぎてしまう可能性もある。

　そこで、例えばMPEGなどで規格化されているDRC処理などといった適応的なレベル補正（ゲイン調整）を用いることで、出力信号全体の再生レベルを下げることなくクリップ歪みの発生を抑制するようにしてもよい。

　第２の実施の形態では、ラウドネス情報を用いたDRC処理によってクリップ歪みの発生を抑制する例について説明する。第２の実施の形態で説明する手法は、例えば仮想空間内におけるリスナの位置として、複数のCVPのうちの任意のCVPの位置を選択可能である、つまり複数のCVP間の離散的な移動が可能な多視点のオーディオコンテンツに対して適用可能である。

　第２の実施の形態で説明する手法では、例えば現在のリスナの位置として選択されているCVPにおいて、リスナの向きの方向に最も近い位置にある分割点のラウドネス情報が選択される。すなわち、水平分割線と垂直分割線の各組み合わせにより示される方向のうち、リスナの向きに最も近い方向となる組み合わせに対して定められたラウドネス情報が選択される。そして、選択されたラウドネス情報に基づいて、DRC処理等による出力信号のレベル補正が行われる。

　ラウドネス情報を用いたDRC処理によってクリップ歪みの発生が抑制される場合、クライアント５１では、例えば図１１に示す出力信号生成処理が行われる。

　以下、図１１のフローチャートを参照して、クライアント５１による出力信号生成処理について説明する。なお、ステップＳ１１１およびステップＳ１１２の処理は、図９のステップＳ４１およびステップＳ４２の処理と同様であるので、その説明は省略する。

　ステップＳ１１３においてラウドネス情報処理部６５は、ビットストリームデコーダ６２から供給されたマルチアングルラウドネス情報から、CVPごとに水平分割数および垂直分割数を取得する。

　ステップＳ１１３では、図１０のステップＳ７１における場合と同様の処理が行われ、各CVPインデックスｉについて、水平分割数numOfDivs_h[i]と垂直分割数numOfDivs_v[i]が読み出される。

　ステップＳ１１４においてラウドネス情報処理部６５は、リスナの入力操作等により供給される信号に基づいて、リスナにより選択されているCVPを示すCVPインデックスｉ＝cur_cvpを取得する。なお、ラウドネス情報処理部６５は、供給されるリスナ位置情報からCVPインデックスｉ＝cur_cvpを特定してもよい。

　以下、リスナにより選択されているCVPを示すCVPインデックスｉを、適宜、CVPインデックスcur_cvpとも記すこととする。

　ステップＳ１１５においてラウドネス情報処理部６５は、リスナの入力操作等に応じて供給されるリスナ向き情報を取得する。例えばリスナ向き情報は、仮想空間での現時点のリスナの水平方向の向きを示すヨー角と、垂直方向の向きを示すピッチ角とからなる。

　ステップＳ１１６においてラウドネス情報処理部６５は、マルチアングルラウドネス情報とリスナ向き情報に基づいて、CVPインデックスcur_cvpにより示されるCVPの水平分割インデックスｊのうち、リスナの水平方向の向きに最も近い方向の水平分割線を示す水平分割インデックスｊを算出（特定）する。この場合、例えば図２に示した例では、分割線L11の水平分割インデックスｊ＝５が特定結果（算出結果）として得られる。なお、水平分割線の方向は、水平分割インデックスｊの値により特定できるものとする。

　以下では、ステップＳ１１６で算出された水平分割インデックスｊの値が「sel_hidx」であるものとし、適宜、水平分割インデックスsel_hidxとも記すこととする。

　ステップＳ１１７においてラウドネス情報処理部６５は、マルチアングルラウドネス情報とリスナ向き情報に基づいて、CVPインデックスcur_cvpにより示されるCVPの垂直分割インデックスｋのうち、リスナの垂直方向の向きに最も近い方向の垂直分割線を示す垂直分割インデックスｋを算出（特定）する。この場合、例えば図３に示した例では、分割線L21の垂直分割インデックスｋ＝０が特定結果として得られる。なお、垂直分割線の方向は、垂直分割インデックスｋの値により特定できるものとする。

　以下では、ステップＳ１１７で算出された垂直分割インデックスｋの値が「sel_vidx」であるものとし、適宜、垂直分割インデックスsel_vidxとも記すこととする。

　ステップＳ１１８においてラウドネス情報処理部６５は、リスナの向きに応じたラウドネス情報を選択し、その選択したラウドネス情報をマルチアングルラウドネス情報から読み出してDRC処理部６６に供給する。

　具体的には、ラウドネス情報処理部６５はCVPインデックスcur_cvp、水平分割インデックスsel_hidx、および垂直分割インデックスsel_vidxの組み合わせにより定まるラウドネス情報loudnessInfo[cur_cvp][sel_hidx][sel_vidx]を選択する。

　このようにして選択されたラウドネス情報は、リスナにより選択されたCVPにおける、リスナの向きに最も近い方向に配置された（位置する）分割点に対応付けられたラウドネス情報である。すなわち、CVPを基準とする複数の向き（方向）ごとのラウドネス情報のうち、リスナ向き情報により示される向きに最も近い向きのラウドネス情報である。

　ステップＳ１１８の処理が行われてラウドネス情報が選択されると、その後、ステップＳ１１９およびステップＳ１２０の処理が行われるが、これらの処理は図９のステップＳ４４およびステップＳ４５の処理と同様であるので、その説明は省略する。

　ステップＳ１２１においてDRC処理部６６は、ラウドネス情報処理部６５から供給されたラウドネス情報に基づいて、レンダリング処理部６４から供給された各チャンネルの出力信号に対してDRC処理を行う。

　すなわち、DRC処理部６６は、ラウドネス情報としてのサンプルピークレベル値またはトゥルーピークレベル値に基づいて、DRC処理やDA変換を行うことで、ラウドネス情報に基づくレベル補正（ゲイン調整）が施されたアナログの出力信号を得る。すなわち、ラウドネス情報に基づくDRC処理等により出力信号のレベル補正が行われる。DRC処理部６６は、このようにして得られた出力信号をスピーカ７１へと供給し、コンテンツの音を再生させる。

　ステップＳ１２２においてクライアント５１は、コンテンツ（オーディオデータ）の全てのフレームに対して処理を行ったか否かを判定する。例えばステップＳ１２２では、全てのフレームの出力信号がスピーカ７１に供給されて再生が行われた場合、全てのフレームに対して処理を行ったと判定される。

　ステップＳ１２２において、まだ全てのフレームに対して処理を行っていないと判定された場合、その後、処理はステップＳ１１４に戻り、上述した処理が繰り返し行われる。この場合、まだ処理されていない新たなフレームについて上述の処理が行われる。

　これに対して、ステップＳ１２２において全てのフレームに対して処理を行ったと判定された場合、クライアント５１の各部は行っている処理を終了し、これにより出力信号生成処理は終了する。

　以上のようにしてクライアント５１は、リスナの位置および向きに対して適切なラウドネス情報を選択し、そのラウドネス情報に基づいてレベル補正を行う。このようにすることで、クリップ歪みの発生を抑制することができる。しかも、DRC処理等においてラウドネス情報に基づくレベル補正を実現することで、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。

〈第３の実施の形態〉
〈ラウドネス情報の選択について〉
　なお、CVP以外の位置を含む任意の位置をリスナの位置（視点位置）とし、リスナが仮想空間内を自由に移動可能な自由視点オーディオコンテンツに対しても、第２の実施の形態のように、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。

　そのような場合、例えばリスナ位置情報とリスナ向き情報に基づき、リスナの位置に最も近いCVPに対して定められた、リスナの向きに最も近い方向に位置する分割点のラウドネス情報が選択され、選択されたラウドネス情報に基づいてDRC処理等が行われる。

　例えば、図１２に示すように３次元の仮想空間上にCVP1、CVP2、およびリスナが存在しており、リスナの向きが矢印L31に示す方向であるとする。

　図１２は、仮想空間を上方から見たときの様子を表している。また、図１２では各CVPを中心とする円上に配置された各円が１つの分割点を表しており、CVPの位置を起点とし、分割点を終点とする矢印は各分割点に対応する分割線を表している。さらに各分割点の近傍に記された数値は、水平分割インデックスｊの値を示している。

　この場合、まず、CVP1とCVP2のうち、リスナの位置に最も近い位置にあるCVPが選択される。ここでは、リスナからCVP1までの距離aよりも、リスナからCVP2までの距離bがより小さい（短い）ため、CVP2が選択される。

　次に、CVP2の複数の分割点のうち、リスナの向きに最も近い方向に配置された分割点が選択される。なお、より詳細には、リスナの向きに最も近い方向の水平分割線および垂直分割線の組み合わせが選択され、その選択された組み合わせに対応する分割点が選択されるが、ここでは説明を簡単にするため、水平分割線の選択についてのみ説明を行う。

　CVP2を起点とする矢印L32は、矢印L31により示されるリスナの向きと同じ方向を示している。そのため、この例ではCVP2の分割線（水平分割線）のうち、矢印L32により示される方向と最も近い方向を示す分割線L33が選択され、その分割線L33に対応する分割点DV31が選択される。換言すれば、矢印L32により示される方向とのなす角度が最も小さい分割線L33が選択され、その分割線L33に対応する分割点DV31が選択される。

　したがって、この例ではCVP2の分割点DV31に対して定められたラウドネス情報に基づいてDRC処理等が行われ、これにより出力信号のレベル補正が実現される。

　なお、第３の実施の形態や第２の実施の形態では、リスナの位置に最も近いCVPが選択されるが、複数の各CVPとリスナの位置との間の距離が等しい、すなわち距離比が同じとなることも考えられる。そのような場合には、例えば現時点よりも時間的に前、より詳細には直前で使用されたリスナ位置情報が用いられ、そのリスナ位置情報により示される位置に最も近いCVPが選択されるようにしてもよい。

　その他、予め各CVPの優先度を示す優先度情報を設定しておき、リスナから最も近い複数のCVPのうち、最も優先度が高いCVPが選択されるようにしてもよい。

〈出力信号生成処理の説明〉
　図１２を参照して説明したように、リスナの位置と向きに基づきラウドネス情報が選択される場合、クライアント５１では、例えば図１３に示す出力信号生成処理が行われる。

　以下、図１３のフローチャートを参照して、クライアント５１による出力信号生成処理について説明する。なお、ステップＳ１５１乃至ステップＳ１５３の処理は、図１１のステップＳ１１１乃至ステップＳ１１３の処理と同様であるので、その説明は省略する。

　ステップＳ１５４においてラウドネス情報処理部６５は、供給されたリスナ位置情報と、ビットストリームデコーダ６２からのシステム構成情報とに基づいて、仮想空間におけるリスナ位置に最も近いCVPを示すCVPインデックスｉ＝near_cvpを特定し、そのCVPインデックスを取得する。すなわち、仮想空間におけるリスナの位置に最も近いCVPが選択される。

　システム構成情報には、各CVPの仮想空間内における絶対的な位置を示すCVP位置情報が含まれているので、CVP位置情報とリスナ位置情報とから、リスナの位置に最も近い位置にあるCVPを計算により特定することができる。ここでは、リスナの位置に最も近いCVPが１つであるとして説明を続ける。

　また、以下、リスナに最も近いCVPを示すCVPインデックスｉを、適宜、CVPインデックスnear_cvpとも記すこととする。

　CVPインデックスnear_cvpが取得されると、その後、ステップＳ１５５乃至ステップＳ１５７の処理が行われるが、これらの処理は図１１のステップＳ１１５乃至ステップＳ１１７の処理と同様であるので、その説明は省略する。

　但し、ステップＳ１５６およびステップＳ１５７では、CVPインデックスnear_cvpにより示されるCVPが対象とされ、そのCVPについて水平分割インデックスsel_hidxと垂直分割インデックスsel_vidxが特定される。

　ステップＳ１５８においてラウドネス情報処理部６５は、リスナの位置および向きに応じたラウドネス情報を選択し、その選択したラウドネス情報をマルチアングルラウドネス情報から読み出してDRC処理部６６に供給する。

　具体的には、ラウドネス情報処理部６５はCVPインデックスnear_cvp、水平分割インデックスsel_hidx、および垂直分割インデックスsel_vidxの組み合わせにより定まるラウドネス情報loudnessInfo[near_cvp][sel_hidx][sel_vidx]を選択する。

　このようにして選択されたラウドネス情報は、リスナに最も近い位置にあるCVPにおける、そのCVPを基準としたリスナの向きに最も近い方向に配置された（位置する）分割点に対応付けられたラウドネス情報である。すなわち、CVPを基準とする複数の向き（方向）ごとのラウドネス情報のうち、リスナ向き情報により示される向きに最も近い向きのラウドネス情報が選択される。

　このようにしてラウドネス情報が選択されると、その後、ステップＳ１５９乃至ステップＳ１６２の処理が行われて出力信号生成処理は終了するが、これらの処理は図１１のステップＳ１１９乃至ステップＳ１２２の処理と同様であるので、その説明は省略する。

〈第４の実施の形態〉
〈ラウドネス情報の選択について〉
　なお、リスナが仮想空間内のCVP以外の位置を含む任意の位置へと自由に移動可能な自由視点オーディオコンテンツにおいて、第３の実施の形態で説明した手法以外の手法でも、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。第４の実施の形態では、そのような他の手法について説明する。

　そのような場合、全CVPが対象とされて、CVPごとにリスナの向きに最も近い方向に位置する分割点のラウドネス情報が選択される。すなわち、リスナの向きに対応する水平分割インデックスｊおよび垂直分割インデックスｋの組み合わせにより定まるラウドネス情報が選択される。

　そして、選択された各CVPのラウドネス情報に基づき、現在のリスナの位置から各CVPまでの距離の逆数比により補間を行うことで算出されたラウドネス情報が用いられて、DRC処理等により出力信号のレベル補正が行われる。

　例えば、図１４に示すように３次元の仮想空間上にCVP1、CVP2、CVP3、およびリスナが存在しており、リスナの向きが矢印L31に示す方向であるとする。なお、図１４において図１２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１４では、CVP1を起点とする矢印L41は、矢印L31により示されるリスナの向きと同じ方向を示している。そのため、CVP1の分割点のうち、矢印L41により示される方向（リスナの向き）と最も近い方向に配置された分割点は、分割点DV41となる。

　同様に、CVP3を起点とする矢印L42は、矢印L31により示されるリスナの向きと同じ方向を示しており、CVP3の分割点のうち、矢印L42により示される方向（リスナの向き）と最も近い方向に配置された分割点は、分割点DV42となる。

　図１４の例では、リスナ位置情報により示されるリスナの位置F、すなわち仮想空間上の点Fの座標が（xf,yf,zf）とされている。

　また、仮想空間におけるCVP1、CVP2、およびCVP3の位置が、それぞれ位置A、位置B、および位置Cとされており、CVP位置情報により示される、それらの位置A、位置B、および位置Cの座標が（xa,ya,za）、（xb,yb,zb）、および（xc,yc,zc）であるとする。

　さらに、CVP1の位置Aからリスナの位置Fまでの距離AFが距離AF＝aであり、CVP2の位置Bからリスナの位置Fまでの距離BFが距離BF＝bであり、CVP3の位置Cからリスナの位置Fまでの距離CFが距離CF＝cであるとする。

　この場合、距離AF、距離BF、および距離CFの逆数比が求められ、さらにその逆数比と、CVP1の分割点DV41のラウドネス情報、CVP2の分割点DV31のラウドネス情報、およびCVP3の分割点DV42のラウドネス情報に基づき補間処理が行われる。

　この補間処理によって、リスナの位置Fと、矢印L31に示すリスナの向きとに対応するラウドネス情報が得られ、そのラウドネス情報に基づいてDRC処理等により出力信号のレベル補正が行われる。

　なお、ここでは仮想空間上の全てのCVPが対象とされてCVPごとに分割点（ラウドネス情報）が選択され、補間処理が行われる場合について説明するが、全てのCVPを対象とするのではなく、リスナの近傍にある一部の複数のCVPのみが対象とされてもよい。また、リスナの近傍にある一部の複数のCVPのみを対象とする場合に、対象とするCVPの個数についてはユーザ（リスナ）によって任意に設定されてもよいし、クライアントのリソースや残電池量、伝送帯域等によって動的に変更されてもよい。

　以下、ラウドネス情報を求めるための補間処理について、詳細に説明する。

　図１４に示したように、仮想空間内の３つの位置A、位置B、および位置CのそれぞれにCVP1、CVP2、およびCVP3があり、リスナが位置Fにいる場合、距離AF＝a、距離BF＝b、および距離CF＝cの比（距離比）は、次式（６）に示すようになる。

　また、距離比の逆数を、これから求めようとするラウドネス情報へのCVPの依存度（寄与度）とすると、各CVPの依存度の比である依存比は、以下の式（７）に示すようになる。

　なお、式（７）においてdp(AF)、dp(BF)、およびdp(CF)は、それぞれCVP1の依存度、CVP2の依存度、およびCVP3の依存度を示している。

　これらの依存度dp(AF)乃至依存度dp(CF)を正規化したものを、それぞれ依存度Cbr(AF)、依存度Cbr(BF)、および依存度Cbr(CF)とすると、各CVPの正規化した依存度の比、すなわち依存比は、次式（８）に示すようになる。なお、式（８）において「＾」はべき乗を表しており、「sqrt」は平方根を表している。

　このようにして求められた距離の逆数による依存度Cbr(AF)乃至依存度Cbr(CF)と、CVP1乃至CVP3のリスナ向きに応じたラウドネス情報とに基づいて補間処理が行われ、リスナの位置と向きに対応するラウドネス情報が求められる。

　具体的には、例えばリスナの位置と向きに対応するラウドネス情報として、サンプルピークレベル値EstSamplePeakLevelを算出する場合には次式（９）に示す計算が行われる。

　なお、式（９）において、SamplePeakLevel[0][hor1][vir1]は、図１４のCVP1について選択された分割点DV41のラウドネス情報としてのサンプルピークレベル値を示している。

　したがって、この例では分割点DV41は、各インデックスの組み合わせであるCVPインデックスｉ＝0、水平分割インデックスｊ＝hor1、および垂直分割インデックスｋ＝vir1により特定される分割点となる。この場合、リスナの水平方向の向きに最も近い方向を示す水平分割線の水平分割インデックスｊが「hor1＝7」であり、リスナの垂直方向の向きに最も近い方向を示す垂直分割線の垂直分割インデックスｋが「vir1」である。

　同様に、式（９）において、SamplePeakLevel[1][hor2][vir2]は、図１４のCVP2について選択された分割点DV31のラウドネス情報としてのサンプルピークレベル値を示している。SamplePeakLevel[2][hor3][vir3]は、図１４のCVP3について選択された分割点DV42のラウドネス情報としてのサンプルピークレベル値を示している。

　また、例えばリスナの位置と向きに対応するラウドネス情報として、トゥルーピークレベル値EstTruePeakLevelを算出する場合には次式（１０）に示す計算が行われる。

　なお、式（１０）において、TruePeakLevel[0][hor1][vir1]は、図１４のCVP1について選択された分割点DV41のラウドネス情報としてのトゥルーピークレベル値を示している。

　式（１０）においても、式（９）における場合と同様に、分割点DV41は、各インデックスの組み合わせであるCVPインデックスｉ＝0、水平分割インデックスｊ＝hor1＝7、および垂直分割インデックスｋ＝vir1により特定される分割点となる。

　また、式（１０）において、TruePeakLevel[1][hor2][vir2]は、図１４のCVP2について選択された分割点DV31のラウドネス情報としてのトゥルーピークレベル値を示している。TruePeakLevel[2][hor3][vir3]は、図１４のCVP3について選択された分割点DV42のラウドネス情報としてのトゥルーピークレベル値を示している。

　DRC処理部６６では、以上のようにして算出されたラウドネス情報としてのサンプルピークレベル値EstSamplePeakLevelまたはトゥルーピークレベル値EstTruePeakLevelが用いられて、DRC処理等により出力信号のレベル補正が行われる。

〈出力信号生成処理の説明〉
　各CVPの正規化した依存度により補間処理を行ってラウドネス情報を求め、そのラウドネス情報を用いて出力信号のレベル補正が行われる場合、クライアント５１では、例えば図１５に示す出力信号生成処理が行われる。

　以下、図１５のフローチャートを参照して、クライアント５１による出力信号生成処理について説明する。なお、ステップＳ１９１乃至ステップＳ１９３の処理は、図１１のステップＳ１１１乃至ステップＳ１１３の処理と同様であるので、その説明は省略する。

　ステップＳ１９４においてラウドネス情報処理部６５は、現在のリスナ位置に基づいて、各CVPの依存比、すなわち依存度を算出する。

　具体的には、ラウドネス情報処理部６５は供給されたリスナ位置情報と、ビットストリームデコーダ６２からのシステム構成情報に含まれているCVP位置情報とに基づいて、仮想空間における各CVPからリスナまでの距離を算出する。

　そしてラウドネス情報処理部６５は、算出した距離に基づいて、上述した式（８）と同様の計算を行うことで距離比、すなわちCVPごとの正規化された依存度を算出する。

　ステップＳ１９５においてラウドネス情報処理部６５は、リスナの入力操作等に応じて供給されるリスナ向き情報を取得する。

　ステップＳ１９６においてラウドネス情報処理部６５は、システム構成情報に基づいて、仮想空間内で設定されている複数のCVPのうちの１つを処理対象とするCVPとして選択する。

　処理対象のCVPが選択されると、その後、処理対象のCVPについて、ステップＳ１９７乃至ステップＳ１９９の処理が行われるが、これらの処理は、図１１のステップＳ１１６乃至ステップＳ１１８の処理と同様であるので、その説明は省略する。

　これにより、処理対象のCVPについて、水平分割インデックスsel_hidxおよび垂直分割インデックスsel_vidxの組み合わせにより定まるラウドネス情報loudnessInfo[i][sel_hidx][sel_vidx]がマルチアングルラウドネス情報から読み出される。このようにして読み出されたラウドネス情報は、処理対象のCVPにおける、リスナの向きに最も近い方向に配置された（位置する）分割点に対応付けられたラウドネス情報である。

　ステップＳ２００においてラウドネス情報処理部６５は、全てのCVPについて、上述のステップＳ１９７乃至ステップＳ１９９の処理を行ったか否かを判定する。

　ステップＳ２００において、まだ全てのCVPについて処理を行っていないと判定された場合、その後、処理はステップＳ１９６に戻り、上述した処理が繰り返し行われる。この場合、まだ処理対象とされていない新たなCVPが処理対象とされて上述の処理が行われる。

　これに対して、ステップＳ２００において、全てのCVPについて処理を行ったと判定された場合、その後、処理はステップＳ２０１へと進む。この場合、全ての各CVPについて、CVPにおける複数の向き（方向）ごとのラウドネス情報のうち、リスナ向き情報により示されるリスナの向きに最も近い向きのラウドネス情報が選択されたことになる。

　ステップＳ２０１においてラウドネス情報処理部６５は、ステップＳ１９４で算出した依存比（依存度）と、ステップＳ１９９で読み出された各CVPのラウドネス情報とに基づいて、リスナの位置および向きに応じたラウドネス情報を算出する。また、ラウドネス情報処理部６５は、算出したラウドネス情報をDRC処理部６６に供給する。

　例えばラウドネス情報処理部６５は、上述した式（９）や式（１０）と同様の計算を行うことで、依存度（距離比）に基づく補間処理によりラウドネス情報としてのサンプルピークレベル値やトゥルーピークレベル値を算出する。

　ラウドネス情報が算出されると、その後、ステップＳ２０２乃至ステップＳ２０５の処理が行われて出力信号生成処理は終了するが、これらの処理は図１１のステップＳ１１９乃至ステップＳ１２２の処理と同様であるので、その説明は省略する。

　以上のようにしてクライアント５１は、CVPごとに、リスナの向きに対して適切なラウドネス情報を選択し、それらのラウドネス情報に基づいて補間処理によりリスナの位置および向きに応じたラウドネス情報を算出する。そしてクライアント５１は、算出したラウドネス情報を用いて、出力信号のレベル補正を行う。

　このようにすることで、クリップ歪みの発生を抑制することができるだけでなく、DRC処理等においてラウドネス情報に基づくレベル補正を実現し、コンテンツの再生音が小さくなりすぎてしまうことを抑制することができる。

〈第５の実施の形態〉
〈本技術について〉
　ところで、オーディオ再生に関して、リスナ位置が固定でリスナの向きを自由に変えることができる3DoF（Degree of Freedom）オーディオと、リスナの位置や向きを自由に変えることができる6DoFオーディオとが知られている。6DoFオーディオは、自由視点オーディオとも呼ばれている。

　単一の3DoFオーディオにおいてラウドネス制御を行う場合には、レンダリング処理によって得られた各スピーカへの出力に基づきラウドネス値が測定される。また、再生側ではリスナが要求したターゲットラウドネス値に対する測定ラウドネス値との差分が算出され、そのゲイン差分がレンダリングされた出力オーディオデータに適用されている。

　一方で、自由視点オーディオシステム上では、３次元空間内の複数の視点（CVP）で制作された3DoFオーディオのデータを用いて任意視点でのオブジェクトの配置位置とゲインを補間によって求めることになる。しかし、複数の3DoFオーディオに対して再生側で要求されるターゲットラウドネス値を扱う手法が存在していない。

　そのため、自由視点オーディオ（6DoFオーディオ）における再生ラウドネスの制御ができない状況となっている。

　そこで、本技術では、自由視点オーディオにおいても再生側でラウドネス制御を行うことができるようにした。

　本技術は、例えば以下のような特徴を有している。

　すなわち、本技術は、オブジェクトのゲイン制御のみでラウドネス補正を行うという特徴を有している。

　また、本技術は、リスナの位置（視点）ごとに音量のばらつきがあるときでも、再生側のターゲットラウドネス値に合わせた自由視点オーディオ再生を実現可能であるという特徴を有している。

　例えば、コンテンツの制作時には、各視点（CVP）についてのレンダリング結果に対するラウドネス値が測定ラウドネス値として測定され、得られた測定ラウドネス値は構成情報の一部としてビットストリームに格納されて再生側に伝送される。なお、この実施の形態等における測定ラウドネス値を算出する際の測定対象となるスピーカ出力信号は、例えば全てのCVPについて、リスナが後述するTP（ターゲットポイント）を向いた状態となっているときのものであるとされる。

　再生側では、リスナが希望するラウドネス値がターゲットラウドネス値として入力される。また、6DoFメタデコーダでは、任意のリスナ位置に対するオブジェクトのゲイン値を補間により求める前の段階で、ターゲットラウドネス値と、CVPごとの測定ラウドネス値との差分のゲイン補正量が求められる。そして、CVPごとに全てのオブジェクトのメタデータに含まれるゲイン値に対して、ゲイン補正量の適用が行われる。

　これにより、視点（CVP）ごとの音量差が発生する場合でも、再生側のターゲット音量（ターゲットラウドネス値）に合わせて自由視点オーディオの再生が可能となる。

　さらに、本技術は、コンテンツ制作者側の意図と、ターゲットラウドネス値とを反映させた自由視点オーディオ再生を実現可能であるという特徴も有している。

　例えば、コンテンツの制作者が各CVPに対して、事前に希望するラウドネス値を制作ラウドネス値として設定することも考えられるため、そのような場合への対応が可能であると、制作者の意図をより反映させることができるようになる。

　この場合、制作者が設定したCVP間の音量の関係が保持され、その中で最も大きいラウドネス値を持つCVPとターゲットラウドネス値との差分が求められ、全てのCVPに対してその差分がオブジェクトのゲイン値に対して適用される。

　自由視点オーディオでの再生側におけるラウドネス制御を行う場合、再生側では、例えば図１６に示すように、Case Index＝0,1,2,3の各ケースに対応する処理が行われる。

　図１６では、各ケースについて、動作仕様、構成情報（Config Info）内におけるグループ情報や制作ラウドネス値の有無、再生側（ラウドネス設定API（Application Programming Interface））での設定が示されている。

　例えば、再生側ではラウドネスモードの設定が行われる。ラウドネスモードとは、再生側において、ユーザ（リスナ）等によりターゲットラウドネス値に基づくラウドネス補正を行う動作モードである。例えば、再生側では、リスナ等によりターゲットラウドネス値が指定されると、ラウドネスモードとされる。

　また、ラウドネスモードには、測定ラウドネスモード（Case Index＝1）、グループモード（Case Index＝2）、および制作ラウドネスモード（Case Index＝3）がある。

　Case Index＝0（以下、ケース０とも称する）の場合、ターゲットラウドネス値は指定されていないので、ラウドネスモードとはされず、再生側では特にラウドネス補正は行われない。

　これに対して、ターゲットラウドネス値が指定され、ラウドネスモードとされた場合、測定ラウドネスモード、グループモード、および制作ラウドネスモードのうちの何れかのモードでラウドネス補正が行われる。

　Case Index＝1（以下、ケース１とも称する）、すなわち測定ラウドネスモードでは、構成情報にグループ情報や制作ラウドネス値を格納する必要はない。すなわち、測定ラウドネスモードでは、グループ情報や制作ラウドネス値は用いられない。

　測定ラウドネスモードでは、制御視点である各CVPでのラウドネス（音量）のばらつきがある場合でも、そのばらつきが揃えられ、再生時のラウドネスが、リスナ等により設定されたターゲットラウドネス値となるようにラウドネス補正が行われる。後述するように、測定ラウドネスモードでは、測定ラウドネス値とターゲットラウドネス値とに基づいてオブジェクトのゲイン情報が補正される。

　Case Index＝2（以下、ケース２とも称する）、すなわちグループモードでは、構成情報にグループ情報が格納されているが、構成情報に制作ラウドネス値を格納する必要はない。すなわち、グループモードでは、グループ情報が用いられる。

　グループ情報は、仮想空間上に配置された複数の各CVP（制御視点）が属すグループ（以下、CVPグループとも称する）を示す情報である。グループモードでは、グループ数が１となるようなケースもある。すなわち、全CVPが同一のグループに属すケースもある。

　グループモードでは、同一グループに属す各CVPでの音量のばらつきは維持したまま、同一グループ内の最大の測定ラウドネス値をもつCVPを基準として、再生時のラウドネスがターゲットラウドネス値となるようにラウドネス補正が行われる。後述するように、グループモードでは、測定ラウドネス値と、グループ情報と、ターゲットラウドネス値とに基づいてオブジェクトのゲイン情報が補正される。

　Case Index＝3（以下、ケース３とも称する）、すなわち制作ラウドネスモードでは、構成情報に制作ラウドネス値が格納されているが、構成情報にグループ情報を格納する必要はない。すなわち、制作ラウドネスモードでは、制作者等によりCVPごとに指定された制作ラウドネス値が用いられる。

　制作ラウドネスモードでは、各CVP（制御視点）の制作ラウドネス値が用いられて、再生時のラウドネスがターゲットラウドネス値となるようにラウドネス補正が行われる。すなわち、制作ラウドネスモードでは、測定ラウドネス値と、制作ラウドネス値と、ターゲットラウドネス値とに基づいてオブジェクトのゲイン情報が補正される。

〈ラウドネスモードについて〉
　以下、図１７乃至図２２を参照して、測定ラウドネスモード、グループモード、および制作ラウドネスモードについて、具体的に説明する。なお、図１７乃至図２２において、互いに対応する部分については、その説明は適宜省略する。

（測定ラウドネスモード）
　測定ラウドネスモード（ケース１）では、CVPごとの測定ラウドネス値が異なる場合に、再生側で、リスナの位置（受聴位置）によらず、再生時のラウドネス値がターゲットラウドネス値となるようにゲインの補正処理が行われる。

　例えば図１７の左側に示すように、仮想空間上にターゲットポイント（以下、TP（Target Point）とも称する）と、複数のCVPとが定められているとする。

　TP（ターゲットポイント）は、所定の基準となる位置であり、一例として、例えば各CVPにいる仮想のリスナは、全てTPの方向を向いているものとして、オブジェクトのメタデータが生成されている。ここでは、文字「TP」が記された円がTPを表している。

　なお、各CVPにおけるオブジェクトのメタデータは、CVPにいる仮想のリスナがTPを向いているときのものに限らず、リスナが任意の方向を向いているときのものとすることができる。

　また、この例ではCVPとして、CVP A～CVP Eの５つのCVPが配置されている。例えば、文字「A」が記された円がCVP Aを表しているなど、円内に記された文字がどのCVPであるかを示している。

　コンテンツ制作側では、CVPごとにオブジェクトのメタデータが定められる。例えば、CVPごとのメタデータには、CVPに対して定められたオブジェクトの位置情報やゲイン情報などが含まれている。また、同じオブジェクトであっても、CVPごとに仮想空間におけるオブジェクトの配置位置やゲイン情報が異なることがある。

　コンテンツ制作側では、それらのメタデータが用いられてCVPごとにコンテンツのオーディオデータのラウドネス値が測定ラウドネス値として測定される。コンテンツのオーディオデータは、１または複数のオブジェクトの音を含む、コンテンツの音を再生するためのデータである。

　例えばオブジェクトのメタデータには、CVPごとに、オブジェクト位置情報とゲイン情報が含まれている。また、CVPごとに、オブジェクト位置情報およびゲイン情報を用いたレンダリング処理が行われ、５ｃｈや２ｃｈ、１３ｃｈなどといった任意のチャンネル構成のオーディオデータが生成される。このオーディオデータは、CVPの位置をリスナの位置とした場合における、コンテンツの音を再生するためのオーディオデータである。

　さらに、CVPごとに生成されたオーディオデータのラウドネス値が測定され、その測定結果がCVPごとの測定ラウドネス値とされる。

　この例では、CVP Aの測定ラウドネス値La、CVP Bの測定ラウドネス値Lb、CVP Cの測定ラウドネス値Lc、CVP Dの測定ラウドネス値Ld、およびCVP Eの測定ラウドネス値Leが測定により得られている。

　一方、再生側においては、リスナが希望するラウドネス値として、ターゲットラウドネス値Lt[LKFS]が設定される。

　測定ラウドネスモードでは、各CVPについて、再生側でのレンダリング処理により得られるオーディオデータのラウドネス値がターゲットラウドネス値Ltとなるようにされる。すなわち、各CVPでのラウドネス値が全てターゲットラウドネス値Ltとなるように各オブジェクトのCVPごとのゲイン情報の補正（ゲイン制御）が行われ、これによりラウドネス補正が実現される。

　このようなラウドネス補正を実現するため、再生側では、例えば図１７の右側に示すように、CVPごとにオブジェクトのゲイン情報（ゲイン値）を補正するためのラウドネス変更値が計算される。

　この例では、CVP Aのラウドネス変更値Ga、CVP Bのラウドネス変更値Gb、CVP Cのラウドネス変更値Gc、CVP Dのラウドネス変更値Gd、およびCVP Eのラウドネス変更値Geが求められる。

　例えば、これらのラウドネス変更値Ga～ラウドネス変更値Geは、次式（１１）により得ることができる。

　式（１１）では、ターゲットラウドネス値Ltと測定ラウドネス値の差分、すなわちターゲットラウドネス値Ltから測定ラウドネス値を減算して得られる値がラウドネス変更値として算出される。

　また、再生側では、CVPごとに求めたラウドネス変更値に基づき、オブジェクトのゲイン情報の補正（ゲイン補正）のためのゲイン変化率が算出され、得られたゲイン変化率に基づいて、オブジェクトのCVPごとのゲイン情報が補正される。

　例えば図１７の例では、各CVPのラウドネス変更値に基づき、次式（１２）を計算することで、CVP A～CVP Eの各CVPのゲイン変化率であるGaRatio～GeRatioが求められる。

　このようにして得られたCVPごとのゲイン変化率が、オブジェクトのCVPごとのゲイン情報に乗算され、最終的なオブジェクトのCVPごとのゲイン情報とされる。

　例えば図１７の例では、各CVPのゲイン変化率に基づき、次式（１３）を計算することで、CVP A～CVP Eの各CVPの最終的なオブジェクトのゲイン情報であるObgGain_a[i]～ObgGain_e[i]が求められる。

　なお、式（１３）では、ObgGain_a[i]～ObgGain_e[i]は、メタデータに含まれているCVP A～CVP Eについてのｉ番目のオブジェクトのゲイン情報（補正前のゲイン値）を示している。したがって、式（１３）では、オブジェクトのゲイン情報にゲイン変化率を乗算して得られる値が、最終的なオブジェクトのゲイン情報、すなわち補正後のゲイン情報（以下、補正ゲイン情報とも称することとする）とされることになる。

　再生側でのレンダリング処理時には、CVPごとに得られた補正ゲイン情報が用いられてリスナの位置に対する各オブジェクトのゲイン情報が算出され、各オブジェクトのオーディオデータに適用されることになる。

（グループモード）
　グループモードでは、CVPがグループ分けされ、同一グループ内に含まれるCVP間のラウドネス値の相対関係が維持される。

　コンテンツの制作側において、例えば図１８に示すようにCVP A～CVP Eの５個のCVPが設定され、それらの各CVPが何れかのグループ（CVPグループ）に属すようにグループ分けが行われる。

　この例では、CVP CおよびCVP Dにより１つのグループ１が形成されており、CVP A、CVP B、およびCVP Eにより１つのグループ２が形成されている。

　例えば制作者（クリエイタ）は、最も大きい測定ラウドネス値とCVP自身の測定ラウドネス値との差分を、ラウドネス値を意図的に下げたいCVPのラウドネス変更値に予め加算しておくという相対関係を築きたいCVPをグループ化する。すなわち、音量のバランス（音量の相対関係）を維持したいCVPが同じグループとなるようにグループ分けが行われる。

　後述するように、同じグループに属す各CVPの測定ラウドネス値のうちの最も大きいものを最大測定ラウドネス値とすると、ラウドネス変更値の算出時には、その最大測定ラウドネス値がグループ内の各CVPの測定ラウドネス値としてセットされる（用いられる）。そうすることで、再生側においては、同一グループ内では、そのグループに属す各CVPでの測定ラウドネス値の相対関係、つまり音量の相対関係（ゲイン差の関係）が維持されることになる。

　例えば制作者がCVP A、CVP B、およびCVP Eの間での音量のバランス関係を維持したいと考えている場合、制作者は図１８に示したように、それらのCVP A、CVP B、およびCVP Eを１つのCVPグループ「グループ２」とする。この場合、CVP A、CVP B、およびCVP Eの測定ラウドネス値のうちの最も大きいものがCVP Bの測定ラウドネス値Lbであるとすると、ラウドネス変更値の計算時には、CVP Bだけでなく、CVP AやCVP Eについても、測定ラウドネス値がLbであるものとして扱われる。

　例えば本技術では、CVPグループという概念が設けられて、各CVPが属しているグループを示す情報（グループ情報）がビットストリームに格納されるが、グループモードとされるときでも各CVPのオリジナルの測定ラウドネス値がビットストリームに格納されるようにしてもよい。そうすれば、再生側において、全CVPにおけるラウドネス値をターゲットラウドネス値にしたい、つまり測定ラウドネスモードとして全CVPでの音量を均一にしたいという場合にも対応することができる。

　また、グループモードの場合、再生側では、CVPごとに定められたグループ情報の値をもとに、各CVPグループ内の最大測定ラウドネス値が特定される。そして、グループに属す全CVPの測定ラウドネス値として最大測定ラウドネス値がセットされる。

　なお、CVPのグループ分けは、例えば制作者による指定操作に従って行われることが考えられるが、他のどのような方法により行われるようにしてもよい。

　一例として、例えば仮想空間上における複数のCVPの配置位置に基づいて、クラスタリングを行ったり、CVP間の距離に基づいて、CVP間の距離が短いものが同じグループに属すようにグループ分けが行われたりしてもよい。

　また、例えば、仮想空間上におけるCVPが配置された領域に応じて、そのCVPがどのグループに属すかが定められるようにしてもよい。

　例えば、仮想空間がライブ会場やそのライブ会場の外の領域を含む空間であるときには、ライブ会場内に配置されたCVPは同じ１つのグループに属し、ライブ会場外に配置されたCVPは、ライブ会場内のCVPが属すグループとは異なる他のグループに属すようにすることなどが考えられる。また、同じライブ会場内でも、１階席にあるCVPは同じ１つのグループに属し、２階席にあるCVPは１階席にあるCVPとは異なる他のグループに属すようにすることなども考えられる。

　また、時間とともにグループ数やグループ分けが動的に変化するようにしてもよい。さらに、例えばリスナが仮想空間における領域Aにいるときの領域A用のグループ情報や、リスナが領域Bにいるときの領域B用のグループ情報など、予め複数のグループ分けの結果（グループパターン）を用意しておくようにしてもよい。

　そのような場合、例えば、リスナの位置や再生側のリソース、再生側の残電池量、再生側のデバイス種別、輻輳状態等のネットワークの状態などに応じて、複数のグループパターンのうちの１つが選択されるように、グループパターンの切り替えが行われるようにしてもよい。

　グループパターンの切り替えは、コンテンツを配信するサーバで行われてもよいし、コンテンツの再生側（クライアント）で行われてもよい。このようにグループパターンの切り替えが行われる場合、例えばグループパターンごとに、後述する構成情報を用意することが考えられる。

　グループモードでは、例えば図１９の左側に示すように、全てのCVPが同じグループに属すこともある。換言すれば、１つのグループに仮想空間上の全てのCVPが属すこともある。

　図１９の例では、CVP A～CVP Eの５個のCVPが全て同じグループとされている。この例では、再生側において、全てのCVPの測定ラウドネス値の関係が維持され、グループ内で最も大きい測定ラウドネス値と、ターゲットラウドネス値との差分が同一グループ内の全てのCVPに適用されることになる。

　具体的には、再生側において、オブジェクトのCVPごとのゲイン情報の補正を行う際には、まずラウドネス変更値が求められる。

　グループモードでは、グループに属す各CVPの測定ラウドネス値のなかの最大値が最大測定ラウドネス値として特定され、その最大測定ラウドネス値とターゲットラウドネス値との差分がラウドネス変更値とされる。特に、グループモードでは、グループに属す全CVPのラウドネス変更値は同じ値となる。

　例えば図１９の例では、CVP A～CVP Eが同じグループに属しており、それらのCVPの測定ラウドネス値の最大値がCVP Dの測定ラウドネス値Ldとなっている。

　そのため、最大測定ラウドネス値Lmax＝Ldとされ、図中、右側に示すように、最大測定ラウドネス値Lmaxと、ターゲットラウドネス値Ltとに基づき、以下の式（１４）によりCVP A～CVP Eのラウドネス変更値Ga～ラウドネス変更値Geが求められる。

　式（１４）では、ターゲットラウドネス値Ltと最大測定ラウドネス値Lmaxの差分、すなわちターゲットラウドネス値Ltから最大測定ラウドネス値Lmaxを減算して得られる値がラウドネス変更値Ga～ラウドネス変更値Geとして算出される。特に、同じグループに属すCVP A～CVP Eのラウドネス変更値Ga～Geは同じ値となっている。

　また、図１８に示したように、グループ数が２つである場合には、例えば図２０に示すように、グループごとにラウドネス変更値が算出される。

　図２０における左側には、図１８における場合と同様のグループ分けが行われており、グループ１はCVP CおよびCVP Dからなり、グループ２はCVP A、CVP B、およびCVP Eからなる。

　この場合、CVP Cの測定ラウドネス値LcとCVP Dの測定ラウドネス値Ldのうちの大きい方（最大のもの）がグループ１の最大測定ラウドネス値Lmax_g1とされる。

　同様に、CVP Aの測定ラウドネス値La、CVP Bの測定ラウドネス値Lb、およびCVP Eの測定ラウドネス値Leのうちの最大のもの（最大値）がグループ２の最大測定ラウドネス値Lmax_g2とされる。

　そして、ターゲットラウドネス値Ltと最大測定ラウドネス値Lmax_g1の差分がグループ１内の全CVPのラウドネス変更値とされ、ターゲットラウドネス値Ltと最大測定ラウドネス値Lmax_g2の差分がグループ２内の全CVPのラウドネス変更値とされる。

　すなわち、図２０の右側に示すように、ラウドネス変更値Gc＝Gd＝Lt-Lmax_g1とされ、ラウドネス変更値Ga＝Gb＝Ge＝Lt-Lmax_g2とされる。

　例えば図２０の例では、上述の式（１２）における場合と同様に、各CVPのラウドネス変更値に基づき、次式（１５）を計算することで、CVP A～CVP Eの各CVPのゲイン変化率であるGaRatio～GeRatioが求められる。

　図２０の例では、上述の式（１３）と同様に、各CVPのゲイン変化率に基づき、次式（１６）を計算することで、CVP A～CVP Eの各CVPの最終的なオブジェクトのゲイン情報である補正ゲイン情報ObgGain_a[i]～ObgGain_e[i]が求められる。

　なお、式（１６）では、ObgGain_a[i]～ObgGain_e[i]は、メタデータに含まれているCVP A～CVP Eについてのｉ番目のオブジェクトのゲイン情報（補正前のゲイン値）を示している。式（１６）では、オブジェクトのゲイン情報にゲイン変化率を乗算して得られる値が、最終的なオブジェクトのゲイン情報（補正ゲイン情報）とされる。

（制作ラウドネスモード）
　制作ラウドネスモードでは、コンテンツの制作時に制作者が意図した各CVPの制作ラウドネス値が設定される。

　例えば、図２１の左側に示すように、仮想空間上にCVP A～CVP Eが配置された場合、それらのCVPごとに制作ラウドネス値が定められるとともに、各CVPについて測定ラウドネス値が測定される。

　この例では、CVP A～CVP Eの制作ラウドネス値Lca～制作ラウドネス値Lceが設定され、またCVP A～CVP Eの測定ラウドネス値La～測定ラウドネス値Leが測定により得られている。

　制作者は、制作ラウドネス値を指定（セット）することで、CVP間の音量バランスを意図的に設定できることになる。

　制作ラウドネスモードでは、２段階でラウドネス変更値が求められる。

　すなわち、まず１段階目の処理として、図中、中央に示すようにCVPごとに中間ラウドネス変更値が算出される。

　具体的には、次式（１７）に示すように、制作ラウドネス値から測定ラウドネス値を減算して得られる値が中間ラウドネス変更値とされる。なお、式（１７）では、Ga～Geは、CVP A～CVP Eの中間ラウドネス変更値を示している。

　例えば、仮に中間ラウドネス変更値Gaをラウドネス変更値として用いれば、CVP Aについては、再生時のラウドネスが、制作ラウドネス値Lcaとなるようにラウドネス補正が行われることになる。

　次に、２段階目の処理として、図中、右側に示すように、全CVPで共通の補正量である共通補正量OvaGが求められ、その共通補正量OvaGに基づいて、各CVPの最終的なラウドネス変更値である最終ラウドネス変更値が求められる。

　具体的には、全CVPの制作ラウドネス値のうちの最大値、すなわち制作ラウドネス値Lca～制作ラウドネス値Lceのなかの最大値が最大制作ラウドネス値Lcx_maxとされる。

　また、次式（１８）に示すように、ターゲットラウドネス値Ltと最大制作ラウドネス値Lcx_maxとの差分、すなわちターゲットラウドネス値Ltから最大制作ラウドネス値Lcx_maxを減算して得られる値が共通補正量OvaGとされる。

　共通補正量OvaGは、最大制作ラウドネス値Lcx_maxとなるCVPにおけるラウドネスがターゲットラウドネス値Ltとなり、かつ各CVP間の音量バランス、つまり相対的な音量（ラウドネス）の関係が維持されるようにするための各CVPの中間ラウドネス変更値の補正量となっている。

　最後に、共通補正量OvaGと中間ラウドネス変更値とに基づいて、CVPごとに、最終的なラウドネス変更値（最終ラウドネス変更値）が求められる。

　すなわち、以下の式（１９）により、CVP A～CVP Eの各CVPの最終ラウドネス変更値であるfGa～fGeが求められる。

　式（１９）では、CVPごとの中間ラウドネス変更値に共通補正量OvaGが加算されて、その加算結果が最終ラウドネス変更値とされている。

　図２１に示した各CVPの最終ラウドネス変更値fGa～fGeの具体的な例を図２２に示す。

　この例では、CVP A～CVP Eの制作ラウドネス値は、全て「-3」とされているため、最大制作ラウドネス値Lcx_max＝-3となる。また、ターゲットラウドネス値Ltとして-11が指定されているので、共通補正量OvaG＝-8となる。

　したがって、例えば測定ラウドネス値Le＝-19.75であるCVP Eの最終ラウドネス変更値fGeは8.75となる。

　また、図２１の例では、各CVPの最終ラウドネス変更値が得られると、その最終ラウドネス変更値が用いられて次式（２０）によりCVP A～CVP Eの各CVPのゲイン変化率GaRatio～GeRatioが求められる。

　さらに、CVPごとのゲイン変化率が、オブジェクトのCVPごとのゲイン情報に乗算され、最終的なオブジェクトのCVPごとのゲイン情報とされる。

　図２１に示した例では、上述の式（１３）と同様に、各CVPのゲイン変化率に基づき、次式（２１）を計算することで、CVP A～CVP Eの各CVPの最終的なオブジェクトのゲイン情報である補正ゲイン情報ObgGain_a[i]～ObgGain_e[i]が求められる。

　制作ラウドネスモードでは、得られた補正ゲイン情報を用いれば、最大制作ラウドネス値Lcx_maxとなるCVPにおけるラウドネスがターゲットラウドネス値Ltとなる。また、各CVP間のラウドネスの相対的な大小関係は、各CVPの制作ラウドネス値の相対的な大小関係と同じとなる。制作ラウドネスモードでは、ターゲットラウドネス値が設定されているものとなっているが、ターゲットラウドネス値が設定されていない場合においても制作者の意図が反映されるようにしてもよい。その場合には、Lt=Lcx_maxとして処理することでターゲットラウドネス値が設定されていない場合にも対応ができることとなる。

　以上のような本技術では、オブジェクトのゲイン制御のみでラウドネス補正を行うことができる。すなわち、オブジェクトのゲイン制御によって、３次元空間等の仮想空間内の任意のリスナ位置でのラウドネス制御を適切に行うことが可能である。

　例えば、測定ラウドネスモードでは、コンテンツ制作時にCVP間の音量バランスが考慮されなかった場合でも、再生側の各視点（受聴位置）におけるラウドネスをターゲットラウドネス値に合わせる（揃える）ことができる。

　また、例えばグループモードでは、コンテンツ制作時に設定されたグループごとに、グループ内におけるCVP間の音量バランスを維持したまま、測定ラウドネス値が最大となるCVPでのラウドネスをターゲットラウドネス値に合わせることができる。

　さらに、例えば制作ラウドネスモードでは、コンテンツの制作者が希望するCVP間の音量バランスを維持したまま、制作ラウドネス値が最大となるCVPでのラウドネスをターゲットラウドネス値に合わせることができる。

〈制作側と再生側の処理の流れについて〉
　コンテンツの制作側と再生側における大まかな処理の流れについて説明する。

　コンテンツの制作時には、例えば図２３の上側に示すように、制作側の装置によって機能的な処理ブロックとして6DoFデコーダ１０１、レンダラ１０２、ラウドネス測定ツール１０３、および構成情報生成部１０４が実現され、構成情報が生成される。

　具体的には、6DoFデコーダ１０１では、仮想空間上の１または複数の各CVPについて、各オブジェクトのCVPごとのメタデータの復号が行われる。

　レンダラ１０２は、各オブジェクトのCVPごとのメタデータと、各オブジェクトの音を再生するためのオーディオデータとに基づいてVBAP等のレンダリング処理を行うことで、例えば２ｃｈや２１ｃｈなどの所望のチャンネル構成のオーディオデータを生成する。レンダラ１０２では、CVPごとにレンダリング処理が行われる。レンダリング処理には、リスナの位置としてCVPの位置が用いられるとともに、任意の方向がリスナの方向として用いられる。

　ラウドネス測定ツール１０３では、CVPごとに得られた所望のチャンネル構成のオーディオデータに基づいてラウドネスの測定が行われ、その測定結果がCVPごとの測定ラウドネス値として出力される。

　構成情報生成部１０４は、CVPごとの測定ラウドネス値などを含む、CVPのラウドネスに関する情報をマルチラウドネス情報として生成するとともに、マルチラウドネス情報やCVPに関するその他の情報が含まれる構成情報を生成し、出力する。

　再生側には、このようにして得られた構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとが供給される。

　再生側の装置では、図中、下側に示すように、機能的な処理ブロックとして6DoFデコーダ１２１、レンダリングモジュール１２２、およびオーディオアウトプットモジュール１２３が実現され、コンテンツのオーディオデータが出力される。

　具体的には、6DoFデコーダ１２１では、構成情報と、オブジェクトのCVPごとのメタデータとに関して復号や補間処理が行われ、リスナの位置を基準とする各オブジェクトのメタデータ（以下、リスナ基準メタデータとも称する）が生成される。

　リスナ基準メタデータの生成には、仮想空間におけるリスナの位置を示すリスナ位置情報や、仮想空間におけるリスナの顔の向き、つまり視線の向きを示すリスナ方向情報、リスナ等により指定されたターゲットラウドネス値なども用いられる。

　レンダリングモジュール１２２では、各オブジェクトのリスナ基準メタデータと、各オブジェクトのオーディオデータとに基づいてVBAP等のレンダリング処理を行うことで、２ｃｈや２１ｃｈなどの所望のチャンネル構成のオーディオデータを生成する。

　例えばレンダリングモジュール１２２では、レンダラ１０２における場合と同様のレンダリング処理が行われる。レンダリングモジュール１２２で生成されるオーディオデータは、各オブジェクトの音を含むコンテンツの音を再生するためのオーディオデータ（以下、出力オーディオデータとも称する）である。

　オーディオアウトプットモジュール１２３は、レンダリングモジュール１２２により生成された出力オーディオデータをスピーカやヘッドフォン等の音響出力部へと出力する。

　コンテンツの制作側で生成される構成情報、より詳細には構成情報に含まれているマルチラウドネス情報は、例えば図２４に示す情報とされる。すなわち、マルチラウドネス情報が図２４に示すフォーマットでビットストリームに記述される。

　この例では、マルチラウドネス情報には、グループモードであるか否か、すなわちグループモードを使用するか否かを示すグループモードフラグ情報「LoudCvpGroupMode」が含まれている。

　例えばグループモードフラグ情報の値「０」は、グループモードを使用しない（グループモードではない）ことを示しており、グループモードフラグ情報の値「１」は、グループモードが使用され、かつCVPごとにCVPグループの設定が行われることを示している。

　グループモードフラグ情報の値「２」は、グループモードが使用され、かつ全てのCVPが同じCVPグループとされることを示している。

　グループモードフラグ情報の値が「１」である場合、マルチラウドネス情報には、CVPの数だけ、すなわち各CVPについて、ｉ番目のCVPが属すCVPグループを示すグループインデックス「LoudCvpGroup[i]」が格納されている。例えばグループインデックスLoudCvpGroup[i]の値の範囲は０から１５などとされる。このグループインデックスは、図１６を参照して説明したグループ情報に対応する。

　また、マルチラウドネス情報には、CVPの数だけ、ｉ番目のCVPに関するラウドネス情報「loudnessInfoMp[i]」が格納されている。

　このラウドネス情報「loudnessInfoMp[i]」には、ｉ番目のCVPの測定ラウドネス値やmeasurementCountなどが含まれている。

　measurementCountは、例えば各CVPについて、チャンネル構成ごとなど、複数の再生環境ごとに制作ラウドネス値等を用意した場合における、チャンネル構成等の再生環境の数、すなわち用意された制作ラウドネス値等の数を示すカウント情報である。なお、CVPごとの測定ラウドネス値もmeasurementCountの数だけ、すなわち再生環境ごとに用意されてもよい。

　グループモードフラグ情報の値が「０」である場合、マルチラウドネス情報には、制作ラウドネス値存在フラグ情報「CvpLoudValuePresentFlag」が格納されている。

　制作ラウドネス値存在フラグ情報「CvpLoudValuePresentFlag」は、制作ラウドネス値が存在するか否か、すなわち制作ラウドネス値がマルチラウドネス情報（構成情報）に含まれているか否かを示すフラグ情報である。

　例えば制作ラウドネス値存在フラグ情報の値「０」は制作ラウドネス値がない（設定されていない）ことを示しており、制作ラウドネス値存在フラグ情報の値「１」は制作ラウドネス値がある（設定されている）ことを示している。

　したがって、制作ラウドネス値存在フラグ情報の値「０」は、測定ラウドネスモードであることを示しており、制作ラウドネス値存在フラグ情報の値「１」は制作ラウドネスモードであることを示しているということができる。

　制作ラウドネス値存在フラグ情報の値が「１」である場合、マルチラウドネス情報には、各CVPについて、measurementCountの数だけ、制作ラウドネス値「CvpLoudValue[i][j]」が格納されている。ここでは、ｉはCVPのインデックスであり、ｊはmeasurementCountに対応する再生環境のインデックスである。

　構成情報（マルチラウドネス情報）に格納されるグループモードフラグ情報や制作ラウドネス値存在フラグ情報は、ラウドネスモードが測定ラウドネスモードであるか、グループモードであるか、制作ラウドネスモードであるかを特定するための情報であるといえる。

　基本的には構成情報は、コンテンツの再生開始前や再生開始時など、所定のタイミングで再生側、すなわちコンテンツを再生するクライアントに伝送しておけばよい。つまり、クライアントでは、一度、構成情報を取得すると、その構成情報を用いて各フレーム（時刻）の出力オーディオデータを生成すればよい。

　しかし、場合によっては、コンテンツの再生期間中に構成情報が変更されることも考えられる。例えば、仮想空間における領域ごとやコンテンツのシーンごと、クライアントのリソースごと、クライアントの残電池量ごと、クライアントのデバイス種別ごと、ネットワークの状態ごとなどに構成情報が用意されることもある。そのような場合、コンテンツの再生中に、任意のタイミングで、出力オーディオデータの生成に用いられる構成情報が切り替えられることになる。

　図２５および図２６を参照して、仮想空間における領域ごと、すなわちリスナが位置する視聴領域ごとに構成情報が用意される例について説明する。なお、図２５において図２３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば図２５の左側に示すように、コンテンツを配信するサーバ側で、視聴領域Ａ用の構成情報～視聴領域Ｃ用の構成情報など、仮想空間上の複数の視聴領域ごとに構成情報が用意されているとする。

　このような場合、サーバは、適宜、仮想空間におけるリスナの現在の位置を示すリスナ位置情報をクライアントから取得し、構成情報を選択する。例えばリスナ位置情報により示されるリスナの位置が視聴領域Ａ内の位置である場合、すなわちリスナが視聴領域Ａ内に位置している場合には、視聴領域Ａ用の構成情報が選択される。

　そして、リスナ位置に応じて選択された構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとが適宜、符号化されてクライアントへと伝送される。ここでは、視聴領域Ａ用の構成情報がクライアントへと伝送されたとする。

　クライアントでは、サーバから取得した構成情報と、各オブジェクトのCVPごとのメタデータとに基づいて、図２３における場合と同様にして、6DoFデコーダ１２１によりリスナ基準メタデータが生成される。この例では、構成情報として、視聴領域Ａ用の構成情報が用いられる。

　そして、その後、レンダリングモジュール１２２において、各オブジェクトのリスナ基準メタデータとオーディオデータに基づきレンダリング処理が行われ、コンテンツの出力オーディオデータが生成される。

　この例では、例えば図２６に示すように、リスナがいる視聴領域が切り替わるごと、つまりリスナが他の視聴領域へと移動するごとにクライアントへと伝送される構成情報が切り替えられることになる。

　図２６では、横方向は時間、すなわち出力オーディオのフレーム（時間フレーム）を示している。

　この例では、例えば所定のフレームＮでは、リスナがこれまでいた視聴領域とは異なる視聴領域へと移動したため、リスナの移動先の視聴領域の構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとがサーバからクライアントへと伝送される。

　フレーム（Ｎ＋１）からフレーム（Ｎ＋３）では、リスナは他の視聴領域へと移動せずに、同じ視聴領域内にとどまっていたため、構成情報は伝送されず、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとがサーバからクライアントへと伝送される。

　その後、リスナが他の視聴領域へと移動したので、すなわち視聴領域が切り替わったので、フレーム（Ｎ＋４）では構成情報が伝送される。

　すなわち、フレーム（Ｎ＋４）では、リスナの移動先の視聴領域の構成情報と、各オブジェクトのCVPごとのメタデータと、各オブジェクトのオーディオデータとがサーバからクライアントへと伝送される。

　このように、視聴領域ごとなどに、複数種類の構成情報を用意しておけば、適宜、伝送する構成情報を切り替えることができる。これにより、よりコンテンツ制作者の意図が反映されたコンテンツ再生を実現することができる。

〈制作側と再生側の表示画面例〉
　図２７～図３０に表示画面（UI（User Interface））の例を示す。なお、図２７～図３０において、互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２７～図２９は、コンテンツの制作側で表示される、コンテンツを制作するための制作ツールにより表示される表示画面（UI）の例となっている。

　例えば図２７に示す表示画面では、オブジェクトが配置される仮想空間の画像が表示されており、仮想空間にはTPやCVPが配置されている。

　ここでは、文字「TP」が記された円がTPを表しており、文字「A」等の文字が記された円がCVPを表している。例えば文字「A」が記された円が１つのCVPであるCVP Aを表している。また、五角形のマークLPT11は、仮想空間における現在のリスナの位置を示している。

　コンテンツの制作者は、適宜、TPの位置や各CVPの位置を変更したり、新たなCVPを追加したり、不要なCVPを削除したりするなどして、TPやCVPの配置位置を決定する。また、CVPの配置位置が決定されると、適宜、制作者の操作等に応じて、各CVPでのラウドネス値の測定が行われ、その測定結果、すなわち測定ラウドネス値が各CVPの近傍の位置に表示される。

　この例では、例えば文字「B」が記された円により表されるCVP Bの近傍に、そのCVP Bに関する情報が表示される表示領域CLR11が表示されている。CVP Bの表示領域CLR11には、そのCVP Bの測定ラウドネス値「-10.75」が表示されている。

　制作者は、このようにして表示されるCVPごとの測定ラウドネス値を確認することができ、表示された測定ラウドネス値に応じて、適宜、CVPの位置等の調整も行うことができる。

　また、制作ツールでは、例えば図２８に示すように、コンテンツの制作を行っているときに、各CVPのCVPグループを指定することが可能である。

　図２８の左側の例では、表示画面上に仮想空間が表示されており、仮想空間には図２７における場合と同様に、TPやCVP、各CVPの表示領域、リスナの位置を示すマークLPT11が表示されている。この例では、各CVPの表示領域には、CVPの測定ラウドネス値だけでなく、CVPが属すグループ（CVPグループ）を示す情報も表示されている。

　例えばCVP Bの表示領域CLR11には、そのCVP Bの測定ラウドネス値「-10.75」とともに、CVP Bが属すグループを示す情報（グループ名）である「GP2」が表示されている。

　制作者は、表示領域を操作することで、CVPごとにグループを指定することが可能である。例えば、図中、右側に示すように、制作者は、所望のCVPの表示領域CLR12におけるグループ名が表示されている部分を操作することで、CVPのグループを選択（指定）するためのユーザインターフェースであるグループリストGPL11を表示させることができる。

　グループリストGPL11には、CVPが属すことができるCVPグループがチェックボックスとともにリスト表示されている。制作者は、チェックボックスを操作し、そのチェックボックスにチェックマークを表示させることで、CVPが属すグループを指定（選択）することができる。この例では、グループ名「GP2」のチェックボックスにチェックマークが表示されており、グループ名「GP2」が指定されたことが分かる。

　このように、制作ツールでは、各CVPの表示領域に対する操作を行うだけで、簡単にCVPグループを指定することができる。なお、CVPグループの指定方法は、図２８の例に限らず、ドラッグ操作による方法など、他のどのような方法であってもよい。

　制作ツールでは、例えば図２９に示すように、コンテンツの制作を行っているときに、各CVPの制作ラウドネス値を指定することが可能である。

　図２９に示す表示画面では、仮想空間が表示されており、仮想空間には図２７における場合と同様に、TPやCVP、各CVPの表示領域、リスナの位置を示すマークLPT11が表示されている。この例では、各CVPの表示領域には、CVPの測定ラウドネス値だけでなく、CVPの制作ラウドネス値も表示されている。

　例えばCVP Bの表示領域CLR11には、そのCVP Bの測定ラウドネス値「-10.75」とともに、制作者により指定（入力）されたCVP Bの制作ラウドネス値「-6.75」が表示されている。制作者は、適宜、CVPの表示領域に対して操作を行うことで、CVPごとに制作ラウドネス値を入力することができる。なお、測定ラウドネス値の入力方法は、図２９の例に限らず、他のどのような方法であってもよい。

　図３０に再生側、すなわちクライアント側で、コンテンツの再生に関する処理を行うアプリケーションプログラムにより表示される表示画面の例を示す。

　この例では、表示画面上に３次元の仮想空間の画像が表示されており、仮想空間にはTPやCVP、オブジェクト、リスナの位置を示すマークLPT21、コンテンツの再生に関する表示領域RP11が表示されている。

　ここでは、仮想空間上の球TPM11がTPを表しており、そのTPの周囲に音源となるオブジェクトの画像が表示されている。また、文字「A」等の文字が記された球がCVPを表している。例えば文字「A」が記された球が１つのCVPであるCVP Aを表している。

　リスナは、表示画面上の仮想空間の様子を見ることで、仮想空間上における自身の視点の位置やCVPの配置、オブジェクトの配置などを把握することができる。例えば、リスナの位置、オブジェクトの数や位置、CVPの数や位置などは、時間とともに変化することもある。

　表示領域RP11には、コンテンツの再生制御のためのボタン群BT11、チェックボックスBX11、および入力欄IPB11が設けられている。

　ボタン群BT11には、コンテンツの再生開始を指示する再生ボタン、コンテンツの再生の一時停止を指示する一時停止ボタン、およびコンテンツの再生停止を指示する再生停止ボタンが含まれている。リスナは、ボタン群BT11にあるボタンを操作することで、コンテンツの再生を開始させたり、再生を停止させたりすることができる。

　チェックボックスBX11は、ラウドネスモードの設定を行うときに操作される。例えばリスナは、コンテンツ再生時にチェックボックスBX11を操作して、そのチェックボックスBX11にチェックマークを表示させることで、ラウドネスモードとすることができる。

　ラウドネスモードでの再生では、構成情報に従って、測定ラウドネスモード、グループモード、および制作ラウドネスモードの何れかによりコンテンツが再生される。

　入力欄IPB11は、ラウドネスモードで用いられるターゲットラウドネス値を入力するための領域である。

　例えばチェックボックスBX11にチェックマークが表示され、ラウドネスモードが選択された状態となると、入力欄IPB11がアクティブとなり、入力欄IPB11にターゲットラウドネス値を入力することができるようになる。

　リスナは、入力欄IPB11に対する操作を行うことで、入力欄IPB11に任意の値をターゲットラウドネス値として入力することができる。この例では、入力欄IPB11には、ターゲットラウドネス値として「-6.75」が入力されている。

　なお、入力欄IPB11が常にアクティブな状態とされ、入力欄IPB11にターゲットラウドネス値が入力されると、チェックボックスBX11にチェックマークが表示され、ラウドネスモードが選択された状態となるようにしてもよい。また、表示領域RP11にチェックボックスBX11が設けられず、入力欄IPB11にターゲットラウドネス値が入力されると、ラウドネスモードが選択された状態となるようにしてもよい。

〈情報処理装置の構成例〉
　続いて、コンテンツの制作側、配信側、および再生側の各装置の構成と動作について説明する。

　図３１は、コンテンツの制作側の装置である情報処理装置の一実施の形態の構成例を示す図である。

　図３１に示す情報処理装置１６１は、例えばパーソナルコンピュータなどからなり、制作者の操作に応じてコンテンツの構成情報等を生成する。

　情報処理装置１６１は、入力部１７１、表示部１７２、通信部１７３、制御部１７４、記録部１７５、および音響出力部１７６を有している。

　入力部１７１は、例えばマウスやキーボードなどからなり、コンテンツの制作者の操作に応じた信号を制御部１７４に供給する。表示部１７２は、ディスプレイからなり、制御部１７４の制御に従って制作ツールの表示画面等を表示する。

　通信部１７３は、制御部１７４の制御に従って外部の装置と通信を行う。例えば通信部１７３は、制御部１７４から供給された構成情報やオブジェクトのメタデータなどを外部の装置であるサーバに送信する。

　制御部１７４は、情報処理装置１６１の全体の動作を制御する。制御部１７４は、制作ツールのプログラムを実行することで、レンダリング処理部１８１およびラウドネス測定部１８２を実現する。

　レンダリング処理部１８１は、オブジェクトのメタデータやオーディオデータに基づいてレンダリング処理を行う。ラウドネス測定部１８２は、レンダリング処理により生成されたコンテンツのオーディオデータに基づいてラウドネス測定を行う。

　レンダリング処理部１８１およびラウドネス測定部１８２は、例えば図２３に示したレンダラ１０２およびラウドネス測定ツール１０３に対応する。なお、制御部１７４は、図２３に示した6DoFデコーダ１０１や構成情報生成部１０４としても機能する。

　記録部１７５は、不揮発性のメモリ等からなり、制作ツールのプログラムなど、各種のデータを記録し、記録しているデータを適宜、制御部１７４に供給する。音響出力部１７６は、スピーカなどからなり、制御部１７４から供給されたオーディオデータに基づいて音を出力する。なお、音響出力部１７６は、情報処理装置１６１の外部に設けられてもよい。そのような場合、例えばヘッドフォンやイヤホンなどが音響出力部１７６とされてもよい。

〈構成情報生成処理の説明〉
　例えば、制作ツールが起動されると、制御部１７４は表示部１７２を制御し、表示部１７２に制作ツールの表示画面を表示させる。

　制作ツールの表示画面が表示された状態で、制作者が入力部１７１を操作することで、CVPの位置や各オブジェクトのCVPごとのメタデータなどを指定すると、制御部１７４は入力部１７１から供給される信号に応じてCVPの位置等を決定したり、オブジェクトのCVPごとのメタデータを生成したりする。

　また、制作ツールの表示画面が表示された状態で、制作者がラウドネスに関する操作を行うと、情報処理装置１６１は、図３２に示す構成情報生成処理を行い、構成情報を生成する。以下、図３２のフローチャートを参照して、情報処理装置１６１による構成情報生成処理について説明する。

　ステップＳ３０１において制御部１７４は、各CVPのラウドネス値を測定する。

　例えば制御部１７４は、各オブジェクトのCVPごとのメタデータが符号化されて保持されている場合、符号化されたメタデータに対して復号処理を行う。

　また、制御部１７４のレンダリング処理部１８１は、CVPごとにレンダリング処理を行う。すなわち、レンダリング処理部１８１は、CVPの位置をリスナの位置として、仮想空間におけるCVPの位置を示すCVP位置情報、各オブジェクトのCVPについてのメタデータ、および各オブジェクトのオブジェクトデータに基づいてVBAP等のレンダリング処理を行うことで、CVPの位置を受聴位置としたときのコンテンツのオーディオデータを生成する。

　制御部１７４のラウドネス測定部１８２は、CVPごとに得られたコンテンツのオーディオデータに基づいて、CVPにおけるコンテンツのオーディオデータのラウドネス値を算出（測定）し、その算出結果をCVPについての測定ラウドネス値とする。

　また、制御部１７４は、CVPごとのラウドネス値の測定結果を表示部１７２に表示させる。これにより、表示部１７２には、例えば図２７に示した表示画面が表示される。

　ステップＳ３０２において制御部１７４は、構成情報に、ステップＳ３０１で得られた各CVPの測定ラウドネス値を格納する。

　例えば、図２４に示したマルチラウドネス情報を含む構成情報が生成される場合、制御部１７４は、保持している生成途中の構成情報のラウドネス情報loudnessInfoMp[i]に、ステップＳ３０１で得られたCVPごとの測定ラウドネス値を格納する。また、制御部１７４は、必要に応じてmeasurementCountなどの情報もラウドネス情報loudnessInfoMp[i]に格納する。

　ステップＳ３０３において制御部１７４は、入力部１７１から供給される制作者の操作に応じた信号に基づいて、グループモードであるか否かを判定する。例えば制作者がラウドネスモードの設定でグループモードを選択した場合、ステップＳ３０３ではグループモードであると判定される。

　ステップＳ３０３においてグループモードであると判定された場合、ステップＳ３０４において制御部１７４は、全CVPのグループインデックスの値を０にセットする。換言すれば、CVPのグループがデフォルトのグループとされる。

　例えば、図２４に示したマルチラウドネス情報を含む構成情報が生成される場合、制御部１７４は、保持している生成途中の構成情報における各CVPのグループインデックスLoudCvpGroup[i]の値を０とする。

　この場合、制御部１７４は、表示部１７２を制御して、例えば図２８に示した表示画面を表示部１７２に表示させる。制作者は、適宜、入力部１７１を操作して、任意のCVPの表示領域に対する操作を行うことでグループリストを表示させ、そのグループリストから所望のグループ（グループ名）を指定することで、CVPのグループを選択する。換言すれば、制作者によって、適宜、CVPのグループを、デフォルトのグループから制作者が指定したグループへと変更する操作が行われる。

　ステップＳ３０５において制御部１７４は、制作者により、グループインデックスの値が変更されたCVPがあるか否かを判定する。

　例えばCVPのグループを変更する操作、すなわちCVPのグループを示すグループインデックスの値を変更する操作が制作者により行われ、その操作に応じた信号が入力部１７１から供給された場合、制御部１７４は、グループインデックスの値が変更されたCVPがあると判定する。

　ステップＳ３０５においてグループインデックスの値が変更されたCVPがあると判定された場合、ステップＳ３０６において制御部１７４は、グループインデックスの値を変更する。

　具体的には、例えば制御部１７４は、入力部１７１から供給される信号に応じて、保持している生成途中の構成情報における、変更が指示されたCVPのグループインデックスLoudCvpGroup[i]の値を、制作者により指定された値へと変更（更新）する。

　ステップＳ３０６の処理が行われると、その後、処理はステップＳ３０５に戻り、上述した処理が繰り返し行われる。

　また、ステップＳ３０５においてグループインデックスの値が変更されたCVPがないと判定された場合、すなわち、各CVPのグループの選択が終了した場合、処理はステップＳ３１１へと進む。

　この場合、制御部１７４は、保持している生成途中の構成情報に、グループモードであることを示す情報を格納する。例えば制御部１７４は、図２４に示したマルチラウドネス情報を含む構成情報を生成する場合、各CVPのグループインデックスの値に応じて、構成情報におけるグループモードフラグ情報LoudCvpGroupModeの値を「１」または「２」とする。

　また、ステップＳ３０３においてグループモードではないと判定された場合、ステップＳ３０７において制御部１７４は、入力部１７１から供給される制作者の操作に応じた信号に基づいて、制作ラウドネスモードであるか否かを判定する。例えば制作者がラウドネスモードの設定で制作ラウドネスモードを選択した場合、ステップＳ３０７では制作ラウドネスモードであると判定される。

　ステップＳ３０７において制作ラウドネスモードではないと判定された場合、すなわち制作者により測定ラウドネスモードが選択された場合（測定ラウドネスモードであると判定された場合）、その後、処理はステップＳ３１１へと進む。

　この場合、制御部１７４は、保持している生成途中の構成情報に、グループモードでないことを示す情報を格納する。例えば制御部１７４は、図２４に示したマルチラウドネス情報を含む構成情報を生成する場合、構成情報におけるグループモードフラグ情報LoudCvpGroupModeの値を「０」とする。また、制御部１７４は、構成情報における制作ラウドネス値存在フラグ情報CvpLoudValuePresentFlagの値を「０」とする。

　一方、ステップＳ３０７において制作ラウドネスモードであると判定された場合、ステップＳ３０８において制御部１７４は、全CVPの制作ラウドネス値を０にセットする。

　例えば、図２４に示したマルチラウドネス情報を含む構成情報が生成される場合、制御部１７４は、保持している生成途中の構成情報における制作ラウドネス値存在フラグ情報CvpLoudValuePresentFlagの値を「１」とする。さらに、制御部１７４は、構成情報における各CVPの制作ラウドネス値CvpLoudValue[i][j]の値を０とする。

　この場合、制御部１７４は、表示部１７２を制御して、例えば図２９に示した表示画面を表示部１７２に表示させる。制作者は、適宜、入力部１７１を操作して、任意のCVPの表示領域に対する操作を行うことで、そのCVPの制作ラウドネス値を入力する。換言すれば、制作者によって、適宜、制作ラウドネス値を、デフォルトの値「０」から制作者が指定した値へと変更する操作が行われる。

　ステップＳ３０９において制御部１７４は、制作者により、制作ラウドネス値が変更されたCVPがあるか否かを判定する。

　例えばCVPの制作ラウドネス値を変更する操作が制作者により行われ、その操作に応じた信号が入力部１７１から供給された場合、制御部１７４は、制作ラウドネス値が変更されたCVPがあると判定する。

　ステップＳ３０９において制作ラウドネス値が変更されたCVPがあると判定された場合、ステップＳ３１０において制御部１７４は、制作ラウドネス値を変更する。

　具体的には、例えば制御部１７４は、入力部１７１から供給される信号に応じて、保持している生成途中の構成情報における、変更が指示されたCVPの制作ラウドネス値CvpLoudValue[i][j]を、制作者により指定された値へと変更（更新）する。なお、上述のように、構成情報（マルチラウドネス情報）に格納される制作ラウドネス値等は、再生環境ごとなどに複数用意されるようにしてもよい。

　ステップＳ３１０の処理が行われると、その後、処理はステップＳ３０９に戻り、上述した処理が繰り返し行われる。

　また、ステップＳ３０９において制作ラウドネス値が変更されたCVPがないと判定された場合、すなわち、各CVPの制作ラウドネス値の設定が終了した場合、処理はステップＳ３１１へと進む。

　この場合、制御部１７４は、保持している生成途中の構成情報に、制作ラウドネス値が格納されていることを示す情報を格納する。例えば制御部１７４は、図２４に示したマルチラウドネス情報を含む構成情報を生成する場合、構成情報における制作ラウドネス値存在フラグ情報CvpLoudValuePresentFlagの値を「１」とする。

　ステップＳ３０５でグループインデックスの値が変更されたCVPがないと判定されたか、ステップＳ３０７で測定ラウドネスモードであると判定されたか、またはステップＳ３０９で制作ラウドネス値が変更されたCVPがないと判定されると、ステップＳ３１１の処理が行われる。

　ステップＳ３１１において制御部１７４は、保持している構成情報を出力する。

　例えば制御部１７４は、これまでの処理により得られているマルチラウドネス情報を含む構成情報に、適宜、必要な情報を格納して最終的な構成情報とし、その最終的な構成情報を記録部１７５に出力して記録させ、構成情報生成処理は終了する。

　この場合、制御部１７４は、適宜、各オブジェクトのCVPごとのメタデータや、各オブジェクトのオーディオデータなども記録部１７５に供給して記録させる。

　また、最終的な構成情報には、例えばマルチラウドネス情報、コンテンツを構成するオブジェクトの数を示すオブジェクト数情報、予め用意されたCVPの数を示すCVP数情報、CVPに関するCVP情報などが含まれている。

　例えばCVP情報には、CVPインデックス、CVP位置情報、およびCVP向き情報が含まれている。

　CVPインデックスは、CVPを一意に識別するID情報である。CVP位置情報は、仮想空間におけるCVPの絶対的な位置を示す位置情報であり、CVP向き情報は、仮想空間における、CVPにいる仮想的なリスナの顔の向きを示す情報である。例えばCVP向き情報は、CVPからTPへと向かう方向を示す情報などとすることができる。

　なお、上述のように構成情報は、視聴領域ごとやコンテンツのシーンごと、クライアントのリソースごと、クライアントの残電池量ごと、クライアントのデバイス種別ごと、ネットワークの状態ごとなどに生成されるようにしてもよい。すなわち、制御部１７４により複数の異なる構成情報が生成されるようにしてもよい。

　また、例えば制御部１７４は、任意のタイミングで記録部１７５からコンテンツの構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータを読み出して通信部１７３に供給する。通信部１７３は、制御部１７４から供給されたコンテンツの構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータを、コンテンツのデータとしてサーバに送信する。

　以上のように、情報処理装置１６１は、制作者の操作に応じてラウドネスモードを選択（設定）し、その選択結果等に応じて測定ラウドネス値等が含まれている構成情報を生成する。

　このようにすることで、コンテンツの再生側においては、構成情報を用いてオブジェクトのゲイン制御のみでラウドネス制御を行うことができるようになる。これにより、制作者側の意図や、リスナにより指定されたターゲットラウドネス値を反映させた自由視点オーディオ再生を実現することができる。

〈サーバの構成例〉
　図３３は、本技術を適用したサーバの一実施の形態の構成例を示す図である。

　図３３に示すサーバ２１１は、コンピュータ等の情報処理装置からなり、情報処理装置１６１からコンテンツのデータの供給を受けて、そのコンテンツのデータをクライアントへと配信するエンコーダとして機能する。

　サーバ２１１は、取得部２２１、ビットストリームエンコーダ２２２、および通信部２２３を有している。

　取得部２２１は、情報処理装置１６１から送信されてきたコンテンツのデータ、すなわち構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータを受信（取得）してビットストリームエンコーダ２２２に供給する。

　例えば、オブジェクトのCVPごとのメタデータには、CVPに対して定められた、仮想空間におけるオブジェクトの位置を示すオブジェクト位置情報、およびオブジェクトのオーディオデータのゲイン情報が含まれている。

　オブジェクト位置情報は、極座標で表現された、CVPから見たオブジェクトの相対的な位置を示す座標情報とされてもよいし、CVPごとに定められ、絶対座標（直交座標）で表現された、仮想空間におけるオブジェクトの絶対的な位置を示す座標情報とされてもよい。ゲイン情報は、オブジェクトのオーディオデータのゲイン補正（ゲイン調整）に用いられるゲイン値の情報である。

　その他、オブジェクトのCVPごとのメタデータには、例えばオブジェクトの優先度情報やスプレッド情報などが含まれるようにしてもよい。

　ビットストリームエンコーダ２２２は、取得部２２１から供給された構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータに対して適宜符号化を行うことで、ビットストリームを生成する生成部として機能する。ビットストリームエンコーダ２２２は、生成したビットストリームを通信部２２３に供給する。

　なお、構成情報は、コンテンツのフレームごとに生成されてもよいし、複数のフレームからなる区間ごとに生成されてもよいし、コンテンツ全体に対して１つだけ生成されてもよい。また、構成情報は、必要なタイミングで、適宜、ビットストリームに格納されるようにしてもよい。

　通信部２２３は、ビットストリームエンコーダ２２２から供給されたビットストリームを、コンテンツの再生側の情報処理装置であるクライアントへと送信する。

　なお、ここでは構成情報と、オブジェクトのオーディオデータやメタデータとが１つのサーバ２１１によりクライアントへと送信される例について説明する。しかし、これに限らず、構成情報と、オブジェクトのオーディオデータやメタデータとが異なるサーバによりクライアントへと送信されるようにしてもよい。

〈ビットストリーム送信処理の説明〉
　図３４のフローチャートを参照して、サーバ２１１によるビットストリーム送信処理について説明する。

　ステップＳ３４１において取得部２２１は、ビットストリームの生成に必要な情報を取得してビットストリームエンコーダ２２２に供給する。

　例えば取得部２２１は、情報処理装置１６１から送信されてきた構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータ等を受信することで、必要な情報を取得する。

　ステップＳ３４２においてビットストリームエンコーダ２２２は、適宜、取得部２２１から供給された構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータの符号化や多重化を行ってビットストリームを生成し、通信部２２３に供給する。これにより、適宜、符号化された構成情報、オブジェクトのメタデータ、オブジェクトのオーディオデータなどが含まれるビットストリームが生成される。

　ステップＳ３４３において通信部２２３は、ビットストリームエンコーダ２２２から供給されたビットストリームをクライアントへと送信し、ビットストリーム送信処理は終了する。

　なお、コンテンツ全体に対して１つの構成情報が用意されている場合、ビットストリームエンコーダ２２２は、ステップＳ３４２では、ビットストリームの先頭（ヘッダ）部分などに構成情報を格納する。

　また、例えば視聴領域ごとなど、複数の異なる構成情報が用意されている場合には、ビットストリームエンコーダ２２２は、ステップＳ３４２では、複数の構成情報のなかから適切なものを選択し、選択した構成情報が含まれるビットストリームを生成する。この場合、例えば図２６を参照して説明したように、構成情報が切り替わるタイミングで、そのタイミングで選択された構成情報がビットストリームに格納される。

　一例として、例えば視聴領域ごとに構成情報が用意されている場合、ビットストリームエンコーダ２２２は、通信部２２３を介して、クライアントからリスナ位置情報を取得する。そして、ビットストリームエンコーダ２２２は、リスナ位置情報により示されるリスナ位置を含む視聴領域が変化した場合、変化後の視聴領域に対して用意された構成情報をビットストリームに格納する。すなわち、リスナの移動先の視聴領域に対して用意された構成情報がビットストリームに格納される。

　同様に、例えばクライアントのリソースごとや残電池量ごとに構成情報が用意されている場合、ビットストリームエンコーダ２２２は、通信部２２３を介して、クライアントから、クライアントのリソースに関する情報であるリソース情報や残電池量を示す残電池量情報を取得する。そして、ビットストリームエンコーダ２２２は、リソース情報や残電池量情報に対して定められた構成情報を選択し、選択した構成情報が前回の選択結果から変化したタイミングで、新たに選択した構成情報をビットストリームに格納する。ここでいうリソースは、クライアントの現在利用可能なリソース（演算リソース）であってもよいし、クライアントが利用可能な最大のリソースであってもよい。

　例えばクライアントのデバイス種別ごとに構成情報が用意されている場合、ビットストリームエンコーダ２２２は、通信部２２３を介して、クライアントから、クライアントのデバイス種別を示す情報であるデバイス種別情報を取得する。そして、ビットストリームエンコーダ２２２は、デバイス種別情報に対して定められた構成情報を選択し、選択した構成情報をビットストリームに格納する。

　また、例えばネットワークの状態ごとに構成情報が用意されている場合、ビットストリームエンコーダ２２２は、通信部２２３から、ビットストリーム（コンテンツのデータ）を伝送するネットワークの輻輳状態などの状態を取得する。そして、ビットストリームエンコーダ２２２は、ネットワークの状態に対して定められた構成情報を選択し、選択した構成情報が前回の選択結果から変化したタイミングで、新たに選択した構成情報をビットストリームに格納する。

　さらに、例えばコンテンツのシーンごとに構成情報が用意されている場合、ビットストリームエンコーダ２２２は、コンテンツのシーンが切り替わるタイミングで、切り替わり後のシーンに対して定められた構成情報をビットストリームに格納する。

　なお、リスナが位置する視聴領域、クライアントのリソース、クライアントの残電池量、クライアントのデバイス種別、ネットワークの状態、コンテンツの再生中のシーンのうちの少なくとも２以上のものの組み合わせに基づいて、複数の構成情報のなかからクライアントに伝送される構成情報が選択されてもよい。

　その他、ビットストリームエンコーダ２２２が視聴領域ごとなどの複数の異なる構成情報をビットストリームに格納し、クライアント側で適切な構成情報が選択されるようにしてもよい。

　以上のようにしてサーバ２１１は、適切な構成情報をビットストリームに格納し、クライアントへと送信する。これにより、ビットストリームの供給を受けるクライアントでは、適切な構成情報を用いて、オブジェクトのゲイン制御のみでラウドネス制御を行うことができるようになる。

〈クライアントの構成例〉
　図３５は、本技術を適用したクライアントの一実施の形態の構成例を示す図である。

　図３５に示すクライアント２６１は、例えばパーソナルコンピュータやタブレット端末、スマートフォン、ヘッドマウント、ゲーム機器などからなる情報処理装置であり、サーバ２１１により送信されたビットストリームを受信してコンテンツを再生するデコーダとして機能する。

　クライアント２６１は、入力部２７１、表示部２７２、通信部２７３、制御部２７４、記録部２７５、および音響出力部２７６を有している。

　入力部２７１は、例えばマウスやキーボード、ボタン、スイッチ、表示部２７２に重畳されたタッチパネルなどからなり、リスナであるユーザの操作に応じた信号を制御部２７４に供給する。表示部２７２は、ディスプレイからなり、制御部２７４の制御に従ってコンテンツに関する画像など、各種の画像（表示画面）を表示する。

　通信部２７３は、制御部２７４の制御に従って外部の装置と通信を行う。例えば通信部２７３は、制御部２７４から供給されたリスナ位置情報をサーバ２１１に送信したり、サーバ２１１から送信されてきたビットストリームを受信して制御部２７４に供給したりする。

　制御部２７４は、クライアント２６１全体の動作を制御する。例えば制御部２７４は、コンテンツの再生に関する処理を行うアプリケーションプログラムを実行することで、デコーダの機能を実現する。

　記録部２７５は、不揮発性のメモリ等からなり、コンテンツの再生のためのアプリケーションプログラムなど、各種のデータを記録し、記録しているデータを適宜、制御部２７４に供給する。音響出力部２７６は、スピーカなどからなり、制御部２７４から供給されたオーディオデータに基づいて音を出力する。なお、音響出力部２７６は、クライアント２６１の外部に設けられてもよい。そのような場合、例えばヘッドフォンやイヤホン、補聴器などが音響出力部２７６とされてもよい。

〈クライアントの機能的な構成例〉
　クライアント２６１の制御部２７４はアプリケーションプログラムを実行することで、デコーダの機能を実現する。

　図３６は、クライアント２６１がデコーダとして機能する場合における機能的な構成例を示す図である。なお、図３６において図３５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図３６に示すクライアント２６１は、通信部２７３、ビットストリームデコーダ３０１、メタデコーダ３０２、レンダリング処理部３０３、および音響出力部２７６を有している。

　例えばビットストリームデコーダ３０１、メタデコーダ３０２、およびレンダリング処理部３０３は、制御部２７４がアプリケーションプログラムを実行することにより実現される。また、ビットストリームデコーダ３０１およびメタデコーダ３０２は、図２３に示した6DoFデコーダ１２１に対応し、レンダリング処理部３０３は図２３に示したレンダリングモジュール１２２に対応する。

　通信部２７３は、サーバ２１１から送信されてきたビットストリームを受信してビットストリームデコーダ３０１へと供給する。すなわち、通信部２７３は、ビットストリームを受信することで、ビットストリームに含まれている構成情報やメタデータを取得する取得部として機能する。

　ビットストリームデコーダ３０１は、通信部２７３から供給されたビットストリーム、より詳細にはビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行う復号部として機能する。ビットストリームデコーダ３０１での復号等により、ビットストリームから構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータが抽出される。

　ビットストリームデコーダ３０１は、各オブジェクトのオーディオデータをレンダリング処理部３０３に供給するとともに、構成情報、および各オブジェクトのCVPごとのメタデータをメタデコーダ３０２に供給する。

　メタデコーダ３０２には、上位の制御部２７４から、適宜、オブジェクトが配置された３次元の仮想空間におけるリスナの絶対的な位置を示すリスナ位置情報と、３次元の仮想空間におけるリスナの向きを示すリスナ方向情報とが供給される。

　メタデコーダ３０２は、ビットストリームデコーダ３０１から供給された構成情報、および各オブジェクトのCVPごとのメタデータと、リスナ位置情報およびリスナ方向情報とに基づいて、リスナの位置を基準とする各オブジェクトのメタデータであるリスナ基準メタデータを生成し、レンダリング処理部３０３に供給する。

　リスナ基準メタデータには、各オブジェクトについて得られた、リスナ位置を基準とする各オブジェクトの位置を示すリスナ基準オブジェクト位置情報と、リスナ位置を基準とするオブジェクトのゲイン情報であるリスナ基準ゲイン情報とが含まれている。その他、リスナ基準メタデータには、各オブジェクトの優先度情報やスプレッド情報などが含まれるようにしてもよい。

　リスナ基準メタデータの生成時には、オブジェクトのCVPごとのゲイン情報が補正されて補正ゲイン情報とされ、各CVPのオブジェクトの補正ゲイン情報に基づいてリスナ基準ゲイン情報が生成される。そのため、メタデコーダ３０２は、ラウドネスモードに応じてオブジェクトのゲイン情報を補正する補正部として機能するということができる。

　レンダリング処理部３０３は、ビットストリームデコーダ３０１から供給された各オブジェクトのオーディオデータと、メタデコーダ３０２から供給されたリスナ基準メタデータとに基づいてレンダリング処理を行い、コンテンツの出力オーディオデータを生成する。

　レンダリング処理部３０３では、例えばVBAPなど、MPEG-Hで規定された極座標系でのレンダリング処理が行われて出力オーディオデータが生成される。なお、レンダリング処理は、VBAPに限らず他のどのような処理であってもよい。例えば、BRIRやHRTF、HOA、ITD（Interaural Time Difference）、IID（Interaural Intensity Difference）などがレンダリング処理に用いられてもよい。

　コンテンツの出力オーディオデータは、例えば音響出力部２７６としてのスピーカシステムを構成する各チャンネルに対応するスピーカへと供給されるチャンネルごとのオーディオデータからなる。

　レンダリング処理部３０３は、コンテンツの出力オーディオデータを音響出力部２７６に出力することで、音響出力部２７６に全オブジェクトの音を含むコンテンツの音を再生させる。このとき各オブジェクトの音（音像）は、リスナ基準オブジェクト位置情報により示される位置に定位する。

〈出力オーディオデータ生成処理の説明〉
　図３７のフローチャートを参照して、クライアント２６１による出力オーディオデータ生成処理について説明する。

　ステップＳ３９１において通信部２７３は、図３４のステップＳ３４３でサーバ２１１から送信されたビットストリームを受信してビットストリームデコーダ３０１へと供給する。

　ステップＳ３９２においてビットストリームデコーダ３０１は、通信部２７３から供給されたビットストリームに含まれている符号化されたオーディオデータ等に対する復号を行い、ビットストリームに含まれている各種の情報を抽出する。これにより、構成情報、各オブジェクトのCVPごとのメタデータ、および各オブジェクトのオーディオデータが抽出される。

　ステップＳ３９３においてメタデコーダ３０２は、ビットストリームデコーダ３０１から供給された構成情報、および各オブジェクトのCVPごとのメタデータと、供給されたリスナ位置情報およびリスナ方向情報とに基づいてリスナ基準メタデータを生成する。

　なお、リスナ基準メタデータ生成の詳細は後述する。メタデコーダ３０２は、生成したリスナ基準メタデータをレンダリング処理部３０３に供給する。

　また、通信部２７３により受信（取得）されるビットストリームに複数の異なる構成情報が含まれているようにしてもよい。そのような場合、リスナ基準メタデータの生成にあたり、メタデコーダ３０２が複数の構成情報のなかから１つの構成情報を選択し、その選択した構成情報を用いてリスナ基準メタデータを生成するようにしてもよい。

　構成情報の選択は、コンテンツの再生開始時のみに行われるようにしてもよいし、コンテンツのフレームごとに行われるようにしてもよいし、複数フレームからなる期間ごとなど、固定または可変の期間ごとに行われるようにしてもよい。構成情報の選択が複数回行われるときには、リスナの位置や演算リソースなどによって、適宜、リスナ基準メタデータの生成に用いられる構成情報が切り替えられることになる。

　一例として、例えば仮想空間における視聴領域ごとに構成情報が用意されている場合、メタデコーダ３０２は、適宜、リスナ位置情報を用いて、何らかの手段により現在、リスナが位置している視聴領域を特定し、特定された視聴領域に対して用意された構成情報を選択する。

　例えば視聴領域の特定は、メタデコーダ３０２が通信部２７３を介して、サーバ２１１へとリスナ位置情報を送信し、その送信に応じてサーバ２１１から送信された、現在のリスナ位置を含む視聴領域を示す情報を、通信部２７３を介して取得することにより実現してもよい。また、例えばメタデコーダ３０２が予め仮想空間における各視聴領域の範囲を示す情報を保持しており、その情報とリスナ位置情報とに基づき、現在のリスナ位置を含む視聴領域を特定してもよい。その他、現在のリスナ位置を含む視聴領域を示す情報がビットストリームに格納されているようにしてもよい。

　同様に、例えばクライアント２６１のリソースごとや残電池量ごとに構成情報が用意されている場合、メタデコーダ３０２は、クライアント２６１の現在利用可能なリソース（演算リソース）、またはクライアント２６１が利用可能な最大のリソースを示すリソース情報や、クライアント２６１の残電池量を示す残電池量情報を取得する。そしてメタデコーダ３０２は、リソース情報や残電池量情報により示されるリソースや残電池量に対して定められた構成情報を選択する。

　例えばクライアント２６１のデバイス種別ごとに構成情報が用意されている場合、メタデコーダ３０２は、クライアント２６１のデバイス種別を、予めクライアント２６１に記録されているデバイス種別情報を参照するなど、何らかの手段により特定し、特定したデバイス種別に対して定められた構成情報を選択する。

　また、例えばネットワークの状態ごとに構成情報が用意されている場合、メタデコーダ３０２は、通信部２７３から、ビットストリーム（コンテンツのデータ）が伝送されるネットワークの輻輳状態などの状態を取得し、ネットワークの状態に対して定められた構成情報を選択する。

　さらに、例えばコンテンツのシーンごとに構成情報が用意されている場合、メタデコーダ３０２は、何らかの手段によりコンテンツの再生中のシーン、より詳細にはこれから再生されるシーンを特定し、特定したシーンに対して定められた構成情報を選択する。例えば、コンテンツの各フレームで再生されるシーンを示す情報がビットストリームに格納されているようにしてもよいし、コンテンツの各時刻（フレーム）で再生されるシーンを示す情報が予めメタデコーダ３０２で保持されているようにしてもよい。

　その他、複数の構成情報のなかから、リスナが入力部２７１を操作することで指定した構成情報が選択されるようにしてもよい。すなわち、リスナの操作に応じて、リスナにより選択された構成情報が用いられるようにしてもよい。

　なお、リスナが位置する視聴領域、クライアント２６１のリソース、クライアント２６１の残電池量、クライアント２６１のデバイス種別、ネットワークの状態、コンテンツの再生中のシーンのうちの少なくとも２以上のものの組み合わせに基づいて、リスナ基準メタデータの生成に用いられる構成情報が選択されてもよい。

　ステップＳ３９４においてレンダリング処理部３０３は、ビットストリームデコーダ３０１から供給された各オブジェクトのオーディオデータと、メタデコーダ３０２から供給されたリスナ基準メタデータとに基づいてレンダリング処理を行う。

　例えばレンダリング処理では、オブジェクトごとに、そのオブジェクトの音を再生するための各チャンネルのオーディオデータが生成される。そして、オブジェクトごとに得られた、同じチャンネルのオーディオデータが加算されて、コンテンツのチャンネルごとの出力オーディオデータとされる。

　レンダリング処理部３０３は、レンダリング処理により得られたチャンネルごとの出力オーディオデータを音響出力部２７６へと供給する。音響出力部２７６は、レンダリング処理部３０３から供給された出力オーディオデータに基づいてコンテンツの音を再生する。コンテンツの音が再生されると、出力オーディオデータ生成処理は終了する。

　以上のようにしてクライアント２６１は、構成情報を用いてリスナ基準メタデータを生成し、そのリスナ基準メタデータに基づいてレンダリング処理により出力オーディオデータを生成する。これにより、適切なラウドネス制御を行い、制作者側の意図や、リスナにより指定されたターゲットラウドネス値を反映させた自由視点オーディオ再生を行うことができる。

〈メタデータ生成処理の説明〉
　クライアント２６１は、図３７を参照して説明した出力オーディオデータ生成処理におけるステップＳ３９３の処理の一部として、図３８に示すメタデータ生成処理を行う。

　以下、図３８のフローチャートを参照して、クライアント２６１によるメタデータ生成処理について説明する。

　ステップＳ４４１においてメタデコーダ３０２は、ラウドネスモードであるか否かを判定する。

　例えば、コンテンツの再生時には、制御部２７４は、表示部２７２に図３０に示した表示画面を表示させる。このような表示画面が表示された状態で、リスナ（ユーザ）が、適宜、入力部２７１を操作することでチェックボックスBX11にチェックマークを表示させた場合、すなわちチェックボックスBX11にチェックマークが表示されている状態となっている場合、メタデコーダ３０２は、ラウドネスモードであると判定する。なお、入力欄IPB11にターゲットラウドネス値が入力されている場合に、ラウドネスモードであると判定されるようにしてもよい。

　ステップＳ４４１においてラウドネスモードでないと判定された場合、その後、処理はステップＳ４５４へと進む。この場合、オブジェクトのCVPごとのメタデータに含まれている、オブジェクトのゲイン情報がそのまま補正ゲイン情報とされる。すなわち、ゲイン情報の補正は行われない。

　これに対して、ステップＳ４４１においてラウドネスモードであると判定された場合、ステップＳ４４２においてメタデコーダ３０２は、ビットストリームデコーダ３０１から供給された構成情報に測定ラウドネス値が格納されているか否かを判定する。

　ステップＳ４４２において測定ラウドネス値が格納されていないと判定された場合、ラウドネスモードでの処理を行うことはできないので、その後、処理はステップＳ４５４へと進む。この場合においても、ステップＳ４４１でラウドネスモードでないと判定された場合と同様に、オブジェクトのゲイン情報の補正は行われず、ゲイン情報がそのまま補正ゲイン情報とされる。

　一方、ステップＳ４４２において測定ラウドネス値が格納されていると判定された場合、ステップＳ４４３においてメタデコーダ３０２は、構成情報に基づいて、測定ラウドネスモードであるか否かを判定する。

　例えば、図２４に示したマルチラウドネス情報が構成情報に含まれている場合、構成情報に含まれているグループモードフラグ情報の値が「０」であり、かつ構成情報に含まれている制作ラウドネス値存在フラグ情報の値が「０」であるときに、測定ラウドネスモードであると判定される。より詳細には、グループモードフラグ情報の値が「０」であるときに制作ラウドネス値存在フラグ情報が格納されているため、制作ラウドネス値存在フラグ情報の値が「０」であれば、測定ラウドネスモードであると判定される。

　ステップＳ４４３において測定ラウドネスモードであると判定された場合、ステップＳ４４４においてメタデコーダ３０２は、CVPごとに、CVPの測定ラウドネス値と、リスナにより指定されたターゲットラウドネス値とに基づいて、ラウドネス変更値を算出する。例えばメタデコーダ３０２は、構成情報に含まれている測定ラウドネス値を用いて、上述した式（１１）と同様の計算を行うことで、CVPごとのラウドネス変更値を算出する。

　ステップＳ４４５においてメタデコーダ３０２は、CVPごとに、ラウドネス変更値に基づいて、ビットストリームデコーダ３０１から供給された各オブジェクトのCVPごとのメタデータに含まれているゲイン情報を補正する。

　例えばメタデコーダ３０２は、各オブジェクトについて、CVPごとに、メタデータに含まれているオブジェクトのゲイン情報と、ステップＳ４４４で算出したラウドネス変更値とに基づいて、上述した式（１２）および式（１３）と同様の計算を行う。

　式（１２）と同様の計算により、ラウドネス変更値からCVPごとのゲイン変化率が算出される。また、式（１３）と同様の計算により、各オブジェクトについて、ゲイン変化率がオブジェクトのCVPごとのゲイン情報に乗算されてゲイン情報が補正される。これにより、補正後のゲイン情報である補正ゲイン情報が得られる。

　この場合、CVPの位置をリスナの位置としたときの出力オーディオデータのラウドネスがターゲットラウドネス値となるように、CVPに対して定められたオブジェクトのゲイン情報の補正が行われることになる。

　各オブジェクトのCVPごとのゲイン情報が補正されると、その後、処理はステップＳ４５４へと進む。この場合、オブジェクトのCVPごとのメタデータには、少なくともオブジェクトの補正ゲイン情報と、オブジェクト位置情報とが含まれた状態となる。

　また、ステップＳ４４３において測定ラウドネスモードでないと判定された場合、ステップＳ４４６においてメタデコーダ３０２は、構成情報に基づいて、グループモードであるか否かを判定する。

　例えば、図２４に示したマルチラウドネス情報が構成情報に含まれている場合、構成情報に含まれているグループモードフラグ情報の値が「１」または「２」であるときに、グループモードであると判定される。

　ステップＳ４４６においてグループモードでないと判定された場合、その後、処理はステップＳ４４７へと進む。

　この場合、例えば、図２４に示したマルチラウドネス情報が構成情報に含まれているときには、グループモードフラグ情報の値が「０」であり、かつ制作ラウドネス値存在フラグ情報の値が「１」であるので、制作ラウドネスモードとされている。

　ステップＳ４４７においてメタデコーダ３０２は、CVPごとに、CVPの測定ラウドネス値と、CVPの制作ラウドネス値とに基づいて、中間ラウドネス変更値を算出する。

　例えばメタデコーダ３０２は、構成情報に含まれている測定ラウドネス値と制作ラウドネス値を用いて、上述した式（１７）と同様の計算を行うことで、CVPごとの中間ラウドネス変更値を算出する。

　ステップＳ４４８においてメタデコーダ３０２は、制作ラウドネス値とターゲットラウドネス値とに基づいて共通補正量を算出する。

　例えばメタデコーダ３０２は、全てのCVPの制作ラウドネス値のうちの最大のものを最大制作ラウドネス値とし、その最大制作ラウドネス値とターゲットラウドネス値とに基づいて、上述した式（１８）と同様の計算を行うことで共通補正量を算出する。

　ステップＳ４４９においてメタデコーダ３０２は、CVPごとに、ステップＳ４４７で求めた中間ラウドネス変更値と、ステップＳ４４８で求めた共通補正量とに基づいて、最終ラウドネス変更値を算出する。例えばメタデコーダ３０２は、上述した式（１９）と同様の計算を行うことで、CVPごとの最終ラウドネス変更値を算出する。

　ステップＳ４５０においてメタデコーダ３０２は、CVPごとに、最終ラウドネス変更値に基づいて、ビットストリームデコーダ３０１から供給された各オブジェクトのCVPごとのメタデータに含まれているゲイン情報を補正する。

　例えばメタデコーダ３０２は、各オブジェクトについて、CVPごとに、メタデータに含まれているオブジェクトのゲイン情報と、ステップＳ４４９で算出した最終ラウドネス変更値とに基づいて、上述した式（２０）および式（２１）と同様の計算を行う。

　式（２０）と同様の計算により、最終ラウドネス変更値からCVPごとのゲイン変化率が算出される。また、式（２１）と同様の計算により、各オブジェクトについて、ゲイン変化率がオブジェクトのCVPごとのゲイン情報に乗算されて補正ゲイン情報とされる。

　この場合、制作ラウドネス値が最大となるCVPをリスナの位置としたときの出力オーディオデータのラウドネスがターゲットラウドネス値となり、かつ複数の各CVPでの出力オーディオデータのラウドネスの相対的な関係が、複数の各CVPの制作ラウドネス値の相対的な関係と同じとなるようにゲイン情報の補正が行われることになる。

　また、ステップＳ４４６においてグループモードであると判定された場合、ステップＳ４５１においてメタデコーダ３０２は、グループ（CVPグループ）ごとに、最大となる測定ラウドネス値を特定する。

　例えばメタデコーダ３０２は、構成情報に含まれている各CVPのグループインデックスの値に基づいて、各CVPが属すCVPグループを特定する。また、メタデコーダ３０２は、構成情報に含まれている各CVPの測定ラウドネス値と、CVPグループの特定結果とから、CVPグループに属す各CVPの測定ラウドネス値のなかの最大値である最大測定ラウドネス値を特定する。なお、グループモードフラグ情報の値が「２」であるときには、全CVPが同じグループに属すとされる。

　ステップＳ４５２においてメタデコーダ３０２は、各CVPグループについて、CVPごとに、ステップＳ４５１で特定された最大測定ラウドネス値と、ターゲットラウドネス値とに基づいて、ラウドネス変更値を算出する。例えばメタデコーダ３０２は、ターゲットラウドネス値から最大測定ラウドネス値を減算して得られる値（差分値）をラウドネス変更値とする。ステップＳ４５２では、CVPグループごとのラウドネス変更値が求められる（算出される）。

　ステップＳ４５３においてメタデコーダ３０２は、CVPごとに、ラウドネス変更値に基づいて、ビットストリームデコーダ３０１から供給された各オブジェクトのCVPごとのメタデータに含まれているゲイン情報を補正する。

　例えばメタデコーダ３０２は、各オブジェクトについて、CVPごとに、メタデータに含まれているオブジェクトのゲイン情報と、ステップＳ４５２で算出したラウドネス変更値とに基づいて、上述した式（１５）および式（１６）と同様の計算を行う。

　式（１５）と同様の計算により、ラウドネス変更値からCVPごとのゲイン変化率が算出される。また、式（１６）と同様の計算により、各オブジェクトについて、ゲイン変化率がオブジェクトのCVPごとのゲイン情報に乗算されて補正ゲイン情報とされる。

　この場合、同じグループに属すCVPのうちの測定ラウドネス値が最大となるCVPをリスナの位置としたときの出力オーディオデータのラウドネスがターゲットラウドネス値となり、かつ同じグループに属す複数の各CVPでの出力オーディオデータのラウドネスの相対的な関係が、複数の各CVPの測定ラウドネス値の相対的な関係と同じとなるようにゲイン情報の補正が行われることになる。

　ステップＳ４４１でラウドネスモードでないと判定されたか、ステップＳ４４２で測定ラウドネス値が格納されていないと判定されたか、ステップＳ４４５の処理が行われたか、ステップＳ４５０の処理が行われたか、またはステップＳ４５３の処理が行われると、ステップＳ４５４の処理が行われる。

　ステップＳ４５４においてメタデコーダ３０２は、補間処理を行って、リスナ基準の各オブジェクトのメタデータ、すなわちリスナ基準メタデータを生成する。

　例えば、１つのオブジェクトについて注目することとする。

　メタデコーダ３０２は、リスナ位置情報と、構成情報に含まれているCVP位置情報とに基づいて、補間処理に用いるCVPを選択する。なお、補間処理に用いるCVPは、全CVPのうちのリスナ位置の周囲にある一部のCVPであってもよいし、全てのCVPが用いられて補間処理が行われてもよい。

　次に、メタデコーダ３０２は、CVP位置情報と、リスナ位置情報とに基づいて、各CVPの重み係数を計算する。例えば、各CVPの重み係数は、CVPからリスナ位置までの距離の逆数比により定まるものなどとされる。

　また、メタデコーダ３０２は、CVPごとのオブジェクト位置情報に基づき、CVPを始点とし、CVPから見たオブジェクトの位置を終点とするオブジェクト３次元位置ベクトルを算出する。

　メタデコーダ３０２は、CVPごとに求めた重み係数を重みとして、CVPごとのオブジェクト３次元位置ベクトルの重み付きベクトル和を求める計算を補間処理として行い、その結果得られたベクトル（位置情報）をリスナ基準オブジェクト位置情報とする。すなわち、重み係数が乗算された各CVPのオブジェクト３次元位置ベクトルの総和がリスナ基準オブジェクト位置情報として求められる。

　なお、上記の計算により得られるオブジェクト３次元位置ベクトルは、リスナ位置を原点とする絶対座標系の絶対座標となっている。しかし、レンダリング処理部３０３で極座標系でのレンダリング処理が行われる場合、極座標表現のリスナ基準オブジェクト位置情報が必要となる。そこで、メタデコーダ３０２は、適宜、絶対座標表現のリスナ基準オブジェクト位置情報を極座標表現のリスナ基準オブジェクト位置情報へと変換する。

　また、リスナ基準オブジェクト位置情報の算出に、適宜、リスナ方向情報が用いられるようにしてもよい。

　メタデコーダ３０２は、オブジェクトのCVPごとのメタデータに含まれている補正ゲイン情報に基づく補間処理により、リスナ位置に対するオブジェクトのゲイン情報であるリスナ基準ゲイン情報を算出する。リスナ基準ゲイン情報は、リスナ位置を受聴位置としたときのオブジェクトのゲイン情報である。

　一例として、例えばメタデコーダ３０２は、CVPごとに求めた上述の重み係数を各CVPの補正ゲイン情報に乗算し、重み係数の乗算された補正ゲイン情報の総和をリスナ基準ゲイン情報とする。

　なお、リスナ基準オブジェクト位置情報やリスナ基準ゲイン情報を補間処理により求めるときの具体的な計算方法として、例えば国際公開第２０２３／０８５１４０号に記載されている方法などを採用することができる。リスナ基準オブジェクト位置情報やリスナ基準ゲイン情報の算出方法は、これに限らず、他のどのような方法であってもよい。例えば、リスナ位置に最も近いCVPが特定され、その特定されたCVPについてのオブジェクトのメタデータが、そのままリスナ基準メタデータとされてもよい。

　メタデコーダ３０２は、少なくともリスナ基準オブジェクト位置情報およびリスナ基準ゲイン情報を含むメタデータを、オブジェクトのリスナ基準メタデータとして算出する。

　なお、リスナ基準メタデータに優先度情報やスプレッド情報などが含まれる場合、それらの優先度情報やスプレッド情報も補間処理等により生成されるようにしてもよい。

　また、例えばリスナ基準メタデータの生成に用いられるオブジェクトのCVPごとのメタデータに含まれている優先度情報やスプレッド情報のうち、最も値の大きいものや最も値の小さいもの、最もリスナ位置に近いCVPのものなどが、リスナ基準メタデータの優先度情報やスプレッド情報とされてもよい。さらに、優先度情報やスプレッド情報の中央値や平均値などがリスナ基準メタデータの優先度情報やスプレッド情報とされてもよい。

　メタデコーダ３０２がリスナ基準メタデータをレンダリング処理部３０３に供給すると、メタデータ生成処理は終了する。

　後段のレンダリング処理部３０３では、図３７のステップＳ３９４で、各オブジェクトのリスナ基準メタデータとオーディオデータに基づきレンダリング処理が行われる。

　例えばレンダリング処理部３０３は、各オブジェクトのリスナ基準ゲイン情報に基づいて、それらの各オブジェクトのオーディオデータに対するゲイン補正を行う。そして、レンダリング処理部３０３は、ゲイン補正後の各オブジェクトのオーディオデータと、各オブジェクトのリスナ基準オブジェクト位置情報とに基づいてVBAP等を行うことで、出力オーディオデータを生成する。

　このようなリスナ基準ゲイン情報を用いることで、クライアント２６１では、自由視点オーディオにおいて、オブジェクトのゲイン制御（ゲイン補正）のみでラウドネス補正を実現することができる。

　以上のようにしてクライアント２６１は、構成情報に基づいてリスナ基準メタデータを生成する。このようにすることで、ゲイン制御のみでラウドネス制御を行うことができ、制作者側の意図や、リスナにより指定されたターゲットラウドネス値を反映させた自由視点オーディオ再生を実現することができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図３９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、
　複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うレベル補正部と
　を備える情報処理装置。
（２）
　前記取得部は、前記空間上における制御視点ごとに定められた、前記制御視点を基準とする複数の向きごとの前記ラウドネス情報を取得する
　（１）に記載の情報処理装置。
（３）
　前記制御視点ごとに、前記空間における前記オブジェクトの配置位置が異なる
　（２）に記載の情報処理装置。
（４）
　位置または向きごとの全ての前記ラウドネス情報に基づいて減衰係数を算出するラウドネス情報処理部をさらに備え、
　前記レベル補正部は、前記減衰係数に基づいて前記オーディオデータの前記レベル補正を行う
　（１）乃至（３）の何れか一項に記載の情報処理装置。
（５）
　前記ラウドネス情報処理部は、前記全ての前記ラウドネス情報のうちの最も値が大きい前記ラウドネス情報と、デジタルオーディオデータとして記録可能な音のレベルの最大値とに基づいて前記減衰係数を算出する
　（４）に記載の情報処理装置。
（６）
　前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、所定の前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択するラウドネス情報処理部をさらに備え、
　前記レベル補正部は、前記ラウドネス情報処理部により選択された前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
　（２）または（３）に記載の情報処理装置。
（７）
　前記ラウドネス情報処理部は、前記空間における前記リスナの位置を示すリスナ位置情報に基づいて、前記リスナの位置に最も近い前記制御視点を前記所定の前記制御視点として選択する
　（６）に記載の情報処理装置。
（８）
　前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、複数の各前記制御視点について、前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択し、各前記制御視点について選択した複数の前記ラウドネス情報に基づいて補間処理を行うラウドネス情報処理部をさらに備え、
　前記レベル補正部は、前記補間処理により得られた前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
　（２）または（３）に記載の情報処理装置。
（９）
　前記ラウドネス情報処理部は、前記空間における前記制御視点から前記リスナの位置までの距離の比に基づいて前記補間処理を行う
　（８）に記載の情報処理装置。
（１０）
　前記レベル補正部は、前記ラウドネス情報に基づくDRC処理により前記レベル補正を行う
　（６）乃至（９）の何れか一項に記載の情報処理装置。
（１１）
　前記オブジェクトの前記オーディオデータと、前記オブジェクトのメタデータとに基づいてレンダリング処理を行うレンダリング処理部をさらに備え、
　前記レベル補正部は、前記レンダリング処理により得られた出力信号に対して前記レベル補正を行う
　（１）乃至（１０）の何れか一項に記載の情報処理装置。
（１２）
　前記メタデータは、前記オブジェクトの位置情報、前記オブジェクトのゲイン情報、前記オブジェクトの優先度情報、および前記オブジェクトのスプレッド情報のうちの少なくともいずれかである
　（１１）に記載の情報処理装置。
（１３）
　前記レンダリング処理は、VBAP、BRIR、HRTF、およびHOAのうちの少なくともいずれかを用いた処理である
　（１１）または（１２）に記載の情報処理装置。
（１４）
　前記ラウドネス情報は、サンプルピークレベル値またはトゥルーピークレベル値である
　（１）乃至（１３）の何れか一項に記載の情報処理装置。
（１５）
　情報処理装置が、
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、
　複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行う
　情報処理方法。
（１６）
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、
　複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行う
　ステップを含む処理をコンピュータに実行させるプログラム。
（１７）
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成する生成部と、
　前記ビットストリームを送信する通信部と
　を備える情報処理装置。
（１８）
　前記生成部は、前記空間上における制御視点ごとに定められた、前記制御視点を基準とする複数の向きごとの前記ラウドネス情報を含む前記ビットストリームを生成する
　（１７）に記載の情報処理装置。
（１９）
　前記生成部は、前記オブジェクトの位置を示すオブジェクト位置情報を含むメタデータと、前記ラウドネス情報とを含む前記ビットストリームを生成する
　（１８）に記載の情報処理装置。
（２０）
　前記制御視点ごとに、前記空間における前記オブジェクトの配置位置が異なる
　（１９）に記載の情報処理装置。
（２１）
　前記生成部は、前記空間における前記制御視点の位置を示す制御視点位置情報を含むシステム構成情報と、前記ラウドネス情報とを含む前記ビットストリームを生成する
　（１８）乃至（２０）の何れか一項に記載の情報処理装置。
（２２）
　前記生成部は、前記ラウドネス情報と、前記オブジェクトのオーディオデータとを含む前記ビットストリームを生成する
　（１７）乃至（２１）の何れか一項に記載の情報処理装置。
（２３）
　情報処理装置が、
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成し、
　前記ビットストリームを送信する
　情報処理方法。
（２４）
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成し、
　前記ビットストリームを送信する
　ステップを含む処理をコンピュータに実行させるプログラム。
（２５）
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する補正部を備える
　情報処理装置。
（２６）
　前記補正部は、前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記補正を行う
　（２５）に記載の情報処理装置。
（２７）
　前記補正部は、複数の前記制御視点の前記測定ラウドネス値のうちの何れかと、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
　（２５）に記載の情報処理装置。
（２８）
　前記補正部は、同じグループに属す複数の前記制御視点の前記測定ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とから求まる変更値に基づいて、前記グループに属す各前記制御視点の前記ゲイン情報を補正する
　（２７）に記載の情報処理装置。
（２９）
　前記補正部は、前記測定ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
　（２８）に記載の情報処理装置。
（３０）
　前記補正部は、前記制御視点ごとに指定された制作ラウドネス値と、前記制御視点の前記測定ラウドネス値と、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
　（２５）に記載の情報処理装置。
（３１）
　前記補正部は、複数の各前記制御視点の前記制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて共通補正量を算出し、前記共通補正量と、前記制御視点の前記制作ラウドネス値と、前記制御視点の前記測定ラウドネス値とに基づいて、前記制御視点の前記ゲイン情報を補正する
　（３０）に記載の情報処理装置。
（３２）
　前記補正部は、複数の前記制御視点の前記制作ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とに基づいて前記共通補正量を算出する
　（３１）に記載の情報処理装置。
（３３）
　前記補正部は、前記制作ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
　（３２）に記載の情報処理装置。
（３４）
　前記制御視点の前記測定ラウドネス値を含む構成情報を取得する取得部をさらに備える
　（２５）乃至（３３）の何れか一項に記載の情報処理装置。
（３５）
　前記構成情報には、
　　前記測定ラウドネス値と前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
　　前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点が属すグループを示す情報と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
　　前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点ごとに指定された制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか
　を特定するための情報が含まれている
　（３４）に記載の情報処理装置。
（３６）
　前記取得部は、複数の前記構成情報を取得し、
　前記補正部は、複数の前記構成情報から選択された１つの前記構成情報を用いて前記ゲイン情報の補正を行う
　（３４）または（３５）に記載の情報処理装置。
（３７）
　前記補正部は、前記リスナの操作に応じて前記構成情報を選択するか、または前記空間における前記リスナの位置、前記情報処理装置のリソース、前記情報処理装置の残電池量、前記情報処理装置のデバイス種別、前記コンテンツのデータが伝送されるネットワークの状態、および前記コンテンツのシーンのうちの少なくとも何れか１つに基づいて前記構成情報を選択する
　（３６）に記載の情報処理装置。
（３８）
　前記補正部は、複数の前記制御視点の補正後の前記ゲイン情報と、複数の前記制御視点の前記空間における位置を示す位置情報と、前記空間における前記リスナの位置を示すリスナ位置情報とに基づいて、前記リスナの位置に対する前記オブジェクトの前記ゲイン情報であるリスナ基準ゲイン情報を算出する
　（２５）乃至（３７）の何れか一項に記載の情報処理装置。
（３９）
　前記オブジェクトの前記リスナ基準ゲイン情報と、前記オブジェクトのオーディオデータとに基づいて、前記コンテンツのオーディオデータを生成するレンダリング処理部をさらに備える
　（３８）に記載の情報処理装置。
（４０）
　前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
　（２５）乃至（３９）の何れか一項に記載の情報処理装置。
（４１）
　前記オブジェクトが配置された前記空間の画像を表示させる制御部をさらに備える
　（２５）乃至（４０）の何れか一項に記載の情報処理装置。
（４２）
　前記画像には、前記ターゲットラウドネス値を入力するための領域が表示される
　（４１）に記載の情報処理装置。
（４３）
　情報処理装置が、
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する
　情報処理方法。
（４４）
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する
　ステップを含む処理をコンピュータに実行させるプログラム。
（４５）
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する制御部を備える
　情報処理装置。
（４６）
　前記構成情報には、同じグループに属す複数の前記制御視点の前記測定ラウドネス値の何れかと、所定のターゲットラウドネス値とに基づいて、前記グループに属す前記制御視点に対して定められた前記オブジェクトのゲイン情報を補正するグループモードであるか否かを示すグループモード情報が含まれている
　（４５）に記載の情報処理装置。
（４７）
　前記構成情報に、前記グループモードであることを示す前記グループモード情報が含まれている場合、前記構成情報には、前記制御視点が属す前記グループを示す情報がさらに含まれている
　（４６）に記載の情報処理装置。
（４８）
　前記構成情報には、前記制御視点ごとに指定された制作ラウドネス値が含まれているか否かを示す制作ラウドネス値存在情報が含まれており、
　前記構成情報に、前記制作ラウドネス値が含まれていることを示す前記制作ラウドネス値存在情報が含まれている場合、前記構成情報には、前記制御視点の前記制作ラウドネス値がさらに含まれている
　（４５）乃至（４７）の何れか一項に記載の情報処理装置。
（４９）
　前記構成情報には、前記空間における前記制御視点の位置を示す位置情報が含まれている
　（４５）乃至（４８）の何れか一項に記載の情報処理装置。
（５０）
　前記制御部は、複数の異なる前記構成情報を生成する
　（４５）乃至（４９）の何れか一項に記載の情報処理装置。
（５１）
　前記制御部は、前記空間における領域ごと、前記コンテンツを再生する情報処理装置のリソースごと、前記コンテンツを再生する情報処理装置の残電池量ごと、前記コンテンツを再生する情報処理装置のデバイス種別ごと、前記コンテンツのデータが伝送されるネットワークの状態ごと、または前記コンテンツのシーンごとに前記構成情報を生成する
　（５０）に記載の情報処理装置。
（５２）
　前記制御部は、前記制御視点が配置された前記空間の画像を表示させ、
　前記画像には、前記制御視点の前記測定ラウドネス値が表示される
　（４５）乃至（５１）の何れか一項に記載の情報処理装置。
（５３）
　前記画像には、前記制御視点が属すグループを指定するためのユーザインターフェースが表示される
　（５２）に記載の情報処理装置。
（５４）
　前記画像には、前記制御視点ごとに指定された制作ラウドネス値が表示される
　（５２）または（５３）に記載の情報処理装置。
（５５）
　前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
　（４５）乃至（５４）の何れか一項に記載の情報処理装置。
（５６）
　情報処理装置が、
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する
　情報処理方法。
（５７）
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。
（５８）
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成する生成部と、
　前記ビットストリームを送信する通信部と
　を備える情報処理装置。
（５９）
　前記構成情報には、同じグループに属す複数の前記制御視点の前記測定ラウドネス値の何れかと、所定のターゲットラウドネス値とに基づいて、前記グループに属す前記制御視点に対して定められた前記オブジェクトのゲイン情報を補正するグループモードであるか否かを示すグループモード情報が含まれている
　（５８）に記載の情報処理装置。
（６０）
　前記構成情報に、前記グループモードであることを示す前記グループモード情報が含まれている場合、前記構成情報には、前記制御視点が属す前記グループを示す情報がさらに含まれている
　（５９）に記載の情報処理装置。
（６１）
　前記構成情報には、前記制御視点ごとに指定された制作ラウドネス値が含まれているか否かを示す制作ラウドネス値存在情報が含まれており、
　前記構成情報に、前記制作ラウドネス値が含まれていることを示す前記制作ラウドネス値存在情報が含まれている場合、前記構成情報には、前記制御視点の前記制作ラウドネス値がさらに含まれている
　（５８）乃至（６０）の何れか一項に記載の情報処理装置。
（６２）
　前記構成情報には、前記空間における前記制御視点の位置を示す位置情報が含まれている
　（５８）乃至（６１）の何れか一項に記載の情報処理装置。
（６３）
　前記生成部は、複数の異なる前記構成情報のなかから選択した前記構成情報を含む前記ビットストリームを生成する
　（５８）乃至（６２）の何れか一項に記載の情報処理装置。
（６４）
　前記生成部は、前記空間における前記リスナの位置、前記コンテンツを再生する情報処理装置のリソース、前記コンテンツを再生する情報処理装置の残電池量ごと、前記コンテンツを再生する情報処理装置のデバイス種別、前記コンテンツのデータが伝送されるネットワークの状態、および前記コンテンツのシーンのうちの少なくとも何れか１つに基づいて前記構成情報を選択する
　（６３）に記載の情報処理装置。
（６５）
　前記生成部は、複数の異なる前記構成情報を含む前記ビットストリームを生成する
　（５８）乃至（６２）の何れか一項に記載の情報処理装置。
（６６）
　前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
　（５８）乃至（６５）の何れか一項に記載の情報処理装置。
（６７）
　情報処理装置が、
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成し、
　前記ビットストリームを送信する
　情報処理方法。
（６８）
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成し、
　前記ビットストリームを送信する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　サーバ，　２１　取得部，　２２　ビットストリームエンコーダ，　２３　通信部，　５１　クライアント，　６１　通信部，　６２　ビットストリームデコーダ，　６３　メタデコーダ，　６４　レンダリング処理部，　６５　ラウドネス情報処理部，　６６　DRC処理部

Claims

　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得する取得部と、
　複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行うレベル補正部と
　を備える情報処理装置。
　前記取得部は、前記空間上における制御視点ごとに定められた、前記制御視点を基準とする複数の向きごとの前記ラウドネス情報を取得する
　請求項１に記載の情報処理装置。
　前記制御視点ごとに、前記空間における前記オブジェクトの配置位置が異なる
　請求項２に記載の情報処理装置。
　位置または向きごとの全ての前記ラウドネス情報に基づいて減衰係数を算出するラウドネス情報処理部をさらに備え、
　前記レベル補正部は、前記減衰係数に基づいて前記オーディオデータの前記レベル補正を行う
　請求項１に記載の情報処理装置。
　前記ラウドネス情報処理部は、前記全ての前記ラウドネス情報のうちの最も値が大きい前記ラウドネス情報と、デジタルオーディオデータとして記録可能な音のレベルの最大値とに基づいて前記減衰係数を算出する
　請求項４に記載の情報処理装置。
　前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、所定の前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択するラウドネス情報処理部をさらに備え、
　前記レベル補正部は、前記ラウドネス情報処理部により選択された前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
　請求項２に記載の情報処理装置。
　前記ラウドネス情報処理部は、前記空間における前記リスナの位置を示すリスナ位置情報に基づいて、前記リスナの位置に最も近い前記制御視点を前記所定の前記制御視点として選択する
　請求項６に記載の情報処理装置。
　前記空間における前記リスナの向きを示すリスナ向き情報に基づいて、複数の各前記制御視点について、前記制御視点における複数の向きごとの前記ラウドネス情報のうち、前記リスナ向き情報により示される向きに最も近い向きの前記ラウドネス情報を選択し、各前記制御視点について選択した複数の前記ラウドネス情報に基づいて補間処理を行うラウドネス情報処理部をさらに備え、
　前記レベル補正部は、前記補間処理により得られた前記ラウドネス情報に基づいて前記オーディオデータの前記レベル補正を行う
　請求項２に記載の情報処理装置。
　前記ラウドネス情報処理部は、前記空間における前記制御視点から前記リスナの位置までの距離の比に基づいて前記補間処理を行う
　請求項８に記載の情報処理装置。
　前記レベル補正部は、前記ラウドネス情報に基づくDRC処理により前記レベル補正を行う
　請求項６に記載の情報処理装置。
　前記オブジェクトの前記オーディオデータと、前記オブジェクトのメタデータとに基づいてレンダリング処理を行うレンダリング処理部をさらに備え、
　前記レベル補正部は、前記レンダリング処理により得られた出力信号に対して前記レベル補正を行う
　請求項１に記載の情報処理装置。
　前記メタデータは、前記オブジェクトの位置情報、前記オブジェクトのゲイン情報、前記オブジェクトの優先度情報、および前記オブジェクトのスプレッド情報のうちの少なくともいずれかである
　請求項１１に記載の情報処理装置。
　前記レンダリング処理は、VBAP、BRIR、HRTF、およびHOAのうちの少なくともいずれかを用いた処理である
　請求項１１に記載の情報処理装置。
　前記ラウドネス情報は、サンプルピークレベル値またはトゥルーピークレベル値である
　請求項１に記載の情報処理装置。
　情報処理装置が、
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を取得し、
　複数の位置または向きごとの前記ラウドネス情報に基づいて、前記オブジェクトのオーディオデータのレベル補正を行う
　情報処理方法。
　オブジェクトが配置される空間におけるリスナのとり得る複数の位置または向きごとに定められたラウドネス情報を含むビットストリームを生成する生成部と、
　前記ビットストリームを送信する通信部と
　を備える情報処理装置。
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する補正部を備える
　情報処理装置。
　前記補正部は、前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記補正を行う
　請求項１７に記載の情報処理装置。
　前記補正部は、複数の前記制御視点の前記測定ラウドネス値のうちの何れかと、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
　請求項１７に記載の情報処理装置。
　前記補正部は、同じグループに属す複数の前記制御視点の前記測定ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とから求まる変更値に基づいて、前記グループに属す各前記制御視点の前記ゲイン情報を補正する
　請求項１９に記載の情報処理装置。
　前記補正部は、前記測定ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
　請求項２０に記載の情報処理装置。
　前記補正部は、前記制御視点ごとに指定された制作ラウドネス値と、前記制御視点の前記測定ラウドネス値と、前記ターゲットラウドネス値とに基づいて、複数の各前記制御視点の前記ゲイン情報を補正する
　請求項１７に記載の情報処理装置。
　前記補正部は、複数の各前記制御視点の前記制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて共通補正量を算出し、前記共通補正量と、前記制御視点の前記制作ラウドネス値と、前記制御視点の前記測定ラウドネス値とに基づいて、前記制御視点の前記ゲイン情報を補正する
　請求項２２に記載の情報処理装置。
　前記補正部は、複数の前記制御視点の前記制作ラウドネス値のうちの最大値と、前記ターゲットラウドネス値とに基づいて前記共通補正量を算出する
　請求項２３に記載の情報処理装置。
　前記補正部は、前記制作ラウドネス値が前記最大値となる前記制御視点を前記リスナの位置としたときの前記コンテンツのオーディオデータのラウドネスが前記ターゲットラウドネス値となるように前記ゲイン情報の補正を行う
　請求項２４に記載の情報処理装置。
　前記制御視点の前記測定ラウドネス値を含む構成情報を取得する取得部をさらに備える
　請求項１７に記載の情報処理装置。
　前記構成情報には、
　　前記測定ラウドネス値と前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
　　前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点が属すグループを示す情報と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか、
　　前記測定ラウドネス値と、前記構成情報に含まれている、前記制御視点ごとに指定された制作ラウドネス値と、前記ターゲットラウドネス値とに基づいて前記ゲイン情報を補正するか
　を特定するための情報が含まれている
　請求項２６に記載の情報処理装置。
　前記取得部は、複数の前記構成情報を取得し、
　前記補正部は、複数の前記構成情報から選択された１つの前記構成情報を用いて前記ゲイン情報の補正を行う
　請求項２６に記載の情報処理装置。
　前記補正部は、前記リスナの操作に応じて前記構成情報を選択するか、または前記空間における前記リスナの位置、前記情報処理装置のリソース、前記情報処理装置の残電池量、前記情報処理装置のデバイス種別、前記コンテンツのデータが伝送されるネットワークの状態、および前記コンテンツのシーンのうちの少なくとも何れか１つに基づいて前記構成情報を選択する
　請求項２８に記載の情報処理装置。
　前記補正部は、複数の前記制御視点の補正後の前記ゲイン情報と、複数の前記制御視点の前記空間における位置を示す位置情報と、前記空間における前記リスナの位置を示すリスナ位置情報とに基づいて、前記リスナの位置に対する前記オブジェクトの前記ゲイン情報であるリスナ基準ゲイン情報を算出する
　請求項１７に記載の情報処理装置。
　前記オブジェクトの前記リスナ基準ゲイン情報と、前記オブジェクトのオーディオデータとに基づいて、前記コンテンツのオーディオデータを生成するレンダリング処理部をさらに備える
　請求項３０に記載の情報処理装置。
　前記制御視点ごとに前記空間における前記オブジェクトの配置位置が異なる
　請求項１７に記載の情報処理装置。
　前記オブジェクトが配置された前記空間の画像を表示させる制御部をさらに備える
　請求項１７に記載の情報処理装置。
　前記画像には、前記ターゲットラウドネス値を入力するための領域が表示される
　請求項３３に記載の情報処理装置。
　情報処理装置が、
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値と、所定のターゲットラウドネス値とに基づいて、前記制御視点に対して定められた、前記オブジェクトのゲイン情報を補正する
　情報処理方法。
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する制御部を備える
　情報処理装置。
　情報処理装置が、
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値を含む構成情報を生成する
　情報処理方法。
　空間内の制御視点をリスナの位置とした場合における１または複数のオブジェクトの音を含むコンテンツのオーディオデータのラウドネスの測定結果である測定ラウドネス値が格納された構成情報を含むビットストリームを生成する生成部と、
　前記ビットストリームを送信する通信部と
　を備える情報処理装置。