WO2023199673A1

WO2023199673A1 - 立体音響処理方法、立体音響処理装置及びプログラム

Info

Publication number: WO2023199673A1
Application number: PCT/JP2023/009601
Authority: WO
Inventors: 摩里子山田; 智一石川; 成悟榎本; 陽宇佐見; 康太中橋; 宏幸江原; 耕水野
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-04-14
Filing date: 2023-03-13
Publication date: 2023-10-19
Also published as: US20250039629A1; JPWO2023199673A1; CN119256564A

Abstract

立体音響処理方法は、ＡＲデバイス（１ａ）を用いた立体音響の再生に用いられる立体音響処理方法であって、ＡＲデバイス（１ａ）において音を含むコンテンツの出力中に、ＡＲデバイス（１ａ）が位置する空間内の変化を示す変化情報を取得し（Ｓ１１０）、音を示す音情報をレンダリングするための複数の音響処理のうち、変化情報に基づく１以上の音響処理を決定し（Ｓ１５０）、複数の音響処理のうち決定された１以上の音響処理に対してのみ音響処理を実行し（Ｓ１６０）、実行された１以上の音響処理それぞれの第１処理結果に基づいて、音情報をレンダリングする（Ｓ１７０）。

Description

立体音響処理方法、立体音響処理装置及びプログラム

　本開示は、立体音響処理方法、立体音響処理装置及びプログラムに関する。

　特許文献１には、測定用マイクロホンアレイ、測定用スピーカアレイ等の機器を用いて室内空間の音響特徴量（音響特性）を取得する技術が開示されている。

特開２０１２－２４２５９７号公報

　上記の特許文献１の技術で取得された実空間の音響特徴量は、ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ：拡張現実）デバイスから出力される音を示す音情報のレンダリングを行う際に利用されることがある。その際、当該空間内においてＡＲデバイスを使用中に、空間に人の出入りが生じる、空間内の物体が動く又は増減するなどといった空間の変化が発生することが考えられる。つまり、ＡＲデバイスを使用中に、空間の音響特徴量に変化が発生することが考えられる。

　ＡＲデバイスから出力される音には、このような使用中の空間内の変化が容易に反映されることが望まれる。しかしながら、特許文献１には、使用中の空間内の変化を容易に反映する技術については開示されていない。

　そこで、本開示は、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングに容易に反映することができる立体音響処理方法、立体音響処理装置及びプログラムを提供する。

　本開示の一態様に係る立体音響処理方法は、ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）デバイスを用いた立体音響の再生に用いられる立体音響処理方法であって、前記ＡＲデバイスにおいて音を含むコンテンツの出力中に、前記ＡＲデバイスが位置する空間内の変化を示す変化情報を取得し、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく１以上の音響処理を決定し、前記複数の音響処理のうち決定された前記１以上の音響処理に対してのみ音響処理を実行し、実行された前記１以上の音響処理それぞれの第１処理結果に基づいて、前記音情報をレンダリングする。

　本開示の一態様に係る立体音響処理装置は、ＡＲデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、前記ＡＲデバイスにおいて音を含むコンテンツの出力中に、前記ＡＲデバイスが位置する空間内の変化を示す変化情報を取得する取得部と、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく１以上の音響処理を決定する決定部と、前記複数の音響処理のうち決定された前記１以上の音響処理に対してのみ音響処理を実行する音響処理部と、実行された前記１以上の音響処理それぞれの第１処理結果に基づいて、前記音情報をレンダリングするレンダリング部とを備える。

　本開示の一態様に係るプログラムは、上記の立体音響処理方法をコンピュータに実行させるためのプログラムである。

　本開示の一態様によれば、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングに容易に反映することができる立体音響処理方法等を実現することができる。

図１は、実施の形態に係る立体音響処理装置の機能構成を示すブロック図である。図２は、ＡＲデバイスの使用前における、実施の形態に係る立体音響処理装置の動作を示すフローチャートである。図３は、ＡＲデバイスの使用中における、実施の形態に係る立体音響処理装置の動作を示すフローチャートである。図４は、空間情報が示す空間に形状モデルを挿入することを説明するための図である。図５は、空間に生じる変化、及び、音響処理の第１例を説明するための図である。図６は、空間に生じる変化、及び、音響処理の第２例を説明するための図である。

　本開示の第１の態様に係る立体音響処理方法は、ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）デバイスを用いた立体音響の再生に用いられる立体音響処理方法であって、前記ＡＲデバイスにおいて音を含むコンテンツの出力中に、前記ＡＲデバイスが位置する空間内の変化を示す変化情報を取得し、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく１以上の音響処理を決定し、前記複数の音響処理のうち決定された前記１以上の音響処理に対してのみ音響処理を実行し、実行された前記１以上の音響処理それぞれの第１処理結果に基づいて、前記音情報をレンダリングする。

　これにより、空間内の変化が発生した場合に、複数の音響処理のうち決定された１以上の音響処理のみが実行されるので、複数の音響処理の全てが実行される場合に比べて空間内の変化を音情報に反映するための演算量を低減することができる。よって、立体音響処理方法によれば、空間内の変化が発生した場合の演算量の増加が抑制されるので、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングに容易に反映することができる。

　また、例えば、本開示の第２の態様に係る立体音響処理方法は、第１の態様に係る立体音響処理方法であって、前記音情報のレンダリングにおいて、前記１以上の音響処理それぞれの前記第１処理結果と、前記複数の音響処理のうち前記１以上の音響処理を除く他の１以上の音響処理それぞれの第２処理結果であって、予め取得された第２処理結果とに基づいて、前記音情報をレンダリングしてもよい。

　これにより、他の１以上の音響処理の処理結果に、予め取得された第２処理結果が用いられるので、他の１以上の音響処理に対する何らかの演算を行う場合に比べて演算量を低減することができる。

　また、例えば、本開示の第３の態様に係る立体音響処理方法は、第１の態様又は第２の態様に係る立体音響処理方法であって、前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、前記１以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置の少なくとも一方に基づいて、前記１以上の音響処理を決定してもよい。

　これにより、物体の音響特性、及び、物体の位置の少なくとも一方に応じた１以上の音響処理が決定されるので、当該物体の影響をより適切に含む音情報を生成することができる。よって、その時点の空間の状況に応じたより適切な音を出力可能な音情報を生成することができる。

　また、例えば、本開示の第４の態様に係る立体音響処理方法は、第３の態様に係る立体音響処理方法であって、前記１以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置を用いており、前記物体の位置に基づいて、前記物体に応じた前記１以上の音響処理を実行するか否かを判定し、前記１以上の音響処理を実行すると判定された場合、前記物体の音響特性に基づいて、前記１以上の音響処理を決定してもよい。

　これにより、１以上の音響処理を実行するか否かが判定されるので、不要な音響処理が実行されることを抑制することができる。

　また、例えば、本開示の第５の態様に係る立体音響処理方法は、第１の態様～第４の態様のいずれかに係る立体音響処理方法であって、前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、前記物体を簡易化した形状モデルを用いて、前記１以上の音響処理を実行してもよい。

　これにより、物体を簡易化した形状モデルが用いられるので、物体そのものの形状を用いる場合に比べて音響処理における演算量を低減することができる。特に、動きの予測が難しい物体(例えば、人など)に対して形状モデルが用いられることで、効果的に演算量を低減することができる。よって、立体音響処理方法によれば、空間内の変化によって生じた音響特徴量の変化を音情報のレンダリングにより容易に反映することができる。

　また、例えば、本開示の第６の態様に係る立体音響処理方法は、第５の態様に係る立体音響処理方法であって、前記物体の種類に基づいて、複数の形状モデルを予め記憶した記憶部から、当該物体に対応する形状モデルを読み出すことで、前記形状モデルを取得してもよい。

　これにより、形状モデルを読み出すだけでよいので、形状モデルを演算等により生成する場合に比べて、形状モデルを取得するための演算量を低減することができる。

　また、例えば、本開示の第７の態様に係る立体音響処理方法は、第５の態様又は第６の態様に係る立体音響処理方法であって、前記空間を示す空間情報に前記形状モデルを挿入し、前記形状モデルが挿入された前記空間情報に基づいて、前記１以上の音響処理を決定してもよい。

　これにより、形状モデルを用いて、その時点の空間内の状況を再現することができる。このような空間情報が用いられることで、その時点の空間内の状況に適正した１以上の音響処理を決定することができる。

　本開示の第８の態様に係る立体音響処理装置は、ＡＲデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、前記ＡＲデバイスにおいて音を含むコンテンツの出力中に、前記ＡＲデバイスが位置する空間内の変化を示す変化情報を取得する取得部と、前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく１以上の音響処理を決定する決定部と、前記複数の音響処理のうち決定された前記１以上の音響処理に対してのみ音響処理を実行する音響処理部と、実行された前記１以上の音響処理それぞれの第１処理結果に基づいて、前記音情報をレンダリングするレンダリング部とを備える。また、本開示の第９の態様に係るプログラムは、第１の態様～第７の態様のいずれかの立体音響処理方法をコンピュータに実行させるためのプログラムである。

　これにより、上記の立体音響処理方法と同様の効果を奏する。

　なお、これらの全般的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータで読み取り可能なＣＤ－ＲＯＭなどの非一時的記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム又は記録媒体の任意な組み合わせで実現されてもよい。プログラムは、記録媒体に予め記憶されていてもよいし、インターネットなどを含む広域通信網を介して記録媒体に供給されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、例えば、各図において縮尺などは必ずしも一致しない。また、各図において、実質的に同一の構成については同一の符号を付しており、重複する説明は省略又は簡略化する。

　また、本明細書において、数値、及び、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度（あるいは、１０％程度）の差異をも含むことを意味する表現である。

　（実施の形態）
　以下、本実施の形態に係る立体音響処理方法及び立体音響処理方法を実行する立体音響処理装置について、図１～図６を参照しながら説明する。

　［１．立体音響処理装置の構成］
　まず、本実施の形態に係る立体音響処理装置の構成について、図１を参照しながら説明する。図１は、本実施の形態に係る立体音響処理装置１０の機能構成を示すブロック図である。

　図１に示すように、立体音響処理装置１０は、立体音響再生システム１に含まれており、立体音響再生システム１は、立体音響処理装置１０以外に、センサ２０と、出音装置３０とを備える。立体音響再生システム１は、例えば、ＡＲデバイスに内蔵されているが、立体音響処理装置１０及びセンサ２０の少なくとも一方はＡＲデバイスの外部の装置により実現されてもよい。

　立体音響再生システム１は、ＡＲデバイスを装着したユーザがいる室内空間（以降において、単に空間とも記載する）に応じた音が当該ＡＲデバイスの出音装置３０から出音されるように、音情報（音信号）をレンダリングし、レンダリングされた音情報に基づいて音を出力する（再生する）ためのシステムである。

　室内空間とは、ある程度閉塞された空間であればよく、リビング、ホール、会議室、廊下、階段、寝室等が挙げられる。

　ＡＲデバイスは、ユーザが装着可能なメガネ型のＡＲウェアラブル端末（いわゆるスマートグラス）又はＡＲ用のヘッドマウントディスプレイであるが、スマートフォン又はタブレット型情報端末等の携帯端末であってもよい。なお、拡張現実とは、現実空間の景色、地形、物体等の現実環境に、情報処理装置を使ってさらに情報を加える技術を指す。

　ＡＲデバイスは、表示部、カメラ（センサ２０の一例）、スピーカ（出音装置３０の一例）、マイク、プロセッサ、メモリ等を備える。また、ＡＲデバイスは、深度センサ、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）センサ、ＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）等を備えていてもよい。

　音情報のレンダリング時には空間情報として空間の音響特徴量が必要である。そのため、ＡＲデバイスの使用前に、ＡＲデバイスを使用する実空間の空間情報を取得しておき、ＡＲデバイスの起動時（又は起動前）に事前に取得した空間情報を、レンダリングする処理装置に入力することが検討されている。音響特徴量を含む空間情報は、例えば、事前に空間を計測することで取得されてもよいし、コンピュータによる演算により取得されてもよい。なお、空間情報には、例えば、空間の大きさ及び形状、空間を構成する壁等の造営材の音響特徴量、空間内の物体の音響特徴量、空間内の物体の位置及び形状などが含まれる。

　ところで、ＡＲデバイスの使用中に、空間に人の出入りが生じる、室間内の物体が動く又は増減するなどといった空間内の変化が発生することが考えられる。このような空間内の変化が生じると、空間の音響特徴量（音響特性）が変化する。そのため、空間に応じた音をＡＲデバイスから出力するためには、再度レンダリング（追加レンダリング）を行う必要があるが、処理装置である立体音響処理装置１０の演算負荷が増えることが懸念される。特に、人などの動きの予測が困難である物体に対応する場合に、高レートのセンシングが必要となり、立体音響処理装置１０の演算負荷が増えることが懸念される。

　そこで、以下では、ＡＲデバイスが位置する空間内の変化によって生じた当該空間の音響特徴量の変化を容易に音のレンダリングに反映する装置として、追加レンダリングを行う際の演算量を低減可能な立体音響処理装置１０について説明する。なお、ＡＲデバイスの使用中とは、起動したＡＲデバイスをユーザが使用中であることを意味し、具体的には、ユーザに装着されたＡＲデバイスにおいて音を含むコンテンツの出力中であることを意味する。

　立体音響処理装置１０は、ＡＲデバイスを用いた立体音響の再生に用いられる情報処理装置であり、取得部１１と、更新部１２と、記憶部１３と、制御部１４と、音響処理部１５と、レンダリング部１６とを備える。

　取得部１１は、ＡＲデバイスの使用中に、ＡＲデバイスを装着したユーザがいる空間内の変化を示す変化情報をセンサ２０から取得する。空間内の変化とは、当該空間の音響特徴量が変化するような当該空間内に位置する物体の変化であり、例えば、空間内の物体が動く（位置が変わる）こと、空間内に位置する物体が増減すること、空間内の物体が変形するなど形状及び大きさの少なくとも一方が変化することなどが例示される。

　変化情報には、空間内において変化した物体を示す情報が含まれる。変化情報には、例えば、空間内において変化した物体の種類及び物体の空間内における位置を示す情報が含まれてもよい。物体の種類は、移動する物体（移動体）として、人、ペット、ロボット（例えば、自律移動ロボット）などを含み、据え置きされる物体として、机、パーティションなどを含むが、これらに限定されない。

　また、変化情報には、例えば、空間内の物体（例えば、空間内において変化した物体）が映る画像が含まれてもよい。この場合、取得部１１は、空間内の変化が発生したことを検出する機能を有していてもよい。取得部１１は、例えば、画像から物体の種類及び空間内における物体の位置を画像処理などにより検出する機能を有していてもよい。取得部１１は、空間内の変化が発生したことを検出する検出部として機能してもよい。

　取得部１１は、例えば、通信モジュール（通信回路）を含んで構成される。

　更新部１２は、事前に取得された空間情報が示す空間に実空間の現在状況を再現するための処理を実行する。更新部１２は、事前に取得された空間情報を、実空間の現在状況に応じて更新する処理を実行するとも言える。更新部１２は、物体が増加した場合、事前に取得された空間情報が示す空間内に、変化情報に含まれる物体（以降において、対象物体とも記載する）の種類に応じた形状モデル（オブジェクト）を、対象物体の位置に対応する空間情報が示す空間の位置に挿入（配置）する。更新部１２は、対象物体の種類と、対象物体の種類及び形状モデルが対応付けられたテーブルとに基づいて、形状モデルを決定する。更新部１２は、物体の種類に基づいて、複数の形状モデルを予め記憶した記憶部１３から当該物体に対応する形状モデルを読み出すことで、形状モデルを取得する。予めとは、例えば、ＡＲデバイスにおいて音を含むコンテンツを出力するより前を意味するが、これに限定されない。

　形状モデルは、物体を簡易化した（物体を模した）モデルであり、例えば、１種類の立体形状で示される。立体形状は、物体に対応する形状であり、例えば、物体の種類ごとに対応する形状モデルが予め設定されている。立体形状は、例えば、角柱状、円柱状、錐状、球状、板状などであるが、これらに限定されない。例えば、物体が人であれば、四角柱が形状モデルとして設定されていてもよい。

　なお、形状モデルは、２種類以上の立体形状の組み合わせで形成されていてもよく、実際の物体の形状より音響処理を行う際の演算量を減らすことができる形状であればよい。また、以降において、対象物体が挿入された空間情報（例えば、後述する図４の（ｂ）に示す空間２００ａ）を、更新された空間情報とも記載する。

　また、更新部１２は、物体が減少した場合、事前に取得された空間情報から、対象物体を除去する。また、更新部１２は、物体が移動した場合、事前に取得された空間情報内の対象物体を、変化情報に含まれる当該対象物体の位置に移動させる。また、更新部１２は、物体が変形した場合、事前に取得された空間情報内の対象物体を、変化情報に含まれる当該対象物体の形状に変形させる。

　記憶部１３は、更新部１２及び制御部１４が用いる各種テーブルを記憶する記憶装置である。また、記憶部１３は、事前に取得された空間情報を記憶していてもよい。事前とは、ユーザが対象となる空間でＡＲデバイスを使用するより前のことを意味する。

　制御部１４は、ＡＲデバイスから出力される音を示す音情報（もとの音情報）をレンダリングするための複数の音響処理のうち、変化情報に基づく１以上の音響処理を決定する。制御部１４は、例えば、物体の種類に基づいて、１以上の音響処理を決定してもよい。制御部１４は、例えば、物体の音響特徴量（音響特性）、及び、物体の位置の少なくとも一方に基づいて、１以上の音響処理を決定してもよい。また、制御部１４は、形状モデルが挿入された空間情報に基づいて、１以上の音響処理を判定してもよい。また、制御部１４は、物体が複数である場合、複数の物体のそれぞれに対して、１以上の音響処理を決定してもよい。このように、制御部１４は、１以上の音響処理を決定する決定部として機能する。

　複数の音響処理は、空間内における、音の反射に関する処理、音の残響に関する処理、音のオクルージョン（遮蔽）に関する処理、音の距離減衰に関する処理、音の回折に関する処理などのうち少なくとも２つ以上を含む。

　反射とは、あるオブジェクトにある角度を持って入射した音が当該オブジェクトによって跳ね返される現象を示す。残響とは、空間内で生じた音が反射等により響いて聞こえる現象であり、音源が停止した後に音圧レベルが一定（例えば６０ｄＢ）減衰する時間が残響時間として規定される。オクルージョンとは、音源と試聴点との間に何らかのオブジェクト（遮蔽物）がある場合に音が減衰する効果を示す。距離減衰とは、音源と試聴点の距離に応じて音が減衰する現象を示す。回折とは、音源と試聴点の間にオブジェクトが存在する場合に、反射により音が回り込んで実際の音源方向とは異なる方向から音が聴こえる現象のことを示す。

　音響処理部１５は、制御部１４が決定した１以上の音響処理を実行する。音響処理部１５は、複数の音響処理のうち当該１以上の音響処理に対してのみ音響処理を実行する。音響処理部１５は、更新された空間情報と、物体の性質とに基づいて、１以上の音響処理それぞれを実行し、１以上の音響処理それぞれの処理結果を算出する。処理結果は、レンダリングに用いられる係数（例えば、フィルタ係数）を含む。１以上の音響処理それぞれの処理結果は、第１処理結果の一例である。なお、複数の音響処理は、予め設定されている。

　レンダリング部１６は、１以上の音響処理それぞれの処理結果を用いて、もともと保存されている音情報をレンダリング（追加レンダリング）する。レンダリング部１６は、１以上の音響処理それぞれで取得された係数を用いて音情報を畳み込み演算した結果を、音響制御情報として出力する。レンダリング部１６の処理の詳細は、図６を用いて後述する。なお、レンダリングとは、所定の音量で、かつ、所定の出音位置から音が出音されているように、空間の室内環境に応じて音情報を調整する処理である。

　センサ２０は、空間内をセンシング可能な位置及び姿勢で取り付けられ、空間内の変化をセンシングする。また、センサ２０は、空間内に配置され、立体音響処理装置１０と通信可能に接続される。センサ２０は、空間内の物体の形状、位置等をセンシング可能である。また、センサ２０は、空間内の物体の種類を特定可能であってもよい。センサ２０は、例えば、カメラなどの撮像装置を含んで構成される。

　センサ２０は、ＡＲデバイスから位置情報及び使用中であることを示す情報を取得することで、センサ２０が設けられた空間にＡＲデバイスが位置しているか否か、及び、ＡＲデバイスが起動中であるか否かを判定してもよい。

　出音装置３０は、立体音響処理装置１０から取得した音響制御情報に基づいて、出音する。出音装置３０は、スピーカ、ＣＰＵなどの処理部等を有する。

　［２．立体音響処理装置の動作］
　続いて、上記のように構成される立体音響処理装置１０の動作について、図２～図６を参照しながら説明する。

　まずは、ＡＲデバイスの使用前の動作について、図２を参照しながら説明する。図２は、ＡＲデバイスの使用前における、本実施の形態に係る立体音響処理装置１０の動作（立体音響処理方法）を示すフローチャートである。なお、図２に示す処理は、立体音響処理装置１０以外の装置により実行されてもよい。

　図２に示すように、取得部１１は、空間の音響特徴量を含む空間情報を取得する（Ｓ１０）。取得部１１は、例えば、センサ２０から空間情報を取得する。

　次に、音響処理部１５は、空間情報を用いて、複数の音響処理のそれぞれを実行する（Ｓ２０）。

　次に、レンダリング部１６は、複数の音響処理のそれぞれ処理結果（第２処理結果の一例）を用いて、音情報に対してレンダリング処理を実行する（Ｓ３０）。レンダリング部１６は、レンダリング処理として、複数の音響処理それぞれの処理結果（例えば、係数）を統合し、統合した処理結果を用いて音情報に対して畳み込み演算する。レンダリング部１６は、例えば、音響処理として、人の頭部の特性又は空間の特性（反射又は残響といった音響処理）を反映したＢＲＩＲ（Ｂｉｎａｕｒａｌ　Ｒｏｏｍ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ：バイノーラル室内インパルス応答）を計算し、計算したＢＲＩＲを音情報に対して畳み込み込み演算する。なお、音響処理は、これに限定されず、ＨＲＩＲ（Ｈｅａｄ　Ｒｅｌａｔｅｄ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅ：頭部インパルス応答）などを計算することであってもよいし、他の音響処理であってもよい。これにより、事前に取得された空間情報に応じた音を再生可能な音情報が生成される。

　続いて、ＡＲデバイスの使用中の動作について、図３～図６を参照しながら説明する。図３は、ＡＲデバイスの使用中における、本実施の形態に係る立体音響処理装置１０の動作（立体音響処理方法）を示すフローチャートである。なお、図３では、取得部１１が検出部としての機能を有する場合の動作について説明する。

　取得部１１は、ＡＲデバイスの使用中に、当該ＡＲデバイスが位置する空間をセンサ２０がセンシングしたセンシングデータを取得する（Ｓ１１０）。センシングデータには、空間の形状及び大きさ、空間内に位置する物体の大きさ及び位置を示す情報などが含まれる。取得部１１は、例えば、センシングデータを定期的又はリアルタイムに取得する。センシングデータは、変化情報の一例である。

　次に、取得部１１は、センシングデータに基づいて、空間の変化（空間内の変化）があるか否かを判定する（Ｓ１２０）。取得部１１は、ステップＳ１０で取得された空間情報、又は、直近に取得されたセンシングデータと、ステップＳ１１０で取得されたセンシングデータとから、空間の変化があるか否かを判定する。取得部１１は、空間内の物体の移動、増減、変形などがある場合に、ステップＳ１１０においてＹｅｓと判定する。なお、以下では、ステップＳ１１０で取得されたセンシングデータの比較対象が、ステップＳ１１０で取得された空間情報である例について説明する。また、以下では、実空間に物体が増加した場合の動作を一例として説明する。

　次に、更新部１２は、取得部１１により空間の変化があると判定された場合（Ｓ１２０でＹｅｓ）、簡易的なオブジェクト（形状モデル）を空間（空間情報）に挿入する（Ｓ１３０）。形状モデルを空間に挿入することは、空間情報を更新することの一例である。

　図４は、空間情報が示す空間２００に形状モデル２１０を挿入することを説明するための図である。ここでは、変化情報に含まれる物体が人である例について説明する。

　図４の（ａ）は、事前に取得された空間情報が示す空間２００と、人に対応する簡易的なオブジェクトである形状モデル２１０とを示している。

　図４の（ｂ）は、空間２００に簡易的なオブジェクト（形状モデル２１０）が挿入された後の空間情報が示す空間２００ａを示す。図４の（ｂ）では、空間２００ａ内に形状モデル２１０が挿入されている。形状モデル２１０は、当該物体の実空間での位置に対応する空間２００ａ内の位置に挿入される。物体の実空間での位置は、センサ２０から取得されたセンシングデータに含まれる。

　また、更新部１２は、取得部１１により空間の変化がないと判定された場合（Ｓ１２０でＮｏ）、ステップＳ１１０に戻り処理を継続する。

　次に、制御部１４は、形状モデル２１０が挿入された空間情報が示す空間２００ａの音響特徴量に影響があるか否かを判定する（Ｓ１４０）。制御部１４は、空間のシーンの性質、音源の性質、及び、物体の位置などの少なくとも１つに基づいて、ステップＳ１４０の判定を行う。当該判定は、物体に応じた音響処理を実行するか否か（例えば、追加レンダリングを行う必要があるか否か）を判定することに相当する。また、制御部１４は、複数種類の物体が増加した場合、当該複数種類の物体のそれぞれに対して、ステップＳ１４０の判定を実行してもよい。

　シーンの性質は、ＡＲデバイスで再現している物体（仮想物体）の音響特徴量を含む。音源の性質は、音情報が示す音の性質であり、例えば、車のエンジン音などの響く音であるか、籠もる音であるかなどの音源の特徴を含む。

　制御部１４は、例えば、空間に増加した物体に関する情報に基づいて、空間の音響特徴量に影響があるか否かを判定してもよい。制御部１４は、例えば、増加した物体の数、増加した物体の大きさ又は形状などに基づいて、空間の音響特徴量に影響があるか否かを判定してもよい。制御部１４は、例えば、増加した物体の数が所定数以上である場合、又は、増加した物体の大きさが所定の大きさ以上である場合、空間の音響特徴量に影響があると判定してもよい。

　また、制御部１４は、例えば、事前に取得された空間情報に含まれる物体（現実物体）の位置、及び、ＡＲデバイスで再現された物体（仮想物体）の一方と、増加した物体（現実物体）との距離に基づいて、空間の音響特徴量に影響があるか否かを判定してもよい。制御部１４は、当該距離が所定距離以下である場合、物体間の相互作用により空間の音響特徴量が変化することが想定されるので、空間の音響特徴量に影響があると判定する。これは、音響処理を実行する、つまり追加レンダリングを実行すると判定することに相当する。また、制御部１４は、当該距離が所定距離より大きい場合、物体間の相互作用による空間の音響特徴量への影響が小さいことが想定されるので、音響特徴量に影響がないと判定する。これは、音響処理を実行しない、つまり追加レンダリングを実行しないと判定することに相当する。

　なお、空間の音響特徴量に影響があるか否かに用いられる距離は、物体（仮想物体）の音響特徴量、音源の性質ごとに設定されており、記憶部１３に記憶されていてもよい。また、制御部１４は、ステップＳ１４０の判定において、さらに空間内の物体それぞれの性質（硬い、柔らかいなど）を用いてもよい。

　なお、制御部１４は、物体の性質（例えば、硬さ、大きさなど）と、音響処理を実行するか否かとが対応付けられたテーブルを用いて、ステップＳ１４０の判定を実行してもよい。

　図５は、空間に生じる変化、及び、音響処理の第１例を説明するための図である。図５の（ａ）は、実空間３００にＡＲデバイス１ａを装着したユーザＵが位置しており、ＡＲデバイス１ａの使用中に、１人の人５０が増加した場合の実空間３００内の様子を示している。なお、出音装置４０は、ＡＲデバイス１ａにより再現されている仮想物体であり、実空間３００内に実際に存在しない物体である。この場合、立体音響処理装置１０は、出音装置４０から出力されユーザＵに届く音を再現する。

　１人の人５０の増加による実空間３００の音響特徴量への影響が小さいと考えられるので、この場合、追加のレンダリング処理は実行されない。制御部１４は、例えば、増加した人５０の人数が所定数未満である場合、追加レンダリング処理を実行しないと判定してもよい。また、制御部１４は、例えば、増加した人５０がユーザＵから所定距離より大きく離れている場合、影響がない、例えば、追加レンダリング処理を実行しないと判定してもよい。

　なお、追加レンダリング処理とは、ＡＲデバイスの使用中に並行して音響処理を実行し、実行された音響処理の処理結果を用いて、レンダリングを実行する処理のことである。

　図６は、空間に生じる変化、及び、音響処理の第２例を説明するための図である。図６の（ａ）は、実空間３００にＡＲデバイス１ａを装着したユーザＵが位置しており、ＡＲデバイス１ａの使用中に、複数の人５０が増加した場合の実空間３００内の様子を示している。

　複数の人５０の増加によって実空間３００の音響特徴量への影響が大きいと考えられるので、この場合、追加レンダリング処理は実行される。制御部１４は、例えば、増加した人５０の人数が所定数以上である場合、影響がある、例えば、音情報に対する追加レンダリング処理を実行すると判定してもよい。

　図３を再び参照して、制御部１４は、影響があると判定する（Ｓ１４０でＹｅｓ）とステップＳ１５０に進み、影響がないと判定する（Ｓ１４０でＮｏ）とステップＳ１１０に進み、処理を継続する。このように、制御部１４は、判定部として機能する。

　次に、制御部１４は、影響があると判定する（Ｓ１４０でＹｅｓ）と、変化情報に基づく１以上の音響処理を決定する（Ｓ１５０）。制御部１４は、例えば、物体の種類に基づいて、１以上の音響処理を決定してもよい。制御部１４は、物体の種類と、１以上の音響処理とが対応付けられたテーブルを用いて、影響があると判定された物体において実行する必要がある１以上の音響処理を決定してもよい。当該テーブルは、物体の性質に応じて作成される。例えば、物体が硬い場合、音響特徴量である反射特性に影響を与えるので、音の反射に関する処理を含む１以上の音響処理が対応付けられる。このように、制御部１４は、物体の音響特性に基づいて、１以上の音響処理を決定してもよい。

　また、制御部１４は、出音装置４０と、ユーザＵと、物体との位置関係及び当該物体の大きさに基づいて、１以上の音響処理を決定してもよい。制御部１４は、例えば、出音装置４０とユーザＵとの間に所定以上の大きさの物体が増加した場合、オクルージョンに影響を与える可能性があるので、音のオクルージョンに関する処理を含む１以上の音響処理を決定してもよい。なお、出音装置４０とユーザＵとの間に所定未満の大きさの物体が増加した場合、空間の音響特徴量に対する影響が小さいので、ステップＳ１４０でＮｏと判定されてもよい。

　なお、当該テーブルは、物体の音響特徴量（音響特性）と１以上の音響処理とが対応付けられたテーブルであってもよい。

　次に、音響処理部１５は、制御部１４により決定された１以上の音響処理を実行する（Ｓ１６０）。言い換えると、音響処理部１５は、ステップＳ１６０において、複数の音響処理のうち決定された１以上の音響処理以外の音響処理を実行しない。

　図６の（ｂ）に示す音響処理（初期）では、図２に示すステップＳ２０で実行される音響処理であり、Ａ、Ｂ（Ｂ１）、Ｃ、Ｄ（Ｄ１）、Ｅ（Ｅ１）の互いに異なる５つの音響処理のそれぞれが実行される。一方、図６の（ｂ）に示す音響処理（追加分）は、図３に示すステップＳ１５０で実行される音響処理であり、１以上の音響処理として決定されたＢ（Ｂ２）、Ｄ（Ｄ２）、Ｅ（Ｅ２）の３つの音響処理のみが実行される。なお、Ｂ１及びＢ２、Ｄ１及びＤ２、Ｅ１及びＥ２のそれぞれは同一の音響特徴量に関する音響処理であり、処理に用いられた空間情報が異なる。音響処理Ｂ（Ｂ２）、Ｄ（Ｄ２）、Ｅ（Ｅ２）それぞれの処理結果は、第１処理結果の一例であり、音響処理Ａ及びＣそれぞれの処理結果は、第２処理結果の一例である。

　このように、ステップＳ１５０において、ステップＳ２０で実行された音響処理のうち、一部の音響処理のみが実行される。言い換えると、ステップＳ１５０において、ステップＳ２０で実行された複数の音響処理の全ては実行されない。これにより、５つの音響処理を全て実行する場合に比べて、立体音響処理装置１０の演算量を低減することができる。

　次に、レンダリング部１６は、１以上の音響処理それぞれの処理結果を用いて、音情報にレンダリング処理（追加レンダリング処理）を実行する（Ｓ１７０）。レンダリング部１６は、図６の（ｂ）に示す音響処理（初期）及び（追加分）それぞれの処理結果を用いてレンダリング（図６の（ｂ）に示す最終レンダリング）を実行する。レンダリング部１６は、Ａ、Ｂ（Ｂ２）、Ｃ、Ｄ（Ｄ２）、Ｅ（Ｅ２）の５つの音響処理のそれぞれの処理結果を用いてレンダリングを実行する。レンダリング部１６は、Ｂ（Ｂ１）に優先してＢ（Ｂ２）の音響処理の処理結果を用いる。音響処理Ｄ（Ｄ２）及びＥ（Ｅ２）についても同様である。レンダリング部１６は、一の音響処理における最新の空間情報を用いた音響処理の処理結果を当該一の音響処理における過去の処理結果に優先して用いるとも言える。

　このように、立体音響処理装置１０は、ＡＲデバイスの使用中における音情報のレンダリング（追加レンダリング）において、１以上の音響処理それぞれの処理結果（第１処理結果の一例）と、複数の音響処理のうち１以上の音響処理を除く他の１以上の音響処理それぞれの処理結果（第２処理結果の一例）であって、予め取得された第２処理結果とに基づいて、音情報をレンダリングする。また、立体音響処理装置１０は、他の１以上の音響処理それぞれが再計算されることを抑制し、増加した物体に応じた必要な音響処理のみを再計算するとも言える。

　図３を再び参照して、レンダリング部１６は、レンダリング処理(追加レンダリング処理)された音情報（音響制御情報）を出音装置３０に出力する（Ｓ１８０）。これにより、出音装置３０は、その時点での空間内の状況に応じた音を出力することができる。

　なお、ステップＳ１１０～Ｓ１８０の処理は、ＡＲデバイスの使用中に実行される。

　なお、図５の（ｂ）に示す音響処理は、図６の（ｂ）に示す音響処理（初期）に対応する。

　（その他の実施の形態）
　以上、一つ又は複数の態様に係る立体音響処理方法等について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示に含まれてもよい。

　例えば、上記実施の形態では、立体音響処理装置は、更新部及び制御部の両方を備える例について説明したが、更新部及び制御部の少なくとも１つを備えていればよい。例えば、立体音響処理装置は、更新部及び制御部のうち更新部のみを備えていてもよい。このような立体音響処理装置は、ＡＲデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、ＡＲデバイスにおいて音を含むコンテンツの出力中に、ＡＲデバイスが位置する空間内の変化を示す変化情報を取得し、変化情報に含まれる物体であって変化が生じた物体を簡易的に示す形状モデルを、事前に取得された当該空間の空間情報が示す空間に挿入する更新部（挿入部）と、物体を簡易化した形状モデルを用いて、音を示す音情報をレンダリングするための複数の音響処理に対して音響処理を実行する音響処理部と、実行された複数の音響処理それぞれの処理結果に基づいて、音情報をレンダリングするレンダリング部とを備える。また、本開示は、当該立体音響処理装置が実行する立体音響処理方法、及び、当該立体音響処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。

　また、上記実施の形態では、ＡＲデバイスの使用中における物体の変化が、現実物体の変化である例について説明したがこれに限定されず、仮想物体の変化であってもよい。つまり、ＡＲデバイスの使用中における物体の変化は、仮想物体の移動、増減、変形などであってもよい。この場合、立体音響処理装置の取得部は、ＡＲデバイスの表示を制御する表示制御装置から変化情報を取得する。

　また、上記実施の形態では、立体音響処理装置がＡＲデバイスに搭載される例について説明したが、サーバに搭載されていてもよい。この場合、ＡＲデバイスとサーバとは、通信可能（例えば、無線通信可能）に接続される。また、立体音響処理装置は、室内で用いられ、音を出音するいかなる装置に搭載、又は、接続されていてもよい。当該装置は、据え置き型のオーディオ機器であってもよいし、ゲーム機（例えば、携帯型のゲーム機）であってもよい。

　また、上記実施の形態では、更新部は、形状モデルをそのまま空間に挿入する例について説明したがこれに限定されず、例えば、形状モデルの大きさ（例えば、高さ）をセンシングデータに応じて変化させてから空間に挿入してもよい。また、更新部は、センシングデータに含まれる物体の形状に基づいて、複数の形状モデルを組み合わせて当該物体の形状に応じた新たな形状モデルを生成し、生成した新たな形状モデルを空間に挿入してもよい。

　また、上記実施の形態に係る空間内の変化は、例えば、空間自体の変化を含んでいてもよい。空間自体の変化とは、例えば、２つの空間の間に配置された、扉、ふすまなどが開かれる又は閉じられることで、空間自体の大きさ及び形状の少なくとも一方が変化することである。

　また、上記実施の形態では、形状モデルを用いる場合について説明したがこれに限定されず、一部の物体においては、当該物体の形状そのものを用いてステップＳ１４０以降の処理が実行されてもよい。制御部は、例えば、ステップＳ１２０とステップＳ１３０との間に、変化情報に含まれる物体の種類又は物体の形状に基づいて、当該物体の形状を形状モデルに置き換えるか否かを判定してもよい。そして、制御部は、置き換えると判定した場合のみ、ステップＳ１３０を実行し、置き換えないと判定した場合には、当該物体そのものの形状を空間に挿入してもよい。制御部は、例えば、物体の種類又は物体の形状に基づいて、音響処理における演算量が所定量以下であると想定される場合、置き換えないと判定してもよい。制御部は、物体の種類又は物体の形状と、置き換えるか否かとが対応付けられたテーブルに基づいて、当該判定を実行してもよい。また、当該テーブルは、事前に設定され、記憶部に記憶されている。

　また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、フローチャートにおける各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が他のステップと同時（並列）に実行されてもよいし、上記ステップの一部は実行されなくてもよい。

　また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

　また、上記実施の形態に係る立体音響処理装置は、単一の装置として実現されてもよいし、複数の装置により実現されてもよい。例えば、立体音響処理装置が有する各構成要素のうち少なくとも一部は、サーバなどのＡＲデバイスと通信可能な装置により実現されてもよい。立体音響処理装置が複数の装置によって実現される場合、当該立体音響処理装置が有する各構成要素は、複数の装置にどのように振り分けられてもよい。立体音響処理装置が複数の装置で実現される場合、当該複数の装置間の通信方法は、特に限定されず、無線通信であってもよいし、有線通信であってもよい。また、装置間では、無線通信及び有線通信が組み合わされてもよい。

　また、上記実施の形態で説明した各構成要素は、ソフトウェアとして実現されても良いし、典型的には、集積回路であるＬＳＩとして実現されてもよい。これらは、個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路（専用のプログラムを実行する汎用回路）又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）又は、ＬＳＩ内部の回路セルの接続若しくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて構成要素の集積化を行ってもよい。

　システムＬＳＩは、複数の処理部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等を含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

　また、本開示の一態様は、図２及び図３のいずれかに示される立体音響処理方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。

　また、例えば、プログラムは、コンピュータに実行させるためのプログラムであってもよい。また、本開示の一態様は、そのようなプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。例えば、そのようなプログラムを記録媒体に記録して頒布又は流通させてもよい。例えば、頒布されたプログラムを、他のプロセッサを有する装置にインストールして、そのプログラムをそのプロセッサに実行させることで、その装置に、上記各処理を行わせることが可能となる。

　なお、本開示においてレンダリングされる音情報（音信号）は、音情報（音信号）及びメタデータを含む符号化されたビットストリームとして立体音響処理装置１０の外部の記憶装置（不図示）又は記憶部１３から取得されてもよい。例えばＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）等の所定の形式で符号化されたビットストリームとして音情報が立体音響処理装置１０に取得されてもよい。その場合、抽出部（不図示）が立体音響処理装置１０に含まれていてもよく、抽出部は上記のＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏなどに基づいて符号化されたビットストリームに対して復号処理を施す。例えば、抽出部は、デコーダとして機能する。抽出部は、符号化されたビットストリームを復号し、復号した音信号及びメタデータを制御部１４に与える。また、抽出部が立体音響処理装置１０の外部に存在し、制御部１４が復号された音信号及びメタデータを取得してもよい。

　一例として、符号化された音信号は、立体音響処理装置１０によって再生される目的音についての情報を含む。ここでいう目的音は、音再生空間に存在する音源オブジェクト（仮想物体）が発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、音再生空間に音源オブジェクトが複数存在する場合、立体音響処理装置１０は、複数の音源オブジェクトのそれぞれに対応する複数の音信号を取得してもよい。

　メタデータとは、例えば、立体音響処理装置１０において音情報に対する音響処理を制御するために用いられる情報である。メタデータは、仮想空間（音再生空間）で表現されるシーンの性質を記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、立体音響処理装置１０でモデリングされる、三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響特徴量などの音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　立体音響処理装置１０は、ビットストリームに含まれるメタデータ、及び追加でセンサ２０から取得されるインタラクティブなユーザＵの位置情報等を用いて、音情報に音響処理を行うことで、仮想的な音響効果を生成する。例えば、反射音生成、オクルージョンに関する処理、回折音に関する処理、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全てまたは一部のオンオフを切り替える情報がメタデータとして付加されてもよい。制御部１４は、形状モデルが挿入された空間情報又はメタデータに基づいて、物体に対する１以上の音響処理を決定してもよい。

　なお、全てのメタデータ又は一部のメタデータは、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。

　また、映像を制御するメタデータが立体音響処理装置１０で取得されるビットストリームに含まれる場合は、立体音響処理装置１０は映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　また、一例として、符号化されたメタデータは、音を発する音源オブジェクト、及び障害物オブジェクトを含む音再生空間に関する情報と、当該音の音像を音再生空間内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報、すなわち所定方向に関する情報と、を含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がユーザＵへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザＵが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音再生空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物オブジェクトとなり得る。また、ここでいう音源オブジェクトと障害物オブジェクトとは、仮想物体でもよいし、事前に取得された実空間の空間情報に含まれる現実物体でもよい。

　メタデータを構成する空間情報として、音再生空間の形状だけでなく、音再生空間に存在する障害物オブジェクトの形状及び位置と、音再生空間に存在する音源オブジェクトの形状及び位置とをそれぞれ表す情報が含まれていてもよい。音再生空間は、閉空間又は開空間のいずれであってもよく、メタデータには、例えば床、壁、又は天井等の音再生空間において音を反射し得る構造物の反射率、及び音再生空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、音再生空間が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。

　上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして反射率が挙げられたが、メタデータは、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報が含まれていてもよい。具体的には、メタデータは、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数と種類、又はオブジェクトにおける音源領域を指定する情報等が含まれてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、ユーザＵの位置とオブジェクトの位置との相対的な関係で定められてもよいし、オブジェクトを基準として定められてもよい。ユーザＵの位置とオブジェクトの位置との相対的な関係で定められる場合、ユーザＵがオブジェクトを見ている面を基準とし、ユーザＵから見てオブジェクトの右側からは音Ｘ、左側からは音Ｙが発せられているようにユーザＵに知覚させることができる。オブジェクトを基準として定められる場合、ユーザＵの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザＵに知覚させることができる。この場合、ユーザＵがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザＵに知覚させることができる。

　空間に関するメタデータとして、初期反射音までの時間、残響時間、又は直接音と拡散音との比率等を含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをユーザＵに知覚させることができる。

　ユーザＵの位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、センサ２０から取得したセンシング情報等を用いて自己位置推定を実施して得られた位置情報がユーザＵの位置及び向きを示す情報として用いられてもよい。なお、音情報とメタデータとは、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音情報とメタデータとは、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　音情報とメタデータとが複数のビットストリームに別々に格納されている場合、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームのうちの一つ又は一部のビットストリームに含まれていてもよい。また、関連する他のビットストリームを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。音情報とメタデータとが複数のファイルに別々に格納されている場合、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のファイルのうちの一つ又は一部のファイルに含まれていてもよい。また、関連する他のビットストリーム又はファイルを示す情報が、音情報とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。

　ここで、関連するビットストリーム又はファイルとはそれぞれ、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリームを示す情報は、音情報とメタデータとを格納した複数のビットストリームのうちの一つのビットストリームのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のビットストリームのうちの二以上のビットストリームのメタデータ又は制御情報に分割して記述されていてもよい。同様に、関連する他のビットストリーム又はファイルを示す情報は、音情報とメタデータとを格納した複数のファイルのうちの一つのファイルのメタデータ又は制御情報にまとめて記述されていてもよいし、音情報とメタデータとを格納した複数のファイルのうちの二以上のファイルのメタデータ又は制御情報に分割して記述されていてもよい。また、関連する他のビットストリーム又はファイルを示す情報を、まとめて記述した制御ファイルが音情報とメタデータとを格納した複数のファイルとは別に生成されてもよい。このとき、制御ファイルは音情報とメタデータとを格納していなくてもよい。

　ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、ＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）、又はＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）等である。この場合、取得部１１は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、関連する他のビットストリームを示す情報が音情報とメタデータとを格納した複数のビットストリームのうちの少なくとも一部のビットストリームのメタデータ又は制御情報に含まれていると共に、関連する他のファイルを示す情報が音情報とメタデータとを格納した複数のファイルのうちの少なくとも一部のファイルのメタデータ又は制御情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。

　抽出部（不図示）は、符号化されたメタデータを復号し、復号したメタデータを制御部１４に与える。制御部１４は、取得したメタデータを音響処理部１５およびレンダリング部１６に与える。ここで、制御部１４は、音響処理部１５およびレンダリング部１６などの複数の処理部にそれぞれ同じメタデータを与えるのではなく、処理部ごとに、対応する当該処理部で必要なメタデータを与えてもよい。

　また、取得部１１は、センサ２０で検知された回転量又は変位量等とユーザＵの位置及び向きとを含む検知情報を取得する。取得部１１は、取得した検知情報に基づいて、音再生空間におけるユーザＵの位置及び向きを決定する。より具体的には、取得部１１は、取得した検知情報が示すユーザＵの位置及び向きが、音再生空間におけるユーザＵの位置及び向きであることを決定する。そして、更新部１２は、決定したユーザＵの位置及び向きに応じて、メタデータに含まれる位置情報を更新する。したがって、制御部１４が音響処理部１５およびレンダリング部１６に与えるメタデータは、更新された位置情報を含むメタデータである。

　本実施の形態では立体音響処理装置１０は、音響効果を付加した音信号を生成するレンダラとしての機能を有するが、レンダラの機能の全て又は一部をサーバが担ってもよい。つまり、抽出部（不図示）、取得部１１、更新部１２、記憶部１３、制御部１４、音響処理部１５及びレンダリング部１６の全て又は一部は、図示していないサーバに存在してもよい。その場合、サーバ内で生成された音信号又は合成した音信号は、図示しない通信モジュールを通じて立体音響処理装置１０で受信され、出音装置３０で再生される。

　本開示は、ＡＲデバイスで出力される音を示す音情報を処理する装置等に有用である。

　１　　立体音響再生システム
　１ａ　　ＡＲデバイス
　１０　　立体音響処理装置
　１１　　取得部
　１２　　更新部
　１３　　記憶部
　１４　　制御部（決定部）
　１５　　音響処理部
　１６　　レンダリング部
　２０　　センサ
　３０、４０　　出音装置
　５０　　人
　２００、２００ａ　　空間
　２１０　　形状モデル
　３００　　実空間
　Ｕ　　ユーザ

Claims

　ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）デバイスを用いた立体音響の再生に用いられる立体音響処理方法であって、
　前記ＡＲデバイスにおいて音を含むコンテンツの出力中に、前記ＡＲデバイスが位置する空間内の変化を示す変化情報を取得し、
　前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく１以上の音響処理を決定し、
　前記複数の音響処理のうち決定された前記１以上の音響処理に対してのみ音響処理を実行し、
　実行された前記１以上の音響処理それぞれの第１処理結果に基づいて、前記音情報をレンダリングする、
　立体音響処理方法。
　前記音情報のレンダリングにおいて、前記１以上の音響処理それぞれの前記第１処理結果と、前記複数の音響処理のうち前記１以上の音響処理を除く他の１以上の音響処理それぞれの第２処理結果であって、予め取得された第２処理結果とに基づいて、前記音情報をレンダリングする、
　請求項１に記載の立体音響処理方法。
　前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、
　前記１以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置の少なくとも一方に基づいて、前記１以上の音響処理を決定する、
　請求項１又は２に記載の立体音響処理方法。
　前記１以上の音響処理の決定では、前記物体の音響特性、及び、前記物体の位置を用いており、
　前記物体の位置に基づいて、前記物体に応じた前記１以上の音響処理を実行するか否かを判定し、
　前記１以上の音響処理を実行すると判定された場合、前記物体の音響特性に基づいて、前記１以上の音響処理を決定する、
　請求項３に記載の立体音響処理方法。
　前記変化情報には、前記空間内において変化した物体を示す情報が含まれ、
　前記物体を簡易化した形状モデルを用いて、前記１以上の音響処理を実行する、
　請求項１又は２に記載の立体音響処理方法。
　前記物体の種類に基づいて、複数の形状モデルを予め記憶した記憶部から、当該物体に対応する形状モデルを読み出すことで、前記形状モデルを取得する、
　請求項５に記載の立体音響処理方法。
　前記空間を示す空間情報に前記形状モデルを挿入し、
　前記形状モデルが挿入された前記空間情報に基づいて、前記１以上の音響処理を決定する、
　請求項５に記載の立体音響処理方法。
　ＡＲデバイスを用いた立体音響の再生に用いられる立体音響処理装置であって、
　前記ＡＲデバイスにおいて音を含むコンテンツの出力中に、前記ＡＲデバイスが位置する空間内の変化を示す変化情報を取得する取得部と、
　前記音を示す音情報をレンダリングするための複数の音響処理のうち、前記変化情報に基づく１以上の音響処理を決定する決定部と、
　前記複数の音響処理のうち決定された前記１以上の音響処理に対してのみ音響処理を実行する音響処理部と、
　実行された前記１以上の音響処理それぞれの第１処理結果に基づいて、前記音情報をレンダリングするレンダリング部とを備える、
　立体音響処理装置。
　請求項１又は２に記載の立体音響処理方法をコンピュータに実行させるためのプログラム。