JP2021005822A

JP2021005822A - 音声処理装置および音声処理方法

Info

Publication number: JP2021005822A
Application number: JP2019119515A
Authority: JP
Inventors: 裕介小長井; Yusuke Konagai
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2021-01-14
Anticipated expiration: 2039-06-27
Also published as: CN112148117A; CN112148117B; US20200413213A1; JP7342451B2; US11076254B2

Abstract

【課題】ドリフトが発生しても、リスナーの頭部の向きを精度良く求める。【解決手段】音声処理装置は、リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、方向情報を平均化した平均情報に基づいて、センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、再生対象の音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部と、を含む。【選択図】図１

Description

本開示は、音声処理装置および音声処理方法に関する。

リスナーがヘッドホンなどを装用すると、音像が頭内に定位する。音像が頭内に定位すると、リスナーに不自然な感覚を与えるので、頭部伝達関数（Head Related Transfer Function）を用いて音源を仮想的な位置に作成し、あたかも当該音源の位置から音が発せられているかのように音像を定位させる技術が知られている。ただし、単純に頭部伝達関数を用いて音像を定位させるだけでは、頭部の向く方向が変化したときに、当該方向に追従して、音源の位置が移動してしまう。

そこで、加速度センサーやジャイロセンサー（角速度センサー）などのセンサーの検出信号に基づく演算によりリスナーの頭部が向く方向を求め、頭部の向く方向が変化しても、音源の位置が移動しないように音像伝達関数を適用する技術が提案されている（例えば特許文献１参照）。

特開２０１０−５６５８９号公報

しかしながら、センサーの検出信号に基づく演算により求められる方向は、あるタイミングで検出された方向を初期値とし、その後、積分演算等による相対値として算出される。したがって、センサーを用いて求められる方向には、ノイズ等による誤差が蓄積されてしまう現象（ドリフト）が発生する。このドリフトのために、センサーを用いて求められる方向が時間経過とともに不正確となるので、上記技術では、音像の位置を正確に定位させることができない、という課題がある。

実施形態に係る音声処理装置は、リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、前記検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、前記方向情報を平均化した平均情報に基づいて、前記センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部と、を含む。

実施形態に係る音声再生装置を適用したヘッドホンの構成を示す図である。音声再生装置におけるオフセット値算出処理を示すフローチャートである。音声再生装置における音像定位処理を示すフローチャートである。音声再生装置の使用例を示す図である。リスナーの頭部が向く方向を説明するための図である。リスナーの頭部が向く方向を説明するための図である。音声再生装置により作成される音像の位置を示す図である。音声再生装置により付与される音像の位置を示す図である。

以下、実施形態について図面を参照して説明する。なお、図面において各部の寸法および縮尺は実際のものと適宜に異ならせてある。また、以下に記載する実施形態は、本開示の好適な具体例である。このため、本実施形態には、技術的に種々の限定が付されている。しかし、本開示の範囲は、以下の説明において特に本開示を限定する旨の記載がない限り、これらの形態に限られるものではない。

実施形態に係る音声処理装置は、典型的には、２個のスピーカーとヘッドバンドとを組み合わせた、いわゆる耳掛け型のヘッドホンに適用される。このヘッドホンについて説明する前に、便宜的にドリフトによる影響を小さくする技術の概要について説明する。

図４は、リスナーＬがヘッドホン１を装用する例を示す図である。
ヘッドホン１のヘッドバンド３には、ヘッドホンユニット４０Ｌ、４０Ｒおよびセンサー５が設けられる。センサー５は、例えば３軸のジャイロセンサーである。ヘッドホンユニット４０Ｌおよび４０Ｒには、後述するように信号を音響に変換するスピーカーがそれぞれ設けられる。レフトチャンネルの信号は音響に変換されてリスナーＬの左耳に、ライトチャンネルの信号は音響に変換されてリスナーＬの右耳に、それぞれ出力される。

外部端末２００は、例えばスマートホンおよび携帯ゲーム機器などの携帯型端末であり、ヘッドホン１によって再生の対象となる音声信号を出力する。このような外部端末２００から出力される音声信号が、リスナーＬに装用されたヘッドホン１を介して再生される場合としては、例えば次のような場合が想定される。
まず、外部端末２００に表示されたビデオやゲームなどの映像に同期する音声信号がヘッドホン１を介して再生される場合が想定される。この場合、リスナーＬは、外部端末２００の画面、特にメインとなるべきオブジェクト（登場人物やゲームキャラクターなど）が表示される画面の中央を注視する、と考えられる。
また、外部端末２００から出力される音楽などの音声信号が、映像なしでヘッドホン１を介して再生される場合が想定される。この場合、画面の表示を伴わないので、すなわち、注視すべきオブジェクトが存在しないので、リスナーＬは、音楽等の聴取に集中するために一定の方向に向き続ける、と考えられる。
つまり、いずれの場合でも、ヘッドホン１を装用したリスナーは、比較的長い期間にわたって平均的にみれば、ほぼ一定の方向に向き続ける、と考えられる。

センサー５は、ヘッドホン１の任意の位置に設けられ、姿勢変化に応じた検出信号を出力する。リスナーＬの頭部が向く方向それ自体は、周知のように、当該検出信号に対して、回転変換や、座標変換、または、積分演算などの演算処理が施されることによって求められる。説明を簡易化するために、センサー５をヘッドバンド３の中央に設けた場合のリスナーＬの頭部が向く方向を、図６および図７に示されるような極座標で表すことにする。

詳細には、リスナーＬの頭部が向く方向の成分のうち、仰角をθ（度）とし、水平角をφ（度）として、（θ、φ）と表すことする。なお、方向Ａは、リスナーＬの頭部がヘッドホン１の装用時に向き続ける方向を示す。方向Ａを、基準の方向（０、０）としている。仰角θの正負については、例えば方向Ａに対して上向きを正（＋）とし、下向きを負（−）としている。また、水平角φの正負については、例えば方向Ａに対して平面視したときに反時計回りを正（＋）とし、時計回りを負（−）としている。

リスナーＬがヘッドホン１を装用すると、ヘッドバンド３がリスナーＬの頭部とともに姿勢変化するので、センサー５から出力される検出信号を演算することで、リスナーＬの頭部が向く方向を求めることができる。

あるタイミングにおいて、リスナーＬの頭部が実際に向く方向を（θs、φs）とする。また、ドリフトに伴う誤差のうち、仰角の誤差をθeとし、水平角の誤差をφeとした場合、センサー５の検出信号に基づく演算により求められる方向（センサー５の検出方向）は、これらの誤差を含むことから、（θs＋θe、φs＋φe）と表すことができる。
したがって、あるタイミングにおいて、例えばヘッドホン１を装用するリスナーＬの頭部が実際に向く方向は、検出方向（θs＋θe、φs＋φe）から、誤差の方向（θe、φe）を減算することで、詳細には、検出方向のうち、仰角の（θs＋θe）から、誤差の方向のうちの仰角（θe）を減算するとともに、検出方向の水平角（φs＋φe）から、誤差の水平角（φe）を減算することで、求めることができる。
このように本説明において、ある方向から別の方向を減算するとは、ある方向を示す成分から別の方向を示す同一成分を減算することを、各成分について実行することをいう。
また、誤差の方向（θe、φe）は、リスナーＬの頭部が実際に向く方向（θs、φs）をオフセットさせるので、オフセット方向と称されることがある。
本実施形態においてオフセット方向（θe、φe）は、次のようにして求めることができる。

上述したように、ヘッドホン１を装用するリスナーＬの頭部は、平均的にみて方向Ａに向き続ける。したがって、頭部が方向Ａに向き続けた場合に、センサー５の検出方向を比較的長い期間にわたった平均化した場合の方向は（０、０）となるはずである。
しかしながら、センサー５の検出方向には、誤差としてのオフセット方向（θe、φe）が含まれる。このオフセット方向のため、検出方向は（０＋θe、０＋φe）として求められる。
逆にいえば、オフセット方向（θe、φe）は、センサー５の検出方向を、比較的長い期間にわたって平均化することで求めることができる。
なお、本説明において、検出方向の平均化とは、異なる時間において求められた２以上の検出方向について、同一成分同士を平均化することをいう。

本実施形態において、検出方向が、例えば所定の周期（例えば０．５秒）毎に出力される。
そして、本実施形態では、センサー５の検出方向が比較的長い期間分、例えば１５秒間分にわたって蓄積され、その期間に蓄積された検出方向が平均化されることで、オフセット方向が算出される。
さらに、本実施形態では、このような算出が当該期間毎に繰り返されて、オフセット方向が更新される、という構成となっている。

また、あるタイミングで求められた検出方向には、過去の平均的な方向から著しく離間している場合がある。この場合、当該検出方向は、何かのきっかけでリスナーＬが方向Ａから極端に外れた方向に向いた状態でサンプリングされた、または、突発的なノイズ等が重畳された、と考えられる。このため、当該検出方向を、次回の平均化に算入すると、当該平均化で算出されるオフセット方向の信頼性に悪影響を与える。そこで、本実施形態では、過去の平均化によって求められたオフセット方向と比較してしきい値以上離間している検出方向については、次回の平均化に用いない構成としている。
なお、オフセット方向としきい値以上離間している検出方向については、平均化において、他の検出方向よりも小さな係数を乗じて重みを小さくする、としてもよい。

このようにヘッドホン１は、あるタイミングで求められた検出方向（θs＋θe、φs＋φe）から、オフセット方向（θe、φe）を減算すること、リスナーＬの頭部が向く方向を求め、当該方向に応じて頭部伝達関数を修正する。
そこで以下、このように頭部伝達関数を修正するヘッドホン１の具体的な構成について説明する。

図１は、ヘッドホン１の電気的な構成を示すブロック図である。ヘッドホン１は、上述したセンサー５のほかに、センサー信号処理部１２、センサー出力補正部１４、頭部伝達関数修正部１６、ＡＩＦ２２、アップミックス部２４、音像定位処理部２６、ＤＡＣ３２Ｌ、３２Ｒ、アンプ３４Ｌ、３４Ｒ、スピーカー４２Ｌおよび４２Ｒを含む。

ＡＩＦ（Audio InterFace）２２は、外部端末２００から、例えば無線によりデジタルで信号を受信するインターフェイスである。ＡＩＦ２２が受信する信号は、外部端末２００から出力されて、ヘッドホン１で再生される音声信号であり、より具体的には、ステレオで２チャンネルの音声信号である。ＡＩＦ２２で受信された音声信号は、アップミックス部２４に供給される。
なお、音声信号とは、人間の発声によって出力される音声の信号のみならず、人間が聴取可能な音の信号、さらには、これらの信号を変調や変換等の処理を施した信号を含み、アナログであるか、デジタルであるかを問わない。
また、ＡＩＦ２２は、外部端末２００から音声信号を有線で受信してもよいし、アナログで受信してもよい。アナログの音声信号を受信する場合、ＡＩＦ２２は、当該音声信号をデジタルに変換する。

アップミックス部２４は、２チャンネルの音声信号を、より多チャンネルに、例えば本実施形態では、５チャンネルの音声信号に変換する。なお、５チャンネルとは、例えばフロントレフトＦＬ、フロントセンターＦＣ、フロントライトＦＲ、リアレフトＲＬおよびリアライトＲＲである。
アップミックス部２４によって２チャンネルを５チャンネルに変換している理由は、サラウンド（いわゆる包まれ）感や音源の分離感により頭外定位しやすくなるためである。アップミックス部２４を敢えて設けず、２チャンネルで処理してもよいし、７チャンネル、９チャンネルのように、より多くのチャンネルに変換してもよい。

センサー信号処理部１２は、センサー５の検出信号を取得し、リスナーＬの頭部が向く方向を上述したように例えば０．５秒毎に演算して求める。すなわち、センサー信号処理部１２は、センサー５の検出方向を、０．５秒毎に出力する。なお、本実施形態において、センサー信号処理部１２は、実際には、検出方向を、仰角を示す情報および水平角を示す情報を組とする方向情報として出力する。

センサー出力補正部１４は、判定部１４２と算出部１４４と記憶部１４６と減算部１４８とを含む。
判定部１４２は、センサー信号処理部１２から出力される方向情報と記憶部１４６に記憶された平均情報との差がしきい値未満であるか否かを判定する。なお、方向情報および平均情報は、本実施形態では上述したように、リスナーＬの頭部が向く方向を、仰角の情報および水平角の情報で表している。このため、方向情報および平均情報の差がしきい値未満であるとは、例えば、当該方向情報で示される方向と平均情報で示される方向とでなす角度が、しきい値に相当する角度未満であることをいう。
判定部１４２は、方向情報と平均情報との差がしきい値未満であれば、当該方向情報を算出部１４４に供給し、しきい値以上であれば、当該方向情報を算出部１４４に供給せず、破棄する。

算出部１４４は、所定期間の１５秒間にわたって、判定部１４２から供給された方向情報を蓄積し、それら複数組の方向情報を平均化して、オフセット方向を示す平均情報として記憶部１４６に記憶させる。なお、方向情報の平均化とは、方向情報のうち、仰角同士の平均化および水平角同士の平均化をいう。
減算部１４８は、センサー信号処理部１２で求められた方向情報から、記憶部１４６に記憶された平均情報を減算する。具体的には、減算部１４８は、方向情報の仰角から平均情報の仰角を減算するとともに、方向情報の水平角から平均情報の水平角を減算する。
この減算により、センサー５の検出方向に含まれるオフセット方向が除去されるので、減算部１４８による減算結果は、ヘッドホン１を装用するリスナーＬの頭部が向く方向を、精度良く示すことになる。

頭部伝達関数修正部１６は、補正された方向情報を用いて、頭部伝達関数を修正する。ここで、修正される前の頭部伝達関数は、リスナーＬの頭部が方向Ａを向いている場合に、音源から、当該リスナーＬの頭部（外耳道入口位置または鼓膜位置）までの伝搬特性を示す。
図７は、修正前の頭部伝達関数におけるリスナーＬと音源位置との関係を平面視で簡易的に示す図である。
本実施形態において作成される音源は、リスナーＬから等距離、例えば３ｍで離間し、かつ、５チャンネルと一対一に対応して次のように位置している。詳細には、５チャンネルのうち、フロントレフトＦＬの音源が方向（３０、０）に、フロントセンターＦＣの音源が方向（０、０）に、フロントライトＦＲの音源が方向（−３０、０）に、リアレフトＲＬの音源が方向（１１５、０）に、および、リアライトＲＲの音源が方向（−１１５、０）に、それぞれ位置している。
なお、このような音源の位置からリスナーＬの頭部までの頭部伝達関数は、予めリスナーＬについて測定した結果を用いてもよい。また、予め多数の人物について求めておいた平均的な頭部伝達関数のうち、個人の特徴によって変化する部分を、リスナーＬについて実測した特徴に基づいて変更することにより得られる特性を用いてもよい。

次に、補正された方向情報を用いて、頭部伝達関数を修正する理由について説明する。
例えばリスナーＬが図７に示されるように方向Ａを向いている状態から、図８に示されるように頭部を水平角で−θc（度）だけ回転させた方向Ｂに向けた場合、頭部伝達関数を修正しないと、音源位置が白丸印で示されるように当該頭部の向きに追従して移動する現象が発生する。この現象は、リスナーＬがヘッドホン１を装用していなければ、起こり得ないので、音源位置の移動は、ヘッドホン１を装用したときの音像定位感を大きく損なうことになる。
そこで、頭部伝達関数修正部１６は、リスナーＬの頭部が回転しても、音源の位置が移動しないように、頭部の向きに応じて、頭部伝達関数を修正する。詳細には、リスナーＬが頭部を水平角で−θc（度）回転した場合、頭部伝達関数修正部１６は、各音源位置について、方向Ｂに対しそれぞれ＋θc（度）回転させた位置に変更した頭部伝達関数に修正する。
なお、ここでは簡易化のためにリスナーＬの頭部の向きが、水平方向にのみ回転した場合で説明したが、仰角方向にのみ回転する場合、水平方向および仰角方向に回転する場合も同様である。

説明を図１に戻すと、音像定位処理部２６は、アップミックス部２４により変換された５チャンネルの音声信号に、頭部伝達関数修正部１６により修正された頭部伝達関数を適用して、ヘッドホン１の再生に適した２チャンネルのステレオ信号を生成する。

音像定位処理部２６により生成された２チャンネルのステレオ信号のうち、レフトチャンネルの信号は、ＤＡＣ（Digital to Analog Converter）３２Ｌによってアナログの信号に変換される。アンプ３４Ｌは、ＤＡＣ３２Ｌによりアナログに変換された信号を増幅する。スピーカー４２Ｌは、ヘッドホンユニット４０Ｌに設けられ、アンプ３４Ｌにより増幅された信号を空気の振動、すなわち音に変換してリスナーＬの左耳に出力する。
音像定位処理部２６により生成された２チャンネルのステレオ信号のうち、ライトチャンネルの信号は、ＤＡＣ３２Ｒによってアナログの信号に変換され、アンプ３４Ｒは、当該アナログ信号を増幅する。スピーカー４２Ｒは、ヘッドホンユニット４０Ｒに設けられ、アンプ３４Ｒにより増幅された信号を空気の振動、すなわち音に変換してリスナーＬの右耳に出力する。

次に、実施形態に係るヘッドホン１の動作について説明する。
ヘッドホン１の特徴に関わる動作は、主に次の２つの処理に分けることができる。詳細には、オフセット値算出処理および音像定位処理である。このうち、オフセット値算出処理は、リスナーＬがヘッドホン１を装用している状態において、センサー信号処理部１２より算出された検出方向（方向情報）を、平均化してオフセット方向（平均情報）として算出する処理である。
また、音像定位処理は、センサー信号処理部１２により算出された検出方向を、オフセット方向で補正し、当該向きに応じて頭部伝達関数を修正して、音像を定位させる処理である。
本実施形態においてオフセット値算出処理および音像定位処理は、ヘッドホン１の装用期間にわたって、具体的には、図示省略された電源スイッチがオンされてから繰り返し実行される。
なお、オフセット値算出処理および音像定位処理は、ＡＩＦ２２によって音声信号が受信されてから開始するとしてもよいし、リスナーＬの指示または操作を契機として開始してもよい。

図２は、オフセット値算出処理を示すフローチャートである。
本実施形態においてオフセット値算出処理は、ヘッドホン１の装用期間にわたって繰り返し実行される。

まず、センサー信号処理部１２は、センサー５の検出信号を取得し、リスナーＬの頭部が向く方向を示す方向情報を、０．５秒毎に演算して求める（ステップＳ３１）。
次に、センサー出力補正部１４における判定部１４２は、方向情報と記憶部１４６に記憶された平均情報との差がしきい値未満であるか否かを判定する（ステップＳ３２）。
なお、電源スイッチのオン後に、はじめてステップＳ３２が実行された場合、記憶部１４６には、過去の平均情報が記憶されていない。ただし、記憶部１４６は、平均情報の初期値として（０、０）を与えればよい。

判定部１４２は、方向情報と平均情報との差がしきい値未満であれば（ステップＳ３２の判定結果が「Ｙｅｓ」であれば）、当該方向情報を算出部１４４に供給し、しきい値以上であれば（ステップＳ３２の判定結果が「Ｎｏ」であれば）、処理手順がステップＳ３１に戻る。このため、平均情報との差がしきい以上である方向情報は、算出部１４４に供給されない。

次に、判定部１４２は、センサー信号処理部１２により求められた方向情報の組数が所定期間分に相当する組数となったか否かを判定する（ステップＳ３３）。例えばセンサー信号処理部１２が０．５秒毎に方向情報を求める場合、所定期間が上述したように１５秒間であれば、当該所定期間分にわたった方向情報の組数は「３０」となるので、判定部１４２は、検出方向の組数が「３０」となったか否かを判定する。

方向情報の組数が所定期間の分に相当する組数未満であれば（ステップＳ３３の判別結果が「Ｎｏ」であれば）、処理手順はステップＳ３１に戻る。
一方、方向情報の組数が所定期間の分に相当する個数になれば（ステップＳ３３の判別結果が「Ｙｅｓ」になれば）、算出部１４４は、判定部１４２から供給された方向情報を、供給された組数で除して当該方向情報を平均化し、平均情報として記憶部１４６に記憶させる（ステップＳ３４）。なお、所定期間分にわたった組数の「３０」ではなく、供給された組数で除している理由は、平均情報との差がしきい以上である方向情報は、算出部１４４に供給されないためである。
なお、ステップＳ３４の後、センサー信号処理部１２により求められた方向情報の組数がクリアされて（ステップ省略）、処理手順がステップＳ３１に戻る。

このようにオフセット値算出処理によれば、ステップＳ３１〜Ｓ３４が例えば電源スイッチがオンされてから０．５秒毎に繰り返して実行される。この繰り返しによって、所定期間にわたって方向情報を平均化した平均情報（オフセット方向の仰角および水平角を示す情報）が所定期間毎に算出されて、記憶部１４６において更新される。

図３は、音像定位処理を示すフローチャートである。
まず、センサー信号処理部１２は、センサー５の検出信号を取得し、リスナーＬの頭部が向く方向を示す方向情報を、０．５秒毎に演算して求める（ステップＳ４１）。なお、このステップＳ４１は、オフセット値算出処理のステップＳ３１と共通である。

次に、センサー出力補正部１４における減算部１４８は、方向情報から平均情報を減算する（ステップＳ４２）。すなわち、減算部１４８は、検出方向からオフセット方向を減算する、より詳細には、方向情報の仰角から平均情報の仰角を減算するとともに、方向情報の水平角から平均情報の水平方向を減算する。この減算結果は、センサー５の検出方向から、当該センサー５のドリフトによる誤差、すなわちオフセット方向が除去されたものであるので、リスナーＬの頭部が向く方向を精度良く示すことになる。

頭部伝達関数修正部１６は、減算部１４８による減算結果で示される方向にしたがって音源の位置を変更し、変更した音源位置に応じて頭部伝達関数を修正する（ステップＳ４３）。

音像定位処理部２６は、アップミックス部２４により変換された５チャンネルの音声信号に、音像定位処理を施す（ステップＳ４４）。詳細には、音像定位処理部２６は、５チャンネルの音声信号に、頭部伝達関数修正部１６により修正された頭部伝達関数を適用した上で、２チャンネルの音声信号に再変換する。
なお、ステップＳ４４の後、処理手順がステップＳ４１に戻る。
このように音像定位処理によれば、ステップＳ４１〜Ｓ４４が０．５秒毎に繰り返して実行されて、検出方向に応じて音像の位置が適宜変更される。

本実施形態によれば、リスナーＬの頭部が向く方向が、方向Ａから方向Ｂに変化しても、仮想的な音源の位置が変化しないので、リスナーＬに与える音像定位感が損なわれることはない。さらに、本実施形態によれば、リスナーＬの頭部が向く方向Ｂが、ドリフト等に起因する誤差を少なくして精度良く求められるので、誤差を除去しない構成と比較して、仮想的な音源位置を、より正確な位置で作成することが可能となる。

本開示は、前述の実施形態に限定されるものではなく、以下に述べる各種の変形が可能である。また、各実施形態及び各変形例を適宜組み合わせてもよい。

実施形態において、オフセット値算出処理が、ヘッドホン１の装用期間において繰り返し実行されたが、センサー５によるドリフトは、ある程度の時間（例えば３０分）が経過したら飽和する場合がある。具体的には、センサー５の温度は、電源オンから上昇するが、相当程度の時間が経過すると、ある温度でほぼ一定となる。センサー５によるドリフトには温度依存性があるので、センサー５の温度がほぼ一定となれば、ドリフトによる誤差についてもほぼ一定となるためである。

したがって、オフセット値算出処理については、装用開始から当該時間経過した時点で停止させる構成としてもよい。
具体的には、センサー出力補正部１４において、判定部１４２が方向情報と平均情報との差がしきい値未満であるか否かの判定を停止し、算出部１４４が、判定部１４２によってしきい値未満であると判定された方向情報の平均化を停止する構成としてもよい。
このような構成によって、オフセット値算出処理が停止すると、その分、消費される電力を抑えることができる。
なお、オフセット値算出処理が停止した場合、センサー信号処理部１２から出力された方向情報から、記憶部１４６に最後に記憶された平均情報を減算すればよい。

実施形態では、オフセット方向を示す平均情報を算出するために、所定期間として１５秒期間にわたってセンサー信号処理部１２により求められた方向情報を平均化する構成とした。ヘッドホン１を装用して音声信号を再生する場合、リスナーＬは頭部の向きを極端に変更せず、ほぼ一定方向とする、という状況を考えれば、所定期間としては、１０秒以上程度であれば十分と考えられる。

再生対象となる音声の種類、種別および性質等によっては、仮想的な音源の位置を正確に修正しなくても良い場合がある。このような音声の例としては、例えば、単なる会話や、集中して聴かれることを目的としない環境音楽などが挙げられる。
したがって例えば、外部端末２００に、オフセット値算出処理および／または頭部伝達関数の修正をキャンセルさせるスイッチを設けることにより、当該スイッチの操作に応じても、ヘッドホン１の動作を制御する構成としてもよい。具体的には、スイッチの操作状態を受信部（図示省略）が受信して、当該操作状態に応じて、センサー出力補正部１４によるオフセット値算出処理の実行、および／または、頭部伝達関数修正部１６による頭部伝達関数の修正が禁止される構成としてもよい。
また、ＡＩＦ２２が受信した２チャンネルの音声信号を解析した結果に基づいて、オフセット値算出処理の実行、頭部伝達関数の修正、および、音像定位処理の実行の一部または全部を禁止させる構成としてもよい。この理由は、２チャンネルの音声信号の位相および振幅が揃っている程度が大きい（しきい値以上）の場合、モノラルまたはモノラルに近く、音源の位置が重要でないと考えられためである。

センサー５の検出方向が、方向Ａを示す平均的な方向に対して極端に離れている場合、頭部伝達関数を修正するための演算量が多くなったり、頭部伝達関数を正確に修正できなったり、するという可能性がある。そこで、方向情報と記憶された平均情報との差がしきい値以上である場合、頭部伝達関数を修正しない構成としてもよい。また、この場合、修正しない旨の警告をヘッドホン１または外部端末２００によりリスナーＬに向けて通知する構成としてもよい。

実施形態では、頭部伝達関数修正部１６が、センサー５の検出方向が求められる毎に頭部伝達関数を修正する構成であったが、ヘッドホン１を装用している場合、上述したようにリスナーＬは、ほぼ一定の方向Ａに向き続ける。したがって、センサー５の検出方向と、当該方向Ａ（平均的な方向）との差がしきい値未満であれば、頭部伝達関数を修正し、しきい値以上であれば、頭部伝達関数を修正しない構成としてもよい。
また、センサー５の検出方向の時間的な変化量が小さい場合には修正頻度を低くし、逆に、変化量が大きい場合には、修正頻度を高くしてもよい。

実施形態において、リスナーの頭部の向く方向について仰角および水平角として求めたが、さらに例えば首を左右に傾けたときの角度を加えて、音像定位処理を実行してもよい。

実施形態では、音声処理装置が、ヘッドホン１に適用された例を説明したが、リスナーの耳殻に挿入されるカナル型、および、リスナーの耳甲介に載せられるイントラコンカ型などのように、ヘッドバンドが存在しない型のイヤホンに適用されてもよい。

＜付記＞
上述した実施形態等から、例えば以下のような態様が把握される。

＜態様１＞
本開示の態様１に係る音声処理装置は、リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、前記検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、前記方向情報を平均化した平均情報に基づいて、前記センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部と、を含む。
態様１によれば、ドリフトが発生しても、リスナーの頭部の向きを精度良く求めることができるので、頭部伝達関数を適切に補正して、正確な位置に音像定位させることができる。

＜態様２＞
態様２に係る音声処理装置は、態様１において、前記センサー出力補正部は、前記センサー信号処理部から出力された方向情報から、前記平均情報を減算して、当該方向情報を補正する。態様２によれば、方向情報から平均情報を減算する、という比較的簡易に構成によって、当該方向情報を補正することができる。

＜態様３＞
態様３に係る音声処理装置は、態様２において、前記センサー出力補正部は、前記センサー信号処理部から出力された方向情報を少なくとも１０秒以上平均化して、前記平均情報として用いる。平均化に用いる時間が短過ぎると、頭部の向く方向の微小変化が無視できないが、１０秒以上の時間であると、この微小変化を無視することができる。

＜態様４＞
態様４に係る音声処理装置は、態様２または３において、前記センサー出力補正部は、前記平均情報を記憶する記憶部と、前記センサー信号処理部から出力された方向情報と前記記憶部に記憶された平均情報との差がしきい値未満であるか否かを判定する判定部と、前記判定部によってしきい値未満であると判定された方向情報を平均化して、前記平均情報として前記記憶部に記憶させる算出部と、を含む。
態様４によれば、リスナーの頭部が平均的な方向から極端に外れた方向に向いた場合の方向情報や、突発的なノイズ等の影響を受けた方向情報が、平均化にあたって算入されないので、平均情報の信頼性を高めることができる。

＜態様５＞
態様５に係る音声処理装置は、態様４において、前記音声信号の出力開始から所定時間経過した場合、前記判定部は、前記方向情報と前記平均情報との差がしきい値未満であるか否かの判定を停止し、前記算出部は、前記判定部によってしきい値未満であると判定された方向情報の平均化を停止する。ドリフトが、ある程度の時間が経過したら飽和する場合、その時間経過後、誤差についてもほとんど変化しないので、平均情報を更新する必要がなくなる。方向情報の平均化が停止すると、その分、消費される電力を抑えることができる。

＜態様６＞
態様６に係る音声処理装置は、態様１乃至５において、前記センサー出力補正部による前記方向情報の補正は、有効または無効のいずれかに設定可能である。再生対象となる音声の種類、種別および性質等によっては、音像定位処理を実行しなくても良い場合がある。この場合に、補正を無効とすることで消費される電力を抑えることができる。
なお、有効または無効の指示は、スイッチ等へのリスナーの操作であってもよいし、再生対象となる音声信号の解析結果にしたがってもよい。

＜態様７乃至１２＞
態様７乃至１２に係る音声処理方法は、態様１乃至６の音声処理装置が方法で表現される。

１…ヘッドホン、３…ヘッドバンド、５…センサー、１２…センサー信号処理部、１４…センサー出力補正部、１６…頭部伝達関数修正部、２６…音像定位処理部、４２Ｌ、４２Ｒ…スピーカー、１４２…判定部、１４４…算出部、１４６…記憶部、１４８…減算部。

Claims

リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、
前記検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、
前記方向情報を平均化した平均情報に基づいて、前記センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、
予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、
音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部と、
を含む音声処理装置。
前記センサー出力補正部は、
前記センサー信号処理部から出力された方向情報から、前記平均情報を減算して、当該方向情報を補正する
請求項１に記載の音声処理装置。
前記センサー出力補正部は、
前記センサー信号処理部から出力された方向情報を少なくとも１０秒以上平均化して、前記平均情報として用いる
請求項２に記載の音声処理装置。
前記センサー出力補正部は、
前記平均情報を記憶する記憶部と、
前記センサー信号処理部から出力された方向情報と前記記憶部に記憶された平均情報との差がしきい値未満であるか否かを判定する判定部と、
前記判定部によってしきい値未満であると判定された方向情報を平均化して、前記平均情報として前記記憶部に記憶させる算出部と、
を含む
請求項２または３に記載の音声処理装置。
前記音声信号の出力開始から所定時間経過した場合、
前記判定部は、
前記方向情報と前記平均情報との差がしきい値未満であるか否かの判定を停止し、
前記算出部は、
前記判定部によってしきい値未満であると判定された方向情報の平均化を停止する
請求項４に記載の音声処理装置。
前記センサー出力補正部による前記方向情報の補正は、有効または無効のいずれかに設定可能である
請求項１乃至５のいずれかに記載の音声処理装置。
センサーからリスナーの頭部の姿勢に応じて出力された検出信号に基づく演算により、リスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力し、
前記方向情報を平均化した平均情報に基づいて前記方向情報を補正し、
頭部伝達関数を補正された方向情報にしたがって修正し、
音声信号に、修正した頭部伝達関数に応じた音像定位処理を施す
音声処理方法。
前記方向情報から前記平均情報を減算して、前記方向情報を補正する
請求項７に記載の音声処理方法。
前記方向情報を少なくとも１０秒以上平均化して、前記平均情報として用いる
請求項８に記載の音声処理方法。
前記方向情報と記憶部に記憶された平均情報との差がしきい値未満であるか否かを判定し、
しきい値未満であると判定された方向情報を平均化して、前記平均情報として前記記憶部に記憶させる
請求項８または９に記載の音声処理方法。
前記音声信号の出力開始から所定時間経過した場合、
前記方向情報と前記平均情報との差がしきい値未満であるか否かの判定、および、しきい値未満であると判定した方向情報の平均化、を停止する
請求項９に記載の音声処理方法。
前記方向情報の補正は、有効または無効のいずれかに設定可能である
請求項７乃至１１のいずれかに記載の音声処理方法。