Nothing Special   »   [go: up one dir, main page]

JP2017151216A - 音源方向推定装置、音源方向推定方法、およびプログラム - Google Patents

音源方向推定装置、音源方向推定方法、およびプログラム Download PDF

Info

Publication number
JP2017151216A
JP2017151216A JP2016032281A JP2016032281A JP2017151216A JP 2017151216 A JP2017151216 A JP 2017151216A JP 2016032281 A JP2016032281 A JP 2016032281A JP 2016032281 A JP2016032281 A JP 2016032281A JP 2017151216 A JP2017151216 A JP 2017151216A
Authority
JP
Japan
Prior art keywords
sound source
covariance matrix
sound
observed
source direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016032281A
Other languages
English (en)
Inventor
龍亮 田中
Ryusuke Tanaka
龍亮 田中
羽田 陽一
Yoichi Haneda
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electro Communications NUC
Original Assignee
University of Electro Communications NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electro Communications NUC filed Critical University of Electro Communications NUC
Priority to JP2016032281A priority Critical patent/JP2017151216A/ja
Publication of JP2017151216A publication Critical patent/JP2017151216A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定する。【解決手段】複数のマイクロホンにより観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする観測信号を区分けする立ち上がり区間および立ち下がり区間が特定される。また、立ち上がり区間の観測信号を用いて立ち上がり共分散行列が算出されるとともに、立ち下がり区間の観測信号を用いて立ち下がり共分散行列が算出される。そして、立ち上がり共分散行列と立ち下がり共分散行列とを同時対角化する固有ベクトルが求められ、その固有ベクトルを用いて所望の音源の方向が推定される。本技術は、例えば、マイクロホンアレーにより収音される音の音源方向を推定する音源方向推定装置に適用できる。【選択図】図1

Description

本開示は、音源方向推定装置、音源方向推定方法、およびプログラムに関し、特に、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができるようにした音源方向推定装置、音源方向推定方法、およびプログラムに関する。
従来、複数のマイクロホンがアレー状に配置されたマイクロホンアレーを用いて音源の方向を推定する音源方向推定方法について、様々な利用方法が提案されている。例えば、テレビ会議における話者の位置を検出することや、防犯カメラにおいて音源を追跡することなどに、音源方向推定方法を利用することができる。
しかしながら、実際に、マイクロホンアレーを用いて音源方向を推定するとき、反射音や残響音などの外乱が存在する環境下では、それらの外乱による悪影響が発生することによって推定精度が低下してしまう。このような推定精度の低下を回避するためには、外乱の影響を排除する必要があり、例えば、ICA(Independent Component Analysis)などの音源分離手法が提案されている。
また、特許文献1には、例えば、複数のマイクロホンを搭載して構成されるマイクロホンアレーの出力信号を利用して、パワースペクトルおよび残響スペクトルを推定することにより、収音される所望信号の音質を向上させる収音装置が開示されている。
特開2009−005261号公報
しかしながら、上述したような音源分離手法を用いる場合、音源方向を推定するまでに長時間を要することがあり、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することが求められている。
本開示は、このような状況に鑑みてなされたものであり、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができるようにするものである。
本開示の一側面の音源方向推定装置は、音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定する処理対象区間特定部と、前記処理対象区間特定部により特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出する共分散行列算出部と、前記共分散行列算出部により算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する音源方向推定部とを備える。
本開示の一側面の音源方向推定方法またはプログラムは、音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定し、特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出し、算出された前記共分散行列に基づいて、前記所望の音源の方向を推定するステップを含む。
本開示の一側面においては、音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする観測信号を区分けする時間区間が特定され、その特定された時間区間において観測された観測信号を用いて共分散行列が算出され、共分散行列に基づいて、所望の音源の方向が推定される。
本開示の一側面によれば、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができる。
本技術を適用した音源方向推定システムの一実施の形態の構成例を示すブロック図である。 ピークホールド処理と、立ち上がり区間および立ち下がり区間とについて説明する図である。 シミュレーション条件を示す図である。 シミュレーション結果を示す図である。 音源方向推定処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本技術を適用した音源方向推定システム11の一実施の形態の構成例を示すブロック図である。
図1に示すように、音源方向推定システム11は、M個のマイクロホン12−1乃至12−Mからなるマイクロホンアレーにより、1カ所以上の音源S(図1の例では2カ所の音源S1およびS2)から到達する音を観測して、音源Sの方向を推定する。音源方向推定システム11では、従来から提案されている様々な音源推定方法を利用することができるが、以下では、音源推定方法の一つであるMUSIC(Multiple Signal Classification)法を利用する例について説明する。
例えば、Lカ所の音源S1乃至SLがあり、M個のマイクロホン12−1乃至12−Mにより観測を行うとき、その観測により取得される音のレベルが所定の値よりも大きな観測信号zは、混合行列A、音源ベクトルs、および雑音ベクトルvを用いて、次の式(1)で表される。
Figure 2017151216
ここで、式(1)において、混合行列Aは、i番目(i=1〜L)の音源Siの音源方向θi(即ち、音源Siからの平面波がマイクロホン12−1乃至12−Mに到来する角度)に対するステアリングベクトルa(θi)を列にもつ行列である。また、音源ベクトルsは、Lカ所の音源からの音に従った音源信号s1乃至sL(音源Siの複素振幅si)を表すベクトルであり、雑音ベクトルvは、M個のマイクロホン12−1乃至12−Mに混入する雑音に従った雑音信号v1乃至vMを表すベクトルである。
また、観測信号zの全体を用いて算出される共分散行列である観測共分散行列Rは、観測信号zに含まれている音源からの音の成分からなる音源信号共分散行列Γ、および、観測信号zに含まれている雑音の成分からなる雑音共分散行列Kを用いて、次の式(2)で表される。なお、式(2)において、E[・]は期待値演算を示し、Hは共役転置を示す。
Figure 2017151216
そして、MUSIC法では、混合行列Aと直交する雑音部分空間Vを求め、次の式(3)で表される関数PMUSIC(θ)のピークを探索することによって、音源方向の推定が行われる。
Figure 2017151216
即ち、式(3)で示される関数PMUSIC(θ)は、雑音部分空間Vとステアリングベクトルa(θ)とが直交するときにピークを持ち、雑音部分空間Vとステアリングベクトルa(θ)との直行性から、ピークに対応する方向が音源方向となる。
また、雑音部分空間Vは、マイクロホン12−1乃至12−Mごとに雑音が互いに無相関であり、雑音共分散行列Kが対角行列であれば、観測共分散行列Rを固有値分解して音源部分空間と雑音部分空間Vに分離することにより求められる。ところが、雑音共分散行列Kが非対角行列のとき、真の音源方向のステアリングベクトルa(θ)と直交する雑音部分空間Vを求めることは困難となる。
一方、雑音共分散行列Kが雑音部分空間Vのみから推定可能であると仮定すると、観測共分散行列Rおよび雑音共分散行列Kの関係について、固有ベクトルeおよび音源の自己パワースペクトルλを用いて、次の式(4)が成り立つ。
Figure 2017151216
そして、式(4)に示す観測共分散行列Rおよび雑音共分散行列Kの一般化固有値分解を解き、観測共分散行列Rおよび雑音共分散行列Kを同時対角化することで、雑音共分散行列Kの性質に依存しない雑音部分空間Vを推定することができる。
しかしながら、上述したように、観測信号zに反射音や残響音などの外乱が存在する場合、雑音共分散行列Kは非対角行列となり、音源方向の推定精度が低下することになる。
そこで、音源が音声であるとして、音声の振幅の変化に着目すると、音声の振幅は一定ではなく、振幅の小さな区間の後の振幅の大きな区間は残響による影響が小さい一方、振幅の大きな区間の後の振幅の小さな区間は残響による影響が大きいと考えられる。
このことより、音源方向推定システム11は、音声が発せられる発話の立ち上がり区間、および、その立ち下がり区間により、音源方向を推定する処理に用いる対象とする観測信号を区分けする時間区間を特定する手法を採用する。このような手法によって、発話の立ち上がり区間における観測信号から算出される共分散行列と、発話の立ち下がり区間における観測信号から算出される共分散行列とを同時対角化するMUSIC法により、音源方向の推定精度を向上させることができる。即ち、音源方向推定システム11では、観測信号のみから雑音共分散行列Kを求めることにより、より短時間で、反射音や残響音などの外乱が存在する環境下における音源方向を高精度に推定することができる。
図1に示すように、音源方向推定システム11は、M個のマイクロホン12−1乃至12−M、M個のフレーム処理部13−1乃至13−M、および音源方向推定装置14を備えて構成される。
マイクロホン12−1乃至12−Mは、様々な方向から到達する音を受音する受音素子であり、受音した音を、その音の大きさに従った振幅の電気信号に変換することで観測信号を生成して、それぞれ対応するフレーム処理部13−1乃至13−Mに供給する。
フレーム処理部13−1乃至13−Mは、それぞれ対応するマイクロホン12−1乃至12−Mから供給される観測信号を、所定の短時間ごとのフレームに分割する。例えば、フレーム処理部13−1乃至13−Mは、分割するフレームの長さよりも短い間隔のシフト幅で、次のフレームの先頭に移動するようにフレームを分割する。そして、フレーム処理部13−1乃至13−Mは、フレームに窓関数を掛けた後、短時間フーリエ変換を行うことで、観測信号をフレームごとの周波数信号に分解して、音源方向推定装置14に供給する。
音源方向推定装置14は、処理対象区間特定部21、立ち上がり共分散行列算出部22、立ち下がり共分散行列算出部23、同時対角化処理部24、および音源方向推定部25を備えて構成される。
処理対象区間特定部21には、マイクロホン12−1乃至12−Mのいずれか1つ(図1の例では、マイクロホン12−M)から観測信号が供給される。そして、処理対象区間特定部21は、マイクロホン12−1乃至12−Mから出力される観測信号のうち、音源方向を推定する処理に用いる対象とする観測信号を区分けする時間区間として、発話の立ち上がり区間および立ち下がり区間を特定する。
例えば、処理対象区間特定部21は、観測信号の振幅二乗値に対してピークホールド処理を行うことにより、発話の立ち上がり区間および立ち下がり区間を処理対象区間として特定する。ピークホールド処理は、観測信号により観測される音のピーク値を時間方向に減衰させながら保持し、保持した値よりも大きな値が現れたときに、その値にピーク値を更新し、保持した値を超える値が現れるまではピークを認識しない処理である。このようなピークホールド処理により、処理対象区間特定部21は、特定の強さの音のピークを検出することができる。
例えば、処理対象区間特定部21は、1以下の所定の値に設定された減衰率αを用いて、時刻tのピーク値P(t)に減衰率αを乗算したホールド値(P(t)×α)と、次の時刻t+1の観測信号の振幅二乗値z2(t+1)とを比較してピークホールド処理を行う。即ち、処理対象区間特定部21は、ホールド値(P(t)×α)が観測信号の振幅二乗値z2(t+1)以上である場合、次の時刻t+1のピーク値P(t+1)としてホールド値(P(t)×α)を用いる。一方、処理対象区間特定部21は、ホールド値(P(t)×α)が、観測信号の振幅二乗値z2(t+1)未満である場合、次の時刻t+1のピーク値P(t+1)として観測信号の振幅二乗値z2(t+1)を用いる。
これにより、図2の左側に示すような観測信号の振幅二乗値に対してピークホールド処理を施すことによって、図2の右側に示すように、観測信号の振幅二乗値の波形から特定の強さの音のピークが検出される波形を得ることができる。ここで、ピークホールド処理を利用するのは、振幅の大きさだけでは残響にマスクされているかどうかは分からず、DRR(Direct to Reverberation Ratio)が高いとは限らないためである。従って、残響により直接的に音のマスクを考慮することができるピークホールド処理は、立ち上がりを検出するのに適切である。
そして、処理対象区間特定部21は、特定の強さの音のピークが検出されたタイミングを含み、その前後にある所定の時間区間を発話の立ち上がり区間として特定し、その発話の立ち上がり区間を、立ち上がり共分散行列算出部22に通知する。また、処理対象区間特定部21は、特定の強さの音のピークが検出されたタイミングから一定時間だけ後に離れ、立ち上がり区間よりも後(例えば、2フレーム後)にある所定の時間区間を発話の立ち下がり区間として特定し、その発話の立ち下がり区間を、立ち下がり共分散行列算出部23に通知する。
立ち上がり共分散行列算出部22は、フレーム処理部13−1乃至13−Mから供給される周波数信号に分解されたフレームのうち、処理対象区間特定部21により特定された発話の立ち上がり区間におけるフレームを処理の対象とする。そして、立ち上がり共分散行列算出部22は、処理の対象としたフレームごとに順次、マイクロホン12−1乃至12−Mの順番に従って周波数ごとに信号を並べてベクトル化し、それらのベクトルどうしの掛け算を行って共分散行列を求める。そして、立ち上がり共分散行列算出部22は、そのようにして求められたフレームごと共分散行列を、発話の立ち上がり区間のフレームで平均化処理したものを立ち上がり共分散行列RAとして、同時対角化処理部24に供給する。
立ち下がり共分散行列算出部23は、フレーム処理部13−1乃至13−Mから供給される周波数信号に分解されたフレームのうち、処理対象区間特定部21により特定された発話の立ち下がり区間におけるフレームを処理の対象とする。そして、立ち下がり共分散行列算出部23は、立ち上がり共分散行列算出部22と同様に求められたフレームごと共分散行列を、発話の立ち下がり区間のフレームで平均化処理したものを立ち下がり共分散行列RDとして、同時対角化処理部24に供給する。
同時対角化処理部24は、立ち上がり共分散行列算出部22から供給される立ち上がり共分散行列RA(=観測共分散行列R)と、立ち下がり共分散行列算出部23から供給される立ち下がり共分散行列RD(=雑音共分散行列K)とを用いて、上述した式(4)を構築する。そして、同時対角化処理部24は、立ち上がり共分散行列RAと立ち下がり共分散行列RDとを同時対角化する固有ベクトルeを求める同時対角化処理を行う。
音源方向推定部25は、同時対角化処理部24により求められる固有ベクトルeを用いてMUSICスペクトルを求めることで、立ち上がり共分散行列RAに含まれる雑音の影響を除去し、その雑音の影響が軽減された音源方向を推定することができる。例えば、音源方向推定部25は、固有ベクトルeのうち、マイクロホン12の個数Mから、所定数の音源の数を減じた数に対応する固有ベクトルeに対して直交するベクトルを求めることにより、音源の方向を推定する。
即ち、音源方向推定部25は、音場に存在すると仮定した音源の数を、マイクロホン12の数から減じた数を雑音ベクトルの数として、固有値を大きい順に並べた後に、固有値の小さい方から雑音ベクトルの数分だけ雑音ベクトルとする。そして、音源方向推定部25は、音源があると推定される方向に向けたアレーマニュフォールドベクトルを想定し、これと雑音ベクトルとの内積を算出する。ここで、アレーマニュフォールドベクトルは、音源方向を決めれば、その音源方向とマイクロホン12との位置関係から一意に決まる音の到来時間差をマイクロホン12ごとの要素として持つベクトルである。
そして、音源方向推定部25は、内積の値が0に近ければ雑音と直交していることより、つまり、音源の方向であると考えられることより、これを判断するために、内積を分母に持ってきたMUSICスペクトルを算出する。このとき分母が0に近づくということは、MUSICスペクトルとしては大きな値となることより、MUSICスペクトルがピークとなる方向が、音源方向を表していることになる。
以上のように、音源方向推定システム11では、立ち上がり共分散行列RAと立ち下がり共分散行列RDとを同時対角化する固有ベクトルeを求める同時対角化処理を行うことにより、残響などの雑音の影響を抑制した固有ベクトルeを推定することができる。これにより、MUSIC法による音源方向を推定する精度を向上させることができる。
即ち、発話の立ち上がり区間(上述の図2参照)では、観測信号の振幅が大きく、発話に対する反射音や残響音などの外乱の影響が小さくなることより、DRRが高くなる。従って、音源方向推定システム11は、発話の立ち上がり区間のフレームから求められる立ち上がり共分散行列RAを用いることで、音源方向の推定精度を向上させることができる。
さらに、発話の立ち下がり区間では、発話に対する反射音や残響音などの外乱の影響が大きくなっており、DRRが低くなる。従って、音源方向推定システム11は、発話の立ち下がり区間のフレームから求められる立ち下がり共分散行列RDを立ち上がり共分散行列RAと同時対角化することにより、より高精度に音源方向を推定することができる。このように、立ち上がり共分散行列RAに含まれる外乱(主に残響)の寄与を白色化し、固有ベクトルを求めることで、MUSIC法による音源方向の推定精度の向上を図ることができる。
図3および図4を参照して、音源方向推定システム11における音源方向推定のシミュレーション結果について説明する。
図3には、シミュレーション条件が示されている。
即ち、図3Aに示すように、マイクロホン数や、マイクロホン間隔、音源方向、音源数などがシミュレーション条件として設定される。また、このシミュレーション条件で用いられる7個のマイクロホン12−1乃至12−7からなるマイクロホンアレーは、図3Bに示すように、X方向、Y方向、およびZ方向に設置される。そして、シミュレーションは、スピーカとマイクロホンアレーとの距離、および、マイクロホンアレーから見た音源方向を、常に一定に保ちながらスピーカおよびマイクロホンアレーの位置をランダムに変更して複数回の試行を繰り返して行った。
図4には、図3に示したシミュレーション条件に従って、鏡像法を用いて音源方向推定するシミュレーションを行ったシミュレーション結果として、マイクロホンアレーから音源までの距離ごとの正答率が示されている。このシミュレーション結果は、例えば、100回の試行における±5°を誤差としたときに音源方向を推定した正答率である。
また、図4には、それぞれ同一のシミュレーション条件で、音源方向推定に用いられる共分散行列の算出対象区間が異なる4つのシミュレーション結果が示されている。
即ち、第1のシミュレーション結果は、観測信号の全体を用いて算出される共分散行列と、固有値とを利用した通常のMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。また、第2のシミュレーション結果は、観測信号の立ち上がり区間を用いて算出される立ち上がり共分散行列RAから固有ベクトルを求める固有値分解処理を行い、その固有値分解処理で求められた固有ベクトルを利用したMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。
また、第3のシミュレーション結果は、観測信号の全体を用いて算出される共分散行列と、観測信号の立ち下がり区間を用いて算出される立ち下がり共分散行列RDとを同時対角化してMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。そして、第4のシミュレーション結果は、観測信号の立ち上がり区間を用いて算出される立ち上がり共分散行列RAと、観測信号の立ち下がり区間を用いて算出される立ち下がり共分散行列RDとを同時対角化してMUSIC法により音源方向を推定するシミュレーションを行って求められた正答率である。
図4に示すように、マイクロホンアレーから音源までの距離を1m、2m、および3mとしてシミュレーションを行った結果、第1乃至第4のシミュレーション結果のいずれも、この距離に依らず同様の傾向を示していることが分かる。
例えば、観測信号の全区間の共分散行列と固有値とを利用した第1のシミュレーション結果と比較して、立ち上がり共分散行列RAから求められる固有ベクトルを利用した第2のシミュレーション結果は、正答率が上昇している。そして、第2のシミュレーション結果と比較して、観測信号の全区間の共分散行列と立ち下がり共分散行列RDとを同時対角化する第3のシミュレーション結果、および、立ち上がり共分散行列RAと立ち下がり共分散行列RDとを同時対角化する第4のシミュレーション結果は、いずれも正答率が飛躍的に上昇しており、音源方向を推定する推定精度の改善が図られている。
このように、音源方向推定システム11では、例えば、立ち上がり共分散行列RAと立ち下がり共分散行列RDとを同時対角化してMUSIC法により音源方向を推定する手法により、通常のMUSIC法よりも非常に高精度に音源方向を推定することができる。この手法の他、音源方向推定システム11では、観測信号の全区間の共分散行列と立ち下がり共分散行列RDとを同時対角化してMUSIC法により音源方向を推定する手法、または、立ち上がり共分散行列RAから求められる固有ベクトルを利用したMUSIC法により音源方向を推定する手法を採用しても、通常のMUSIC法よりも高精度に音源方向を推定することができる。
次に、図5は、図1の音源方向推定システム11において行われる音源方向推定処理を説明するフローチャートである。
例えば、マイクロホン12−1乃至12−Mからフレーム処理部13−1乃至13−Mに観測信号が供給されると処理が開始される。ステップS11において、フレーム処理部13−1乃至13−Mは、それぞれ対応するマイクロホン12−1乃至12−Mから供給される観測信号を、順次、所定の短時間ごとのフレームに分割する。
ステップS12において、フレーム処理部13−1乃至13−Mは、ステップS11で分割したフレームに窓関数を掛けた後、短時間フーリエ変換を行うことで、フレームごとに観測信号を周波数信号に分解して、順次、音源方向推定装置14に供給する。
ステップS13において、処理対象区間特定部21は、所定のマイクロホン12から供給される観測信号の振幅二乗値に対して、図2を参照して上述したようなピークホールド処理を施し、特定の強さの音のピークが検出されるまで処理を待機する。そして、処理対象区間特定部21は、特定の強さの音のピークが検出されると、そのピークが検出されたタイミングを含む発話の立ち上がり区間を特定して、処理はステップS14に進む。
ステップS14において、立ち上がり共分散行列算出部22は、フレーム処理部13−1乃至13−Mにより周波数信号に分解されたフレームのうち、ステップS13において処理対象区間特定部21により特定された発話の立ち上がり区間のフレームを用いて、立ち上がり共分散行列RAを算出して同時対角化処理部24に供給する。
ステップS15において、処理対象区間特定部21は、ピークホールド処理によりピークが検出されたタイミングから一定時間だけ後にある発話の立ち下がり区間を特定し、処理はステップS16に進む。
ステップS16において、立ち下がり共分散行列算出部23は、フレーム処理部13−1乃至13−Mにより周波数信号に分解されたフレームのうち、ステップS15において処理対象区間特定部21により特定された発話の立ち下がり区間のフレームを用いて、立ち下がり共分散行列RDを算出して同時対角化処理部24に供給する。
ステップS17において、同時対角化処理部24は、ステップS14で算出された立ち上がり共分散行列RAと、ステップS16で算出された立ち下がり共分散行列RDとを同時対角化する固有ベクトルeを求める同時対角化処理を行う。
ステップS18において、音源方向推定部25は、ステップS17で求められた固有ベクトルeを用いてMUSICスペクトルを求めることで、同時対角化処理部24により推定された外乱の影響が軽減された音源方向を推定する。
その後、処理はステップS11に戻り、以下、上述と同様の処理を繰り返して行う。
以上のように、音源方向推定システム11は、立ち上がり共分散行列RAと立ち下がり共分散行列RDとを同時対角化する固有ベクトルeを求める同時対角化処理を行うことにより、MUSIC法による音源方向の推定精度を向上させることができる。
これにより、例えば、通常の部屋などのように反射音や残響音などの外乱が存在する環境下であっても、より高精度に音源方向を推定することができる。例えば、音源方向を正確に推定することで、その方向に指向性ビームを向けたマイクロホンを構築することが可能となり、周囲の外乱を抑圧しながら音声をクリアに収音することができるようになることより、非常に有用である。
従って、音源方向推定システム11を音声認識装置に採用することにより、例えば、音声認識率の向上を図ることができる。さらに、音源方向推定システム11を介護や掃除などを行うロボットに搭載することで、例えば、利用者がロボットに呼びかける声に反応して、それらの利用者の位置に正確にロボットを近づけるような制御を行うことが可能となる。
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1つのCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであってもよい。
また、上述した一連の処理(音源方向推定方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
図6は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
11 音源方向推定システム, 12 マイクロホン, 13 フレーム処理部, 14 音源方向推定装置, 21 処理対象区間特定部, 22 立ち上がり共分散行列算出部, 23 立ち下がり共分散行列算出部, 24 同時対角化処理部, 25 音源方向推定部

Claims (11)

  1. 音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定する処理対象区間特定部と、
    前記処理対象区間特定部により特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出する共分散行列算出部と、
    前記共分散行列算出部により算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する音源方向推定部と
    を備える音源方向推定装置。
  2. 前記処理対象区間特定部は、前記観測信号により観測される特定の強さの音のピークが検出されたタイミングから一定時間だけ後にある所定の前記時間区間を立ち下がり区間として特定し、
    前記共分散行列算出部は、前記立ち下がり区間において観測された前記観測信号を用いて立ち下がり共分散行列を算出する
    請求項1に記載の音源方向推定装置。
  3. 前記共分散行列算出部により算出される前記立ち下がり共分散行列と、前記観測信号の全体を用いて算出される共分散行列とを同時対角化する固有ベクトルを求める同時対角化処理部
    をさらに備え、
    前記音源方向推定部は、前記同時対角化処理部により求められた前記固有ベクトルを用いて前記所望の音源の方向を推定する
    請求項2に記載の音源方向推定装置。
  4. 前記処理対象区間特定部は、前記観測信号により観測される特定の強さの音のピークが検出されたタイミングを含み、そのタイミングの前後にある所定の前記時間区間を立ち上がり区間として特定し、
    前記共分散行列算出部は、前記立ち上がり区間において観測された前記観測信号を用いて立ち上がり共分散行列を算出する
    請求項1に記載の音源方向推定装置。
  5. 前記音源方向推定部は、前記共分散行列算出部により算出される前記立ち上がり共分散行列から固有ベクトルを求める固有値分解処理を行い、その固有値分解により求められた前記固有ベクトルを用いて前記所望の音源の方向を推定する
    請求項4に記載の音源方向推定装置。
  6. 前記処理対象区間特定部は、前記観測信号により観測される特定の強さの音のピークが検出されたタイミングを含み、そのタイミングの前後にある所定の前記時間区間を立ち上がり区間として特定するとともに、前記ピークが検出されたタイミングから一定時間だけ後にある所定の前記時間区間を立ち下がり区間として特定し、
    前記共分散行列算出部は、前記立ち上がり区間において観測された前記観測信号を用いて立ち上がり共分散行列を算出するとともに、前記立ち下がり区間において観測された前記観測信号を用いて立ち下がり共分散行列を算出する
    請求項1に記載の音源方向推定装置。
  7. 前記共分散行列算出部により算出される前記立ち上がり共分散行列と前記立ち下がり共分散行列とを同時対角化する固有ベクトルを求める同時対角化処理部
    をさらに備え、
    前記音源方向推定部は、前記同時対角化処理部により求められた前記固有ベクトルを用いて前記所望の音源の方向を推定する
    請求項6に記載の音源方向推定装置。
  8. 前記処理対象区間特定部は、前記観測信号により観測される前記音のピーク値を時間方向に減衰させながら保持し、保持した値よりも大きな値が現れたときに、その値に前記ピーク値を更新するピークホールド処理を行うことにより、特定の強さの音のピークを検出する
    請求項1乃至7のいずれかに記載の音源方向推定装置。
  9. 前記音源方向推定部は、前記観測信号を用いて算出される共分散行列から求められる所定の固有ベクトルのうち、前記複数の受音素子の数から、所定数の前記所望の音源の数を減じた数に対応する前記固有ベクトルに対して直交するベクトルを求めることにより、前記所望の音源の方向を推定する
    請求項1乃至8のいずれかにに記載の音源方向推定装置。
  10. 音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定し、
    特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出し、
    算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する
    ステップを含む音源方向推定方法。
  11. 音を受音する複数の受音素子により観測される音のレベルが所定の値よりも大きな観測信号のうち、所望の音源の方向を推定する処理に用いる対象とする前記観測信号を区分けする時間区間を特定し、
    特定された前記時間区間において観測された前記観測信号を用いて共分散行列を算出し、
    算出された前記共分散行列に基づいて、前記所望の音源の方向を推定する
    ステップを含む音源方向推定処理をコンピュータに実行させるプログラム。
JP2016032281A 2016-02-23 2016-02-23 音源方向推定装置、音源方向推定方法、およびプログラム Pending JP2017151216A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032281A JP2017151216A (ja) 2016-02-23 2016-02-23 音源方向推定装置、音源方向推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032281A JP2017151216A (ja) 2016-02-23 2016-02-23 音源方向推定装置、音源方向推定方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2017151216A true JP2017151216A (ja) 2017-08-31

Family

ID=59739002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032281A Pending JP2017151216A (ja) 2016-02-23 2016-02-23 音源方向推定装置、音源方向推定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2017151216A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018155231A1 (ja) * 2017-02-21 2018-08-30 オンフューチャー株式会社 音源の検出方法及びその検出装置
CN108828525A (zh) * 2018-06-25 2018-11-16 大连大学 混响房间内分布式麦克风阵列多声源定位系统
CN115206119A (zh) * 2021-04-06 2022-10-18 欧温星球控股股份有限公司 远程支援系统以及远程支援方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018155231A1 (ja) * 2017-02-21 2018-08-30 オンフューチャー株式会社 音源の検出方法及びその検出装置
JP2018136170A (ja) * 2017-02-21 2018-08-30 オンフューチャー株式会社 音源の検出方法及びその検出装置
US10891970B2 (en) 2017-02-21 2021-01-12 Onfuture Ltd. Sound source detecting method and detecting device
CN108828525A (zh) * 2018-06-25 2018-11-16 大连大学 混响房间内分布式麦克风阵列多声源定位系统
CN115206119A (zh) * 2021-04-06 2022-10-18 欧温星球控股股份有限公司 远程支援系统以及远程支援方法

Similar Documents

Publication Publication Date Title
Erdogan et al. Improved MVDR beamforming using single-channel mask prediction networks.
US10901063B2 (en) Localization algorithm for sound sources with known statistics
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
EP2530484B1 (en) Sound source localization apparatus and method
US8849657B2 (en) Apparatus and method for isolating multi-channel sound source
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
Madmoni et al. Direction of arrival estimation for reverberant speech based on enhanced decomposition of the direct sound
Taseska et al. Informed spatial filtering for sound extraction using distributed microphone arrays
Li et al. Online localization and tracking of multiple moving speakers in reverberant environments
Wang et al. Noise power spectral density estimation using MaxNSR blocking matrix
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
Talmon et al. Supervised graph-based processing for sequential transient interference suppression
JP6724905B2 (ja) 信号処理装置、信号処理方法、およびプログラム
Jarrett et al. Noise reduction in the spherical harmonic domain using a tradeoff beamformer and narrowband DOA estimates
Habets et al. Dereverberation
JP2010175431A (ja) 音源方向推定装置とその方法と、プログラム
JP2017151216A (ja) 音源方向推定装置、音源方向推定方法、およびプログラム
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
EP3847645B1 (en) Determining a room response of a desired source in a reverberant environment
Salvati et al. Two-microphone end-to-end speaker joint identification and localization via convolutional neural networks
Li et al. Low complex accurate multi-source RTF estimation
Bai et al. Acoustic source localization and deconvolution-based separation
Malek et al. Speaker extraction using LCMV beamformer with DNN-based SPP and RTF identification scheme
Schwartz et al. A recursive expectation-maximization algorithm for online multi-microphone noise reduction
Andrei et al. Estimating competing speaker count for blind speech source separation