JP2014052585A - 音響処理装置 - Google Patents
音響処理装置 Download PDFInfo
- Publication number
- JP2014052585A JP2014052585A JP2012198329A JP2012198329A JP2014052585A JP 2014052585 A JP2014052585 A JP 2014052585A JP 2012198329 A JP2012198329 A JP 2012198329A JP 2012198329 A JP2012198329 A JP 2012198329A JP 2014052585 A JP2014052585 A JP 2014052585A
- Authority
- JP
- Japan
- Prior art keywords
- average
- reverberation
- acoustic signal
- coefficient
- intensity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】簡便な処理で音響信号の残響成分を有効に調整する。
【解決手段】変数設定部42は、残響時間T60を設定する。係数特定部44は、残響時間T60に応じた平滑化係数αを特定する。強度平均部46は、係数特定部44が特定した平滑化係数αを適用した音響信号x(n)のパワースペクトルPX(k,m)の指数移動平均で平均スペクトルPX(k)を算定する。調整値算定部48は、音響信号x(n)の残響成分を抑圧するための調整値G(k,m)を平均スペクトルPX(k)に対するパワースペクトルPX(k,m)の比PX(k,m)/PX(k)に応じて算定する。調整値算定部48が算定した調整値G(k,m)を音響信号x(n)に作用させることで残響成分が抑圧される。
【選択図】図1
【解決手段】変数設定部42は、残響時間T60を設定する。係数特定部44は、残響時間T60に応じた平滑化係数αを特定する。強度平均部46は、係数特定部44が特定した平滑化係数αを適用した音響信号x(n)のパワースペクトルPX(k,m)の指数移動平均で平均スペクトルPX(k)を算定する。調整値算定部48は、音響信号x(n)の残響成分を抑圧するための調整値G(k,m)を平均スペクトルPX(k)に対するパワースペクトルPX(k,m)の比PX(k,m)/PX(k)に応じて算定する。調整値算定部48が算定した調整値G(k,m)を音響信号x(n)に作用させることで残響成分が抑圧される。
【選択図】図1
Description
本発明は、音響信号を処理する技術に関し、特に、音響信号に含まれる残響成分を調整する技術に関する。
音響信号に含まれる残響成分を抑圧する技術が従来から提案されている。例えば特許文献1には、音響信号に含まれる残響成分を推定する予測フィルタ係数の確率モデルを利用することで残響成分の予測フィルタ係数を推定し、推定後の予測フィルタを利用して残響成分を抑圧する技術が開示されている。また、非特許文献1には、発音源から収音点までの伝達関数の逆フィルタを推定し、推定後の逆フィルタを音響信号に適用することで残響成分を抑圧する技術が開示されている。
K. Furuya, et al."Robust speech dereverberation using multichannel blind deconvolution with spectral subtraction",IEEE Transantions on Audio, Speech, and Language Processing, vol. 15, no. 5, p.1579-1591, 2007
しかし、特許文献1の予測フィルタ係数や非特許文献1の逆フィルタの高精度な推定には膨大な演算が必要であるという問題がある。以上の事情を考慮して、本発明は、簡便な処理で音響信号の残響成分を調整(抑圧または強調)することを目的とする。
以上の課題を解決するために、本発明の音響処理装置は、残響時間に応じた移動平均係数を特定する係数特定手段と、係数特定手段が特定した移動平均係数を適用した音響信号の強度(例えばパワースペクトルPX(k,m))の移動平均で平均強度(例えば平均スペクトルPX(k))を算定する強度平均手段と、音響信号の残響成分を調整するための調整値を平均強度に応じて算定する調整値算定手段と、調整値算定手段が算定した調整値を音響信号に作用させる残響調整手段とを具備する。以上の構成では、音響信号の平均強度に応じて残響成分の調整値が算定されるから、特許文献1や非特許文献1の技術と比較して簡便な処理で音響信号の残響成分を調整できるという利点がある。また、平均強度の算定に適用される移動平均係数が残響時間に応じて可変に設定されるから、移動平均係数が所定値に固定された構成と比較して残響成分を有効に調整できるという利点もある。
本発明の好適な態様において、調整値算定手段は、平均強度と比較して高い追従性で音響信号の強度に追従する強度指標の、平均強度に対する比(例えば平均強度に対する音響信号の強度の比)に応じて調整値を算定する。特に、平均強度に対する前記音響信号の強度の比に応じて調整値を算定する構成によれば、簡便な処理で音響信号の残響成分を調整できるという効果は格別に顕著である。また、平均強度に対する強度指標の比が残響時間に影響されるという傾向を考慮すると、平均強度に対する強度指標の比と、残響時間に応じた補正係数(例えば補正係数A1)とに応じて調整値を算定する構成が好適である。以上の態様では、残響時間に応じた補正係数が調整値の算定に適用されるから、残響時間が長い場合でも音響信号の残響成分を充分に抑圧できるという利点がある。
本発明の好適な態様において、係数特定手段は、残響時間が長いほど小さい数値となる平滑化係数(例えば平滑化係数α)を移動平均係数として特定し、強度平均手段は、音響信号の最新の強度に対して平滑化係数を適用した音響信号の強度の指数移動平均を平均強度として算定する。換言すると、残響時間が長いほど、指数移動平均における過去の平均強度に対する平滑化係数(例えば平滑化係数(1−α))は大きい数値となる。以上の態様では、残響時間が長いほど音響信号の最新の強度に対する平滑化係数が小さい数値に設定されるから、音響信号の残響成分を有効に調整することが可能である。
本発明の好適な態様において、調整値算定手段は、音響信号の残響成分を抑圧するための調整値を算定し、係数特定手段は、残響成分の抑圧前の音響信号の目的音残響比と調整値を適用した抑圧後の音響信号の目的音残響比との差分が最大になるという条件のもとで近似的に選定された関係(例えば近似線Lの関係)を充足するように、残響時間に対応する移動平均係数を特定する。以上の態様では、残響成分の抑圧の前後にわたる目的音残響比の差分が最大となる条件のもとで近似的に選定された関係(例えば近似線の関係)を充足するように残響時間に応じた移動平均係数が特定されるから、音響信号の残響成分を有効に調整できるという効果は格別に顕著である。
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、残響時間に応じた移動平均係数を特定する係数特定処理と、係数特定処理で特定した移動平均係数を適用した音響信号の強度の移動平均で平均強度を算定する強度平均処理と、音響信号の残響成分を調整するための調整値を平均強度に応じて算定する調整値算定処理と、調整値算定処理で算定した調整値を音響信号に作用させる残響調整処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、音響信号x(n)を音響処理装置100に供給する。音響信号x(n)は、発音源から放射された音響に対して音響空間内で反射または散乱した音響成分(初期反射成分および後期残響成分)を付加した音響の時間波形を示すサンプル系列(n:サンプル番号)である。例えば、収録音や合成音等の既存の音響に対して事後的に残響効果を付与した音響信号x(n)や、残響効果がある音響空間(例えば音響ホール等)内で実際に収録された音響の音響信号x(n)が好適に利用される。周囲の音響を収音して音響信号x(n)を生成する収音装置や、可搬型または内蔵型の記録媒体から音響信号x(n)を取得して音響処理装置100に供給する再生装置や、通信網から音響信号x(n)を受信して音響処理装置100に供給する通信装置が信号供給装置12として採用され得る。
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、音響信号x(n)を音響処理装置100に供給する。音響信号x(n)は、発音源から放射された音響に対して音響空間内で反射または散乱した音響成分(初期反射成分および後期残響成分)を付加した音響の時間波形を示すサンプル系列(n:サンプル番号)である。例えば、収録音や合成音等の既存の音響に対して事後的に残響効果を付与した音響信号x(n)や、残響効果がある音響空間(例えば音響ホール等)内で実際に収録された音響の音響信号x(n)が好適に利用される。周囲の音響を収音して音響信号x(n)を生成する収音装置や、可搬型または内蔵型の記録媒体から音響信号x(n)を取得して音響処理装置100に供給する再生装置や、通信網から音響信号x(n)を受信して音響処理装置100に供給する通信装置が信号供給装置12として採用され得る。
第1実施形態の音響処理装置100は、音響信号x(n)の残響成分(後期残響成分)を抑圧した時間領域の音響信号y(n)を生成する残響抑圧装置である。放音装置14(例えばスピーカやヘッドホン)は、音響処理装置100が生成した音響信号y(n)に応じた音波を再生する。なお、音響信号y(n)をデジタルからアナログに変換するD/A変換器や音響信号y(n)を増幅する増幅器等の図示は便宜的に省略した。
図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムPGM1や演算処理装置22が使用する各種のデータ(例えば後述の相関係数C)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として任意に採用され得る。音響信号x(n)を記憶装置24に記憶した構成(したがって信号供給装置12は省略される)も好適である。
演算処理装置22は、記憶装置24に記憶されたプログラムPGM1を実行することで、音響信号x(n)から音響信号y(n)を生成するための複数の機能(周波数分析部32,解析処理部34,残響調整部36,波形合成部38)を実現する。なお、演算処理装置22の各機能を複数の装置に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
周波数分析部32は、音響信号x(n)のスペクトル(複素スペクトル)X(k,m)を時間軸上の単位期間(フレーム)毎に順次に生成する。記号kは、周波数軸上の任意の1個の周波数(帯域)を指定する変数であり、記号mは、時間軸上の任意の1個の単位期間(時間軸上の特定の時点)を指定する変数である。スペクトルX(k,m)の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタで構成されるフィルタバンクも周波数分析部32として採用され得る。
解析処理部34は、音響信号x(n)のスペクトルX(k,m)に応じた調整値G(k,m)を各周波数について単位期間毎に順次に算定する。第1実施形態の調整値G(k,m)は、音響信号x(n)の残響成分を抑圧するための変数(ゲイン)である。概略的には、第m番目の単位期間の音響信号x(n)のうち第k番目の周波数の成分において残響成分が優勢であるほど調整値G(k,m)は小さい数値に設定されるという傾向がある。
残響調整部36は、解析処理部34が算定する調整値G(k,m)を音響信号x(n)に作用させる。残響調整部36による調整は、各周波数について単位期間毎に順次に実行される。具体的には、残響調整部36は、音響信号x(n)のスペクトルX(k,m)に調整値G(k,m)を乗算することで音響信号y(n)のスペクトルY(k,m)を算定する(Y(k,m)=G(k,m)・X(k,m))。すなわち、調整値G(k,m)は、音響信号x(n)のスペクトルX(k,m)に対するゲイン(スペクトルゲイン)に相当する。
波形合成部38は、残響調整部36が単位期間毎に生成するスペクトルY(k,m)から時間領域の音響信号y(n)を生成する。すなわち、波形合成部38は、各単位期間のスペクトルY(k,m)を短時間逆フーリエ変換で時間領域の信号に変換するとともに相前後する単位期間について相互に連結することで音響信号y(n)を生成する。波形合成部38が生成した音響信号y(n)が放音装置14に供給されて音波として再生される。
<調整値G(k,m)の検討>
調整値G(k,m)の条件について以下に検討する。まず、1個の単位期間を平均的な音素の時間長に設定したうえで単位期間内のサンプルの総数をNEと表記し、音声が音素間(単位期間の相互間)で無相関であると仮定すると、発音源から放射された音響を示す音源信号s(n)のうち1個の音素内(第m番目の単位期間内)の自己相関関数Rs (m)(τ)は以下の数式(1)で表現される。
以下の数式(2)のように表現することも可能である。
数式(1)および数式(2)の記号τは、サンプルの個数で表現された時間差(ラグ)を意味し、数式(1)の記号En[ ]は、時間的な平均値(時間軸上の複数のサンプルにわたる平均値)を意味する。
調整値G(k,m)の条件について以下に検討する。まず、1個の単位期間を平均的な音素の時間長に設定したうえで単位期間内のサンプルの総数をNEと表記し、音声が音素間(単位期間の相互間)で無相関であると仮定すると、発音源から放射された音響を示す音源信号s(n)のうち1個の音素内(第m番目の単位期間内)の自己相関関数Rs (m)(τ)は以下の数式(1)で表現される。
以下の数式(2)のように表現することも可能である。
数式(1)および数式(2)の記号τは、サンプルの個数で表現された時間差(ラグ)を意味し、数式(1)の記号En[ ]は、時間的な平均値(時間軸上の複数のサンプルにわたる平均値)を意味する。
他方、室内インパルス応答(RIR:Room Impulse Response)h(μ)は以下の数式(3)で表現される。
数式(3)の記号b(μ)は、疑似乱数を意味する。例えば、独立同分布(i.i.d.)の白色雑音(平均零のガウス過程)が疑似乱数b(μ)として好適である。また、記号T60は残響時間を意味し、記号N60は、サンプリング周波数fsでの残響時間T60内のサンプルの総数を意味する。数式(3)から理解される通り、室内インパルス応答h(μ)は、独立同分布の確率過程で表現される疑似乱数b(μ)と指数減衰部e−Δμとでモデル化される。また、室内インパルス応答h(μ)は、以下の数式(4)で表現される通り、空間的な平均値(発音源の複数の位置と収音点の複数の位置とにわたる集合平均)Eh[ ]に対して無相関となる。
数式(3)の記号b(μ)は、疑似乱数を意味する。例えば、独立同分布(i.i.d.)の白色雑音(平均零のガウス過程)が疑似乱数b(μ)として好適である。また、記号T60は残響時間を意味し、記号N60は、サンプリング周波数fsでの残響時間T60内のサンプルの総数を意味する。数式(3)から理解される通り、室内インパルス応答h(μ)は、独立同分布の確率過程で表現される疑似乱数b(μ)と指数減衰部e−Δμとでモデル化される。また、室内インパルス応答h(μ)は、以下の数式(4)で表現される通り、空間的な平均値(発音源の複数の位置と収音点の複数の位置とにわたる集合平均)Eh[ ]に対して無相関となる。
他方、音響信号x(n)の自己相関関数Rx(τ)は、以下の数式(5)で表現される。
数式(5)の記号En,hは、時間的および空間的な平均値(期待値)を意味する。なお、数式(5)の導出では、音響信号x(n)が初期反射成分xE(n)と後期残響成分xR(n)との加算で表現されるという関係(x(n)=xE(n)+xR(n))を利用した。数式(5)の右辺の各項について以下に検討する。
数式(5)の記号En,hは、時間的および空間的な平均値(期待値)を意味する。なお、数式(5)の導出では、音響信号x(n)が初期反射成分xE(n)と後期残響成分xR(n)との加算で表現されるという関係(x(n)=xE(n)+xR(n))を利用した。数式(5)の右辺の各項について以下に検討する。
前掲の数式(3)で表現される室内インパルス応答h(μ)のうち指数減衰部e−Δμは確率過程ではないから、平均値Eh[ ]の演算から除外される。また、疑似乱数(b(i),b(l))として利用される白色雑音の自己相関関数はディラック(Dirac)のデルタ関数であるから、変数iと変数lとが合致する場合(i=l)にのみ所定の数値σb 2となる。以上の関係を考慮すると、以下の数式(7)が導出される。
また、数式(6)のうち音源信号s(n)の自己相関関数に相当する部分En[s(n-i)s(n-τ-l)]に対しては室内インパルス応答h(μ)に関する部分Eh[h(i)h(l)]が係数として作用するから、変数iと変数lとが合致する場合(i=l)のみを加味すれば足りる。したがって、数式(6)は以下の数式(8)に変形される。なお、数式(8)の導出では、変数(n-i)を変数n'に置換した。
前述のように音声が音素間で無相関であると仮定し、前掲の数式(2)の条件を加味すると、数式(8)における自己相関関数Rs(τ)を数式(1)の自己相関関数Rs (m)(τ)に置換しても一般性は維持される。したがって、数式(5)の第1項は以下の数式(9)のように変形される。
数式(9)の積和項が等比級数の和であることを考慮して等比級数の和の公式を適用すると、数式(5)の第1項に相当する数式(9)は、以下の数式(10)に変形される。なお、数式(10)では、表記を簡略化するために係数項を統括的に記号(σb')2で表現した。
数式(11)の平均値Eh[h(i)h(l)]は、変数iと変数lとが合致する場合のみ有意な数値となるが、変数iの値域(NE≦i≦N60)と変数lの値域(0≦l≦NE−1)とは相互に重複しないから、変数iと変数lとが合致することはない。したがって、数式(11)の平均値Eh[h(i)h(l)]は0である。以上の関係に前掲の数式(4)の関係を加味すると、数式(5)の第2項En,h[xR(n)xE(n-τ)]は0となることが理解される。また、数式(5)の第3項En,h[xE(n)xR(n-τ)]についても同様に0となる。
数式(5)の第4項は、後期残響成分xR(n)のみに対応するから、以下の数式(12)のように変形される。なお、数式(12)の導出では、前掲の数式(7)の導出と同様に、変数iと変数lとが合致する場合(i=l)にのみ疑似乱数(b(i),b(l))の自己相関関数が所定の数値σb 2になるという関係を利用した。
初期反射区間の時間長TE(サンプルのNE個分)が残響時間T60と比較して充分に短く(TE≪T60)、かつ、前述のように音源信号s(n)が音素間では無相関であることを考慮すると、変数iが音素の境界を跨ぐたびに数式(12)の平均値En[s(n-i)s(n-τ-i)]は変化する。したがって、前掲の数式(9)の導出と同様に、音源信号s(n)のうち第m番目の音素内の自己相関関数Rs (m)(τ)を適用すると、数式(12)は、以下の数式(13)のように二重積和の形式に変形される(M60=N60/NE)。
前述のように音声が音素間で無相関であるという仮定のもとでは数式(8)の自己相関関数Rs(τ)が数式(1)の自己相関関数Rs (m)(τ)に置換され得るという関係(Rs(τ)=En,h[xE(n)xE(n-τ)]+En,h[xR(n)xR(n-τ)]≒Rs (m)(τ))に、以上に説明した関係(特に数式(10)および数式(14))を加味すると、第m番目の単位期間における音響信号x(n)の自己相関関数Rx (m)(τ)は、初期反射区間の自己相関関数RE,x (m)(τ)と後期残響区間の自己相関関数RR,x (m)(τ)とを含む以下の数式(15)で表現される。
数式(15)の括弧内のうち後期残響区間に対応する第2項において変数m’が0である場合に指数関数項e−2Δm'NEが1になることを考慮すると、数式(15)を以下の数式(16)のように簡略化することも可能である。
数式(16)から理解される通り、音響信号x(n)の自己相関関数Rx (m)(τ)は、室内インパルス応答h(μ)の指数減衰部e−Δμを加重値とする音源信号s(n)の自己相関関数Rs (m)(τ)の線形和(加重和)として表現される。
数式(16)から理解される通り、音響信号x(n)の自己相関関数Rx (m)(τ)は、室内インパルス応答h(μ)の指数減衰部e−Δμを加重値とする音源信号s(n)の自己相関関数Rs (m)(τ)の線形和(加重和)として表現される。
自己相関関数のフーリエ変換はパワースペクトルである(Wiener-Khinchinの定理)。したがって、数式(15)を考慮すると、音響信号x(n)のうち初期反射成分xE(n)のパワースペクトルPE,X(k,m)は以下の数式(17)で表現され、後期残響成分xR(n)のパワースペクトルPR,X(k,m)は以下の数式(18)で表現される。
数式(17)および数式(18)における記号F[ ]はフーリエ変換を意味し、記号PS(k,m)は音源信号s(n)のパワースペクトルを意味する。
数式(17)および数式(18)における記号F[ ]はフーリエ変換を意味し、記号PS(k,m)は音源信号s(n)のパワースペクトルを意味する。
音響信号x(n)のうち初期反射成分xE(n)のスペクトルXE(k,m)(XE(k,m)=F[xE(n)])を音響信号x(n)のスペクトルX(k,m)(X(k,m)=F[x(n)])から回復するためのウィナーフィルタβ(k)は、以下の数式(19)で表現される。
数式(19)の記号PX(k)は、音響信号x(n)のパワースペクトルPX(k)を複数の単位期間にわたり時間的に平均した平均スペクトル(Em[PX(k,m)])を意味し、数式(19)の記号PE,X(k)は、初期反射成分xE(n)のパワースペクトルPE,X(k,m)を複数の単位期間にわたり時間的に平均した平均スペクトル(Em[PE,X(k,m)])を意味する。音響信号x(n)の平均スペクトルPX(k)は、初期反射成分xE(n)の平均スペクトルPE,X(k)と後期残響成分xR(n)の平均スペクトルPR,X(k)との加算に相当する(PX(k)=PE,X(k)+PR,X(k))。
数式(19)の記号PX(k)は、音響信号x(n)のパワースペクトルPX(k)を複数の単位期間にわたり時間的に平均した平均スペクトル(Em[PX(k,m)])を意味し、数式(19)の記号PE,X(k)は、初期反射成分xE(n)のパワースペクトルPE,X(k,m)を複数の単位期間にわたり時間的に平均した平均スペクトル(Em[PE,X(k,m)])を意味する。音響信号x(n)の平均スペクトルPX(k)は、初期反射成分xE(n)の平均スペクトルPE,X(k)と後期残響成分xR(n)の平均スペクトルPR,X(k)との加算に相当する(PX(k)=PE,X(k)+PR,X(k))。
次に、後期残響成分xR(n)について検討する。音響信号x(n)は時間軸上で発話区間H1と非発話区間H0とに区分される。発話区間H1は音源信号s(n)が存在する区間であり、非発話区間H0は音源信号s(n)が存在しない区間(発話区間H1内の音源信号s(n)に由来する後期残響成分xR(n)が存在する区間)である。後期残響成分xR(n)は主に非発話区間H0で観測される。非発話区間H0内の音響信号x(n)のパワースペクトルPX(k,m)は、発話区間H1内の音源信号s(n)のパワースペクトルPS (H1)(k,m)の部分和として表現され、同時に後期残響成分のパワースペクトルPR,X (H1)(k,m)の部分和に相当する。すなわち、以下の数式(20)が成立する。
数式(20)の記号m1'は、非発話区間H0が開始してからのフレームの個数を意味し、記号Par(m1')[ ]は部分和を意味する。
数式(20)の記号m1'は、非発話区間H0が開始してからのフレームの個数を意味し、記号Par(m1')[ ]は部分和を意味する。
音響信号x(n)の平均スペクトルPX(k)に対する1個の単位期間のパワースペクトルPX(k,m)の比(以下「強度比」という)PX(k,m)/PX(k)を検討する。数式(20)の関係を考慮すると、強度比PX(k,m)/PX(k)は、以下の数式(21)で表現される。
数式(21)の部分和Par(m1')[PR,X (H1)(k,m)]は、後期残響成分xR(n)のパワースペクトルPR,X (H1)(k,m)以下の数値になる(Par(m1')[PR,X (H1)(k,m)]≦PR,X (H1)(k,m))という関係を数式(21)に適用すると、以下の数式(22)が導出される。
数式(19)のウィナーフィルタβ(k)は、音響信号x(n)のスペクトルX(k,m)のうち初期反射成分xE(n)のスペクトルXE(k,m)を強調するように作用する。したがって、数式(24)の右辺{1−β(k)}は、非発話区間H0にて音響信号x(n)のスペクトルX(k,m)から後期残響成分xR(n)のスペクトルXR(k,m)を抑圧するフィルタ(相補的なウィナーフィルタであることを考慮して以下では「相補ウィナーフィルタ」という)として作用する。したがって、数式(24)から理解される通り、強度比PX(k,m)/PX(k)を音響信号x(n)のスペクトルX(k,m)に乗算することで後期残響成分xR(n)が抑圧される。なお、発話区間H1内では音響信号x(n)のパワースペクトルPX(k,m)が初期反射成分xE(n)のパワースペクトルPE(k,m)と後期残響成分xR(n)のパワースペクトルPR(k,m)との加算に相当するから(PX(k,m)=PE(k,m)+PR(k,m))、強度比PX(k,m)/PX(k)の平均値(期待値)は1となり音響信号x(n)は抑圧されない。
以上の知見を考慮して、第1実施形態の解析処理部34は、残響成分の抑圧用の調整値G(k,m)を以下の数式(25)の演算で算定する。
数式(25)から理解される通り、解析処理部34は、強度比PX(k,m)/PX(k)が1以上である場合に調整値G(k,m)を1(最大値)に設定し、強度比PX(k,m)/PX(k)が1を下回る場合に調整値G(k,m)を強度比PX(k,m)/PX(k)に設定する。なお、調整値G(k,m)の最大値を1以外の数値に設定した構成や、調整値G(k,m)の最小値を所定の正数に設定した構成も採用され得る。
数式(25)から理解される通り、解析処理部34は、強度比PX(k,m)/PX(k)が1以上である場合に調整値G(k,m)を1(最大値)に設定し、強度比PX(k,m)/PX(k)が1を下回る場合に調整値G(k,m)を強度比PX(k,m)/PX(k)に設定する。なお、調整値G(k,m)の最大値を1以外の数値に設定した構成や、調整値G(k,m)の最小値を所定の正数に設定した構成も採用され得る。
ところで、音響信号x(n)の平均スペクトルPX(k)は、前掲の数式(16)を利用して導出される以下の数式(26)で表現される。なお、数式(26)の導出では、数式(10)の導出時と同様に、指数関数項e-2Δm'NEの総和に等比級数の和の公式を適用した。
残響時間T60(サンプル数N60)は、室内インパルス応答h(μ)が60dBだけ減衰するまでの時間長であるから、数式(26)の指数関数項e-2ΔN60は1と比較して充分に小さい(e-2ΔN60≪1)。したがって、数式(26)は以下の数式(27)で近似される。
数式(27)から理解される通り、調整値G(k,m)の算定に適用される平均スペクトルPX(k)は残響時間T60(N60)に依存する。すなわち、M個の単位期間にわたるパワースペクトルPX(k,m)の平均(単純移動平均)を平均スペクトルPX(k)として調整値G(k,m)を算定する場合を想定すると、調整値G(k,m)を利用して音響信号x(n)の残響成分を有効に抑圧するには、平均スペクトルPX(k)の算定に適用されるパワースペクトルPX(k,m)の個数M(以下「平均個数M」という)を音響信号x(n)の残響時間T60に応じた適切な数値に設定する必要がある。
図1の記憶装置24は、残響成分が有効に抑圧されるように事前に選定された残響時間T60と平均個数Mとの関係を保持する。具体的には、記憶装置24は、残響時間T60と平均個数Mとの関係を近似する近似線(回帰直線)を規定する係数(以下「相関係数」という)Cを記憶する。例えば、残響時間T60と平均個数Mとの関係を近似する1次の回帰直線の勾配が相関係数(回帰係数)Cとして記憶装置24に記憶される。
図2は、第1実施形態の解析処理部34のブロック図である。図2に示すように、第1実施形態の解析処理部34は、変数設定部42と係数特定部44と強度平均部46と調整値算定部48とを含んで構成される。
強度平均部46は、周波数分析部32が算定した音響信号x(n)のスペクトルX(k,m)に対応する各単位期間のパワースペクトルPX(k,m)(PX(k,m)=|X(k,m)|2)の移動平均により単位期間毎に平均スペクトル(各周波数の平均強度)PX(k)を順次に算定する。前述の説明では平均個数Mの単純移動平均に言及したが、第1実施形態では便宜的に、以下の数式(28)で表現されるパワースペクトルPX(k,m)の指数移動平均を平均スペクトルPX(k)として算定する。すなわち、強度平均部46は、IIR(Infinite Impulse Response)型のローパスフィルタに相当する。
数式(28)の記号PX (m)(k)は、第m番目の単位期間に対応する平均スペクトルPX(k)を意味する。記号αは平滑化係数(忘却係数)であり、1未満の正数に設定される(0<α<1)。具体的には、平滑化係数αは、過去の平均スペクトルPX (m-1)(k)に対する最新(現在)のパワースペクトルPX(k,m)の加重値(各単位期間のパワースペクトルPX(k,m)の平滑化の時定数)に相当する。
数式(28)の記号PX (m)(k)は、第m番目の単位期間に対応する平均スペクトルPX(k)を意味する。記号αは平滑化係数(忘却係数)であり、1未満の正数に設定される(0<α<1)。具体的には、平滑化係数αは、過去の平均スペクトルPX (m-1)(k)に対する最新(現在)のパワースペクトルPX(k,m)の加重値(各単位期間のパワースペクトルPX(k,m)の平滑化の時定数)に相当する。
変数設定部42は、音響信号x(n)に想定される残響時間(例えば音響信号x(n)が発音および収録された音響空間の残響時間)T60を可変に設定する。例えば、変数設定部42は、所定の測定用信号を音響空間内に放音したときに収録される音響信号を解析することで残響時間T60を特定する。例えば、周波数が時間的に連続に変化する時間伸長信号(TSP:Time Stretched Pulse)が測定用信号として好適に利用される。残響時間T60の測定には、例えばインパルス積分法(Schroeder法)等の公知の技術が任意に利用され得る。また、公知のマルチステップ線形予測を利用して音響信号x(n)から残響時間T60を算定することも可能である。マルチステップ線形予測については、例えば、K. Kinoshita, et al.,"Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction", IEEE Transactions on Audio, Speech and Language processing, 17(4), p.534-545, 2009に詳述されている。また、入力装置(図示略)に対する操作で利用者が指定した残響時間T60を変数設定部42が取得する構成も採用され得る。
係数特定部44は、変数設定部42が設定した残響時間T60に応じた平滑化係数αを特定する。具体的には、係数特定部44は、記憶装置24内の相関係数Cで規定される関係のもとで残響時間T60に対応する平均個数Mを特定し、平均個数Mに対応する平滑化係数αを以下の数式(29)の演算で算定する。
数式(29)の記号NEは、音響信号x(n)の単位期間内のサンプルの総数であり、記号fsは音響信号x(n)のサンプリング周波数である。例えば単位期間内のサンプルの総数NEを512個とし、サンプリング周波数を16kHzとした場合、平滑化係数αと平均個数Mとの関係は以下の数式(30)で表現される。強度平均部46は、係数特定部44が残響時間T60に応じて設定した平滑化係数αを適用した数式(28)の演算で平均スペクトルPX(k)を算定する。数式(29)や数式(30)の平滑化係数αは、平均個数Mの単純移動平均に近似する数式(28)の指数移動平均の平滑化係数に相当する。したがって、平均個数Mが大きいほど最新のパワースペクトルPX(k,m)に対する平滑化係数αは小さい数値となる。換言すると、平均個数Mが大きいほど、過去の平均スペクトルPX (m-1)(k)に対する平滑化係数(1−α)は大きい数値となる。
数式(29)の記号NEは、音響信号x(n)の単位期間内のサンプルの総数であり、記号fsは音響信号x(n)のサンプリング周波数である。例えば単位期間内のサンプルの総数NEを512個とし、サンプリング周波数を16kHzとした場合、平滑化係数αと平均個数Mとの関係は以下の数式(30)で表現される。強度平均部46は、係数特定部44が残響時間T60に応じて設定した平滑化係数αを適用した数式(28)の演算で平均スペクトルPX(k)を算定する。数式(29)や数式(30)の平滑化係数αは、平均個数Mの単純移動平均に近似する数式(28)の指数移動平均の平滑化係数に相当する。したがって、平均個数Mが大きいほど最新のパワースペクトルPX(k,m)に対する平滑化係数αは小さい数値となる。換言すると、平均個数Mが大きいほど、過去の平均スペクトルPX (m-1)(k)に対する平滑化係数(1−α)は大きい数値となる。
図2の調整値算定部48は、強度平均部46が単位期間毎に算定する平均スペクトルPX(k)(PX (m)(k))を適用した数式(25)の演算で各周波数の調整値G(k,m)を単位期間毎に順次に算定する。調整値算定部48が算定した調整値G(k,m)が図1の残響調整部36による残響成分の抑圧処理(音響信号x(n)のスペクトルX(k,m)に対する調整値G(k,m)の乗算)に適用される。
以上に説明した第1実施形態では、音響信号x(n)のパワースペクトルPX(k,m)の平均スペクトルPX(k)に応じて調整値G(k,m)が算定されるから、残響成分の予測フィルタ係数を推定する特許文献1の技術や伝達関数を推定して逆フィルタを生成する非特許文献1の技術と比較して簡便な処理で音響信号x(n)の残響成分を抑圧することが可能である。また、平均スペクトルPX(k)の算定に適用される平滑化係数α(平均個数M)が残響時間T60に応じて可変に設定されるから、平滑化係数αを所定値に固定した構成と比較して、音響信号x(n)の残響成分が有効に抑圧されるという利点もある。
<残響時間T60と平均個数Mとの関係>
残響時間T60と平均個数Mとの好適な関係について以下に詳述する。図3は、残響時間T60と平均個数Mとの相関関係を解析する解析装置200のブロック図である。図3の解析装置200は、残響時間T60と平均個数Mとの相関関係を解析して前述の相関係数Cを特定する情報処理装置であり、図1の音響処理装置100と同様に、演算処理装置72と記憶装置74とを具備するコンピュータシステムで実現される。記憶装置74は、演算処理装置72が実行するプログラムPGM2や演算処理装置72が使用する各種のデータを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置74として任意に採用され得る。
残響時間T60と平均個数Mとの好適な関係について以下に詳述する。図3は、残響時間T60と平均個数Mとの相関関係を解析する解析装置200のブロック図である。図3の解析装置200は、残響時間T60と平均個数Mとの相関関係を解析して前述の相関係数Cを特定する情報処理装置であり、図1の音響処理装置100と同様に、演算処理装置72と記憶装置74とを具備するコンピュータシステムで実現される。記憶装置74は、演算処理装置72が実行するプログラムPGM2や演算処理装置72が使用する各種のデータを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置74として任意に採用され得る。
演算処理装置72は、記憶装置74が記憶するプログラムPGM2を実行することで、残響時間T60と平均個数Mとの関係を解析する相関解析部76として機能する。なお、図3では音響処理装置100とは別個の解析装置200を例示したが、相関解析部76を音響処理装置100に搭載することも可能である。
図4は、相関解析部76が残響時間T60と平均個数Mとの好適な関係を解析する解析処理のフローチャートである。例えば利用者からの指示を契機として解析処理が実行される。解析処理を開始すると、相関解析部76は、残響時間T60を所定値(変数設定部42が設定し得る数値)に設定し(S11)、室内インパルス応答h(μ)を規定する疑似乱数b(μ)(具体的には疑似乱数b(μ)を規定するシード値)を設定する(S12)。また、相関解析部76は、平均個数Mを所定値(候補値)に設定する(S13)。
相関解析部76は、音響信号x(n)を設定する(S14)。具体的には、以下の数式(31)で表現される通り、相関解析部76は、ステップS12で設定した疑似乱数b(μ)に対応する室内インパルス応答h(μ)(数式(3))を、事前に用意された所定の音源信号s(n)に畳込むことで音響信号x(n)を生成する。
また、相関解析部76は、ステップS14で設定した音響信号x(n)に対する残響抑圧処理で音響信号y(n)を生成する(S15)。残響抑圧処理の内容は音響処理装置100(解析処理部34,残響調整部36)が実行する前述の処理と同様である。すなわち、相関解析部76は、ステップS13で設定した平均個数M(平滑化係数α)を適用した数式(25)の演算で音響信号x(n)から算定される調整値G(k,m)を音響信号x(n)に作用させることで音響信号y(n)を生成する。
相関解析部76は、目的音信号t(n)を生成する(S16)。目的音信号t(n)は、音響信号x(n)のうち抽出の目標となる音響信号を意味し、具体的には、以下の数式(32)で表現されるように、音響信号x(n)のうち初期反射区間(サンプル数NE)内の初期反射成分xE(n)(すなわち、残響抑圧処理が完全である場合の音響信号y(n))に相当する。
相関解析部76は、残響成分の抑圧効果の指標(以下「抑圧効果指標」という)δを算定する(S17)。抑圧効果指標δは、残響成分の抑圧前の音響信号x(n)の目的音残響比TIRxと調整値G(k,m)を適用した残響成分の抑圧後の音響信号y(n)の目的音残響比TIRyとの差分(δ=TIRy−TIRx)である。目的音残響比TIR(Target-to-Interference Ratio)は、目的音成分(Target)と残響成分(Interference)との強度比を意味する。具体的には、相関解析部76は、ステップS14で生成した音響信号x(n)とステップS16で生成した目的音信号t(n)とを適用した以下の数式(33)の演算で算定される目的音残響比TIRxと、ステップS15で生成した音響信号y(n)とステップS16で生成した目的音信号t(n)とを適用した以下の数式(34)の演算で算定される目的音残響比TIRyとから抑圧効果指標δを算定する。
数式(33)および数式(34)の記号lは単位期間の番号を意味し、記号Nは所定の正数に設定される。以上の説明から理解される通り、残響成分の抑圧効果が大きい(目的音残響比TIRyが目的音残響比TIRxと比較して大きい)ほど抑圧効果指標δは大きい数値となる。
以上の手順で抑圧効果指標δを算定すると、相関解析部76は、平均個数Mの全部の数値について抑圧効果指標δを算定したか否かを判定する(S18)。判定結果が否定である場合(S18:NO)、相関解析部76は、平均個数Mを現在とは別個の数値に設定し(S13)、変更後の平均個数Mについて抑圧効果指標δを算定する(S14〜S17)。
平均個数Mの全部の数値について抑圧効果指標δを算定すると(S18:YES)、図5に例示されるように平均個数Mと抑圧効果指標δとの関係が特定される。前掲の数式(27)を参照した説明や図5から理解される通り、抑圧効果指標δ(残響成分の抑圧効果)は平均個数Mに応じて変化する。相関解析部76は、平均個数Mの複数の数値のうち抑圧効果指標δが最大となる数値(以下「最適個数」という)M0を特定する(S19)。
相関解析部76は、事前に用意された全種類の疑似乱数b(μ)について最適個数M0の特定が完了したか否かを判定する(S20)。判定結果が否定である場合(S20:NO)、相関解析部76は、疑似乱数b(μ)を変更し(S12)、変更後の疑似乱数b(μ)について最適個数M0を算定する(S13〜S19)。他方、全部の種類の疑似乱数b(μ)について最適個数M0を特定すると(S20:YES)、相関解析部76は、残響時間T60の全部の数値について最適個数M0を特定したか否かを判定する(S21)。判定結果が否定である場合(S21:NO)、相関解析部76は、残響時間T60を現在とは別個の数値に設定し(S11)、変更後の残響時間T60について疑似乱数b(μ)毎の最適個数M0を特定する(S12〜S20)。
残響時間T60の全部の数値について各疑似乱数b(μ)の最適個数M0を算定すると(S21:YES)、図6のように残響時間T60と平均個数M(最適個数M0)との関係が疑似乱数b(μ)毎に特定される。なお、図6内の丸印は、室内インパルス応答を実測した結果から抑圧効果指標が最大となるように実験的に選定した最適個数M0である。室内インパルス応答h(μ)を数式(3)でモデル化した場合でも、室内インパルス応答を実測した場合と同等の結果が観測されることが図6で確認できる。
図6に示すように、相関解析部76は、複数の疑似乱数b(μ)にわたる残響時間T60と平均個数M(最適個数M0)との相関関係を近似する近似線Lを特定する(S22)。例えば、残響時間T60と平均個数Mとの相関関係を近似する1次の回帰直線が近似線Lとして特定される。以上の通り、近似線Lは、抑圧効果指標δが最大になるという条件のもとで選定された残響時間T60と平均個数Mとの近似的な相関関係を表現する。具体的には、図6から把握される通り、近似線Lは、残響時間T60が長いほど平均個数Mが増加するように残響時間T60と平均個数Mとの近似的な関係を規定する。数式(29)を参照して前述した通り、平均個数Mが大きいほど最新のパワースペクトルPX(k,m)に対する平滑化係数αは小さい数値となるから、残響時間T60が長いほど平滑化係数αが減少するように、近似線Lが残響時間T60と平滑化係数αとの関係を規定すると換言することも可能である。換言すると、残響時間T60が長い(平均個数Mが大きい)ほど、過去の平均スペクトルPX (m-1)(k)に対する平滑化係数(1−α)は増加する。
以上の手順で相関解析部76が特定した近似線Lを規定する変数が相関係数Cとして音響処理装置100の記憶装置24に記憶されて係数特定部44による平滑化係数α(平均個数M)の設定に適用される。例えば、前述の例示のように近似線Lを1次の回帰直線で表現した場合、近似線Lの勾配が相関係数Cとして記憶装置24に記憶される。音響処理装置100の係数特定部44は、変数設定部42が設定した残響時間T60に対し、相関係数Cで規定される近似線Lの関係にある平均個数Mを特定する。
以上の説明から理解される通り、係数特定部44が設定する平滑化係数αに対応する平均個数Mと変数設定部42が設定する残響時間T60とは、相関解析部76が特定した近似線Lの関係にある。すなわち、平均個数M(平滑化係数α)と残響時間T60とは、抑圧効果指標δが最大になるという条件のもとで選定された近似的な関係(近似線L)を充足する。したがって、音響信号x(n)の残響成分を有効に抑圧できるという前述の効果は格別に顕著である。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図7は、残響時間T60と相補ウィナーフィルタ{1−β(k)}の数値(ゲイン)との間の数式(35)の関係を描画したグラフである。残響時間T60が長いほど相補ウィナーフィルタ{1−β(k)}の数値が増加する(残響成分の抑圧効果が低下する)という傾向が図7から把握される。調整値G(k,m)の基礎となる強度比PX(k,m)/PX(k)は、前掲の数式(24)で表現されるように相補ウィナーフィルタ{1−β(k)}以下の数値に設定されるから、調整値G(k,m)を数式(25)で算定する第1実施形態では、残響時間T60が長いほど調整値G(k,m)による残響成分の抑圧効果が低下する(強度比PX(k,m)/PX(k)が増加する)という傾向がある。
以上の傾向を考慮して、第2実施形態の調整値算定部48は、前掲の数式(25)に代えて以下の数式(36)の演算で各周波数の調整値G(k,m)を単位期間毎に算定する。
強度比PX(k,m)/PX(k)が1を下回る場合、調整値G(k,m)は、第1実施形態と同様の強度比PX(k,m)/PX(k)と補正係数A1および補正係数A2とに応じた数値に設定される。補正係数A1は、残響時間T60に応じた強度比PX(k,m)/PX(k)の変動を補償するための係数であり、変数設定部42が設定した残響時間T60に応じて可変に設定される。具体的には、残響時間T60が長いほど強度比PX(k,m)/PX(k)が増加するという傾向が補償されるように、残響時間T60が長いほど補正係数A1は減少する。例えば、以下の数式(37)で表現されるように、残響時間T60を指数の分母に含む指数関数が補正係数A1として好適に採用される。数式(37)の記号TEは、単位期間の時間長(サンプル数NE)を意味する。
強度比PX(k,m)/PX(k)が1を下回る場合、調整値G(k,m)は、第1実施形態と同様の強度比PX(k,m)/PX(k)と補正係数A1および補正係数A2とに応じた数値に設定される。補正係数A1は、残響時間T60に応じた強度比PX(k,m)/PX(k)の変動を補償するための係数であり、変数設定部42が設定した残響時間T60に応じて可変に設定される。具体的には、残響時間T60が長いほど強度比PX(k,m)/PX(k)が増加するという傾向が補償されるように、残響時間T60が長いほど補正係数A1は減少する。例えば、以下の数式(37)で表現されるように、残響時間T60を指数の分母に含む指数関数が補正係数A1として好適に採用される。数式(37)の記号TEは、単位期間の時間長(サンプル数NE)を意味する。
他方、補正係数A2は、1未満の任意の正数(0<A2<1)に設定される。例えば、入力装置(図示略)に対する利用者からの指示に応じて補正係数A2は可変に設定される。補正係数A2が小さいほど残響成分の抑圧効果が強化される。なお、補正係数A1または補正係数A2を数式(36)から省略することも可能である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、残響時間T60に応じた補正係数A1が調整値G(k,m)の算定に適用されるから、残響時間T60が長い場合でも音響信号x(n)の残響成分を充分に抑圧できるという利点がある。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、音響信号x(n)のパワースペクトルPX(k,m)の指数移動平均を平均スペクトルPX(k)として算定したが、以下の数式(38)で表現されるように、平均個数MにわたるパワースペクトルPX(k,m)の単純移動平均を平均スペクトルPX(k)として強度平均部46が算定することも可能である。すなわち、強度平均部46は、FIR(Finite Impulse Response)型のローパスフィルタに相当する。
係数特定部44は、変数設定部42が設定した残響時間T60に対し、相関解析部76が特定した近似線Lの関係を充足するように平均個数Mを設定する。強度平均部46は、係数特定部44が設定した平均個数Mを適用した数式(38)の演算で平均スペクトルPX(k)を算定する。なお、平均個数MのパワースペクトルPX(k,m)の各々を加重する加重移動平均で平均スペクトルPX(k)を算定することも可能である。
係数特定部44は、変数設定部42が設定した残響時間T60に対し、相関解析部76が特定した近似線Lの関係を充足するように平均個数Mを設定する。強度平均部46は、係数特定部44が設定した平均個数Mを適用した数式(38)の演算で平均スペクトルPX(k)を算定する。なお、平均個数MのパワースペクトルPX(k,m)の各々を加重する加重移動平均で平均スペクトルPX(k)を算定することも可能である。
以上の説明から理解される通り、強度平均部46は、係数特定部44が特定した移動平均係数を適用した音響信号x(n)の強度(パワースペクトルPX(k,m))の移動平均で平均強度(平均スペクトルPX(k))を算定する要素として包括され、移動平均係数は、指数移動平均(数式(28))に適用される平滑化係数αと単純移動平均(数式(38))や加重移動平均に適用される平均個数Mとの双方を包含する。
(2)前述の各形態では、残響時間T60と平均個数Mとの関係を近似線L(相関係数C)で規定したが、音響信号x(n)のパワースペクトルPX(k,m)の指数移動平均(数式(28))を平均スペクトルPX(k)として算定する構成では、残響時間T60と平滑化係数αとの関係を近似線L(相関係数C)で規定することも可能である。係数特定部44は、変数設定部42が設定した残響時間T60に対して近似線Lの関係を充足するように平滑化係数αを直接的(すなわち平均個数Mを設定せず)に特定する。
(3)前述の各形態では、記憶装置24に記憶された相関係数C(近似線L)を利用して残響時間T60に応じた平均個数M(平滑化係数α)を特定したが、残響時間T60に応じた平均個数Mを特定する方法は以上の例示に限定されない。例えば、残響時間T60の各数値と平均個数M(平滑化係数α)の各数値とを対応させた参照テーブルを記憶装置24に記憶し、変数設定部42が設定した残響時間T60に参照テーブル内で対応する平均個数Mを係数特定部44が設定する構成も採用される。参照テーブル内で相互に対応する残響時間T60と平均個数Mとの各数値は近似線Lで規定される関係にある。
(4)前述の各形態の音響処理装置100は、複数の端末装置の間で音響信号を授受する音声通話システムにおいて各端末装置に搭載され得る。各端末装置の音響処理装置100は、収音装置(信号供給装置12)が生成した音響信号x(n)に対する残響抑圧処理で音響信号y(n)を生成して相手側の端末装置に送信する。残響時間T60は、時間伸長信号等の測定用信号に応じた音響を端末装置から放射したときに収録される音響信号を解析することで変数設定部42が設定する。以上の構成によれば、各端末装置が存在する音響空間内で付与された残響成分を抑圧した明瞭な音声を端末装置間で授受できるという利点がある。また、音響空間内の音響を録音する録音装置にも前述の各形態の音響処理装置100を適用することが可能である。録音装置内の音響処理装置100は、収音装置が生成した音響信号x(n)に対する残響抑圧処理で音響信号y(n)を生成して記憶装置24に格納する。
(5)前述の各形態では、音響信号x(n)の平均スペクトルPX(k)に対する1個の単位期間のパワースペクトルPX(k,m)の強度比PX(k,m)/PX(k)を調整値G(k,m)として例示したが、調整値G(k,m)を算定する方法は適宜に変更される。例えば、平均スペクトルPX(k)の算定時の移動平均係数(平滑化係数α,平均個数M)とは別個の移動平均係数を適用したパワースペクトルPX(k,m)の移動平均で平均スペクトルQ(k)を算定し、平均スペクトルPX(k)に対する平均スペクトルQ(k)の強度比Q(k)/PX(k)を調整値G(k,m)として算定する(すなわち、数式(25)のパワースペクトルPX(k,m)を平均スペクトルQ(k)に置換する)ことも可能である。平均スペクトルQ(k)は、平均スペクトルPX(k)の算定に適用される平均個数Mを下回る個数の単位期間にわたるパワースペクトルPX(k,m)の単純移動平均、または、平均スペクトルPX(k)の算定に適用される平滑化係数αを上回る平滑化係数を適用したパワースペクトルPX(k,m)の指数移動平均である。
前述の各形態におけるパワースペクトルPX(k,m)と本変形例で例示した平均スペクトルQ(k)とは、平均スペクトルPX(k)と比較して高い追従性でパワースペクトルPX(k,m)の時間変化に追従する強度指標Λ(k)として包括される。すなわち、本発明の好適な態様では、音響信号x(n)の平均スペクトルPX(k)に対する強度指標Λ(k)(PX(k,m)またはQ(k))の相対比Λ(k)/PX(k)が調整値G(k,m)として算定される。
また、前述の各形態では、音響信号x(n)の残響成分を抑圧する調整値G(k,m)を例示したが、音響信号x(n)の残響成分を強調する場合にも本発明は適用される。例えば、数式(25)で算定される調整値G(k,m)を所定値λ(例えば1)から減算した調整値{λ−G(k,m)}を音響信号x(n)に作用させれば、残響成分を強調した音響信号y(n)を生成することが可能である。以上の説明から理解される通り、調整値算定部48は、音響信号x(n)の残響成分を調整(抑圧または強調)するための調整値を平均強度(平均スペクトルPX(k))に応じて算定する要素として包括される。
(6)前述の各形態では、周波数の全域にわたり共通の残響時間T60を設定したが、残響時間T60を所定の帯域毎に個別に設定することも可能である。係数特定部44は、各帯域の残響時間T60に応じた移動平均係数(平滑化係数α,平均個数M)を帯域毎に個別に設定する。以上の構成では、抑圧効果指標δが最大となる残響時間T60と移動平均係数との近似的な相関関係(近似線L)を帯域毎に個別に用意した構成が好適である。
(7)前述の各形態では音響処理装置100を単体の装置として例示したが、音響処理装置100の一部の機能を、音響処理装置100と通信可能な外部装置(例えばウェブサーバ)に分担させることも可能である。例えば、外部装置は、音響処理装置100からの要求に応じて残響時間T60を算定するとともに残響時間T60に応じた移動平均係数(平滑化係数α,平均個数M)を特定して音響処理装置100に通知する。音響処理装置100では、係数特定部44が外部装置から移動平均係数を取得し、移動平均係数を適用した移動平均で強度平均部46が平均スペクトルPX(k)を算定する。したがって、変数設定部42は音響処理装置100から省略される。
外部装置が残響時間T60を特定する方法は任意である。例えば、利用者が指定した音響空間の音響特性(例えば平均吸音率や空間サイズや発音源および受聴点の位置)を音響処理装置100から外部装置に通知し、外部装置が鏡像法等の公知の残響評価技術で音響空間の音響特性から残響時間T60を算定する構成が採用される。また、測定用信号に応じた音響の放音時に収録された音響信号を音響処理装置100から外部装置に送信し、外部装置が音響信号から残響時間T60を算定することも可能である。以上の説明から理解されるように、係数特定部44は、残響時間T60に応じた移動平均係数(平滑化係数αや平均個数M)を特定する要素として包括され、移動平均係数の算定を係数特定部44が実行するか外部装置が算定した移動平均係数を係数特定部44が取得するかは不問である。
(8)前述の各形態では、解析処理部34と残響調整部36とを具備する音響処理装置100を例示したが、調整値G(k,m)を算定する調整値算定装置としても本発明は特定され得る。調整値算定装置は、前述の各形態における解析処理部34を含んで構成され、残響調整部36の有無は不問である。調整値算定装置が算定した調整値G(k,m)が、残響調整部36を具備する音響処理装置に提供されて音響信号x(n)の残響抑圧処理に適用される。
(9)音響空間内での反射や散乱に起因した狭義の残響成分に加えて、例えば楽器の演奏音等の響き成分(共鳴成分)も残響成分に含意され得る。具体的には、ピアノ等の鍵盤楽器の響板による共鳴成分やバイオリン等の弦楽器の共鳴成分(胴鳴り,箱鳴り)の調整にも、前述の各形態と同様に本発明を適用することが可能である。すなわち、本発明の残響成分は、経時的に減衰する成分(減衰成分)を意味する。
100……音響処理装置、12……信号供給装置、14……放音装置、22……演算処理装置、24……記憶装置、32……周波数分析部、34……解析処理部、36……残響調整部、38……波形合成部、42……変数設定部、44……係数特定部、46……強度平均部、48……調整値算定部、200……解析装置、72……演算処理装置、74……記憶装置、76……相関解析部。
Claims (5)
- 残響時間に応じた移動平均係数を特定する係数特定手段と、
前記係数特定手段が特定した移動平均係数を適用した音響信号の強度の移動平均で平均強度を算定する強度平均手段と、
前記音響信号の残響成分を調整するための調整値を前記平均強度に応じて算定する調整値算定手段と、
前記調整値算定手段が算定した調整値を前記音響信号に作用させる残響調整手段と
を具備する音響処理装置。 - 前記調整値算定手段は、前記平均強度と比較して高い追従性で前記音響信号の強度に追従する強度指標の、前記平均強度に対する比に応じて前記調整値を算定する
請求項1の音響処理装置。 - 前記調整値算定手段は、前記平均強度と比較して高い追従性で前記音響信号の強度に追従する強度指標の、前記平均強度に対する比と、前記残響時間に応じた補正係数とに応じて前記調整値を算定する
請求項2の音響処理装置。 - 前記係数特定手段は、前記残響時間が長いほど小さい数値となる平滑化係数を前記移動平均係数として特定し、
前記強度平均手段は、音響信号の最新の強度に対して前記平滑化係数を適用した前記音響信号の強度の指数移動平均を前記平均強度として算定する
請求項2または請求項3の音響処理装置。 - 前記調整値算定手段は、前記音響信号の残響成分を抑圧するための調整値を算定し、
前記係数特定手段は、前記残響成分の抑圧前の音響信号の目的音残響比と前記調整値を適用した抑圧後の音響信号の目的音残響比との差分が最大になるという条件のもとで近似的に選定された関係を充足するように、前記残響時間に対応する移動平均係数を特定する
請求項1から請求項4の何れかの音響処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012198329A JP2014052585A (ja) | 2012-09-10 | 2012-09-10 | 音響処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012198329A JP2014052585A (ja) | 2012-09-10 | 2012-09-10 | 音響処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014052585A true JP2014052585A (ja) | 2014-03-20 |
Family
ID=50611094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012198329A Pending JP2014052585A (ja) | 2012-09-10 | 2012-09-10 | 音響処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014052585A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489667A (zh) * | 2019-08-22 | 2021-03-12 | 北京声智科技有限公司 | 音频信号的处理方法和装置 |
CN117434153A (zh) * | 2023-12-20 | 2024-01-23 | 吉林蛟河抽水蓄能有限公司 | 基于超声波技术的道路无损检测方法及系统 |
-
2012
- 2012-09-10 JP JP2012198329A patent/JP2014052585A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489667A (zh) * | 2019-08-22 | 2021-03-12 | 北京声智科技有限公司 | 音频信号的处理方法和装置 |
CN117434153A (zh) * | 2023-12-20 | 2024-01-23 | 吉林蛟河抽水蓄能有限公司 | 基于超声波技术的道路无损检测方法及系统 |
CN117434153B (zh) * | 2023-12-20 | 2024-03-05 | 吉林蛟河抽水蓄能有限公司 | 基于超声波技术的道路无损检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6019969B2 (ja) | 音響処理装置 | |
JP5641186B2 (ja) | 雑音抑圧装置およびプログラム | |
JP6177253B2 (ja) | ハーモニシティベースの単一チャネルスピーチ品質評価 | |
RU2595636C2 (ru) | Система и способ для генерации аудиосигнала | |
JP5018193B2 (ja) | 雑音抑圧装置およびプログラム | |
CA2847689A1 (en) | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain | |
JP2003337594A (ja) | 音声認識装置、その音声認識方法及びプログラム | |
JP2015519614A (ja) | シングルチャンネル音声残響除去方法及びその装置 | |
JP5187666B2 (ja) | 雑音抑圧装置およびプログラム | |
Habets | Single-channel speech dereverberation based on spectral subtraction | |
JP5034735B2 (ja) | 音処理装置およびプログラム | |
JP5152799B2 (ja) | 雑音抑圧装置およびプログラム | |
JP2014052585A (ja) | 音響処理装置 | |
JP5609157B2 (ja) | 係数設定装置および雑音抑圧装置 | |
JP5152800B2 (ja) | 雑音抑圧評価装置およびプログラム | |
JP6171558B2 (ja) | 音響処理装置 | |
JP4533126B2 (ja) | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 | |
JP2013068919A (ja) | 雑音抑圧用係数設定装置および雑音抑圧装置 | |
JP5772723B2 (ja) | 音響処理装置および分離マスク生成装置 | |
JP5884473B2 (ja) | 音響処理装置および音響処理方法 | |
JP6299279B2 (ja) | 音響処理装置および音響処理方法 | |
CN116137148A (zh) | 噪声降低的设备、系统和方法 | |
JP2015169901A (ja) | 音響処理装置 | |
JP6036141B2 (ja) | 音響処理装置 | |
JP6191238B2 (ja) | 音響処理装置および音響処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |