JP7024615B2 - 音響信号分離装置、学習装置、それらの方法、およびプログラム - Google Patents
音響信号分離装置、学習装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- JP7024615B2 JP7024615B2 JP2018109327A JP2018109327A JP7024615B2 JP 7024615 B2 JP7024615 B2 JP 7024615B2 JP 2018109327 A JP2018109327 A JP 2018109327A JP 2018109327 A JP2018109327 A JP 2018109327A JP 7024615 B2 JP7024615 B2 JP 7024615B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- distance
- frequency
- microphones
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 51
- 238000000034 method Methods 0.000 title claims description 39
- 230000006870 function Effects 0.000 claims description 67
- 238000005070 sampling Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 33
- 238000012545 processing Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
[原理]
まず原理を説明する。
以下で説明する実施形態では、M+1本のマイクロホンで収音された信号から、当該マイクロホンの近くに位置する音源(近接音源)および当該マイクロホンの遠方に位置する音源(遠方音源)の少なくとも一方を分離する。なお、各マイクロホンから各近接音源までの距離は、各マイクロホンから各遠方音源までの距離よりも短い。例えば、各マイクロホンから各近接音源までの距離は30cm以下であり、各マイクロホンから各遠方音源までの距離は1m以上である。なお、Mは1以上の整数であり、好ましくはMは2以上の整数である。今、m∈{0,…,M}番目のマイクロホンで収音された時間領域の観測信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間tおよび周波数fでの時間周波数領域の観測信号を
とし、以下のように定義する。
ここで、
は、近接音源から発せられた近接音をm番目のマイクロホンで収音することで得られる近距離音響信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間tおよび周波数fでの時間周波数領域の近距離音響信号に相当する成分である。
は、遠方音源から発せられた遠方音をm番目のマイクロホンで収音することで得られる遠距離音響信号をサンプリングしてさらに時間周波数領域に変換して得られる、時間区間tおよび周波数fでの時間周波数領域の遠距離音響信号に相当する成分である。t∈{1,…,T}およびf∈{1,…,F}はそれぞれ、時間周波数領域における時間区間(フレーム)および周波数(離散周波数)のインデックスである。TおよびFは正整数であり、インデックスtに対応する時間区間を「時間区間t」と表し、インデックスfに対応する周波数を「周波数f」と表す。記載表記の制約上、以下の説明において、
を、それぞれXt,f (m),St,f (m),Nt,f (m)と表記する場合がある。詳細は省略するが、St,f (m)は各近接音源の原信号と当該近接音源からm番目のマイクロホンまでの各伝達特性とに依存し、Nt,f (m)は各遠方音源の原信号と当該遠方音源からm番目のマイクロホンまでの各伝達特性とに依存する。時間周波数領域への変換は、例えば、高速フーリエ変換(FFT)などによって行うことができる。
まず、球の中心に置かれたマイクロホンとその球の球面上に等間隔に配置されたM個のマイクロホンとを含む球面マイクロホンアレイを用いる近接音収音方法を説明する。上述したM+1個のマイクロホンのうち、0番目のマイクロホンが球の中心に配置され、それ以外の1からM番目までのマイクロホンが球の球面上に等間隔に配置されているとする。この方法では、遠方音の音波はマイクロホンへ平面波として到来し、近接音の音波はマイクロホンへ球面波として到来する、と近似できることに着目する。半径r(rは正値)の球面よりも外側から到来する音のみがある場合、その球面上で観測された音圧分布の球面調和スペクトル(球面調和関数展開係数)から、半径r0(r0<r)の球面上の音圧が予測できる。ここで、球面上に置かれた1からM番目までのマイクロホンでの観測信号を用いて球の中心での音圧を予測し、予測した球の中心での音圧と球の中心に置かれたマイクロホンで観測した音圧との差分をとる。遠方音は平面波としての近似精度が良いため、この差分は0に近づく。一方、近接音の場合は平面波近似が困難であるため、近似誤差として近接音がこの差分となる。結果として近接音源強調(すなわち、マイクロホンに近い距離から発せられた近距離音響信号の推定値を観測信号から分離すること)が実現される。この処理は、以下のように記述できる(例えば、参考文献1等参照)。
ここでJ0(kr)は球ベッセル関数、kは周波数fに対応する波数である。式(2)の左辺は近距離音響信号の推定値を表し、記載表記の制約上、以下ではこれをS^t,f,Dと表記する場合がある。同様に、
をXt,f,D (m)と表記する場合がある。下付き文字のDはダウンサンプリングされた信号であることを表す。すなわち、S^t,f,DはS^t,fをダウンサンプリングしたものであり、Xt,f,D (m)はXt,f (m)をダウンサンプリングしたものである。
[参考文献1]羽田陽一, 古家賢一, 小山翔一, 丹羽健太, "球面調和関数展開に基づく2種類の超接話マイクロホンアレイ," 電子情報通信学会論文誌 A, Vol. J97-A, No. 4, pp. 264-273, 2014.
次に、他の音源分離方法である時間周波数マスク処理を説明する。時間周波数マスク処理では、以下の式で音響信号Xt,fから目的信号の推定値S^t,fを得る。
ここでGt,fが時間周波数マスクである。また、記載表記の制約上、式(3)の左辺をS^t,fと表記する。目的信号が音響信号Xt,fに含まれる近距離音響信号であり、雑音信号が遠距離音響信号である場合、例えば、以下のようにGt,fが得られる。
つまり、近距離音響信号St,f (0)および遠距離音響信号Nt,f (0)が既知であれば、時間周波数マスクGt,fは容易に得られる。しかし、近距離音響信号St,f (0)および遠距離音響信号Nt,f (0)は一般的に未知であり、何らかの形で時間周波数マスクGt,fを推定しなくてはならない。DNN(Deep Neural Network)を用いた深層学習(DL: deep learning)音源強調(「DNN音源強調」ともいう)では、時間区間tにおける各周波数f∈{1,…,F}の時間周波数マスクGt,1,…,Gt,Fを縦に並べたベクトルGt=(Gt,1,…,Gt,F)Tを以下のように推定する(例えば、参考文献2等参照)。
ここで、Mはニューラルネットワークを利用した回帰関数、φtは観測信号から抽出した時間区間tにおける音響特徴量、Θはニューラルネットワークのパラメータ、・Tは・の転置を表す。また、0≦Gt,f≦1である。
[参考文献2]H. Erdogan, J. R. Hershey, S. Watanabe, and J. L. Roux, "Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks," in Proc. ICASSP, 2015.
[参考文献3]Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi and H. Ohmuro, "Informative acoustic feature selection to maximize mutual information for collecting target sources," IEEE/ACM Trans. Audio, Speech and Language Processing, pp. 768-779, 2017.
これに対し、以下に述べる実施形態では、球面調和関数解析で得られた音響特徴量を用いて、近接/遠方音源分離を実現する時間周波数マスクを深層学習で推定する。この方法により、(1)球面調和関数解析では不可能であった高域の周波数においても、近接/遠方音源分離を実現できるようになる。時間周波数マスクの学習には低域の周波数の音響特徴量しか利用できないとしても、学習によって得られた時間周波数マスクを高域の周波数で利用することは可能だからである。また、(2)球面調和関数解析で得られた音響特徴量を用いることで、DL音源強調では困難であった近接/遠方音源分離が可能な時間周波数マスクを推定できる。以下に詳細に説明する。
[参考文献4]Q. V. Le, K. Chen, G. S. Corrado, J. Dean, and A. Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," in Proc. of ICML, 2012.
ゆえに、前述した球面マイクロホンアレイで収音された信号をそのまま音響特徴量としてニューラルネットワークに入力する方法が直感的に考えられる。しかし、この方法を採用することは、以下の理由により、現実的には困難である。球面マイクロホンアレイのマイクロホン数M+1は、一般のマイクロホンアレイよりも多いことがほとんどである(例えば、参考文献1では33本のマイクロホンを利用している)。深層学習を用いた音源強調では、前後5フレーム分程度の振幅スペクトルを結合して音響特徴量とすることが多い(例えば、参考文献2等参照)。そのため、33本のマイクロホンで得られた観測信号をサンプリングし、512点の高速フーリエ変換(FFT)を利用して時間周波数領域の観測信号を得、それらの時間周波数領域の観測信号をそのままニューラルネットワークの入力とする場合、入力の次元数は、
257 [点] × (1+5+5) [フレーム] × 33 [チャネル] = 93291 [次元] (6)
と膨大になる。一般に、ニューラルネットワークへの入力の次元数が増加すると、過適合を避けるために、膨大な学習データや計算時間が必要になる。ゆえに、近接/遠方音源分離を実現するためには、前述のGtとの相互情報量が大きく、入力の次元数ができるだけ小さな音響特徴量を用いるべきである。そこで、式(2)の球面調和関数解析で得られた近距離音響信号の推定値S^t,f,Dを音響特徴量とすることが考えられる。なぜなら、式(2)で得られるS^t,f,Dは、遠方音に対応する成分が低減され、近接音に対応する成分が強調されており、近距離音響信号と遠距離音響信号とを見分けるための手がかりを含んでいると考えられるからである。しかしながら、S^t,f,Dには、式(2)によって消去しきれなかった遠方音に対応する成分(遠方音の残留ノイズ)が含まれており、ニューラルネットワークがこの遠方音の残留ノイズを近接音に対応する成分であると誤判定する可能性もある。
ここで、|・|は・の絶対値を表す。さらに、式(2)で得られた近距離音響信号の推定値S^t,f,Dに対応する値と、式(7)で得られた遠距離音響信号の推定値N^t,f,Dに対応する値と、を関連付けた音響特徴量φtを計算する。
ただし、
である。ここで、Cはコンテキスト窓長を表す正整数であり、例えばC=5である。Abs[(・)]はベクトル(・)の各要素を各要素の絶対値に置き換える演算を表す。すなわち、Abs[(・)]の演算結果はベクトル(・)の各要素の絶対値を当該各要素とするベクトルとなる。Mel[(・)]はベクトル(・)にメル変換行列を乗じてB次元ベクトルを得る演算を表す。すなわち、Mel[(・)]の演算結果はベクトル(・)に対応するB次元ベクトルとなる。B=64である。ln(・)はベクトル(・)の各要素を当該各要素の自然対数に置き換える演算を表す。すなわち、ln(・)の演算結果はベクトル(・)の各要素の自然対数を各要素とするベクトルである。また、記載表記の制約上、式(9)の左辺をs^t,Dと表記し、式(10)の左辺をn^t,Dと表記する場合がある。
1.サンプリング周波数sf1(第1周波数)の観測信号Xt,f (m)をサンプリング周波数sf2(第2周波数)にダウンサンプリングしたXt,f,D (m)(m∈{0,…,M})を用い、式(2)(7)に従い、サンプリング周波数sf2にダウンサンプリングされたS^t,f,DおよびN^t,f,Dを計算する。ただし、sf2<sf1である。
2.S^t,f,DおよびN^t,f,Dをサンプリング周波数sf1のS^t,fおよびN^t,fにアップサンプリングする。
3.アップサンプリングされた状態で、S^t,f,DおよびN^t,f,Dに代えてS^t,fおよびN^t,fを用い、式(9)(10)に従って、s^t,Dおよびn^t,Dに代えてs^tおよびn^tを計算する。さらに、s^tからナイキスト周波数以下の帯域の要素だけを取り出したものをs^t,Lとし、n^tからナイキスト周波数以下の帯域の要素だけを取り出したものをn^t,Lとする。
4.s^t,Dおよびn^t,Dに代えてn^t,Lおよびn^t,Lを用い、式(8)に従って音響特徴量φtを計算する。
40 [点] ×(1+5+5) [フレーム] × 2[近接+遠方の2チャンネル] = 880 [次元] (11)
前述のように、観測信号をそのままニューラルネットワークの入力とする場合には、音響特徴量の次元数がマイクロホンの個数M+1チャネル(式(6)の例では33チャネル)に対応し、非常に大きな値となる(式(6)の例では93291次元)。これに対し、式(8)のように近距離音響信号の推定値S^t,f,Dに対応する値と遠距離音響信号N^t,f,Dの推定値に対応する値とを関連付けた音響特徴量φtの次元数は、マイクロホンM+1の数にかかわらず、S^t,f,DおよびN^t,f,Dの2チャネルに対応し、比較的小さな値となる(式(11)の例では880次元)。例えば、式(6)(11)を比較すると、式(8)の音響特徴量φtの次元数は、観測信号をそのままニューラルネットワークの入力とする場合に比べて100分の1以下となる。
ただし、
である。α○βはベクトルαおよびベクトルβの互いに同じ位置の要素を互いに乗じたものを要素とするベクトルを得る演算(要素ごとの乗算)を表す。すなわち、α=(α1,…,αF)Tおよびβ=(β1,…,βF)Tとすると、α○β=(α1β1,…,αFβF)Tである。また、||α||qはLqノルムである。
第1実施形態を説明する。
<構成>
図1に例示するように、本実施形態の音響信号分離システム1は、学習装置11と音響信号分離装置12と球面マイクロホンアレイ13とを有する。
図2に例示するように、本実施形態の学習装置11は、設定部111、記憶部112、ランダムサンプリング部113、ダウンサンプリング部114-m(m∈{0,…,M})、関数演算部115,116、特徴量計算部117、学習部118、および制御部119を有する。
図3に例示するように、本実施形態の音響信号分離装置12は、設定部121、信号処理部123、ダウンサンプリング部124-m(m∈{0,…,M})、関数演算部125,126、特徴量計算部127、およびフィルタ部128を有する。
球面マイクロホンアレイ13は、半径rの球の中心に配置された0番目のマイクロホンと、当該球の球面上に等間隔に配置された1からM番目までのマイクロホンとを有する。
次に、図4を用いて本実施形態の学習処理を説明する。
前処理として、単数または複数の任意の近接音源から発せられた近接音を球面マイクロホンアレイ13のM+1個のマイクロホンで収音することで得られた近距離音響信号をサンプリング周波数sf1でサンプリングし、さらに時間周波数領域に変換して得られた時間周波数領域の近距離音響信号St,f (m)(m∈{0,…,M})を得る。近接音源をランダムに選択しながらこのようなSt,f (m)を複数個取得し、それらからなる集合Sを構成する。同様に、単数または複数の任意の遠方音源から発せられた遠方音を球面マイクロホンアレイ13のM+1個のマイクロホンで収音することで得られた遠距離音響信号をサンプリング周波数sf1でサンプリングし、さらに時間周波数領域に変換して得られた時間周波数領域の遠距離音響信号Nt,f (m)(m∈{0,…,M})を得る。遠方音源をランダムに選択しながらこのようなNt,f (m)を複数個取得し、それらからなる集合Nを構成する。また、各種パラメータp(例えば、M,F,T,C,B,r,sf1,sf2や学習に必要なパラメータなど)が設定される。前処理で得られたS,N,pは学習装置11(図2)の設定部111に入力される。集合S,Nは記憶部112に格納され、各種パラメータpは学習装置11の各部に設定される(ステップS111)。
次に、図5を用いて本実施形態の分離処理を説明する。前処理として、パラメータp’(例えば、学習に必要なパラメータを除き、前述したパラメータpと同一)が設定部121に入力され、ステップS119で出力されたパラメータΘがフィルタ部128に入力される。パラメータp’は音響信号分離装置12の各部に設定され、パラメータΘはフィルタ部128に設定される。その後、各時間区間tについて以下の各処理が実行される。
(所定の関数)に従って、観測信号X’t,f,D (0),…,X’t,f,D (M)から近距離音響信号の推定値S^’t,f,D(複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値)を得て出力する。なお、記載表記の制約上、式(15)の左辺をS^’t,f,Dと表記する(ステップS125)。
に従ってX’t,f,D (0)およびS^’t,f,Dから遠距離音響信号の推定値N^’t,f,D(複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値)を得て出力する。なお、記載表記の制約上、式(16)の左辺をN^’t,f,Dと表記する(ステップS126)。
なお、記載表記の制約上、式(18)(19)の左辺をs^’t,D,n^’t,Dとそれぞれ表記する(ステップS127)。
このように得られる時間周波数マスクGt,1,…,Gt,Fは、複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値S^t,f,D(S^’t,f,D)に対応する値s^t,D(s^’t,D)と、複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値N^t,f,D(N^’t,f,D)に対応する値n^t,D(n^’t,D)と、を関連付けることで得られるフィルタ(非線形フィルタ)である。さらにフィルタ部128は、時間周波数マスクGt,f(f∈{0,…,F})を用い、観測信号X’t,f (0)(特定のマイクロホンで収音された信号に由来する第1音響信号)から、以下のように、近距離音響信号の推定値S^’t,f(特定のマイクロホンに近い距離から発せられた音を表す所望の音響信号)を取得して出力する。
なお、本形態では、時間周波数マスクGt,fのサンプリング周波数がsf2のままであるため、式(21)の計算を行う前に、時間周波数マスクGt,fをサンプリング周波数sf1またはその近傍にアップサンプリングすることが望ましい(ステップS128)。出力されたS^t,fは時間領域の信号に変換されてもよいし、時間領域の信号に変換されることなく他の処理に用いられてもよい。
第1実施形態のステップS128では、音響信号分離装置12のフィルタ部128が、時間周波数マスクGt,fを用い、観測信号X’t,f (0)から近距離音響信号の推定値S^t,fを取得して出力した(式(21))。しかし、音響信号分離装置12がフィルタ部128に代えてフィルタ部128’を備え、フィルタ部128’が時間周波数マスクGt,fを用い、以下のように観測信号X’t,f (0)から遠距離音響信号の推定値N^’t,f(特定のマイクロホンから遠い距離から発せられた音を表す所望の音響信号)を取得して出力してもよい。
第1実施形態のステップS118では、学習装置11の学習部118が式(12)の関数値J(Θ)を最小化するようにパラメータΘ(フィルタに対応する情報)を学習した。しかし、学習装置11が学習部118に代えて学習部118”を備え、学習部118”が、ステップS117で得られた音響特徴量φtおよび当該音響特徴量φtに対応するNt,f (0)およびXt,f (0)(t∈{1,…,T},f∈{1,…,F})を学習データとして用い、公知の学習法を用いて、以下のように関数値J(Θ)を最小化するようにパラメータΘ(フィルタに対応する情報)を学習してもよい(ステップS118”)。
または、音響信号分離装置12のフィルタ部128’が時間周波数マスクGt,fを用い、以下のように観測信号X’t,f (0)から近距離音響信号の推定値S^’t,fを取得して出力してもよい。
第2実施形態を説明する。本実施形態は第1実施形態の変形例であり、音響特徴量の計算前にアップサンプリングが行われる点のみが第1実施形態と相違する。以下では第1実施形態との相違点を中心に説明を行い、第1実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
図1に例示するように、本実施形態の音響信号分離システム2は、学習装置21と音響信号分離装置22と球面マイクロホンアレイ13とを有する。
図2に例示するように、本実施形態の学習装置21は、設定部111、記憶部112、ランダムサンプリング部113、ダウンサンプリング部114-m(m∈{0,…,M})、関数演算部115,116、特徴量計算部217、学習部118、および制御部119を有する。
図3に例示するように、本実施形態の音響信号分離装置22は、設定部121、信号処理部123、ダウンサンプリング部124-m(m∈{0,…,M})、関数演算部125,126、特徴量計算部227、およびフィルタ部128を有する。
次に、図4を用いて本実施形態の学習処理を説明する。第1実施形態の学習処理との相違点はステップS117が以下のステップS217に置換される点のみである。その他は、第1実施形態もしくは第1実施形態の変形例1または2の学習処理と同一である。
ステップS115で得られた近距離音響信号の推定値S^t,f,DおよびステップS116で得られた遠距離音響信号の推定値N^t,f,Dは、特徴量計算部217に入力される。特徴量計算部217は、S^t,f,DおよびN^t,f,Dをサンプリング周波数sf1のS^t,fおよびN^t,fにアップサンプリングする。その後、特徴量計算部217は、アップサンプリングされた状態で、S^t,f,DおよびN^t,f,Dに代えてS^t,fおよびN^t,fを用い、式(9)(10)に従って、s^t,Dおよびn^t,Dに代えてs^tおよびn^tを計算する。さらに、特徴量計算部217は、s^tからナイキスト周波数以下の帯域の要素だけを取り出したものをs^t,Lとし、n^tからナイキスト周波数以下の帯域の要素だけを取り出したものをn^t,Lとする。特徴量計算部217は、s^t,Dおよびn^t,Dに代えてn^t,Lおよびn^t,Lを用い、式(8)に従って音響特徴量φt(近距離音響信号の推定値S^t,f,Dに対応する値s^t,Lと、遠距離音響信号の推定値N^t,f,Dに対応する値n^t,Lと、を関連付けた音響特徴量)を計算して出力する。
次に、図5を用いて本実施形態の分離処理を説明する。第1実施形態の分離処理との相違点はステップS127が以下のステップS227に置換される点のみである。その他は、第1実施形態の分離処理と同一である。
ステップS125で得られた近距離音響信号の推定値S^’t,f,DおよびステップS126で得られた遠距離音響信号の推定値N^’t,f,Dは、特徴量計算部227に入力される。特徴量計算部227は、S^’t,f,DおよびN^’t,f,Dをサンプリング周波数sf1のS^’t,fおよびN^’t,fにアップサンプリングする。その後、特徴量計算部227は、アップサンプリングされた状態で、S^’t,f,DおよびN^’t,f,Dに代えてS’^t,fおよびN’^t,fを用い、式(18)(10)に従って、s^’t,Dおよびn^’t,Dに代えてs^’tおよびn^’tを計算する。さらに、特徴量計算部227は、s^’tからナイキスト周波数以下の帯域の要素だけを取り出したものをs^’t,Lとし、n^’tからナイキスト周波数以下の帯域の要素だけを取り出したものをn^’t,Lとする。特徴量計算部227は、s^’t,Dおよびn^’t,Dに代えてn^’t,Lおよびn^’t,Lを用い、式(17)に従って音響特徴量φ’t(近距離音響信号の推定値S^’t,f,Dに対応する値s^’t,Lと、遠距離音響信号の推定値N^’t,f,Dに対応する値n^’t,Lと、を関連付けた音響特徴量)を計算して出力する。
第1,2実施形態およびそれらの変形例の学習装置は、「複数のマイクロホン」で収音された信号に由来する第2音響信号(観測信号Xt,f,D (m))から「所定の関数」(式(2))を用いて得られる、「複数のマイクロホン」に近い距離から発せられた近距離音響信号の推定値S^t,f,Dに対応する値と、「複数のマイクロホン」から遠い距離から発せられた遠距離音響信号の推定値N^t,f,Dに対応する値と、を関連付けた学習データ(音響特徴量φt)を用い、「特定のマイクロホン」で収音された信号に由来する第1音響信号(観測信号X’t,f (0))から、「特定のマイクロホン」に近い距離から発せられた音または特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタ(時間周波数マスクGt,1,…,Gt,F)に対応する情報(パラメータΘ)を学習した。なお、「マイクロホンに近い距離」は「マイクロホンから遠い距離」よりも短い。例えば、「マイクロホンに近い距離」は30cm以下の距離であり、「マイクロホンから遠い距離」は1m以上の距離である。例えば、近距離音響信号の推定値S^t,f,Dは、第2音響信号と「所定の関数」とを用いて得られ(式(2))、遠距離音響信号の推定値N^t,f,Dは、第2音響信号と近距離音響信号の推定値S^t,f,Dとを用いて得られる(式(7))。
11,21 学習装置
12,22 音響信号分離装置
Claims (10)
- 第1音響信号から所望の音響信号を分離する音響信号分離装置であって、
Mが1以上の整数であり、m’=1,…,M+1であり、tは時間区間を表し、f∈{1,…,F}は周波数を表し、Fは正整数であり、
球の中心に配置されている1個のマイクロホンと前記球の球面上に等間隔に配置されているM個のマイクロホンで収音された信号に由来する第2音響信号X t,f,D (0) ,…,X t,f,D (M+1) から所定の関数を用いて得られる、前記マイクロホンに近い距離から発せられた近距離音響信号の推定値S^ t,f,D に対応する値と、前記マイクロホンから遠い距離から発せられた遠距離音響信号の推定値N^ t,f,D に対応する値と、を関連付けた音響特徴量φ t を用いることで得られるフィルタG t,f を用い、
特定のマイクロホンで収音された信号に由来する前記第1音響信号X t,f から、
前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するフィルタ部を有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第2音響信号X t,f,D (0) は、前記球の中心に配置されているマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (0) をダウンサンプリングして得られる信号であり、
前記第2音響信号X t,f,D (m’) は、前記球の球面上に等間隔に配置されているm’番目のマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (m’) をダウンサンプリングして得られる信号であり、
前記近距離音響信号の推定値S^ t,f,D は
であり、
rは正値であり、J 0 (kr)は球ベッセル関数であり、kはfが表す周波数に対応する波数であり、
前記遠距離音響信号の推定値N^ t,f,D は
であり、
|・|は・の絶対値を表し、
前記音響特徴量φ t は
であり、・ T は・の転置を表し、
であり、
Cは正整数であり、Abs[(・)]はベクトル(・)の各要素を各要素の絶対値に置き換える演算を表し、Mel[(・)]はベクトル(・)にメル変換行列を乗じてベクトルを得る演算を表し、ln(・)はベクトル(・)の各要素を当該各要素の自然対数に置き換える演算を表す、
音響信号分離装置。 - 第1音響信号から所望の音響信号を分離する音響信号分離装置であって、
複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、
特定のマイクロホンで収音された信号に由来する前記第1音響信号から、
前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するフィルタ部を有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第1音響信号のサンプリング周波数は第1周波数であり、
前記第2音響信号のサンプリング周波数は第2周波数であり、
第2周波数は前記第1周波数よりも低く、
前記近距離音響信号の推定値および前記遠距離音響信号の推定値のサンプリング周波数は、前記第2周波数または前記第2周波数の近傍であり、
前記近距離音響信号の推定値に対応する値および前記遠距離音響信号の推定値に対応する値のサンプリング周波数は、前記第1周波数または前記第1周波数の近傍である、音響信号分離装置。 - 請求項1または2の音響信号分離装置であって、
前記フィルタは、前記近距離音響信号の推定値に対応する値と前記遠距離音響信号の推定値に対応する値とを関連付けた前記音響特徴量φ t を含む学習データを用いた学習によって得られる情報に基づく、音響信号分離装置。 - Mが1以上の整数であり、m’=1,…,M+1であり、tは時間区間を表し、f∈{1,…,F}は周波数を表し、Fは正整数であり、
球の中心に配置されている1個のマイクロホンと前記球の球面上に等間隔に配置されているM個のマイクロホンで収音された信号に由来する第2音響信号X t,f,D (0) ,…,X t,f,D (M+1) から所定の関数を用いて得られる、前記マイクロホンに近い距離から発せられた近距離音響信号の推定値S^ t,f,D に対応する値と、前記マイクロホンから遠い距離から発せられた遠距離音響信号の推定値N^ t,f,D に対応する値と、を関連付けた音響特徴量φ t を含む学習データを用い、
特定のマイクロホンで収音された信号に由来する第1音響信号X t,f から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタG t,f に対応する情報を学習する学習部を有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第2音響信号X t,f,D (0) は、前記球の中心に配置されているマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (0) をダウンサンプリングして得られる信号であり、
前記第2音響信号X t,f,D (m’) は、前記球の球面上に等間隔に配置されているm’番目のマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (m’) をダウンサンプリングして得られる信号であり、
前記近距離音響信号の推定値S^ t,f,D は
であり、
rは正値であり、J 0 (kr)は球ベッセル関数であり、kはfが表す周波数に対応する波数であり、
前記遠距離音響信号の推定値N^ t,f,D は
であり、
|・|は・の絶対値を表し、
前記音響特徴量φ t は
であり、・ T は・の転置を表し、
であり、
Cは正整数であり、Abs[(・)]はベクトル(・)の各要素を各要素の絶対値に置き換える演算を表し、Mel[(・)]はベクトル(・)にメル変換行列を乗じてベクトルを得る演算を表し、ln(・)はベクトル(・)の各要素を当該各要素の自然対数に置き換える演算を表す、
学習装置。 - 複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けた学習データを用い、
特定のマイクロホンで収音された信号に由来する第1音響信号から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタに対応する情報を学習する学習部を有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第1音響信号のサンプリング周波数は第1周波数であり、
前記第2音響信号のサンプリング周波数は第2周波数であり、
第2周波数は前記第1周波数よりも低く、
前記近距離音響信号の推定値および前記遠距離音響信号の推定値のサンプリング周波数は、前記第2周波数または前記第2周波数の近傍であり、
前記近距離音響信号の推定値に対応する値および前記遠距離音響信号の推定値に対応する値のサンプリング周波数は、前記第1周波数または前記第1周波数の近傍である、
学習装置。 - 第1音響信号から所望の音響信号を分離する音響信号分離方法であって、
Mが1以上の整数であり、m’=1,…,M+1であり、tは時間区間を表し、f∈{1,…,F}は周波数を表し、Fは正整数であり、
球の中心に配置されている1個のマイクロホンと前記球の球面上に等間隔に配置されているM個のマイクロホンで収音された信号に由来する第2音響信号X t,f,D (0) ,…,X t,f,D (M+1) から所定の関数を用いて得られる、前記マイクロホンに近い距離から発せられた近距離音響信号の推定値S^ t,f,D に対応する値と、前記マイクロホンから遠い距離から発せられた遠距離音響信号の推定値N^ t,f,D に対応する値と、を関連付けた音響特徴量φ t を用いることで得られるフィルタG t,f を用い、
特定のマイクロホンで収音された信号に由来する前記第1音響信号X t,f から、
前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するステップを有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第2音響信号X t,f,D (0) は、前記球の中心に配置されているマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (0) をダウンサンプリングして得られる信号であり、
前記第2音響信号X t,f,D (m’) は、前記球の球面上に等間隔に配置されているm’番目のマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (m’) をダウンサンプリングして得られる信号であり、
前記近距離音響信号の推定値S^ t,f,D は
であり、
rは正値であり、J 0 (kr)は球ベッセル関数であり、kはfが表す周波数に対応する波数であり、
前記遠距離音響信号の推定値N^ t,f,D は
であり、
|・|は・の絶対値を表し、
前記音響特徴量φ t は
であり、・ T は・の転置を表し、
であり、
Cは正整数であり、Abs[(・)]はベクトル(・)の各要素を各要素の絶対値に置き換える演算を表し、Mel[(・)]はベクトル(・)にメル変換行列を乗じてベクトルを得る演算を表し、ln(・)はベクトル(・)の各要素を当該各要素の自然対数に置き換える演算を表す、
音響信号分離方法。 - 第1音響信号から所望の音響信号を分離する音響信号分離方法であって、
複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けることで得られるフィルタを用い、
特定のマイクロホンで収音された信号に由来する前記第1音響信号から、
前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す前記所望の音響信号を取得するステップを有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第1音響信号のサンプリング周波数は第1周波数であり、
前記第2音響信号のサンプリング周波数は第2周波数であり、
第2周波数は前記第1周波数よりも低く、
前記近距離音響信号の推定値および前記遠距離音響信号の推定値のサンプリング周波数は、前記第2周波数または前記第2周波数の近傍であり、
前記近距離音響信号の推定値に対応する値および前記遠距離音響信号の推定値に対応する値のサンプリング周波数は、前記第1周波数または前記第1周波数の近傍である、
音響信号分離方法。 - Mが1以上の整数であり、m’=1,…,M+1であり、tは時間区間を表し、f∈{1,…,F}は周波数を表し、Fは正整数であり、
球の中心に配置されている1個のマイクロホンと前記球の球面上に等間隔に配置されているM個のマイクロホンで収音された信号に由来する第2音響信号X t,f,D (0) ,…,X t,f,D (M+1) から所定の関数を用いて得られる、前記マイクロホンに近い距離から発せられた近距離音響信号の推定値S^ t,f,D に対応する値と、前記マイクロホンから遠い距離から発せられた遠距離音響信号の推定値N^ t,f,D に対応する値と、を関連付けた音響特徴量φ t を含む学習データを用い、
特定のマイクロホンで収音された信号に由来する第1音響信号X t,f から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタG t,f に対応する情報を学習するステップを有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第2音響信号X t,f,D (0) は、前記球の中心に配置されているマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (0) をダウンサンプリングして得られる信号であり、
前記第2音響信号X t,f,D (m’) は、前記球の球面上に等間隔に配置されているm’番目のマイクロホンで収音された信号を時間周波数領域に変換して得られる時間周波数領域音響信号X t,f (m’) をダウンサンプリングして得られる信号であり、
前記近距離音響信号の推定値S^ t,f,D は
であり、
rは正値であり、J 0 (kr)は球ベッセル関数であり、kはfが表す周波数に対応する波数であり、
前記遠距離音響信号の推定値N^ t,f,D は
であり、
|・|は・の絶対値を表し、
前記音響特徴量φ t は
であり、・ T は・の転置を表し、
であり、
Cは正整数であり、Abs[(・)]はベクトル(・)の各要素を各要素の絶対値に置き換える演算を表し、Mel[(・)]はベクトル(・)にメル変換行列を乗じてベクトルを得る演算を表し、ln(・)はベクトル(・)の各要素を当該各要素の自然対数に置き換える演算を表す、
学習方法。 - 複数のマイクロホンで収音された信号に由来する第2音響信号から所定の関数を用いて得られる、前記複数のマイクロホンに近い距離から発せられた近距離音響信号の推定値に対応する値と、前記複数のマイクロホンから遠い距離から発せられた遠距離音響信号の推定値に対応する値と、を関連付けた学習データを用い、
特定のマイクロホンで収音された信号に由来する第1音響信号から、前記特定のマイクロホンに近い距離から発せられた音または前記特定のマイクロホンから遠い距離から発せられた音、の少なくとも一方を表す所望の音響信号を分離するためのフィルタに対応する情報を学習するステップを有し、
前記所定の関数は、
前記複数のマイクロホンに近い距離から発せられた音が球面波として、
前記複数のマイクロホンから遠い距離から発せられた音が平面波として、
前記複数のマイクロホンに収音されると近似されることを利用した関数であり、
前記第1音響信号のサンプリング周波数は第1周波数であり、
前記第2音響信号のサンプリング周波数は第2周波数であり、
第2周波数は前記第1周波数よりも低く、
前記近距離音響信号の推定値および前記遠距離音響信号の推定値のサンプリング周波数は、前記第2周波数または前記第2周波数の近傍であり、
前記近距離音響信号の推定値に対応する値および前記遠距離音響信号の推定値に対応する値のサンプリング周波数は、前記第1周波数または前記第1周波数の近傍である、
学習方法。 - 請求項1から3の何れかの音響信号分離装置または請求項4または5の学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109327A JP7024615B2 (ja) | 2018-06-07 | 2018-06-07 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
PCT/JP2019/019833 WO2019235194A1 (ja) | 2018-06-07 | 2019-05-20 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
US15/734,473 US11297418B2 (en) | 2018-06-07 | 2019-05-20 | Acoustic signal separation apparatus, learning apparatus, method, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109327A JP7024615B2 (ja) | 2018-06-07 | 2018-06-07 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019211685A JP2019211685A (ja) | 2019-12-12 |
JP7024615B2 true JP7024615B2 (ja) | 2022-02-24 |
Family
ID=68770233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018109327A Active JP7024615B2 (ja) | 2018-06-07 | 2018-06-07 | 音響信号分離装置、学習装置、それらの方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11297418B2 (ja) |
JP (1) | JP7024615B2 (ja) |
WO (1) | WO2019235194A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024006516A1 (en) * | 2022-06-30 | 2024-01-04 | Google Llc | Sound separation based on distance estimation using machine learning models |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006180392A (ja) | 2004-12-24 | 2006-07-06 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 |
JP2008236077A (ja) | 2007-03-16 | 2008-10-02 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム |
JP2009128906A (ja) | 2007-11-19 | 2009-06-11 | Mitsubishi Electric Research Laboratories Inc | 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム |
JP2015164267A (ja) | 2014-02-28 | 2015-09-10 | 国立大学法人電気通信大学 | 収音装置および収音方法、並びにプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080175408A1 (en) * | 2007-01-20 | 2008-07-24 | Shridhar Mukund | Proximity filter |
KR101238362B1 (ko) * | 2007-12-03 | 2013-02-28 | 삼성전자주식회사 | 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치 |
US8737636B2 (en) * | 2009-07-10 | 2014-05-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation |
US10210882B1 (en) * | 2018-06-25 | 2019-02-19 | Biamp Systems, LLC | Microphone array with automated adaptive beam tracking |
US10433086B1 (en) * | 2018-06-25 | 2019-10-01 | Biamp Systems, LLC | Microphone array with automated adaptive beam tracking |
-
2018
- 2018-06-07 JP JP2018109327A patent/JP7024615B2/ja active Active
-
2019
- 2019-05-20 US US15/734,473 patent/US11297418B2/en active Active
- 2019-05-20 WO PCT/JP2019/019833 patent/WO2019235194A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006180392A (ja) | 2004-12-24 | 2006-07-06 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 |
JP2008236077A (ja) | 2007-03-16 | 2008-10-02 | Kobe Steel Ltd | 目的音抽出装置,目的音抽出プログラム |
JP2009128906A (ja) | 2007-11-19 | 2009-06-11 | Mitsubishi Electric Research Laboratories Inc | 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム |
JP2015164267A (ja) | 2014-02-28 | 2015-09-10 | 国立大学法人電気通信大学 | 収音装置および収音方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2019235194A1 (ja) | 2019-12-12 |
JP2019211685A (ja) | 2019-12-12 |
US20210219048A1 (en) | 2021-07-15 |
US11297418B2 (en) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Chen et al. | Long short-term memory for speaker generalization in supervised speech separation | |
JPWO2006085537A1 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体 | |
WO2005024788A9 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
JP2018040848A (ja) | 音響処理装置および音響処理方法 | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
JP7176627B2 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
KR20190032868A (ko) | 음성인식 방법 및 그 장치 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP2006154314A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP7024615B2 (ja) | 音響信号分離装置、学習装置、それらの方法、およびプログラム | |
WO2012105385A1 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP2013167698A (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP5705190B2 (ja) | 音響信号強調装置、音響信号強調方法、およびプログラム | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
WO2020121860A1 (ja) | 音響信号処理装置、その方法、およびプログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
US20220130406A1 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
US20240127841A1 (en) | Acoustic signal enhancement apparatus, method and program | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
Jiang et al. | A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7024615 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |