Nothing Special   »   [go: up one dir, main page]

JP2019035851A - 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム - Google Patents

目的音源推定装置、目的音源推定方法及び目的音源推定プログラム Download PDF

Info

Publication number
JP2019035851A
JP2019035851A JP2017156812A JP2017156812A JP2019035851A JP 2019035851 A JP2019035851 A JP 2019035851A JP 2017156812 A JP2017156812 A JP 2017156812A JP 2017156812 A JP2017156812 A JP 2017156812A JP 2019035851 A JP2019035851 A JP 2019035851A
Authority
JP
Japan
Prior art keywords
sound source
target sound
vector
observation
embedded vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017156812A
Other languages
English (en)
Other versions
JP6734237B2 (ja
Inventor
卓哉 樋口
Takuya Higuchi
卓哉 樋口
慶介 木下
Keisuke Kinoshita
慶介 木下
マーク デルクロア
Marc Delcroix
マーク デルクロア
中谷 智広
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017156812A priority Critical patent/JP6734237B2/ja
Publication of JP2019035851A publication Critical patent/JP2019035851A/ja
Application granted granted Critical
Publication of JP6734237B2 publication Critical patent/JP6734237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音源数が未知である条件下であっても目的音源推定が可能である。【解決手段】目的音源推定装置1は、N個の目的音源に対応する音響信号が混在する際に収録されたM個の観測信号の観測ベクトルを構成する時間周波数分析部11、観測ベクトルから音響特徴量を抽出する特徴量抽出部12、音響特徴量を受け取りニューラルネットワークで時間周波数点ごとのD次元の埋め込みベクトルを出力する埋め込みベクトル推定部13、埋め込みベクトルを基に音源数の推定値^Nを求める音源数推定部14、埋め込みベクトルと音源数の推定値とを基に、それぞれが目的音源のクラスタに対応する^N個のクラスタに埋め込みベクトルをクラスタリングするクラスタリング部15、クラスタインデックスを基に^N個の目的音源に対応するマスクの推定値を計算するマスク推定部16及び観測ベクトルとマスクとを用いて目的音源を推定する目的音源推定部17を有する。【選択図】図1

Description

本発明は、目的音源推定装置、目的音源推定方法及び目的音源推定プログラムに関する。
従来、音声認識などの応用に適用するため、1つ以上の目的音源から出た音響信号と、背景雑音や干渉音が混ざった観測信号とを基に、各目的音源を推定する装置が提案されている(例えば、非特許文献1〜3参照)。目的音源を最適に推定することによって、精度のよい音声認識が可能になり、また、観測した音を、人間の聞き取りやすい音にすることができる。
J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe, "DEEP CLUSTERING: DISCRIMINATIVE EMBEDDINGS FOR SEGMENTATION AND SEPARATION", in Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016, pp.31-35. T. Higuchi, N. Ito, S. Araki, T. Yoshioka, M. Delcroix, & T. Nakatani, "Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR", IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017. 25(4), pp.780-793. N. Ito, S. Araki, M. Delcroix, and T. Nakatani, "PROBABILISTIC SPATIAL DICTIONARY BASED ONLINE ADAPTIVE BEAMFORMING FOR MEETING RECOGNITION IN NOISY AND REVERBERANT ENVIRONMENTS", in Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2017, pp.681-685.
従来の目的音源推定装置について説明する。図4は、従来の目的音源推定装置構成の一例を示すブロック図である。図4は、非特許文献1に記載された目的音源推定装置の機能構成を示す。図4に示すように、従来の目的音源推定装置1Pは、時間周波数分析部11P、特徴量抽出部12P、埋め込みベクトル推定部13P、クラスタリング部14P、マスク推定部15P及び目的音源推定部16Pを有する。
時間周波数分析部11Pは、N(N>0)個の目的音源に対応する音響信号が混在する状況において、一つのマイクで収録された観測信号を受け取り、観測信号に時間周波数解析を適用して時間周波数点ごとの観測音響信号を抽出する。特徴量抽出部12Pは、観測音響信号を受け取り、音響特徴量を抽出する。埋め込みベクトル推定部13Pは、音響特徴量を入力として、あらかじめ学習し保持しておいたニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとに、D(ただし、Dは整数)次元の埋め込みベクトルを出力する。
クラスタリング部14Pは、埋め込みベクトルを受け取り、音源数Nが既知であることを仮定して、それぞれが目的音源のクラスタに対応するN個のクラスタに、埋め込みベクトルをクラスタリングする。クラスタリング部14Pは、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力する。
マスク推定部15Pは、クラスタインデックスを受け取り、時間周波数点ごとに、その時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを1とし、それ以外の音源のマスクを0とすることで、N個の目的音源に対応するマスクの推定値を計算する。目的音源推定部16Pは、観測音響信号とマスクを各時間周波数成分において掛け合わせることで、目的音源に対応する目的音源を推定する。
ここで、短時間フーリエ変換などの時間周波数解析を用いて得られる観測音響信号をyf,tと表す。tとfは、それぞれ時間と周波数の番号であり、tは、1〜Tの整数をとり、fは、0〜Fの整数をとる。非特許文献1では、目的音源はスパース性を有し、時間周波数点でたかだか1つの目的音源が含まれていると仮定されている。このため、各時間周波数点における観測音響信号yf,tは、以下の(1)式でモデル化できるとされている。
Figure 2019035851
ここで、x(n) f,tは、n番目の目的音源の時間周波数成分である。df,tはアクティブな音源を表すインデックスであり、df,t=nは、時間周波数点(f,t)でn番目の音源がアクティブであることを表している。この仮定に基づき、各時間周波数点の観測音響信号yf,tを、各目的音源に対応するそれぞれのクラスタに識別し、それぞれのクラスタに属する成分のみ抽出することで、各クラスタに対応した目的音源を推定することができる。以上の流れで目的音源を推定するために、各時間周波数点の観測音響信号がどれだけ各クラスタに属しているらしいかを、以下の方法で推定する。
まず事前に、埋め込みベクトル推定部13Pは、音響特徴量を入力として、時間周波数点ごとに、D次元の埋め込みベクトルを出力するニューラルネットワークを学習する。この結果、学習済みのニューラルネットワークに、観測音響信号から得られた音響特徴量を入力することで、時間周波数点ごとに埋め込みベクトルを得ることができる。
クラスタリング部14Pは、得られた埋め込みベクトルを、既知の音源数に基づいてk-meansアルゴリズムを用いてクラスタリングすることで、それぞれが各音源に対応するクラスタを得る。マスク推定部15Pは、この時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを1とし、それ以外の音源のマスクを0とすることで、音源ごとのマスクを時間周波数点ごとに計算することができる。目的音源推定部16Pは、目的音源信号の推定値を、観測音響信号とマスクとを各時間周波数成分において掛け合わせることによって求める。
この従来の目的音源推定装置1Pは、上記のように、事前に目的音源数を求めておく必要がある。言い換えると、従来の目的音源推定装置1Pは、既知の目的音源数を用いてk-meansクラスタリングを行い、マスクを得ている。このため、従来の目的音源推定装置1Pは、音源数未知の環境下では使用できないという問題があった。
本発明は、上記に鑑みてなされたものであって、音源数が未知である条件下であっても目的音源の推定が可能である目的音源推定装置、目的音源推定方法及び目的音源推定プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る目的音源推定装置は、N(N>0)個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたM(M≧1)個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出部と、音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにD(ただし、Dは整数)次元の埋め込みベクトルを出力する埋め込みベクトル推定部と、埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値^Nを求め出力する音源数推定部と、埋め込みベクトルと、音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する^N個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング部と、クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、^N個の目的音源に対応するマスクの推定値を計算するマスク推定部と、観測ベクトルとマスクとを用いて目的音源を推定する目的音源推定部と、を有することを特徴とする。
本発明によれば、音源数が未知である条件下であっても目的音源の推定が可能である。
図1は、実施の形態に係る目的音源推定装置の構成の一例を示すブロック図である。 図2は、図1に示す目的音源推定装置が実行する目的音源推定処理の処理手順を示すフローチャートである。 図3は、プログラムが実行されることにより、目的音源推定装置が実現されるコンピュータの一例を示す図である。 図4は、従来の目的音源推定装置構成の一例を示すブロック図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
まず、実施の形態に係る目的音源推定装置について、目的音源推定装置の概略構成、目的音源推定装置における処理の流れを説明する。なお、以下では、例えばAが行列である場合には“行列A”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記する。また、スカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。
まず、図1を参照して、本実施の形態に係る目的音源推定装置の構成について説明する。図1は、実施の形態に係る目的音源推定装置の構成の一例を示すブロック図である。図1に示すように、実施の形態に係る目的音源推定装置1は、時間周波数分析部11、特徴量抽出部12、埋め込みベクトル推定部13、音源数推定部14、クラスタリング部15、マスク推定部16及び目的音源推定部17を有する。
時間周波数分析部11は、N(N>0)個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたM(M≧1)個の観測信号を受け取る。すなわち、時間周波数分析部11は、多チャンネル観測信号或いは単チャネル観測信号を入力信号として受け取る。そして、時間周波数分析部11は、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測音響信号を抽出する。この後に、時間周波数分析部11は、時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する。言い換えると、時間周波数分析部11は、2つ以上のマイクによって録音された音響信号を入力とし、短時間信号分布を適用して観測ベクトルを得る機能を有する。
特徴量抽出部12は、観測ベクトルを受け取り、音響特徴量を抽出する。特徴量抽出部12は、観測ベクトルのうち、予め設定された1つの要素(1つのマイクで録音された成分)の絶対値に対数をとることで、音響特徴量を抽出する。
埋め込みベクトル推定部13は、音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにD(ただし、Dは整数)次元の埋め込みベクトルを出力する。
音源数推定部14は、埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値^Nを求め出力する。この場合、音源数推定部14は、埋め込みベクトルの相関行列を計算し、該計算した相関行列のランクを求め、該求めた相関行列のランクを基に音源数の推定値^Nを求める。具体的には、音源数推定部14は、埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで前記音源数の推定値^Nを求める。
クラスタリング部15は、埋め込みベクトルと音源数の推定値とを受け取り、それぞれが目的音源のクラスタに対応する^N個のクラスタに、埋め込みベクトルをクラスタリングする。クラスタリング部15は、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力する。
マスク推定部16は、クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、^N個の目的音源に対応するマスクの推定値を計算する。
目的音源推定部17は、観測ベクトルとマスクとを用いて、目的音源を推定する。目的音源推定部17は、観測信号から目的信号だけを取り出すビームフォーマによって目的音源を推定する。
[目的音源推定装置の処理]
次に、目的音源推定装置1が実行する演算処理について説明する。まず、N個の目的音源から発せられた音響信号を、M個のマイクロホンで収録しているとする。この時、マイクロホンmで収録された観測信号をym,τと表す。観測信号ym,τは、以下の(2)式に示すように、目的音源信号に由来する音響信号x(n) m,τ(n=1,・・・,N)の和で構成される。
Figure 2019035851
時間周波数分析部11は、すべてのマイクロホンで収録された上記観測信号を受け取り、観測信号ym,τごとに時間周波数解析を適用して時間周波数ごとの信号特徴量Ym,f,tを求める。なお、tとfは、それぞれ時間と周波数の番号であり、tは、1〜Tの整数をとり、fは、0〜Fの整数をとる。時間周波数解析としては、短時間離散フーリエ変換や短時間離散コサイン変換など様々な方法を用いることができる。
さらに、時間周波数分析部11は、以下の(3)式のように、各時間周波数で得られた信号Y(m)(f,t)を全てのマイクロホンに関してまとめたベクトルとして、観測ベクトルyf,tを構成する。
Figure 2019035851
そして、特徴量抽出部12は、観測ベクトルのうち、予め設定された1つの要素(1つのマイクで録音された成分)の絶対値に対数をとることで、音響特徴量を求める。
続いて、埋め込みベクトル推定部13は、この音響特徴量を、事前に学習しておいたニューラルネットワークの一種であるbi-directional long short-term memory(BLSTM)に入力することで、時間周波数点ごとに埋め込みベクトルを得る。
すなわち、埋め込みベクトル推定部13では、まず事前に、音響特徴量を入力として、時間周波数点ごとに、D次元の埋め込みベクトルを出力するニューラルネットワークを学習する。ここで、音響特徴量の集合を集合A={af,t;f=0,・・・,F, t=1,・・・,T}、埋め込みベクトルの集合を集合V={vf,t;f=0,・・・,F, t=1,・・・,T}とする。そして、この両者の関係はニューラルネットワークによる変換f(・)を用いて以下の(4)式のように表すことができる。
Figure 2019035851
Θは、ニューラルネットワークのパラメータである。以下では、表記を単純化するため、時間周波数点(f,t)のインデックスをk(ただし、k=1,・・・,T×(F+1)=K)を用いて表記する。
ニューラルネットワークのパラメータΘは、トレーニングデータを用いて、以下の(5)式に示す目的関数を最小化することで、事前に得られる。
Figure 2019035851
k,k´は、時間周波数点kとk´とのペアに対して与えられる教師信号で、kとk´で同じ音源信号がアクティブであれば1、そうでなければ0となる。このように目的関数を設計することによって、埋め込みベクトルvが目的音源にごとにクラスタを形成するように、ニューラルネットワークを学習することができる。
このように、埋め込みベクトル推定部13は、(5)式を用いて、ニューラルネットワークを学習しておく。そして、埋め込みベクトル推定部13は、観測ベクトルを、(4)式に適用し、時間周波数点ごとに埋め込みベクトルを得る。
ここで、(5)式に基づいて学習されたニューラルネットワークによって推定された埋め込みベクトルは、理想的には、互いに直交あるいは平行しており、推定された埋め込みベクトルの方向の数が音源数に相当していると考えられる。したがって、下記のように埋め込みベクトルの外積を取り平均することによって得られる相関行列Bのランクが、音源数に相当していると考えられる。
Figure 2019035851
このため、音源数推定部14は、相関行列Bを固有値分解し、予め設定された閾値より大きい固有値の数を数えることで、音源数の推定値^Nを求める。
クラスタリング部15は、^N個のクラスを用いて、埋め込みベクトルに対してk-means クラスタリングを行うことで、^N個のクラスタを得る。マスク推定部16は、時間周波数点ごとに、その時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを1とし、それ以外の音源のマスクを0とすることで、^N個の目的音源に対応するマスクの推定値を得る。
そして、目的音源推定部17は、マスクを観測ベクトルに掛けることで、目的音源の推定値を計算する。もちろん、目的音源推定部17は、マスクと観測ベクトルとから推定した空間相関行列を用いて、ビームフォーミングによって、目的音源の推定値^Nを求めてもよい。この場合、目的音源推定部17は、非特許文献2などの手法と同様に、マスクを観測ベクトルの外積に掛けたのち重み付き和をとることで、n番目の目的音源の空間相関行列と、n番目の目的音源の干渉音の空間相関行列を計算し、ビームフォーマを設計する。そして、目的音源推定部17は、各目的音源を、各周波において、観測ベクトルにビームフォーマを掛け合わせることで得ることができる。
[目的音源推定処理]
次に、目的音源推定装置1が実行する目的音源推定処理の処理手順について説明する。図2は、図1に示す目的音源推定装置1が実行する目的音源推定処理の処理手順を示すフローチャートである。
図2に示すように、まず、目的音源推定装置1では、時間周波数分析部11が、N個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置で収録されたM個の観測信号を入力信号として受け取る(ステップS1)。言い換えると、時間周波数分析部11は、多チャンネル観測信号或いは単チャネル観測信号を入力信号として受け取る。そして、時間周波数分析部11は、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測音響信号を抽出する(ステップS2)。続いて、時間周波数分析部11は、時間周波数点ごとに全ての観測音響信号をまとめた観測ベクトルを構成する(ステップS3)。
特徴量抽出部12は、観測ベクトルを受け取り、音響特徴量を抽出する(ステップS4)。埋め込みベクトル推定部13は、音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにD(ただし、Dは整数)次元の埋め込みベクトルを推定し(ステップS5)、出力する。
音源数推定部14は、埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値^Nを求める音源数の推定を行う(ステップS6)。具体的には、音源数推定部14は、埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで前記音源数の推定値^Nを求める。
クラスタリング部15は、埋め込みベクトルと音源数の推定値とを受け取り、それぞれが目的音源のクラスタに対応する^N個のクラスタに、埋め込みベクトルをクラスタリングする(ステップS7)。クラスタリング部15は、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力する。
マスク推定部16は、クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、^N個の目的音源に対応するマスクの推定値を計算するマスク推定を行う(ステップS8)。
目的音源推定部17は、観測ベクトルとマスクとを用いて、目的音源を推定する(ステップS9)、目的音源推定処理を終了する。
[確認実験]
本実施の形態に対し、確認実験を行った。確認実験では、6メートル(m)×4m×3mの大きさの部屋をシミュレートした多チャンネルのインパルス応答を畳み込むことで、擬似的に8個のマイクによって録音された多チャンネルの混合音声を得た。2音源と3音源との場合、それぞれ30時間分(合計60時間分)を学習データとした。そして、この学習データとは別の話者によって発せられた音声を用いたデータ(2音源と3音源とのそれぞれ5時間ずつのデータ)をテストデータとした。確認実験では、このテストデータに対する目的音源の推定性能を、信号対ひずみ比の改善量を用いて比較した。
ビームフォーマは、推定したマスクと観測ベクトルとを用いて、非特許文献3に記された方法で求めた。固有値の閾値は「0.05」とした。埋め込みベクトルの次元数Dは40とした。
非特許文献2で紹介された方法でビームフォーミングによって目的音源の推定を行った場合であり、音源数が既知である場合、信号対ひずみ比の改善量は、2音源については、11.48(dB)であり、3音源については、10.95(dB)であった。
本実施の形態に係る目的音源推定方法を用いて、音源数は未知であり、上記記載の方法を用いて音源数を推定し、ビームフォーマによって目的音源の推定を行った場合、信号対ひずみ比の改善量は、2音源については、11.51(dB)であり、3音源については、9.59(dB)であった。
したがって、音源数が未知である場合であっても、本実施の形態に係る目的音源推定方法を用いることによって、音源数が既知であることを仮定した非特許文献2の手法と同程度の目的音源の推定性能を実現していることがわかった。
[実施の形態の効果]
このように、本実施の形態によれば、音源数が未知である条件下であっても、埋め込みベクトルに基づいて音源数の推定値^Nを求めることによって、埋め込みベクトルをクラスタリングする処理を実行することができ、適切な目的音源の推定を可能にする。
すなわち、本実施の形態では、埋め込みベクトルの相関行列を計算し、該計算した相関行列のランクを求め、該求めた相関行列のランクを基に音源数の推定値^Nを求めている。具体的には、本実施の形態では、埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで、音源数の推定値^Nを求めている。このように、本実施の形態では、音源数が未知である条件下であっても、音源数を適切に推定することによって、適切な目的音源推定処理を実現することが可能になる。
したがって、本実施の形態によれば、確認実験の結果でも示したように、音源数が未知であっても、音源数が既知であることを仮定した従来法と同程度の目的音源の推定性能を実現することができる。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図3は、プログラムが実行されることにより、目的音源推定装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、目的音源推定装置1の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、目的音源推定装置1における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
1,1P 目的音源推定装置
11,11P 時間周波数分析部
12,12P 特徴量抽出部
13,13P 埋め込みベクトル推定部
14 音源数推定部
15,14P クラスタリング部
16,15P マスク推定部
17,16P 目的音源推定部

Claims (8)

  1. N(N>0)個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたM(M≧1)個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
    前記観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出部と、
    前記音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにD(ただし、Dは整数)次元の埋め込みベクトルを出力する埋め込みベクトル推定部と、
    前記埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値^Nを求め出力する音源数推定部と、
    前記埋め込みベクトルと、前記音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する^N個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング部と、
    前記クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、^N個の目的音源に対応するマスクの推定値を計算するマスク推定部と、
    前記観測ベクトルと前記マスクとを用いて目的音源を推定する目的音源推定部と、
    を有することを特徴とする目的音源推定装置。
  2. 前記目的音源推定部は、ビームフォーマによって目的音源を推定することを特徴とする請求項1に記載の目的音源推定装置。
  3. 前記埋め込みベクトル推定部は、bi-directional long short-term memoryによって構成されている前記ニューラルネットワークを有することを特徴とする請求項1または2に記載の目的音源推定装置。
  4. 前記音源数推定部は、前記埋め込みベクトルの相関行列を計算し、該計算した相関行列のランクを求め、該相関行列のランクを基に前記音源数の推定値^Nを求めることを特徴とする請求項1〜3のいずれか一つに記載の目的音源推定装置。
  5. 前記音源数推定部は、前記埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで前記音源数の推定値^Nを求めることを特徴とする請求項1〜4のいずれか一つに記載の目的音源推定装置。
  6. 目的音源を推定する目的音源推定装置が実行する目的音源推定方法であって、
    N(N>0)個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたM(M≧1)個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
    前記観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出工程と、
    前記音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにD(ただし、Dは整数)次元の埋め込みベクトルを出力する埋め込みベクトル推定工程と、
    前記埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値^Nを求め出力する音源数推定工程と、
    前記埋め込みベクトルと、前記音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する^N個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング工程と、
    前記クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、^N個の目的音源に対応するマスクの推定値を計算するマスク推定工程と、
    前記観測ベクトルと前記マスクとを用いて、目的音源を推定する目的音源推定工程と、
    を含んだことを特徴とする目的音源推定方法。
  7. 前記目的音源推定工程は、ビームフォーマによって目的音源を推定することを特徴とする請求項6に記載の目的音源推定方法。
  8. コンピュータを、請求項1〜5のいずれか一つに記載の目的音源推定装置として機能させるための目的音源推定プログラム。
JP2017156812A 2017-08-15 2017-08-15 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム Active JP6734237B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017156812A JP6734237B2 (ja) 2017-08-15 2017-08-15 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017156812A JP6734237B2 (ja) 2017-08-15 2017-08-15 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Publications (2)

Publication Number Publication Date
JP2019035851A true JP2019035851A (ja) 2019-03-07
JP6734237B2 JP6734237B2 (ja) 2020-08-05

Family

ID=65655705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017156812A Active JP6734237B2 (ja) 2017-08-15 2017-08-15 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Country Status (1)

Country Link
JP (1) JP6734237B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111596261A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种声源定位方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111596261A (zh) * 2020-04-02 2020-08-28 云知声智能科技股份有限公司 一种声源定位方法及装置
CN111596261B (zh) * 2020-04-02 2022-06-14 云知声智能科技股份有限公司 一种声源定位方法及装置

Also Published As

Publication number Publication date
JP6734237B2 (ja) 2020-08-05

Similar Documents

Publication Publication Date Title
US10643633B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
WO2005024788A9 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP6535112B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP2019074625A (ja) 音源分離方法および音源分離装置
JP2018141922A (ja) ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
CN110998723A (zh) 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
JP6581054B2 (ja) 音源分離装置、音源分離方法及び音源分離プログラム
CN110956978B (zh) 一种基于欠定卷积混叠模型的稀疏盲分离方法
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
JP2018146610A (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
JP6915579B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
Sedlák et al. Investigation impact of environment for performance of ICA for speech separation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200709

R150 Certificate of patent or registration of utility model

Ref document number: 6734237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150