JP2019035851A - 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム - Google Patents
目的音源推定装置、目的音源推定方法及び目的音源推定プログラム Download PDFInfo
- Publication number
- JP2019035851A JP2019035851A JP2017156812A JP2017156812A JP2019035851A JP 2019035851 A JP2019035851 A JP 2019035851A JP 2017156812 A JP2017156812 A JP 2017156812A JP 2017156812 A JP2017156812 A JP 2017156812A JP 2019035851 A JP2019035851 A JP 2019035851A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- target sound
- vector
- observation
- embedded vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
まず、実施の形態に係る目的音源推定装置について、目的音源推定装置の概略構成、目的音源推定装置における処理の流れを説明する。なお、以下では、例えばAが行列である場合には“行列A”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記する。また、スカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。
次に、目的音源推定装置1が実行する演算処理について説明する。まず、N個の目的音源から発せられた音響信号を、M個のマイクロホンで収録しているとする。この時、マイクロホンmで収録された観測信号をym,τと表す。観測信号ym,τは、以下の(2)式に示すように、目的音源信号に由来する音響信号x(n) m,τ(n=1,・・・,N)の和で構成される。
次に、目的音源推定装置1が実行する目的音源推定処理の処理手順について説明する。図2は、図1に示す目的音源推定装置1が実行する目的音源推定処理の処理手順を示すフローチャートである。
本実施の形態に対し、確認実験を行った。確認実験では、6メートル(m)×4m×3mの大きさの部屋をシミュレートした多チャンネルのインパルス応答を畳み込むことで、擬似的に8個のマイクによって録音された多チャンネルの混合音声を得た。2音源と3音源との場合、それぞれ30時間分(合計60時間分)を学習データとした。そして、この学習データとは別の話者によって発せられた音声を用いたデータ(2音源と3音源とのそれぞれ5時間ずつのデータ)をテストデータとした。確認実験では、このテストデータに対する目的音源の推定性能を、信号対ひずみ比の改善量を用いて比較した。
このように、本実施の形態によれば、音源数が未知である条件下であっても、埋め込みベクトルに基づいて音源数の推定値^Nを求めることによって、埋め込みベクトルをクラスタリングする処理を実行することができ、適切な目的音源の推定を可能にする。
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図3は、プログラムが実行されることにより、目的音源推定装置1が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11,11P 時間周波数分析部
12,12P 特徴量抽出部
13,13P 埋め込みベクトル推定部
14 音源数推定部
15,14P クラスタリング部
16,15P マスク推定部
17,16P 目的音源推定部
Claims (8)
- N(N>0)個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたM(M≧1)個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
前記観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにD(ただし、Dは整数)次元の埋め込みベクトルを出力する埋め込みベクトル推定部と、
前記埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値^Nを求め出力する音源数推定部と、
前記埋め込みベクトルと、前記音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する^N個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング部と、
前記クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、^N個の目的音源に対応するマスクの推定値を計算するマスク推定部と、
前記観測ベクトルと前記マスクとを用いて目的音源を推定する目的音源推定部と、
を有することを特徴とする目的音源推定装置。 - 前記目的音源推定部は、ビームフォーマによって目的音源を推定することを特徴とする請求項1に記載の目的音源推定装置。
- 前記埋め込みベクトル推定部は、bi-directional long short-term memoryによって構成されている前記ニューラルネットワークを有することを特徴とする請求項1または2に記載の目的音源推定装置。
- 前記音源数推定部は、前記埋め込みベクトルの相関行列を計算し、該計算した相関行列のランクを求め、該相関行列のランクを基に前記音源数の推定値^Nを求めることを特徴とする請求項1〜3のいずれか一つに記載の目的音源推定装置。
- 前記音源数推定部は、前記埋め込みベクトルの相関行列を計算した後、該計算した相関行列を固有値分解し、予め設定された閾値より大きい固有値の数を数えることで前記音源数の推定値^Nを求めることを特徴とする請求項1〜4のいずれか一つに記載の目的音源推定装置。
- 目的音源を推定する目的音源推定装置が実行する目的音源推定方法であって、
N(N>0)個の目的音源に対応する音響信号が混在する状況において、一つのマイク或いは異なる位置の複数マイクで収録されたM(M≧1)個の観測信号を受け取り、各観測信号に時間周波数解析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとに全ての観測音響信号をまとめたM次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
前記観測ベクトルを受け取り、音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を受け取り、予め学習したニューラルネットワークを用いて非線形変換を繰り返すことで、時間周波数点ごとにD(ただし、Dは整数)次元の埋め込みベクトルを出力する埋め込みベクトル推定工程と、
前記埋め込みベクトルを受け取り、該埋め込みベクトルに基づいて音源数の推定値^Nを求め出力する音源数推定工程と、
前記埋め込みベクトルと、前記音源数の推定値を受け取り、それぞれが目的音源のクラスタに対応する^N個のクラスタに、埋め込みベクトルをクラスタリングし、それぞれの埋め込みベクトルがどのクラスタに所属するかを示すクラスタインデックスを出力するクラスタリング工程と、
前記クラスタインデックスを受け取り、時間周波数点ごとに、時間周波数点の埋め込みベクトルが所属するクラスタに対応する目的音源のマスクを所定値よりも大きな値とし、それ以外の音源のマスクを所定値よりも小さな値とすることで、^N個の目的音源に対応するマスクの推定値を計算するマスク推定工程と、
前記観測ベクトルと前記マスクとを用いて、目的音源を推定する目的音源推定工程と、
を含んだことを特徴とする目的音源推定方法。 - 前記目的音源推定工程は、ビームフォーマによって目的音源を推定することを特徴とする請求項6に記載の目的音源推定方法。
- コンピュータを、請求項1〜5のいずれか一つに記載の目的音源推定装置として機能させるための目的音源推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017156812A JP6734237B2 (ja) | 2017-08-15 | 2017-08-15 | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017156812A JP6734237B2 (ja) | 2017-08-15 | 2017-08-15 | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019035851A true JP2019035851A (ja) | 2019-03-07 |
JP6734237B2 JP6734237B2 (ja) | 2020-08-05 |
Family
ID=65655705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017156812A Active JP6734237B2 (ja) | 2017-08-15 | 2017-08-15 | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6734237B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596261A (zh) * | 2020-04-02 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种声源定位方法及装置 |
-
2017
- 2017-08-15 JP JP2017156812A patent/JP6734237B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111596261A (zh) * | 2020-04-02 | 2020-08-28 | 云知声智能科技股份有限公司 | 一种声源定位方法及装置 |
CN111596261B (zh) * | 2020-04-02 | 2022-06-14 | 云知声智能科技股份有限公司 | 一种声源定位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6734237B2 (ja) | 2020-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10643633B2 (en) | Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program | |
WO2005024788A9 (ja) | 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体 | |
JP6535112B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP2019074625A (ja) | 音源分離方法および音源分離装置 | |
JP2018141922A (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
WO2019163736A1 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP6099032B2 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
JP6448567B2 (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP6290803B2 (ja) | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
JP6581054B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
CN110956978B (zh) | 一种基于欠定卷积混叠模型的稀疏盲分离方法 | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
JP2018146610A (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP6673861B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP6915579B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
Sedlák et al. | Investigation impact of environment for performance of ICA for speech separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200709 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6734237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |