JP6711765B2 - 形成装置、形成方法および形成プログラム - Google Patents
形成装置、形成方法および形成プログラム Download PDFInfo
- Publication number
- JP6711765B2 JP6711765B2 JP2017019449A JP2017019449A JP6711765B2 JP 6711765 B2 JP6711765 B2 JP 6711765B2 JP 2017019449 A JP2017019449 A JP 2017019449A JP 2017019449 A JP2017019449 A JP 2017019449A JP 6711765 B2 JP6711765 B2 JP 6711765B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- acoustic signal
- emphasized
- speech
- beamformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
まず、図1を参照して、本実施形態に係る形成装置の概略構成を説明する。図1に示すように、本実施形態に係る形成装置1は、ワークステーションやパソコン等の汎用コンピュータで実現され、入力部11と出力部12と通信制御部13と、記憶部14と、制御部15とを備える。形成装置1は、後述する形成処理を実行して、音声認識に最適に目的音声の音声強調を行ったビームを形成する。
次に、図4を参照して、形成装置1の形成処理について説明する。図4は、形成装置1の形成処理手順を示すフローチャートである。図4のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。
上記実施形態に係る形成装置1を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたM=6個のマイクで収録した場合について、実験を行った。ここで、学習率αは6×103とした。また、ビームフォーマwfの初期値は、上記式(4)に示す尤度関数を最大化するように求めた値とした。また、上記式(21)に示すビームフォーマwfの更新式の反復回数は30回とした。
上記実施形態に係る形成装置1が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、形成装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の形成処理を実行する形成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の形成プログラムを情報処理装置に実行させることにより、情報処理装置を形成装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の形成処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、形成装置1は、観測信号を入力とし、強調音声を出力する形成処理サービスを提供するサーバ装置として実装される。この場合、形成装置1は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の形成処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、形成装置1と同様の機能を実現する形成プログラムを実行するコンピュータの一例を説明する。
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
15a 取得部
15b 時間周波数分析部
15c 推定部
15d 音声強調部
15e 音声認識部
15f 最適化部
Claims (4)
- 音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得部と、
前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定部と、
算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調部と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識部と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化部と、
を備えることを特徴とする形成装置。 - 前記最適化部は、一部の周波数について、または、ベクトルの一部の成分について、前記ビームフォーマを最適化することを特徴とする請求項1に記載の形成装置。
- 形成装置で実行される形成方法であって、
音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得工程と、
前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定工程と、
算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調工程と、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識工程と、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化工程と、
を含むことを特徴とする形成方法。 - 音声認識の対象である目的音声の音響信号と、該目的音声以外の雑音の音響信号とを含む複数の地点における観測信号を取得する取得ステップと、
前記観測信号の所定の長さの同一の短時間区間における周波数ごとの信号の組み合わせのうち、前記目的音声の音響信号を含まない信号の組み合わせの確率分布を分離して推定することにより、周波数ごとに前記目的音声の音源の空間情報を含むステアリングベクトルを推定し、該ステアリングベクトルを用いて、周波数ごとに音響信号のビームを形成するためのビームフォーマを算出する推定ステップと、
算出された前記ビームフォーマを初期値として用いて、前記観測信号のうち前記目的音声の音響信号を強調した強調音声の音響信号を算出する音声強調ステップと、
前記算出された強調音声の音素の確率分布を推定するとともに、該強調音声に音素を示す参照ラベルを付与する音声認識ステップと、
前記参照ラベルと前記強調音声の音素の確率分布との差を最小化するように、前記ビームフォーマを最適化する最適化ステップと、
をコンピュータに実行させることを特徴とする形成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017019449A JP6711765B2 (ja) | 2017-02-06 | 2017-02-06 | 形成装置、形成方法および形成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017019449A JP6711765B2 (ja) | 2017-02-06 | 2017-02-06 | 形成装置、形成方法および形成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018128500A JP2018128500A (ja) | 2018-08-16 |
JP6711765B2 true JP6711765B2 (ja) | 2020-06-17 |
Family
ID=63172697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017019449A Active JP6711765B2 (ja) | 2017-02-06 | 2017-02-06 | 形成装置、形成方法および形成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6711765B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7182168B2 (ja) * | 2019-02-26 | 2022-12-02 | 国立大学法人 筑波大学 | 音情報処理装置及びプログラム |
CN112216298B (zh) * | 2019-07-12 | 2024-04-26 | 大众问问(北京)信息科技有限公司 | 双麦克风阵列声源定向方法、装置及设备 |
WO2021255925A1 (ja) * | 2020-06-19 | 2021-12-23 | 日本電信電話株式会社 | 目的音信号生成装置、目的音信号生成方法、プログラム |
-
2017
- 2017-02-06 JP JP2017019449A patent/JP6711765B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018128500A (ja) | 2018-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763834B2 (en) | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method | |
Drude et al. | NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing | |
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
WO2018159402A1 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP6992709B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
JP2018141922A (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP2016206442A (ja) | 閾値推定装置、音声合成装置、その方法及びプログラム | |
JP7159928B2 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
JP6564744B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP2019105681A (ja) | 推定装置、推定方法および推定プログラム | |
WO2023013081A1 (ja) | 学習装置、推定装置、学習方法及び学習プログラム | |
JPWO2016092837A1 (ja) | 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP2013178343A (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
JP2017151222A (ja) | 信号解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6711765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |