Nothing Special   »   [go: up one dir, main page]

JP6450139B2 - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP6450139B2
JP6450139B2 JP2014208834A JP2014208834A JP6450139B2 JP 6450139 B2 JP6450139 B2 JP 6450139B2 JP 2014208834 A JP2014208834 A JP 2014208834A JP 2014208834 A JP2014208834 A JP 2014208834A JP 6450139 B2 JP6450139 B2 JP 6450139B2
Authority
JP
Japan
Prior art keywords
voice
speech recognition
sound source
speech
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014208834A
Other languages
English (en)
Other versions
JP2016080750A (ja
Inventor
孝輔 辻野
孝輔 辻野
悠輔 中島
悠輔 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014208834A priority Critical patent/JP6450139B2/ja
Publication of JP2016080750A publication Critical patent/JP2016080750A/ja
Application granted granted Critical
Publication of JP6450139B2 publication Critical patent/JP6450139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、任意の方向からの音声を認識する音声認識装置、音声認識方法、及び音声認識プログラムに関する。
近年、音声認識によって、機器操作、情報取得、及び対話等を行う技術が普及しつつある。特に、ロボット等の機器に音声認識を実行させ、音声認識結果に基づく処理を実行させる場合、機器に対して任意の方向から到来する音声を精度良く認識できることが求められる。このような目的のために音源方向を推定し、音源方向にマイクロフォンアレイの指向方向を設定する装置が知られている。
例えば特許文献1には、音源方向に死角を向けた空間フィルタの他に音源方向に指向性を向けた空間フィルタも生成し、それぞれについて方向とゲインとのパターンを求め、両方のパターンに基づいて音源方向を推定することが記載されている。また、特許文献2には、音源方向を推定する方法として、MUSIC法を使用することが記載されている。また、特許文献3には、話者が手のひらを打ち鳴らす音を合図音として検出して、マイクロフォンアレイの指向方向を設定することが記載されている。
特開2012−150237号公報 特開2010−121975号公報 国際公開第2011/055410号
しかしながら、上記特許文献1,2に記載されている手法では、機器利用者が発した音声とは異なる周囲の雑音等の音源に対して指向方向が設定されてしまうおそれがある。また、音源方向を推定するために多少の期間に亘って音声信号を観測する必要がある。また、上記特許文献3に記載されている手法によれば、周囲の雑音等に対して指向方向が設定されてしまうことを防止し得るが、音源方向の推定のために最初にユーザが手を叩く等の動作を行う必要がある。つまり、音源方向の推定がされた後に音声認識が開始されるため、音声認識結果が得られるまでに時間がかかってしまい、ユーザの体感価値が損なわれてしまう。
本発明は、上記の課題に鑑みてなされたものであり、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く認識することができる音声認識装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。
本発明に係る音声認識装置は、複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段と、を備える。
本発明に係る音声認識方法は、音声認識装置により実行される音声認識方法であって、複数の方向からの音声ストリームのそれぞれを取得する音声取得ステップと、音声取得ステップにおいて取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理ステップと、音声認識処理ステップにおいて、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定ステップと、を含む。
本発明に係る音声認識プログラムは、コンピュータを、複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段、として実行させる。
本発明に係る音声認識装置では、音声取得手段により取得される複数の方向からの音声ストリームのそれぞれに対する音声認識結果が、音声認識処理手段により得られる。併せて、音声認識処理手段により予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、音源方向決定手段により、当該音声認識結果が得られた音声ストリームに対応する方向が音源方向として決定される。このように、上記音声認識装置によれば、音源方向を決定してから音声認識を開始するのではなく、継続的に音声認識を実行しつつ音源方向を決定することができる。即ち、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声に対する音声認識を実行することが可能となる。また、音源方向が決定された後は、例えば決定された音源方向からの音声ストリームに対してより高精度な音声認識を実行させるといったことが可能となるため、音声認識の精度を高めることが可能となる。従って、上記音声認識装置によれば、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く音声認識することができる。
上記音声認識装置は、音声取得手段により取得された音声ストリームのうち音源方向決定手段により決定された音源方向からの音声ストリームに対して、音声認識処理手段による音声認識よりも精度の高い音声認識を実行する第2音声認識処理手段を更に備えてもよい。
上記音声認識装置によれば、音源方向決定手段により音源方向が決定された場合に、第2音声認識処理手段により、当該音源方向からの音声ストリームに対してより高精度な音声認識を実行することができる。
上記音声認識装置では、音声取得手段は、予め定められた複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。
上記音声認識装置によれば、予め定められた複数の方向(固定された方向)のそれぞれからの音声ストリームを精度良く取得することができる。
上記音声認識装置では、音声取得手段は、所定の方法により推定された音源方向の候補となる複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。
上記音声認識装置によれば、例えばMUSIC法等により推定された音源方向の候補となる複数の方向に指向性ビームを設定することで、音源方向である可能性が高い方向からの音声ストリームを優先的に取得でき、音声認識の精度向上を図ることができる。
上記音声認識装置では、音声認識処理手段は、予め定められた単語が音声認識結果に含まれている場合に、当該音声認識結果は予め定められた信頼度の基準を満たすと判定してもよい。
上記音声認識装置によれば、予め定められた単語が音声認識されたか否かに基づいて音声認識結果の信頼度の判定を簡易且つ精度良く実行することができる。
上記音声認識装置では、音声認識処理手段は、発話区間を検出するための発話区間検出処理を実行し、当該発話区間検出処理により検出された発話区間に対して音声認識を実行してもよい。
上記音声認識装置によれば、発話区間検出処理により検出された発話区間についてのみ音声認識を実行することが可能となる。これにより、音声ストリームのうち発話区間以外の区間に対する無駄な音声認識処理の実行を防止でき、消費電力を低減することができる。
本発明によれば、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く認識することができる。
本発明の実施形態に係る音声認識装置の機能構成を示すブロック図である。 音声認識装置のハードウェア構成を示すブロック図である。 複数のマイクロフォンにより設定されるビーム方向の一例を示す図である。 音声認識装置の動作を示すフローチャートである。 音声認識プログラムのモジュール構成を示すブロック図である。
以下、図面を参照しながら、本発明の実施形態に係る音声認識装置、音声認識方法、及び音声認識プログラムについて説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。図1は、本実施形態に係る音声認識装置1の機能構成を示すブロック図である。図1に示すように、音声認識装置1は、音声入力部11と、指向性制御部12と、第1音声認識処理部13と、音源方向決定部14と、第2音声認識処理部15と、音声認識結果出力部16と、を備えている。
音声認識装置1は、ユーザの発話音声を音声認識し、音声認識結果に応じた処理を実行する装置として構成される。例えば、音声認識装置1は、家庭内のリビングに設置され、ユーザの発話音声を音声認識し、音声認識結果に応じた処理の実行を家電機器等に無線電波等により指示する装置として構成されてもよいし、音声認識結果に応じた処理を実行する機器自体に組み込まれてもよい。また、音声認識装置1は、ユーザからの問いかけに対する応答結果をテキスト及び音声等により当該ユーザに提示する音声対話装置(例えばロボット等)として構成されてもよい。
図2は、音声認識装置1のハードウェア構成の一例を示すブロック図である。図2に示すように、音声認識装置1は、例えばハードウェア構成として、CPU(Central Processing Unit)10Aと、RAM(Random Access Memory)10Bと、ROM(Read Only Memory)10Cと、入力装置10Dと、外部装置との通信を行う無線電波モジュール等の通信装置10Eと、補助記憶装置10Fと、出力装置10Gと、を備える。入力装置10Dは、音声入力部11に相当する複数のマイクロフォンを含み、その他、例えば入力デバイスであるキーボード及びマウス等を含む。出力装置10Gは、例えば応答結果をテキストとして出力するディスプレイや、応答結果を音声として出力するスピーカー等である。音声認識装置1の各機能は、例えば、RAM10B等に後述する音声認識プログラムPを読み込ませ、CPU10Aにより当該音声認識プログラムPを実行させることにより実現される。
なお、音声認識装置1は、必ずしも上記のハードウェア構成を全て備えている必要はない。例えば、音声認識装置1は、応答結果をテキスト及び音声等で出力する機能を備えない場合には、出力装置10Gを備えなくともよい。また、音声認識装置1は、物理的に単一の機器として構成されてもよいし、物理的に分離された複数の機器が協調して動作するように構成されてもよい。
音声入力部11は、音声認識装置1の周囲の音を集音し、複数チャネル(複数の周波数帯域)の信号として取得する音声入力手段である。音声入力部11は、例えば複数のマイクロフォンにより構成される。
指向性制御部12は、複数の方向からの音声ストリームのそれぞれを取得する音声取得手段である。指向性制御部12は、例えば固定ビームフォーマ等の周知の手法を用いることにより、予め設定されたビーム方向から到来した音声のみを強調し他の方向から到来した音声を抑圧する信号処理を実行する。より具体的には、指向性制御部12は、音声入力部11から得られた複数チャネルの信号に対して上述の信号処理を実行することで、複数のビーム方向のそれぞれについて、各ビーム方向から到来した音声のみが強調され、他のビーム方向から到来した音声が抑圧された音声ストリームを生成する。
指向性制御部12は、予め定められた複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。即ち、指向性制御部12により設定される複数のビーム方向は、予め設定された固定のビーム方向であってもよい。これにより、予め定められた複数の方向(固定された方向)のそれぞれからの音声ストリームを精度良く取得することができる。特に、音声がどの方向から到来するかが予めわかっていない場合には、図3に示すように複数のビームが全方向を被覆するようビーム方向を設定すればよい。図3の例では、音声認識装置1を中心として、水平方向に45度間隔で区切った8方向にビーム方向が設定されている。このようにビーム方向が設定されることで、指向性制御部12は、例えば音声認識装置1から図3における右上に向けて設定されたビーム方向aの先にある音源Xから到来する音声が強調された音声ストリームを生成することができる。
また、音声認識装置1に対して入力される音声の発信源(音源方向)の候補が一定の範囲に限定される場合には、指向性制御部12は、複数のビームが当該一定の範囲のみを被覆するようにビーム方向を設定してもよい。例えば、音声認識装置1がテレビ受像機に組み込まれており、ユーザが発話によって、テレビ受像機に対して所定の操作(例えばチャンネル変更等)の実行を指示する場合について考える。この場合、ユーザの位置は、テレビ受像機の画面前方であることが想定される。即ち、音源方向の候補は、テレビ受像機の画面前方180度の範囲に限定される。従って、この場合には、指向性制御部12は、テレビ受像機の画面前方180度の範囲のみを被覆するようにビーム方向を設定すればよい。なお、設定されるビーム方向の数は、マイクロフォンの数、及び信号処理によって設定される指向性の鋭さ等に依存するが、通常マイクロフォンの数よりも多くのビーム方向を設定することができる。
また、指向性制御部12は、所定の方法により推定された音源方向の候補となる複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。即ち、指向性制御部12は、例えば音声入力部11に入力される音響信号を用いたMUSIC法等によって推定された音源方向の複数の候補を、複数のビーム方向として設定してもよい。或いは、指向性制御部12は、MUSIC法等による音源方向推定に加えてカルマンフィルタやパーティクルフィルタ等の手法による音源方向トラッキングにより推定された音源方向の複数の候補を、複数のビーム方向として設定してもよい。このようにして複数のビーム方向が設定される場合には、上述した固定ビームフォーマを用いる場合と異なり、複数のビーム方向は、音響信号に依存して設定及び変更されるため、可変となる。このように、MUSIC法等により推定された音源方向の候補となる複数の方向に指向性ビームを設定することで、音源方向である可能性が高い方向からの音声ストリームを優先的に取得でき、音声認識の精度向上を図ることができる。
第1音声認識処理部13は、指向性制御部12により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段である。以下、指向性制御部12により取得された複数の方向からの音声ストリームのそれぞれを、指向性音声ストリームともいう。複数の指向性音声ストリームは、上述した音声入力部11及び指向性制御部12の処理により連続的に取得され、第1音声認識処理部13に入力される。このため、第1音声認識処理部13は、複数の指向性音声ストリームのそれぞれについて、音声認識を連続的に実行することになる。
指向性音声ストリームには、人の声でなく雑音のみが含まれている場合もある。また、指向性音声ストリームには、ほぼ無音である区間しか含まれていない場合もある。そこで、第1音声認識処理部13は、指向性音声ストリームに含まれている雑音を人の声であると誤認して誤った音声認識結果を得ることを防ぐために、各指向性音声ストリームに対して音声認識を実行する前に周知の雑音除去処理を実行してもよい。また、第1音声認識処理部13は、音声認識を実行すべき発話区間(人の声が含まれている区間)を検出するために、指向性音声ストリームに対して周知の発話区間検出処理を実行し、当該発話区間検出処理により検出された発話区間に対して音声認識を実行してもよい。これにより、指向性音声ストリームのうち発話区間以外の区間に対する無駄な音声認識処理の実行を防止でき、消費電力を低減することができる。
第1音声認識処理部13は、各指向性音声ストリーム(或いは、上述の雑音除去処理や発話区間検出処理等を実行した後の各指向性音声ストリーム)に対して音声認識を実行することにより得られた音声認識結果について、予め定められた信頼度の基準を満たすか否かを判定する。このような判定に用いる信頼度としては、例えば、統計的音声認識の分野において周知の指標である出力仮説の尤度に基づく信頼度を用いることができる。
音声認識装置1にユーザの発話音声を音声認識させて所定の処理を実行させるために最初に発話(音声入力)すべき一以上のコマンド単語が予め定められている場合には、第1音声認識処理部13は、予め定められたコマンド単語が音声認識結果に含まれている場合に、当該音声認識結果は予め定められた信頼度の基準を満たすと判定してもよい。なお、この場合、第1音声認識処理部13は、コマンド単語のみを音声認識対象の語彙としてもよい。これにより、第1音声認識処理部13は、指向性音声ストリームを音声認識し、何らかの音声認識結果(即ち、いずれかのコマンド単語を認識したことを示す結果)が得られた場合に、当該音声認識結果が予め定められた信頼度の基準を満たすと判定することができる。即ち、音声認識結果の信頼度の判定を、コマンド単語が音声認識されたか否かに基づいて簡易且つ精度良く実行することができる。
第1音声認識処理部13は、ある指向性音声ストリームから、予め定められた信頼度の基準を満たす音声認識結果を得た場合、当該指向性音声ストリームの到来方向(即ち、当該指向性音声ストリームに対応するビーム方向)から人の発話音声が到来していると推定し、そのビーム方向を音源方向決定部14に通知する。また、第1音声認識処理部13は、各指向性ストリームに対する音声認識により得られた音声認識結果を音声認識結果出力部16に出力する。
音源方向決定部14は、第1音声認識処理部13により予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段である。
音源方向決定部14は、例えば、上述したように第1音声認識処理部13から人の発話音声の到来方向であると推定されたビーム方向を通知された場合、当該ビーム方向を音源方向として決定する。そして、音源方向決定部14は、当該ビーム方向に対応する指向性音声ストリームを指向性制御部12から取得し、当該指向性音声ストリームを第2音声認識処理部15に出力する。或いは、音源方向決定部14は、音声入力部11から得られた複数チャネルの信号を取得し、当該信号に対して独自の信号処理を実行することで、第1音声認識処理部13から通知されたビーム方向に対応する指向性音声ストリームを取得してもよい。
音源方向決定部14は、過去に第1音声認識処理部13から何らのビーム方向も通知されていない初期状態においては、第2音声認識処理部15に対して、予め設定された初期ビーム方向に対応する指向性音声ストリームを出力してもよいし、何らの指向性音声ストリームも出力しなくともよい。
また、音源方向決定部14は、過去に第1音声認識処理部13からビーム方向を通知されてから、その後ビーム方向の通知を受けずに予め設定された一定時間を経過した場合には、初期状態に復帰してもよい。また、音源方向決定部14は、過去に第1音声認識処理部13から一のビーム方向を通知され、更にその後の時点において第1音声認識処理部13から他のビーム方向を通知された場合は、後に通知された他のビーム方向を最新の音源方向として決定し、当該音源方向に対応する指向性音声ストリームを第2音声認識処理部15に出力してもよい。
第2音声認識処理部15は、指向性制御部12により取得された音声ストリームのうち音源方向決定部14により決定された音源方向からの音声ストリームに対して音声認識を実行する第2音声認識処理手段である。第2音声認識処理部15による音声認識処理は、第1音声認識処理部13による音声認識よりも多くの語彙を音声認識対象とし、精度の高い音声認識を実行する。これにより、音源方向決定部14により音源方向が決定された場合に、第2音声認識処理部15により、当該音源方向からの音声ストリームに対してより高精度な音声認識を実行することが可能となる。例えば、第1音声認識処理部13による音声認識を、音声認識装置1内で認識処理を実行するローカル型音声認識とし、第2音声認識処理部15による音声認識を、外部のサーバを利用したサーバ型音声認識としてもよい。なお、第2音声認識処理部15による音声認識処理は、第1音声認識処理部13による音声認識処理と同一であってもよい。
第2音声認識処理部15は、上述のサーバ型音声認識を実行する場合には、音源方向決定部14から取得した指向性音声ストリームを、音声認識を実行する機能を有するサーバ(不図示)に送信し、当該サーバに音声認識を実行させ、その音声認識結果(例えばテキスト等。以下同じ。)を当該サーバから受信することで、音声認識を実行してもよい。このように、第2音声認識処理部15は、高性能な音声認識エンジンを備えるサーバ等に音声認識を実行させることで、音源方向決定部14により決定された音源方向からの音声ストリームに対してより高精度な音声認識を実行することができる。なお、第2音声認識処理部15と上記サーバとの間のデータの送受信は、例えば、上述した通信装置10Eの通信機能を用いることで、インターネット及びLAN(Local Area Network)等を介して行われる。
第2音声認識処理部15は、上述のようにして音源方向決定部14から取得した指向性音声ストリームに対して音声認識を実行し、その結果として得られた音声認識結果を音声認識結果出力部16に出力する。
音声認識結果出力部16は、第1音声認識処理部13及び第2音声認識処理部15の少なくとも一方から取得された音声認識結果を出力する音声認識結果出力手段である。音声認識結果出力部16は、第1音声認識処理部13及び第2音声認識処理部15の一方から取得した音声認識結果のみを出力してもよいし、第1音声認識処理部13及び第2音声認識処理部15の両方から取得した音声認識結果を結合したテキストを出力してもよい。音声認識結果の出力の具体的な方法としては、音声認識結果出力部16は、例えば、音声認識結果(テキスト)をディスプレイ等の出力装置10Gに出力することでユーザに提示してもよいし、音声認識結果に対応する音声を周知の手法により音声合成し、得られた音声をスピーカー等の出力装置10Gに出力してもよい。
また、音声認識結果出力部16は、音声認識結果をテキストや音声等により出力する以外に、音声認識結果に基づく何らかの応答結果を示す情報をユーザに提示してもよい。例えば、音声認識装置1がユーザからの発話内容に基づく情報検索を実行する装置として構成されている場合には、音声認識結果出力部16は、検索結果をテキストや音声等でユーザに提示してもよい。同様に、音声認識装置1がユーザからの発話内容に基づいて所定の機器操作(例えばリモートコントローラを通じて電灯を消灯する操作等)を実行する装置として構成されている場合には、音声認識結果出力部16は、当該機器操作の結果(例えば電灯を消灯したことを示す情報)をテキストや音声等でユーザに提示してもよい。また、音声認識装置1が雑談等のユーザの問いかけに対して回答することでユーザとの対話を実現する装置として構成されている場合には、音声認識結果出力部16は、ユーザの問いかけに対する回答メッセージをテキストや音声等でユーザに提示してもよい。
続いて、図4に示すフローチャートを参照して、音声認識装置1により実行される処理(音声認識方法)の一例について説明する。まず、複数のマイクロフォン等により構成される音声入力部11に外部からの音声が継続的に入力される。そして、指向性制御部12により、音声入力部11から得られた複数チャネルの信号に対して信号処理が実行され、複数の方向からの音声ストリームのそれぞれ(即ち、複数のビーム方向のそれぞれに対応する指向性音声ストリーム)が取得される(ステップS1、音声取得ステップ)。
続いて、第1音声認識処理部13により、各指向性音声ストリームに対して音声認識が実行される(ステップS2、音声認識処理ステップ)。そして、第1音声認識処理部13により、各指向性音声ストリームに対する音声認識結果が予め定められた信頼度の基準を満たすか否かが判定される(ステップS3)。
ステップS3において、予め定められた信頼度の基準を満たす音声認識結果が得られたと判定された場合(ステップS3:YES)には、第1音声認識処理部13により、当該音声認識結果が得られた指向性音声ストリームに対応するビーム方向が音源方向決定部14に通知される。そして、音源方向決定部14により、当該音声認識結果が得られた音声ストリームに対応する方向が音源方向として決定され(ステップS4、音源方向決定ステップ)、当該音源方向に対応する指向性音声ストリームが第2音声認識処理部15に出力される。
一方、ステップS3において、予め定められた信頼度の基準を満たす音声認識結果が得られたと判定されなかった場合(ステップS3:NO)には、第1音声認識処理部13から音源方向決定部14に対してビーム方向(音源方向と推定されるビーム方向)の通知はされず、音源方向決定部14により、予め設定された初期ビーム方向(或いは過去一定期間内に第1音声認識処理部13から通知されたビーム方向)に対応する指向性音声ストリームが第2音声認識処理部15に出力される。
続いて、第2音声認識処理部15により、設定されている音源方向からの音声ストリームに対して音声認識が実行される(ステップS5、第2音声認識処理ステップ)。ここで、「設定されている音源方向」とは、ステップS3で予め定められた信頼度の基準を満たす音声認識結果が得られたと判定された場合(ステップS3:YES)には、ステップS4で音源方向決定部14により決定された音源方向であり、ステップS3で予め定められた信頼度の基準を満たす音声認識結果が得られたと判定されなかった場合(ステップS3:NO)には、予め設定された初期ビーム方向(或いは過去一定期間内に第1音声認識処理部13から通知されたビーム方向)である。
続いて、音声認識結果出力部16により、第1音声認識処理部13による各指向性音声ストリームに対する音声認識結果、及び第2音声認識処理部15による音声認識結果の少なくとも一つが出力される(ステップS6)。ここで、音声認識結果は、音声認識結果がそのままテキストや音声等でユーザに提示される形で出力されてもよいし、音声認識結果に基づく何らかの応答結果を示す情報(例えば、検索結果、機器操作の結果、ユーザの問いかけに対する回答メッセージ等)がテキストや音声等でユーザに提示される形で出力されてもよい。
以上述べた音声認識装置1では、指向性制御部12により取得される複数の方向からの音声ストリームのそれぞれに対する音声認識結果が、第1音声認識処理部13により得られる。併せて、第1音声認識処理部13により予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、音源方向決定部14により、当該音声認識結果が得られた音声ストリームに対応する方向が音源方向として決定される。このように、上記音声認識装置1によれば、音源方向を決定してから音声認識を開始するのではなく、継続的に音声認識を実行しつつ音源方向を決定することができる。即ち、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声に対する音声認識を実行することが可能となる。
より具体的に説明すると、音源方向が決定されているか否かに関わらず、第1音声認識処理部13による音声認識が継続的に実行される。このため、ユーザが音声認識装置1に対して何らかの処理(例えば上述した機器操作等)を実行させるための発話を行った場合、少なくとも第1音声認識処理部13による音声認識が即時に実行される。従って、音声認識装置1は、当該音声認識に成功した場合に、音源方向の推定に伴う遅延を伴わずに、音声認識結果に基づく何らかの処理を適切に実行することが可能となる。
更に、音源方向が決定された後は、第2音声認識処理部15が、決定された音源方向からの音声ストリームに対してより高精度な音声認識を実行することにより、音声認識の精度を高めることが可能となる。従って、上記音声認識装置1によれば、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く音声認識することができる。
続いて、上述した一連の音声認識装置1による処理をコンピュータに実行させるための音声認識プログラムについて説明する。音声認識プログラムP1は、コンピュータに挿入されてアクセスされる、或いはコンピュータが備える記録媒体に形成されたプログラム格納領域内に格納される。
図5に示すように、音声認識プログラムP1は、音声入力モジュールP11、指向性制御モジュールP12、第1音声認識処理モジュールP13、音源方向決定モジュールP14、第2音声認識処理モジュールP15、及び音声認識結果出力モジュールP16を備えて構成される。音声入力モジュールP11、指向性制御モジュールP12、第1音声認識処理モジュールP13、音源方向決定モジュールP14、第2音声認識処理モジュールP15、及び音声認識結果出力モジュールP16を実行させることにより実現される機能は、上述した音声認識装置1の音声入力部11、指向性制御部12、第1音声認識処理部13、音源方向決定部14、第2音声認識処理部15、及び音声認識結果出力部16とそれぞれ同様である。
なお、音声認識プログラムP1は、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、音声認識プログラムP1の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムによって上述した一連の音声認識装置1の処理が行われる。
以上、本発明の好適な実施形態及び変形例について説明したが、本発明は、上記実施形態に限られず、その要旨を逸脱しない範囲において様々な変形が可能である。
1…音声認識装置、11…音声入力部、12…指向性制御部、13…第1音声認識処理部、14…音源方向決定部、15…第2音声認識処理部、16…音声認識結果出力部、P1…音声認識プログラム、P11…音声入力モジュール、P12…指向性制御モジュール、P13…第1音声認識処理モジュール、P14…音源方向決定モジュール、P15…第2音声認識処理モジュール、P16…音声認識結果出力モジュール。

Claims (7)

  1. 複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、
    前記音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、
    前記音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段と、
    前記音声取得手段により取得された音声ストリームのうち前記音源方向決定手段により決定された音源方向からの音声ストリームに対して、前記音声認識処理手段による音声認識よりも精度の高い音声認識を実行する第2音声認識処理手段と、を備える音声認識装置。
  2. 前記音声取得手段は、予め定められた複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得する、請求項1記載の音声認識装置。
  3. 前記音声取得手段は、所定の方法により推定された音源方向の候補となる複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得する、請求項1記載の音声認識装置。
  4. 前記音声認識処理手段は、予め定められた単語が音声認識結果に含まれている場合に、当該音声認識結果は予め定められた信頼度の基準を満たすと判定する、請求項1〜のいずれか一項記載の音声認識装置。
  5. 前記音声認識処理手段は、発話区間を検出するための発話区間検出処理を実行し、当該発話区間検出処理により検出された発話区間に対して音声認識を実行する、請求項1〜のいずれか一項記載の音声認識装置。
  6. 音声認識装置により実行される音声認識方法であって、
    複数の方向からの音声ストリームのそれぞれを取得する音声取得ステップと、
    前記音声取得ステップにおいて取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理ステップと、
    前記音声認識処理ステップにおいて、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定ステップと、
    前記音声取得ステップにおいて取得された音声ストリームのうち前記音源方向決定ステップにおいて決定された音源方向からの音声ストリームに対して、前記音声認識処理ステップにおける音声認識よりも精度の高い音声認識を実行する第2音声認識処理ステップと、を含む音声認識方法。
  7. コンピュータを、
    複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、
    前記音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、
    前記音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段
    前記音声取得手段により取得された音声ストリームのうち前記音源方向決定手段により決定された音源方向からの音声ストリームに対して、前記音声認識処理手段による音声認識よりも精度の高い音声認識を実行する第2音声認識処理手段、として実行させる音声認識プログラム。
JP2014208834A 2014-10-10 2014-10-10 音声認識装置、音声認識方法、及び音声認識プログラム Active JP6450139B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014208834A JP6450139B2 (ja) 2014-10-10 2014-10-10 音声認識装置、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014208834A JP6450139B2 (ja) 2014-10-10 2014-10-10 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2016080750A JP2016080750A (ja) 2016-05-16
JP6450139B2 true JP6450139B2 (ja) 2019-01-09

Family

ID=55958464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014208834A Active JP6450139B2 (ja) 2014-10-10 2014-10-10 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP6450139B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102562287B1 (ko) 2016-10-14 2023-08-02 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US10679617B2 (en) * 2017-12-06 2020-06-09 Synaptics Incorporated Voice enhancement in audio signals through modified generalized eigenvalue beamformer
CN110364166B (zh) 2018-06-28 2022-10-28 腾讯科技(深圳)有限公司 实现语音信号识别的电子设备
US20220036877A1 (en) * 2018-10-15 2022-02-03 Mitsubishi Electric Corporation Speech recognition device, speech recognition system, and speech recognition method
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
WO2020138943A1 (ko) * 2018-12-27 2020-07-02 한화테크윈 주식회사 음성을 인식하는 장치 및 방법
KR20200081274A (ko) 2018-12-27 2020-07-07 한화테크윈 주식회사 음성을 인식하는 장치 및 방법
CN110246501B (zh) * 2019-07-02 2022-02-01 思必驰科技股份有限公司 用于会议记录的语音识别方法及系统
JP7010900B2 (ja) * 2019-07-16 2022-01-26 Kddi株式会社 音源定位装置及び音源定位方法
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
JP7111206B2 (ja) * 2021-02-17 2022-08-02 日本電信電話株式会社 話者方向強調装置、話者方向強調方法、およびプログラム
JPWO2022239650A1 (ja) * 2021-05-11 2022-11-17
US12057138B2 (en) 2022-01-10 2024-08-06 Synaptics Incorporated Cascade audio spotting system
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57205800A (en) * 1981-06-15 1982-12-16 Fujitsu Ltd Voice recognition circuit
JP2000101598A (ja) * 1998-09-25 2000-04-07 Matsushita Electric Works Ltd 音声通信システム
GB2412997A (en) * 2004-04-07 2005-10-12 Mitel Networks Corp Method and apparatus for hands-free speech recognition using a microphone array
JP2009020423A (ja) * 2007-07-13 2009-01-29 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
JP2016080750A (ja) 2016-05-16

Similar Documents

Publication Publication Date Title
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US12125483B1 (en) Determining device groups
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
US11568867B2 (en) Detecting self-generated wake expressions
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN110268470B (zh) 音频设备滤波器修改
EP3347894B1 (en) Arbitration between voice-enabled devices
CN108351872B (zh) 用于响应用户语音的方法和系统
US10149049B2 (en) Processing speech from distributed microphones
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
TWI711035B (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
US9940949B1 (en) Dynamic adjustment of expression detection criteria
US9076450B1 (en) Directed audio for speech recognition
US8981994B2 (en) Processing signals
JP6844608B2 (ja) 音声処理装置および音声処理方法
US11631411B2 (en) System and method for multi-microphone automated clinical documentation
US10360922B2 (en) Noise reduction device and method for reducing noise
JP2020024310A (ja) 音声処理システム及び音声処理方法
JP6361360B2 (ja) 残響判定装置及びプログラム
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
US20230298612A1 (en) Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition
JP7279710B2 (ja) 信号処理装置および方法、並びにプログラム
Kulhandjian et al. AI-powered Emergency Keyword Detection for Autonomous Vehicles
CN117795597A (zh) 用于自动语音辨识的联合声学回声消除、语音增强和话音分离

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181207

R150 Certificate of patent or registration of utility model

Ref document number: 6450139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250