JP6450139B2

JP6450139B2 - 音声認識装置、音声認識方法、及び音声認識プログラム

Info

Publication number: JP6450139B2
Application number: JP2014208834A
Authority: JP
Inventors: 孝輔辻野; 悠輔中島
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2019-01-09
Anticipated expiration: 2034-10-10
Also published as: JP2016080750A

Description

本発明は、任意の方向からの音声を認識する音声認識装置、音声認識方法、及び音声認識プログラムに関する。

近年、音声認識によって、機器操作、情報取得、及び対話等を行う技術が普及しつつある。特に、ロボット等の機器に音声認識を実行させ、音声認識結果に基づく処理を実行させる場合、機器に対して任意の方向から到来する音声を精度良く認識できることが求められる。このような目的のために音源方向を推定し、音源方向にマイクロフォンアレイの指向方向を設定する装置が知られている。

例えば特許文献１には、音源方向に死角を向けた空間フィルタの他に音源方向に指向性を向けた空間フィルタも生成し、それぞれについて方向とゲインとのパターンを求め、両方のパターンに基づいて音源方向を推定することが記載されている。また、特許文献２には、音源方向を推定する方法として、ＭＵＳＩＣ法を使用することが記載されている。また、特許文献３には、話者が手のひらを打ち鳴らす音を合図音として検出して、マイクロフォンアレイの指向方向を設定することが記載されている。

特開２０１２−１５０２３７号公報特開２０１０−１２１９７５号公報国際公開第２０１１／０５５４１０号

しかしながら、上記特許文献１，２に記載されている手法では、機器利用者が発した音声とは異なる周囲の雑音等の音源に対して指向方向が設定されてしまうおそれがある。また、音源方向を推定するために多少の期間に亘って音声信号を観測する必要がある。また、上記特許文献３に記載されている手法によれば、周囲の雑音等に対して指向方向が設定されてしまうことを防止し得るが、音源方向の推定のために最初にユーザが手を叩く等の動作を行う必要がある。つまり、音源方向の推定がされた後に音声認識が開始されるため、音声認識結果が得られるまでに時間がかかってしまい、ユーザの体感価値が損なわれてしまう。

本発明は、上記の課題に鑑みてなされたものであり、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く認識することができる音声認識装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。

本発明に係る音声認識装置は、複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段と、を備える。

本発明に係る音声認識方法は、音声認識装置により実行される音声認識方法であって、複数の方向からの音声ストリームのそれぞれを取得する音声取得ステップと、音声取得ステップにおいて取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理ステップと、音声認識処理ステップにおいて、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定ステップと、を含む。

本発明に係る音声認識プログラムは、コンピュータを、複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段、として実行させる。

本発明に係る音声認識装置では、音声取得手段により取得される複数の方向からの音声ストリームのそれぞれに対する音声認識結果が、音声認識処理手段により得られる。併せて、音声認識処理手段により予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、音源方向決定手段により、当該音声認識結果が得られた音声ストリームに対応する方向が音源方向として決定される。このように、上記音声認識装置によれば、音源方向を決定してから音声認識を開始するのではなく、継続的に音声認識を実行しつつ音源方向を決定することができる。即ち、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声に対する音声認識を実行することが可能となる。また、音源方向が決定された後は、例えば決定された音源方向からの音声ストリームに対してより高精度な音声認識を実行させるといったことが可能となるため、音声認識の精度を高めることが可能となる。従って、上記音声認識装置によれば、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く音声認識することができる。

上記音声認識装置は、音声取得手段により取得された音声ストリームのうち音源方向決定手段により決定された音源方向からの音声ストリームに対して、音声認識処理手段による音声認識よりも精度の高い音声認識を実行する第２音声認識処理手段を更に備えてもよい。

上記音声認識装置によれば、音源方向決定手段により音源方向が決定された場合に、第２音声認識処理手段により、当該音源方向からの音声ストリームに対してより高精度な音声認識を実行することができる。

上記音声認識装置では、音声取得手段は、予め定められた複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。

上記音声認識装置によれば、予め定められた複数の方向（固定された方向）のそれぞれからの音声ストリームを精度良く取得することができる。

上記音声認識装置では、音声取得手段は、所定の方法により推定された音源方向の候補となる複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。

上記音声認識装置によれば、例えばＭＵＳＩＣ法等により推定された音源方向の候補となる複数の方向に指向性ビームを設定することで、音源方向である可能性が高い方向からの音声ストリームを優先的に取得でき、音声認識の精度向上を図ることができる。

上記音声認識装置では、音声認識処理手段は、予め定められた単語が音声認識結果に含まれている場合に、当該音声認識結果は予め定められた信頼度の基準を満たすと判定してもよい。

上記音声認識装置によれば、予め定められた単語が音声認識されたか否かに基づいて音声認識結果の信頼度の判定を簡易且つ精度良く実行することができる。

上記音声認識装置では、音声認識処理手段は、発話区間を検出するための発話区間検出処理を実行し、当該発話区間検出処理により検出された発話区間に対して音声認識を実行してもよい。

上記音声認識装置によれば、発話区間検出処理により検出された発話区間についてのみ音声認識を実行することが可能となる。これにより、音声ストリームのうち発話区間以外の区間に対する無駄な音声認識処理の実行を防止でき、消費電力を低減することができる。

本発明によれば、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く認識することができる。

本発明の実施形態に係る音声認識装置の機能構成を示すブロック図である。音声認識装置のハードウェア構成を示すブロック図である。複数のマイクロフォンにより設定されるビーム方向の一例を示す図である。音声認識装置の動作を示すフローチャートである。音声認識プログラムのモジュール構成を示すブロック図である。

以下、図面を参照しながら、本発明の実施形態に係る音声認識装置、音声認識方法、及び音声認識プログラムについて説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。図１は、本実施形態に係る音声認識装置１の機能構成を示すブロック図である。図１に示すように、音声認識装置１は、音声入力部１１と、指向性制御部１２と、第１音声認識処理部１３と、音源方向決定部１４と、第２音声認識処理部１５と、音声認識結果出力部１６と、を備えている。

音声認識装置１は、ユーザの発話音声を音声認識し、音声認識結果に応じた処理を実行する装置として構成される。例えば、音声認識装置１は、家庭内のリビングに設置され、ユーザの発話音声を音声認識し、音声認識結果に応じた処理の実行を家電機器等に無線電波等により指示する装置として構成されてもよいし、音声認識結果に応じた処理を実行する機器自体に組み込まれてもよい。また、音声認識装置１は、ユーザからの問いかけに対する応答結果をテキスト及び音声等により当該ユーザに提示する音声対話装置（例えばロボット等）として構成されてもよい。

図２は、音声認識装置１のハードウェア構成の一例を示すブロック図である。図２に示すように、音声認識装置１は、例えばハードウェア構成として、ＣＰＵ（Central Processing Unit）１０Ａと、ＲＡＭ（Random Access Memory）１０Ｂと、ＲＯＭ（Read Only Memory）１０Ｃと、入力装置１０Ｄと、外部装置との通信を行う無線電波モジュール等の通信装置１０Ｅと、補助記憶装置１０Ｆと、出力装置１０Ｇと、を備える。入力装置１０Ｄは、音声入力部１１に相当する複数のマイクロフォンを含み、その他、例えば入力デバイスであるキーボード及びマウス等を含む。出力装置１０Ｇは、例えば応答結果をテキストとして出力するディスプレイや、応答結果を音声として出力するスピーカー等である。音声認識装置１の各機能は、例えば、ＲＡＭ１０Ｂ等に後述する音声認識プログラムＰを読み込ませ、ＣＰＵ１０Ａにより当該音声認識プログラムＰを実行させることにより実現される。

なお、音声認識装置１は、必ずしも上記のハードウェア構成を全て備えている必要はない。例えば、音声認識装置１は、応答結果をテキスト及び音声等で出力する機能を備えない場合には、出力装置１０Ｇを備えなくともよい。また、音声認識装置１は、物理的に単一の機器として構成されてもよいし、物理的に分離された複数の機器が協調して動作するように構成されてもよい。

音声入力部１１は、音声認識装置１の周囲の音を集音し、複数チャネル（複数の周波数帯域）の信号として取得する音声入力手段である。音声入力部１１は、例えば複数のマイクロフォンにより構成される。

指向性制御部１２は、複数の方向からの音声ストリームのそれぞれを取得する音声取得手段である。指向性制御部１２は、例えば固定ビームフォーマ等の周知の手法を用いることにより、予め設定されたビーム方向から到来した音声のみを強調し他の方向から到来した音声を抑圧する信号処理を実行する。より具体的には、指向性制御部１２は、音声入力部１１から得られた複数チャネルの信号に対して上述の信号処理を実行することで、複数のビーム方向のそれぞれについて、各ビーム方向から到来した音声のみが強調され、他のビーム方向から到来した音声が抑圧された音声ストリームを生成する。

指向性制御部１２は、予め定められた複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。即ち、指向性制御部１２により設定される複数のビーム方向は、予め設定された固定のビーム方向であってもよい。これにより、予め定められた複数の方向（固定された方向）のそれぞれからの音声ストリームを精度良く取得することができる。特に、音声がどの方向から到来するかが予めわかっていない場合には、図３に示すように複数のビームが全方向を被覆するようビーム方向を設定すればよい。図３の例では、音声認識装置１を中心として、水平方向に４５度間隔で区切った８方向にビーム方向が設定されている。このようにビーム方向が設定されることで、指向性制御部１２は、例えば音声認識装置１から図３における右上に向けて設定されたビーム方向ａの先にある音源Ｘから到来する音声が強調された音声ストリームを生成することができる。

また、音声認識装置１に対して入力される音声の発信源（音源方向）の候補が一定の範囲に限定される場合には、指向性制御部１２は、複数のビームが当該一定の範囲のみを被覆するようにビーム方向を設定してもよい。例えば、音声認識装置１がテレビ受像機に組み込まれており、ユーザが発話によって、テレビ受像機に対して所定の操作（例えばチャンネル変更等）の実行を指示する場合について考える。この場合、ユーザの位置は、テレビ受像機の画面前方であることが想定される。即ち、音源方向の候補は、テレビ受像機の画面前方１８０度の範囲に限定される。従って、この場合には、指向性制御部１２は、テレビ受像機の画面前方１８０度の範囲のみを被覆するようにビーム方向を設定すればよい。なお、設定されるビーム方向の数は、マイクロフォンの数、及び信号処理によって設定される指向性の鋭さ等に依存するが、通常マイクロフォンの数よりも多くのビーム方向を設定することができる。

また、指向性制御部１２は、所定の方法により推定された音源方向の候補となる複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得してもよい。即ち、指向性制御部１２は、例えば音声入力部１１に入力される音響信号を用いたＭＵＳＩＣ法等によって推定された音源方向の複数の候補を、複数のビーム方向として設定してもよい。或いは、指向性制御部１２は、ＭＵＳＩＣ法等による音源方向推定に加えてカルマンフィルタやパーティクルフィルタ等の手法による音源方向トラッキングにより推定された音源方向の複数の候補を、複数のビーム方向として設定してもよい。このようにして複数のビーム方向が設定される場合には、上述した固定ビームフォーマを用いる場合と異なり、複数のビーム方向は、音響信号に依存して設定及び変更されるため、可変となる。このように、ＭＵＳＩＣ法等により推定された音源方向の候補となる複数の方向に指向性ビームを設定することで、音源方向である可能性が高い方向からの音声ストリームを優先的に取得でき、音声認識の精度向上を図ることができる。

第１音声認識処理部１３は、指向性制御部１２により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段である。以下、指向性制御部１２により取得された複数の方向からの音声ストリームのそれぞれを、指向性音声ストリームともいう。複数の指向性音声ストリームは、上述した音声入力部１１及び指向性制御部１２の処理により連続的に取得され、第１音声認識処理部１３に入力される。このため、第１音声認識処理部１３は、複数の指向性音声ストリームのそれぞれについて、音声認識を連続的に実行することになる。

指向性音声ストリームには、人の声でなく雑音のみが含まれている場合もある。また、指向性音声ストリームには、ほぼ無音である区間しか含まれていない場合もある。そこで、第１音声認識処理部１３は、指向性音声ストリームに含まれている雑音を人の声であると誤認して誤った音声認識結果を得ることを防ぐために、各指向性音声ストリームに対して音声認識を実行する前に周知の雑音除去処理を実行してもよい。また、第１音声認識処理部１３は、音声認識を実行すべき発話区間（人の声が含まれている区間）を検出するために、指向性音声ストリームに対して周知の発話区間検出処理を実行し、当該発話区間検出処理により検出された発話区間に対して音声認識を実行してもよい。これにより、指向性音声ストリームのうち発話区間以外の区間に対する無駄な音声認識処理の実行を防止でき、消費電力を低減することができる。

第１音声認識処理部１３は、各指向性音声ストリーム（或いは、上述の雑音除去処理や発話区間検出処理等を実行した後の各指向性音声ストリーム）に対して音声認識を実行することにより得られた音声認識結果について、予め定められた信頼度の基準を満たすか否かを判定する。このような判定に用いる信頼度としては、例えば、統計的音声認識の分野において周知の指標である出力仮説の尤度に基づく信頼度を用いることができる。

音声認識装置１にユーザの発話音声を音声認識させて所定の処理を実行させるために最初に発話（音声入力）すべき一以上のコマンド単語が予め定められている場合には、第１音声認識処理部１３は、予め定められたコマンド単語が音声認識結果に含まれている場合に、当該音声認識結果は予め定められた信頼度の基準を満たすと判定してもよい。なお、この場合、第１音声認識処理部１３は、コマンド単語のみを音声認識対象の語彙としてもよい。これにより、第１音声認識処理部１３は、指向性音声ストリームを音声認識し、何らかの音声認識結果（即ち、いずれかのコマンド単語を認識したことを示す結果）が得られた場合に、当該音声認識結果が予め定められた信頼度の基準を満たすと判定することができる。即ち、音声認識結果の信頼度の判定を、コマンド単語が音声認識されたか否かに基づいて簡易且つ精度良く実行することができる。

第１音声認識処理部１３は、ある指向性音声ストリームから、予め定められた信頼度の基準を満たす音声認識結果を得た場合、当該指向性音声ストリームの到来方向（即ち、当該指向性音声ストリームに対応するビーム方向）から人の発話音声が到来していると推定し、そのビーム方向を音源方向決定部１４に通知する。また、第１音声認識処理部１３は、各指向性ストリームに対する音声認識により得られた音声認識結果を音声認識結果出力部１６に出力する。

音源方向決定部１４は、第１音声認識処理部１３により予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段である。

音源方向決定部１４は、例えば、上述したように第１音声認識処理部１３から人の発話音声の到来方向であると推定されたビーム方向を通知された場合、当該ビーム方向を音源方向として決定する。そして、音源方向決定部１４は、当該ビーム方向に対応する指向性音声ストリームを指向性制御部１２から取得し、当該指向性音声ストリームを第２音声認識処理部１５に出力する。或いは、音源方向決定部１４は、音声入力部１１から得られた複数チャネルの信号を取得し、当該信号に対して独自の信号処理を実行することで、第１音声認識処理部１３から通知されたビーム方向に対応する指向性音声ストリームを取得してもよい。

音源方向決定部１４は、過去に第１音声認識処理部１３から何らのビーム方向も通知されていない初期状態においては、第２音声認識処理部１５に対して、予め設定された初期ビーム方向に対応する指向性音声ストリームを出力してもよいし、何らの指向性音声ストリームも出力しなくともよい。

また、音源方向決定部１４は、過去に第１音声認識処理部１３からビーム方向を通知されてから、その後ビーム方向の通知を受けずに予め設定された一定時間を経過した場合には、初期状態に復帰してもよい。また、音源方向決定部１４は、過去に第１音声認識処理部１３から一のビーム方向を通知され、更にその後の時点において第１音声認識処理部１３から他のビーム方向を通知された場合は、後に通知された他のビーム方向を最新の音源方向として決定し、当該音源方向に対応する指向性音声ストリームを第２音声認識処理部１５に出力してもよい。

第２音声認識処理部１５は、指向性制御部１２により取得された音声ストリームのうち音源方向決定部１４により決定された音源方向からの音声ストリームに対して音声認識を実行する第２音声認識処理手段である。第２音声認識処理部１５による音声認識処理は、第１音声認識処理部１３による音声認識よりも多くの語彙を音声認識対象とし、精度の高い音声認識を実行する。これにより、音源方向決定部１４により音源方向が決定された場合に、第２音声認識処理部１５により、当該音源方向からの音声ストリームに対してより高精度な音声認識を実行することが可能となる。例えば、第１音声認識処理部１３による音声認識を、音声認識装置１内で認識処理を実行するローカル型音声認識とし、第２音声認識処理部１５による音声認識を、外部のサーバを利用したサーバ型音声認識としてもよい。なお、第２音声認識処理部１５による音声認識処理は、第１音声認識処理部１３による音声認識処理と同一であってもよい。

第２音声認識処理部１５は、上述のサーバ型音声認識を実行する場合には、音源方向決定部１４から取得した指向性音声ストリームを、音声認識を実行する機能を有するサーバ（不図示）に送信し、当該サーバに音声認識を実行させ、その音声認識結果（例えばテキスト等。以下同じ。）を当該サーバから受信することで、音声認識を実行してもよい。このように、第２音声認識処理部１５は、高性能な音声認識エンジンを備えるサーバ等に音声認識を実行させることで、音源方向決定部１４により決定された音源方向からの音声ストリームに対してより高精度な音声認識を実行することができる。なお、第２音声認識処理部１５と上記サーバとの間のデータの送受信は、例えば、上述した通信装置１０Ｅの通信機能を用いることで、インターネット及びＬＡＮ（Local Area Network）等を介して行われる。

第２音声認識処理部１５は、上述のようにして音源方向決定部１４から取得した指向性音声ストリームに対して音声認識を実行し、その結果として得られた音声認識結果を音声認識結果出力部１６に出力する。

音声認識結果出力部１６は、第１音声認識処理部１３及び第２音声認識処理部１５の少なくとも一方から取得された音声認識結果を出力する音声認識結果出力手段である。音声認識結果出力部１６は、第１音声認識処理部１３及び第２音声認識処理部１５の一方から取得した音声認識結果のみを出力してもよいし、第１音声認識処理部１３及び第２音声認識処理部１５の両方から取得した音声認識結果を結合したテキストを出力してもよい。音声認識結果の出力の具体的な方法としては、音声認識結果出力部１６は、例えば、音声認識結果（テキスト）をディスプレイ等の出力装置１０Ｇに出力することでユーザに提示してもよいし、音声認識結果に対応する音声を周知の手法により音声合成し、得られた音声をスピーカー等の出力装置１０Ｇに出力してもよい。

また、音声認識結果出力部１６は、音声認識結果をテキストや音声等により出力する以外に、音声認識結果に基づく何らかの応答結果を示す情報をユーザに提示してもよい。例えば、音声認識装置１がユーザからの発話内容に基づく情報検索を実行する装置として構成されている場合には、音声認識結果出力部１６は、検索結果をテキストや音声等でユーザに提示してもよい。同様に、音声認識装置１がユーザからの発話内容に基づいて所定の機器操作（例えばリモートコントローラを通じて電灯を消灯する操作等）を実行する装置として構成されている場合には、音声認識結果出力部１６は、当該機器操作の結果（例えば電灯を消灯したことを示す情報）をテキストや音声等でユーザに提示してもよい。また、音声認識装置１が雑談等のユーザの問いかけに対して回答することでユーザとの対話を実現する装置として構成されている場合には、音声認識結果出力部１６は、ユーザの問いかけに対する回答メッセージをテキストや音声等でユーザに提示してもよい。

続いて、図４に示すフローチャートを参照して、音声認識装置１により実行される処理（音声認識方法）の一例について説明する。まず、複数のマイクロフォン等により構成される音声入力部１１に外部からの音声が継続的に入力される。そして、指向性制御部１２により、音声入力部１１から得られた複数チャネルの信号に対して信号処理が実行され、複数の方向からの音声ストリームのそれぞれ（即ち、複数のビーム方向のそれぞれに対応する指向性音声ストリーム）が取得される（ステップＳ１、音声取得ステップ）。

続いて、第１音声認識処理部１３により、各指向性音声ストリームに対して音声認識が実行される（ステップＳ２、音声認識処理ステップ）。そして、第１音声認識処理部１３により、各指向性音声ストリームに対する音声認識結果が予め定められた信頼度の基準を満たすか否かが判定される（ステップＳ３）。

ステップＳ３において、予め定められた信頼度の基準を満たす音声認識結果が得られたと判定された場合（ステップＳ３：ＹＥＳ）には、第１音声認識処理部１３により、当該音声認識結果が得られた指向性音声ストリームに対応するビーム方向が音源方向決定部１４に通知される。そして、音源方向決定部１４により、当該音声認識結果が得られた音声ストリームに対応する方向が音源方向として決定され（ステップＳ４、音源方向決定ステップ）、当該音源方向に対応する指向性音声ストリームが第２音声認識処理部１５に出力される。

一方、ステップＳ３において、予め定められた信頼度の基準を満たす音声認識結果が得られたと判定されなかった場合（ステップＳ３：ＮＯ）には、第１音声認識処理部１３から音源方向決定部１４に対してビーム方向（音源方向と推定されるビーム方向）の通知はされず、音源方向決定部１４により、予め設定された初期ビーム方向（或いは過去一定期間内に第１音声認識処理部１３から通知されたビーム方向）に対応する指向性音声ストリームが第２音声認識処理部１５に出力される。

続いて、第２音声認識処理部１５により、設定されている音源方向からの音声ストリームに対して音声認識が実行される（ステップＳ５、第２音声認識処理ステップ）。ここで、「設定されている音源方向」とは、ステップＳ３で予め定められた信頼度の基準を満たす音声認識結果が得られたと判定された場合（ステップＳ３：ＹＥＳ）には、ステップＳ４で音源方向決定部１４により決定された音源方向であり、ステップＳ３で予め定められた信頼度の基準を満たす音声認識結果が得られたと判定されなかった場合（ステップＳ３：ＮＯ）には、予め設定された初期ビーム方向（或いは過去一定期間内に第１音声認識処理部１３から通知されたビーム方向）である。

続いて、音声認識結果出力部１６により、第１音声認識処理部１３による各指向性音声ストリームに対する音声認識結果、及び第２音声認識処理部１５による音声認識結果の少なくとも一つが出力される（ステップＳ６）。ここで、音声認識結果は、音声認識結果がそのままテキストや音声等でユーザに提示される形で出力されてもよいし、音声認識結果に基づく何らかの応答結果を示す情報（例えば、検索結果、機器操作の結果、ユーザの問いかけに対する回答メッセージ等）がテキストや音声等でユーザに提示される形で出力されてもよい。

以上述べた音声認識装置１では、指向性制御部１２により取得される複数の方向からの音声ストリームのそれぞれに対する音声認識結果が、第１音声認識処理部１３により得られる。併せて、第１音声認識処理部１３により予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、音源方向決定部１４により、当該音声認識結果が得られた音声ストリームに対応する方向が音源方向として決定される。このように、上記音声認識装置１によれば、音源方向を決定してから音声認識を開始するのではなく、継続的に音声認識を実行しつつ音源方向を決定することができる。即ち、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声に対する音声認識を実行することが可能となる。

より具体的に説明すると、音源方向が決定されているか否かに関わらず、第１音声認識処理部１３による音声認識が継続的に実行される。このため、ユーザが音声認識装置１に対して何らかの処理（例えば上述した機器操作等）を実行させるための発話を行った場合、少なくとも第１音声認識処理部１３による音声認識が即時に実行される。従って、音声認識装置１は、当該音声認識に成功した場合に、音源方向の推定に伴う遅延を伴わずに、音声認識結果に基づく何らかの処理を適切に実行することが可能となる。

更に、音源方向が決定された後は、第２音声認識処理部１５が、決定された音源方向からの音声ストリームに対してより高精度な音声認識を実行することにより、音声認識の精度を高めることが可能となる。従って、上記音声認識装置１によれば、音源方向の推定に伴う遅延を伴わずに、任意の方向からの音声を精度良く音声認識することができる。

続いて、上述した一連の音声認識装置１による処理をコンピュータに実行させるための音声認識プログラムについて説明する。音声認識プログラムＰ１は、コンピュータに挿入されてアクセスされる、或いはコンピュータが備える記録媒体に形成されたプログラム格納領域内に格納される。

図５に示すように、音声認識プログラムＰ１は、音声入力モジュールＰ１１、指向性制御モジュールＰ１２、第１音声認識処理モジュールＰ１３、音源方向決定モジュールＰ１４、第２音声認識処理モジュールＰ１５、及び音声認識結果出力モジュールＰ１６を備えて構成される。音声入力モジュールＰ１１、指向性制御モジュールＰ１２、第１音声認識処理モジュールＰ１３、音源方向決定モジュールＰ１４、第２音声認識処理モジュールＰ１５、及び音声認識結果出力モジュールＰ１６を実行させることにより実現される機能は、上述した音声認識装置１の音声入力部１１、指向性制御部１２、第１音声認識処理部１３、音源方向決定部１４、第２音声認識処理部１５、及び音声認識結果出力部１６とそれぞれ同様である。

なお、音声認識プログラムＰ１は、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、音声認識プログラムＰ１の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムによって上述した一連の音声認識装置１の処理が行われる。

以上、本発明の好適な実施形態及び変形例について説明したが、本発明は、上記実施形態に限られず、その要旨を逸脱しない範囲において様々な変形が可能である。

１…音声認識装置、１１…音声入力部、１２…指向性制御部、１３…第１音声認識処理部、１４…音源方向決定部、１５…第２音声認識処理部、１６…音声認識結果出力部、Ｐ１…音声認識プログラム、Ｐ１１…音声入力モジュール、Ｐ１２…指向性制御モジュール、Ｐ１３…第１音声認識処理モジュール、Ｐ１４…音源方向決定モジュール、Ｐ１５…第２音声認識処理モジュール、Ｐ１６…音声認識結果出力モジュール。

Claims

複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、
前記音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、
前記音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段と、
前記音声取得手段により取得された音声ストリームのうち前記音源方向決定手段により決定された音源方向からの音声ストリームに対して、前記音声認識処理手段による音声認識よりも精度の高い音声認識を実行する第２音声認識処理手段と、を備える音声認識装置。
前記音声取得手段は、予め定められた複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得する、請求項１記載の音声認識装置。
前記音声取得手段は、所定の方法により推定された音源方向の候補となる複数の方向に指向性ビームを設定することにより、各指向性ビームのビーム方向に対応する音声ストリームを取得する、請求項１記載の音声認識装置。
前記音声認識処理手段は、予め定められた単語が音声認識結果に含まれている場合に、当該音声認識結果は予め定められた信頼度の基準を満たすと判定する、請求項１〜３のいずれか一項記載の音声認識装置。
前記音声認識処理手段は、発話区間を検出するための発話区間検出処理を実行し、当該発話区間検出処理により検出された発話区間に対して音声認識を実行する、請求項１〜４のいずれか一項記載の音声認識装置。
音声認識装置により実行される音声認識方法であって、
複数の方向からの音声ストリームのそれぞれを取得する音声取得ステップと、
前記音声取得ステップにおいて取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理ステップと、
前記音声認識処理ステップにおいて、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定ステップと、
前記音声取得ステップにおいて取得された音声ストリームのうち前記音源方向決定ステップにおいて決定された音源方向からの音声ストリームに対して、前記音声認識処理ステップにおける音声認識よりも精度の高い音声認識を実行する第２音声認識処理ステップと、を含む音声認識方法。
コンピュータを、
複数の方向からの音声ストリームのそれぞれを取得する音声取得手段と、
前記音声取得手段により取得された複数の方向からの音声ストリームのそれぞれに対して音声認識を実行する音声認識処理手段と、
前記音声認識処理手段により、予め定められた信頼度の基準を満たす音声認識結果が得られた場合に、当該音声認識結果が得られた音声ストリームに対応する方向を音源方向として決定する音源方向決定手段と、
前記音声取得手段により取得された音声ストリームのうち前記音源方向決定手段により決定された音源方向からの音声ストリームに対して、前記音声認識処理手段による音声認識よりも精度の高い音声認識を実行する第２音声認識処理手段、として実行させる音声認識プログラム。