JP3838159B2 - Speech recognition dialogue apparatus and program - Google Patents
Speech recognition dialogue apparatus and program Download PDFInfo
- Publication number
- JP3838159B2 JP3838159B2 JP2002158985A JP2002158985A JP3838159B2 JP 3838159 B2 JP3838159 B2 JP 3838159B2 JP 2002158985 A JP2002158985 A JP 2002158985A JP 2002158985 A JP2002158985 A JP 2002158985A JP 3838159 B2 JP3838159 B2 JP 3838159B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- concentration
- voice
- unit
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、話者が発話した内容に対する応答を音声出力する音声認識対話装置に関し、特に音声認識対話装置の周囲に複数の話者がいる中で、ある特定の話者とだけ集中して対話をしたり、複数の話者と代わる代わる対話をしたりすることができる音声認識対話装置に関する。
【0002】
【従来の技術】
話者の発話内容に対する応答を音声出力する音声認識対話装置においては、話者の発話内容を高い認識率で認識することが必要になる。認識率を高いものとするため、周囲雑音等の影響を低減し、ある特定の話者の発する音声を良好な品質で取り込むようにした音声認識装置は、従来から提案されている(例えば、特開2000−148184号公報)。
【0003】
図7は、特開2000−148184号公報に記載されている音声認識装置の構成を示すブロック図である。図7を参照すると、マイクロフォンアレイ等の指向特性や感度特性等を可変できる構成とした音声情報入力部70と、音声情報入力部70の指向特性あるいは感度特性等を調整する音声入力制御部71と、音声入力制御部71の制御に基づいて音声情報入力部70より入力された音声信号をA/D変換し、周波数分析を行い、音声の特徴ベクトル列に変換する音声特徴ベクトル抽出部72と、音声特徴ベクトル抽出部72から得られた音声特徴ベクトルによって音声認識を行う音声認識部73と、音声認識部73の認識結果を表示する認識結果表示部74と、カメラ等の撮像装置で構成される画像情報入力部75と、画像情報入力部75から入力された画像情報を解析する画像情報解析部76とを備えている。
【0004】
続いて、特開2000−148184号公報に記載されている音声認識装置の動作について説明する。図7において、画像情報解析部76は、画像情報入力部75から得られる画像データを解析し、画像内の話者の位置を検出する。画像内における話者の位置は、話者の顔画像を抽出し、それを追跡することなどで求めることができる。音声入力制御部71は、画像情報解析部76から送られてくる話者の位置データに基づいて、音声情報入力部70の指向特性や入力特性、方向を制御する。
【0005】
【発明が解決しようとする課題】
しかしながら、前述した従来の音声認識装置を音声認識対話装置に使用した場合、次のような問題が発生する。
【0006】
第1の問題点は、複数の話者が音声認識対話装置のまわりにいる中で、別の方向にいる複数の話者と代わる代わる対話を行うことができないことである。
【0007】
その理由は、ある特定の話者の音声認識率を向上させるために、特定話者のいる方向にマイクロフォンの感度特性や、マイクロフォンの指向特性を調整しており、他の方向にいる話者の音声を捕捉しづらくしてしまうためである。
【0008】
第2の問題点は、複数の話者が音声認識対話装置のまわりにいる中で、同じ方向にいる特定の話者とだけ集中した対話を行うことができないことである。
【0009】
その理由は、話者のいる方向にマイクロフォンの感度特性や、マイクロフォンの指向特性を調整するだけなので、同じ方向からの他の話者が発話した音声も捕捉して音声認識してしまうためである。
【0010】
【発明の目的】
本発明の目的は、複数の話者が音声認識対話装置のまわりにいる中で、時にはある特定の話者とだけ集中して対話をしたり、時には複数の話者と代わる代わる対話をしたりすることが、対話の中で自然に切り替えてできる音声認識対話装置を提供することにある。
【0011】
【課題を解決するための手段】
本発明の音声認識対話装置は、発話された音声情報を分析し得られる話者位置特定情報や照合話者情報や音声認識結果をもとに話者への集中度を管理し制御する話者への集中度制御部(図1の14)と、話者への集中度制御部(図1の14)が集中度を決定する際に必要な情報を格納し参照および更新が行われる話者及び集中度管理のデータベース(図1の20)とを有する。
【0012】
より具体的には、本発明の音声認識対話装置は、
音声情報を取り込む音声入力部(図1の10)と、
発話した話者の方向を特定する話者位置特定部(図1の11)と、
発話した話者を特定する話者照合部(図1の12)と、
前記音声入力部(図1の10)から入力される音声情報を分析し、音声を認識する音声認識部(図1の13)と、
特定話者を示す特定話者識別名と、該特定話者識別名によって示される特定話者に対する集中度のレベルとが設定される集中度設定テーブル(図1の24)と、
該集中度設定テーブル(図1の24)の内容と前記話者照合部(図1の12)で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部(図1の13)の認識結果に基づいて決定した集中度のレベルと前記話者照合部(図1の12)で特定された話者の識別名とを用いて前記集中度設定テーブル(図1の24)中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブル(図1の24)の内容と前記話者位置特定部(図1の11)で特定された話者の方向とに基づいて、前記音声入力部(図1の10)の指向性及び方向を制御する集中度制御部(図1の14)と、
該集中度制御部(図1の14)で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部(図1の19)とを備えている。
【0013】
更に、本発明の音声認識対話装置は、所定のイベントが発生したとき、集中度設定テーブル(図1の24)に設定されている特定話者の集中度のレベルを変更できるようにするため、
所定のイベントが発生したことを検出する他イベント管理部(図1の16)を備え、且つ、
前記集中度制御部(図1の14)が、前記他イベント管理部(図1の16)によって前記所定のイベントの発生が検出されたとき、前記集中度設定テーブル(図1の24)に設定されている集中度のレベルを変更する構成を有している。
【0014】
より具体的には、
前記所定のイベントが、前記集中度設定テーブル(図1の24)に特定話者識別名が設定されている特定話者による発話が所定時間なかったことであり、且つ、
前記集中度制御部(図1の14)が、前記他イベント管理部(図1の16)で前記所定のイベントの発生が検出され、且つ、前記集中度設定テーブル(図1の24)に設定されている集中度のレベルが、該集中度設定テーブル(図1の24)に設定されている特定話者識別名によって示される特定話者の発話のみを有効にするほど高いものである場合、前記集中度設定テーブル(図1の24)に設定されている集中度のレベルを、他の話者による発話も有効にするレベルに下げる構成を有する。
【0015】
【作用】
複数の話者と対話をする中で、予め設定しておく集中度の変移条件をもとに、話者への集中度を制御し、集中度のレベルに応じて、マイクロフォンアレイ等の音声入力部(図1の10)の指向性や方向を調整する。また、集中度のレベルに応じて、特定話者以外の話者の発話を無効にする。
【0016】
特定話者に対する集中度のレベルを、特定話者の発話内容のみに基づいて決定すると、特定話者が集中度のレベルを高くする発話を行った後に音声認識対話装置から離れた場合、他の話者の発話が無効にされる状態が続いてしまい、他の話者が、音声認識対話装置と対話を行えなくなってしまう。そこで、他イベント管理部(図1の16)で所定のイベント(例えば、特定話者による発話がない時間が所定時間継続)の発生が検出された場合、集中度制御部(図1の14)が、集中度設定テーブル(図1の24)に設定されている集中度のレベルを、他の話者による発話も有効にするレベルまで下げる。これにより、他の発話者も音声認識対話装置と対話することが可能になる。
【0017】
【発明の実施の形態】
次に本発明の実施の形態について図面を参照して詳細に説明する。図1を参照すると、本発明に係る音声認識対話装置の第1の実施の形態は、音声入力部10と、話者位置特定部11と、話者照合部12と、音声認識部13と、集中度制御部14と、音声入力制御部15と、他イベント管理部16と、対話制御部17と、音声合成部18と、音声出力部19と、話者及び集中度管理のためのデータベース20とから構成されている。
【0018】
音声入力部10は、音声情報を電気信号に変換する機能を有している。また、音声入力部10は、指向性及び方向を変更可能なものであり、例えば、複数のマイクロフォンを円形状に一定の間隔で配置したマイクロフォンアレイにより構成される。
【0019】
話者位置特定部11は、音声入力部10から入力される音声情報を分析し話者の方向を特定する機能を有する。例えば、音声入力部10が、複数のマイクロフォンを円形状に配置したマイクロフォンアレイにより構成されている場合は、最も出力レベルの高いマイクロフォンの方向を話者の方向とする。上記マイクロフォンの方向は、音声認識対話装置の基準方向に対する方向であり、複数のマイクロフォンの内の基準マイクロフォンと出力レベルが最も高いマイクロフォンとの角度と、上記基準方向と上記基準マイクロフォンとの角度とを加算することにより求まる。
【0020】
話者照合部12は、音声入力部10から入力される音声情報を分析し、登録済みの話者の音声情報と照合し話者を特定する機能を有する。
【0021】
音声認識部13は、音声入力部10から入力される音声情報を分析し音声を認識する機能を有する。
【0022】
集中度制御部14は、話者位置特定部11から入力される話者位置特定情報、話者照合部12から入力される照合話者情報、音声認識部13から入力される音声認識結果及び他イベント管理部16からの通知をもとに話者への集中度を制御する機能を有する。
【0023】
より具体的には、集中度制御部14は、以下の機能を有する。
【0024】
・集中度設定テーブル24の内容と話者照合部12からの照合話者情報(話者の識別名)とに基づいて、照合話者情報によって特定される話者の発話を有効にするか否かを判定する機能。
・有効にしないと判定した場合は、音声認識部13から入力される認識結果を棄却する機能。
・有効にすると判定した場合は、音声認識部13に認識結果を対話制御部17に渡す機能。
・有効にすると判定した場合は、音声認識部13の認識結果と変移条件テーブル21の内容とに基づいて集中度のレベルを決定し、この決定した集中度のレベルと話者照合部12からの照合話者情報とに基づいて集中度設定テーブル24の内容を更新する機能。
・更新後の集中度設定テーブル24の内容と、定義テーブル22の内容と、情報テーブル23の内容とに基づいて、音声入力制御部15に対して音声入力部10の方向及び指向性の調整を指示する機能。
【0025】
なお、データベース20中の各テーブル21〜24については、後で詳細に説明する。
【0026】
音声入力制御部15は、集中度制御部14からの指示に従って、音声入力部10のマイクロフォンアレイ等の指向性や方向(音声認識対話装置の基準方向に対する基準マイクロフォンの方向)を調整する機能を有する。
【0027】
他イベント管理部16は、音声入力以外の時間等の他のイベントを管理し、集中度制御部14にイベント発生を通知する機能を有する。
【0028】
対話制御部17は、集中度制御部14から送られてくる音声認識結果及び話者照合情報をもとに対話内容を管理し、次の応答内容を決定する機能を有する。
【0029】
音声合成部18は、対話制御部17より入力される応答内容の合成音声を生成する機能を有する。
【0030】
音声出力部19は、音声合成部18から入力される合成音声を出力する機能を有するものであり、スピーカー等によって構成される。
【0031】
データベース20は、集中度制御部14が、話者への集中度を制御する際に使用する変移条件テーブル21、定義テーブル22、情報テーブル23及び集中度設定テーブル24を備えている。
【0032】
変移条件テーブル21には、特定話者に対する集中度のレベルを変移させる各種の条件が格納されている。各条件は、それぞれ条件内容と、現在の集中度のレベル(現在レベル)と、変移させる集中度のレベル(変移レベル)とを含んでいる。例えば、条件No1は、現在の集中度のレベルが「中」のときに、「ありがとう」或いは「もういいよ」が発話されたら、レベルを「低」に変移させることを示している。また、例えば、条件No7は、現在の集中度のレベルが「高」のときに、30秒間にわたって特定話者による発話がなかった場合、レベルを「中」に変移させることを示している。
【0033】
定義テーブル22には、集中度のレベル毎に、集中度制御部14が行う制御内容が定義されている。例えば、集中度のレベルが「低」の場合には、集中度制御部14は、音声入力部10の指向性を−180度〜180度とし、集中度設定テーブル24に設定されている特定話者以外の音声認識結果も有効にする。また、集中度が「高」の場合には、集中度制御部14は、音声入力部10の方向を特定話者の方向にし、指向性を−45度〜45度とし、集中度設定テーブル24に設定されている特定話者以外の音声認識結果を無効にする。
【0034】
情報テーブル23には、話者照合部12が特定した話者の識別名と話者位置特定部11で特定された方向とが対応付けて登録されている。この図1の例は、音声認識対話装置の基準方向に対して、父親が0度、母親が90度、不明者が180度の位置に存在することを示している。
【0035】
集中度設定テーブル24には、現時点における集中度のレベルと、その対象となる特定話者の識別名とが対応して設定されている。この図1の例は、現時点の集中度のレベルが「高」で、父親が対象となっていることを示している。
【0036】
次に、図1、図2及び図3を参照して本実施の形態の動作について詳細に説明する。
【0037】
先ず、図1及び図2を参照して話者が発話したときの動作を説明する。話者が発話をすると、マイクロフォンアレイ等の音声入力部10を介して入力された音声情報は、それぞれ話者位置特定部11、話者照合部12、音声認識部13へ出力される。話者位置特定部11では、入力された音声情報を分析し話者の音源方向の特定を行い、話者位置特定情報を集中度制御部14へ出力する。話者照合部12では、入力された音声情報を分析し、登録済みの話者の音声情報と照合し話者の特定を行い、照合話者情報を集中度制御部14へ出力する。音声認識部13では、入力された音声情報を分析し音声認識結果を集中度制御部14へ出力する。
【0038】
集中度制御部14では、入力される話者位置特定情報と照合話者情報とをもとに、照合話者の情報テーブル23の位置方向を更新する(図2、S20)。
【0039】
次に、集中度設定テーブル24に設定されている集中度が、集中した対話状態であるか否かを判定する(S21)。判定の結果、集中した対話状態を示すレベル「高」の場合は、照合された話者が、集中度設定テーブル24中の特定話者の識別名と一致するか否かを判定する(S22)。
【0040】
そして、一致しない場合は、入力された音声認識結果を棄却する(S23)。これに対して、一致する場合は、変移条件テーブル21を検索し、現在レベルが集中度設定テーブル24に設定されているレベルと一致し、且つ条件内容が音声認識結果と一致する条件を探す(S24)。なお、ステップS21でレベル「高」でないと判定された場合も、ステップS24の処理が行われる。
【0041】
ステップS24において、該当する条件を探し出すことができなかった場合は、ステップS26の処理を行う。これに対して該当する条件を探し出すことができた場合は、集中度設定テーブル24に設定されている集中度のレベルを、ステップS24で探し出した条件中の変移レベルに変更した後(S25)、ステップS26の処理を行う。ステップS26では、集中度設定テーブル24に設定されている特定話者の識別名を、話者照合部12で特定された話者の識別名に変更する処理が行われる。
【0042】
次に、話者への集中度制御部14は、集中度設定テーブル24と情報テーブル23とを参照し、特定話者の位置方向をマイクロフォンアレイ等の方向の設定情報として音声入力制御部15へ出力すると共に、定義テーブル22を参照し、現在の集中度のレベルに対応して定義されている、マイクロフォンアレイ等の指向性の設定情報を音声入力制御部15へ出力し(S27)、更に、音声認識結果と照合話者情報とを対話制御部17へ出力する(S28)。
【0043】
音声入力制御部15では、話者への集中度制御部14より入力されたマイクロフォンアレイ等の方向、指向性の設定情報をもとに、音声入力部10のマイクロフォンアレイ等の指特性や方向を調整する。
【0044】
対話制御部17では、話者への集中度制御部14より入力された音声認識結果と照合話者情報をもとに、次の応答する内容を決定し、音声合成部18に応答内容を出力する。
【0045】
音声合成部18では、入力された応答内容から合成音声を生成し、スピーカー等の音声出力部19を介して合成音声を出力する。
【0046】
次に、図1及び図3を参照して、他イベント管理部16が、予め定められているイベントの発生を検出した場合の動作を説明する。他イベント管理部16は、予め定められているイベントの発生を検出すると、発生したイベントの種類を集中度制御部14に通知する。
【0047】
これにより、集中度制御部14は、変移条件テーブル21を検索し、現在レベルが集中度設定テーブル24に設定されているレベルと一致し、且つ条件内容が通知されたイベントの種類と一致する条件を探す(図3、S31)。
【0048】
そして、ステップS31において該当する条件を探し出すことができなかった場合は、集中度制御部14は処理を終了する。これに対して、該当する条件を探し出すことができた場合は、集中度制御部14は、集中度設定テーブル24に設定されている集中度のレベルを、探し出した条件中の変移レベルに変更し(S32)、定義テーブル22を参照し、現在の集中度のレベルに対応して定義されている、マイクロフォンアレイ等の指向性の設定情報を音声入力制御部15へ出力し(S33)、その後、処理終了となる。
【0049】
次に、データベース20内の変移条件テーブル21および定義テーブル22の内容が図1に示すものであり、集中度設定テーブル24に集中度のレベルとしてあらゆる方向からの発話を捕捉できる集中度が発散した状態を表す「低」が設定されている場合を例に挙げて本実施の形態の動作を詳細に説明する。
【0050】
例えば、音声認識対話装置の背面、側面にそれぞれ父親、母親がいるような複数の話者が別の方向にいる状況下で、父親が「こんにちは」と発話したとする。
【0051】
この場合、集中度制御部14は、先ず、話者位置特定部11から入力される話者位置特定情報と、話者照合部12から入力される照合話者情報とに基づいて、情報テーブル23中の父親の位置方向を更新する(図2、S20)。その後、集中度制御部14は、変移条件テーブル21中の条件No5に従って、集中度設定テーブル24の集中度のレベルを「中」に変更し、更に、集中度の対象となる特定話者を「父親」に変更する(S21がNo、S24がYes、S25、S26)。その後、集中度制御部14は、定義テーブル22中の集中度のレベル「中」の定義内容に従って、音声入力部10の方向を特定話者である父親のいる背面方向に向けると共に指向性を−90度〜90度に調整する(S27)。更に、集中度制御部14は、ステップS28の処理を行い、これにより、父親が発話した「こんにちは」に対する応答が音声出力部19から出力される。
【0052】
その後、側面にいる母親が「元気?」と変移条件テーブル21の条件内容と一致しない発話を行った場合、集中度制御部14は、情報テーブル23中の母親の位置方向を更新し(S20)、更に、集中度設定テーブル24の集中度をレベル「中」の通常の対話状態を持続したまま、集中度の対象となる特定話者を「母親」に変更する(S21がNo、S24がNo、S26)。その後、集中度制御部14は、音声入力部10の方向を特定話者である母親のいる側面方向に向けると共に、指向性を−90度〜90度に調整する(S27)。更に、集中度制御部14はステップS28の処理を行い、これにより母親が発話した「元気?」に対する応答が音声出力部19から出力される。
【0053】
その後、父親が「元気だよね」等と発話した場合は、集中度制御部14は、ステップS20で情報テーブル23中の父親の位置方向を更新し、ステップS26で集中度設定テーブル24中の集中度の対象となる特定話者を父親に変更し、ステップS27で音声入力部10の方向を、特定話者である父親のいる位置方向に変更する。このように、別の方向にいる父親と母親が代わる代わる音声認識対話装置を相手に対話を行うことができる。
【0054】
このような通常の対話状態中に、父親が音声認識対話装置を自分に集中させた状態で対話をしたいと考えた場合、「よく聞いて」と発話する。これにより、集中度制御部14は、ステップS20において情報テーブル23中の父親の位置方向を変更し、ステップS25において、変移条件テーブル21の条件No4に従って、集中度設定テーブル24の集中度のレベルを「高」に変移させ、ステップS26において、集中度の対象となる特定話者を「父親」に変更し、ステップS27において、音声入力部10の方向を特定話者である父親のいる位置方向に向けると共に指向性を−45度〜45度に調整する。この状況下で、父親が続けて対話を行えば、音声入力部10がまわりの関係のない人の発話や雑音をひろう確率も低減し父親の音声を捕捉しやすくなり音声認識率も向上する。このため、この状況下で母親が何か発話した場合でも、指向性の調整結果により音声入力部10が音声を捕捉する確率が低減する。仮に、音声入力部10が音声を捕捉したとしても話者照合部12で照合される話者は母親となり、現在の集中度設定テーブル24の集中度の対象となる特定話者の父親と一致しないため(S22がNo)、母親の発話内容の音声認識結果は棄却されることになる(S23)。
【0055】
次に、この状況下で、父親が、「昨日のことだけど」等と変移条件テーブル21の条件内容と一致しない発話を行った場合は、ステップS24の判断結果がNoとなるので、集中度設定テーブル24の集中度のレベルが「高」に保たれたままとなり、父親との集中した対話状態を持続される。
【0056】
次に、この状況下で、父親が、集中した対話状態を止めたいと考えた場合、父親は「もういいよ」と発話する。これにより、集中度制御部14は、ステップS25において、変移条件テーブル21中の条件No2に従って、集中度設定テーブル24の集中度のレベルを「低」に変移させ、ステップS27において、定義テーブル22の集中度のレベル「低」の定義内容に基づき、指向性を−180度〜180度に調整する。また、ステップS25において、集中度設定テーブル24中のレベルが「低」に変更されているので、次回から特定話者以外の音声認識結果も棄却されずに有効となる(S21がNo)。
【0057】
また仮に、現在の集中度設定テーブル24の集中度の対象となる特定話者である父親が、集中度のレベルを「高」にしたまま、即ち集中した対話状態にしたままその場を立ち去った場合でも、他イベント管理部16からの通知に基づいて、母親や他の話者が音声認識対話装置と対話を行えるようになる。
【0058】
即ち、他イベント管理部16は、集中度設定テーブル24に設定されている特定話者の発話がない時間が30秒続くというイベントを検出すると、上記イベントの種類を集中度制御部14に通知する。これにより、集中度制御部14は、変移条件テーブル21中の条件No7に基づいて、集中度設定テーブル24中の集中度のレベルを「中」に変更し(図3、S31がYes、S32)、その後、定義テーブル22中のレベル「中」の指向性に基づいて、音声入力制御部15に対して、音声入力部10の指向性−90度〜90度に調整することを指示する(S33)。
【0059】
さらに、集中度設定テーブル24に登録されている特定話者による発話がない時間が30秒続くと、他イベント管理部16は、再度上記イベントの種類を集中度制御部14に通知する。これにより、集中度制御部14は、変移条件テーブル21中の条件No6に基づいて、集中度設定テーブル24中の集中度のレベルを「低」とし(S31がYes、S32)、その後、定義テーブル22中のレベル「低」の指向性に基づいて音声入力制御部15に対して、音声入力部10の指向性を−180度〜180度に調整することを指示する(S33)。以上のように、発話がない時間が30秒続くと、集中度設定テーブル24中のレベルが「高」から「中」へ、或いは「中」から「低」へ変更されるので、特定話者である父親が集中度のレベルを「高」にしたまま、その場を立ち去っても、母親や他の話者が音声認識対話装置と対話することが可能になる。
【0060】
なお、他イベント管理部16は、例えば、次のようにして、集中度設定テーブル24に登録されている特定話者による発話がない時間が30秒続いたことを検出する。
【0061】
他イベント管理部16には、集中度制御部14からクリア信号と、カウント開始信号とが入力されている。クリア信号は、集中度制御部14が、集中度設定テーブル24に設定されている特定話者の発話開始を検出したときに出力する信号であり、カウント開始信号は、集中度制御部14が集中度設定テーブル24に設定されている特定話者の発話終了を検出したときに出力する信号である。他イベント管理部16は、その内部にカウンタを有しており、クリア信号が入力されると、カウンタのカウント値を「0」にすると共にカウント動作を停止し、カウント開始信号が入力されると、カウント動作を開始する。そして、カウント値が30秒に対応する値になると、集中度制御部14に対して発話のない時間が30秒続いたことを通知し、更に、カウント値を「0」にしてカウント動作を再開する。
【0062】
次に、例えば、音声認識対話装置の背面に父親と母親がいるような複数の話者が同じ方向にいる状況下において、父親が「こんにちは」と発話した場合の動作を説明する。なお、変移条件テーブル21、定義テーブル22の内容は図1に示すものであり、集中度設定テーブル24には、集中度のレベルとしてあらゆる方向からの発話を捕捉できる集中度が発散した状態を表す「低」が設定されているとする。
【0063】
父親が「こんにちは」と発話すると、集中度制御部14は、ステップS20において、情報テーブル23中の父親の位置方向を更新し、ステップS25において、変移条件テーブル21の条件No5に従って、集中度設定テーブル24中の集中度のレベルを「中」に変更し、ステップS26において集中度設定テーブル24に集中度の対象となる特定話者として「父親」を設定する。その後、集中度制御部14は、ステップS27において、定義テーブル22の集中度のレベル「中」の定義内容に基づいて、音声入力部10の方向を特定話者である父親のいる背面方向に調整すると共に、指向性を−90度〜90度に調整する。
【0064】
この状況下で、同じ方向にいる母親が「元気?」と発話した場合は、集中度制御部14は、集中度設定テーブル24の集中度をレベル「中」の通常の対話状態にしたまま、集中度の対象となる特定話者を母親に変更する(S24がNo、S26)。集中度設定テーブル24のレベルが「中」のままであるので、音声入力部10は同じ方向を向いたままとなる。この状況下で父親が「元気だよね」等と発話した場合は、現在の集中度設定テーブル24の集中度の対象となる特定話者が父親に変更されるというように、同じ方向にいる父親と母親とが音声認識対話装置と代わる代わる対話を行うことができる。
【0065】
このような対話中に、父親が音声認識対話装置を自分に集中させた状態で対話をしたいと考えた場合、父親は「よく聞いて」と発話する。これにより、集中度制御部14は、ステップS25において、変移条件テーブル21中の条件No4に従って、集中度設定テーブル24中の集中度のレベルが「高」に変更し、ステップS26において、集中度の対象となる特定話者を「父親」に変更する。この状況下で同じ方向にいる母親が何か発話した場合、音声入力部10で音声を捕捉するが話者照合部12で照合される話者は母親となり、現在の集中度設定テーブル24の集中度の対象となる特定話者の父親と一致しないため、母親の発話内容の音声認識結果は棄却されることになり(S21がYes、S22がNo、S23)、父親と集中して対話ができるようになる。また、集中度設定テーブル24の集中度のレベルが「高」の時は、集中度の定義テーブル22の集中度のレベル「高」の定義内容により指向性も−45度〜45度に調整されるため、音声入力部10が別の方向の関係のない人の発話や雑音をひろう確率も低減し父親の音声を捕捉しやすくなり音声認識率も向上する。
【0066】
次に、この状況下で、父親が、「昨日のことだけど」等と集中度の変移条件テーブル21の集中度の条件内容と一致しない発話を行った場合(S24がNo)は、集中度設定テーブル24の集中度のレベルを「高」にしたままの集中した対話状態を持続する。
【0067】
次に、この状況下で、父親が集中した対話状態を止めたいと考えた場合、父親は「もういいよ」と発話する。これにより、集中度制御部14は、ステップS25において、変移条件テーブル21中の条件No2に従って、集中度設定テーブル24中の集中度のレベルを「低」に変更し、ステップS27において音声入力部10の指向性を−180度〜180度に調整する。集中度設定テーブル24の集中度のレベルが、あらゆる方向からの発話も捕捉できる集中度が発散した状態を表す「低」となるので、次回から特定話者以外の音声認識結果も棄却されずに有効とされる(S21がNo)。
【0068】
また仮に、集中度設定テーブル24に識別名が設定されている特定話者である父親が、集中度のレベル「高」の集中した対話状態にしたままその場を立ち去った場合でも、図3の流れ図を用いて既に説明してあるように、発話がない時間が30秒続くと集中度の変移条件テーブル21の条件No7により、集中度設定テーブル24中の集中度のレベルが「中」に変移し、さらに発話がない時間が30秒続くと集中度の変移条件テーブル21の条件No6により、集中度設定テーブル24中の集中度のレベルが「低」に変移するため、母親や他の話者も音声認識対話装置と対話することが可能になる。
【0069】
次に本実施の形態の効果について説明する。
【0070】
本実施の形態では、複数の話者が別の方向や同じ方向にいる状況下で、話者への集中度制御部14で話者への集中度を制御することにより、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り換えを、対話の中で自然に行うことができる。
【0071】
また、特定の話者との対話中に、他の関係のない人の発話や雑音を拾ってしまう確率を対話の中で低減させることができる。
【0072】
【発明の他の実施例】
図4は、本発明の第2の実施の形態を示すブロック図である。図4を参照すると、本発明の第2の実施の形態は、図1に示された第1の実施の形態と、画像入力部40が追加されている点、話者位置特定部11の代わりに話者位置特定部41を備えている点、話者照合部12の代わりに話者照合部42を備えている点が相違している。なお、他の図1と同一符号は同一部分を表している。
【0073】
画像入力部40は、360度の範囲の画像情報を取り込む機能を有するものであり、例えば、複数台のCCDカメラ等により実現される。
【0074】
話者位置特定部41は、音声入力部10から入力される音声情報と、画像入力部40から入力される画像情報とに基づいて、発話した話者の方向を特定する機能を有する。
【0075】
話者照合部42は、音声入力部10からの音声情報と画像入力部40からの画像情報とに基づいて話者を特定する機能を有する。
【0076】
次に本実施の形態の動作について説明する。
【0077】
話者位置特定部41は、音声入力部10から音声情報が入力されると、先ず、音声情報に基づいて発話した話者の方向を特定する。その後、話者位置特定部41は、画像入力部40が入力した画像情報に基づいて、音声認識対話装置の周囲にいる全ての話者の方向を求める。その後、画像情報に基づいて求めた各話者の方向の内の、音声情報に基づいて求めた話者の方向に最も近い方向を発話した話者が存在する方向とし、その方向を集中度制御部14に出力する。
【0078】
話者照合部42は、音声入力部10から音声情報が入力されると、音声情報に基づいて発話した話者を特定する。更に、話者照合部42は、画像入力部40を解析し、口元が動いている話者を認識し、この話者の顔の画像と、予め登録されている複数の話者の顔画像とを照合することにより、発話した話者を特定する。音声情報により特定した話者と、画像情報により特定した話者とが一致する場合は、上記話者を示す照合話者情報を集中度制御部14に対して出力し、一致しない場合は、例えば、画像情報により特定した話者を示す照合話者情報を集中度制御部14に対して出力する。
【0079】
上記した動作以外は、第1の実施の形態と同様であるので、ここでは、説明を省略する。
【0080】
上述したように本実施の形態は、マイクロフォンアレイ等の音声入力部10に加え、カメラ等の画像入力部40を備えており、音声情報と画像情報の両方に基づいて、発話した話者の方向、発話した話者を認識しているので、認識精度を高いものにすることができる。
【0081】
図5は、本発明の第3の実施の形態を示すブロック図である。図5を参照すると、本発明の第3の実施の形態は、図1に示された第1の実施の形態の構成に音声モデルデータベース51を追加した点、音声認識部13の代わりに音声認識部52を備えた点、および集中度制御部14の代わりに集中度制御部53を備えた点で異なる。なお、他の図1と同一符号は、同一部分を表している。
【0082】
音声モデルデータベース51には、音声認識対話装置を使用する各話者それぞれの音声モデル、および標準音声モデルが登録されている。これらは、音声認識を行う際に使用される。
【0083】
集中度制御部53は、集中度制御部14が備えている機能に加え、集中度設定テーブル24に設定されている特定話者識別名を音声モデルデータベース51に設定する。
【0084】
音声認識部52は、音声認識を行う際、音声モデルデータベース51中の音声モデルの内、集中度制御部53によって設定されている特定話者識別名と対応する話者の音声モデルを使用して音声認識を行う。このようにすることにより、集中度の対象となる特定話者の音声認識率を向上させることができる効果がある。なお、特定話者識別名が「不明」となっている場合は、音声認識部52は、標準音声モデルを使用して音声認識を行う。
【0085】
図6は本発明に係る音声認識対話装置のハードウェア構成の一例を示すブロック図であり、コンピュータ61と、記録媒体62と、音声入力部63と、音声出力部64と、データベース65とから構成されている。音声入力部63、音声出力部64、データベース65は、それぞれ図1に示した音声入力部10、音声出力部19、データベース20に対応する。記録媒体62は、ディスク、半導体メモリ、その他の記録媒体であり、コンピュータ61を音声認識対話装置の一部として機能させるためのプログラムが記録されている。このプログラムは、コンピュータ61によって読み取られ、その動作を制御することで、コンピュータ61上に図1に示した話者位置特定部11、話者照合部12、音声認識部13、集中度制御部14、音声入力制御部15、他イベント管理部16、対話制御部17、音声合成部18を実現する。
【0086】
【発明の効果】
第1の効果は、複数の話者が音声認識対話装置のまわりにいる中で、特に、別の方向に複数の話者がいる場合でも、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り替えを、対話の中で自然に行えるということである。
【0087】
その理由は、話者の発話内容に応じて話者に対する集中度のレベルを決定し、集中度のレベルに応じて、マイクロフォンアレイ等の音声入力部の指向性や方向を調整させることができるためである。
【0088】
第2の効果は、複数の話者が音声認識対話装置のまわりにいる中で、特に、同じ方向に複数の話者がいる場合でも、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り替えを、対話の中で自然に行えるということである。
【0089】
その理由は、話者の発話内容に応じて話者に対する集中度のレベルを決定し、集中度のレベルに応じて、特定話者以外の話者の発話を無効にできるためである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成例を示すブロック図である。
【図2】話者位置特定部11、話者照合部12、音声認識部13から入力があったときの集中度制御部14の処理例を示す流れ図である。
【図3】他イベント管理部16から通知があったときの集中度制御部14の処理例を示す流れ図である。
【図4】本発明の第2の実施の形態の構成例を示すブロック図である。
【図5】本発明の第3の実施の形態の構成例を示すブロック図である。
【図6】音声認識対話装置のハードウェア構成の一例を示すブロック図である。
【図7】従来の技術を説明するためのブロック図である。
【符号の説明】
10 音声入力部
11 話者位置特定部
12 話者照合部
13 音声認識部
14 集中度制御部
15 音声入力制御部
16 他イベント管理部
17 話者制御部
18 音声合成部
19 音声出力部
20 データベース
21 変移条件テーブル
22 定義テーブル
23 情報テーブル
24 集中度設定テーブル
40 画像入力部
41 話者位置特定部
42 話者照合部
51 音声モデルデータベース
52 音声認識部
53 集中度制御部
61 コンピュータ
62 記録媒体
63 音声入力部
64 音声出力部
65 データベース
70 音声入力部
71 音声入力制御部
72 音声特徴ベクトル抽出部
73 音声認識部
74 認識結果表示部
75 画像情報入力部
76 画像情報解析部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition dialogue apparatus that outputs a response to a content spoken by a speaker, and particularly, when there are a plurality of speakers around the voice recognition dialogue apparatus, the dialogue is concentrated only on a specific speaker. The present invention relates to a speech recognition dialogue apparatus that can perform a dialogue or an alternative dialogue with a plurality of speakers.
[0002]
[Prior art]
In a speech recognition dialogue apparatus that outputs a response to a speaker's utterance by voice, it is necessary to recognize the utterance of the speaker at a high recognition rate. In order to increase the recognition rate, a speech recognition device has been conventionally proposed in which the influence of ambient noise and the like is reduced, and speech from a specific speaker is captured with good quality (for example, specially No. 2000-148184).
[0003]
FIG. 7 is a block diagram showing a configuration of a speech recognition apparatus described in Japanese Patent Laid-Open No. 2000-148184. Referring to FIG. 7, a voice information input unit 70 configured to vary directivity characteristics, sensitivity characteristics, and the like of a microphone array, a voice
[0004]
Subsequently, the operation of the speech recognition apparatus described in Japanese Patent Application Laid-Open No. 2000-148184 will be described. In FIG. 7, the image
[0005]
[Problems to be solved by the invention]
However, when the above-described conventional speech recognition apparatus is used for a speech recognition dialogue apparatus, the following problems occur.
[0006]
The first problem is that, while a plurality of speakers are around the speech recognition dialogue apparatus, it is not possible to carry out an alternative dialogue with a plurality of speakers in different directions.
[0007]
The reason is that in order to improve the speech recognition rate of a specific speaker, the sensitivity characteristics of the microphone and the directivity characteristics of the microphone are adjusted in the direction of the specific speaker, and the speaker in the other direction is adjusted. This is because it is difficult to capture the sound.
[0008]
The second problem is that, while a plurality of speakers are around the speech recognition dialogue apparatus, it is not possible to conduct a concentrated dialogue only with a specific speaker in the same direction.
[0009]
The reason is that the microphone sensitivity characteristics and microphone directivity characteristics are only adjusted in the direction of the speaker, so that voices spoken by other speakers from the same direction are also captured and recognized. .
[0010]
OBJECT OF THE INVENTION
It is an object of the present invention to have a plurality of speakers around a speech recognition dialogue apparatus, sometimes to concentrate on a conversation with a specific speaker, or sometimes to have an alternate dialogue with a plurality of speakers. The object of the present invention is to provide a speech recognition dialogue apparatus that can be switched naturally during dialogue.
[0011]
[Means for Solving the Problems]
The speech recognition dialogue apparatus according to the present invention manages a speaker to manage and control the degree of concentration on a speaker based on speaker position specifying information obtained by analyzing spoken speech information, collation speaker information, and a speech recognition result. 1 and 14 (FIG. 1) and the speaker concentration control unit (14 in FIG. 1) stores information necessary for determining the concentration, and is referred to and updated by the speaker. And a concentration management database (20 in FIG. 1).
[0012]
More specifically, the speech recognition dialogue apparatus of the present invention is
A voice input unit (10 in FIG. 1) for capturing voice information;
A speaker position specifying unit (11 in FIG. 1) for specifying the direction of the speaker who has spoken;
A speaker verification unit (12 in FIG. 1) for identifying a speaker who has spoken,
A voice recognition unit (13 in FIG. 1) that analyzes voice information input from the voice input unit (10 in FIG. 1) and recognizes a voice;
A degree-of-concentration setting table (24 in FIG. 1) in which a specific speaker identification name indicating a specific speaker and a concentration level for the specific speaker indicated by the specific speaker identification name are set;
It is determined whether or not to enable the speaker's speech based on the content of the concentration level setting table (24 in FIG. 1) and the speaker specified by the speaker verification unit (12 in FIG. 1). If determined to be valid, the level of concentration determined based on the recognition result of the voice recognition unit (13 in FIG. 1) for the utterance of the speaker and the speaker verification unit (12 in FIG. 1) The level and the specific speaker identification name in the concentration setting table (24 in FIG. 1) are updated using the identified speaker identification name, and the updated concentration setting table (24 in FIG. 1). Concentration control unit for controlling the directivity and direction of the voice input unit (10 in FIG. 1) based on the content of the speaker and the direction of the speaker specified by the speaker position specifying unit (11 in FIG. 1) (14 in FIG. 1),
And a voice output unit (19 in FIG. 1) that outputs a response to the recognition result of the utterance determined to be valid by the concentration control unit (14 in FIG. 1).
[0013]
Furthermore, the voice recognition dialogue apparatus of the present invention can change the concentration level of a specific speaker set in the concentration level setting table (24 in FIG. 1) when a predetermined event occurs.
Another event management unit (16 in FIG. 1) for detecting that a predetermined event has occurred, and
The concentration level control unit (14 in FIG. 1) is set in the concentration level setting table (24 in FIG. 1) when the occurrence of the predetermined event is detected by the other event management unit (16 in FIG. 1). It has a configuration for changing the level of concentration.
[0014]
More specifically,
The predetermined event is that there is no utterance for a predetermined time by a specific speaker whose specific speaker identification name is set in the concentration setting table (24 in FIG. 1); and
The concentration control unit (14 in FIG. 1) detects the occurrence of the predetermined event in the other event management unit (16 in FIG. 1), and sets it in the concentration setting table (24 in FIG. 1). When the level of concentration being made is high enough to enable only the utterance of the specific speaker indicated by the specific speaker identification name set in the concentration setting table (24 in FIG. 1), The concentration level set in the concentration level setting table (24 in FIG. 1) is lowered to a level that also enables speech by other speakers.
[0015]
[Action]
When talking with multiple speakers, control the concentration level on the speaker based on the preset concentration level change condition, and input a voice to a microphone array, etc., according to the concentration level. The directivity and direction of the unit (10 in FIG. 1) are adjusted. Further, the utterances of speakers other than the specific speaker are invalidated according to the level of concentration.
[0016]
If the concentration level for a specific speaker is determined based only on the utterance content of the specific speaker, if the specific speaker leaves the speech recognition dialogue device after making a speech that increases the concentration level, The state in which the speaker's speech is invalidated continues, and other speakers cannot interact with the speech recognition dialogue apparatus. Therefore, when the occurrence of a predetermined event (for example, a time during which there is no utterance by a specific speaker continues for a predetermined time) is detected in another event management unit (16 in FIG. 1), a concentration level control unit (14 in FIG. 1) However, the level of the concentration set in the concentration setting table (24 in FIG. 1) is lowered to a level at which utterances by other speakers are also effective. As a result, other speakers can also interact with the speech recognition dialogue apparatus.
[0017]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described in detail with reference to the drawings. Referring to FIG. 1, a first embodiment of a speech recognition dialogue apparatus according to the present invention includes a
[0018]
The
[0019]
The speaker
[0020]
The
[0021]
The
[0022]
The concentration
[0023]
More specifically, the concentration
[0024]
Whether or not to enable the utterance of the speaker specified by the verification speaker information based on the content of the concentration level setting table 24 and the verification speaker information (speaker identification name) from the
A function of rejecting the recognition result input from the
A function of passing the recognition result to the
If it is determined to be valid, the concentration level is determined based on the recognition result of the
The direction and directivity of the
[0025]
In addition, each table 21-24 in the
[0026]
The voice
[0027]
The other
[0028]
The
[0029]
The
[0030]
The
[0031]
The
[0032]
The change condition table 21 stores various conditions for changing the level of concentration with respect to a specific speaker. Each condition includes a condition content, a current concentration level (current level), and a concentration level to be changed (transition level). For example, the condition No. 1 indicates that the level is changed to “low” when “thank you” or “you are better” is spoken when the current concentration level is “medium”. Further, for example, Condition No. 7 indicates that the level is changed to “medium” when there is no utterance by a specific speaker for 30 seconds when the current concentration level is “high”.
[0033]
In the definition table 22, the contents of control performed by the concentration
[0034]
In the information table 23, the speaker identification name specified by the
[0035]
In the concentration level setting table 24, the level of the current concentration level and the identification name of the specific speaker as the target are set correspondingly. The example of FIG. 1 shows that the current concentration level is “high” and the father is the target.
[0036]
Next, the operation of the present embodiment will be described in detail with reference to FIG. 1, FIG. 2, and FIG.
[0037]
First, the operation when the speaker speaks will be described with reference to FIGS. When the speaker speaks, the voice information input via the
[0038]
The
[0039]
Next, it is determined whether or not the concentration level set in the concentration level setting table 24 is a concentrated conversation state (S21). As a result of the determination, if the level is “high” indicating the concentrated conversation state, it is determined whether or not the collated speaker matches the identification name of the specific speaker in the concentration level setting table 24 (S22). .
[0040]
If they do not match, the input speech recognition result is rejected (S23). On the other hand, if they match, the transition condition table 21 is searched to search for a condition where the current level matches the level set in the concentration setting table 24 and the condition content matches the voice recognition result ( S24). Even when it is determined in step S21 that the level is not “high”, the process of step S24 is performed.
[0041]
If the corresponding condition cannot be found in step S24, the process of step S26 is performed. On the other hand, if the corresponding condition can be found, after changing the concentration level set in the concentration setting table 24 to the transition level in the condition found in step S24 (S25), The process of step S26 is performed. In step S <b> 26, a process of changing the identification name of the specific speaker set in the concentration level setting table 24 to the identification name of the speaker specified by the
[0042]
Next, the speaker
[0043]
The voice
[0044]
The
[0045]
The
[0046]
Next, the operation when the other
[0047]
As a result, the concentration
[0048]
If the corresponding condition cannot be found in step S31, the concentration
[0049]
Next, the contents of the transition condition table 21 and the definition table 22 in the
[0050]
For example, the back of the speech recognition dialogue apparatus, father respectively to the side, in a situation where a plurality of speakers, such as there are mothers in a different direction, father and utters "Hello".
[0051]
In this case, the concentration
[0052]
After that, when the mother on the side makes an utterance that does not match the condition contents of the transition condition table 21 with “How are you?”, The
[0053]
Thereafter, when the father speaks “I'm fine” or the like, the
[0054]
In such a normal dialogue state, when the father wants to talk in a state where the speech recognition dialogue device is concentrated on himself / herself, he / she utters “Please listen carefully”. Thereby, the
[0055]
Next, in this situation, if the father makes an utterance that does not match the condition content of the transition condition table 21 such as “but yesterday”, the determination result in step S24 is No, so the concentration level setting is performed. The level of concentration on the table 24 remains “high”, and the concentrated conversation state with the father is maintained.
[0056]
Next, under this circumstance, if the father wants to stop the concentrated conversation, he speaks "I'm fine". Thereby, the
[0057]
Also, suppose that the father who is the specific speaker who is the target of concentration in the current concentration setting table 24 leaves the place with the concentration level set to “high”, that is, in a concentrated conversation state. Even in this case, based on the notification from the other
[0058]
That is, the other
[0059]
Furthermore, if the time when there is no utterance by the specific speaker registered in the concentration level setting table 24 continues for 30 seconds, the other
[0060]
Note that the other
[0061]
A clear signal and a count start signal are input from the concentration
[0062]
Then, for example, in a situation where a plurality of speakers like being father and mother to the back of the speech recognition dialogue system are in the same direction, for explaining the operation when the father utters "Hello". The contents of the transition condition table 21 and the definition table 22 are as shown in FIG. 1, and the concentration setting table 24 represents a state in which the concentration that can capture utterances from all directions is scattered as the concentration level. Assume that “low” is set.
[0063]
If father utters "Hello", the degree of
[0064]
In this situation, when the mother in the same direction speaks “How are you?”, The concentration
[0065]
During such a dialogue, if the father wants to talk with the voice recognition dialogue device concentrated on himself, the father speaks “Please listen carefully”. As a result, the concentration
[0066]
Next, in this situation, if the father makes an utterance that does not match the condition content of the concentration level in the concentration level transition condition table 21 such as “but yesterday” (No in S24), the concentration level setting is performed. The concentrated conversation state is maintained with the level of concentration of the table 24 being “high”.
[0067]
Next, under this circumstance, if the father wants to stop the conversational state in which the father is concentrated, the father speaks "I'm fine". As a result, the
[0068]
Further, even if a father who is a specific speaker whose identification name is set in the concentration level setting table 24 leaves the place in a concentrated conversation state with a high level of concentration level, FIG. As already described with reference to the flowchart, if the time when there is no speech continues for 30 seconds, the concentration level in the concentration setting table 24 changes to “medium” due to the condition No. 7 in the concentration change condition table 21. However, if the time when there is no further utterance continues for 30 seconds, the concentration level in the concentration level setting table 24 changes to “low” due to the condition No. 6 in the concentration level change condition table 21, so that the mother and other speakers Can also interact with the speech recognition dialogue device.
[0069]
Next, the effect of this embodiment will be described.
[0070]
In the present embodiment, in a situation where a plurality of speakers are in different directions or in the same direction, the concentration level on the speaker is controlled by the concentration
[0071]
In addition, the probability of picking up utterances and noises of other unrelated people during a dialogue with a specific speaker can be reduced during the dialogue.
[0072]
Other Embodiments of the Invention
FIG. 4 is a block diagram showing a second embodiment of the present invention. Referring to FIG. 4, the second embodiment of the present invention is different from the first embodiment shown in FIG. 1 in that an
[0073]
The
[0074]
The speaker
[0075]
The
[0076]
Next, the operation of the present embodiment will be described.
[0077]
When the voice information is input from the
[0078]
When voice information is input from the
[0079]
Since operations other than those described above are the same as those in the first embodiment, description thereof is omitted here.
[0080]
As described above, the present embodiment includes the
[0081]
FIG. 5 is a block diagram showing a third embodiment of the present invention. Referring to FIG. 5, in the third embodiment of the present invention, a
[0082]
In the
[0083]
The concentration
[0084]
When performing speech recognition, the speech recognition unit 52 uses the speech model of the speaker corresponding to the specific speaker identification name set by the concentration
[0085]
FIG. 6 is a block diagram showing an example of a hardware configuration of the speech recognition dialogue apparatus according to the present invention, which is composed of a
[0086]
【The invention's effect】
The first effect is that when multiple speakers are around the speech recognition dialogue device, particularly when there are multiple speakers in different directions, sometimes the conversation is concentrated only with a specific speaker. However, sometimes it is possible to switch naturally, such as having an alternative dialogue with multiple speakers.
[0087]
The reason is that the level of concentration with respect to the speaker can be determined according to the content of the speaker's utterance, and the directivity and direction of the voice input unit such as a microphone array can be adjusted according to the level of concentration. It is.
[0088]
The second effect is that when there are multiple speakers around the speech recognition dialogue device, especially when there are multiple speakers in the same direction, sometimes the conversation is concentrated only on a specific speaker. In other words, it is possible to switch naturally, such as having a dialogue with multiple speakers.
[0089]
The reason is that the level of the degree of concentration on the speaker is determined according to the content of the speaker's utterance, and the utterances of speakers other than the specific speaker can be invalidated according to the level of concentration.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration example of a first exemplary embodiment of the present invention.
FIG. 2 is a flowchart showing a processing example of a
FIG. 3 is a flowchart showing a processing example of the concentration
FIG. 4 is a block diagram showing a configuration example of a second embodiment of the present invention.
FIG. 5 is a block diagram showing a configuration example of a third embodiment of the present invention.
FIG. 6 is a block diagram illustrating an example of a hardware configuration of a speech recognition dialogue apparatus.
FIG. 7 is a block diagram for explaining a conventional technique.
[Explanation of symbols]
10 Voice input part
11 Speaker position identification part
12 Speaker verification section
13 Voice recognition unit
14 Concentration control unit
15 Voice input control unit
16 Other Event Management Department
17 Speaker control unit
18 Speech synthesis unit
19 Audio output unit
20 database
21 Transition condition table
22 Definition table
23 Information table
24 Concentration setting table
40 Image input section
41 Speaker position identification part
42 Speaker verification
51 Voice model database
52 Voice recognition unit
53 Concentration control unit
61 computers
62 Recording media
63 Voice input part
64 Audio output unit
65 database
70 Voice input part
71 Voice input control unit
72 Speech feature vector extraction unit
73 Voice recognition unit
74 Recognition result display
75 Image information input section
76 Image Information Analysis Department
Claims (12)
発話した話者の方向を特定する話者位置特定部と、
発話した話者を特定する話者照合部と、
音声入力部から入力される音声情報を分析し、音声を認識する音声認識部と、
話者への集中度を制御する話者への集中度制御部と、
集中度のレベルにあわせて、音声入力部の入力状態を調整する音声入力制御部と、
話者への集中度制御部が集中度を制御する際に必要な情報を格納し参照および更新が行われる話者及び集中度管理のデータベースとを備えたことを特徴とする音声認識対話装置。An audio input unit for capturing audio information;
A speaker position specifying unit for specifying the direction of the speaker who has spoken,
A speaker verification unit that identifies the speaker who spoke,
A voice recognition unit that analyzes voice information input from the voice input unit and recognizes voice;
A speaker concentration control unit that controls the speaker concentration;
A voice input control unit that adjusts the input state of the voice input unit according to the level of concentration,
A speech recognition dialogue apparatus comprising: a speaker that stores information necessary for a concentration level control unit for a speaker to control the concentration level, and is referred to and updated, and a concentration level management database.
発話した話者の方向を特定する話者位置特定部と、
発話した話者を特定する話者照合部と、
前記音声入力部から入力される音声情報を分析し、音声を認識する音声認識部と、
特定話者を示す特定話者識別名と、該特定話者識別名によって示される特定話者に対する集中度のレベルとが設定される集中度設定テーブルと、
該集中度設定テーブルの内容と前記話者照合部で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部の認識結果に基づいて決定した集中度のレベルと前記話者照合部で特定された話者の識別名とを用いて前記集中度設定テーブル中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブルの内容と前記話者位置特定部で特定された話者の方向とに基づいて、前記音声入力部の指向性及び方向を制御する集中度制御部と、
該集中度制御部で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部とを備えたことを特徴とする音声認識対話装置。An audio input unit for capturing audio information;
A speaker position specifying unit for specifying the direction of the speaker who has spoken,
A speaker verification unit that identifies the speaker who spoke,
A voice recognition unit that analyzes voice information input from the voice input unit and recognizes voice;
A concentration level setting table in which a specific speaker identification name indicating a specific speaker and a concentration level for the specific speaker indicated by the specific speaker identification name are set;
It is determined whether to enable the speaker's speech based on the content of the concentration level setting table and the speaker specified by the speaker verification unit. The level in the concentration setting table and the specific speaker using the level of concentration determined based on the recognition result of the voice recognition unit for the utterance of the voice and the identification name of the speaker specified by the speaker verification unit Concentration level for updating the identification name and controlling the directivity and direction of the voice input unit based on the content of the updated concentration level setting table and the direction of the speaker specified by the speaker position specifying unit A control unit;
A voice recognition dialogue apparatus comprising: a voice output unit that outputs a response to a speech recognition result determined to be valid by the concentration level control unit.
所定のイベントが発生したことを検出する他イベント管理部を備え、且つ、
前記集中度制御部が、前記他イベント管理部によって前記所定のイベントの発生が検出されたとき、前記集中度設定テーブルに設定されている集中度のレベルを変更する構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to claim 2,
Another event management unit for detecting that a predetermined event has occurred, and
The concentration control unit is configured to change a concentration level set in the concentration setting table when the occurrence of the predetermined event is detected by the other event management unit. Speech recognition dialogue device.
前記所定のイベントが、前記集中度設定テーブルに特定話者識別名が設定されている特定話者による発話が所定時間なかったことであり、且つ、
前記集中度制御部が、前記他イベント管理部で前記所定のイベントの発生が検出され、且つ、前記集中度設定テーブルに設定されている集中度のレベルが、該集中度設定テーブルに設定されている特定話者識別名によって示される特定話者の発話のみを有効にするほど高いものである場合、前記集中度設定テーブルに設定されている集中度のレベルを、他の話者による発話も有効にするレベルまで下げる構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to claim 3,
The predetermined event is that there is no utterance for a predetermined time by a specific speaker whose specific speaker identification name is set in the concentration setting table; and
The concentration control unit detects the occurrence of the predetermined event in the other event management unit, and the concentration level set in the concentration setting table is set in the concentration setting table. If the utterance of a specific speaker indicated by a specific speaker identifier is high enough to enable the utterance by another speaker, the level of concentration set in the concentration setting table is also effective. A speech recognition dialogue apparatus, characterized by having a configuration that is lowered to a level to achieve.
前記音声入力部が、指向性を可変できるマイクロフォンアレイから構成されることを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to any one of claims 1 to 4,
The voice recognition dialogue apparatus, wherein the voice input unit is composed of a microphone array that can change directivity.
前記話者位置特定部が、前記音声入力部が入力した音声情報に基づいて発話した話者の方向を特定する構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to any one of claims 1 to 5,
The speech recognition interactive apparatus characterized in that the speaker position specifying unit specifies a direction of a speaker who speaks based on voice information input by the voice input unit.
前記話者照合部が、前記音声入力部が入力した音声情報に基づいて発話した話者を特定する構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to any one of claims 1 to 6,
The speech recognition dialogue apparatus, wherein the speaker verification unit has a configuration for identifying a speaker who has spoken based on voice information input by the voice input unit.
画像情報を取り込む画像入力部を備え、且つ、
前記話者位置特定部が、前記音声入力部が入力した音声情報と前記画像入力部が入力した画像情報とに基づいて発話した話者の方向を特定する構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to any one of claims 1 to 5,
An image input unit for capturing image information; and
The speech recognition characterized in that the speaker position specifying unit specifies a direction of a speaker who speaks based on voice information input by the voice input unit and image information input by the image input unit. Interactive device.
画像情報を取り込む画像入力部を備え、且つ、
前記話者照合部が、前記音声入力部が入力した音声情報と前記画像入力部が入力した画像情報とに基づいて発話した話者を特定する構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to any one of claims 1 to 5,
An image input unit for capturing image information; and
The speech recognition dialogue apparatus characterized in that the speaker verification unit has a configuration for identifying a speaker who speaks based on voice information input by the voice input unit and image information input by the image input unit.
複数の話者それぞれの音声モデルが登録された音声モデルデータベースを備え、
前記音声認識部が、前記音声モデルデータベースに登録されている各話者の音声モデルの内、前記集中度設定テーブルに特定話者識別子が設定されている特定話者の音声モデルを使用して音声認識を行う構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to any one of claims 1 to 5,
It has a voice model database in which the voice models of multiple speakers are registered,
The voice recognition unit uses the voice model of a specific speaker whose specific speaker identifier is set in the concentration setting table among the voice models of each speaker registered in the voice model database. A speech recognition dialogue apparatus having a configuration for performing recognition.
前記話者及び集中度管理のデータベースは、
話者への集中度のレベルが変移する条件内容を格納した集中度の変移条件テーブルと、
集中度のレベル毎の、マイクロフォンアレイ等の指向性や方向等を定義した集中度の定義テーブルと、
話者が発話したことにより照合される話者とその位置情報を格納する照合話者の情報テーブルと、
現在設定されている集中度のレベルとその対象となる話者情報を格納する現在の集中度設定テーブルとを備え、
話者への集中度を制御するための必要な情報を参照および更新できる構成を有することを特徴とする音声認識対話装置。The speech recognition dialogue apparatus according to claim 1.
The speaker and concentration management database is:
A concentration condition transition condition table storing condition contents for changing the level of concentration on the speaker;
A concentration level definition table that defines the directivity and direction of the microphone array, etc. for each level of concentration level,
An information table for a speaker to be collated when the speaker speaks and a collation speaker information table for storing the position information;
A current concentration level setting table for storing the currently set concentration level and the target speaker information;
A speech recognition dialogue apparatus having a configuration capable of referring to and updating necessary information for controlling the degree of concentration on a speaker.
前記コンピュータを、
発話した話者の方向を特定する話者位置特定部、
発話した話者を特定する話者照合部、
前記音声入力部から入力される音声情報を分析し、音声を認識する音声認識部、
特定話者を示す特定話者識別名および該特定話者識別名によって示される特定話者に対する集中度のレベルが設定される集中度設定テーブルの内容と前記話者照合部で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部の認識結果に基づいて決定した集中度のレベルと前記話者照合部で特定された話者の識別名とを用いて前記集中度設定テーブル中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブルの内容と前記話者位置特定部で特定された話者の方向とに基づいて、前記音声入力部の指向性及び方向を制御する集中度制御部、
該集中度制御部で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部として機能させるためのプログラム。A program for causing a computer equipped with a voice input unit for capturing voice information to function as a voice recognition dialogue apparatus,
The computer,
A speaker position specifying unit for specifying the direction of the speaker who has spoken,
Speaker verification unit that identifies the speaker who spoke,
A voice recognition unit that analyzes voice information input from the voice input unit and recognizes a voice;
The specific speaker identification name indicating the specific speaker and the content of the concentration level setting table in which the level of the concentration level for the specific speaker indicated by the specific speaker identification name is set, and the speaker specified by the speaker verification unit Whether or not to enable the speaker's utterance based on the level of concentration determined based on the recognition result of the voice recognition unit for the speaker's utterance And the speaker identification name specified by the speaker verification unit, the level and the specific speaker identification name in the concentration setting table are updated, and the content of the updated concentration setting table and the talk are updated. A concentration control unit that controls the directivity and direction of the voice input unit based on the direction of the speaker specified by the speaker position specifying unit;
A program for functioning as a voice output unit that outputs a response to a recognition result of an utterance determined to be valid by the concentration level control unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002158985A JP3838159B2 (en) | 2002-05-31 | 2002-05-31 | Speech recognition dialogue apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002158985A JP3838159B2 (en) | 2002-05-31 | 2002-05-31 | Speech recognition dialogue apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004004239A JP2004004239A (en) | 2004-01-08 |
JP3838159B2 true JP3838159B2 (en) | 2006-10-25 |
Family
ID=30428952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002158985A Expired - Fee Related JP3838159B2 (en) | 2002-05-31 | 2002-05-31 | Speech recognition dialogue apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3838159B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102020102468B3 (en) | 2020-01-31 | 2021-08-05 | Robidia GmbH | Method for controlling a display device and display device for dynamic display of a predefined text |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005354223A (en) * | 2004-06-08 | 2005-12-22 | Toshiba Corp | Sound source information processing apparatus, sound source information processing method, and sound source information processing program |
JP2007318438A (en) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | Voice state data generating device, voice state visualizing device, voice state data editing device, voice data reproducing device, and voice communication system |
JP5154363B2 (en) * | 2008-10-24 | 2013-02-27 | クラリオン株式会社 | Car interior voice dialogue system |
KR102339297B1 (en) * | 2008-11-10 | 2021-12-14 | 구글 엘엘씨 | Multisensory speech detection |
KR20170044386A (en) * | 2015-10-15 | 2017-04-25 | 삼성전자주식회사 | Electronic device and control method thereof |
JP2018129678A (en) * | 2017-02-08 | 2018-08-16 | レノボ・シンガポール・プライベート・リミテッド | Information processing apparatus, method of using microphone, program to be executed by computer |
US11250844B2 (en) | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
JP7279710B2 (en) * | 2018-04-16 | 2023-05-23 | ソニーグループ株式会社 | SIGNAL PROCESSING APPARATUS AND METHOD, AND PROGRAM |
CN111314821A (en) * | 2018-12-12 | 2020-06-19 | 深圳市冠旭电子股份有限公司 | Intelligent sound box playing method and device and intelligent sound box |
JP2020181016A (en) * | 2019-04-23 | 2020-11-05 | コニカミノルタ株式会社 | Information processing system, information processing device, terminal device, and program |
-
2002
- 2002-05-31 JP JP2002158985A patent/JP3838159B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102020102468B3 (en) | 2020-01-31 | 2021-08-05 | Robidia GmbH | Method for controlling a display device and display device for dynamic display of a predefined text |
Also Published As
Publication number | Publication date |
---|---|
JP2004004239A (en) | 2004-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
JP7536789B2 (en) | Customized output to optimize for user preferences in distributed systems | |
US10515640B2 (en) | Generating dialogue based on verification scores | |
US9324322B1 (en) | Automatic volume attenuation for speech enabled devices | |
EP3412014B1 (en) | Liveness determination based on sensor signals | |
US8589167B2 (en) | Speaker liveness detection | |
WO2019002831A1 (en) | Detection of replay attack | |
JP2014153663A (en) | Voice recognition device, voice recognition method and program | |
US11790900B2 (en) | System and method for audio-visual multi-speaker speech separation with location-based selection | |
JP6562790B2 (en) | Dialogue device and dialogue program | |
JP2012186622A (en) | Information processing apparatus, information processing method, and program | |
US11626104B2 (en) | User speech profile management | |
CN112509598B (en) | Audio detection method and device and storage medium | |
JP3838159B2 (en) | Speech recognition dialogue apparatus and program | |
TW200809768A (en) | Method of driving a speech recognition system | |
US20180158462A1 (en) | Speaker identification | |
JP2019028465A (en) | Speaker verification method and speech recognition system | |
WO2019207912A1 (en) | Information processing device and information processing method | |
Thermos et al. | Audio-visual speech activity detection in a two-speaker scenario incorporating depth information from a profile or frontal view | |
KR101809511B1 (en) | Apparatus and method for age group recognition of speaker | |
WO2021099760A1 (en) | Detection of live speech | |
JP2001296891A (en) | Method and device for voice recognition | |
JP2001067098A (en) | Person detecting method and device equipped with person detecting function | |
JP7573197B2 (en) | Sound collection device and sound collection method | |
JP7511374B2 (en) | Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060724 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090811 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100811 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110811 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110811 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120811 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130811 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |