JP2007155986A

JP2007155986A - 音声認識装置および音声認識装置を備えたロボット

Info

Publication number: JP2007155986A
Application number: JP2005349118A
Authority: JP
Inventors: Ryota Hiura; 亮太日浦; Ken Onishi; 献大西; Keiichiro Osada; 啓一郎長田; Kyoko Oshima; 京子大嶋
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2005-12-02
Filing date: 2005-12-02
Publication date: 2007-06-21

Abstract

【課題】音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる音声認識装置および音声認識装置を備えたロボットを提供する。
【解決手段】会話の台詞を組み立てる制御部５３と、台詞に基づいて出力音声信号を生成する音声合成部５５と、出力音声信号に基づいて出力音声を出力するスピーカ１８と、ユーザ音声を少なくとも含む音声を入力信号に変換するマイクロフォン１４と、入力信号から出力音声に係る信号成分を除去して入力音声信号を生成する出力音声除去部５７と、入力音声信号に基づいてユーザ音声を認識し、認識結果を制御部５３に出力する音声認識部５９とを備え、制御部５３，６１が、台詞に基づいて、音声認識部５９によるユーザ音声の認識開始のタイミングを、出力音声の出力開始から所定時間後、かつ、出力音声の出力終了前に制御することを特徴とする。
【選択図】図３

Description

本発明は、音声認識装置および音声認識装置を備えたロボットに関する。

近年のコンピュータ技術の発達により、コンピュータを応用したロボットが開発されている。このようなロボットとしては、製造現場等で用いられる産業用ロボットだけでなく、子供の面倒をみるロボットなど、人と密接な関わりを持つロボットも含まれている（例えば、特許文献１参照）。
人と密接な関わりを持つロボットに対して、人が指示を与える方法には種々のものが挙げられるが、その一つとして音声対話による方法が挙げられる。

ロボットを相手に行う音声対話においては、人の指示、ロボットの応答、人の指示、ロボットの応答、と順々に確認を繰り返す方法が一般的である。例えば、電話のようなハンドセットやヘッドセットを用いないロボットのようなシステムにおいては、ロボットの発話終了後から音声認識を開始するのが一般的である。ロボットが発話している途中から音声認識を開始すると、ロボット自身の発話を認識してしまう可能性があるからである。
しかしながら、人は、ロボットの発話が終了してから間をあけずに、または、発話が終了しないうちに話しかける傾向がある。特に、同じ会話シナリオを体験した経験のある人の場合は、上記傾向が顕著に現れる。このようにロボットが音声認識を開始する前に人が話しかけると、ロボットは人の話の最初の部分を認識できないため、人の話を正確に認識できなくなるという問題があった。

上述の問題を解決するものとして、ロボットが音声認識を開始したことを人に知らせるシステムが一般的に知られている。
例えば、ロボットの音声認識開始のタイミングを、ロボットの耳部に設けたランプを点灯させることにより、人に伝えるシステムが知られている。また、ロボットの発話終了後に短いビープ音を鳴らすことで、人の発話を促すシステムも知られている。
これらのシステムを用いることにより、ロボットが人の話を最初から認識できるという一定の効果を得ることができる。しかしながら、これらのシステムを用いると、人は、ロボットが指定したタイミングを守って話しをすることになる。このように、話しをするタイミングを制約されると、人はストレスを感じることがある。

そのため、人の上記傾向に対応することにより、人の話を正確に認識するとともに、人にストレスを感じさせない様々な音声認識装置が提案されている（例えば、特許文献２および３参照。）。
特開２００５−３０５６３１号公報（第８−１１頁）特開２００３−３４５３９０号公報（第３頁、第１図）特開２００４−３３３５４３号公報（第８−９頁、第１図）

上述の特許文献２においては、傾きを検出する傾きセンサと、傾きセンサの出力に基づいてユーザが入力しようとしていることを検出する入力準備検出手段と、音声入力の開始時に押されるプレストークボタンと、音声を一時的に記憶するバッファメモリと、音声信号の認識処理を行う音声認識処理手段と、を備えた音声処理装置の構成が開示されている。
この構成によれば、ユーザがプレストークボタンを押すために、音声処理装置を手に取ったことを傾きセンサにより検出し、入力準備検出手段が音声入力の準備を指示する。すると、ユーザがプレストークボタンを押す前から、音声信号がバッファメモリに記憶される。その後、プレストークボタンが押されると、音声認識処理手段はバッファメモリに記憶された音声信号の認識を開始する。
このように、プレストークボタンが押される前に記憶された音声信号も、音声認識処理手段により認識処理されるため、人の話を最初から認識することができると記載されている。
しかしながら、上述の特許文献２記載の音声処理装置においては、音声認識処理手段により音声認識を開始させるために、プレストークボタンを押す必要があり、人にストレスを感じさせる恐れがあった。

上述の特許文献３においては、システム側音声を出力する音声出力部と、ユーザ音声を音声信号に変換するマイクロフォンと、ユーザ音声を認識する音声認識部と、ユーザの音声対話の習熟度を判定する習熟度判定部と、システム側音声の出力を変更する音声出力変更部と、マイクロフォンから入力された音声信号から、音声出力部が出力したシステム側音声の出力相当信号分を相関演算して除去する音声応答除去部と、を備えた音声対話システムの構成が開示されている。
この構成によれば、音声応答除去部を備えているため、音声対話システムが音声応答を出力しているときであっても、ユーザからの音声を認識できると記載されている。
しかしながら、このような音声応答除去部（例えば、アコースティックエコーキャンセラー、以下ＡＥＣと表記する。）においては、その処理の性質として、環境での音の反射が複雑な場合や、他の雑音や、ひずみなどの要因により、システム側音声の除去は完全に行えない恐れがあった。
また、音声出力部からシステム側音声を出力した直後においては、音声応答除去部におけるシステム側音声の除去処理が収束しておらず、ユーザからの音声の認識性能が低下する恐れがあった。

例えば、システム側音声を完全に除去できなかった場合に、システム側音声を出力している最中も音声認識を行うと、システム側音声をユーザの音声と誤認識する恐れがあった。そのため、音声対話システムが、ユーザの発話を待たずに、自らのシステム側音声を誤認識する恐れもあった。
また、音声応答除去部がシステム側音声を完全に除去できる場合でも、システム側音声の出力当初から音声認識を行うと、システム側音声の出力当初に外来雑音（システム側音声およびユーザの音声以外の音）が発生した場合、この外来雑音をユーザの音声と誤認識する恐れがあった。
このような誤認識を行うと、音声対話システムは誤認識に基づいて会話を進めるため、正確な内容の会話をテンポよく行うことができないという問題があった。

本発明は、上記の課題を解決するためになされたものであって、音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる音声認識装置および音声認識装置を備えたロボットを提供することを目的とする。

上記目的を達成するために、本発明は、以下の手段を提供する。
本発明の音声認識装置は、会話の台詞を組み立てる制御部と、組み立てられた台詞に基づいて出力音声信号を生成する音声合成部と、生成された出力音声信号に基づいて出力音声を出力するスピーカと、ユーザが発声したユーザ音声を少なくとも含む音声を入力信号に変換するマイクロフォンと、前記出力音声信号に基づいて、前記入力信号から前記出力音声に係る信号成分を除去して入力音声信号を生成する出力音声除去部と、入力音声信号に基づいて前記ユーザ音声を認識し、認識結果を前記制御部に出力する音声認識部と、を備え、前記制御部が、前記台詞に基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを、前記出力音声の出力開始から所定時間後、かつ、前記出力音声の出力終了前に制御することを特徴とする。

本発明によれば、制御部がユーザ音声の認識開始のタイミングを、台詞に基づいて出力音声の出力開始後、かつ、出力終了前に制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングが、制御部によりユーザ音声出力終了前に制御されるため、出力音声の出力終了前からユーザ音声の認識を開始することができる。そのため、ユーザが出力音声の出力終了直後、または、出力音声の出力中に話しても、音声認識装置はユーザの音声を最初から認識でき、音声認識の頭切れを防止することができるとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングを台詞に基づいて制御するため、台詞の長さが変化しても、必ず、出力音声の出力終了前にユーザ音声の認識を開始することができる。
ユーザ音声の認識開始のタイミングが出力音声の出力開始から所定時間後であるため、出力音声除去部の処理が安定した状態においてユーザ音声の認識を行うことができる。出力音声の出力開始直後は、出力音声除去部の処理が不安定であり、かかる状態ではユーザ音声の誤認識が発生する恐れがある。上述のように、ユーザ音声の認識開始のタイミングを音声出力の出力開始から所定時間後にすることで、ユーザ音声の誤認識を防止してテンポのよい会話を実現することができる。
出力音声の出力開始直後においては、ユーザの発話内容が、出力音声に係る台詞に対して有効でない回答の可能性が高い。そのため、ユーザ音声の認識開始のタイミングを出力音声の出力開始から所定時間後とすることで、上記有効でない回答の音声認識を防止して、テンポのよい会話を実現することができる。

上記発明においては、前記出力音声信号に基づいて、前記台詞に係る前記出力音声の発話時間の長さを算出する発話時間算出部を備え、前記制御部が、前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することが望ましい。

本発明によれば、発話時間算出部により算出された発話時間の長さに基づいて、制御部がユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止するとともに、テンポのよい会話を実現することができる。
発話時間算出部は、スピーカに入力される出力音声信号に基づいて、発話時間の長さを算出しているため、実際にスピーカから出力される出力音声の発話時間の長さを算出することができる。制御部は、算出された発話時間の長さに基づいて、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止することができる。
例えば、台詞の一部に個人名やニックネームなどが含まれ、会話により台詞の一部が変更される場合であっても、発話時間算出部は、変更後の台詞に係る出力音声信号に基づいて、発話時間の長さを算出することができる。そのため、音声認識装置は、ユーザ音声認識の頭切れを確実に防止することができる。

上記発明においては、前記台詞に係る前記出力音声の発話時間の長さを、予め記憶する記憶部を備え、前記制御部が、前記記憶部に記憶された前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することが望ましい。

本発明によれば、記憶部に台詞に係る出力音声の発話時間の長さが予め記憶され、制御部が、記憶された発話時間の長さに基づいて、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止するとともに、テンポのよい会話を実現することができる。
例えば、スピーカに入力される出力音声信号に基づいて、発話時間の長さを逐一算出する場合と比較して、発話時間を算出する必要がないため、発話時における演算負荷の低減を図ることができる。また、発話時間算出部を用いる必要がなくなるため、音声認識装置の構成を簡略化することができる。

上記発明においては、前記制御部が、前記発話時間から所定長さの遅延時間を引いた開始時間を算出し、前記出力音声の出力開始から前記開始時間経過した時点で、前記音声認識部に前記ユーザ音声の認識を開始させることが望ましい。

本発明によれば、出力音声の出力開始から、開始時間を経過した時点で、ユーザ音声の認識を開始するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
開始時間は、発話時間から所定長さの遅延時間を引くことにより算出されるため、制御部は、ユーザ音声の認識開始を所定のタイミングに制御することができる。
例えば、前記所定のタイミングを、ユーザが発話する直前になるように制御することで、音声認識装置におけるユーザ音声の誤認識を防止できる。つまり、音声の認識開始からユーザが発話するまでの間隔を短くすることで、その間隔の間に外来音が発生する確率を低くできる。そのため、音声認識装置が、上記外来音をユーザ音声と誤認識することを防止することができる。
なお、遅延時間の長さは、零よりも長く、かつ、発話時間の長さよりも短いことが望ましい。

上記発明においては、前記制御部が、前記遅延時間の長さを変更することにより、
前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することが望ましい。

本発明によれば、制御部が遅延時間の長さを変更することにより、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
遅延時間の長さを変更することにより、発話時間から遅延時間を引いて求められる開始時間の長さを変更することができる。そのため、ユーザ音声の認識開始のタイミングを変更することができる。

上記発明においては、前記制御部が、前記台詞を構成する文に基づいて、前記音声認識部における前記ユーザ音声の認識開始のタイミングを制御することが望ましい。

本発明によれば、台詞を構成する文に基づいて、制御部がユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
例えば、台詞が複数の文から構成されている場合には、ユーザ音声の認識開始のタイミングと、２番目以後の文に係る出力音声を出力するタイミングのうちのいずれかのタイミングとを合わせることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。つまり、ユーザは最初の文に係る出力音声について発話せずに聞き、２番目以後の文に係る出力音声については途中から発話する傾向がある。そのため、２番目以後の文に係る出力音声を出力するタイミングのうちのいずれかのタイミングと、に合わせてユーザ音声の認識を開始することで、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
例えば、ユーザ音声の認識開始のタイミングを、出力音声の出力開始からの時間で制御する場合と比較して、台詞の構成に応じて、ユーザ音声の認識開始のタイミングをきめ細かく制御を行うことができるので、ユーザ音声認識の頭切れをより確実に防止するとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングの制御に、発話時間の長さを用いないため、発話時間の長さを算出しにくい場合、または、発話時間の長さを算出するのに時間がかかる場合に、容易にユーザ音声の認識開始のタイミングを制御することができる。

また、台詞を構成する文には、ユーザから話しかけられる可能性が低い文と、話しかけられる可能性が高い文とがある。そこで、例えば、制御部は、ユーザから話しかけられる可能性の高い文に係る出力音声を出力開始する時点からユーザ音声の認識を開始するように制御してもよい。あるいは、台詞が、ユーザから話しかけられる可能性が低い文から、話しかけられる可能性が高い文に変わった時点から、ユーザ音声の認識を開始するように制御してもよい。このようにすることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ユーザから話しかけられる可能性が低い文としては、ユーザに対する呼びかけや、ユーザからの指示の復唱などの文が挙げられる。ユーザから話しかけられる可能性が高い文としては、ユーザに対する指示の要求する文などが挙げられる。なお、ここで述べる文とは、一定の形式と方法で単語を並べたものである。

本発明の音声認識装置を備えたロボットは、ユーザの音声を認識する音声認識装置を備えたロボットであって、前記音声認識装置が、請求項１から請求項７のいずれかに記載の音声認識装置であることを特徴とする。

本発明によれば、音声認識装置を備えたロボットが、上記本発明の音声認識装置を用いることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。

本発明の音声認識装置および音声認識装置を備えたロボットによれば、制御部がユーザ音声の認識開始のタイミングを、台詞に基づいて出力音声の出力開始後、かつ、出力終了前に制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができるという効果を奏する。

以下に、本発明に係るロボットの一実施形態について、図面を参照して説明する。
〔第１の実施形態〕
図１は、本発明の第１の実施形態に係るロボットの正面図、図２は、図１に示した生活支援ロボットの左側面図である。
図１および図２に示すように、生活支援ロボットの本体１は、頭部２と、この頭部２を下方から支持する胸部３と、この胸部３の右側に設けられた右腕部４ａ、胸部３の左側に設けられた左腕部４ｂと、胸部３の下方に接続された腰部５と、この腰部５の下方に接続されたスカート部６と、このスカート部６の下方に接続された脚部７とを備えている。

頭部２には、頭頂部近傍に全方位カメラ１１が一つ設けられている。この全方位カメラ１１の外周に沿って複数の赤外線ＬＥＤ１２が所定の間隔で円環上に配置されている。
頭部２の前面の中央近傍には、図１に示すように、前方を撮像するための前方カメラ１３が正面視して右側に一つ、マイクロフォン１４が正面視して左側に一つ、それぞれ設けられている。

胸部３の前面の中央近傍には、モニタ１５が一つ設けられている。このモニタ１５の上方には、人を検知するための超音波距離センサ１６が一つ設けられている。モニタ１５の下方には、電源スイッチ１７が一つ設けられている。超音波距離センサ１６の上方には、２つのスピーカ１８が左右に一つずつ設けられている。また、図２に示すように、胸部３の背面には、荷物を収納することができるランドセル部３３が設けられている。ランドセル部３３には、上部に設けたヒンジ周りに回動可能な開閉扉３３ａが設けられている。図１に示すように、胸部３の左右の肩部には、タッチセンサ１９がそれぞれ一つずつ設けられている。

右腕部４ａおよび左腕部４ｂには、多関節構造が採用されている。右腕部４ａ、左腕部４ｂにおいて、胸部３との接続部近傍には、体や物の挟み込みを検知して腕の動作を止めるための脇スイッチ２０がそれぞれ設けられている。図１に示すように、右腕部４ａの手のひら部分には、マンマシンインターフェースとして機能する握手スイッチ２１が内蔵されている。これら脇スイッチ２０や握手スイッチ２１には、例えば、押圧センサが採用される。

腰部５の前面の中央近傍には、人を検知するための超音波距離センサ２２が左右に一つずつ設けられている。これら超音波距離センサ２２の下方には、複数の赤外センサ２３を配列されたセンサ領域２４が設けられている。これら赤外線センサ２２は、ロボット本体１の下方前方にある障害物等を検出するためのものである。図１および図２に示すように、腰部５の下方には、前面および背面において、音源方向を検出するためのマイクロフォン２５が左右に一つずつ、計４つ設けられている。図２に示すように、腰部５の側面の左右には、本体を持ち上げるときに使用する取手部２６がそれぞれ一つずつ設けられている。取手部２６は、凹所とされており、操作者の手が挿入できるようになっている。

スカート部６の前面下方には、段差を検出するための赤外線センサ２７が、中央および左右に計３つ設けられている。図２に示すように、スカート部６の背面には、充電コネクタ２８が設けられている。

図１に示すように、脚部７の前面には、側方の距離を検出するための赤外線センサ２９が左右に一つずつ設けられている。これら赤外線センサ２９は、主に段差検出に用いられるものである。
図２に示すように、脚部７の背面には、充電スタンドにロボット本体１を位置固定するためのフック３０が設けられている。脚部７は、走行用車輪３１および４つのボールキャスタ３２を備えた台車とされている。

上述したロボットにおいて、上記頭部２の顔表情は図示しない駆動機構により可変となっている。また、頭部２と胸部３との間の首関節や、胸部３と右腕部４ａ間、胸部３と左腕部４ｂ間の肩関節、右腕部４ａ、左腕部４ｂ内の肘関節、手首関節等が図示しない駆動機構により駆動可能であるとともに、脚部７に装備された走行用車輪３１が図示しない駆動機構により駆動されることにより、自動操舵および自動走行が可能な構成となっている。

また、本実施形態に係るロボットは、作業空間をロボット本体に内蔵されたバッテリからの電源供給により自立的に移動するように構成されており、一般家庭等の屋内を作業空間として人間と共存し、例えば、一般家庭内でロボットの所有者や操作者などのユーザの生活を補助・支援・介護するために用いられる。そのため、ロボット１は、ユーザとの会話を実現させる会話機能のほか、ユーザの行動を見守ったり、ユーザの行動を補助したり、ユーザと一緒に行動したりする機能を備えている。このような機能は、例えば、ロボット１の本体の内部に内蔵されたマイクロコンピュータ等からなる制御装置により実現されるものである。制御装置には、図１および図２に示した各種カメラや各種センサ等が接続されており、カメラからの画像情報やセンサからのセンサ検出情報を取得し、これらの情報に基づいて各種プログラムを実行することにより、上述した各種機能を実現させる。
なお、ロボット本体１の形状としては、図１および図２に示した形状に限られず、愛玩用に動物を模したものなど、種々のものを採用することが可能である。

次に、本発明の特徴部分である音声認識機能について説明する。本実施形態に係るロボットの音声認識機能は、上述した制御装置内に設けられた音声認識装置により実現されるものである。図３に本実施形態に係る音声認識装置の機能ブロック図を示す。
音声認識装置５１は、図３に示すように、ユーザとの会話に用いる台詞を生成する会話シナリオ実行部（制御部）５３と、台詞に基づいて出力音声信号を生成する音声合成部５５と、出力音声信号に基づいて出力音声を出力するスピーカ１８と、少なくともユーザの音声を含む音を入力信号に変換するマイクロフォン１４と、入力信号から入力音声信号を生成するアコースティックエコーキャンセラー（以下、ＡＥＣと表記する。）（出力音声除去部）５７と、入力音声信号に基づいてユーザ音声を認識する音声認識部５９と、音声認識部５９の認識開始を指示する遅延制御部（制御部）６１と、台詞に係る出力音声の発話時間長さを算出する発話時間算出部６３と、ユーザの会話の習熟度を判定する習熟度判定部６５とを備えている。

会話シナリオ実行部５３は、ユーザとの会話のシナリオを選択するとともに、選択したシナリオに基づいて台詞を生成するものである。会話シナリオ実行部５３は、ユーザの習熟度を判定する習熟度判定部６５と、判定した習熟度などを記憶する記憶部６７とを備えている。また、会話シナリオ実行部５３は、音声合成部５５および遅延制御部６１に電気信号を出力するように音声合成部５５および遅延制御部６１と接続されている。また、会話シナリオ実行部５３は、音声認識部５９から電気信号が入力されるように音声認識部５９と接続されている。
習熟度判定部６５は、ユーザの会話の習熟度を判定するものであり、会話シナリオ実行部５３内に設けられている。会話シナリオ実行部５３は、習熟度判定部６５の出力に基づいて、遅延時間の長さＤを変更している。習熟度の判定には、例えば、上述のロボットの電源が入れられてか経過した日数や、同じ内容のシナリオを繰り返した回数などが用いられている。
音声合成部５５は、会話シナリオ実行部５３が生成した台詞に基づいて出力音声信号を生成するものである。音声合成部５５は、会話シナリオ実行部５３から電気信号が入力されるように会話シナリオ実行部５３と接続されている。また、音声合成部５５は、スピーカ１８とＡＥＣ５７と発話時間算出部６３とに電気信号を出力するようにスピーカ１８、ＡＥＣ５７および発話時間算出部６３と接続されている。

スピーカ１８は、入力される出力音声信号に基づいて、出力音声を、例えば、ユーザに対して出力するものである。スピーカ１８は音声合成部５５から電気信号が入力されるように音声合成部５５と接続されている。なお、スピーカ１８としては、公知のスピーカを用いることができ、特に限定するものではない。
マイクロフォン１４は、ユーザの発話を含めたマイクロフォン１４に入力した音を、電気信号である入力信号に変換するものである。マイクロフォン１４は、ＡＥＣ５７に電気信号が出力されるようにＡＥＣ５７と接続されている。なお、マイクロフォン１４としては、公知のマイクロフォンを用いることができ、特に限定するものではない。

ＡＥＣ５７は、音声合成部５５から入力された出力音声信号と、マイクロフォン１４から入力された入力信号とを相関演算することにより、入力信号からスピーカ１８から出力された出力音声に相当する信号を除去して入力音声信号を算出するものである。ＡＥＣ５７は、音声合成部５５から電気信号が入力されるように音声合成部５５と接続されている。また、ＡＥＣ５７は、音声認識部５９に電気信号が出力されるように音声認識部５９と接続されている。
音声認識部５９はユーザの発話を認識するものである。具体的には、ＡＥＣ５７から入力される入力音声信号と、音声認識辞書とのマッチングを行うことで、ユーザの発話を認識するものである。音声認識部５９は、会話シナリオ実行部５３に電気信号を出力するように会話シナリオ実行部５３と接続されている。また、音声認識部５９は、ＡＥＣ５７および遅延制御部６１とから電気信号が入力されるようにＡＥＣ５７および遅延制御部６１と接続されている。

遅延制御部６１は、音声認識部５９における音声認識開始のタイミングを指示するものである。遅延制御部６１は、会話シナリオ実行部５３および発話時間算出部６３から電気信号が入力されるように会話シナリオ実行部５３および発話時間算出部６３と接続されている。また、遅延制御部６１は、音声認識部５９から電気信号が入力されるように音声認識部５９と接続されている。
具体的には、遅延制御部６１は、まず、音声合成部５５が算出した発話時間の長さＸと、会話シナリオ実行部５３が算出した遅延時間の長さＤとに基づいて、音声認識の開始時間（Ｘ−Ｄ）を算出している。その後、遅延制御部６１は、出力音声の出力開始から開始時間（Ｘ−Ｄ）経過した時点で、音声認識部５９に対して、音声認識開始の信号を出力する。

次に、上述の構成からなる生活支援ロボットとユーザとの間の会話における、音声認識装置５１の働きを説明する。
まず、本実施形態における生活支援ロボットとユーザとの間の会話の流れを説明する。
図４は、図３の音声認識装置とユーザとの間の会話の流れを説明する模式図である。図４において、横軸は時間を表し、図中のＳＰが生活支援ロボットの発話期間を表し、ＲＣが、生活支援ロボットが音声を認識している期間を表している。
ユーザとの間で会話を行っていない場合には、図４に示すように、生活支援ロボットの音声認識部５９は音声を認識し続け（Ａ）、ユーザからの音声による指示の入力を待っている。
この状態において、ユーザから音声による指示が入力されると、音声認識装置５１は音声の認識を中断し（Ｂ）、入力された指示に対する台詞を発話する（ＳＰ）。音声認識装置５１は、発話の開始時から所定時間（Ｘ−Ｄ）が経過した時点（Ｃ）で、再び、音声の認識（ＲＣ）を開始して、ユーザの音声入力を認識し始める。ユーザの音声入力が終了した等の理由により、所定レベル以上の大きさの音声入力が一定期間ない状態が続くと、音声認識装置５１は音声認識を区切り、音声認識の結果に基づき次の処理を行う。
このようにして、生活支援ロボットとユーザとの間で会話が交互に繰り返されるキャッチボール型の会話がなされる。

次に、上述のキャッチボール型の会話が行われている際の、音声認識装置５１の働きについて説明する。
生活支援ロボットがユーザから音声による指示の入力が待っている状態から、ユーザから音声による入力指示が入力されると、図３に示すように、音声認識装置５１の会話シナリオ実行部５３は、音声認識部５９に対して音声認識を停止する停止信号を出力する。同時に、会話シナリオ実行部５３は、ユーザからの指示入力に応じた会話シナリオを組み立て、組み立てたシナリオに基づいた台詞を生成する。あるいは、会話シナリオ実行部５３に備えられた記憶部６７の認識辞書に記憶された台詞を呼び出す。このとき、生成または呼び出される台詞には、生活支援ロボットが出力する音声に係る台詞のほかに、生活支援ロボットの音声に対してユーザが回答すると予想されるユーザに係る台詞も含まれている。
例えば、ユーザからの入力指示が「伝言」の場合、会話シナリオ実行部５３が組み立てる会話シナリオのうち、ロボットに係る台詞は、「伝言を伝えます。誰に伝えますか。」となる。また、ユーザに係る台詞は、「Ａさん」、「Ｂさん」など、伝言する相手の名前となる。

さらに、会話シナリオ実行部５３は、習熟度判定部６５が判定したユーザの習熟度に基づいて、遅延時間の長さＤを算出する。ユーザの習熟度は、予め習熟度判定部６５が判定したものであって、記憶部６７に記憶されたものが用いられる。例えば、習熟度判定部６５は、ロボットの電源が入れられてから経過した日数が長くなると、ユーザの習熟度は高くなったと判定して、遅延時間の長さＤを長くする信号を生成する。あるいは、同じ内容のシナリオの繰り返し回数が増えると、ユーザの習熟度は高くなったと判定して、遅延時間の長さＤを長くする信号を生成する。
会話シナリオ実行部５３は、ロボットに係る台詞の信号を音声合成部５５に出力し、音声認識部５９に対する音声認識開始信号、ユーザに係る台詞の信号および遅延時間の長さＤの信号を遅延制御部６１に出力する。
ロボットに係る台詞の信号が入力された音声合成部５５は、スピーカ１８に対して出力する出力音声信号を生成する。出力音声信号は、ロボットに係る台詞に対応した波形を有する信号である。出力音声信号は、発話時間算出部６３とＡＥＣ５７とスピーカ１８とに向けて出力される。
スピーカ１８は、入力された出力音声信号に基づいて、ユーザに対してロボットに係る台詞を出力音声として出力する。

一方、発話時間算出部６３は、入力された出力音声信号に基づいて、スピーカ１８から実際に出力される出力音声の発話時間の長さＸを算出する。例えば、出力音声信号のバイト数をカウントして、割り算することにより発話時間の長さＸを求めることができる。なお、発話時間の長さＸの算出方法は、公知の方法を用いることができ、特に限定されるものではない。発話時間の長さＸが算出されると、発話時間算出部６３から発話時間の長さＸに係る信号が遅延制御部６１に出力される。
遅延制御部６１は、入力された発話時間の長さＸの信号と、遅延時間の長さＤの信号とに基づいて、開始時間の長さを算出する。具体的には、発話時間の長さＸから遅延時間の長さＤを引いた値（Ｘ−Ｄ）が開始時間の長さとなる。開始時間の長さ（Ｘ−Ｄ）とは、スピーカ１８から出力音声が出力されたときから、音声認識部５９における音声認識が開始されるまでの時間をいう。開始時間の長さ（Ｘ−Ｄ）が算出されると、遅延制御部６１は時間の計測を開始し、開始時間の長さ（Ｘ−Ｄ）が経過した時点で、会話シナリオ実行部５３から入力されていた、音声認識部５９に対する音声認識開始の信号とユーザに係る台詞の信号とを音声認識部５９に出力する。

なお、延長時間の長さＤは、開始時間の長さ（Ｘ−Ｄ）が、ＡＥＣ５７における処理が安定するのに要する時間以上となるように設定されることが望ましい。
このように設定することにより、ＡＥＣ５７の処理が安定した状態から音声認識を開始することができ、ユーザ音声の誤認識を防止することができる。ＡＥＣ５７の処理が安定するとは、入力信号から出力音声信号に相当する信号成分を除去する処理が安定することをいう。この処理が安定することで、出力音声信号が取り除かれた入力音声信号を安定して算出することができる。

また、遅延時間の長さＤの取りうる範囲は、零以上、発話時間の長さＸ以下とすることが望ましい。つまり、遅延時間の長さＤが零の場合は、開始時間の長さ（Ｘ−Ｄ）が発話時間の長さＸと等しくなり、発話時間の終了と同時に音声認識が開始される。また、遅延時間の長さＤが発話時間の長さＸと等しい場合には、開始時間の長さ（Ｘ−Ｄ）は零となり、発話時間の開始とともに音声認識が開始される。

一方、マイクロフォン１４は、マイクロフォン１４に入力された音を電気信号である入力信号に変換し、ＡＥＣ５７を介して音声認識部５９に出力している。入力信号は、マイクロフォン１４に入力された音の波形に対応した波形をもつ電気信号であり、ユーザの音声や、スピーカ１８から出力された音声や、その他の外来雑音の成分も含まれる信号である。
ＡＥＣ５７は、入力された入力信号と出力音声信号とに基づいて、入力信号から出力音声信号に相当する信号成分を除去し、入力音声信号が生成される。具体的には、入力信号と出力音声信号との相関関数を求め、求めた相関関数に基づいて入力信号から出力音声信号に相当する信号成分が除去されている。なお、ＡＥＣ５７としては、公知のエコーキャンセラーを用いることができ、特に限定するものではない。
また、ＡＥＣ５７に出力音声信号が入力されていない場合には、入力信号が処理されずにそのまま音声認識部５９に出力される。
なお、上述のマイクロフォン１４およびＡＥＣ５７は会話シナリオ実行部５３から出力される音声認識開始の信号の有無に関わらず、常に処理が行われている。

音声認識部５９は、遅延制御部６１から入力される認識開始の信号に基づいて、ＡＥＣ５７から入力される入力音声信号の認識を行う。具体的には、認識開始の信号とともに入力されるユーザに係る台詞の信号と、入力音声信号とのマッチングを行い、入力音声信号がユーザに係る台詞の信号と一致するか否かを判定している。
音声認識部５９は、ユーザからの音声入力が所定期間ない場合には、音声認識を区切り、判定結果を会話シナリオ実行部５３に出力する。会話シナリオ実行部５３は、判定結果に基づいて次の会話シナリオを組み立てる。以降、上述の処理が繰り返される。
例えば、ロボットに係る台詞が、「伝言を伝えます。誰に伝えますか。」の場合、ユーザが「Ａさん」と応えると、音声認識部５９においてマッチングが行われ、ユーザが「Ａさん」と応えたと認識、判定される。会話シナリオ実行部５３はこの判定に基づいて、次の会話シナリオを組み立てる。
なお、音声認識部５９は、ユーザからの音声が所定期間入力されない場合に、音声認識を区切り、判定結果を会話シナリオ実行部５３に出力してもよいし、音声認識を終了してもよい。ユーザからの音声が所定期間入力されない場合としては、所定レベル以上の音声が一定時間、入力されなかった場合を挙げることができる。

また、音声認識部５９における判定で、ユーザが応えた内容が有効でない判定された場合には、会話シナリオ実行部５３は、生活支援ロボットにおける機能のガイダンスする内容のシナリオを選択する。会話シナリオ実行部５３が、ガイダンスに係るシナリオを選択する場合としては、ユーザの音声入力が適切な入力でなかった場合や、生活支援ロボットからの問いかけに対して、ユーザが有効な回答をしなかった場合などを挙げることができる。
図５は、図３の音声認識装置がガイダンスを行う場合の会話の流れを説明する模式図である。
生活支援ロボットの音声認識装置５１がガイダンスを行う場合、図５に示すように、ガイダンスに係る台詞の発話（ＳＰ）と同時に、音声認識部５９は音声の認識（ＲＣ）を開始する。
この場合、会話シナリオ実行部５３は、図３に示すように、発話時間の長さＸと等しい延長時間の長さＤの信号を遅延制御部６１に出力し、ガイダンスに係る台詞の信号を音声合成部５５に出力する。音声合成部５５は、入力されたガイダンスに係る台詞に基づいて出力音声信号を生成し、スピーカ１８および発話時間算出部６３に出力する。一方、遅延制御部６１には発話時間の長さＸの信号が入力され、開始時間（Ｘ−Ｄ）が算出される。遅延制御部６１は、開始時間（Ｘ−Ｄ）の算出結果（零）に基づいて、すぐに音声認識部５９に音声認識開始の信号を出力する。

このように制御することにより、生活支援ロボットの音声認識装置５１がガイダンスを開始したとき、または、ガイダンス中にユーザが話しかけても、音声認識装置５１は、ユーザの発話を認識することができる。特に、ガイダンスは、ユーザからの音声入力に所定の空白期間があいた後に開始されているため、ユーザの発話時期と、ガイダンスの開始時期とが接近する可能性が高い。このような場合であっても、ガイダンスの開始時期と、音声の認識開始時期とが同時であるため、ユーザ音声認識の頭切れを防止することができる。

図６は、図３の音声認識装置とユーザとの会話の流れにおける他の例を説明する模式図である。
また、会話シナリオ実行部５３が組み立てるシナリオの内容によっては、生活支援ロボットがシナリオを発話し終わるまで、ユーザが発話しない場合もある。
かかる場合、生活支援ロボットの音声認識装置５１は、図６に示すように、ロボットに係る台詞の発話（ＳＰ）を行っている間は、音声認識部５９において音声の認識を行わない。ロボットに係る台詞の発話が終了すると、音声認識装置５１は、音声認識部５９において音声の認識（ＲＣ）をし始める。
この場合、会話シナリオ実行部５３は、図３に示すように、時間長さが零の延長時間の長さＤの信号を遅延制御部６１に出力し、ロボットに係る台詞の信号を音声合成部５５に出力する。音声合成部５５は、入力されたガイダンスに係る台詞に基づいて出力音声信号を生成し、スピーカ１８および発話時間算出部６３に出力する。一方、遅延制御部６１には発話時間の長さＸの信号が入力され、開始時間（Ｘ−Ｄ）が算出される。遅延制御部６１は、開始時間（Ｘ−Ｄ）の算出結果（Ｘ）に基づいて、ロボットに係る台詞の発話終了後に音声認識開始の信号を音声認識部５９に出力する。

このように制御することにより、音声認識部５９による音声の認識開始時期とユーザの発話開始時期との間隔を短くすることができ、音声認識装置５１におけるユーザ音声の誤認識を防止できる。つまり、音声の認識開始からユーザが発話するまでの間隔を短くすることで、その間隔の間に外来音が発生する確率を低くできる。そのため、音声認識装置５１が、上記外来音をユーザ音声と誤認識することを防止することができる。

上記の構成によれば、遅延制御部６１が、音声認識部５９におけるユーザ音声の認識開始のタイミングを、開始時間（Ｘ−Ｄ）に基づいて、出力音声の出力開始後、かつ、出力終了前に制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングが、遅延制御部６１によりユーザ音声出力終了前に制御されるため、出力音声の出力終了前からユーザ音声の認識を開始することができる。そのため、ユーザが出力音声の出力終了直後、または、出力音声の出力中に話しても、音声認識部５９はユーザの音声を最初から認識でき、音声認識の頭切れを防止することができるとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングが出力音声の出力開始から開始時間（Ｘ−Ｄ）後であるため、ＡＥＣ５７の処理が安定した状態においてユーザ音声の認識を行うことができる。出力音声の出力開始直後は、ＡＥＣ５７の処理が不安定であり、かかる状態ではユーザ音声の誤認識が発生する恐れがある。上述のように、ユーザ音声の認識開始のタイミングを音声出力の出力開始から開始時間（Ｘ−Ｄ）後にすることで、ユーザ音声の誤認識を防止してテンポのよい会話を実現することができる。
出力音声の出力開始直後においては、ユーザの発話内容が、出力音声に係る台詞に対して有効でない回答の可能性が高い。そのため、ユーザ音声の認識開始のタイミングを出力音声の出力開始から開始時間（Ｘ−Ｄ）後とすることで、上記有効でない回答の音声認識を防止して、テンポのよい会話を実現することができる。

開始時間の長さ（Ｘ−Ｄ）は、発話時間の長さＸから遅延時間の長さＤを引くことにより算出されるため、遅延制御部６１は、ユーザ音声の認識開始を所定のタイミングに制御することができる。
開始時間の長さ（Ｘ−Ｄ）を定めるパラメータには、台詞に係る発話時間の長さＸも含まれるため、台詞の長さが変化しても、上記台詞に係る出力音声の出力終了前に、必ずユーザ音声の認識を開始することができる。
ユーザ音声の認識開始のタイミングは、ユーザが発話する直前であることが望ましく、このようにすることで、音声認識装置５１におけるユーザ音声の誤認識を防止できる。つまり、音声の認識開始からユーザが発話するまでの間隔を短くすることで、その間隔の間に外来音が発生する確率を低くできる。そのため、音声認識装置５１が、上記外来音をユーザ音声と誤認識することを防止することができる。

発話時間の長さＸは、発話時間算出部６３において、スピーカに入力される出力音声信号に基づいて算出されるため、実際にスピーカから出力される出力音声の発話時間の長さＸを算出することができる。遅延制御部６１は、算出された発話時間の長さＸに基づいて、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止することができる。
例えば、台詞の一部に個人名やニックネームなどが含まれ、会話により台詞の一部が変更される場合であっても、発話時間算出部６３は、変更後の台詞に係る出力音声信号に基づいて、発話時間の長さＸを算出することができる。そのため、音声認識装置５１は、ユーザ音声認識の頭切れを確実に防止することができる。

なお、上述のように、習熟度判定部６５は、ロボットの電源が入れられてから経過した日数や、同じ内容のシナリオの繰り返し回数に基づいてユーザの習熟度を判定してもよいし、会話シナリオ実行部５３から台詞が出力されてから、音声認識部５９から音声認識結果が入力されるまでの時間を計測し、この時間に基づいてユーザの習熟度を判定してもよく、特に限定するものではない。
このようにして習熟度を判定することにより、ユーザの習熟度をより確実かつきめ細かく判定することができ、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。

なお、上述のように、発話時間算出部６３により逐一スピーカ１８から出力される出力音声の発話時間の長さを算出してもよいし、予め、所定の台詞を出力するときの発話時間の長さを計測し、計測した値を記憶部６７に所定の台詞と関連付けて記憶させておいてもよい。
このようにすることで、発話時間算出部６３による発話時間長さの算出を省略することができ、発話時における演算負荷の削減を図ることができる。また、発話時間算出部６３を用いる必要がなくなるため、音声認識装置の構成を簡略化することができる。

〔第２の実施の形態〕
次に、本発明の第２の実施形態について図７および図８を参照して説明する。
本実施形態の生活支援ロボットの基本構成は、第１の実施形態と同様であるが、第１の実施形態とは、音声認識装置における発話のタイミングが異なっている。よって、本実施形態においては、図７および図８を用いて音声認識装置における発話のタイミングのみを説明し、生活支援ロボットの本体等の説明を省略する。
図７は、本実施形態に係る音声認識装置の機能を説明するブロック図である。
なお、第１の実施形態と同一の構成要素には、同一の符号を付してその説明を省略する。
音声認識装置１５１は、図７に示すように、ユーザとの会話に用いる台詞を生成する会話シナリオ実行部（制御部）１５３と、出力音声信号を生成する音声合成部５５と、出力音声を出力するスピーカ１８と、入力した音を入力信号に変換するマイクロフォン１４と、入力信号から入力音声信号を生成するＡＥＣ５７と、入力音声信号に基づいてユーザ音声を認識する音声認識部５９とを備えている。

会話シナリオ実行部１５３は、ユーザとの会話のシナリオを選択するとともに、選択したシナリオに基づいて複数の文から構成される台詞を生成するものである。また、会話シナリオ実行部１５３は、音声合成部５５および遅延制御部６１に電気信号を出力するように音声合成部５５および遅延制御部６１と接続されている。また、会話シナリオ実行部１５３は、音声認識部５９から電気信号が入力されるように音声認識部５９と接続されている。

次に、上述の構成からなる生活支援ロボットとユーザとの間の会話における、音声認識装置１５１の働きを説明する。
図８は、図７の音声認識装置とユーザとの間の会話の流れを説明する模式図である。図８において、横軸は時間を表し、図中のＳＰ１，ＳＰ２が生活支援ロボットの発話期間を表し、ＲＣが、生活支援ロボットが音声を認識している期間を表している。
ユーザから音声認識装置１５１に音声による指示が入力されると、音声認識装置１５１は、図８に示すように、入力された指示に対する台詞（例えば、第１文および第２文の２文から構成されるもの）を発話する（ＳＰ１，ＳＰ２）。ここで、ＳＰ１は、最初の第１文に係る発話を示すものであり、ＳＰ２は、次の第２文に係る発話を示すものである。
音声認識装置１５１は、最初の文に係る発話ＳＰ１を行っている間は、音声認識を行わず、２番目の文に係る発話ＳＰ２を開始すると同時に音声認識ＲＣを行う。

次に、上述のキャッチボール型の会話が行われている際の、音声認識装置１５１の働きについて説明する。
音声認識装置１５１の会話シナリオ実行部１５３は、図７に示すように、ユーザからの指示入力に応じた会話シナリオを組み立て、組み立てたシナリオに基づいた台詞（例えば、第１文および第２文の２文から構成されるもの）を生成する。
例えば、ユーザからの入力指示が「伝言」の場合、会話シナリオ実行部５３が組み立てる会話シナリオのうち、ロボットに係る台詞を、「伝言を伝えます。誰に伝えますか。」とすると、第１文は「伝言を伝えます。」、第２文は「誰に伝えますか。」となる。

会話シナリオ実行部１５３は、音声合成部５５に対して、第１文および第２文の信号を順に出力する。一方、会話シナリオ実行部１５３は、音声認識部５９に対して、音声認識開始の信号を第２文の信号にタイミングを合わせて出力する。
第１文および第２文の信号が入力された音声合成部５５は、スピーカ１８に対して出力する出力音声信号を生成する。出力音声信号は、ＡＥＣ５７とスピーカ１８とに向けて出力される。スピーカ１８は、入力された出力音声信号に基づいて、ユーザに対して第１文および第２文に係る台詞を出力音声として出力する。

音声認識部５９は、会話シナリオ実行部１５３から入力される音声認識の開始信号に基づいて、ＡＥＣ５７から入力される入力音声信号の認識を行う。ここで、音声認識の開始信号は、会話シナリオ実行部１５３から第２分の信号の出力と同時に出力されている。そのため、音声認識部５９における音声認識は、第２文に係る台詞がスピーカ１８から出力されるのと略同時に開始される。

上記の構成によれば、音声認識部５９におけるユーザ音声の認識を、第２文に係る出力音声がスピーカ１８から出力されるタイミングで開始するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
つまり、ユーザは第１文に係る出力音声について発話せずに聞き、第２文に係る出力音声については途中から発話する傾向がある。そのため、第２文に係る出力音声を出力するタイミングで、ユーザ音声の認識を開始することで、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。

上記の構成によれば、ユーザ音声の認識開始のタイミングを、出力音声の出力開始からの時間で制御する場合と比較して、台詞の構成に応じて、ユーザ音声の認識開始のタイミングをきめ細かく制御を行うことができるので、ユーザ音声認識の頭切れをより確実に防止するとともに、テンポのよい会話を実現することができる。
また、ユーザ音声の認識開始のタイミングの制御に、発話時間の長さを用いないため、発話時間の長さを算出しにくい場合、または、発話時間の長さを算出するのに時間がかかる場合に、容易にユーザ音声の認識開始のタイミングを制御することができる。

なお、上述のように、会話シナリオ実行部１５３により生成される台詞は、第１文および第２文の２文からなるものであってもよいし、さらに多くの文からなる台詞であってもよく、特に限定するものではない。この場合に、音声認識部５９における音声認識の開始は、第２文以後の音声出力の各タイミングのうちのいずれでもよく、特に限定するものではない。

なお、上述のように、台詞を構成する各文の並び順のみに基づいて音声認識部５９における音声認識を開始するタイミングを決定してもよいし、上記各文の内容に基づいて音声認識を開始するタイミングを決定してもよく、特に限定するものではない。
つまり、台詞を構成する文には、ユーザから話しかけられる可能性が低い文と、話しかけられる可能性が高い文とがある。そこで、会話シナリオ実行部１５３は、ユーザから話しかけられる可能性の高い文に係る出力音声を出力開始する時点からユーザ音声の認識を開始するように制御してもよい。あるいは、台詞が、ユーザから話しかけられる可能性が低い文から、話しかけられる可能性が高い文に変わった時点から、ユーザ音声の認識を開始するように制御してもよい。このようにすることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ここで、ユーザから話しかけられる可能性が低い文としては、ユーザに対する呼びかけや、ユーザからの指示の復唱などの文が挙げられる。ユーザから話しかけられる可能性が高い文としては、ユーザに対する指示の要求する文などが挙げられる。

なお、本発明の技術範囲は上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。
例えば、上記の実施の形態においては、この発明の音声認識装置を生活支援ロボットに適用して説明したが、この発明は生活支援ロボットに限られることなく、その他、人からの指示を音声で入力する機器に適用できるものである。

本発明の第１の実施形態に係るロボットの構成を説明する正面図である。図２は、図１に示した生活支援ロボットの構成を説明する左側面図である本実施形態に係る音声認識装置の機能を説明するブロック図である。図３の音声認識装置とユーザとの間の会話の流れを説明する模式図である。図３の音声認識装置がガイダンスを行う場合の会話の流れを説明する模式図である。図３の音声認識装置とユーザとの会話の流れにおける他の例を説明する模式図である。本発明の第２の実施形態に係る音声認識装置の機能を説明するブロック図である。図７の音声認識装置とユーザとの間の会話の流れを説明する模式図である。

符号の説明

１４マイクロフォン
１８スピーカ
５１，１５１音声認識装置
５３，１５３会話シナリオ実行部（制御部）
５５音声合成部
５７ＡＥＣ（出力音声除去部）
５９音声認識部
６１遅延制御部（制御部）
６３発話時間算出部
６７記憶部

Claims

会話の台詞を組み立てる制御部と、
組み立てられた台詞に基づいて出力音声信号を生成する音声合成部と、
生成された出力音声信号に基づいて出力音声を出力するスピーカと、
ユーザが発声したユーザ音声を少なくとも含む音声を入力信号に変換するマイクロフォンと、
前記出力音声信号に基づいて、前記入力信号から前記出力音声に係る信号成分を除去して入力音声信号を生成する出力音声除去部と、
入力音声信号に基づいて前記ユーザ音声を認識し、認識結果を前記制御部に出力する音声認識部と、を備え、
前記制御部が、前記台詞に基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを、前記出力音声の出力開始から所定時間後、かつ、前記出力音声の出力終了前に制御することを特徴とする音声認識装置。
前記出力音声信号に基づいて、前記台詞に係る前記出力音声の発話時間の長さを算出する発話時間算出部を備え、
前記制御部が、前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項１記載の音声認識装置。
前記台詞に係る前記出力音声の発話時間の長さを、予め記憶する記憶部を備え、
前記制御部が、前記記憶部に記憶された前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項１記載の音声認識装置。
前記制御部が、前記発話時間から所定長さの遅延時間を引いた開始時間を算出し、
前記出力音声の出力開始から前記開始時間経過した時点で、前記音声認識部に前記ユーザ音声の認識を開始させることを特徴とする請求項２または３に記載の音声認識装置。
前記制御部が、前記遅延時間の長さを変更することにより、
前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項４記載の音声認識装置。
前記制御部が、前記台詞を構成する文に基づいて、前記音声認識部における前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項１記載の音声認識装置。
ユーザの音声を認識する音声認識装置を備えたロボットであって、
前記音声認識装置が、請求項１から請求項７のいずれかに記載の音声認識装置であることを特徴とする音声認識装置を備えたロボット。