Nothing Special   »   [go: up one dir, main page]

JP2007155986A - 音声認識装置および音声認識装置を備えたロボット - Google Patents

音声認識装置および音声認識装置を備えたロボット Download PDF

Info

Publication number
JP2007155986A
JP2007155986A JP2005349118A JP2005349118A JP2007155986A JP 2007155986 A JP2007155986 A JP 2007155986A JP 2005349118 A JP2005349118 A JP 2005349118A JP 2005349118 A JP2005349118 A JP 2005349118A JP 2007155986 A JP2007155986 A JP 2007155986A
Authority
JP
Japan
Prior art keywords
voice
user
output
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005349118A
Other languages
English (en)
Inventor
Ryota Hiura
亮太 日浦
Ken Onishi
献 大西
Keiichiro Osada
啓一郎 長田
Kyoko Oshima
京子 大嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2005349118A priority Critical patent/JP2007155986A/ja
Publication of JP2007155986A publication Critical patent/JP2007155986A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Toys (AREA)
  • Manipulator (AREA)

Abstract

【課題】 音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる音声認識装置および音声認識装置を備えたロボットを提供する。
【解決手段】 会話の台詞を組み立てる制御部53と、台詞に基づいて出力音声信号を生成する音声合成部55と、出力音声信号に基づいて出力音声を出力するスピーカ18と、ユーザ音声を少なくとも含む音声を入力信号に変換するマイクロフォン14と、入力信号から出力音声に係る信号成分を除去して入力音声信号を生成する出力音声除去部57と、入力音声信号に基づいてユーザ音声を認識し、認識結果を制御部53に出力する音声認識部59とを備え、制御部53,61が、台詞に基づいて、音声認識部59によるユーザ音声の認識開始のタイミングを、出力音声の出力開始から所定時間後、かつ、出力音声の出力終了前に制御することを特徴とする。
【選択図】 図3

Description

本発明は、音声認識装置および音声認識装置を備えたロボットに関する。
近年のコンピュータ技術の発達により、コンピュータを応用したロボットが開発されている。このようなロボットとしては、製造現場等で用いられる産業用ロボットだけでなく、子供の面倒をみるロボットなど、人と密接な関わりを持つロボットも含まれている(例えば、特許文献1参照)。
人と密接な関わりを持つロボットに対して、人が指示を与える方法には種々のものが挙げられるが、その一つとして音声対話による方法が挙げられる。
ロボットを相手に行う音声対話においては、人の指示、ロボットの応答、人の指示、ロボットの応答、と順々に確認を繰り返す方法が一般的である。例えば、電話のようなハンドセットやヘッドセットを用いないロボットのようなシステムにおいては、ロボットの発話終了後から音声認識を開始するのが一般的である。ロボットが発話している途中から音声認識を開始すると、ロボット自身の発話を認識してしまう可能性があるからである。
しかしながら、人は、ロボットの発話が終了してから間をあけずに、または、発話が終了しないうちに話しかける傾向がある。特に、同じ会話シナリオを体験した経験のある人の場合は、上記傾向が顕著に現れる。このようにロボットが音声認識を開始する前に人が話しかけると、ロボットは人の話の最初の部分を認識できないため、人の話を正確に認識できなくなるという問題があった。
上述の問題を解決するものとして、ロボットが音声認識を開始したことを人に知らせるシステムが一般的に知られている。
例えば、ロボットの音声認識開始のタイミングを、ロボットの耳部に設けたランプを点灯させることにより、人に伝えるシステムが知られている。また、ロボットの発話終了後に短いビープ音を鳴らすことで、人の発話を促すシステムも知られている。
これらのシステムを用いることにより、ロボットが人の話を最初から認識できるという一定の効果を得ることができる。しかしながら、これらのシステムを用いると、人は、ロボットが指定したタイミングを守って話しをすることになる。このように、話しをするタイミングを制約されると、人はストレスを感じることがある。
そのため、人の上記傾向に対応することにより、人の話を正確に認識するとともに、人にストレスを感じさせない様々な音声認識装置が提案されている(例えば、特許文献2および3参照。)。
特開2005−305631号公報 (第8−11頁) 特開2003−345390号公報 (第3頁、第1図) 特開2004−333543号公報 (第8−9頁、第1図)
上述の特許文献2においては、傾きを検出する傾きセンサと、傾きセンサの出力に基づいてユーザが入力しようとしていることを検出する入力準備検出手段と、音声入力の開始時に押されるプレストークボタンと、音声を一時的に記憶するバッファメモリと、音声信号の認識処理を行う音声認識処理手段と、を備えた音声処理装置の構成が開示されている。
この構成によれば、ユーザがプレストークボタンを押すために、音声処理装置を手に取ったことを傾きセンサにより検出し、入力準備検出手段が音声入力の準備を指示する。すると、ユーザがプレストークボタンを押す前から、音声信号がバッファメモリに記憶される。その後、プレストークボタンが押されると、音声認識処理手段はバッファメモリに記憶された音声信号の認識を開始する。
このように、プレストークボタンが押される前に記憶された音声信号も、音声認識処理手段により認識処理されるため、人の話を最初から認識することができると記載されている。
しかしながら、上述の特許文献2記載の音声処理装置においては、音声認識処理手段により音声認識を開始させるために、プレストークボタンを押す必要があり、人にストレスを感じさせる恐れがあった。
上述の特許文献3においては、システム側音声を出力する音声出力部と、ユーザ音声を音声信号に変換するマイクロフォンと、ユーザ音声を認識する音声認識部と、ユーザの音声対話の習熟度を判定する習熟度判定部と、システム側音声の出力を変更する音声出力変更部と、マイクロフォンから入力された音声信号から、音声出力部が出力したシステム側音声の出力相当信号分を相関演算して除去する音声応答除去部と、を備えた音声対話システムの構成が開示されている。
この構成によれば、音声応答除去部を備えているため、音声対話システムが音声応答を出力しているときであっても、ユーザからの音声を認識できると記載されている。
しかしながら、このような音声応答除去部(例えば、アコースティックエコーキャンセラー、以下AECと表記する。)においては、その処理の性質として、環境での音の反射が複雑な場合や、他の雑音や、ひずみなどの要因により、システム側音声の除去は完全に行えない恐れがあった。
また、音声出力部からシステム側音声を出力した直後においては、音声応答除去部におけるシステム側音声の除去処理が収束しておらず、ユーザからの音声の認識性能が低下する恐れがあった。
例えば、システム側音声を完全に除去できなかった場合に、システム側音声を出力している最中も音声認識を行うと、システム側音声をユーザの音声と誤認識する恐れがあった。そのため、音声対話システムが、ユーザの発話を待たずに、自らのシステム側音声を誤認識する恐れもあった。
また、音声応答除去部がシステム側音声を完全に除去できる場合でも、システム側音声の出力当初から音声認識を行うと、システム側音声の出力当初に外来雑音(システム側音声およびユーザの音声以外の音)が発生した場合、この外来雑音をユーザの音声と誤認識する恐れがあった。
このような誤認識を行うと、音声対話システムは誤認識に基づいて会話を進めるため、正確な内容の会話をテンポよく行うことができないという問題があった。
本発明は、上記の課題を解決するためになされたものであって、音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる音声認識装置および音声認識装置を備えたロボットを提供することを目的とする。
上記目的を達成するために、本発明は、以下の手段を提供する。
本発明の音声認識装置は、会話の台詞を組み立てる制御部と、組み立てられた台詞に基づいて出力音声信号を生成する音声合成部と、生成された出力音声信号に基づいて出力音声を出力するスピーカと、ユーザが発声したユーザ音声を少なくとも含む音声を入力信号に変換するマイクロフォンと、前記出力音声信号に基づいて、前記入力信号から前記出力音声に係る信号成分を除去して入力音声信号を生成する出力音声除去部と、入力音声信号に基づいて前記ユーザ音声を認識し、認識結果を前記制御部に出力する音声認識部と、を備え、前記制御部が、前記台詞に基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを、前記出力音声の出力開始から所定時間後、かつ、前記出力音声の出力終了前に制御することを特徴とする。
本発明によれば、制御部がユーザ音声の認識開始のタイミングを、台詞に基づいて出力音声の出力開始後、かつ、出力終了前に制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングが、制御部によりユーザ音声出力終了前に制御されるため、出力音声の出力終了前からユーザ音声の認識を開始することができる。そのため、ユーザが出力音声の出力終了直後、または、出力音声の出力中に話しても、音声認識装置はユーザの音声を最初から認識でき、音声認識の頭切れを防止することができるとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングを台詞に基づいて制御するため、台詞の長さが変化しても、必ず、出力音声の出力終了前にユーザ音声の認識を開始することができる。
ユーザ音声の認識開始のタイミングが出力音声の出力開始から所定時間後であるため、出力音声除去部の処理が安定した状態においてユーザ音声の認識を行うことができる。出力音声の出力開始直後は、出力音声除去部の処理が不安定であり、かかる状態ではユーザ音声の誤認識が発生する恐れがある。上述のように、ユーザ音声の認識開始のタイミングを音声出力の出力開始から所定時間後にすることで、ユーザ音声の誤認識を防止してテンポのよい会話を実現することができる。
出力音声の出力開始直後においては、ユーザの発話内容が、出力音声に係る台詞に対して有効でない回答の可能性が高い。そのため、ユーザ音声の認識開始のタイミングを出力音声の出力開始から所定時間後とすることで、上記有効でない回答の音声認識を防止して、テンポのよい会話を実現することができる。
上記発明においては、前記出力音声信号に基づいて、前記台詞に係る前記出力音声の発話時間の長さを算出する発話時間算出部を備え、前記制御部が、前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することが望ましい。
本発明によれば、発話時間算出部により算出された発話時間の長さに基づいて、制御部がユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止するとともに、テンポのよい会話を実現することができる。
発話時間算出部は、スピーカに入力される出力音声信号に基づいて、発話時間の長さを算出しているため、実際にスピーカから出力される出力音声の発話時間の長さを算出することができる。制御部は、算出された発話時間の長さに基づいて、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止することができる。
例えば、台詞の一部に個人名やニックネームなどが含まれ、会話により台詞の一部が変更される場合であっても、発話時間算出部は、変更後の台詞に係る出力音声信号に基づいて、発話時間の長さを算出することができる。そのため、音声認識装置は、ユーザ音声認識の頭切れを確実に防止することができる。
上記発明においては、前記台詞に係る前記出力音声の発話時間の長さを、予め記憶する記憶部を備え、前記制御部が、前記記憶部に記憶された前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することが望ましい。
本発明によれば、記憶部に台詞に係る出力音声の発話時間の長さが予め記憶され、制御部が、記憶された発話時間の長さに基づいて、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止するとともに、テンポのよい会話を実現することができる。
例えば、スピーカに入力される出力音声信号に基づいて、発話時間の長さを逐一算出する場合と比較して、発話時間を算出する必要がないため、発話時における演算負荷の低減を図ることができる。また、発話時間算出部を用いる必要がなくなるため、音声認識装置の構成を簡略化することができる。
上記発明においては、前記制御部が、前記発話時間から所定長さの遅延時間を引いた開始時間を算出し、前記出力音声の出力開始から前記開始時間経過した時点で、前記音声認識部に前記ユーザ音声の認識を開始させることが望ましい。
本発明によれば、出力音声の出力開始から、開始時間を経過した時点で、ユーザ音声の認識を開始するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
開始時間は、発話時間から所定長さの遅延時間を引くことにより算出されるため、制御部は、ユーザ音声の認識開始を所定のタイミングに制御することができる。
例えば、前記所定のタイミングを、ユーザが発話する直前になるように制御することで、音声認識装置におけるユーザ音声の誤認識を防止できる。つまり、音声の認識開始からユーザが発話するまでの間隔を短くすることで、その間隔の間に外来音が発生する確率を低くできる。そのため、音声認識装置が、上記外来音をユーザ音声と誤認識することを防止することができる。
なお、遅延時間の長さは、零よりも長く、かつ、発話時間の長さよりも短いことが望ましい。
上記発明においては、前記制御部が、前記遅延時間の長さを変更することにより、
前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することが望ましい。
本発明によれば、制御部が遅延時間の長さを変更することにより、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
遅延時間の長さを変更することにより、発話時間から遅延時間を引いて求められる開始時間の長さを変更することができる。そのため、ユーザ音声の認識開始のタイミングを変更することができる。
上記発明においては、前記制御部が、前記台詞を構成する文に基づいて、前記音声認識部における前記ユーザ音声の認識開始のタイミングを制御することが望ましい。
本発明によれば、台詞を構成する文に基づいて、制御部がユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
例えば、台詞が複数の文から構成されている場合には、ユーザ音声の認識開始のタイミングと、2番目以後の文に係る出力音声を出力するタイミングのうちのいずれかのタイミングとを合わせることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。つまり、ユーザは最初の文に係る出力音声について発話せずに聞き、2番目以後の文に係る出力音声については途中から発話する傾向がある。そのため、2番目以後の文に係る出力音声を出力するタイミングのうちのいずれかのタイミングと、に合わせてユーザ音声の認識を開始することで、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
例えば、ユーザ音声の認識開始のタイミングを、出力音声の出力開始からの時間で制御する場合と比較して、台詞の構成に応じて、ユーザ音声の認識開始のタイミングをきめ細かく制御を行うことができるので、ユーザ音声認識の頭切れをより確実に防止するとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングの制御に、発話時間の長さを用いないため、発話時間の長さを算出しにくい場合、または、発話時間の長さを算出するのに時間がかかる場合に、容易にユーザ音声の認識開始のタイミングを制御することができる。
また、台詞を構成する文には、ユーザから話しかけられる可能性が低い文と、話しかけられる可能性が高い文とがある。そこで、例えば、制御部は、ユーザから話しかけられる可能性の高い文に係る出力音声を出力開始する時点からユーザ音声の認識を開始するように制御してもよい。あるいは、台詞が、ユーザから話しかけられる可能性が低い文から、話しかけられる可能性が高い文に変わった時点から、ユーザ音声の認識を開始するように制御してもよい。このようにすることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ユーザから話しかけられる可能性が低い文としては、ユーザに対する呼びかけや、ユーザからの指示の復唱などの文が挙げられる。ユーザから話しかけられる可能性が高い文としては、ユーザに対する指示の要求する文などが挙げられる。なお、ここで述べる文とは、一定の形式と方法で単語を並べたものである。
本発明の音声認識装置を備えたロボットは、ユーザの音声を認識する音声認識装置を備えたロボットであって、前記音声認識装置が、請求項1から請求項7のいずれかに記載の音声認識装置であることを特徴とする。
本発明によれば、音声認識装置を備えたロボットが、上記本発明の音声認識装置を用いることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
本発明の音声認識装置および音声認識装置を備えたロボットによれば、制御部がユーザ音声の認識開始のタイミングを、台詞に基づいて出力音声の出力開始後、かつ、出力終了前に制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができるという効果を奏する。
以下に、本発明に係るロボットの一実施形態について、図面を参照して説明する。
〔第1の実施形態〕
図1は、本発明の第1の実施形態に係るロボットの正面図、図2は、図1に示した生活支援ロボットの左側面図である。
図1および図2に示すように、生活支援ロボットの本体1は、頭部2と、この頭部2を下方から支持する胸部3と、この胸部3の右側に設けられた右腕部4a、胸部3の左側に設けられた左腕部4bと、胸部3の下方に接続された腰部5と、この腰部5の下方に接続されたスカート部6と、このスカート部6の下方に接続された脚部7とを備えている。
頭部2には、頭頂部近傍に全方位カメラ11が一つ設けられている。この全方位カメラ11の外周に沿って複数の赤外線LED12が所定の間隔で円環上に配置されている。
頭部2の前面の中央近傍には、図1に示すように、前方を撮像するための前方カメラ13が正面視して右側に一つ、マイクロフォン14が正面視して左側に一つ、それぞれ設けられている。
胸部3の前面の中央近傍には、モニタ15が一つ設けられている。このモニタ15の上方には、人を検知するための超音波距離センサ16が一つ設けられている。モニタ15の下方には、電源スイッチ17が一つ設けられている。超音波距離センサ16の上方には、2つのスピーカ18が左右に一つずつ設けられている。また、図2に示すように、胸部3の背面には、荷物を収納することができるランドセル部33が設けられている。ランドセル部33には、上部に設けたヒンジ周りに回動可能な開閉扉33aが設けられている。図1に示すように、胸部3の左右の肩部には、タッチセンサ19がそれぞれ一つずつ設けられている。
右腕部4aおよび左腕部4bには、多関節構造が採用されている。右腕部4a、左腕部4bにおいて、胸部3との接続部近傍には、体や物の挟み込みを検知して腕の動作を止めるための脇スイッチ20がそれぞれ設けられている。図1に示すように、右腕部4aの手のひら部分には、マンマシンインターフェースとして機能する握手スイッチ21が内蔵されている。これら脇スイッチ20や握手スイッチ21には、例えば、押圧センサが採用される。
腰部5の前面の中央近傍には、人を検知するための超音波距離センサ22が左右に一つずつ設けられている。これら超音波距離センサ22の下方には、複数の赤外センサ23を配列されたセンサ領域24が設けられている。これら赤外線センサ22は、ロボット本体1の下方前方にある障害物等を検出するためのものである。図1および図2に示すように、腰部5の下方には、前面および背面において、音源方向を検出するためのマイクロフォン25が左右に一つずつ、計4つ設けられている。図2に示すように、腰部5の側面の左右には、本体を持ち上げるときに使用する取手部26がそれぞれ一つずつ設けられている。取手部26は、凹所とされており、操作者の手が挿入できるようになっている。
スカート部6の前面下方には、段差を検出するための赤外線センサ27が、中央および左右に計3つ設けられている。図2に示すように、スカート部6の背面には、充電コネクタ28が設けられている。
図1に示すように、脚部7の前面には、側方の距離を検出するための赤外線センサ29が左右に一つずつ設けられている。これら赤外線センサ29は、主に段差検出に用いられるものである。
図2に示すように、脚部7の背面には、充電スタンドにロボット本体1を位置固定するためのフック30が設けられている。脚部7は、走行用車輪31および4つのボールキャスタ32を備えた台車とされている。
上述したロボットにおいて、上記頭部2の顔表情は図示しない駆動機構により可変となっている。また、頭部2と胸部3との間の首関節や、胸部3と右腕部4a間、胸部3と左腕部4b間の肩関節、右腕部4a、左腕部4b内の肘関節、手首関節等が図示しない駆動機構により駆動可能であるとともに、脚部7に装備された走行用車輪31が図示しない駆動機構により駆動されることにより、自動操舵および自動走行が可能な構成となっている。
また、本実施形態に係るロボットは、作業空間をロボット本体に内蔵されたバッテリからの電源供給により自立的に移動するように構成されており、一般家庭等の屋内を作業空間として人間と共存し、例えば、一般家庭内でロボットの所有者や操作者などのユーザの生活を補助・支援・介護するために用いられる。そのため、ロボット1は、ユーザとの会話を実現させる会話機能のほか、ユーザの行動を見守ったり、ユーザの行動を補助したり、ユーザと一緒に行動したりする機能を備えている。このような機能は、例えば、ロボット1の本体の内部に内蔵されたマイクロコンピュータ等からなる制御装置により実現されるものである。制御装置には、図1および図2に示した各種カメラや各種センサ等が接続されており、カメラからの画像情報やセンサからのセンサ検出情報を取得し、これらの情報に基づいて各種プログラムを実行することにより、上述した各種機能を実現させる。
なお、ロボット本体1の形状としては、図1および図2に示した形状に限られず、愛玩用に動物を模したものなど、種々のものを採用することが可能である。
次に、本発明の特徴部分である音声認識機能について説明する。本実施形態に係るロボットの音声認識機能は、上述した制御装置内に設けられた音声認識装置により実現されるものである。図3に本実施形態に係る音声認識装置の機能ブロック図を示す。
音声認識装置51は、図3に示すように、ユーザとの会話に用いる台詞を生成する会話シナリオ実行部(制御部)53と、台詞に基づいて出力音声信号を生成する音声合成部55と、出力音声信号に基づいて出力音声を出力するスピーカ18と、少なくともユーザの音声を含む音を入力信号に変換するマイクロフォン14と、入力信号から入力音声信号を生成するアコースティックエコーキャンセラー(以下、AECと表記する。)(出力音声除去部)57と、入力音声信号に基づいてユーザ音声を認識する音声認識部59と、音声認識部59の認識開始を指示する遅延制御部(制御部)61と、台詞に係る出力音声の発話時間長さを算出する発話時間算出部63と、ユーザの会話の習熟度を判定する習熟度判定部65とを備えている。
会話シナリオ実行部53は、ユーザとの会話のシナリオを選択するとともに、選択したシナリオに基づいて台詞を生成するものである。会話シナリオ実行部53は、ユーザの習熟度を判定する習熟度判定部65と、判定した習熟度などを記憶する記憶部67とを備えている。また、会話シナリオ実行部53は、音声合成部55および遅延制御部61に電気信号を出力するように音声合成部55および遅延制御部61と接続されている。また、会話シナリオ実行部53は、音声認識部59から電気信号が入力されるように音声認識部59と接続されている。
習熟度判定部65は、ユーザの会話の習熟度を判定するものであり、会話シナリオ実行部53内に設けられている。会話シナリオ実行部53は、習熟度判定部65の出力に基づいて、遅延時間の長さDを変更している。習熟度の判定には、例えば、上述のロボットの電源が入れられてか経過した日数や、同じ内容のシナリオを繰り返した回数などが用いられている。
音声合成部55は、会話シナリオ実行部53が生成した台詞に基づいて出力音声信号を生成するものである。音声合成部55は、会話シナリオ実行部53から電気信号が入力されるように会話シナリオ実行部53と接続されている。また、音声合成部55は、スピーカ18とAEC57と発話時間算出部63とに電気信号を出力するようにスピーカ18、AEC57および発話時間算出部63と接続されている。
スピーカ18は、入力される出力音声信号に基づいて、出力音声を、例えば、ユーザに対して出力するものである。スピーカ18は音声合成部55から電気信号が入力されるように音声合成部55と接続されている。なお、スピーカ18としては、公知のスピーカを用いることができ、特に限定するものではない。
マイクロフォン14は、ユーザの発話を含めたマイクロフォン14に入力した音を、電気信号である入力信号に変換するものである。マイクロフォン14は、AEC57に電気信号が出力されるようにAEC57と接続されている。なお、マイクロフォン14としては、公知のマイクロフォンを用いることができ、特に限定するものではない。
AEC57は、音声合成部55から入力された出力音声信号と、マイクロフォン14から入力された入力信号とを相関演算することにより、入力信号からスピーカ18から出力された出力音声に相当する信号を除去して入力音声信号を算出するものである。AEC57は、音声合成部55から電気信号が入力されるように音声合成部55と接続されている。また、AEC57は、音声認識部59に電気信号が出力されるように音声認識部59と接続されている。
音声認識部59はユーザの発話を認識するものである。具体的には、AEC57から入力される入力音声信号と、音声認識辞書とのマッチングを行うことで、ユーザの発話を認識するものである。音声認識部59は、会話シナリオ実行部53に電気信号を出力するように会話シナリオ実行部53と接続されている。また、音声認識部59は、AEC57および遅延制御部61とから電気信号が入力されるようにAEC57および遅延制御部61と接続されている。
遅延制御部61は、音声認識部59における音声認識開始のタイミングを指示するものである。遅延制御部61は、会話シナリオ実行部53および発話時間算出部63から電気信号が入力されるように会話シナリオ実行部53および発話時間算出部63と接続されている。また、遅延制御部61は、音声認識部59から電気信号が入力されるように音声認識部59と接続されている。
具体的には、遅延制御部61は、まず、音声合成部55が算出した発話時間の長さXと、会話シナリオ実行部53が算出した遅延時間の長さDとに基づいて、音声認識の開始時間(X−D)を算出している。その後、遅延制御部61は、出力音声の出力開始から開始時間(X−D)経過した時点で、音声認識部59に対して、音声認識開始の信号を出力する。
次に、上述の構成からなる生活支援ロボットとユーザとの間の会話における、音声認識装置51の働きを説明する。
まず、本実施形態における生活支援ロボットとユーザとの間の会話の流れを説明する。
図4は、図3の音声認識装置とユーザとの間の会話の流れを説明する模式図である。図4において、横軸は時間を表し、図中のSPが生活支援ロボットの発話期間を表し、RCが、生活支援ロボットが音声を認識している期間を表している。
ユーザとの間で会話を行っていない場合には、図4に示すように、生活支援ロボットの音声認識部59は音声を認識し続け(A)、ユーザからの音声による指示の入力を待っている。
この状態において、ユーザから音声による指示が入力されると、音声認識装置51は音声の認識を中断し(B)、入力された指示に対する台詞を発話する(SP)。音声認識装置51は、発話の開始時から所定時間(X−D)が経過した時点(C)で、再び、音声の認識(RC)を開始して、ユーザの音声入力を認識し始める。ユーザの音声入力が終了した等の理由により、所定レベル以上の大きさの音声入力が一定期間ない状態が続くと、音声認識装置51は音声認識を区切り、音声認識の結果に基づき次の処理を行う。
このようにして、生活支援ロボットとユーザとの間で会話が交互に繰り返されるキャッチボール型の会話がなされる。
次に、上述のキャッチボール型の会話が行われている際の、音声認識装置51の働きについて説明する。
生活支援ロボットがユーザから音声による指示の入力が待っている状態から、ユーザから音声による入力指示が入力されると、図3に示すように、音声認識装置51の会話シナリオ実行部53は、音声認識部59に対して音声認識を停止する停止信号を出力する。同時に、会話シナリオ実行部53は、ユーザからの指示入力に応じた会話シナリオを組み立て、組み立てたシナリオに基づいた台詞を生成する。あるいは、会話シナリオ実行部53に備えられた記憶部67の認識辞書に記憶された台詞を呼び出す。このとき、生成または呼び出される台詞には、生活支援ロボットが出力する音声に係る台詞のほかに、生活支援ロボットの音声に対してユーザが回答すると予想されるユーザに係る台詞も含まれている。
例えば、ユーザからの入力指示が「伝言」の場合、会話シナリオ実行部53が組み立てる会話シナリオのうち、ロボットに係る台詞は、「伝言を伝えます。誰に伝えますか。」となる。また、ユーザに係る台詞は、「Aさん」、「Bさん」など、伝言する相手の名前となる。
さらに、会話シナリオ実行部53は、習熟度判定部65が判定したユーザの習熟度に基づいて、遅延時間の長さDを算出する。ユーザの習熟度は、予め習熟度判定部65が判定したものであって、記憶部67に記憶されたものが用いられる。例えば、習熟度判定部65は、ロボットの電源が入れられてから経過した日数が長くなると、ユーザの習熟度は高くなったと判定して、遅延時間の長さDを長くする信号を生成する。あるいは、同じ内容のシナリオの繰り返し回数が増えると、ユーザの習熟度は高くなったと判定して、遅延時間の長さDを長くする信号を生成する。
会話シナリオ実行部53は、ロボットに係る台詞の信号を音声合成部55に出力し、音声認識部59に対する音声認識開始信号、ユーザに係る台詞の信号および遅延時間の長さDの信号を遅延制御部61に出力する。
ロボットに係る台詞の信号が入力された音声合成部55は、スピーカ18に対して出力する出力音声信号を生成する。出力音声信号は、ロボットに係る台詞に対応した波形を有する信号である。出力音声信号は、発話時間算出部63とAEC57とスピーカ18とに向けて出力される。
スピーカ18は、入力された出力音声信号に基づいて、ユーザに対してロボットに係る台詞を出力音声として出力する。
一方、発話時間算出部63は、入力された出力音声信号に基づいて、スピーカ18から実際に出力される出力音声の発話時間の長さXを算出する。例えば、出力音声信号のバイト数をカウントして、割り算することにより発話時間の長さXを求めることができる。なお、発話時間の長さXの算出方法は、公知の方法を用いることができ、特に限定されるものではない。発話時間の長さXが算出されると、発話時間算出部63から発話時間の長さXに係る信号が遅延制御部61に出力される。
遅延制御部61は、入力された発話時間の長さXの信号と、遅延時間の長さDの信号とに基づいて、開始時間の長さを算出する。具体的には、発話時間の長さXから遅延時間の長さDを引いた値(X−D)が開始時間の長さとなる。開始時間の長さ(X−D)とは、スピーカ18から出力音声が出力されたときから、音声認識部59における音声認識が開始されるまでの時間をいう。開始時間の長さ(X−D)が算出されると、遅延制御部61は時間の計測を開始し、開始時間の長さ(X−D)が経過した時点で、会話シナリオ実行部53から入力されていた、音声認識部59に対する音声認識開始の信号とユーザに係る台詞の信号とを音声認識部59に出力する。
なお、延長時間の長さDは、開始時間の長さ(X−D)が、AEC57における処理が安定するのに要する時間以上となるように設定されることが望ましい。
このように設定することにより、AEC57の処理が安定した状態から音声認識を開始することができ、ユーザ音声の誤認識を防止することができる。AEC57の処理が安定するとは、入力信号から出力音声信号に相当する信号成分を除去する処理が安定することをいう。この処理が安定することで、出力音声信号が取り除かれた入力音声信号を安定して算出することができる。
また、遅延時間の長さDの取りうる範囲は、零以上、発話時間の長さX以下とすることが望ましい。つまり、遅延時間の長さDが零の場合は、開始時間の長さ(X−D)が発話時間の長さXと等しくなり、発話時間の終了と同時に音声認識が開始される。また、遅延時間の長さDが発話時間の長さXと等しい場合には、開始時間の長さ(X−D)は零となり、発話時間の開始とともに音声認識が開始される。
一方、マイクロフォン14は、マイクロフォン14に入力された音を電気信号である入力信号に変換し、AEC57を介して音声認識部59に出力している。入力信号は、マイクロフォン14に入力された音の波形に対応した波形をもつ電気信号であり、ユーザの音声や、スピーカ18から出力された音声や、その他の外来雑音の成分も含まれる信号である。
AEC57は、入力された入力信号と出力音声信号とに基づいて、入力信号から出力音声信号に相当する信号成分を除去し、入力音声信号が生成される。具体的には、入力信号と出力音声信号との相関関数を求め、求めた相関関数に基づいて入力信号から出力音声信号に相当する信号成分が除去されている。なお、AEC57としては、公知のエコーキャンセラーを用いることができ、特に限定するものではない。
また、AEC57に出力音声信号が入力されていない場合には、入力信号が処理されずにそのまま音声認識部59に出力される。
なお、上述のマイクロフォン14およびAEC57は会話シナリオ実行部53から出力される音声認識開始の信号の有無に関わらず、常に処理が行われている。
音声認識部59は、遅延制御部61から入力される認識開始の信号に基づいて、AEC57から入力される入力音声信号の認識を行う。具体的には、認識開始の信号とともに入力されるユーザに係る台詞の信号と、入力音声信号とのマッチングを行い、入力音声信号がユーザに係る台詞の信号と一致するか否かを判定している。
音声認識部59は、ユーザからの音声入力が所定期間ない場合には、音声認識を区切り、判定結果を会話シナリオ実行部53に出力する。会話シナリオ実行部53は、判定結果に基づいて次の会話シナリオを組み立てる。以降、上述の処理が繰り返される。
例えば、ロボットに係る台詞が、「伝言を伝えます。誰に伝えますか。」の場合、ユーザが「Aさん」と応えると、音声認識部59においてマッチングが行われ、ユーザが「Aさん」と応えたと認識、判定される。会話シナリオ実行部53はこの判定に基づいて、次の会話シナリオを組み立てる。
なお、音声認識部59は、ユーザからの音声が所定期間入力されない場合に、音声認識を区切り、判定結果を会話シナリオ実行部53に出力してもよいし、音声認識を終了してもよい。ユーザからの音声が所定期間入力されない場合としては、所定レベル以上の音声が一定時間、入力されなかった場合を挙げることができる。
また、音声認識部59における判定で、ユーザが応えた内容が有効でない判定された場合には、会話シナリオ実行部53は、生活支援ロボットにおける機能のガイダンスする内容のシナリオを選択する。会話シナリオ実行部53が、ガイダンスに係るシナリオを選択する場合としては、ユーザの音声入力が適切な入力でなかった場合や、生活支援ロボットからの問いかけに対して、ユーザが有効な回答をしなかった場合などを挙げることができる。
図5は、図3の音声認識装置がガイダンスを行う場合の会話の流れを説明する模式図である。
生活支援ロボットの音声認識装置51がガイダンスを行う場合、図5に示すように、ガイダンスに係る台詞の発話(SP)と同時に、音声認識部59は音声の認識(RC)を開始する。
この場合、会話シナリオ実行部53は、図3に示すように、発話時間の長さXと等しい延長時間の長さDの信号を遅延制御部61に出力し、ガイダンスに係る台詞の信号を音声合成部55に出力する。音声合成部55は、入力されたガイダンスに係る台詞に基づいて出力音声信号を生成し、スピーカ18および発話時間算出部63に出力する。一方、遅延制御部61には発話時間の長さXの信号が入力され、開始時間(X−D)が算出される。遅延制御部61は、開始時間(X−D)の算出結果(零)に基づいて、すぐに音声認識部59に音声認識開始の信号を出力する。
このように制御することにより、生活支援ロボットの音声認識装置51がガイダンスを開始したとき、または、ガイダンス中にユーザが話しかけても、音声認識装置51は、ユーザの発話を認識することができる。特に、ガイダンスは、ユーザからの音声入力に所定の空白期間があいた後に開始されているため、ユーザの発話時期と、ガイダンスの開始時期とが接近する可能性が高い。このような場合であっても、ガイダンスの開始時期と、音声の認識開始時期とが同時であるため、ユーザ音声認識の頭切れを防止することができる。
図6は、図3の音声認識装置とユーザとの会話の流れにおける他の例を説明する模式図である。
また、会話シナリオ実行部53が組み立てるシナリオの内容によっては、生活支援ロボットがシナリオを発話し終わるまで、ユーザが発話しない場合もある。
かかる場合、生活支援ロボットの音声認識装置51は、図6に示すように、ロボットに係る台詞の発話(SP)を行っている間は、音声認識部59において音声の認識を行わない。ロボットに係る台詞の発話が終了すると、音声認識装置51は、音声認識部59において音声の認識(RC)をし始める。
この場合、会話シナリオ実行部53は、図3に示すように、時間長さが零の延長時間の長さDの信号を遅延制御部61に出力し、ロボットに係る台詞の信号を音声合成部55に出力する。音声合成部55は、入力されたガイダンスに係る台詞に基づいて出力音声信号を生成し、スピーカ18および発話時間算出部63に出力する。一方、遅延制御部61には発話時間の長さXの信号が入力され、開始時間(X−D)が算出される。遅延制御部61は、開始時間(X−D)の算出結果(X)に基づいて、ロボットに係る台詞の発話終了後に音声認識開始の信号を音声認識部59に出力する。
このように制御することにより、音声認識部59による音声の認識開始時期とユーザの発話開始時期との間隔を短くすることができ、音声認識装置51におけるユーザ音声の誤認識を防止できる。つまり、音声の認識開始からユーザが発話するまでの間隔を短くすることで、その間隔の間に外来音が発生する確率を低くできる。そのため、音声認識装置51が、上記外来音をユーザ音声と誤認識することを防止することができる。
上記の構成によれば、遅延制御部61が、音声認識部59におけるユーザ音声の認識開始のタイミングを、開始時間(X−D)に基づいて、出力音声の出力開始後、かつ、出力終了前に制御するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングが、遅延制御部61によりユーザ音声出力終了前に制御されるため、出力音声の出力終了前からユーザ音声の認識を開始することができる。そのため、ユーザが出力音声の出力終了直後、または、出力音声の出力中に話しても、音声認識部59はユーザの音声を最初から認識でき、音声認識の頭切れを防止することができるとともに、テンポのよい会話を実現することができる。
ユーザ音声の認識開始のタイミングが出力音声の出力開始から開始時間(X−D)後であるため、AEC57の処理が安定した状態においてユーザ音声の認識を行うことができる。出力音声の出力開始直後は、AEC57の処理が不安定であり、かかる状態ではユーザ音声の誤認識が発生する恐れがある。上述のように、ユーザ音声の認識開始のタイミングを音声出力の出力開始から開始時間(X−D)後にすることで、ユーザ音声の誤認識を防止してテンポのよい会話を実現することができる。
出力音声の出力開始直後においては、ユーザの発話内容が、出力音声に係る台詞に対して有効でない回答の可能性が高い。そのため、ユーザ音声の認識開始のタイミングを出力音声の出力開始から開始時間(X−D)後とすることで、上記有効でない回答の音声認識を防止して、テンポのよい会話を実現することができる。
開始時間の長さ(X−D)は、発話時間の長さXから遅延時間の長さDを引くことにより算出されるため、遅延制御部61は、ユーザ音声の認識開始を所定のタイミングに制御することができる。
開始時間の長さ(X−D)を定めるパラメータには、台詞に係る発話時間の長さXも含まれるため、台詞の長さが変化しても、上記台詞に係る出力音声の出力終了前に、必ずユーザ音声の認識を開始することができる。
ユーザ音声の認識開始のタイミングは、ユーザが発話する直前であることが望ましく、このようにすることで、音声認識装置51におけるユーザ音声の誤認識を防止できる。つまり、音声の認識開始からユーザが発話するまでの間隔を短くすることで、その間隔の間に外来音が発生する確率を低くできる。そのため、音声認識装置51が、上記外来音をユーザ音声と誤認識することを防止することができる。
発話時間の長さXは、発話時間算出部63において、スピーカに入力される出力音声信号に基づいて算出されるため、実際にスピーカから出力される出力音声の発話時間の長さXを算出することができる。遅延制御部61は、算出された発話時間の長さXに基づいて、ユーザ音声の認識開始のタイミングを制御するため、ユーザ音声認識の頭切れを確実に防止することができる。
例えば、台詞の一部に個人名やニックネームなどが含まれ、会話により台詞の一部が変更される場合であっても、発話時間算出部63は、変更後の台詞に係る出力音声信号に基づいて、発話時間の長さXを算出することができる。そのため、音声認識装置51は、ユーザ音声認識の頭切れを確実に防止することができる。
なお、上述のように、習熟度判定部65は、ロボットの電源が入れられてから経過した日数や、同じ内容のシナリオの繰り返し回数に基づいてユーザの習熟度を判定してもよいし、会話シナリオ実行部53から台詞が出力されてから、音声認識部59から音声認識結果が入力されるまでの時間を計測し、この時間に基づいてユーザの習熟度を判定してもよく、特に限定するものではない。
このようにして習熟度を判定することにより、ユーザの習熟度をより確実かつきめ細かく判定することができ、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
なお、上述のように、発話時間算出部63により逐一スピーカ18から出力される出力音声の発話時間の長さを算出してもよいし、予め、所定の台詞を出力するときの発話時間の長さを計測し、計測した値を記憶部67に所定の台詞と関連付けて記憶させておいてもよい。
このようにすることで、発話時間算出部63による発話時間長さの算出を省略することができ、発話時における演算負荷の削減を図ることができる。また、発話時間算出部63を用いる必要がなくなるため、音声認識装置の構成を簡略化することができる。
〔第2の実施の形態〕
次に、本発明の第2の実施形態について図7および図8を参照して説明する。
本実施形態の生活支援ロボットの基本構成は、第1の実施形態と同様であるが、第1の実施形態とは、音声認識装置における発話のタイミングが異なっている。よって、本実施形態においては、図7および図8を用いて音声認識装置における発話のタイミングのみを説明し、生活支援ロボットの本体等の説明を省略する。
図7は、本実施形態に係る音声認識装置の機能を説明するブロック図である。
なお、第1の実施形態と同一の構成要素には、同一の符号を付してその説明を省略する。
音声認識装置151は、図7に示すように、ユーザとの会話に用いる台詞を生成する会話シナリオ実行部(制御部)153と、出力音声信号を生成する音声合成部55と、出力音声を出力するスピーカ18と、入力した音を入力信号に変換するマイクロフォン14と、入力信号から入力音声信号を生成するAEC57と、入力音声信号に基づいてユーザ音声を認識する音声認識部59とを備えている。
会話シナリオ実行部153は、ユーザとの会話のシナリオを選択するとともに、選択したシナリオに基づいて複数の文から構成される台詞を生成するものである。また、会話シナリオ実行部153は、音声合成部55および遅延制御部61に電気信号を出力するように音声合成部55および遅延制御部61と接続されている。また、会話シナリオ実行部153は、音声認識部59から電気信号が入力されるように音声認識部59と接続されている。
次に、上述の構成からなる生活支援ロボットとユーザとの間の会話における、音声認識装置151の働きを説明する。
図8は、図7の音声認識装置とユーザとの間の会話の流れを説明する模式図である。図8において、横軸は時間を表し、図中のSP1,SP2が生活支援ロボットの発話期間を表し、RCが、生活支援ロボットが音声を認識している期間を表している。
ユーザから音声認識装置151に音声による指示が入力されると、音声認識装置151は、図8に示すように、入力された指示に対する台詞(例えば、第1文および第2文の2文から構成されるもの)を発話する(SP1,SP2)。ここで、SP1は、最初の第1文に係る発話を示すものであり、SP2は、次の第2文に係る発話を示すものである。
音声認識装置151は、最初の文に係る発話SP1を行っている間は、音声認識を行わず、2番目の文に係る発話SP2を開始すると同時に音声認識RCを行う。
次に、上述のキャッチボール型の会話が行われている際の、音声認識装置151の働きについて説明する。
音声認識装置151の会話シナリオ実行部153は、図7に示すように、ユーザからの指示入力に応じた会話シナリオを組み立て、組み立てたシナリオに基づいた台詞(例えば、第1文および第2文の2文から構成されるもの)を生成する。
例えば、ユーザからの入力指示が「伝言」の場合、会話シナリオ実行部53が組み立てる会話シナリオのうち、ロボットに係る台詞を、「伝言を伝えます。誰に伝えますか。」とすると、第1文は「伝言を伝えます。」、第2文は「誰に伝えますか。」となる。
会話シナリオ実行部153は、音声合成部55に対して、第1文および第2文の信号を順に出力する。一方、会話シナリオ実行部153は、音声認識部59に対して、音声認識開始の信号を第2文の信号にタイミングを合わせて出力する。
第1文および第2文の信号が入力された音声合成部55は、スピーカ18に対して出力する出力音声信号を生成する。出力音声信号は、AEC57とスピーカ18とに向けて出力される。スピーカ18は、入力された出力音声信号に基づいて、ユーザに対して第1文および第2文に係る台詞を出力音声として出力する。
音声認識部59は、会話シナリオ実行部153から入力される音声認識の開始信号に基づいて、AEC57から入力される入力音声信号の認識を行う。ここで、音声認識の開始信号は、会話シナリオ実行部153から第2分の信号の出力と同時に出力されている。そのため、音声認識部59における音声認識は、第2文に係る台詞がスピーカ18から出力されるのと略同時に開始される。
上記の構成によれば、音声認識部59におけるユーザ音声の認識を、第2文に係る出力音声がスピーカ18から出力されるタイミングで開始するため、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
つまり、ユーザは第1文に係る出力音声について発話せずに聞き、第2文に係る出力音声については途中から発話する傾向がある。そのため、第2文に係る出力音声を出力するタイミングで、ユーザ音声の認識を開始することで、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
上記の構成によれば、ユーザ音声の認識開始のタイミングを、出力音声の出力開始からの時間で制御する場合と比較して、台詞の構成に応じて、ユーザ音声の認識開始のタイミングをきめ細かく制御を行うことができるので、ユーザ音声認識の頭切れをより確実に防止するとともに、テンポのよい会話を実現することができる。
また、ユーザ音声の認識開始のタイミングの制御に、発話時間の長さを用いないため、発話時間の長さを算出しにくい場合、または、発話時間の長さを算出するのに時間がかかる場合に、容易にユーザ音声の認識開始のタイミングを制御することができる。
なお、上述のように、会話シナリオ実行部153により生成される台詞は、第1文および第2文の2文からなるものであってもよいし、さらに多くの文からなる台詞であってもよく、特に限定するものではない。この場合に、音声認識部59における音声認識の開始は、第2文以後の音声出力の各タイミングのうちのいずれでもよく、特に限定するものではない。
なお、上述のように、台詞を構成する各文の並び順のみに基づいて音声認識部59における音声認識を開始するタイミングを決定してもよいし、上記各文の内容に基づいて音声認識を開始するタイミングを決定してもよく、特に限定するものではない。
つまり、台詞を構成する文には、ユーザから話しかけられる可能性が低い文と、話しかけられる可能性が高い文とがある。そこで、会話シナリオ実行部153は、ユーザから話しかけられる可能性の高い文に係る出力音声を出力開始する時点からユーザ音声の認識を開始するように制御してもよい。あるいは、台詞が、ユーザから話しかけられる可能性が低い文から、話しかけられる可能性が高い文に変わった時点から、ユーザ音声の認識を開始するように制御してもよい。このようにすることにより、ユーザ音声認識の頭切れを防止するとともに、テンポのよい会話を実現することができる。
ここで、ユーザから話しかけられる可能性が低い文としては、ユーザに対する呼びかけや、ユーザからの指示の復唱などの文が挙げられる。ユーザから話しかけられる可能性が高い文としては、ユーザに対する指示の要求する文などが挙げられる。
なお、本発明の技術範囲は上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。
例えば、上記の実施の形態においては、この発明の音声認識装置を生活支援ロボットに適用して説明したが、この発明は生活支援ロボットに限られることなく、その他、人からの指示を音声で入力する機器に適用できるものである。
本発明の第1の実施形態に係るロボットの構成を説明する正面図である。 図2は、図1に示した生活支援ロボットの構成を説明する左側面図である 本実施形態に係る音声認識装置の機能を説明するブロック図である。 図3の音声認識装置とユーザとの間の会話の流れを説明する模式図である。 図3の音声認識装置がガイダンスを行う場合の会話の流れを説明する模式図である。 図3の音声認識装置とユーザとの会話の流れにおける他の例を説明する模式図である。 本発明の第2の実施形態に係る音声認識装置の機能を説明するブロック図である。 図7の音声認識装置とユーザとの間の会話の流れを説明する模式図である。
符号の説明
14 マイクロフォン
18 スピーカ
51,151 音声認識装置
53,153 会話シナリオ実行部(制御部)
55 音声合成部
57 AEC(出力音声除去部)
59 音声認識部
61 遅延制御部(制御部)
63 発話時間算出部
67 記憶部

Claims (7)

  1. 会話の台詞を組み立てる制御部と、
    組み立てられた台詞に基づいて出力音声信号を生成する音声合成部と、
    生成された出力音声信号に基づいて出力音声を出力するスピーカと、
    ユーザが発声したユーザ音声を少なくとも含む音声を入力信号に変換するマイクロフォンと、
    前記出力音声信号に基づいて、前記入力信号から前記出力音声に係る信号成分を除去して入力音声信号を生成する出力音声除去部と、
    入力音声信号に基づいて前記ユーザ音声を認識し、認識結果を前記制御部に出力する音声認識部と、を備え、
    前記制御部が、前記台詞に基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを、前記出力音声の出力開始から所定時間後、かつ、前記出力音声の出力終了前に制御することを特徴とする音声認識装置。
  2. 前記出力音声信号に基づいて、前記台詞に係る前記出力音声の発話時間の長さを算出する発話時間算出部を備え、
    前記制御部が、前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項1記載の音声認識装置。
  3. 前記台詞に係る前記出力音声の発話時間の長さを、予め記憶する記憶部を備え、
    前記制御部が、前記記憶部に記憶された前記発話時間の長さに基づいて、前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項1記載の音声認識装置。
  4. 前記制御部が、前記発話時間から所定長さの遅延時間を引いた開始時間を算出し、
    前記出力音声の出力開始から前記開始時間経過した時点で、前記音声認識部に前記ユーザ音声の認識を開始させることを特徴とする請求項2または3に記載の音声認識装置。
  5. 前記制御部が、前記遅延時間の長さを変更することにより、
    前記音声認識部による前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項4記載の音声認識装置。
  6. 前記制御部が、前記台詞を構成する文に基づいて、前記音声認識部における前記ユーザ音声の認識開始のタイミングを制御することを特徴とする請求項1記載の音声認識装置。
  7. ユーザの音声を認識する音声認識装置を備えたロボットであって、
    前記音声認識装置が、請求項1から請求項7のいずれかに記載の音声認識装置であることを特徴とする音声認識装置を備えたロボット。
JP2005349118A 2005-12-02 2005-12-02 音声認識装置および音声認識装置を備えたロボット Withdrawn JP2007155986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005349118A JP2007155986A (ja) 2005-12-02 2005-12-02 音声認識装置および音声認識装置を備えたロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005349118A JP2007155986A (ja) 2005-12-02 2005-12-02 音声認識装置および音声認識装置を備えたロボット

Publications (1)

Publication Number Publication Date
JP2007155986A true JP2007155986A (ja) 2007-06-21

Family

ID=38240451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005349118A Withdrawn JP2007155986A (ja) 2005-12-02 2005-12-02 音声認識装置および音声認識装置を備えたロボット

Country Status (1)

Country Link
JP (1) JP2007155986A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016132729A1 (ja) * 2015-02-17 2017-11-30 日本電気株式会社 ロボット制御装置、ロボット、ロボット制御方法およびプログラム
JP2018519552A (ja) * 2015-06-30 2018-07-19 ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド ロボット自身音源を解消するシステム
CN108698231A (zh) * 2016-02-25 2018-10-23 夏普株式会社 姿势控制装置、机器人及姿势控制方法
CN109433647A (zh) * 2018-11-27 2019-03-08 南京理工大学张家港工程院有限公司 自动化流水分拣系统
CN109433648A (zh) * 2018-11-27 2019-03-08 南京理工大学张家港工程院有限公司 自动化流水分拣工作方法
KR101976355B1 (ko) * 2018-06-15 2019-05-08 주식회사 오투오 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템
JPWO2022201458A1 (ja) * 2021-03-25 2022-09-29

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016132729A1 (ja) * 2015-02-17 2017-11-30 日本電気株式会社 ロボット制御装置、ロボット、ロボット制御方法およびプログラム
JP2018519552A (ja) * 2015-06-30 2018-07-19 ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド ロボット自身音源を解消するシステム
CN108698231A (zh) * 2016-02-25 2018-10-23 夏普株式会社 姿势控制装置、机器人及姿势控制方法
JPWO2017145929A1 (ja) * 2016-02-25 2018-10-25 シャープ株式会社 姿勢制御装置、ロボット及び姿勢制御方法
KR101976355B1 (ko) * 2018-06-15 2019-05-08 주식회사 오투오 셋톱박스 외부 연결형의 ai 스피커 장치 및 이를 이용한 ai 스피커 시스템
CN109433647A (zh) * 2018-11-27 2019-03-08 南京理工大学张家港工程院有限公司 自动化流水分拣系统
CN109433648A (zh) * 2018-11-27 2019-03-08 南京理工大学张家港工程院有限公司 自动化流水分拣工作方法
CN109433648B (zh) * 2018-11-27 2021-09-14 南京理工大学张家港工程院有限公司 自动化流水分拣工作方法
JPWO2022201458A1 (ja) * 2021-03-25 2022-09-29
WO2022201458A1 (ja) * 2021-03-25 2022-09-29 三菱電機株式会社 音声対話システム、音声対話方法及び音声対話管理装置
JP7361988B2 (ja) 2021-03-25 2023-10-16 三菱電機株式会社 音声対話システム、音声対話方法及び音声対話管理装置

Similar Documents

Publication Publication Date Title
JP6505748B2 (ja) 人間型ロボットとユーザーの間におけるマルチモード会話を実行する方法、前記方法を実装するコンピュータプログラム及び人間型ロボット
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
JP6447578B2 (ja) 音声対話装置および音声対話方法
JP6658306B2 (ja) 音声対話システムおよび発話タイミング決定方法
JP2004090109A (ja) ロボット装置およびロボット装置の対話方法
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
Mubin et al. You just do not understand me! Speech Recognition in Human Robot Interaction
JP2018185362A (ja) ロボットおよびその制御方法
JP2006123136A (ja) コミュニケーションロボット
WO2008001549A1 (fr) Dispositif audio interactif, procédé audio interactif, et programme correspondant
JP2020046478A (ja) ロボットシステム
JP2007155986A (ja) 音声認識装置および音声認識装置を備えたロボット
JP2004034273A (ja) ロボット発話中の動作プログラム生成装置及びロボット
JP2015150620A (ja) ロボット制御システムおよびロボット制御プログラム
JP7176244B2 (ja) ロボット、ロボットの制御方法及びプログラム
JP5324956B2 (ja) 道案内ロボット
JP2004283927A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6712303B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
JP2004286805A (ja) 話者識別装置および話者識別方法、並びにプログラム
JP6908636B2 (ja) ロボットおよびロボットの音声処理方法
JP7024754B2 (ja) 制御装置、ロボット、制御方法およびプログラム
JP2017122815A (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090203