JP2017117371A

JP2017117371A - 制御方法、制御装置およびプログラム

Info

Publication number: JP2017117371A
Application number: JP2015254845A
Authority: JP
Inventors: 勇次國武; Yuji Kunitake; 田中　敬一; Keiichi Tanaka; 敬一田中; 大戸　英隆; Hidetaka Oto; 英隆大戸
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2017-06-29
Also published as: US10056081B2; CN107068148A; US20170186428A1

Abstract

【課題】ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止とユーザーの利便性の向上とを両立する。【解決手段】音声により機器を制御する制御装置が行う制御方法であって、集音装置に入力された音声データから、機器を制御するための発話を検知し、発話から制御の対象である制御対象機器を識別し、１以上のセンサーから取得されたセンサーデータに基づき、発話を発したユーザの状態または制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、発話を発したユーザの状態または制御対象機器の周囲の状態が制御に適した状態であると判定した場合、発話に対する確認応答文を生成せず、発話を発したユーザの状態及び制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、発話に対する確認応答文を生成し、確認応答文を音声により読み上げる。【選択図】図１

Description

本開示は、音声により機器の制御を行う制御方法、制御装置およびプログラムに関するものである。

従来から、音声により機器の制御を行う音声対話装置が知られている。しかし、従来の音声対話装置では、音声対話装置の周囲で行なわれる会話、テレビやラジオなどから発せられる音声などの雑音を音声対話装置に対するユーザの発話であると誤認識し、誤って機器を動作させてしまうという課題があった。

この課題を解決するために、特許文献１では、音声の認識結果を確認するための確認発話を行い、ユーザから肯定を意味する単語が発話されれば、認識した内容の制御を行うことが開示されている。また、特許文献２では、制御対象機器へ向けられる視線や指差し動作などを検出し、これらの動作が検出された場合にのみ、音声対話による制御を有効にすることが開示されている。

特開昭５９−０７１９２７特開２００７−１２１５７６

しかし、特許文献１の方式では、ユーザの発話に対して毎回確認発話が行われるため、ユーザは、音声による機器制御を実行する度に、確認発話に対する受理応答を行う必要がある。また、特許文献２の方式では、ユーザが機器制御のための発話をしても、制御対象機器へ向けられる視線や指差し動作が検出されない場合は、音声対話による制御を実行できない。したがって、音声の誤認識による機器の誤動作の防止とユーザの利便性とを両立するためには更なる改善が求められる。

本開示の一態様は、音声により機器を制御する制御装置が行う制御方法であって、
集音装置に入力された音声データから、機器を制御するための発話を検知し、
前記発話から制御の対象である制御対象機器を識別し、
１以上のセンサーから取得されたセンサーデータに基づき、前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、
前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、
前記確認応答文を音声により読み上げる。

本開示によれば、音声により機器の制御を行う場合に、ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止とユーザーの利便性の向上とを両立することできる。

実施の形態１における音声対話装置の全体像の一例を示す図である。実施の形態１における音声対話装置の処理フローの一例を示す図である。実施の形態１における音声対話装置の処理フローの図１乃至２とは別の一例を示す図である。実施の形態１における音声対話装置の処理フローの図１乃至３とは別の一例を示す図である。実施の形態２における音声対話装置の全体像の一例を示す図である。実施の形態２における音声対話装置の処理フローの一例を示す図である。実施の形態３における音声対話装置の全体像の一例を示す図である。実施の形態３における音声対話装置の処理フローの一例を示す図である。

（本発明の基礎となった知見）
ユーザの発話する音声から発話の内容を解析し、解析結果を基に機器の制御や情報提供などのサービスを提供する音声対話装置に関する技術が検討されている。音声対話装置では、画面操作やボタン操作などの複雑な操作ではなく、音声による直感的かつ容易な操作により機器の制御や情報取得が行える。一方で、周囲での会話や、テレビやラジオなどから発せられる音声を誤認識することが課題として存在する。

このような課題に対し、上記特許文献１に係る技術では、音声の認識結果を確認するステップを追加することで、音声の誤認識によって機器を誤動作させることを回避している。また、上記特許文献２に係る技術では、ユーザの視線や指差し動作を基に特定できた制御対象機器を制御することで、制御対象外の機器の制御や、雑音の入力による機器の誤動作を防止している。

しかし、ユーザが音声により制御する対象の機器やユーザが音声による制御を利用するシーンは多様であり、制御対象の機器や利用するシーンによっては、発話の都度、音声の認識結果を確認することが煩わしかったり、発話時に、視線や指差し動作を制御対象の機器に向けることができない虞がある。

例えば、冷蔵庫、電子レンジ、オーブン、家や部屋の扉などの扉の開閉動作を、機器の前で音声制御するというシーンにおいて、「扉を開けて」等の発話の都度、「扉を開けますか」等の確認発話に応答することは煩わしい。また、冷蔵庫に物を入れるなど物を運んでいる最中に音声により冷蔵庫の扉の開閉制御を行うというシーンでは、冷蔵庫の配置位置を意識して発話したり、指差し動作を行うことは困難である。また、音声制御によって水量を調節可能な蛇口や、音声制御によって点火可能なガスコンロやＩＨクッキングヒータを利用するシーンにおいても、キッチンでの作業中に制御対象の機器に視線を向けることは困難である。

このように、従来の音声対話装置では、音声の誤認識による機器の誤動作の防止とユーザの利便性の向上とを両立させることに関して検討はされていなかった。

本開示の目的は、音声により機器の制御を行う場合に、ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止とユーザーの利便性の向上とを両立することができる技術を提供することである。

本開示の一態様による制御方法は、音声により機器を制御する制御装置が行う制御方法であって、
集音装置に入力された音声データから、機器を制御するための発話を検知し、
前記発話から制御の対象である制御対象機器を識別し、
１以上のセンサから取得されたセンサーデータに基づき、前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、
前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、前記確認応答文を音声により読み上げる。

この構成によれば、ユーザの状態または制御対象機器の周囲の状態が制御に適した状態である場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。

一方、ユーザの状態及び制御対象機器の周囲の状態が制御に適した状態でない場合には、確認応答文を読み上げ、周囲の雑音等の音声の誤認識によって機器を誤動作させる虞を抑制することができる。

つまり、この構成によれば、ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止と、ユーザの利便性の向上と、を両立することができる。

上記態様において、前記制御装置は、さらに、前記制御に適した状態であると判定した場合、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成してもよい。

この構成によれば、ユーザの状態または制御対象機器の周囲の状態が制御に適した状態である場合、不必要に確認応答文を読み上げることを抑制し、ユーザの意図した制御対象機器の制御を迅速に行うことができる。

上記態様において、前記制御に適した状態とは、前記制御対象機器の周囲に人物が検出されない状態であることが好ましい。

この構成によれば、制御対象機器の周囲に人物が検出されず、制御対象機器の扉の開閉など動きのある制御を行っても事故が発生する虞が低いと考えられる場合、不必要に確認応答文を読み上げることを抑制して、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。

上記態様において、前記センサーデータは、撮像装置により撮像された前記制御対象機器の周囲の画像であり、
前記制御装置は、前記画像に基づき、前記制御対象機器の周囲に人物が検出されるか否かを判定することが好ましい。

この構成によれば、撮像装置により撮像可能な制御対象機器を含む所定の範囲内に、人物がいるか否かを適切に検出することができる。

上記態様において、前記制御に適した状態とは、前記発話を行ったユーザが前記制御対象機器の周囲において検出され、かつ前記発話を行ったユーザの視線が前記制御対象機器に向けられている状態であってもよい。

この構成によれば、制御対象機器の周囲にいる発話を行ったユーザが視線を制御対象機器に向けており、当該ユーザが制御対象機器に注目していると考えられる場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。

上記態様において、前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの目を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザが前記制御対象機器の周囲において検出されるか否か、および、前記発話を行ったユーザの視線が前記制御対象機器に向けられているか否かを判定することが好ましい。

この構成によれば、撮像装置が制御対象機器の周囲を撮像する場合には、撮像装置により撮像されたユーザの目を含む画像に基づき、制御対象機器の周囲にユーザが存在することを適切に検出することができる。一方、撮像装置が制御対象機器の周囲から離れた場所を撮像する場合には、撮像装置により撮像されたユーザの目を含む画像に基づき、制御対象機器の周囲にユーザが存在しないことを適切に検出することができる。また、撮像装置により撮像された画像に含まれたユーザの目の画像から、ユーザの視線が制御対象機器に向けられているか否かを適切に判定することができる。

上記態様において、前記制御に適した状態とは、前記発話を行ったユーザの顔が前記制御対象機器に向けられている状態であってもよい。

この構成によれば、発話を行ったユーザが顔を制御対象機器に向けており、当該ユーザが制御対象機器に注目していると考えられる場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。

上記態様において、前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの顔を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザの顔が前記制御対象機器に向けられているか否かを判定することが好ましい。

この構成によれば、撮像装置により撮像された画像に含まれたユーザの顔の画像から、ユーザの顔が制御対象機器に向けられているか否かを適切に判定することができる。

上記態様において、前記制御に適した状態とは、前記発話を行ったユーザの胴体が前記制御対象機器に向けられている状態であってもよい。

この構成によれば、発話を行ったユーザが胴体を制御対象機器に向けており、当該ユーザが制御対象機器に注目していると考えられる場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。

上記態様において、前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの胴体を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザの胴体が前記制御対象機器に向けられているか否かを判定することが好ましい。

この構成によれば、撮像装置により撮像された画像に含まれたユーザの胴体の画像から、ユーザの胴体が制御対象機器に向けられているか否かを適切に判定することができる。

上記態様において、前記制御装置は、さらに、
前記機器を制御するための第一発話に対する確認応答文を読み上げた後に当該確認応答文に対する第二発話を検知した場合、当該第一発話および当該第二発話の発話者が同一であるか否かを判定し、
前記第一発話および前記第二発話の発話者が同一であると判定した場合、当該第一発話に対応する機器制御命令を生成してもよい。

この構成によれば、周囲の雑音等の音声を第二発話であると誤認識した場合に、第一発話に対応する機器制御が行われることを防止することができる。

上記態様において、前記第一発話および前記第二発話の発話者が同一であるか否かの判定は、当該第一発話および当該第二発話の声紋を比較することにより行うことが好ましい。

この構成によれば、第一発話及び第二発話の声紋により、第一発話および第二発話の発話者が同一であるか否かを精度良く判定することができる。

上記態様において、前記制御装置は、さらに、
前記機器を制御するための第三発話に対応する機器制御命令が生成されてから所定の期間が経過する前に当該機器を制御するための第四発話を検知した場合、当該第三発話および当該第四発話の発話者が同一であるか否かを判定し、
前記第三発話および前記第四発話の発話者が同一であると判定された場合、前記第四発話に対応する確認応答文を生成することなく、前記第四発話に対応する機器制御命令を生成してもよい。

この構成によれば、一のユーザによって連続して同一機器を制御するための発話が行われた場合に、当該ユーザに対して、連続して確認応答文を読み上げることを回避することができる。これにより、ユーザの利便性を向上することができる。

上記態様において、前記第三発話および前記第四発話の発話者が同一であるか否かの判定は、当該第三発話および当該第四発話の声紋を比較することにより行うことが好ましい。

この構成によれば、第三発話及び第四発話の声紋により、第三発話および第四発話の発話者が同一であるか否かを精度良く判定することができる。

上記態様において、前記制御装置は、さらに、前記集音装置に入力された音声データから、音声による機器制御の契機を意味する所定の単語の検知を継続的に試み、
前記所定の単語を検知した場合、
前記制御に適した状態であるか否かの判定結果によらず、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成するようにしてもよい。

この構成によれば、ユーザが機器制御の契機を意味する所定の単語を発話し、当該ユーザが機器制御を行う意図が明確な場合には、確認応答文を読み上げることなく、迅速に発話に対応する機器制御を行うことができる。これにより、ユーザの利便性を向上することができる。

上記態様において、前記制御装置は、さらに、前記制御に適した状態でないと判定した場合、前記制御に適した状態であるか否かの判定を継続し、
前記発話を検知してから所定の期間内に、前記制御に適した状態であると判定した場合、前記発話に対応する機器制御命令を生成してもよい。

この構成によれば、ユーザの状態及び制御対象機器の周囲の状態が制御に適した状態にない場合に、機器を制御するための発話が行われたとしても、当該発話後、所定期間内に、ユーザの状態または制御対象機器の周囲の状態が制御に適した状態に遷移することで、発話に対応する機器制御を行うことができる。これにより、ユーザが移動中に機器を制御するための発話を行うといったシーンにおいてユーザの利便性を向上することができる。

また、本開示は、以上のような特徴的な処理を実行する制御方法だけでなく、制御方法に含まれる特徴的なステップを実行するための処理部を備える制御装置も開示する。また、このような制御方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムも開示する。このようなコンピュータプログラムを、ＣＤ−ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。

（実施の形態１）
図１は、実施の形態１における音声対話装置の全体像の一例を示す図である。図１に示すように、音声対話装置１００は、光ファイバ、無線、公衆電話回線などの不図示のネットワークにより制御対象機器１４０と接続されている。尚、音声対話装置１００には、少なくとも１つ以上の制御対象機器１４０が接続されていればよい。または、物理的に音声対話装置１００を各制御対象機器１４０にそれぞれ組み込む構成としてもよい。

音声対話装置１００は、入力部１１０、音声対話処理部１２０、及び出力部１３０を備えている。

入力部１１０は、センサ部１１１と音声入力部１１２とを備えている。センサ部１１１は、制御対象機器１４０の周囲の状態に関する情報を取得可能なデバイスを一つ以上備えている。例えば、センサ部１１１は、人感センサ、カメラ（撮像装置）及び視線センサを備えている。

人感センサは、赤外線や超音波等を用いて制御対象機器１４０から所定距離内に人物が存在するか否かを検出し、検出結果を示すデータ（センサーデータ）を後述の音声対話処理部１２０へ出力する。カメラは、制御対象機器１４０を含む所定の範囲を撮像し、撮像した画像を示すデータ（センサーデータ）を後述の音声対話処理部１２０へ出力する。

視線センサは、制御対象機器１４０を含む所定範囲を撮像するカメラ（以下、内蔵カメラ）を内蔵している。視線センサは、内蔵カメラが撮像した画像に含まれている黒目及び白目の領域に基づき人物の視線の方向を特定し、特定した人物の視線の方向を示すデータ（センサーデータ）を後述の音声対話処理部１２０へ出力する。人物の視線の方向は、例えば内蔵カメラが撮像した画像における垂直方向等の所定方向を基準とし、人物の視線の方向が何度傾いているかによって示される。尚、視線センサが、人物の視線の方向を他の形式で示すデータを出力するようにしてもよい。

また、センサ部１１１は、制御対象機器１４０を含む所定範囲を赤外線で撮影した画像を示すデータを出力する赤外線カメラや、制御対象機器１４０付近の温度を検出し、検出した温度を示すデータを出力する温度センサ等、制御対象機器１４０の周囲の状態に関する情報を取得可能な他のデバイスを備えていてもよい。

音声入力部１１２は、集音デバイス（集音装置）に入力された音声データを、後述の音声対話処理部１２０へ出力する。集音デバイスには、例えば、音声対話装置１００の本体に取り付けられた指向性マイクや、有線または無線で音声対話装置１００と接続されたハンドマイク、ピンマイク及び卓上マイク等が含まれる。また、音声入力部１１２が、スマートフォンやタブレット等の集音機能及び通信機能を有するデバイスとの間で通信を行うことで、当該デバイスに入力された音声データを取得し、当該取得した音声データを後述の音声対話処理部１２０へ出力するようにしてもよい。

音声対話処理部１２０は、プログラムによって動作するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によって実現される。音声対話処理部１２０は、状態認識部１２１（判定部）、音声認識部１２２（検知部）、意図理解部１２３（識別部）、行動選択部１２４、機器制御部１２５、応答生成部１２６（生成部）、及び音声合成部１２７として動作する。

状態認識部１２１は、センサ部１１１が出力した一つ以上のデータ（以下、出力データ）に基づき、ユーザの状態または制御対象機器１４０の周囲の状態が制御に適した状態であるか否かを判定する。

状態認識部１２１は、公知のパターン認識処理を実行することにより、上記カメラの出力データが示す制御対象機器１４０の周囲の画像に人物が含まれていないと認識した場合、制御対象機器１４０の周囲に人物が検出されない状態であると判断する。この場合、制御対象機器１４０の扉の開閉など動きのある制御を行っても事故が発生する虞が低いと考えられるので、状態認識部１２１は、制御対象機器１４０の周囲の状態が制御に適した状態であると判定する。

また、上記人感センサの出力データが示す検出結果が、制御対象機器１４０から所定距離内に人物が存在しないことを示していたとする。この場合も、状態認識部１２１は、制御対象機器１４０の周囲に人物が検出されない状態であると判断し、制御対象機器１４０の周囲の状態が制御に適した状態であると判定する。

一方、上記カメラの出力データが示す制御対象機器１４０の周囲の画像に人物が含まれていたとする。または、上記人感センサの出力データが示す検出結果が、制御対象機器１４０から所定距離内に人物が存在することを示していたとする。これらの場合、状態認識部１２１は、人物が制御対象機器１４０の周囲において検出された状態であると判断する。この場合、状態認識部１２１は、予め記憶されている上記視線センサ及び制御対象機器１４０の配置位置を示す情報に基づき、上記視線センサの出力データが示す人物の視線の方向が、上記視線センサの配置位置から制御対象機器１４０の配置位置に向かう方向であるか否かを判定する。

状態認識部１２１は、人物の視線の方向が視線センサの配置位置から制御対象機器１４０の配置位置に向かう方向であると判定すると、当該人物の視線が制御対象機器１４０に向けられていると判断する。この場合、当該人物は、制御対象機器１４０を使用するために制御対象機器１４０に視線を向け、制御対象機器１４０に注目している、制御対象機器１４０のユーザであると考えられる。このため、状態認識部１２１は、当該人物の視線が制御対象機器１４０に向けられていると判断した場合、制御対象機器１４０のユーザの状態が制御に適した状態であると判定する。

尚、状態認識部１２１が、人物が制御対象機器１４０の周囲において検出された状態であると判断した場合に、上記カメラの出力データが示す制御対象機器１４０の周囲の画像に基づき、当該人物の視線、顔、又は胴体が制御対象機器１４０に向けられている状態であるか否かを判断するようにしてもよい。そして、状態認識部１２１が、当該人物の視線、顔、又は胴体が制御対象機器１４０に向けられている状態であると判断した場合にも、制御対象機器１４０のユーザの状態が制御に適した状態であると判定するようにしてもよい。

この場合、状態認識部１２１が、公知のパターン認識処理を実行することにより、上記カメラの出力データが示す制御対象機器１４０の周囲の画像に人物の目が含まれていると認識した場合に、黒目及び白目の領域と予め記憶されている上記カメラ及び制御対象機器１４０の配置位置を示す情報とに基づき、人物の視線が制御対象機器１４０に向いているか否かを判断するようにすればよい。

同様に、状態認識部１２１が、公知のパターン認識技術を用いて、上記カメラの出力データが示す制御対象機器１４０の周囲の画像に人物の顔又は胴体が含まれていると認識した場合に、人物の顔又は胴体の領域と、予め記憶されている上記カメラ及び制御対象機器１４０の配置位置を示す情報と、に基づき、人物の顔又は胴体が制御対象機器１４０に向いているか否かを判断するようにすればよい。

音声認識部１２２は、公知の音声認識処理を実行することにより、音声入力部１１２が出力した音声データが示す音声に含まれている人物の発話の音声を検知し、当該発話の内容を表すテキストデータを生成する。

意図理解部１２３は、公知の言語解析処理を実行することにより、音声認識部１２２が生成したテキストデータが表す発話の内容を解析し、当該発話の意図解釈を行う。例えば、意図理解部１２３は、所謂ルールベースの言語解析処理を実行することにより、発話の内容を解析する。具体的には、意図理解部１２３は、予め定めたルールにおいて、音声対話装置１００で実行可能なタスクに対応付けられている他動詞の単語が発話の内容に含まれていた場合、当該発話は、当該他動詞の単語に対応付けられたタスクの実行を要求する発話であると解釈する。尚、音声対話装置１００で実行可能なタスクには、機器を制御するためのタスクや、インターネットで提供されている情報を取得するためのタスク等が含まれる。

また、意図理解部１２３は、発話の内容に含まれている名詞の単語をタスクのパラメータとして解釈する。例えば、機器を制御するためのタスクのパラメータには、制御の対象となる制御対象機器が含まれる。情報を取得するためのタスクのパラメータには、取得する対象の情報や、当該情報の取得先にアクセスするためのアドレス情報等が含まれる。つまり、意図理解部１２３は、機器を制御するためのタスクの実行を要求する発話の内容に含まれている名詞の単語を、当該機器を制御する対象の制御対象機器１４０として識別する。

意図理解部１２３による発話の意図解釈の具体例について以下に説明する。本具体例では、制御対象機器１４０として冷蔵庫及び電子レンジが音声対話装置１００に接続されているとする。また、音声認識部１２２が生成したテキストデータが表す発話の内容が「冷蔵庫を開けて」であるとする。また、上記ルールにおいて、制御対象機器１４０の扉を開ける制御を行うためのタスクに、他動詞「開けて」が対応付けられているとする。

この場合、制御対象機器１４０の扉を開ける制御を行うためのタスクに対応付けられた他動詞「開けて」が発話の内容「冷蔵庫を開けて」に含まれている。このため、意図理解部１２３は、当該発話は、制御対象機器１４０の扉を開ける制御を行うためのタスクの実行を要求する発話であると解釈する。

また、意図理解部１２３は、発話の内容「冷蔵庫を開けて」に名詞の単語「冷蔵庫」が含まれているので、当該タスクのパラメータが冷蔵庫であると解釈する。つまり、意図理解部１２３は、冷蔵庫を制御対象機器１４０として識別する。このようにして、意図理解部１２３は、当該発話が、冷蔵庫の扉を開ける制御を行うことを要求する発話であると解釈する。

尚、意図理解部１２３は、所謂機械学習などの統計的な解析手法等、他の解析手法で発話の内容を解析し、発話の意図解釈を行うようにしてもよい。

行動選択部１２４は、意図理解部１２３による意図解釈の結果及び状態認識部１２１による判定結果に基づき、機器制御部１２５に機器制御を実行させるか、応答生成部１２６に確認応答文を生成させるか、または、他のタスクを実行するかを選択する。確認応答文については後述する。

機器制御部１２５は、行動選択部１２４による指示の下、制御対象機器１４０を制御するための機器制御命令を生成し、当該機器制御命令を制御対象機器１４０へ出力する。これにより、制御対象機器１４０は、機器制御部１２５から入力された機器制御命令に従った動作を行う。

応答生成部１２６は、行動選択部１２４による指示の下、確認応答文を生成し、当該確認応答文を表すテキストデータを音声合成部１２７へ出力する。確認応答文とは、発話の内容をユーザに確認させ、確認結果を回答させるための文章である。例えば、発話の内容が「冷蔵庫を開けて」の場合、確認応答文は「冷蔵庫を開けますか」となり、発話の内容を問い返すような内容となる。

具体的には、行動選択部１２４は、応答生成部１２６に確認応答文を生成させる場合、意図理解部１２３に入力された発話の内容を表すテキストデータを、応答生成部１２６へ出力する。応答生成部１２６は、公知の言語解析処理を実行することにより、当該入力されたテキストデータが表す発話の内容を解析し、当該発話の内容を問い返す内容の確認応答文を生成する。

音声合成部１２７は、公知の音声合成処理を実行することにより、応答生成部１２６によって入力された確認応答文を表すテキストデータを当該確認応答文を表す音声データに変換し、出力部１３０へ出力する。

出力部１３０は、一以上の音声出力部１３１を備えている。音声出力部１３１は、音声合成部１２７が出力した音声データが表す音声を出力する。音声出力部１３１は、例えば音声対話装置１００に組み込まれたスピーカである。尚、音声出力部１３１を、有線または無線によって音声対話装置１００に接続されたスピーカで構成してもよい。

実施の形態１の例では、出力部１３０は、一以上の音声出力部１３１を備えているが、音声出力部１３１の代わりに、音声対話装置１００に組み込まれたディスプレイなどの表示デバイスや、音声対話装置１００に接続された外部の表示デバイスに、応答生成部１２６が生成したテキストデータが表す確認応答文等を表示するようにしてもよい。

また、入力部１１０、状態認識部１２１、音声認識部１２２、応答生成部１２６、音声合成部１２７及び出力部１３０を、音声対話装置１００に接続されている各制御対象機器１４０に設けるようにしてもよい。これに合わせて、音声対話装置１００との間で通信可能な外部サーバが、意図理解部１２３、行動選択部１２４、及び機器制御部１２５として動作するようにしてもよい。

以下、実施の形態１において、発話したユーザの状態または制御対象機器１４０の周囲の状態が制御に適した状態であるか否かに応じて、確認応答文を音声出力するか否かを判断し、機器制御を行うまでの処理フローを図２を用いて説明する。図２は、実施の形態１における音声対話装置１００の処理フローの一例を示す図である。

集音デバイスにユーザの発話を表す音声データが入力され、音声入力部１１２が当該音声データを音声認識部１２２へ出力すると（ステップＳ１０１：ＹＥＳ）、音声認識部１２２は、音声認識処理を実行することにより、入力された音声データが示す音声に含まれているユーザの発話の音声を検知し、当該発話の内容を表すテキストデータを生成する（ステップＳ１０２）。意図理解部１２３は、言語解析処理を実行することにより、音声認識部１２２が生成したテキストデータが表す発話の内容を解析し、当該発話の意図解釈を行う（ステップＳ１０３）。

意図理解部１２３によって、ユーザの発話が、機器を制御するためのタスクとは他のタスクの実行を要求する発話であると解釈された場合（ステップＳ１０４：ＮＯ）、行動選択部１２４は、意図理解部１２３による意図解釈の結果に基づき、ユーザが要求した上記他のタスクを実行する（ステップＳ１１１）。

一方、意図理解部１２３によって、ユーザの発話が、機器を制御するためのタスクの実行を要求する発話（以下、機器制御を要求する発話）であると解釈された場合（ステップＳ１０４：ＹＥＳ）、状態認識部１２１は、発話したユーザの状態（以下、ユーザの状態）または制御対象機器１４０の周囲の状態（以下、機器周囲の状態）が制御に適した状態にあるか否かを判定する（ステップＳ１０５）。

状態認識部１２１が、ユーザの状態または機器周囲の状態が制御に適した状態であると判定した場合（ステップＳ１０５：ＹＥＳ）、行動選択部１２４は、意図理解部１２３による意図解釈の結果に基づき、ユーザが要求している制御対象機器１４０の制御を行うよう、機器制御部１２５に指示する。これにより、機器制御部１２５は、当該指示された制御対象機器１４０の制御を行うための機器制御命令を生成し、当該機器制御命令を制御対象機器１４０へ出力する（ステップＳ１０６）。その結果、制御対象機器１４０は、入力された機器制御命令に従った動作を行う。

一方、状態認識部１２１が、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定した場合（ステップＳ１０５：ＮＯ）、行動選択部１２４は、応答生成部１２６に確認応答文を生成させる。応答生成部１２６が確認応答文を生成し、確認応答文を示すテキストデータを出力すると、行動選択部１２４は、音声合成部１２７に当該確認応答文を表す音声データを生成させ、音声出力部１３１に、当該音声データが表す確認応答文を表す音声を出力させる（ステップＳ１０７）。つまり、音声出力部１３１は、確認応答文を音声により読み上げる。

これに応じて、ユーザが、例えば「はい」「ＹＥＳ」等の確認を受理する発話（以下、確認受理発話）を行ったとする。この場合、図２においては図示を省略しているが、ステップＳ１０１〜Ｓ１０３と同様の処理が行われる。その結果、意図理解部１２３によってユーザの発話が確認受理発話であると解釈されると（ステップＳ１０８：ＹＥＳ）、行動選択部１２４は、上述のステップＳ１０６を実行する。

一方、ユーザにより確認受理発話がなされない状態で（ステップＳ１０８：ＮＯ）、予め定められた一定の時間が経過した場合、行動選択部１２４は、ユーザによる制御対象機器１４０の制御の要求をキャンセルする（ステップＳ１１０）。尚、上記の一定の時間は、制御対象機器１４０毎に個別に定められていてもよい。

また、ユーザにより発話がなされたことにより、ステップＳ１０１〜Ｓ１０２と同様の処理が行われた結果、意図理解部１２３によって、ユーザの発話が確認受理発話でないと解釈された場合（ステップＳ１０９：ＹＥＳ）も、行動選択部１２４は、ユーザによる制御対象機器１４０の制御の要求をキャンセルする（ステップＳ１１０）。

以上で述べた本実施の形態１の音声対話装置１００によれば、ユーザが機器の制御を要求する発話を行った場合に、ユーザの状態または制御対象機器１４０の周囲の状態が制御に適した状態である場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。一方、ユーザの状態及び制御対象機器１４０の周囲の状態が制御に適した状態でない場合には、確認応答文を読み上げ、周囲の雑音等の音声の誤認識によって機器を誤動作させる虞を抑制することができる。

また、状態認識部１２１は、発話したユーザの視線、顔または胴体が制御対象機器１４０に向けられていない状態であると判断した場合、ユーザの状態が制御に適した状態ではないと判定する。この場合、確認応答文が読み上げられる。これにより、ユーザが制御対象機器１４０に注目していない状態のときに、確認応答文が読み上げられずに、制御対象機器１４０の扉の開閉など動きのある制御が行われることで事故が発生する危険性を排除することができる。

尚、ステップＳ１０３において、意図理解部１２３は、ユーザの発話の内容に、機器制御に関連する他動詞しか含まれていない場合、当該発話が機器制御を要求する発話であると解釈できても、発話の内容に名詞が含まれていないため、制御対象機器１４０を識別することができない。

この場合、意図理解部１２３は、制御対象機器１４０を問い合わせる問い合わせ文を生成し、音声合成部１２７及び音声出力部１３１を用いて、当該生成した問い合わせ文を音声で出力するようにしてもよい。これに応じて、ユーザにより制御対象機器１４０を示す発話が行われ、ステップＳ１０１、Ｓ１０２と同様の処理が行われた後、意図理解部１２３は、当該発話の内容に含まれる制御対象機器１４０を示す名詞を、上記タスクのパラメータ、つまり、制御対象機器１４０として識別するようにしてもよい。

また、ステップＳ１０８において、ユーザの発話が確認受理発話（第二発話）であると解釈された場合、ステップＳ１０１で出力された機器制御を要求する発話（第一発話）の音声データと、当該ステップＳ１０８におけるステップＳ１０１と同様の処理で出力された確認受理発話の音声データとにおいて、声紋が一致するか否かを判定し、一致する場合にのみ、ユーザにより要求された機器制御を行うようにしてもよい。

以下、この場合の処理フローについて図３を用いて説明する。尚、状態認識部１２１がユーザの状態または機器周囲の状態が制御に適した状態であるか否かを判定するまでの処理フローは、図２に示したステップＳ１０１〜Ｓ１０５と同じであるため説明を省略する。

状態認識部１２１がユーザの状態及び機器周囲の状態が制御に適した状態でないと判定した場合（ステップＳ１０５：ＮＯ）、行動選択部１２４は、ステップＳ１０１で出力された、機器制御に関するタスクの実行を要求する発話（以下、制御要求発話）の音声データを記憶する（ステップＳ２０１）。

そして、行動選択部１２４は、ステップＳ１０７と同様にして、応答生成部１２６に確認応答文を生成させ、音声合成部１２７及び音声出力部１３１を用いて、当該確認応答文を表す音声を出力させる（ステップＳ２０２）。

これに応じて、ユーザが確認受理発話を行った結果、ステップＳ１０８と同様の処理により、意図理解部１２３によってユーザの発話が確認受理発話であると解釈されたとする（ステップＳ２０３：ＹＥＳ）。この場合、行動選択部１２４は、公知の声紋比較処理を実行することにより、ステップＳ２０１で記憶した制御要求発話の音声データが表す音声の声紋と、ステップＳ２０３におけるステップＳ１０１と同様の処理で出力された確認受理発話の音声データが表す音声の声紋と、が一致するか否かを判定する（ステップＳ２０４）。

行動選択部１２４は、声紋が一致すると判定した場合、制御要求発話を行ったユーザと確認受理発話を行ったユーザとが同一人物であると判断し（ステップＳ２０４：ＹＥＳ）、ステップＳ１０６と同様にして、ユーザが要求している機器制御を機器制御部１２５に実行させる（ステップＳ２０５）。

一方、行動選択部１２４は、声紋が一致しないと判定した場合（ステップＳ２０４：ＮＯ）、制御要求発話を行ったユーザと確認受理発話を行ったユーザとが同一人物でないと判断し、ユーザによる制御の要求をキャンセルする（ステップＳ２０７）。これにより、周囲の雑音等の音声を確認受理発話であるとして誤認識した場合に、制御要求発話によって要求された機器制御が行われることを防止することができる。

ユーザにより確認受理発話がなされない状態で（ステップＳ２０３：ＮＯ）、予め定められた一定の時間が経過した場合、または、ステップＳ２０３においてユーザの発話が確認受理発話でないと解釈された場合（ステップＳ２０３：ＹＥＳ）も、行動選択部１２４は、ユーザによる制御の要求をキャンセルする（ステップＳ２０７）。

また、機器を制御するための第一の発話（第三発話）が検知されたことにより、第一の発話に対応する機器制御命令が生成されてから、所定の期間が経過する前に当該機器を制御するための第二の発話（第四発話）が検知された場合、第一の発話の音声データと第二の発話の音声データとにおいて、声紋が一致するか否かを判定し、一致する場合は、確認応答文を生成することなく、第二の発話に対応する機器制御命令を生成してもよい。以下、この場合の処理フローについて図４を用いて説明する。

図２に示した処理フローに従い、第一の発話に対応する機器制御命令が機器制御部１２５により生成され、第一の発話に対応する機器制御が実施された場合（ステップＳ３０１：ＹＥＳ）、行動選択部１２４は、図２に示すステップＳ１０１で出力された第一の発話の音声データを記憶する（ステップＳ３０２）。

この状態で、第二の発話が行われ、ステップＳ１０１〜Ｓ１０３と同様の処理が行われた結果、意図理解部１２３により、第二の発話が、第一の発話に対応する機器制御が対象とする制御対象機器１４０と同じ制御対象機器１４０の機器制御を要求する発話であると解釈されたとする（ステップＳ３０４：ＹＥＳ）。この場合、状態認識部１２１は、ステップＳ１０５と同様、ユーザの状態または機器周囲の状態が制御に適した状態にあるか否かを判定する（ステップＳ３０５）。

状態認識部１２１が、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定した場合（ステップＳ３０５：ＮＯ）、行動選択部１２４は、公知の声紋比較処理を実行することにより、ステップＳ３０２で記憶した第一の発話の音声データが表す音声の声紋と、ステップＳ３０４におけるステップＳ１０１と同様の処理で出力された第二の発話の音声データが表す音声の声紋と、が一致するか否かを判定する（Ｓ３０７）。

行動選択部１２４は、声紋が一致すると判定した場合、第一の発話を行ったユーザと第二の発話を行ったユーザとが同一人物であると判断し（ステップＳ３０７：ＹＥＳ）、ステップＳ１０６と同様にして、第二発話により要求された機器制御を機器制御部１２５に実行させる（ステップＳ３０６）。

一方、行動選択部１２４は、声紋が一致しないと判定した場合（ステップＳ３０７：ＮＯ）、第一の発話を行ったユーザとは別のユーザが第二の発話を行ったと判断し、図２に示す、ステップＳ１０７を行う。これにより、第一の発話を行ったユーザとは別のユーザが機器制御を要求する第二の発話を第一の発話の次に行った場合に、当該別のユーザの状態及び制御対象機器１４０の状態が制御に適した状態でないにも関わらず、第二の発話に対する確認応答文を読み上げずに、第二の発話に対応する機器制御が実施されることを抑制することができる。

また、第一の発話に対応する機器制御が対象とする制御対象機器１４０と同じ制御対象機器１４０の機器制御を要求する第二の発話がなされない状態で（ステップＳ３０４：ＮＯ）、予め決められた一定の期間が経過した場合（ステップＳ３０９：ＹＥＳ）、行動選択部１２４は、ステップＳ３０２で記憶した第一の発話の音声データを破棄する（ステップＳ３１０）。

図４に示す処理フローに従って処理を行えば、同一ユーザによって連続して同一機器の機器制御を要求する発話が行われた場合に、当該ユーザが連続して確認受理発話を行うことを回避することができる。

尚、図２〜図４に示す各処理フローに従って処理が行われ、制御対象機器１４０の機器制御が行われた後、一定の時間が経過しても制御対象機器１４０を当該機器制御を行う前の状態に戻す制御が行なわれなかったとする。この場合、行動選択部１２４は、自動的に当該機器制御を行う前の状態に戻す制御を行うようにしてもよい。

例えば、ユーザの発話により要求された冷蔵庫の扉を開ける制御が実施されたとする。この状態で、一定の時間が経過しても、冷蔵庫の扉を閉じる制御を要求する発話が行われなかった場合、行動選択部１２４は、自動的に冷蔵庫の扉を閉じる制御を行うようにしてもよい。これにより、扉の閉め忘れの防止と、万が一、周囲の雑音等の音声の誤認識によって機器を誤って動作させた場合でも、扉が開いたままの状態になることを防止することができる。つまり、扉の開閉制御のように、一方の制御を行った後、元の状態に戻す制御を行う場合において本構成は有用である。

また、状態認識部１２１が、公知のパターン認識技術を用いて、センサ部１１１が備えるカメラにより撮像された画像に人物が含まれている場合に、当該画像に含まれている人物の顔や胴体等の特徴を認識し、当該特徴に基づいて当該人物を特定するようにしてもよい。これに合わせて、音声対話装置１００を利用すると考えられる人物の声紋を予め記憶しておいてもよい。

そして、図３に示す処理フローにおいて、行動選択部１２４が、ステップＳ２０１を省略し、ステップＳ２０４において、予め記憶しておいた声紋のうち、当該状態認識部１２１が特定した、制御要求発話を行ったユーザの声紋を用いるようにしてもよい。同様に、図４に示す処理フローにおいて、行動選択部１２４が、ステップＳ３０２を省略し、ステップＳ３０７において、予め記憶しておいた声紋のうち、当該状態認識部１２１が特定した、第一の発話を行ったユーザの声紋を用いるようにしてもよい。

（実施の形態２）
実施の形態２では、集音デバイスに入力された音声データから、音声による機器制御の契機を意味する所定のトリガーワードの検知を継続的に試み、トリガ―ワードを検知した場合、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かの判定結果によらず、発話の意図解釈を行い、当該意図解釈の結果に基づき、発話に対応する機器制御命令を生成する点に特徴がある。尚、以下の説明では、説明の簡略化のため上記実施の形態１と同様の構成については同一の符号を付して説明を簡略化する。

図５は、実施の形態２における音声対話装置２００の全体像を示す図である。音声対話装置２００は、音声対話処理部２２０が更にトリガワード認識部２２８として動作する点が図１に示した音声対話装置１００と異なっている。また、音声認識部２２２が、生成したテキストデータをトリガワード認識部２２８にも出力する点が異なっている。また、意図理解部２２３が、状態認識部１２１による判定結果又はトリガワード認識部２２８による後述の判定結果に基づき、意図理解部１２３と同様の発話の意図解釈処理を有効にする点が異なっている。

トリガワード認識部２２８は、公知の言語解析処理を実行することにより、音声認識部２２２が生成したテキストデータが示す発話の内容を解析し、当該発話の内容に、音声による機器制御の契機を意味する所定のトリガワード（例えば、「マイクオン」等）が含まれているか否かを検知する。

以下、実施の形態２における処理フローを図６を用いて説明する。状態認識部１２１により、ユーザの状態または機器周囲の状態が制御に適した状態であると判定された場合（ステップＳ４０１：ＹＥＳ）、意図理解部２２３は、意図解釈処理を有効にする（ステップＳ４０３）。また、状態認識部１２１により、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定された場合（ステップＳ４０１：ＮＯ）、トリガワード認識部２２８によってトリガワードが検知されたときも（ステップＳ４０２：ＹＥＳ）、意図理解部２２３は、意図解釈処理を有効にする（ステップＳ４０３）。

状態認識部１２１により、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定され（ステップＳ４０１：ＮＯ）、トリガワード認識部２２８によってトリガワードが検知されなかったときは（ステップＳ４０２：ＮＯ）、ステップＳ４０１が行われる。これにより、トリガワード認識部２２８は、トリガワードの検知を継続的に試みる。

意図解釈処理が有効にされた状態で、集音デバイスにユーザの発話を表す音声データが入力され、音声入力部１１２が当該音声データを音声認識部２２２へ出力すると（ステップＳ４０４：ＹＥＳ）、意図理解部２２３は、音声認識部２２２が生成したテキストデータが表す発話の内容を解析し、当該発話の意図解釈を行う（ステップＳ４０５）。この場合、行動選択部１２４は、意図理解部２２３による意図解釈の結果に基づき、ユーザの発話により要求されたタスクを実行する（ステップＳ４０６）。

ステップＳ４０３で意図解釈処理が有効にされた後、ユーザによる発話がなされない状態で（ステップＳ４０４：ＮＯ）、予め決められた一定の時間が経過した場合、または、状態認識部１２１により、ユーザの状態もしくは機器周囲の状態が制御に適した状態ではないと判定された場合（ステップＳ４０７：ＹＥＳ）、意図理解部２２３は、意図解釈処理を無効にする（ステップＳ４０８）。

一方、予め定められた一定の時間が経過（タイムアウト）していない場合、または、状態認識部１２１により、ユーザの状態もしくは機器周囲の状態が制御に適した状態ではないと判定された場合（ステップＳ４０７：ＮＯ）は、ユーザによる発話を待機した状態となる。

以上で述べた実施の形態２の音声対話装置２００によれば、トリガワード認識部２２８によって、ユーザの発話がトリガワードの発話であると解釈された場合、状態認識部１２１による判定結果によらず、意図理解部２２３の意図解釈処理が有効になり、ユーザの発話に対応する機器制御が行われる。これにより、ユーザがトリガーワードを発話し、当該ユーザが機器制御を行う意図が明確な場合には、確認応答文を読み上げることなく、迅速に発話に対応する機器制御を行うことができる。これにより、ユーザの利便性が向上する。また、ユーザの状態または機器周囲の状態が制御に適した状態にある場合には、ユーザは、トリガワードの発話を行わずに、要求した機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。

尚、ステップＳ４０１を省略し、トリガワード認識部２２８が、トリガワードを検知するまで、ステップＳ４０２を繰り返すことで、トリガワードの検知を継続的に試みるようにしてもよい。そして、意図理解部２２３が、トリガワード認識部２２８によってトリガワードが検知された場合にのみ（ステップＳ４０２：ＹＥＳ）、意図解釈処理を有効にするようにしてもよい。

（実施の形態３）
実施の形態３では、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定された場合でも、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かの判定を継続し、ユーザによる発話を検知してから所定の期間内に、ユーザの状態または機器周囲の状態が制御に適した状態であると判定された場合、発話に対応する機器制御命令を生成する点に特徴がある。尚、以下の説明では、説明の簡略化のため上記実施の形態１と同様の構成については同一の符号を付して説明を簡略化する。

図７は、実施の形態３における音声対話装置３００の全体像を示す図である。音声対話装置３００は、音声対話処理部３２０に更に制御受理タイマ３２８が設けられている点が図１に示した音声対話装置１００と異なっている。また、行動選択部３２４が更に制御受理タイマ３２８による時間経過の通知に基づき、動作する点が異なっている。

制御受理タイマ３２８には、ユーザの状態及び機器周囲の状態が制御に適した状態ではない状態で機器制御を要求する発話が行われた場合に、当該発話が行なわれてから、ユーザの状態または機器周囲の状態が制御に適した状態へ移行するまでの許容時間が行動選択部３２４によって設定される。制御受理タイマ３２８は、当該許容時間が設定された後、当該許容時間が経過した時に、許容時間が経過したことを行動選択部３２４へ通知する。

行動選択部３２４は、ユーザの状態及び機器周囲の状態が制御に適した状態ではない状態で機器制御を要求する発話が行われた場合に、上記許容時間を制御受理タイマ３２８に設定する。行動選択部３２４は、当該設定後、制御受理タイマ３２８によって許容時間が経過したことが通知される前に、ユーザの状態または機器周囲の状態が制御に適した状態へ移行した場合、実施の形態１の行動選択部１２４と同様の動作を行う。

以下、実施の形態３における処理フローを図８を用いて説明する。尚、ステップＳ１０１〜Ｓ１０４、Ｓ１１１は、図２の処理フローと同様に実行されるため説明を省略する。ステップＳ１０２において音声認識部１２２によりユーザの発話が検知された後、意図理解部１２３によって当該ユーザの発話が機器制御を要求する発話であると解釈された場合（ステップＳ１０４：ＹＥＳ）、行動選択部３２４は、予め決められた許容時間を制御受理タイマ３２８に設定する（ステップＳ５０５）。許容時間が制御受理タイマ３２８に設定された後、状態認識部１２１は、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かを判定する（ステップＳ５０６）。

状態認識部１２１がユーザの状態または機器周囲の状態が制御に適した状態であると判定した場合（ステップ５０６：ＹＥＳ）、行動選択部３２４は、ステップＳ１０６と同様にして、ユーザが要求している機器制御を機器制御部１２５に実行させる（ステップＳ５０７）。

一方、状態認識部１２１がユーザの状態及び機器周囲の状態が制御に適した状態ではないと判定した場合（ステップＳ５０６：ＮＯ）、行動選択部３２４は、制御受理タイマ３２８から許容時間が経過したことが通知されるまで、ユーザの状態または機器周囲の状態が制御に適した状態に移行するのを待機する（ステップＳ５０８：ＮＯ）。これにより、行動選択部３２４は、状態認識部１２１によってユーザの状態及び機器周囲の状態が制御に適した状態でないと判定された場合でも（ステップＳ５０６：ＮＯ）、状態認識部１２１に、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かの判定を継続させている。

状態認識部１２１が、ユーザの状態または機器周囲の状態が制御に適した状態であると判定していない状態で、制御受理タイマ３２８から許容時間が経過したことが通知された場合（ステップＳ５０８：ＹＥＳ）、行動選択部３２４は、ユーザによる機器制御の要求をキャンセルする（ステップＳ５０９）。

以上で述べた実施の形態３の音声対話装置３００によれば、ユーザの状態及び機器周囲の状態が制御に適した状態でない場合に、機器制御を要求する発話が行われたとしても、当該発話後、許容時間が経過するまでの間に、ユーザの状態または機器周囲の状態が制御に適した状態に遷移することで、当該機器制御を行うことができる。

例えば、冷蔵庫への収納を目的として、ユーザが、玄関先等の冷蔵庫から離れた位置で、且つ、冷蔵庫の周囲に人物が存在する状態で、収納する食品を持ちながら、冷蔵庫の扉を開ける制御を要求する発話を行ったとする。このとき、実施の形態３の音声対話装置３００によれば、ステップＳ５０６において、状態認識部１２１は、ユーザの状態及び機器周囲の状態が制御に適した状態ではないと判定する。しかし、ユーザが上記発話後、許容時間が経過するまでの間に、冷蔵庫の前まで移動し、視線、顔、もしくは胴体を冷蔵庫に向けたとき、または、冷蔵庫の周囲に人物が存在しなくなったとき、ステップＳ５０６において、状態認識部１２１により、ユーザの状態が制御に適した状態になったと判定される。そして、ステップＳ５０７において、冷蔵庫の扉を開ける制御が実行される。

このように、実施の形態３の音声対話装置３００によれば、特に、制御対象機器１４０から離れた位置から制御対象機器１４０に近づく移動中に、機器制御を要求する発話を行うといったシーンにおいて、ユーザの利便性を向上することができる。尚、許容時間は、当該シーンを想定して例えば十数秒に定めればよい。ただし、許容時間をこれに限定する趣旨ではない。また、ステップＳ５０５において、行動選択部３２４が、ステップＳ１０４において識別された制御対象機器１４０に応じて個別に異なる許容時間を設定するようにしてもよい。

本開示は、音声対話装置と音声対話装置によって制御可能な機器、及び、音声によって制御可能な機能を有する機器において有用である。特に、冷蔵庫、電子レンジ、オーブン、家や部屋のドアなどの音声による開閉制御可能な機器、音声による水量調節可能な蛇口、及び音声による点火制御可能なガスコンロやＩＨクッキングヒータなど、制御対象機器の前への移動中や別の作業を行いながら制御するシーンか想定される機器において有用である。

１００、２００、３００音声対話装置
１１０入力部
１１１センサ部
１１２音声入力部
１２０、２２０、３２０音声対話処理部
１２１状態認識部
１２２、２２２音声認識部
１２３、２２３意図理解部
１２４、３２４行動選択部
１２５機器制御部
１２６応答生成部
１２７音声合成部
１３０出力部
１３１音声出力部
１４０制御対象機器
２２８トリガワード認識部
３２４行動選択部
３２８制御受理タイマ

Claims

音声により機器を制御する制御装置が行う制御方法であって、
集音装置に入力された音声データから、機器を制御するための発話を検知し、
前記発話から制御の対象である制御対象機器を識別し、
１以上のセンサーから取得されたセンサーデータに基づき、前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、
前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、
前記確認応答文を音声により読み上げる、
制御方法。
前記制御装置は、さらに、前記制御に適した状態であると判定した場合、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成する、
請求項１記載の制御方法。
前記制御に適した状態とは、前記制御対象機器の周囲に人物が検出されない状態である、
請求項１記載の制御方法。
前記センサーデータは、撮像装置により撮像された前記制御対象機器の周囲の画像であり、
前記制御装置は、前記画像に基づき、前記制御対象機器の周囲に人物が検出されるか否かを判定する、
請求項３記載の制御方法。
前記制御に適した状態とは、前記発話を行ったユーザが前記制御対象機器の周囲において検出され、かつ前記発話を行ったユーザの視線が前記制御対象機器に向けられている状態である、
請求項１記載の制御方法。
前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの目を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザが前記制御対象機器の周囲において検出されるか否か、および、前記発話を行ったユーザの視線が前記制御対象機器に向けられているか否かを判定する、
請求項５記載の制御方法。
前記制御に適した状態とは、前記発話を行ったユーザの顔が前記制御対象機器に向けられている状態である、
請求項１記載の制御方法。
前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの顔を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザの顔が前記制御対象機器に向けられているか否かを判定する、
請求項７記載の制御方法。
前記制御に適した状態とは、前記発話を行ったユーザの胴体が前記制御対象機器に向けられている状態である、
請求項１記載の制御方法。
前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの胴体を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザの胴体が前記制御対象機器に向けられているか否かを判定する、
請求項９記載の制御方法。
前記制御装置は、さらに、
前記機器を制御するための第一発話に対する確認応答文を読み上げた後に当該確認応答文に対する第二発話を検知した場合、当該第一発話および当該第二発話の発話者が同一であるか否かを判定し、
前記第一発話および前記第二発話の発話者が同一であると判定した場合、当該第一発話に対応する機器制御命令を生成する、
請求項１記載の制御方法。
前記第一発話および前記第二発話の発話者が同一であるか否かの判定は、当該第一発話および当該第二発話の声紋を比較することにより行う、
請求項１１記載の制御方法。
前記制御装置は、さらに、
前記機器を制御するための第三発話に対応する機器制御命令が生成されてから所定の期間が経過する前に当該機器を制御するための第四発話を検知した場合、当該第三発話および当該第四発話の発話者が同一であるか否かを判定し、
前記第三発話および前記第四発話の発話者が同一であると判定された場合、前記第四発話に対応する確認応答文を生成することなく、前記第四発話に対応する機器制御命令を生成する、
請求項１記載の制御方法。
前記第三発話および前記第四発話の発話者が同一であるか否かの判定は、当該第三発話および当該第四発話の声紋を比較することにより行う、
請求項１３記載の制御方法。
前記制御装置は、さらに、前記集音装置に入力された音声データから、音声による機器制御の契機を意味する所定の単語の検知を継続的に試み、
前記所定の単語を検知した場合、
前記制御に適した状態であるか否かの判定結果によらず、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成する、
請求項１記載の制御方法。
前記制御装置は、さらに、前記制御に適した状態でないと判定した場合、前記制御に適した状態であるか否かの判定を継続し、
前記発話を検知してから所定の期間内に、前記制御に適した状態であると判定した場合、前記発話に対応する機器制御命令を生成する、
請求項１記載の制御方法。
音声により機器を制御する制御装置であって、
集音装置に入力された音声データから、機器を制御するための発話を検知する検知部と、
前記発話から制御の対象である制御対象機器を識別する識別部と、
１以上のセンサーから取得されたセンサーデータに基づき、前記発話を発した前記ユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定する判定部と、
前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成する生成部と、
前記確認応答文を音声により読み上げる出力部と、
を備える制御装置。
コンピュータを、音声により機器を制御する制御装置として機能させるためのプログラムであって、
前記コンピュータに、
集音装置に入力された音声データから、機器を制御するための発話を検知し、
前記発話から制御の対象である制御対象機器を識別し、
１以上のセンサーから取得されたセンサーデータに基づき、前記発話を発した前記ユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、
前記確認応答文を音声により読み上げる、
ことを実行させるプログラム。