WO2016136062A1

WO2016136062A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2016136062A1
Application number: PCT/JP2015/083232
Authority: WO
Inventors: 一美青山; 伊藤　洋子
Original assignee: ソニー株式会社
Priority date: 2015-02-27
Filing date: 2015-11-26
Publication date: 2016-09-01
Also published as: JPWO2016136062A1; US20170337921A1; EP3264258A4; EP3264258A1

Abstract

【課題】音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様で制御する。【解決手段】取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、及びプログラム

　本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

　近年では、文字情報を音声に変換する音声合成技術や、ユーザが発話した内容を文字情報として認識する音声認識技術、及び、文章が示す内容を認識する自然言語処理技術が発展してきている。そのため、これらの技術を応用することで、ユーザが、テレビ受像機等の各種家電機器や、パーソナルコンピュータ等の情報機器と、音声により対話を行うことで、当該機器を操作可能とした、音声入力に基づく対話型のユーザインタフェース（ＵＩ：User　Interface）が普及してきている。例えば、特許文献１には、ユーザとの対話により、意図する動作を当該ユーザに対して指示することが可能な情報処理装置の一例が開示されている。

特開２００５－３９２６号公報

　一方で、対話で使用される語句の中には、「午後３時」と「１５時」とのように、同じ意味を持つが表現の異なる語句（即ち、異なる表現を有する語句）が存在し、ユーザに応じて日常的に使用する語句が異なる場合がある。そのため、ユーザの音声入力に対して、当該ユーザが日常的に使用する語句とは異なる表現で応答が出力された場合に、当該ユーザが応答に対して違和感をもつ場合がある。

　また、ユーザとの対話が行われる状況（例えば、ユーザの状態や周囲の環境）も常に一定とは限らず、ある状況においてユーザがより自然に感じる応答に対して、他の状況下では、当該ユーザが違和感をもつ場合もある。

　そのため、音声入力に基づく対話型のユーザインタフェースとして、ユーザや状況の変化に応じて、より自然な（即ち、より違和感の少ない）態様でユーザとの間の対話を実現可能なものが求められている。

　そこで、本開示では、音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様で制御することが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。

　本開示によれば、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、を備える、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、を含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータに、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、を実行させる、プログラムが提供される。

　以上説明したように本開示によれば、音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様で制御することが可能な、情報処理装置、情報処理方法、及びプログラムが提供される。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理装置の概要について説明するための説明図である。同実施形態に係る情報処理装置の機能構成の一例について示したブロック図である。音声入力が示す意味内容の解析と、当該解析の結果に基づく処理の一例について説明するための説明図である。ユーザの状態と落ち着き度との関係の一例について説明するための説明図である。ユーザの状態と落ち着き度との関係の一例について説明するための説明図である。ユーザの状態と落ち着き度との関係の一例について説明するための説明図である。継続的な情報として記憶される応答パラメータの一例について説明するための説明図である。同実施形態に係る情報処理装置の一連の動作の流れの一例を示したフローチャートである。同実施形態に係る情報処理装置の動作の一例を示したフローチャートである。同実施形態に係る情報処理装置の動作の一例を示したフローチャートである。変形例１に係る情報処理装置１の概要について説明するための説明図である。変形例１に係る情報処理装置１の概要について説明するための説明図である。実施形態に係る情報処理装置の実施例について説明するための説明図である。実施形態に係る情報処理装置の実施例について説明するための説明図である。実施形態に係る情報処理装置の実施例について説明するための説明図である。実施形態に係る情報処理装置の実施例について説明するための説明図である。同実施形態に係る情報処理装置のハードウェア構成の一例を示した図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．概要
　２．機能構成
　３．処理
　４．変形例
　　４．１．変形例１：認識した各種状態のフィードバック
　　４．２．変形例２：個人の認識結果と状況に応じた応答内容の制御例
　５．実施例
　６．ハードウェア構成
　７．まとめ

　＜１．概要＞
　まず、図１を参照して、本開示の一実施形態に係る情報処理装置の概要について説明したうえで、本実施形態に係る情報処理装置の課題について整理する。図１は、本実施形態に係る情報処理装置１の概要について説明するための説明図である。

　図１に示すように、本実施形態に係る情報処理装置１は、所謂対話型のユーザインタフェース（ＵＩ：User　Interface）を適用することで、ユーザにより発話された音声を入力情報（以降では、「音声入力」と称する場合がある）とし、当該音声入力に基づき各種処理を実行可能に構成されている。具体的には、情報処理装置１は、ユーザからの音声入力を音響情報として取得し、当該音響情報を、音声認識技術や自然言語処理技術に基づき解析することで、当該ユーザが発話した内容を認識する。そして、情報処理装置１は、音声入力を基に認識した内容に応じて、各種処理を実行し、当該実行結果を示す自然文を、音声（音響情報）や文字情報（表示情報）としてユーザに提示する。

　例えば、図１に示す例では、情報処理装置１は、ユーザＵｂの「ロンドンは何時？」という音声入力ｃ１０ｂを受けて、ロンドンの時間を確認し、当該確認の結果に基づき、「午後５時です」という応答情報ｃ１１ｂを音声として出力している。

　この場合には、情報処理装置１は、例えば、音声入力ｃ１０ｂの解析結果に基づき、当該音声入力ｃ１０ｂが示す指示内容（即ち、ロンドンの現在時刻の確認）を認識する。そして、情報処理装置１は、音声入力ｃ１０ｂが示す指示内容の認識結果に基づき、例えば、国ごとの時刻を確認するためのアプリケーション（例えば、計時機能を提供するアプリケーション）を実行することで、ロンドンの時刻を確認する。そして、情報処理装置１は、時刻の確認結果に基づき、当該確認結果を自然文として提示するための応答情報ｃ１１ｂを生成し、当該応答情報ｃ１１ｂを音声として出力する。

　また、情報処理装置１は、音声入力の解析結果や、当該音声入力以外に取得される情報（例えば、撮像された画像情報）を基に、所謂個人認識技術に基づきユーザ個人を認識し、当該認識結果に応じて各種処理を実行してもよい。

　例えば、図１に示す例では、情報処理装置１は、ユーザＵａの「明日午後１時の予定を教えて」という音声入力ｃ１０ａを受けて、当該ユーザＵａのスケジュールを確認し、当該確認の結果に基づき、「山田さんとＡ会議室で打ち合わせです」という応答情報ｃ１１ａを音声として出力している。

　この場合には、情報処理装置１は、例えば、音声入力ｃ１０ａの解析結果に基づき、当該音声入力ｃ１０ａが示す指示内容（即ち、明日午後１時のスケジュールの確認）を認識する。また、情報処理装置１は、例えば、音声入力ｃ１０ａの解析結果や、別途撮像部（図示しない）により撮像されたユーザＵａの画像に基づき、ユーザＵａを個人認識する。そして、情報処理装置１は、音声入力ｃ１０ａが示す指示内容の認識結果と、ユーザＵａの個人認識の結果とに基づき、例えば、スケジュールを管理するためのアプリケーションを実行することで、当該アプリケーションに登録されたユーザＵａのスケジュールを確認する。そして、情報処理装置１は、スケジュールの確認結果に基づき、当該確認結果を自然文として提示するための応答情報ｃ１１ａを生成し、当該応答情報ｃ１１ａを音声として出力する。

　このような構成により、ユーザは、情報処理装置１との間で音声により対話を行うことで、情報処理装置１に各種機能を実行させることが可能となる。

　一方で、人と人との間（即ち、ユーザ間）の対話で使用される語句の中には、「午後３時」と「１５時」とのように、同じ意味を持つが表現の異なる語句が存在し、発話者に応じて日常的に使用する語句が異なる（即ち、発話スタイルが異なる）場合がある。そのため、例えば、日常的に「午後３時」と発話しているユーザに対して、情報処理装置１が、時刻を示す応答として「１５時」と出力した場合に、当該ユーザは、自身の発話スタイルと異なる応答に対して違和感をもつ場合がある。

　このような発話スタイルの違いは、上記に示した時刻の呼称に限られず、具体的な他の一例として、人の呼称が挙げられる。例えば、あるユーザは、「山田太郎」という名前の人物のことを、「やまださん」というように、姓に対して敬称を付して呼称する場合がある。また、他のユーザについては、「山田太郎」という名前の人物のことを、「たろう」というように、名のみで呼称する場合もある。このような場合には、情報処理装置１が、「山田太郎」という名前の人物を、「やまだたろう」というように姓名で呼称した応答を出力した場合に、「やまださん」と呼称するユーザは、当該応答に対して違和感をもつ場合がある。

　また、情報処理装置１とユーザとの間で対話が行われる状況（例えば、ユーザの状態や周囲の環境）についても常に一定とは限らず、逐次動的に状況が変化する場合も少なくない。特に、近年では、スマートフォン、タブレット端末、及びウェアラブル端末のように、ユーザが携行可能に構成された情報処理装置も普及してきており、当該情報処理装置が、所謂対話型のＵＩを備えている場合もある。このように、情報処理装置の種別の多様化に伴い、当該情報処理装置の利用シーン（即ち、情報処理装置が利用される状態または状況）も多様化してきており、情報処理装置１とユーザとの間で対話が行われる状況も多岐にわたり、当該状況が動的に変化する場合もある。

　このような条件下では、情報処理装置１が、所定の状況にあわせて、ユーザがより自然に感じるように、応答の出力態様（例えば、音量や話速）を制御したとしても、他の状況下では、当該応答に対してユーザが違和感をもつ場合がある。具体的には、情報処理装置１が所定の音量で応答を示す音声情報を出力した場合に、ユーザは、周囲の環境における環境音の音量に応じて、当該応答を聞き取りやすく感じる場合や、聞き取りにくく感じる場合が想定され得る。

　また、ユーザが、情報処理装置１から出力される応答をより自然に感じるか否かは、ユーザの状態によっても変化する場合も想定され得る。具体的な一例として、ユーザは、急いでいる状態では、落ち着いている状態（例えば、急いでいない状態）に比べて、情報処理装置１以外にも多くのもの（例えば、ユーザの周囲の環境）に注意を向けている場合がある。そのため、このような状況下において、情報処理装置１から比較的長い自然文の応答が出力された場合に、ユーザは、当該応答の長さを煩わしく感じる場合もあり得る。

　そこで、本実施形態に係る情報処理装置１は、ユーザや状況（例えば、ユーザの状態や周囲の環境）の変化に応じて、ユーザとの間の対話を、当該ユーザがより自然に感じる（より、違和感の少ない）態様で実現可能とすることを目的としている。なお、以降では、本実施形態に係る情報処理装置１の特徴について、より詳しく説明する。

　＜２．機能構成＞
　まず、図２を参照して、本実施形態に係る情報処理装置１の機能構成の一例について説明する。図２は、本実施形態に係る情報処理装置１の機能構成の一例について示したブロック図である。

　図２に示すように、本実施形態に係る情報処理装置１は、制御部１０と、集音部２１と、記憶部３０と、出力部４０とを含む。また、情報処理装置１は、撮像部２３を含んでもよい。なお、図２に示す例では、情報処理装置１が、集音部２１、撮像部２３、記憶部３０、及び出力部４０を含む例について示しているが、必ずしも同構成に限定するものではない。即ち、集音部２１、撮像部２３、記憶部３０、及び出力部４０の少なくとも一部は、情報処理装置１の外部に設けられていてもよい。

　集音部２１は、ユーザからの音声入力や、周囲の騒音のような所謂環境音等の、音響情報を取得するための構成である。集音部２１は、例えば、マイクロフォンのように周囲の音響情報を集音するための集音デバイスにより構成され得る。また、集音部２１は、複数の集音デバイス（例えば、マイクアレイ）を備え、各集音デバイスの集音結果に応じて、集音された音響情報の到来方向を推定可能に構成されていてもよい。集音部２１は、取得した音響情報を、音声解析部１１と環境音解析部１３とに出力する。

　撮像部２３は、ＣＭＯＳ（Complementary　Metal-Oxide　Semiconductor）イメージセンサやＣＣＤ（Charge　Coupled　Device）イメージセンサ等の撮像素子と、レンズ等の光学系とを含み、被写体の画像を撮像するための構成である。撮像部２３は、撮像された画像を、画像解析部１４に出力する。

　なお、図２中には明示的に図示してはいないが、集音部２１による音響情報の取得に係る動作と、撮像部２３による画像の撮像に係る動作とは、例えば、制御部１０により制御されてもよい。具体的な一例として、制御部１０は、図示しない入力デバイスを介したユーザからの指示に基づき、集音部２１に音響情報を取得させてもよい。同様に、制御部１０は、図示しない入力デバイスを介したユーザからの指示に基づき、撮像部２３に画像を撮像させてもよい。

　出力部４０は、情報処理装置１がユーザに対して情報を提示するための出力インタフェースである。出力部４０は、例えば、所謂スピーカのように音声や音響を出力するための音響デバイスを含み、ユーザに対して提示する情報を音声や音響として出力してもよい。また、出力部４０は、液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）装置、有機ＥＬ（ＯＬＥＤ：Organic　Light　Emitting　Diode）ディスプレイなどの表示デバイスを含み、ユーザに対して提示する情報を表示情報として出力してもよい。

　制御部１０は、音声解析部１１と、応答要素生成部１２と、環境音解析部１３と、画像解析部１４と、ユーザ状態推定部１５と、応答パラメータ生成部１６と、応答生成部１７とを含む。

　音声解析部１１は、取得された音響情報を解析することで、当該音響情報に含まれるユーザからの音声入力が示す意味内容の認識や、当該音声入力の特徴（例えば、声の大きさ、発話の速度（話速））の抽出を行うための構成である。音声解析部１１は、音声区間検出部１１１と、音声認識部１１２と、音声特徴抽出部１１３と、意味解析部１１４と、発話スタイル検出部１１５とを含む。

　音声区間検出部１１１は、集音部２１から、集音された音響情報を取得する。音声区間検出部１１１は、取得した音響情報を解析することで、当該音響情報中における、音声入力が占める区間（以降では、「音声区間」と記載する場合がある）を検出する。なお、音声区間検出部１１１が、取得された音響情報から音声区間を検出することが可能であれば、当該音声区間を検出するための方法は特に限定されない。

　具体的な一例として、音声区間検出部１１１は、音響情報として取得された音響信号の振幅と零交差とに基づき、音声区間を検出してもよい。この場合には、例えば、音声区間検出部１１１は、音響情報として取得された音響信号のうち、所定のレベルを超える振幅について零交差の数が所定の閾値を超えたタイミングを、音声区間の始端として認識する。また、音声区間検出部１１１は、音声区間の開始後に、音響信号の振幅が所定のレベル以下となったタイミングを、音声区間の終端として認識する。

　また、他の一例として、音声区間検出部１１１は、音響情報として取得された音響信号から、あらかじめ定義された音声信号の特徴を示す特徴量を抽出し、抽出した特徴量に基づき音声区間の始端と終端とを認識してもよい。音響信号から音声信号の特徴量を抽出することで音声区間を検出する方法の一例としては、例えば、ガウス混合分布モデル（ＧＭＭ：Gaussian　mixture　model）に基づく音声区間の検出方法等が挙げられる。

　また、音声区間検出部１１１は、例えば、音響情報として取得された音響信号から、音声信号に相当する周波数成分を抽出し、抽出された周波数成分を解析の対象としてもよい。

　以上のようにして、音声区間検出部１１１は、取得した音響情報から音声区間を検出し、当該音響情報から当該音声区間に相当する部分（即ち、音響信号）を音声入力として抽出する。そして、音声区間検出部１１１は、抽出した音声入力を音声認識部１１２と音声特徴抽出部１１３とに出力する。

　音声認識部１１２は、集音された音響情報に含まれる音声入力を音声区間検出部１１１から取得する。音声認識部１１２は、取得した音声入力を音声認識技術に基づき解析することで、文字情報に変換する。そして、音声認識部１１２は、音声入力が変換された文字情報を、音声特徴抽出部１１３と意味解析部１１４とに出力する。

　音声特徴抽出部１１３は、集音された音響情報に含まれる音声入力を音声区間検出部１１１から取得する。また、音声特徴抽出部１１３は、当該音声入力が音声認識技術に基づき変換された文字情報を、音声認識部１１２から取得する。

　音声特徴抽出部１１３は、音声入力として取得した音声信号を解析することで、例えば、当該音声信号の振幅に基づき、声の大きさ（即ち、音声入力の音量）を検出する。そして、音声特徴抽出部１１３は、検出した声の大きさを示す情報を、後述する環境音解析部１３の外部環境推定部１３２に出力する。

　また、音声特徴抽出部１１３は、取得した音声入力の長さ（即ち、発話区間の長さ）と、当該音声入力が変換された文字情報の長さ（例えば、文字数）とに基づき、話速を算出する。そして、音声特徴抽出部１１３は、算出した話速を示す情報を、後述するユーザ状態推定部１５に出力する。

　意味解析部１１４は、音声入力が音声認識技術に基づき変換された文字情報を、音声認識部１１２から取得する。意味解析部１１４は、取得した文字情報（即ち、音声入力が変換された文字情報）に対して、自然言語処理技術に基づく解析（例えば、字句解析（形態素解析）、構文解析、及び意味解析等）を施すことで、当該文字情報が示す意味内容（換言すると、音声入力が示す意味内容）を認識する。

　なお、意味解析部１１４が、取得した文字情報が示す意味内容を認識できれば、自然言語処理技術に基づく解析の方法は特に限定されない。具体的な一例として、意味解析部１１４は、意味解析の手法として、機械学習の結果に基づき文字情報の意味内容を認識する手法を用いてもよいし、あらかじめ設定されたルールに基づき文字情報の意味内容を認識する手法を用いてもよい。また、取得された文字情報に対して自然言語処理技術に基づく解析を施すための各種情報（例えば、辞書情報等）については、図２では図示を省略しているが、意味解析部１１４が読み出し可能な位置にあらかじめ記憶させていれば、その記憶位置は特に限定されない。

　また、意味解析部１１４は、取得した文字情報に対する自然言語処理技術に基づく解析の結果（以降では、単に「自然言語処理の結果」と記載する場合がある）に応じて、実行すべきタスクと、当該タスクを実行するための引数とを特定する。ここで、意味解析部１１４の当該処理の詳細について、図３を参照しながら、具体的な例を挙げて説明する。図３は、音声入力が示す意味内容の解析と、当該解析の結果に基づく処理の一例について説明するための説明図であり、意味解析部１１４と後述する応答要素生成部１２の動作の一例について示している。

　図３は、ユーザがスケジュールを確認するために、情報処理装置１に対して、「明日午後１時の予定を教えて」と発話した場合について示している。即ち、図３に示す例の場合には、意味解析部１１４は、音声入力が音声認識技術に基づき変換された文字情報として、「明日午後１時の予定を教えて」という文字情報を、音声認識部１１２から取得する。

　意味解析部１１４は、取得した「明日午後１時の予定を教えて」という文字情報に対して、自然言語処理技術に基づく解析を施すことで、当該文字情報に基づき実行すべきタスク（即ち、ユーザからの問合せに対する応答を生成するためのタスク）として、「予定確認」のタスクを特定する。

　より具体的な一例として、意味解析部１１４は、取得した「明日午後１時の予定を教えて」という文字情報に対して形態素解析を施すことで、当該文字情報から形態素を抽出する。そして、意味解析部１１４は、抽出された形態素中の、「予定」、「教えて」というキーワードに基づき、ユーザから、「予定確認」のタスクの実行が指示されているものと認識する。

　また、意味解析部１１４は、ユーザからの指示に基づき実行すべきタスクを特定すると、特定したタスクを実行するために必要な引数を、取得した「明日午後１時の予定を教えて」という文字情報から抽出する。

　より具体的な一例として、意味解析部１１４は、取得した「明日午後１時の予定を教えて」という文字情報に対する形態素解析の結果から、「予定確認」のタスクを実行するために必要な日時を示す引数として、「明日午後１時」というキーワードを抽出する。

　なお、ユーザと情報処理装置１との間の対話で使用される語句の中には、当該語句のみでは意味を一意に特定できないものが含まれる。例えば、「明日」という語句は、相対的に日付を特定するための表現であり、「今日」等のような基準となる日付が確定することで、「明日」として指定された日付が一意に特定される。

　そのため、意味解析部１１４は、特定したタスクを実行するために必要な引数として、例えば、「明日」というキーワードを抽出した場合には、カレンダー機能等に基づき「今日」の日付を確認し、「今日」の日付の確認結果に基づき、「明日」として指定された日付を特定する。例えば、「今日」の日付が、「２０１４／９／３０（即ち、２０１４年９月３０日）」の場合には、意味解析部１１４は、「明日」として指定された日付として、「２０１４／１０／１（即ち、２０１４年１０月１日）」を特定することとなる。そして、意味解析部１１４は、引数として抽出したキーワードのうち、「明日」というキーワードを、特定した当該「明日」に対応する日付に置き換える。

　もちろん、対応する語句のみでは意味を一意に特定できないものは、「明日」、「今日」、「明後日」、及び「今」等のような、日付や日時を示す情報のみには限定されない。具体的な一例として、「ここ」及び「現在地」等のように、位置を示す情報等が挙げられる。例えば、意味解析部１１４は、引数として「現在地」というキーワードを抽出した場合には、ＧＰＳ（Global　Positioning　System）等に基づき「現在地」の位置情報を特定し、引数として抽出した「現在地」というキーワードを、特定した位置情報に置き換えればよい。

　以上のようにして、意味解析部１１４は、取得した文字情報に対する自然言語処理の結果に応じて、実行すべきタスクと、当該タスクを実行するための引数とを特定する。なお、上記に示す例は、あくまで一例であり、意味解析部１１４が、取得した文字情報（即ち、音声入力が変換された文字情報）の意味内容を認識し、認識した意味内容に基づき、実行すべきタスクと、当該タスクを実行するための引数とを特定できれば、その方法は特に限定されない。

　そして、意味解析部１１４は、特定した実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、後述する応答要素生成部１２に出力する。また、意味解析部１１４は、音声入力が変換された文字情報に対する自然言語処理の結果（例えば、字句解析（形態素解析）、構文解析、及び意味解析等の結果）を、発話スタイル検出部１１５に出力する。

　発話スタイル検出部１１５は、意味解析部１１４から、音声入力が変換された文字情報に対する自然言語処理の結果を取得する。発話スタイル検出部１１５は、取得した自然言語処理の結果に基づき、音声入力が変換された文字情報から、ユーザや状況の変化に応じて、使用される表現が異なる場合がある語句（以降では、「固有表現」と記載する場合がある）を抽出する。

　なお、固有表現としては、例えば、人名や地名等のような固有名詞や、日付、時間等のように異なる表現を有する語句が挙げられる。具体的な一例として、「明日」という語句は、「あす」、「あした」、及び「みょうにち」と表現することが可能であり、どの表現が使用されるかはユーザに応じて異なる場合がある。また、人名に着目した場合についても、前述したように、「山田太郎」という名前の人物のことを、「ヤマダさん」、「タロウ」、「ヤマダタロウ」等のように、ユーザに応じて異なる表現が使用される場合がある。

　このように、発話スタイル検出部１１５は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき、当該文字情報から固有表現を抽出する。

　なお、発話スタイル検出部１１５が固有表現として抽出する語句は、ユーザや状況の変化に応じて、使用される表現が異なる場合がある語句であれば、必ずしも、人名や地名等のような固有名詞や、日付、時間等には限定されない。具体的な一例として、発話スタイル検出部１１５は、所謂方言に相当する語句を、固有表現として抽出してもよい。

　そして、発話スタイル検出部１１５は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき、当該文字情報から抽出した固有表現を、発話スタイルを示す情報として、後述する応答パラメータ生成部１６に出力する。

　環境音解析部１３は、取得された音響情報を解析することで、周囲の環境における環境音を抽出し、当該環境音の特徴の抽出を行うための構成である。なお、本説明では、環境音解析部１３は、環境音の特徴として、音声入力の音量に対する、周囲の環境の騒音の音量の度合いを示す「騒音度」を抽出する場合を例に、当該環境音解析部１３の動作について説明する。環境音解析部１３は、環境音認識部１３１と、外部環境推定部１３２とを含む。

　環境音認識部１３１は、集音部２１から、集音された音響情報を取得する。環境音認識部１３１は、取得した音響情報を解析することで、当該音響情報から、環境音（即ち、音声入力以外の音響情報）を抽出する。なお、環境音認識部１３１が、取得された音響情報から環境音を抽出することが可能であれば、当該環境音を抽出するための方法は特に限定されない。

　具体的な一例として、環境音認識部１３１は、情報処理装置１に対してユーザ（即ち、発話者）が位置する方向（換言すると、目的音の到来方向）を検知し、当該方向に死角（null　beam）を有するフィルタを形成する。そして、環境音認識部１３１は、集音部２１により集音された音響情報に対して、形成したフィルタを適用することで、当該音響情報から、当該ユーザからの音声入力以外の他の音響情報を環境音として抽出してもよい。

　なお、環境音認識部１３１が、情報処理装置１に対してユーザが位置する方向を特定できれば、その方法は特に限定されない。具体的な一例として、撮像部２３により撮像された画像の解析結果として取得される、当該画像中におけるユーザの位置に基づき、情報処理装置１に対してユーザが位置する方向が検知されてもよい。また、他の一例として、集音部２１により集音された音響情報の到来方向に基づき、情報処理装置１に対してユーザが位置する方向が検知されてもよい。また、情報処理装置１が、所謂ウェアラブル端末等のように、ユーザへの装着状態に応じて、当該情報処理装置１が利用される状況が限定される場合には、当該装着状態に基づき、情報処理装置１に対してユーザが位置する方向が特定されてもよい。

　また、他の一例として、環境音認識部１３１は、音響情報として取得された音響信号から、音声信号以外の周波数成分を抽出し、抽出された周波数成分を、環境音を抽出するための解析の対象としてもよい。

　次いで、環境音認識部１３１は、音響情報から抽出した環境音の音響信号を解析することで、環境音の音量を検出する。具体的な一例として、環境音認識部１３１は、当該音響信号の振幅に基づき、環境音の音量を検出してもよい。そして、環境音認識部１３１は、検出した環境音の音量を示す情報を、騒音の音量を示す情報として外部環境推定部１３２に出力する。

　外部環境推定部１３２は、環境音認識部１３１から、騒音の音量を示す情報を取得する。また、外部環境推定部１３２は、音声解析部１１の音声特徴抽出部１１３から、声の大きさ（即ち、音声入力の音量）を示す情報を取得する。そして、外部環境推定部１３２は、ユーザからの音声入力を目的音として、当該目的音の音量（即ち、声の大きさ）に対する、騒音の音量の大きさを示す数値（例えば、ＳＮ比）を、騒音度として算出する。外部環境推定部１３２は、算出した騒音度を示す情報を、後述する応答パラメータ生成部１６に出力する。

　画像解析部１４は、撮像された画像に対して画像解析を施すことで、当該画像解析の結果に基づき、画像中に撮像されているユーザを認識し、当該ユーザに関する情報を取得するための構成である。

　具体的には、画像解析部１４は、撮像部２３により撮像された被写体の画像を取得する。画像解析部１４は、取得した画像に対して画像解析を施し、当該画像解析の結果に基づき、当該画像中から、撮像されたユーザを抽出する。なお、このとき画像中から撮像されたユーザを抽出することが可能であれば、その方法は特に限定されない。具体的な一例として、画像解析部１４は、処理対象の画像から、人の顔や、手や足等のような身体の部位のように、人に固有の特徴的な形状を抽出することで、当該画像中から、撮像されたユーザを抽出してもよい。

　画像解析部１４は、画像中から抽出されたユーザに対して、所謂個人認識技術に基づく解析処理を施すことで、当該ユーザを個人認識する。なお、画像に基づく個人認識技術としては、例えば、ユーザの顔の画像に基づき、当該ユーザ個人を認識する技術が挙げられる。もちろん、画像中から抽出されたユーザ個人を認識することが可能であれば、その方法は特限定されないことは言うまでもない。また、取得された画像に対する画像解析の結果に基づきユーザ個人を認識するための各種情報（例えば、辞書情報等）については、図２では図示を省略しているが、画像解析部１４が読み出し可能な位置にあらかじめ記憶させていれば、その記憶位置は特に限定されない。

　また、画像解析部１４は、取得した画像に対する画像解析の結果に基づき、ユーザの姿勢、年齢、性別等のような、当該ユーザの状態や当該ユーザに関する情報（例えば、属性情報）を推定してもよい。

　そして、画像解析部１４は、取得した画像の解析結果、即ち、当該画像に撮像されたユーザ個人の認識結果や、姿勢、年齢、性別等のような、ユーザの状態や当該ユーザに関する情報の推定結果を、後述するユーザ状態推定部１５に出力する。

　ユーザ状態推定部１５は、撮像された画像の解析結果や、取得された音声入力の解析結果等のような取得された各種情報に基づき、ユーザの各種状態を推定するための構成である。なお、本説明では、ユーザ状態推定部１５が、撮像された画像の解析結果と、取得された音声入力の解析結果とに基づき、ユーザの心理状態（具体的には、ユーザが落ち着いた状態か否か）を判別するためのパラメータである「落ち着き度」を算出する場合を例に、ユーザ状態推定部１５の動作について説明する。

　例えば、ユーザ状態推定部１５は、あらかじめ設定された落ち着き度の初期値を、撮像された画像の解析結果や、取得された音声入力の解析結果に基づき認識されるユーザの状態に応じて加減算する（換言すると、重み付けする）ことで、当該ユーザの落ち着き度を算出する。例えば、図４～図６は、ユーザの各種状態と落ち着き度との関係の一例について説明するための説明図である。

　具体的な一例として、図４は、撮像された画像の解析結果に基づき認識されたユーザの姿勢と、落ち着き度との間の関係の一例を示した図である。図４に示す例では、ユーザ状態推定部１５は、ユーザの姿勢が「座っている」状態、または「寝そべっている」状態の場合には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度を加算する。また、ユーザ状態推定部１５は、ユーザの姿勢が「立っている」状態の場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度を減算している。また、図４に示す例では、ユーザの姿勢が「寝そべっている」状態の場合には、「座っている」状態の場合に比べて、ユーザがより落ち着いた状態であるものと認識されるように、「寝そべっている」状態の加算値として、「座っている」状態の加算値よりも大きい値が設定されている。

　また、図５は、取得された音声入力の解析結果に基づき認識された当該音声入力の話速と、落ち着き度との間の関係の一例を示した図である。図５に示す例では、ユーザ状態推定部１５は、話速が「４－６文字／秒」の場合を話速の基準値として、当該基準値よりも話速が遅い場合（即ち、話速が「４文字未満／秒」の場合）には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度を加算する。また、ユーザ状態推定部１５は、基準値よりも話速が速い場合（即ち、話速が「７文字以上／秒」の場合）には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度を減算する。

　また、図６は、ユーザの動作（換言すると、ユーザの行動）と落ち着き度との間の関係の一例を示した図である。図６に示す例では、ユーザが「止まっている」場合、「歩いている」場合、及び「走っている」場合のそれぞれについて、落ち着き度の加減算値の一例が示されている。具体的には、ユーザ状態推定部１５は、ユーザが「止まっている」場合には、当該ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度を加算する。また、ユーザ状態推定部１５は、ユーザが「歩いている」場合、または「走っている」場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度を減算している。また、図６に示す例では、ユーザが「走っている」場合には、「歩いている」場合に比べて、ユーザがより急いでいる状態であるものと認識されるように、「走っている」場合の減算値として、「歩いている」場合の減算値よりも大きい値が設定されている。

　なお、図６に示す例を適用する場合において、ユーザ状態推定部１５が、ユーザの行動（ユーザの動作）を推定できれば、その方法は特に限定されない。具体的な一例として、ユーザ状態推定部１５は、ユーザが携行する筐体（例えば、ウェアラブル端末として構成された情報処理装置１）の位置や向きの変化を検出するための各種センサ（例えば、加速度センサや角速度センサ）の検出結果に基づき、ユーザの行動を推定してもよい。また、他の一例として、ユーザ状態推定部１５は、ＧＰＳ等により検出した、ユーザが携行する筐体の位置情報の変化に基づき、ユーザの行動（例えば、移動中か否か）を推定してもよい。

　以上のようにして、ユーザ状態推定部１５は、例えば、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」のうち認識された少なくとも一部の情報に基づき、「落ち着き度」を算出する。

　このように、図４～図６を参照して説明した例では、「落ち着き度」というユーザの状態（ユーザの心理状態）に対して、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」というユーザの状態が関連付けられている。換言すると、ユーザ状態推定部１５は、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」等のような、取得された情報に基づき直接的に検出される（推定される）ユーザの状態を、「落ち着き度」というより抽象化されたユーザの状態として管理することが可能となる。

　このような構成により、ユーザ状態推定部１５は、例えば、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」の少なくともいずれかが異なる複数の状態において、「落ち着き度」が同程度の場合には、当該複数の状態を、同一の状態として認識することも可能となる。

　なお、ユーザ状態推定部１５は、ユーザ個人の認識結果に応じて、ユーザごとに、落ち着き度の初期値や、認識された状態に応じた落ち着き度の加減算値を動的に切り替えてもよい。具体的な一例として、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」を示す情報をユーザごとに蓄積することで、当該ユーザの普段の状態（即ち、基準となる状態）が蓄積された情報に基づき導出されてもよい。これにより、例えば、ユーザ状態推定部１５は、ユーザごとに、普段の状態を基準とした、認識された当該ユーザの各種状態の相対値に基づき、落ち着き度の加減算値を算出してもよい。

　また、上記では、ユーザ状態推定部１５が、ユーザの状態として「落ち着き度」を推定する場合を例に説明したが、当該ユーザ状態推定部１５により推定されるユーザの状態は、必ずしも「落ち着き度」のみには限定されないことは言うまでもない。即ち、撮像された画像の解析結果や、取得された音声入力の解析結果等のような取得された各種情報に基づき、推定可能なユーザの状態であれば、推定の対象となるユーザの状態は特に限定されない。

　そして、ユーザ状態推定部１５は、推定したユーザの状態（例えば、落ち着き度）を示す情報を、応答パラメータ生成部１６に出力する。なお、このときユーザ状態推定部１５は、取得した「ユーザの年齢や性別」の推定結果や「ユーザ個人の認識結果」等のような、ユーザに関する情報を、応答パラメータ生成部１６に出力してもよい。

　なお、上記では、ユーザ状態推定部１５が、主に、画像の解析結果と、音声入力の解析結果とに基づき、ユーザの状態を推定する例について説明したが、必ずしも同構成に限定するものではない。即ち、画像、音声入力、または各種センサによる検出結果等のように、情報処理装置１が取得可能な情報であり、かつ、当該情報に基づきユーザの状態が推定可能であれば、ユーザの状態の推定に利用される情報の種別は特に限定されない。

　応答パラメータ生成部１６は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性（例えば、言語特性）に関する情報を基に応答パラメータを生成し、当該応答パラメータを管理するための構成である。

　例えば、応答パラメータ生成部１６は、音声解析部１１の発話スタイル検出部１１５から、音声入力が変換された文字情報に対する自然言語処理の結果に基づき、当該文字情報から抽出された固有表現を、発話スタイルを示す情報として取得する。また、応答パラメータ生成部１６は、環境音解析部１３の外部環境推定部１３２から、騒音度を示す情報（換言すると、ユーザの外部環境の検出結果）を取得する。また、応答パラメータ生成部１６は、ユーザ状態推定部１５から、「落ち着き度」、「ユーザの年齢や性別」及び「ユーザ個人の認識結果」等のような、ユーザの状態を示す情報や、ユーザに関する情報を取得する。

　以上のようにして、応答パラメータ生成部１６は、検出されたユーザの状態、状況、または特性（例えば、言語特性）に関する情報（以降では、「ユーザの発話状態に関する情報」と称する場合がある）を取得する。そして、応答パラメータ生成部１６は、取得したユーザの発話状態に関する情報を、応答パラメータとして後述する応答生成部１７に出力する。

　なお、取得される「ユーザの発話状態に関する情報」には、「ユーザの外部環境の検出結果」や「ユーザの状態」のように、その時々の状況に応じて変化する一過性の情報と、「ユーザの発話スタイル」のような、ユーザの特性を示す継続的な情報とが含まれる。

　そのため、応答パラメータ生成部１６は、取得した「ユーザの発話状態に関する情報」のうち、「ユーザの発話スタイル」のような、ユーザの特性を示す継続的な情報に基づく応答パラメータついては、記憶部３０に蓄積してもよい。記憶部３０は、「ユーザの発話状態に関する情報」に基づき生成された応答パラメータを記憶するための記憶部である。

　例えば、図７は、継続的な情報として記憶される応答パラメータの一例について説明するための説明図であり、「ユーザの発話スタイル」に基づく応答パラメータの一例について示している。

　図７に示す例では、「ユーザの発話スタイル」を示す応答パラメータｄ１０は、人名呼称データｄ１１と、日時表現パターンｄ１３とを含み、ユーザＩＤを識別子としてユーザごとに生成され管理されている。人名呼称データｄ１１は、人名の呼称に関する発話スタイルを管理するためのデータであり、人ごとに、「正式名」と、当該「正式名」に対応する「呼称」とが関連付けられて記憶される。また、日時表現パターンｄ１３は、暦や時間の表現を管理するためのデータである。例えば、ユーザが、暦（例えば、「年」）を和暦で呼称する場合には、日時表現パターンｄ１３には、暦に関する表現を示す情報として、和暦で呼称することを示す情報が記憶される。同様に、ユーザが、時間を「午前」及び「午後」で区別して呼称する場合には、日時表現パターンｄ１３には、時間に関する表現を示す情報として、「午前」及び「午後」で区別して呼称することを示す情報が記憶される。

　応答パラメータ生成部１６は、取得した「ユーザの発話スタイル」を示す情報を基に応答パラメータｄ１０を生成し、取得したユーザ個人の認識結果に応じて、当該応答パラメータｄ１０を認識したユーザごとに記憶部３０に蓄積する。

　このような構成に基づき、応答パラメータ生成部１６は、後述する応答生成部１７からの指示に基づき、音声入力の発話者の発話スタイルに応じた呼称を、当該応答生成部１７に通知してもよい。

　具体的な一例として、図７に示す例において、応答パラメータ生成部１６が、応答生成部１７から「山田　太郎」に対応する呼称の通知を指示されたものとする。この場合には、応答パラメータ生成部１６は、取得したユーザ個人の認識結果に基づき、当該ユーザ（即ち、発話者）に対応する応答パラメータｄ１０を記憶部３０から抽出する。そして、応答パラメータ生成部１６は、抽出した応答パラメータｄ１０の人名呼称データｄ１１を参照することで、「正式名」が「山田　太郎」である人物の「呼称」が「ヤマダさん」であることを認識し、認識した「ヤマダさん」という「呼称」を示す情報を、応答生成部１７に通知する。これにより、応答生成部１７は、「山田　太郎」という人物を、発話者の発話スタイルにあわせて、「ヤマダさん」と呼称した応答を生成することが可能となる。

　なお、ユーザは、必ずしも日常的に使用している呼称を常に使用するとは限らない。具体的な一例として、普段は「山田　太郎」という人物を「ヤマダさん」と呼称しているユーザが、ある状況下では、「ヤマダタロウさん」と呼称する場合もある。

　このような場合には、応答パラメータ生成部１６は、例えば、取得した発話スタイルを示す情報に基づき、音声入力に含まれる「ヤマダタロウさん」という呼称にあわせて、一時的に、「山田　太郎」という人物の「呼称」が「ヤマダタロウさん」であるものと認識してもよい。また、他の一例として、応答パラメータ生成部１６は、このような状況下においても、「山田　太郎」という人物の呼称を、ユーザが日常的に使用する発話スタイルにあわせて、「ヤマダさん」と呼称してもよい。なお、応答パラメータ生成部１６が、上記に示した動作のうち、いずれを選択するかについては、事前のユーザ設定に基づき切り替えられるように構成されていてもよい。

　応答要素生成部１２は、音声入力として取得されたユーザからの問合せに対する応答を生成するために必要な情報を取得するための構成である。応答要素生成部１２は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき特定された、実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、意味解析部１１４から取得する。応答要素生成部１２は、意味解析部１１４から取得した情報が示すタスクを、あわせて取得した引数を入力情報として実行し、当該タスクの実行結果として、ユーザに対する応答を生成するために必要な情報を取得する。

　例えば、図３に示す例では、実行すべきタスクとして「予定確認」が指定されており、当該タスクを実行するために、日時の引数として「明日午後１時」に対応する「２０１４／１０／１　１３：００」が指定されている。そのため、応答要素生成部１２は、スケジュールを管理するためのアプリケーションに対して、引数として指定された「２０１４／１０／１　１３：００」を検索キーとして、当該検索キーに対応するスケジュールを検索させる。なお、このとき応答要素生成部１２は、音声入力を発話したユーザの個人認識の結果を取得し、取得した個人認識の結果を、スケジュールを検索するための検索キーに加えてもよい。

　そして、応答要素生成部１２は、スケジュールを管理するためのアプリケーションから、検索キーに対応するスケジュールの検索結果を取得する。図３に示す例の場合には、応答要素生成部１２は、スケジュールの検索結果として、「タイトル」として登録された「Ａ会議室で打ち合わせ」という情報と、「参加者」として登録された「山田　太郎」という情報とを取得している。

　そして、応答要素生成部１２は、検索結果として取得した情報を、ユーザからの音声入力に対する応答を生成するための応答要素として、当該応答要素を示す情報と、実行したタスクを示す情報とを、後述する応答生成部１７に出力する。なお、このとき応答要素生成部１２は、検索結果として取得した情報に加えて、検索キーとして使用した情報（例えば、日時を示す「２０１４／１０／１　１３：００」）を、応答要素を示す情報として応答生成部１７に出力してもよい。

　応答生成部１７は、ユーザからの音声入力に対する応答を生成するための構成である。応答生成部１７は、ユーザからの音声入力に対する応答を生成するための応答要素を示す情報と、当該応答要素を取得すために実行されたタスクを示す情報とを、応答要素生成部１２から取得する。

　応答生成部１７は、取得した応答要素を示す情報を応答パラメータ生成部１６に送信し、ユーザの発話スタイルに応じた、当該応答要素の呼称を示す情報を応答パラメータ生成部１６から取得する。

　具体的な一例として、応答生成部１７は、応答要素を示す情報として、人名を示す「山田　太郎」という情報を取得したものとする。この場合には、例えば、応答生成部１７は、ユーザの発話スタイルに応じた「山田　太郎」という人物の呼称を示す情報として、「ヤマダさん」という呼称を示す情報を応答パラメータ生成部１６から取得する。

　また、他の一例として、応答生成部１７は、応答要素を示す情報として、時刻を示す「１３：００」という情報を取得したものとする。この場合には、例えば、応答生成部１７は、ユーザの発話スタイルに応じた「１３：００」という時刻の呼称を示す情報として、「午後１時」という呼称を示す情報を応答パラメータ生成部１６から取得する。

　次いで、応答生成部１７は、取得したタスクを示す情報を基に、音声入力に基づくユーザからの問合せの内容を認識する。具体的な一例として、図３に示す例での場合には、応答生成部１７は、取得したタスクを示す情報を基に、ユーザからの「明日午後１時の予定を教えて」という音声入力に対して、「予定確認」のためのタスクが実行されたこと認識する。

　そして、応答生成部１７は、実行されたタスクの認識結果と、応答要素に対応するユーザの発話スタイルに応じた呼称とに基づき、応答内容を示す情報（例えば、文字情報）を生成する。

　具体的には、応答生成部１７は、取得したタスクを示す情報に基づき、「予定確認」のためのタスクが実行されたこと認識した場合には、「予定確認」の結果をユーザに対して提示するための応答の雛形を生成する。そして、応答生成部１７は、生成した雛形に対して、応答要素に対応するユーザの発話スタイルに応じた呼称を、生成した雛形に対して埋め込むことで、応答内容を示す情報を生成する。

　より具体的には、応答生成部１７は、「明日午後１時の予定を教えて」という音声有力に対する応答として、「山田太郎と、Ａ会議室で打ち合わせです」という応答の雛形を作成する。そして、応答生成部１７は、作成した雛形中の応答要素を、取得した当該応答要素に対応する呼称に置き換える。即ち、上記に示す例の場合には、応答生成部１７は、「山田太郎」という人名を示す応答要素を、ユーザの発話スタイルに応じた「ヤマダさん」という呼称に置き換え、「ヤマダさんと、Ａ会議室で打ち合わせです」という応答内容を示す情報を生成する。

　また、応答生成部１７は、「２０１４／９／３０」、「２０１４／１０／１」という日付を示す情報を、「本日」、「明日」、「明後日」等のような、日付を相対的に表した表現に置き換えて、応答内容を示す情報を生成してもよい。

　具体的な一例として、応答生成部１７は、「明日午後１時の予定を教えて」という音声有力に対する応答として、「２０１４／１０／１　１３：００からは、山田太郎と、Ａ会議室で打ち合わせです」という応答の雛形を作成したものとする。この場合には、応答生成部１７は、「１３：００」と時間を示す応答要素と、「山田太郎」という人名を示す応答要素とを、ユーザの発話スタイルに応じた、「午後１時」、「ヤマダさん」という呼称に置き換える。また、応答生成部１７は、「２０１４／１０／１」という日付を示す応答要素を、音声入力の表現（換言すると、発話スタイル）にあわせて、「明日」という呼称に置き換えてもよい。即ち、この場合には、応答生成部１７は、「明日午後１時からは、ヤマダさんと、Ａ会議室で打ち合わせです」という応答内容を示す情報を生成することとなる。

　また、応答生成部１７は、取得した応答要素に基づき、応答内容として出力する情報のうち一部の表現を変更してもよい。具体的な一例として、応答生成部１７は、時間帯を示す応答要素に応じて、挨拶の表現を、「おはようございます」、「こんにちは」、「こんばんは」というように切り替えてもよい。

　応答内容を示す情報を生成すると、応答生成部１７は、当該応答内容を示す情報を出力部４０に出力させる。このとき、応答生成部１７は、応答内容を示す文字情報から、例えば、音声合成技術に基づき、当該応答内容を発声している音声信号を生成し、当該音声信号を出力部４０に出力させてもよい。また、応答生成部１７は、応答内容を示す文字情報を、表示情報として出力部４０に出力させてもよい。

　また、このとき応答生成部１７は、ユーザの周囲の環境の「騒音度」や、当該ユーザの「落ち着き度」のように、ユーザと情報処理装置１と間の対話時における、ユーザの発話状態に関する情報（即ち、一過性の情報）を、応答要素生成部１２から取得してもよい。この場合には、応答生成部１７は、取得した情報に応じて、応答の出力態様を制御してもよい。

　具体的な一例として、応答生成部１７は、取得した「騒音度」を示す情報に応じて、応答として出力される音響情報の音量を制御してもよい。また、応答生成部１７は、取得した「騒音度」を示す情報に応じて、応答の出力態様を制御してもよい。具体的には、応答生成部１７は、「騒音度」が所定の閾値以下の場合には、応答が音響情報として出力されるように制御し、「騒音度」が所定の閾値を超える場合には、応答が表示情報として出力されるように制御してもよい。

　また、他の一例として、応答生成部１７は、取得した「落ち着き度」を示す情報に応じて、応答として出力される情報の量を制御してもよい。

　例えば、情報処理装置１は、ユーザからの音声入力に対して、応答内容を示す情報に加えて、当該応答内容に関連する付加的な情報が出力できるように構成されていてもよい。この場合には、応答生成部１７は、取得した「落ち着き度」を示す情報に応じて、付加的な情報を出力するか否かを制御してもよい。

　具体的な一例として、「東京駅への行き方を教えて」という音声入力に対して、応答内容を示す情報として、「東京駅へ行くための乗り換え情報」を提示するための応答が生成され、付加的な情報として、「東京駅の周辺の天気」を提示するための情報が生成されたものとする。このとき、応答生成部１７は、ユーザが急いでいる状態の場合には、応答内容を示す「東京駅へ行くための乗り換え情報」のみを出力部４０に出力させてもよい。また、応答生成部１７は、ユーザが落ち着いている状態の場合には、応答内容を示す「東京駅へ行くための乗り換え情報」に加えて、付加的な情報である「東京駅の周辺の天気」を出力部４０に出力させてもよい。

　また、応答生成部１７は、ユーザに関連付けられた他のユーザに関する情報を、付加的な情報として取得してもよい。具体的な一例として、応答生成部１７は、ユーザから「天気」を問い合わせられた場合に、ユーザの周辺や、ユーザの目的地の天気に加えて、当該ユーザの親戚の所在地（例えば、居所等）の天気を、付加的な情報として出力部４０に出力させてもよい。また、応答生成部１７は、ユーザからの音声入力に基づき、ニュース等の情報を提示する場合には、当該情報を提供するサイトのＵＲＬ等のリンクを、付加的な情報として出力させてもよい。

　なお、付加的な情報を生成するための情報（例えば、応答要素）については、例えば、前述した応答要素生成部１２が、実行したタスク、音声入力から取得した検索キー、及び取得した応答要素等に基づき、新たにタスクを実行することで生成することが可能である。具体的な一例として、応答要素生成部１２は、乗換情報を示す応答要素を取得するために検索キーとして使用した「東京駅」という情報に基づき、天気を確認するためのタスクを実行することで、「東京駅の周辺の天気」を示す応答要素を別途取得すればよい。

　また、応答生成部１７は、ユーザからの問い合わせに対する応答内容の情報量自体を制御してもよい。具体的な一例として、応答生成部１７は、ユーザから「受信メールの確認」や「配信されたニュースの確認」が指示された場合に、「落ち着き度」の推定結果に応じて、情報の通知方法を、タイトルのみの通知、要約の通知、及び全文の通知の間で切り替えてもよい。換言すると、応答生成部１７は、「落ち着き度」の推定結果に応じて、ユーザに対して通知する情報の詳しさの度合いを制御してもよい。

　また、応答生成部１７は、ユーザからの問い合わせの有無に関わらず、ユーザの発話状態に応じて、付加的な情報を提示してもよい。具体的な一例として、応答生成部１７は、ユーザからの問い合わせに対して目的地までの経路を提示した後に、ユーザが落ち着いている状態であるものと認識したものとする。この場合には、応答生成部１７は、当該目的地までの経路中に存在する、他のスポットの情報（所謂、寄り道情報）を追加情報として提示してもよい。

　なお、応答生成部１７は、ユーザが急いでいる状態と認識している場合には、追加情報の提示を抑制してもよく、ユーザの落ち着き度の変化に応じて、追加情報の提示の有無を動的に切り替えてもよい。また、応答生成部１７は、追加情報を提示するか否かを、各種条件に応じて切り替えてもよいことは言うまでもない。具体的な一例として、応答生成部１７は、ユーザが外出中の場合に、当該ユーザの落ち着き度に応じて、追加情報を提示してもよい。

　また、応答生成部１７は、取得した「落ち着き度」を示す情報に応じて、異なる表現で応答内容を示す情報が出力されるように制御してもよい。

　具体的な一例として、応答生成部１７は、ユーザが落ち着いている状態の場合には、「東京駅周辺の天気」を示す情報として、「東京駅の周辺の天気は晴れです」という自然文の応答内容を示す情報を生成するものとする。これに対して、応答生成部１７は、ユーザが急いでいる状態の場合には、「東京駅周辺の天気」を示す情報として、「晴れです」というように、応答内容をより端的に示した情報を生成してもよい。

　また、応答生成部１７は、認識されたユーザの「年齢」の推定結果を示す情報を応答要素生成部１２から取得することで、当該ユーザの「年齢」の推定結果に応じて、応答の出力態様を制御してもよい。具体的には、応答生成部１７は、「年齢」の推定結果から、ユーザが老人であると認識した場合には、応答の出力速度（例えば、音声出力の話速や、表示情報の出力速度）がより遅くなるように制御してもよい。

　また、音響情報として出力される音響信号の一部の周波数帯については、高齢化に伴い、ユーザが認識することが困難となるものがある。そのため、応答生成部１７は、ユーザの「年齢」の推定結果に応じて、音声入力に対する応答として出力される音声信号（音響信号）の周波数帯域を制御してもよい。

　また、応答生成部１７は、ユーザの位置情報に基づき、当ユーザの発話が行われている環境を推定し、当該推定の結果に基づき応答の出力態様を制御してもよい。具体的な一例として、応答生成部１７は、ユーザが自宅にいる場合には、応答として出力される音響情報の音質を向上させ、当該ユーザが自宅から外出している場合には、バッテリーを節約するために、当該音響情報の音質を一時的に低下させてもよい。

　また、他の一例として、応答生成部１７は、情報処理装置１を駆動させるための電力の供給元、もしくは当該電力の供給元の状態に応じて、応答の出力態様を制御してもよい。具体的な一例として、応答生成部１７は、情報処理装置１がバッテリーからの電力に基づき駆動している場合には、バッテリーを節約するために、応答として出力される音響情報の音質を一時的に低下させてもよい。また、応答生成部１７は、当該バッテリーの残量が所定値未満となった場合に、応答として出力される音響情報の音質を一時的に低下させてもよい。

　なお、上記に説明した、応答生成部１７による、ユーザの発話状態に関する情報（即ち、一過性の情報）に応じた出力態様の制御（例えば、応答の音量、応答の話速、及び出力される情報量等）のうち少なくとも一部は、ユーザによる事前の設定に基づき、有効及び無効が切り替えられてもよい。もちろん、上述した当該出力態様の各制御それぞれの有効及び無効は、ユーザによる事前の設定に基づき選択的に制御されてもよい。

　また、上記に説明した機能構成はあくまで一例であり、必ずしも同構成に限定するものではない。具体的な一例として、制御部１０の各構成のうち、一部の構成が、情報処理装置１とは異なる外部装置に設けられていてもよい。また、上記に説明した各種機能が実現可能であれば、情報処理装置１の種別や形態は特に限定されず、当該種別や形態に応じて、機能や構成が追加されていてもよい。

　また、上記に説明した機能構成が実現されれば、情報処理装置１の種別や利用形態についても特に限定されない。具体的な一例として、情報処理装置１は、所謂スマートフォン、タブレット端末、及びウェアラブル端末等のように、ユーザが携行可能に構成されていてもよい。また、情報処理装置１は、所謂パーソナルコンピュータ等の情報機器として構成されていてもよいし、テレビ受像機等のような各種家電機器として構成されていてもよい。

　以上、図２～図７を参照して、本実施形態に係る情報処理装置１の機能構成の一例について説明した。

　＜３．処理＞
　次に、図８を参照して、本実施形態に係る情報処理装置１の一連の動作の流れの一例について説明する。図８は、本実施形態に係る情報処理装置１の一連の動作の流れの一例を示したフローチャートである。

　（ステップＳ１０１）
　まず、ユーザからの音声入力や、周囲の騒音のような所謂環境音等の、音響情報を取得し、取得した音響情報を、音声解析部１１と環境音解析部１３とに出力する。

　（ステップＳ１０３）
　音声解析部１１の音声区間検出部１１１は、集音部２１から、集音された音響情報を取得する。音声区間検出部１１１は、取得した音響情報を解析することで、当該音響情報中における音声区間を検出する。音声区間検出部１１１は、取得した音響情報から音声区間に相当する部分（即ち、音響信号）を音声入力として抽出する。そして、音声区間検出部１１１は、抽出した音声入力を音声認識部１１２と音声特徴抽出部１１３とに出力する。

　音声認識部１１２は、集音された音響情報に含まれる音声入力を音声区間検出部１１１から取得し、取得した音声入力を音声認識技術に基づき解析することで、文字情報に変換する。そして、音声認識部１１２は、音声入力が変換された文字情報を、音声特徴抽出部１１３と意味解析部１１４とに出力する。

　音声特徴抽出部１１３は、音声入力として取得した音声信号を解析することで、例えば、当該音声信号の振幅に基づき、声の大きさ（即ち、音声入力の音量）を検出する。そして、音声特徴抽出部１１３は、検出した声の大きさを示す情報を、環境音解析部１３の外部環境推定部１３２に出力する。

　また、音声特徴抽出部１１３は、取得した音声入力の長さ（即ち、発話区間の長さ）と、当該音声入力が変換された文字情報の長さ（例えば、文字数）とに基づき、話速を算出する。そして、音声特徴抽出部１１３は、算出した話速を示す情報を、ユーザ状態推定部１５に出力する。

　意味解析部１１４は、音声入力が音声認識技術に基づき変換された文字情報を、音声認識部１１２から取得する。意味解析部１１４は、取得した文字情報（即ち、音声入力が変換された文字情報）に対して、自然言語処理を施すことで、当該文字情報が示す意味内容（換言すると、音声入力が示す意味内容）を認識する。

　また、意味解析部１１４は、取得した文字情報に対する自然言語処理技術に基づく解析の結果（以降では、単に「自然言語処理の結果」と記載する場合がある）に応じて、実行すべきタスクと、当該タスクを実行するための引数とを特定する。

　例えば、意味解析部１１４は、「明日午後１時の予定を教えて」という文字情報を取得した場合には、当該文字情報に含まれる「予定」、「教えて」というキーワードに基づき、ユーザから、「予定確認」のタスクの実行が指示されているものと認識する。意味解析部１１４は、取得した文字情報から、「予定確認」のタスクを実行するために必要な日時を示す引数として、「明日午後１時」というキーワードを抽出する。なお、このとき、意味解析部１１４は、「明日」、「本日」、及び「明後日」のように、対応する語句のみでは意味を一意に特定できないものについては、「１０／１」のように、実際の日付を示す情報に変換してもよい。

　（ステップＳ１０５）
　応答要素生成部１２は、音声入力が変換された文字情報に対する自然言語処理の結果に基づき特定された、実行すべきタスクを示す情報と、当該タスクを実行するために必要な引数とを、意味解析部１１４から取得する。応答要素生成部１２は、意味解析部１１４から取得した情報が示すタスクを、あわせて取得した引数を入力情報として実行し、当該タスクの実行結果として、ユーザに対する応答を生成するために必要な情報を取得する。

　例えば、応答要素生成部１２は、「予定確認」のタスクを実行するために、スケジュールを管理するためのアプリケーションに、引数として指定された「２０１４／１０／１　１３：００」を検索キーとして、当該検索キーに対応するスケジュールを検索させる。そして、応答要素生成部１２は、当該アプリケーションから、検索キーに対応するスケジュールの検索結果を取得する。例えば、応答要素生成部１２は、スケジュールの検索結果として、「タイトル」として登録された「Ａ会議室で打ち合わせ」という情報と、「参加者」として登録された「山田　太郎」という情報とを取得する。

　そして、応答要素生成部１２は、検索結果として取得した情報を、ユーザからの音声入力に対する応答を生成するための応答要素として、当該応答要素を示す情報と、実行したタスクを示す情報とを、後述する応答生成部１７に出力する。

　（ステップＳ１０７）
　発話スタイル検出部１１５は、意味解析部１１４から、音声入力が変換された文字情報に対する自然言語処理の結果を取得する。発話スタイル検出部１１５は、取得した自然言語処理の結果に基づき、音声入力が変換された文字情報から、ユーザや状況の変化に応じて、使用される表現が異なる場合がある語句（即ち、固有表現）を抽出する。

　（ステップＳ２００）
　環境音解析部１３は、取得された音響情報を解析することで、周囲の環境における環境音を抽出し、当該環境音の特徴の抽出を行う。例えば、環境音解析部１３は、音声入力と環境音とのそれぞれの音量に基づき、環境音の特徴として「騒音度」を抽出する。図９は、情報処理装置１の動作の一例を示したフローチャートであり、情報処理装置１が、環境音の特徴として「騒音度」を抽出する場合における処理の一例を示している。

　（ステップＳ２０１）
　環境音解析部１３の環境音認識部１３１は、集音部２１から、集音された音響情報を取得する。環境音認識部１３１は、例えば、情報処理装置１に対してユーザが位置する方向（換言すると、目的音の到来方向）を検知する。なお、情報処理装置１に対してユーザが位置する方向が検出できれば、その方法は特に限定されない。具体的な一例として、環境音認識部１３１は、撮像部２３により撮像された画像の解析結果として取得される、当該画像中におけるユーザの位置に基づき、情報処理装置１に対してユーザが位置する方向を検知してもよい。また、他の一例として、集音部２１として複数の集音デバイス（例えば、マイクアレイ）を設けることで、各集音デバイスの集音結果に応じて、集音された音響情報の到来方向が推定されるように、情報処理装置１が構成されていてもよい。

　（ステップＳ２０３、Ｓ２０５）
　次いで、環境音認識部１３１は、情報処理装置１に対してユーザが位置する方向に死角（null　beam）を有するフィルタを形成する（ステップＳ２０３）。そして、環境音認識部１３１は、集音部２１により集音された音響情報に対して、形成したフィルタを適用することで、当該音響情報から、当該ユーザからの音声入力以外の他の音響情報を環境音として抽出する（ステップＳ２０５）。

　（ステップＳ２０７）
　次いで、環境音認識部１３１は、音響情報から抽出した環境音の音響信号を解析することで、例えば、当該音響信号の振幅に基づき、環境音の音量を検出する。そして、環境音認識部１３１は、検出した環境音の音量を示す情報、騒音の音量を示す情報として外部環境推定部１３２に出力する。

　外部環境推定部１３２は、環境音認識部１３１から、騒音の音量を示す情報を取得する。また、外部環境推定部１３２は、音声解析部１１の音声特徴抽出部１１３から、声の大きさ（即ち、音声入力の音量）を示す情報を取得する。そして、外部環境推定部１３２は、ユーザからの音声入力を目的音として、当該目的音の音量（即ち、声の大きさ）に対する、騒音の音量の大きさを示す数値（例えば、ＳＮ比）を、騒音度として算出する。外部環境推定部１３２は、算出した騒音度を示す情報を、応答パラメータ生成部１６に出力する。

　以上、図９を参照して、環境音解析部１３が、環境音の特徴として「騒音度」を抽出する場合における、一連の処理の流れの一例について説明した。

　（ステップＳ３００）
　また、図８に示すように、情報処理装置１は、ユーザからの音声入力や、撮像されたユーザの画像等のように取得された各種情報に基づき、ユーザの各種状態を推定する。そこで、以下に図１０を参照して、情報処理装置１が、取得された各種情報に基づきユーザの「落ち着き度」を推定する場合の動作の一例について説明する。図１０は、情報処理装置１の動作の一例を示したフローチャートであり、情報処理装置１が、ユーザの状態として「落ち着き度」を推定する場合における処理の一例を示している。

　（ステップＳ３１１）
　例えば、画像解析部１４は、撮像された画像に対して画像解析を施すことで、当該画像解析の結果に基づき、ユーザの姿勢、年齢、性別等のような、当該ユーザの状態や当該ユーザに関する情報（例えば、属性情報）を推定する。また、このとき、画像解析部１４は、撮像された画像に対して所謂個人認識技術に基づく解析処理を施すことで、当該画像中に撮像されたユーザを個人認識してもよい。そして、画像解析部１４は、取得した画像の解析結果、即ち、当該画像に撮像されたユーザ個人の認識結果や、姿勢、年齢、性別等のような、ユーザの状態や当該ユーザに関する情報の推定結果を、ユーザ状態推定部１５に出力する。

　ユーザ状態推定部１５は、画像解析部１４から撮像された画像の解析結果に基づくユーザの状態や当該ユーザに関する情報の推定結果を取得し、取得した当該推定結果（例えば、ユーザの姿勢の推定結果）に基づき、ユーザの「落ち着き度」を算出するための重み（即ち、加減算値）を特定する。

　具体的な一例として、図４に示すように、ユーザ状態推定部１５は、ユーザの姿勢が「座っている」状態、または「寝そべっている」状態の場合には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度の加算値として重みを特定する。また、ユーザ状態推定部１５は、ユーザの姿勢が「立っている」状態の場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度の減算値を重みとして特定する。

　（ステップＳ３２１）
　また、ユーザ状態推定部１５は、音声特徴抽出部１１３から、音声入力の解析結果に基づき認識された当該音声入力の話速を示す情報取得し、取得した話速を示す情報に基づき、ユーザの「落ち着き度」を算出するための重み（即ち、加減算値）を特定してもよい。

　具体的な一例として、図５に示すように、ユーザ状態推定部１５は、話速が「４－６文字／秒」の場合を話速の基準値として、当該基準値よりも話速が遅い場合（即ち、話速が「４文字未満／秒」の場合）には、ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度の加算値として重みを特定する。また、ユーザ状態推定部１５は、基準値よりも話速が速い場合（即ち、話速が「７文字以上／秒」の場合）には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度の減算値を重みとして特定する。

　（ステップＳ３３１）
　また、ユーザ状態推定部１５は、各種センサの検出結果等に応じたユーザの行動の推定結果に基づき、ユーザの「落ち着き度」を算出するための重み（即ち、加減算値）を特定してもよい。

　具体的な一例として、図６に示すように、ユーザ状態推定部１５は、ユーザが「止まっている」場合には、当該ユーザが落ち着いた状態であるもの認識されやすいように、落ち着き度の加算値として重みを特定する。また、ユーザ状態推定部１５は、ユーザが「歩いている」場合、または「走っている」場合には、ユーザが急いでいる状態にあるものと認識されやすいように、落ち着き度の減算値を重みとして特定する。

　（ステップＳ３４０）
　以上のようにして、ユーザ状態推定部１５は、例えば、「ユーザの姿勢」、「音声入力の話速」、及び「ユーザの行動」のうち認識された少なくとも一部の情報に基づき、「落ち着き度」を算出するための重み（即ち、加減算値）を特定する。そして、ユーザ状態推定部１５は、あらかじめ設定された落ち着き度の初期値に対して、特定した重みを適用することで、ユーザの落ち着き度を算出する。

　そして、ユーザ状態推定部１５は、推定したユーザの状態（例えば、落ち着き度）を示す情報を、応答パラメータ生成部１６に出力する。なお、このときユーザ状態推定部１５は、「ユーザの年齢や性別」の推定結果や「ユーザ個人の認識結果」等のような、ユーザに関する情報を、応答パラメータ生成部１６に出力してもよい。

　以上、図１０を参照して、情報処理装置１が、取得された各種情報に基づきユーザの「落ち着き度」を推定する場合の動作の一例について説明した。

　（ステップＳ１０９）
　次いで、図８に示すように、応答パラメータ生成部１６は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性（例えば、言語特性）に関する情報を基に応答パラメータを生成する。

　そのため、応答パラメータ生成部１６は、取得した「ユーザの発話状態に関する情報」のうち、「ユーザの発話スタイル」のような、ユーザの特性を示す継続的な情報に基づく応答パラメータついては、記憶部３０に蓄積してもよい。

　（ステップＳ１１１）
　応答生成部１７は、ユーザからの音声入力に対する応答を生成するための応答要素を示す情報と、当該応答要素を取得すために実行されたタスクを示す情報とを、応答要素生成部１２から取得する。

　以上、図８～図１０を参照して、本実施形態に係る情報処理装置１の一連の動作の流れの一例について説明した。

　＜４．変形例＞
　次に、本実施形態に係る情報処理装置１の変形例について説明する。

　［４．１．変形例１：認識した各種状態のフィードバック］
　まず、変形例１に係る情報処理装置１について説明する。変形例１に係る情報処理装置１は、音声入力に対する応答を生成するために取得した、「騒音度」や「落ち着き度」等のような、各種状態の推定結果（換言すると、ユーザの発話状態に関する情報）に応じて、ユーザに情報をフィードバックする。

　例えば、図１１及び図１２は、変形例１に係る情報処理装置１の概要について説明するための説明図であり、情報処理装置１が、「騒音度」や「落ち着き度」の推定結果に応じた情報を、ユーザに表示情報としてフィードバックするための表示画面の一例を示している。

　例えば、図１１に示す例では、情報処理装置１は、参照符号ｖ１１に示すように、「騒音度」や「落ち着き度」の推定結果に応じて、音声入力の認識精度をより向上させるためのアドバイスを示す情報を提示してもよい。また、情報処理装置１は、参照符号ｖ１３に示すように、「騒音度」や「落ち着き度」の推定結果を可視化した表示情報をユーザに提示してもよい。

　このように、「騒音度」や「落ち着き度」の推定結果に応じた情報をユーザに対してフィードバックすることで、当該ユーザは、音声入力が正確に認識されない場合において、その要因を当該フィードバックに基づき認識することが可能となる。

　なお、情報処理装置１が、ユーザに対してフィードバックする情報の内容や、当該フィードバックの方法は特に限定されない。例えば、図１２は、スマートフォンやウェアラブル端末のように、情報を表示するための画面が比較的小さい情報処理装置１が、ユーザに対して情報をフィードバックする場合の表示画面の一例を示している。図１２に示す例では、図１１において参照符号ｖ１１及びｖ１３で示した各種情報のうち、音声入力の認識精度をより向上させるためのアドバイスを示す情報ｖ１１のみを提示している。また、情報処理装置１は、情報を表示するための画面が極めて小さい場合には、「騒音度」や「落ち着き度」の度合いを示すアイコンのみを、ユーザに対して提示してもよい。

　また、情報処理装置１は、「騒音度」や「落ち着き度」の推定結果に応じて、ユーザに対してフィードバックする情報の内容や、当該フィードバックの態様を制御してもよい。具体的な一例として、情報処理装置１は、ユーザが落ち着いている状態の場合には、図１２に示すように情報ｖ１１及びｖ１３をフィードバックし、ユーザが急いでいる状態の場合には、図１２に示すように、情報ｖ１１のみをフィードバックしてもよい。また、情報処理装置１は、ユーザが極めて急いでいる状態と認識した場合には、「騒音度」や「落ち着き度」の度合いを示すアイコンのみを、ユーザに対してフィードバックしてもよい。

　また、情報処理装置１は、「騒音度」や「落ち着き度」の推定結果に応じた情報を、表示情報とは異なる態様で、ユーザに対して提示してもよい。具体的な一例として、情報処理装置１は、ヘッドフォン型の端末のように、表示部が備えていない場合には、「騒音度」や「落ち着き度」の推定結果に応じた情報を、音響情報としてユーザにフィードバックしてもよい。

　以上、図１１及び図１２を参照して、変形例１に係る情報処理装置１について説明した。

　［４．２．変形例２：個人の認識結果と状況に応じた応答内容の制御例］
　次に、変形例２として、情報処理装置１が、ユーザ個人の認識結果と、当該ユーザが置かれている状況の認識結果とに応じて、応答内容を制御する場合の一例について説明する。

　例えば、発話者であるユーザＵａが、他のユーザＵｂの呼称を、当該ユーザＵａが置かれている状況に応じて切り替えて使用する場合がある。具体的な一例として、ユーザＵａとユーザＵｂとが夫婦であり、二人の間には子供がおり、かつ、ユーザＵｂの名前が「ユリ」であるものとする。この場合には、ユーザＵａは、例えば、子供がいる状況下では、ユーザＵｂのことを「ママ」と呼称するのに対して、子供がいない状況下では、ユーザＵｂのことを「ユリ」と名前で呼称する場合が想定され得る。

　このような、状況に応じた呼称（即ち、発話スタイル）の切り替えを、情報処理装置１が、応答を行う際の状況に応じて再現してもよい。

　具体的な一例として、ユーザＵａの名前が「ヒロフミ」、ユーザＵａの妻であるユーザＵｂの名前が「ユリ」、ユーザＵａ及びＵｂの子供であるユーザＵｃの名前が「ユウタ」であるものとする。

　この場合には、情報処理装置１は、例えば、撮像部２３により撮像された画像を解析することで、自身の周囲に存在するユーザを検出し、検出したユーザそれぞれを個人認識する。そして、情報処理装置１は、個人認識の結果に基づき、ユーザＵａ、Ｕｂ、及びＵｃの呼称を切り替える。

　例えば、情報処理装置１は、自身の周囲にユーザＵａ及びＵｂのみが存在し、ユーザＵａ及びＵｂの子供であるユーザＵｃが存在しないことを認識した場合には、ユーザＵａ及びＵｂそれぞれが、「ヒロフミ」、「ユミ」と呼称されるように応答を生成してもよい。また、情報処理装置１は、自身の周囲にユーザＵｃが存在することを認識した場合には、ユーザＵａ、Ｕｂ、及びＵｃそれぞれが、「パパ」、「ママ」、「ユウタくん」と呼称されるように応答を生成してもよい。

　なお、このような制御を行う場合には、情報処理装置１は、各ユーザの発話スタイルを示す応答パラメータを、想定される状況ごとに区別して蓄積すればよい。

　もちろん、上記に示す例は、あくまで一例であり、情報処理装置１が、発話スタイルを切り替える状況や、切り替えの対象となる発話スタイルは、上記に示す例には限定されない。

　例えば、応答生成部１７は、ユーザからの音声入力を取得した時間帯に応じて、応答内容として出力される情報のうち、挨拶を示す情報の表現を、「おはようございます」、「こんにちは」、「こんばんは」というように切り替えてもよい。

　また、他の一例として、応答生成部１７は、所定のユーザの関係者のみ（例えば、家族のみ）が存在する場合には、よりやわらかい表現となるように応答内容を制御し、第三者が存在する場合には、よりかたい表現となるように応答内容を制御してもよい。

　以上、変形例２として、情報処理装置１が、ユーザ個人の認識結果と、当該ユーザが置かれている状況の認識結果とに応じて、応答内容を制御する場合の一例について説明した。

　＜５．実施例＞
　上述した実施形態では、情報処理装置１とユーザとの間の対話のための言語として、「日本語」が使用される場合を例に説明したが、使用される言語は必ずしも「日本語」には限定されないことは言うまでもない。そこで、以下に、実施例として、情報処理装置１とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について、図１３～図１６を参照して説明する。図１３～図１６は、本実施形態に係る情報処理装置１の実施例について説明するための説明図であり、情報処理装置１とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について示している。なお、本説明では、主に、使用される言語が「日本語」の場合と異なる部分に着目して説明し、その他の部分については、詳細な説明は省略する。

　例えば、図１３は、実施例に係る情報処理装置１が、英語の音声入力を取得した場合における、当該音声入力が示す意味内容の解析と、当該解析の結果に基づく処理の一例について説明するための説明図である。

　図１３は、ユーザがスケジュールを確認するために、情報処理装置１に対して、「Check　my　schedule　tomorrow　1　o’clock　afternoon.」と発話した場合について示している。即ち、図１３に示す例の場合には、情報処理装置１は、取得された音声入力対する音声認識の結果として、「Check　my　schedule　tomorrow　1　o’clock　afternoon.」という文字情報を取得する。

　情報処理装置１は、取得した「Check　my　schedule　tomorrow　1　o’clock　afternoon.」という文字情報に対して、自然言語処理技術に基づく解析を施すことで、当該文字情報に基づき実行すべきタスク（即ち、ユーザからの問合せに対する応答を生成するためのタスク）として、「予定確認」のタスクを特定する。

　なお、英語の音声入力が取得された場合には、当該音声入力に対する音声認識や、当該音声認識の結果に対する自然言語処理として、英語の言語に対応した処理を適用すればよいことは言うまでもない。また、英語の音声入力に対する音声認識や、英語の自然文に対する自然言語処理としては、一般的に使用されている手法を適用すればよく、本説明では、同処理の内容について詳細な説明は省略する。

　また、情報処理装置１は、ユーザからの指示に基づき実行すべきタスクを特定すると、特定したタスクを実行するために必要な引数を、取得した「Check　my　schedule　tomorrow 1　o’clock　afternoon.」という文字情報から抽出する。具体的には、情報処理装置１は、取得した「Check　my　schedule　tomorrow　1　o’clock　afternoon.」という文字情報に対する形態素解析の結果から、「予定確認」のタスクを実行するために必要な「Date-Time」を示す引数として、「tomorrow　1　o’clock　afternoon」というキーワードを抽出する。また、このとき、情報処理装置１は、「tomorrow　1　o’clock　afternoon」というキーワードを、「２０１４／１０／１　１３：００」という表現に変換してもよい。

　次いで、情報処理装置１は、特定した引数に基づき、特定したタスクを実行することで、音声入力に対する応答を生成するための応答要素を取得する。例えば、図１３に示す例の場合には、情報処理装置１は、スケジュールを管理するためのアプリケーションに対して、引数として指定された「２０１４／１０／１　１３：００」を検索キーとして、当該検索キーに対応するスケジュールを検索させる。そして、情報処理装置１は、スケジュールの検索結果として、「タイトル」として登録された「Meeting　at　room　A」という情報と、「参加者」として登録された「Michael」という情報とを取得する。

　また、図１４は、継続的な情報として記憶される応答パラメータの一例について説明するための説明図であり、「英語」が使用されている場合における、「ユーザの発話スタイル」に基づく応答パラメータの一例について示している。なお、図１４では、「ユーザの発話スタイル」を示す応答パラメータｄ１０に含まれる、人名呼称データｄ１１の一例が示されている。

　例えば、図１４に示す例では、「Michael　Smith」という正式名称に対して「Mickey」という呼称が関連付けられている。即ち、当該データは、対応するユーザが、「Michael　Smith」という名前の人物を、「Mickey」と呼称していることを示している。同様に、「Elizabeth　Green」という正式名称に対して「Betty」という呼称が関連付けられている。また、「Katharine　McPhee」という正式名称には、「Kate」という呼称が関連付けられている。

　もちろん、図１４に示す例は、あくまで一例であり、必ずしも図１４に示す内容には限定されない。具体的な一例として、対応するユーザが、ある人物に対して、「Mr.」や「Doctor」等の敬称を付して呼称している場合には、当該人物の正式名に対して、敬称が付された呼称が関連付けられていてもよい。

　なお、以降の動作は、前述した実施形態に係る情報処理装置１と同様である。即ち、情報処理装置１は、タスクの実行結果として取得した応答要素の呼称を応答パラメータとして取得し、取得した応答パラメータを、実行したタスクに応じた応答内容の雛形に埋め込むことで、応答内容を示す情報を生成する。そして、情報処理装置１は、応答内容を示す情報を出力部４０に出力させる。

　なお、実施例に係る情報処理装置１は、前述した変形例１に係る情報処理装置１と同様に、「騒音度」や「落ち着き度」等のような、各種状態の推定結果（換言すると、ユーザの発話状態に関する情報）に応じて、ユーザに情報をフィードバックしてもよい。例えば、図１５及び図１６は、実施例に係る情報処理装置１の概要について説明するための説明図であり、情報処理装置１が、「騒音度」や「落ち着き度」の推定結果に応じた情報を、ユーザに表示情報としてフィードバックするための表示画面の一例を示している。

　以上、実施例として、情報処理装置１とユーザとの間の対話のための言語として、「英語」が使用される場合の一例について、図１３～図１６を参照して説明した。

　＜６．ハードウェア構成＞
　次に、図１７を参照して、本開示の各実施形態に係る情報処理装置１のハードウェア構成の一例について説明する。図１７は、本開示の実施形態に係る情報処理装置１のハードウェア構成の一例を示した図である。

　図１７に示すように、本実施形態に係る情報処理装置１は、プロセッサ９０１と、メモリ９０３と、ストレージ９０５と、操作デバイス９０７と、報知デバイス９１１と、集音デバイス９１５と、撮像デバイス９１７と、バス９１９とを含む。また、情報処理装置１は、通信デバイス９１３を含んでもよい。

　プロセッサ９０１は、例えばＣＰＵ（Central　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）、ＤＳＰ（Digital　Signal　Processor）又はＳｏＣ（System　on　Chip）であってよく、情報処理装置１の様々な処理を実行する。プロセッサ９０１は、例えば、各種演算処理を実行するための電子回路により構成することが可能である。なお、前述した制御部１０の各構成は、プロセッサ９０１により実現され得る。

　メモリ９０３は、ＲＡＭ（Random　Access　Memory）及びＲＯＭ（Read　Only　Memory）を含み、プロセッサ９０１により実行されるプログラム及びデータを記憶する。ストレージ９０５は、半導体メモリ又はハードディスクなどの記憶媒体を含み得る。例えば、前述した記憶部３０は、メモリ９０３及びストレージ９０５の少なくともいずれか、もしくは、双方の組み合わせにより実現され得る。

　操作デバイス９０７は、ユーザが所望の操作を行うための入力信号を生成する機能を有する。操作デバイス９０７は、例えば、タッチパネルとして構成され得る。また、他の一例として、操作デバイス９０７は、例えばボタン及びスイッチなどユーザが情報を入力するための入力部と、ユーザによる入力に基づいて入力信号を生成し、プロセッサ９０１に供給する入力制御回路などから構成されてよい。

　報知デバイス９１１は、出力デバイスの一例であり、例えば、液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）装置、有機ＥＬ（ＯＬＥＤ：Organic　Light　Emitting　Diode）ディスプレイなどのデバイスであってよい。この場合には、報知デバイス９１１は、画面を表示することにより、ユーザに対して所定の情報を報知することができる。また、報知デバイス９１１は、スピーカ等のように、所定の音響信号を出力することで、所定の情報をユーザに報知するデバイスであってもよい。なお、前述した出力部４０は、報知デバイス９１１により実現され得る。

　また、上記に示した報知デバイス９１１の例はあくまで一例であり、ユーザに対して所定の情報を報知可能であれば、報知デバイス９１１の態様は特に限定されない。具体的な一例として、報知デバイス９１１は、ＬＥＤ（Light　Emitting　Diode）のように、点灯又は点滅のパターンにより、所定の情報をユーザに報知するデバイスであってもよい。また、報知デバイス９１１は、所謂バイブレータのように、振動することで、所定の情報をユーザに報知するデバイスであってもよい。

　通信デバイス９１３は、情報処理装置１が備える通信手段であり、ネットワークを介して外部装置と通信する。通信デバイス９１３は、有線または無線用の通信インタフェースである。通信デバイス９１３を、無線通信インタフェースとして構成する場合には、当該通信デバイス９１３は、通信アンテナ、ＲＦ（Radio　Frequency）回路、ベースバンドプロセッサなどを含んでもよい。

　通信デバイス９１３は、外部装置から受信した信号に各種の信号処理を行う機能を有し、受信したアナログ信号から生成したデジタル信号をプロセッサ９０１に供給することが可能である。

　集音デバイス９１５は、マイクロフォン等のような、ユーザから発せられた音声や周囲の環境の音響を集音し、音響情報（音響信号）として取得するためのデバイスである。また、集音デバイス９１５は、集音された音声や音響を示すアナログの音響信号を示すデータを音響情報として取得してもよいし、当該アナログの音響信号をデジタルの音響信号に変換し、変換後のデジタルの音響信号を示すデータを音響情報として取得してもよい。なお、前述した集音部２１は、集音デバイス９１５により実現され得る。

　撮像デバイス９１７は、ＣＭＯＳ（Complementary　Metal-Oxide　Semiconductor）イメージセンサやＣＣＤ（Charge　Coupled　Device）イメージセンサ等の、被写体を撮像し、撮像画像のデジタルデータを得る撮像素子を含む。即ち、撮像デバイス９１７は、プロセッサ９０１の制御に従い、レンズ等の光学系を介して静止画像又は動画像を撮影する機能を有する。撮像デバイス９１７は、撮像した画像をメモリ９０３やストレージ９０５に記憶させてもよい。なお、前述した撮像部２３は、撮像デバイス９１７により実現され得る。

　バス９１９は、プロセッサ９０１、メモリ９０３、ストレージ９０５、操作デバイス９０７、表示デバイス９０９、通信デバイス９１３、集音デバイス９１５、及び撮像デバイス９１７を相互に接続する。バス９１９は、複数の種類のバスを含んでもよい。

　また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置１が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。

　＜７．まとめ＞
　以上、説明したように、本実施形態に係る情報処理装置１は、ユーザの外部環境の検出結果、ユーザの状態を示す情報、及びユーザの発話スタイル等のように、検出されたユーザの状態、状況、または特性（例えば、言語特性）に関する情報（即ち、ユーザの発話状態に関する情報）を基に応答パラメータを生成する。そして、情報処理装置１は、生成した応答パラメータに基づき、ユーザからの音声入力に対する応答の内容（例えば、固有表現の呼称、出力される情報量等）や、当該応答の出力態様（例えば、音量、出力速度（話速）、周波数帯域等）を制御する。

　これにより、本実施形態に係る情報処理装置１は、音声入力に対する応答を、ユーザや状況の変化に応じてより好適な態様、換言すると、ユーザがより自然に感じる（即ち、より違和感の少ない）態様となるように制御することが可能となる。即ち、本実施形態に係る情報処理装置１は、ユーザとの間の対話を、より自然な態様で実現可能な実現可能な、音声入力に基づく対話型のユーザインタフェースを提供することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、
　を備える、情報処理装置。
（２）
　前記制御部は、取得された前記ユーザの発話状態に関する情報に応じて、前記応答として出力される内容を制御する、前記（１）に記載の情報処理装置。
（３）
　前記制御部は、前記内容として出力される情報の種別を、ユーザの発話状態に関する情報に応じて制御する、前記（２）に記載の情報処理装置。
（４）
　前記制御部は、前記応答として出力される前記内容に含まれる所定の種別の情報が、取得した前記ユーザの発話状態に関する情報に応じた表現で出力されるように制御する、前記（２）または（３）に記載の情報処理装置。
（５）
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の情報量を制御する、前記（２）～（４）のいずれか一項に記載の情報処理装置。
（６）
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の詳しさの度合いを制御する、前記（５）に記載の情報処理装置。
（７）
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記ユーザから発話された問い合わせに対する応答に関連する付加情報の出力を制御する、前記（５）に記載の情報処理装置。
（８）
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力態様を制御する、前記（１）～（７）のいずれか一項に記載の情報処理装置。
（９）
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の音量を制御する、前記（８）に記載の情報処理装置。
（１０）
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力速度を制御する、前記（８）または（９）に記載の情報処理装置。
（１１）
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の周波数帯域を制御する、前記（８）～（１０）のいずれか一項に記載の情報処理装置。
（１２）
　取得される前記ユーザの発話状態に関する情報の少なくとも一部には、１以上の検知部の検知結果に基づき認識される１以上の状態が関連付けられ、
　前記制御部は、１以上の前記検知部の検出結果に基づき認識された状態を示す情報が取得された場合に、当該状態が関連付けられた、前記ユーザの発話状態に関する情報に応じて、前記応答が出力されるように制御する、前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１３）
　前記制御部は、取得した前記ユーザの発話状態に関する情報の少なくとも一部に応じて、当該ユーザを個人認識し、当該個人認識の結果に応じて、前記応答が出力されるように制御する、前記（１）～（１２）のいずれか一項に記載の情報処理装置。
（１４）
　前記制御部は、前記個人認識の結果と、取得した前記ユーザの発話状態に関する情報の少なくとも一部とに応じて前記応答が出力されるように制御する、前記（１３）に記載の情報処理装置。
（１５）
　前記ユーザの発話状態に関する情報は、過去に取得した当該ユーザの前記発話に基づく情報を含む、前記（１）～（１４）のいずれか一項に記載の情報処理装置。
（１６）
　前記ユーザの発話状態に関する情報は、認識された当該ユーザの行動を示す情報を含む、前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記ユーザの発話状態に関する情報は、認識された当該ユーザの周囲の環境を示す情報を含む、前記（１）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記ユーザの発話状態に関する情報の少なくとも一部は、当該ユーザの前記発話に基づき取得される、前記（１）～（１７）のいずれか一項に記載の情報処理装置。
（１９）
　プロセッサが、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
　を含む、情報処理方法。
（２０）
　コンピュータに、
　取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
　を実行させる、プログラム。

　１　　情報処理装置
　１０　　制御部
　１１　　音声解析部
　１１１　音声区間検出部
　１１２　音声認識部
　１１３　音声特徴抽出部
　１１４　意味解析部
　１１５　発話スタイル検出部
　１２　　応答要素生成部
　１３　　環境音解析部
　１４　　画像解析部
　１３１　環境音認識部
　１３２　外部環境推定部
　１５　　ユーザ状態推定部
　１６　　応答パラメータ生成部
　１７　　応答生成部
　２１　　集音部
　２３　　撮像部
　３０　　記憶部
　４０　　出力部

Claims

　取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御する制御部、
　を備える、情報処理装置。
　前記制御部は、取得された前記ユーザの発話状態に関する情報に応じて、前記応答として出力される内容を制御する、請求項１に記載の情報処理装置。
　前記制御部は、前記内容として出力される情報の種別を、ユーザの発話状態に関する情報に応じて制御する、請求項２に記載の情報処理装置。
　前記制御部は、前記応答として出力される前記内容に含まれる所定の種別の情報が、取得した前記ユーザの発話状態に関する情報に応じた表現で出力されるように制御する、請求項２に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の情報量を制御する、請求項２に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される前記内容の詳しさの度合いを制御する、請求項５に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記ユーザから発話された問い合わせに対する応答に関連する付加情報の出力を制御する、請求項５に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力態様を制御する、請求項１に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の音量を制御する、請求項８に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答の出力速度を制御する、請求項８に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報に応じて、前記応答として出力される音声情報の周波数帯域を制御する、請求項８に記載の情報処理装置。
　取得される前記ユーザの発話状態に関する情報の少なくとも一部には、１以上の検知部の検知結果に基づき認識される１以上の状態が関連付けられ、
　前記制御部は、１以上の前記検知部の検出結果に基づき認識された状態を示す情報が取得された場合に、当該状態が関連付けられた、前記ユーザの発話状態に関する情報に応じて、前記応答が出力されるように制御する、請求項１に記載の情報処理装置。
　前記制御部は、取得した前記ユーザの発話状態に関する情報の少なくとも一部に応じて、当該ユーザを個人認識し、当該個人認識の結果に応じて、前記応答が出力されるように制御する、請求項１に記載の情報処理装置。
　前記制御部は、前記個人認識の結果と、取得した前記ユーザの発話状態に関する情報の少なくとも一部とに応じて前記応答が出力されるように制御する、請求項１３に記載の情報処理装置。
　前記ユーザの発話状態に関する情報は、過去に取得した当該ユーザの前記発話に基づく情報を含む、請求項１に記載の情報処理装置。
　前記ユーザの発話状態に関する情報は、認識された当該ユーザの行動を示す情報を含む、請求項１に記載の情報処理装置。
　前記ユーザの発話状態に関する情報は、認識された当該ユーザの周囲の環境を示す情報を含む、請求項１に記載の情報処理装置。
　前記ユーザの発話状態に関する情報の少なくとも一部は、当該ユーザの前記発話に基づき取得される、請求項１に記載の情報処理装置。
　プロセッサが、取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
　を含む、情報処理方法。
　コンピュータに、
　取得したユーザの発話状態に関する情報に応じて、前記ユーザの発話に対する応答の出力を制御すること、
　を実行させる、プログラム。