WO2019225201A1

WO2019225201A1 - 情報処理装置及び情報処理方法、並びに情報処理システム

Info

Publication number: WO2019225201A1
Application number: PCT/JP2019/015875
Authority: WO
Inventors: 原　昌宏; 慎平亀岡
Original assignee: ソニー株式会社
Priority date: 2018-05-25
Filing date: 2019-04-11
Publication date: 2019-11-28
Also published as: CN112136102B; CN112136102A; EP3805914A4; US20210217414A1; KR20210014625A; JP7342862B2; EP3805914A1; US11869496B2; JPWO2019225201A1

Abstract

音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムを提供する。　情報処理装置は、第１の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、外部エージェントサービスを制御する制御部を具備する。前記制御部は、ユーザの画像又は音声、ユーザによる前記第１の機器の操作に関する情報、前記第１の機器が装備するセンサが検出したセンサ情報のうち少なくとも１つを含む前記情報を収集する。前記制御部は、外部エージェントサービスの呼び出しを制御する。

Description

情報処理装置及び情報処理方法、並びに情報処理システム

　本明細書で開示する技術は、音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムに関する。

　最近、音声などを用いてユーザと対話を行いながら、用途や状況に応じて種々の情報をユーザに提示するエージェントが普及し始めている。例えば、照明やエアコンなどの家電機器のオンオフや調整操作を代行する他、天気予報や株・為替情報、ニュースについて聞かれると音声で回答したり、商品の注文を受け付けたり、購入した書籍の内容を読み上げたりするエージェントが知られている。

　エージェント機能は、一般に、家庭内などでユーザの周囲に設置されるエージェントデバイスと、クラウド上に構築されるエージェントサービスの連携により提供される（例えば、特許文献１を参照のこと）。例えば、エージェントデバイスは、ユーザが発話する音声を受け付ける音声入力、並びにユーザからの問い合せに対して音声で回答する音声出力といったユーザインターフェースを主に提供する。一方のエージェントサービス側では、エージェントデバイスで入力された音声の認識や意味解析、ユーザの問い合わせに応じた情報検索などの処理、処理結果に基づく音声合成など、負荷の高い処理を実行する。

　また、ユーザと直接対話を行うエージェントデバイスは、専用の装置である他、屋内に設置されたテレビ受像機、エアコン、録画機、洗濯機などの各種ＣＥ機器やＩｏＴ（Ｉｎｔｅｒｎｅｔ　ｏｆ　Ｔｈｉｎｇ）デバイス、スマートフォンやタブレットなどの持ち運びが可能な情報端末、対話型ロボット、車内に設置されたカーナビなど、エージェント用アプリケーションが常駐する各種情報機器であってもよい（例えば、特許文献１を参照のこと）。

特表２０１７－５２７８４４号公報ＷＯ２０１４／２０３４９５特開２００７－１４３０１０号公報特開２０１６－１００６１３号公報

　本明細書で開示する技術の目的は、音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムを提供することにある。

　本明細書で開示する技術の第１の側面は、
　第１の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
　外部エージェントサービスを制御する制御部と、
を具備する情報処理装置である。

　前記制御部は、ユーザの画像又は音声、ユーザによる前記第１の機器の操作に関する情報、前記第１の機器が装備するセンサが検出したセンサ情報のうち少なくとも１つを含む前記情報を収集する。

　また、前記制御部は、各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する。具体的には、前記制御部は、第１の外部エージェントサービスへの呼び出し内容を音声合成して、前記第１の外部エージェントサービスの呼び出しを行い、又は、第２の外部エージェントサービスへの呼び出し内容を音声合成し、前記第１の機器から前記第２の外部エージェントサービスの配下の外部エージェントデバイスに対して音声による呼び出しを行う。

　また、本明細書で開示する技術の第２の側面は、ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信部と、
　前記回答を出力する出力部と、
を具備する情報処理装置である。

　また、本明細書で開示する技術の第３の側面は、
　第１の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
　外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法である。

　また、本明細書で開示する技術の第４の側面は、
　ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
　前記回答を出力する出力ステップと、
を有する情報処理方法である。

　また、本明細書で開示する技術の第５の側面は、
　ユーザと対話するエージェントが常駐する第１の機器と、
　前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、　外部エージェントサービスを制御する制御部と、
を具備する情報処理システムである。

　但し、ここで言う「システム」とは、複数の装置（又は特定の機能を実現する機能モジュール）が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。

　本明細書で開示する技術によれば、音声をベースとするエージェントの対話を処理する情報処理装置及び情報処理方法、並びに情報処理システムを提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本発明の効果はこれに限定されるものではない。また、本発明が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、本明細書で開示する技術の適用環境の一例を示した図である。図２は、エージェントデバイスとして動作することが可能な情報機器１００の構成例を模式的に示した図である。図３は、クラウドを利用したエージェントクラウドプラットフォームの構成例を模式的に示した図である。図４は、エージェントシステム３３０がＴＶエージェント３１０を介してローカル側の情報を収集する様子を示した図である。図５は、エージェントシステム３３０が外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出す様子を示した図である。図６は、エージェントシステム３３０が外部エージェントサービス３４０を呼び出す様子を例示した図である。図７は、エージェントシステム３３０がユーザのプロファイル情報を利用して外部エージェントサービス３４０を呼び分ける際の処理手順を示したフローチャートである。図８は、エージェントシステム３３０がユーザの機微情報を保護しながら外部エージェントサービス３４０を呼び分ける際の処理手順を示したフローチャートである。図９は、エージェントクラウドプラットフォーム３００におけるアカウント管理の一例を示した図である。図１０は、エージェントシステム３３０がユーザの状態に応じて外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを制御する様子を示した図である。

　以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

　図１には、本明細書で開示する技術の適用環境の一例として、リビングルーム１を示している。サイドボード１３上には、テレビ受像機１１と、エージェントデバイス１２が設置されている。後述するように、テレビ受像機１１は、エージェント用アプリケーションが常駐し、エージェントデバイスとしても動作することができる。

　また、リビングルーム１内には、テレビ受像機１１と対面するようにソファ１４が設置され、ソファ１４の前方にはソファテーブル１５が備えられている。

　図１に示す例では、親子３人がソファ１４に座っている。３人は、テレビ受像機１１に表示されているテレビ番組の視聴者であるとともに、テレビ受像機１１上で動作するエージェント若しくはエージェントデバイス１２のユーザであり、エージェントに対して問い合わせして、返答を待つ。また、各ユーザは、リモコン（図示しない）を使ってテレビ受像機１１の選局、音量調整、入出力機器の切り替えなどさまざまなリモコン操作を行うことができるものとする。あるいは、各ユーザは、テレビ受像機１１に常駐するエージェントに対して、テレビ受像機１１の選局、音量調整、入出力機器の切り替えなどさまざまな操作を、音声により指示することもできる。

　テレビ受像機１１から発される音声の音波は、ソファ１４に座っている３人に直接波として届く他、壁面や天井、床面からの反射波としても届く。テレビ受像機１１から発される音声には、選局受信中のテレビ番組の音声と、エージェントから返信された合成音声が含まれる。エージェントデバイス１２から発される音声も同様に、ソファ１４に座っている３人に直接波として届く他、壁面や天井、床面からの反射波としても届く。

　なお、本明細書で開示する技術の適用環境は、図１に示したような一般家庭内で家族が共有するリビングルームには限定されない。書斎などの特定のユーザの個室や寝室など、エージェント機能を提供するテレビ受像機が設置されるさまざまな部屋にも本明細書で開示する技術を適用可能である。また、家庭内だけでなく、企業のオフィスにも、本明細書で開示する技術を適用することができる。

　図２には、エージェントデバイスとして動作することが可能な情報機器１００の構成例を模式的に示している。ここでは情報機器１００として、図１中のテレビ受像機１１を想定している。情報機器１００は、処理部１０１と、チューナ１０２と、通信部１０３と、表示部１０４と、音声入力部１０５と、音声出力部１０６と、撮像部１０７と、センサ部１０８と、リモコン受信部１０９と、記録部１１０を備えている。

　チューナ１０２は、地上波放送並びに衛星放送の放送信号を選局受信する。また、通信部１０３は、イーサネット（登録商標）などの有線通信又はＷｉ－Ｆｉ（登録商標）などの無線通信を利用して、インターネットなどの外部ネットワークに接続している。また、通信部１０３は、例えばＤＬＮＡ（登録商標）（Ｄｉｇｉｔａｌ　Ｌｉｖｉｎｇ　Ｎｅｔｗｏｒｋ　Ａｌｌｉａｎｃｅ）などの規格に則って、ホームネットワークを介して家庭内の各ＣＥ機器と相互接続していてもよいし、ＩｏＴデバイスとのインターフェース機能をさらに備えていてもよい。

　表示部１０４は、例えば液晶や有機ＥＬ素子などで構成され、１６：９の縦横比からなる画面を備え、チューナ１０２で選局受信した番組コンテンツの映像やＥＰＧ（Ｅｌｅｃｔｒｏｎｉｃ　Ｐｒｏｇｒａｍ　Ｇｕｉｄｅ）、データ放送コンテンツを表示したり、ＯＳＤ（Ｏｎ　Ｓｃｒｅｅｎ　Ｄｉｓｐｌａｙ）を表示したりするのに使用される。なお、表示部１０４の画面の一部又は全部の領域にタッチセンサが重畳されていてもよい。

　音声入力部１０５は、マイクなどの収音素子で構成され、情報機器１００が設置された室内で発生する音声の入力に用いられる。室内で発生する音声として、テレビ番組の視聴者若しくは音声エージェントを利用するユーザによる発話を挙げることができる。音声入力部１０５は、複数のマイクを組み合わせたマイクロフォンアレイを備えていてもよい（一部又は全部のマイクロホンが情報機器１００に外付け接続されていてもよい。あるいは、音声入力部１０５は、テレビ受像機１１用のリモコンに搭載されたマイクを含んでいてもよいし、スマートフォンやウェアラブル機器などテレビ受像機１１の外部機器に搭載されたマイクを含んでいてもよい）。音声入力部１０５が複数のマイクロホンを備える場合、ビームフォーム処理により、所望する音源の位置からの音声（例えば、音声エージェントに話し掛けるユーザの音声）を高めたり、逆に不要な音源の位置からの音声（例えば、その他のユーザの音声や、室内の他のＡＶ機器から出力される音響など）を抑圧したりすることができる。

　音声出力部１０６は、スピーカーなどの音響発生素子で構成される。音響出力部１０６は、チューナ１０２で選局受信した番組コンテンツやデータ放送コンテンツの音声出力、並びに音声エージェントから返信された合成音声の出力などに用いられる。コーン型スピーカーの他、フラットパネル型スピーカー（例えば、特許文献３を参照のこと）を音声出力部１０６に用いることができる。また、音声出力部１０６は、複数のスピーカーを組み合わせたスピーカーアレイ（多チャンネルスピーカー若しくは超多チャンネルスピーカー）を備えていてもよい（一部又は全部のスピーカーが情報機器１００に外付け接続されていてもよい）。音声出力部１０６が複数のスピーカーを備える場合、所望の位置に音像を定位させたり（例えば、音声エージェントの音声の音像を、問い合わせたユーザに対して所定の相対位置となる場所に定位させる、あるいは、テレビ番組の音声とは混ざらない場所に定位させる）、所望の位置以外の場所からは音声を聴こえ難くしたりすることができる。また、音場における音声の波面を複数のマイクロホンで収音し、得られた収音信号に基づいて音場を再現する「波面合成」（例えば、特許文献４を参照のこと）などの音場再現手法を利用することもできる。

　撮像部１０７は、例えばＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｙｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）やＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｏｐｌｅｄ　Ｄｅｖｉｃｅ）などのイメージセンサからなるカメラで構成され、主に情報機器１００の正面方向（例えば、表示部１０４の画面前方）にいるユーザを撮像する。撮像部１０７は、例えば、２台のカメラを用いたステレオカメラや、３台以上のカメラを用いた多眼カメラであってもよい。また、一部又は全部のカメラが情報機器１００に外付け接続されていてもよい。

　センサ部１０８は、主に、情報機器１００が設置されている室内の環境情報をセンシングする。センサ部１０８の構成（すなわち、どのようなセンサ素子を含むか）は任意である。例えば、センサ部１０８は、物体検出センサや深度センサを含んでいてもよい。物体検出センサや深度センサの検出結果に基づいて（必要に応じて、撮像部１０７で撮影した画像に画像認識結果と併せて）、室内に設置された家具のレイアウトを検出することができる。また、センサ部１０８は、照度センサや温度センサ、湿度センサなどの環境情報を検出する環境センサを備えていてもよい。また、センサ部１０８は、赤外線センサや人感センサを備えていてもよい。また、センサ部１０８は、ユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサを備えていてもよい。センサ部１０８を構成するセンサ部の一部又は全部が情報機器１００に外付け接続されていてもよい。

　リモコン受信部１０９は、リモコン（図示しない）から赤外線通信や近距離無線通信などを利用して送信されるリモコンコマンドを受信処理する。リモコンの操作者は、例えば、図１に示したリビングにいるテレビ受像機１１の視聴ユーザなどである。

　記録部１１０は、例えばＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）などの大容量記録装置で構成され、主にチューナ１０２で受信した番組コンテンツの録画に使用される。記録部１１０は、情報機器１００内に配設される他、ＨＤＭＩ（登録商標）（Ｈｉｇｈ　Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）やＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）などのインターフェースを介して情報機器１００に外付け接続される場合もある。

　処理部１０１は、プロセッサ及びメモリを含み、メモリにロードしたプログラムを実行して、各種処理を実施して、情報機器１００内の動作を統括的にコントロールする。処理部１０１内では、基本的には、オペレーティングシステム（ＯＳ）が提供する実行環境下で、さまざまなアプリケーションが実行される。例えばマルチプロセッサが利用可能な場合、あるいはＯＳによってマルチスレッド実行が可能な場合においては、並列実行可能な処理単位はすべてメモリに読み出され並列実行させることができる。

　処理部１０１において実行される処理として、リモコン受信部１０９で受信したリモコンコマンドに応じた選局、音量調整、録画、並びに画質調整などの機器１００内の操作や、チューナ１０２で選局受信された番組コンテンツの映像及び音声出力処理、記録部１１０に録画した番組コンテンツの再生出力処理、チューナ１０２又は通信部１０３を介して受信したデータ放送アプリケーションの実行、音声エージェントなど各種アプリケーションの実行を挙げることができる。また、処理部１０１が複数のエージェント用アプリケーションを並列実行することにより、情報機器１００が複数のエージェントデバイスとして機能することも可能である。

　エージェント機能は、一般に、ユーザの周囲に設置されるエージェントデバイスと、クラウド上に構築されるエージェントサービスの連携により提供される。図３には、クラウドを利用したエージェントクラウドプラットフォーム３００の構成例を模式的に示している。エージェントクラウドプラットフォーム３００はローカル側とクラウド側に区分される。

　エージェントクラウドプラットフォーム３００のローカル側は、図１に示したリビングルーム１などに相当し、ＴＶエージェント３１０と、外部エージェントデバイス３２０を含んでいる。

　ＴＶエージェント３１０は、情報機器１００（図１中のテレビ受像機１１に対応）に常駐するエージェントであり、情報機器１００が装備する音声入力部１０５、音声出力部１０６、撮像部１０７、及びセンサ部１０８などの各機能モジュールを活用することができる。

　外部エージェントデバイス３２０は、図１中のエージェントデバイス１２に対応する。外部エージェントデバイス３２０は、音声エージェント専用のデバイスであり、ユーザと対話するための音声入力部３２１及び音声出力部３２２を備えている。但し、外部エージェントデバイス３２０は、「スマートスピーカー」、「ＡＩスピーカー」、「ＡＩアシスタント」などとも呼ばれる音声エージェント専用のデバイスではなく、テレビ受像機１１以外のＣＥ機器や、ＩｏＴデバイス、情報端末などに常駐する音声エージェントであってもよい。

　ＴＶエージェント３１０も外部エージェントデバイス３２０も、ユーザから見れば、音声ベースで対話を行うエージェントとして相違ない。但し、前者はテレビ受像機１１を介してユーザと対話する（若しくは、ＴＶと親和性の高いエージェントサービスを提供する）ことから「ＴＶエージェント」と呼び、後者はテレビ受像機１１の外部でユーザと対話する（若しくは、ＴＶ放送サービスとは結び付きの少ないエージェントサービスを提供する）ことから「外部エージェントデバイス」と呼んで、便宜上、両者を区別する。

　一方、エージェントクラウドプラットフォーム３００のクラウド側は、エージェントシステム３３０と、複数の外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…を含んでいる。エージェントシステム３３０並びに外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…はいずれも、ローカル側のユーザからの問い合わせに回答するエージェントサービスを提供するという観点からは、ユーザから見れば相違しない。但し、前者はＴＶエージェント３１０と直接連携してエージェントサービスを提供することから「エージェントシステム」と呼び、後者はＴＶエージェント３１０とは直接には連携せず、テレビ受像機１１の外部からエージェントサービスを提供することから「外部エージェントサービス」と呼んで、便宜上、両者を区別する。エージェントシステム３３０は、例えばテレビ受像機１１の製品製造元又は販売元が運営するサーバ装置上に構築されることもあるが、特定の運営形態には限定されない。また、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…の少なくとも一部（図３に示す例では、外部エージェントサービス３４０Ｃ）は、ローカル側に設置された外部エージェントデバイス３２０と直接連携している。

　エージェントシステム３３０は、音声認識部３３１と、意味解析部３３２と、音声合成部３３３と、制御部３３４を備えている。

　音声認識部３３１は、ＴＶエージェント３１０側の音声入力部１０５で収音されたユーザの発話を音声認識して、テキスト情報に変換する。意味解析部３３２は、音声認識されたテキスト情報に基づいて、ユーザの発話データの意味解析を行う。また、音声合成部３３３は、ユーザに対する回答となるテキスト情報を音声データに変換する。音声データは、ＴＶエージェント３１０に送られ、音声出力部１０６から問い合わせ元のユーザに対して音声出力される。なお、ＴＶエージェント３１０は、音声出力以外に、表示部１０４の画面の映像出力を併せて用いて、ユーザからの問い合わせに対する回答を出力するようにしてもよい。また、ＴＶエージェント３１０は、テレビ受像機１１とホームネットワーク経由で接続される他のＣＥ機器やＩｏＴデバイスの出力機能などを併せて用いて、ユーザからの問い合わせに対する回答を出力するようにしてもよい。

　制御部３３４は、ＴＶエージェント３１０のユーザからの問い合わせに回答するための処理を実行する。例えば、制御部３３４は、ユーザが問い合わせた情報を検索したり、ユーザが要求したコンテンツを取得したり、商品の注文を行ったりする、ユーザからの問い合わせに回答するために、制御部３３４は、学習機能やＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）機能を搭載していてもよい。

　また、制御部３３４は、ユーザからの問い合わせに回答するために、さらに外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…を呼び出すことができる。制御部３３４は、リクエストすることが可能なすべての外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…を呼び出してもよいし、いずれか一部の外部エージェントデバイスを選択して呼び出すようにしてもよい。例えば、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…がそれぞれ固有の得意分野を有する場合には、制御部３３４は、ユーザからの問い合わせ内容や問い合わせしたユーザのプロファイル情報などに応じて、リクエスト先の外部エージェントサービスを取捨選択するようにしてもよい。また、ユーザから特定の外部エージェントサービスを指定する「起動ワード」が音声入力されたときには、制御部３３４は、入力された起動ワードに対応する外部エージェントサービスにそのままリクエストしてもよいし、起動ワードを考慮しつつ、リクエスト先の外部エージェントサービスを取捨選択するようにしてもよい。

　また、エージェントシステム３３０から外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…を呼び出す方法はいくつか考えられる。例えば、ユーザからの問い合わせを意味解析部３３２で意味解析して得たテキスト情報を、外部エージェントサービス３４０Ｂに送信してもよいし、そのテキスト情報を音声合成部３３３で音声合成した音声データを外部エージェントサービス３４０Ａに送信して、ユーザからの音声入力のような形態で問い合わせしてもよい。あるいは、エージェントシステム３３０が外部エージェントサービス３４０Ｃにリクエストする場合には、音声合成部３３３で音声合成した音声データをＴＶエージェント３１０に送信して、ＴＶエージェント３１０の音声出力部１０６から、あたかも室内のユーザが問い合わせるような音声を出力して、外部エージェントデバイス３２０を通じて問い合わせするようにすることもできる。

　また、リクエスト先の外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…からエージェントシステム１００に対して回答する方法もいくつか考えられる。例えば、外部エージェントサービス３４０Ｂのように、テキスト情報などからなる（若しくは、音声合成前の）処理結果がエージェントサービス３３０に送られてくる場合がある。また、外部エージェントサービス３４０Ａ、３４０Ｃのように、処理結果を音声合成した音声データが、エージェントサービス３３０に送られてくる場合もある。エージェントサービス３３０は、外部エージェントサービス３４０Ａ、３４０Ｃなどから送られてきた音声データを音声認識するための音声認識部３３５と、その音声認識結果を意味解析する意味解析部３３６をさらに備えている。

　そして、制御部３３４は、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃからの回答を意味解析結果のレベルで集計して、ユーザからの問い合わせに対する回答文を生成する。複数の回答を集計する方法は任意である。エージェントシステム３３０自身が得た回答と照らし合わせて特定の外部エージェントサービスからの回答を選択してもよいし、多数決など所定の選択基準に基づいて特定の外部エージェントサービスからの回答を選択してもよいし、複数の外部エージェントサービスからの回答を合成して１つの回答文を生成するようにしてもよい。いずれにせよ、音声合成部３３３は、制御部３３４で生成した回答文を音声データに変換して、ＴＶエージェント３１０に送られる。そして、ＴＶエージェント３１０では、問い合わせ元のユーザに対する回答の音声が、音声出力部１０６から　ユーザに対して音声出力される。

　なお、エージェントシステム３３０が装備する音声認識部３３１と、意味解析部３３２と、音声合成部３３３と、制御部３３４、音声認識部３３５、意味解析部３３６のうち一部又は全部の機能モジュールがＴＶエージェント３１０に取り込まれていてもよい。あるいは、これらの機能モジュール３３１～３３６が１台のサーバ装置上に構築されていてもよいし、複数台のサーバ装置に分散して配置されてもよい。

　各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃ、…の機能的構成はほぼ同様である。以下では、代表して、外部エージェントサービス３４０Ｃの機能的構成について説明する。

　外部エージェントサービス３４０Ｃは、音声認識部３４１Ｃと、意味解析部３４２Ｃと、処理部３４３Ｃと、音声合成部３４４Ｃを備えている。

　音声認識部３４１Ｃは、外部エージェントデバイス３２０の音声入力部３２１で収音された発話を音声認識して、テキスト情報に変換する。なお、音声入力部３２１で収音する音声は、ユーザの発話の他、ＴＶエージェント３１０の音声出力部１０６から出力する音声である場合も想定される。

　意味解析部３４２Ｃは、音声認識されたテキスト情報に基づいて、ユーザの発話データの意味解析を行う。処理部３４３Ｃは、ユーザからの問い合わせに回答するための処理を実行する。例えば、外部エージェントサービス３４０Ｃを指定する「起動ワード」がユーザから音声入力されたことが意味解析結果により分かると、処理部３４３Ｃは処理実行を開始する。

　音声合成部３４４Ｃは、ユーザに対する回答となるテキスト情報を音声データに変換する。音声データは、外部エージェントデバイス３２０に送られ、音声出力部３２２から問い合わせ元のユーザに対して音声出力される。なお、音声合成部３２２で生成した音声データは、外部エージェントデバイス３２０に送信して音声出力される他、エージェントシステム３３０に送信され、音声認識部３３５に入力される場合も想定される。

　なお、図３では、図面の簡素化のため、クラウド側の１つのエージェントシステム３３０が１台のＴＶエージェント３１０に対してエージェントサービスを提供するように描いているが、１つのエージェントシステム３３０が複数台のテレビ受像機上で動作している複数のＴＶエージェントに対して同時にエージェントサービスを提供することが想定される。すなわち、現実には、１つのエージェントシステム３３０が各家庭に設置された多数のテレビ受像機のＴＶエージェントに対して、同時にエージェントサービスを提供する。

　また、図３では、紙面の都合上、３つの外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを描いているが、エージェントシステム３３０と連携する外部エージェントサービスの数は３つに限定されず、２以下又は４以上の外部エージェントサービスと連携することが想定される。

　また、図３では、１台の外部エージェントデバイス３２０を描いているが、本明細書で開示する技術を実装する上で、外部エージェントデバイスは必ずしも必須の構成要素ではない。あるいは、ローカル側に２台以上の外部エージェントデバイスが併存していても、同様に、本明細書で開示する技術を実現可能である点を理解されたい。

　図３中に示した複数のエージェントサービスのうち、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、例えば「ＡＩエージェント」や「ＡＩスピーカー」とも呼ばれ、本願の出願時点において既に広く利用されているサービスである。この種の外部エージェントサービスは、インターネットなどの広域ネットワーク経由で接続可能な無数の外部エージェントデバイス（図３中の、外部エージェントデバイス３２０に相当）を配下に置くことが想定されている。各ユーザは、自分が所有する外部エージェントデバイスを通じて外部エージェントサービスにログインすることができる。各外部エージェントサービスは、ログインしてきたユーザ毎にアカウントを設定し、各ユーザのプロファイル情報や履歴情報をアカウントに対応付けて管理する（以下、「アカウント切替え」機能とも呼ぶ）。そして、外部エージェントサービスは、例えばユーザから問い合わせを受ける度にプロファイル情報や履歴情報を逐次的に更新し又は学習機能を採り入れることで、個々のユーザにカスタマイズ又はパーソナライズした粒度の細かいサービスを提供することができる。

　また、図３中に示した複数のエージェントサービスのうち、エージェントシステム３３０は、例えばテレビ受像機１１の製品製造元又は販売元が運営することが想定され、ＴＶエージェント３１０と直接連携してエージェントサービスを提供する。エージェントシステム３３０もＡＩエージェントであることに相違はないが、ＴＶエージェント３１０のユーザは、基本的にはテレビ受像機１１を視聴するユーザに限定されるものとする。エージェントシステム３３０は、テレビ受像機１１（すなわち、ローカル側）の撮像部１０７や音声入力部１０５で捕捉した画像や音声を認識して個人識別した結果に基づいてユーザを特定して、ユーザ毎のアカウントを管理する。そして、エージェントシステム３３０は、ユーザから問い合わせを受ける度、あるいは、センサ部１０８（撮像部１０７や音声入力部１０５を含んでもよい）による検出結果に基づいて、各ユーザのプロファイル情報や履歴情報を更新し又は学習機能を採り入れることで、個々のユーザにカスタマイズ又はパーソナライズした粒度の細かいサービスを提供することができる。

　なお、図３に示したエージェントクラウドプラットフォーム３００では、エージェントシステム３３０がテレビ受像機１１に常駐するＴＶエージェントと直接連携する構成となっているが、エージェントシステム３３０が直接連携することが可能な機器の種別はテレビ受像機には限定されない。例えば、スマートフォンやタブレットなどのユーザが持ち運び可能な情報端末、ユーザが着用するウェアラブル機器、あるいはエアコン、録画機、洗濯機などの各種ＣＥ機器やＩｏＴデバイス、対話型ロボット、車内に設置されたカーナビなど各種情報機器に常駐するエージェントがエージェントシステム３３０と直接連携するといった変形例も想定される。また、エージェントシステム３３０がテレビ受像機以外の機器と連携する場合には、外部エージェントデバイス３２０はテレビ受像機に常駐する音声エージェントであってもよい。

　続いて、エージェントクラウドプラットフォーム３００の動作例について説明する。

　図４には、エージェントシステム３３０が、ＴＶエージェント３１０を介してローカル側の情報を収集する様子を示している。

　ＴＶエージェント３１０は、テレビ番組の視聴履歴や、現在の視聴状況、テレビ受像機１１自体の状態（オン／オフ、音量、画質設定など）録画履歴、テレビ受像機１１に対するリモコンの操作履歴などを常時モニタしており、これらの情報をエージェントシステム３３０に送信する。エージェントシステム３３０側では、ＴＶエージェント３１０から、テレビ受像機１１におけるユーザのテレビ番組の視聴履歴などに関するこれらの情報を常時収集して、例えばユーザのプロファイル情報やアカウント情報と紐付けして管理する。また、ＴＶエージェント３１０は、ＤＬＮＡ（登録商標）などの規格に従ってホームネットワーク経由でテレビ受像機１１と相互接続している各ＣＥ機器や、同じ室内に設置されているＩｏＴデバイスから取得した情報を、エージェントシステム３３０に送信するようにしてもよい。

　また、ＴＶエージェント３１０は、テレビ受像機１１が備える撮像部１０７で撮像したユーザの顔画像や、音声入力部１０５に入力されたユーザの音声データを、エージェントシステム３３０に送信する。エージェントシステム３３０側では、ＴＶエージェント３１０から受信した画像を顔認識したり、音声データを音声認識したりして、個人識別処理を行う。あるいは、ＴＶエージェント３１０は、撮像部１０７による撮像画像を画像認識し、若しくは音声入力部１０５の入力音声を音声認識して、個人識別処理した結果をエージェントシステム３３０に送信するようにしてもよい。エージェントシステム３３０は、新たに人物を識別する度に、新規のユーザアカウントを設定するようにしてもよい。また、エージェントシステム３３０は、ＴＶエージェント３１０を介してローカル側から収集した情報を、ユーザ毎に振分けして、ユーザアカウントに紐付けして管理するようにしてもよい。また、エージェントシステム３３０は、ＴＶエージェント３１０から受信した画像データや音声データに基づいて、ユーザの状態（例えば、テレビ受像機１１で選局受信しているテレビ番組を視聴中か否か）に関する情報を収集するようにしてもよい。

　また、ＴＶエージェント３１０は、情報機器１００が備えるセンサ部１０８で検出された検出データを、エージェントシステム３３０に送信する。センサ部１０８が、物体検出センサや深度センサ、環境情報を検出する環境センサ（照度センサや温度センサ、湿度センサなど）を含む場合には、エージェントシステム３３０はこれらのセンサ情報を収集して、ユーザの環境情報を管理するようにしてもよい。また、センサ部１０８がユーザの脈拍や発汗、脳波、筋電位、呼気などを検出する生体センサを備えていている場合には、エージェントシステム３３０は、これらのセンサ情報をＴＶエージェント３１０から収集して、ユーザ毎の生体情報を管理するようにしてもよい。

　なお、ＴＶエージェント３１０がテレビ受像機１１を通じて取得した情報の中には、ユーザの機微情報を含む場合もある。このため、ＴＶエージェント３１０がユーザの機微情報をマスキングして、ローカル側の情報をエージェントシステム３３０に提供するようにしてもよい。機微情報のマスキングの詳細に関しては、後述に譲る。

　ＴＶエージェント３１０やエージェントシステム３３０は、個人識別によりユーザのプロファイルを分割して、個人単位でアカウント管理を行うようにしてもよい。例えば、撮像部１０７で撮像したユーザの顔画像を顔認識したり、音声入力部１０５から入力されたユーザの発話を音声認識したりして、個人識別を行うことができる。また、ＴＶエージェント３１０やエージェントシステム３３０は、テレビ番組の視聴履歴やリモコンの操作履歴などに基づいて、個人識別するようにしてもよい。例えば、テレビ番組を視聴する曜日や時間帯などの習慣性から、ユーザ毎の視聴趣向の傾向を分離することができ、リモコンや各種機器のユーザ毎の操作癖を分離して、個人識別に利用することができる。

　図９には、エージェントクラウドプラットフォーム３００におけるアカウント管理の一例を示している。

　ＴＶエージェント３１０は、撮像部１０７で撮像したユーザの画像を顔認識した結果などに基づいて、「お父さん」、「お母さん」、及び「子供」からなる家族構成を把握して、「お父さん」、「お母さん」、及び「子供」の各々のアカウントを設定して、各家族メンバーのプロファイルを管理する。

　また、エージェントシステム３３０は、ＴＶエージェント３１０とはユーザのアカウント情報を共有する。すなわち、図９に示す例では、エージェントシステム３３０は、「お父さん」、「お母さん」、及び「子供」からなる家族構成を把握するとともに、「お父さん」、「お母さん」、及び「子供」の各々のアカウントを設定する。但し、エージェントシステム３３０は、ユーザを個人識別する必要はなく、例えば、家族の続柄などでアカウントを管理するようにしてもよい。

　一方、外部エージェントサービス３４０Ｃは、例えばエージェントシステム３３０からの呼び出しを受けたときに、ユーザのプロファイルを分割して外部エージェントデバイス３２０から呼び出しを受けたときに、プロファイルを分割して、アカウントを設定してもよい。また、外部エージェントデバイス３２０は、ユーザから呼び出されたときの音声を識別して、アカウントを設定するようにしてもよい。図９に示す例では、外部エージェントサービス３４０Ｃと外部エージェントデバイス３２０は、「お父さん」というアカウント情報を共有している。

　なお、本願の出願時点において、エージェントによるユーザのアカウント管理方法に関して特段の取り決めは存在ない。本実施形態では、エージェントシステム３３０は、１つのＴＶエージェント３１０において、個人識別に基づいて複数ユーザのアカウントを設定できるものとする（図９に示した例では、「お父さん」、「お母さん」、及び「子供」の各々のアカウントを設定する）。

　また、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、それぞれ任意のアカウント管理を行うことができるものとする。例えば、１台の外部エージェントデバイス３２０に対して代表ユーザの１つのアカウントしか設定しない場合や、１台の外部エージェントデバイス３２０を１ユーザとしてアカウントを割り当てつつ、そのユーザアカウントの下に複数ユーザのプロファイルを登録できるようにしたり、１ユーザのアカウントの下に複数のサブユーザを登録できるようにしたりしてもよい。また、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、エージェントシステム３３０から呼び出された場合にも、エージェントシステム３３０に対し、代表ユーザの１アカウントのみを設定する、１ユーザアカウントの下に複数ユーザのプロファイルを割り当てる、１ユーザアカウントの下に複数のサブユーザを登録するといった、同様のアカウント管理を適用することができる。

　図５には、エージェントシステム３３０が外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出す様子を示している。例えば、ユーザがＴＶエージェント３１０に対して問い合わせを行った際に、エージェントシステム３３０は外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃの呼び出しを実施する。

　ユーザが音声によりＴＶエージェント３１０に対して問い合わせると（Ｓ５０１）、音声入力部１０５は、ユーザの音声を収音して、エージェントシステム３３０に送信する。そして、エージェントシステム３３０内では、音声認識部３３１がユーザの音声を音声認識し、意味解析部３３２が意味解析を行う（Ｓ５０２）。そして、制御部３３４は、ユーザからの問い合わせに回答するために、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出す。

　このとき、制御部３３４は、呼び出し可能なすべての外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出すようにしてもよいし、いずれかの外部エージェントサービスを選択的に呼び出すようにしてもよい。例えば、制御部３３４は、ユーザからの問い合わせ内容や問い合わせしたユーザのプロファイル情報などに応じて、外部エージェントサービスを取捨選択して呼び出すようにしてもよい。また、ユーザから特定の外部エージェントサービスを指定する「起動ワード」が音声入力されたときには、制御部３３４は、入力された起動ワードに対応する外部エージェントサービスをそのまま呼び出してもよいし、起動ワードを考慮しつつ、外部エージェントサービスを取捨選択して呼び出すようにしてもよい。

　エージェントシステム３３０は、いずれの外部エージェントサービスを呼び出す場合にも、ユーザからの入力音声を音声認識及び意味解析を行った上で、制御部３３４が各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する。

　エージェントシステム３３０が外部エージェントサービス３４０Ａを呼び出す場合、外部エージェントサービス３４０Ａは音声による呼び出しに対応しているので、制御部３３４が生成した外部エージェントサービス３４０Ａへの問い合わせ内容を、音声合成部３３３で音声データに変換してから、外部エージェントサービス３４０Ａに送信する（Ｓ５０３）。音声合成部３３３で変換された音声データは、ＴＶエージェント３１０から送られた音声データと実質的に同じものであってもよいし、制御部３３４によって内容などが加工されたものであってもよい。

　この場合、外部エージェントサービス３４０Ａ内では、エージェントシステム３３０から送られてきた音声データを音声認識部３４１Ａで音声認識し、さらに意味解析部３４２Ａで意味解析して、処理部３４３Ａがエージェントシステム３３０からの問い合わせに回答するための処理を実行する。そして、エージェントシステム３３０からの問い合わせに対する処理結果となるテキスト情報を音声合成部３４４Ａで音声データに変換してから、エージェントシステム３３０に返される（Ｓ５０６）。

　また、エージェントシステム３３０が外部エージェントサービス３４０Ｂを呼び出す場合、外部エージェントサービス３４０Ｂは音声認識結果による呼び出しに対応しているので、制御部３３４が生成した外部エージェントサービスへの問い合わせ内容を、そのまま（すなわち、音声合成せずに）外部エージェントサービス３４０Ｂに送信する（Ｓ５０４）。制御部３３４が生成した外部エージェントサービスへの問い合わせ内容は、ＴＶエージェント３１０から送られた音声データの音声認識結果と実質的に同じものであってもよいし、制御部３３４によって内容などが加工されたものであってもよい。

　この場合、外部エージェントサービス３４０Ｂ内では、エージェントシステム３３０からの問い合わせを行く解析部３４３Ｂで意味解析し、処理部３４３Ｂがエージェントシステム３３０からの問い合わせに回答するための処理を実行して、その処理結果をそのまま（すなわち、音声合成せずに）エージェントシステム３３０に返す（Ｓ５０７）。エージェントシステム３３０側の制御部３３４は、外部エージェントデバイス３２０からの回答を受け取るためのＡＰＩ（Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ）を用意しておく。

　また、エージェントシステム３３０が外部エージェントサービス３４０Ｃを呼び出す場合、連携する外部エージェントデバイス３２０からの呼び出しに対応しているので、制御部３３４が生成した外部エージェントサービスへの問い合わせ内容を、音声合成部３３３で音声データに変換してから、ＴＶエージェント３１０に送信し、ＴＶエージェント３１０から外部エージェントデバイス３２０を音声により呼び出す（Ｓ５０５）。ＴＶエージェント３１０から外部エージェントデバイス３２０を呼び出す音声は、Ｓ５０１においてユーザがＴＶエージェント３１０に問い合わせしたときと実質的に同じものであってもよいし、制御部３３４によって内容などが加工されたものであってもよい。また、外部エージェントデバイス３２０を起動するための「起動ワード」を含ませてもよい。

　この場合、外部エージェントデバイス３２０の音声入力部３２１で収音された音声が外部エージェントサービス３４０Ｃに送信される（Ｓ５０８）。そして、外部エージェントサービス３４０Ｃ内では、外部エージェントデバイス３２０から送られてきた音声データを音声認識部３４１Ｃで音声認識し、さらに意味解析部３４２Ｃで意味解析して、処理部３４３Ｃがエージェントシステム３３０からの問い合わせに回答するための処理を実行する。そして、エージェントシステム３３０からの問い合わせに対する処理結果となるテキスト情報を音声合成部３４４Ｃで音声データに変換してから、エージェントシステム３３０に返される（Ｓ５０９）。

　エージェントシステム３３０内では、外部エージェントサービス３４０Ａ及び外部エージェントサービス３４０Ｃの各々から返された音声データの処理結果を音声認識部３３５で音声認識し、さらに意味解析部３３６でその音声認識結果を意味解析してから、制御部３３４に供給される。また、制御部３３４は、外部エージェントサービス３４０ＢからのＡＰＩ呼び出しによる回答を受け取る。

　制御部３３４は、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃからの回答を意味解析結果のレベルで集計して、ユーザからの問い合わせに対する回答文を生成する。複数の回答を集計する方法は任意である。エージェントシステム３３０自身が得た回答と照らし合わせて、特定の外部エージェントサービスからの回答を選択してもよいし、多数決など所定の選択基準に基づいて特定の外部エージェントサービスからの回答を選択してもよい。あるいは、複数の外部エージェントサービスからの回答を合成して１つの回答文を生成するようにしてもよい。

　音声合成部３３３は、制御部３３４で生成した回答文を音声データに変換して、ＴＶエージェント３１０に送られる（Ｓ５１１）。そして、ＴＶエージェント３１０では、問い合わせ元のユーザに対する回答の音声が、音声出力部１０６から　ユーザに対して音声出力される（Ｓ５１２）。

　要するに、エージェントシステム３３０は、ユーザがいる室内に設置されたテレビ受像機１１上に常駐しているＴＶエージェント３１０を使って、主に音声による対話を利用してエージェントサービスを提供する。また、エージェントシステム３３０は、ユーザからの問い合わせを自ら処理した結果をユーザに返す以外に、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出し、外部のリソースも活用してユーザに返答することができる。エージェントシステム３３０は、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃへの呼び出し仕様に適合する形式に変換して、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出することができる。エージェントシステム３３０は、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃの呼び出しを利用して、より高品質な回答をユーザに返すことが期待される。

　ここで、エージェントシステム３３０が外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出す際の１つの課題として、複数のユーザ情報が混在してしまうことが挙げられる。

　図６に例示するようにリビングで家族がテレビ受像機１１で選局受信しているテレビ番組を視聴しているときに、ひとりがＴＶエージェント３１０に問い合わせを行ったとする。エージェントシステム３３０が外部エージェントサービス３４０を呼び出す際に、家族のうち誰が問い合わせた場合であっても、「エージェントシステム３３０」という同一ユーザのアカウントで問い合わせることになり、家族全員の情報（プロファイル情報や履歴情報など）が混ざってしまう。例えば、家族のうち誰がＴＶエージェント３１０に問い合わせても、エージェントシステム３３０が常に同じ音声を合成して外部エージェントサービス３４０Ａを呼び出すと、外部エージェントサービス３４０Ａは誰からの問い合わせかを把握できない。この結果、外部エージェントサービス３４０は、アカウント切替え機能を装備していたとしても、問い合わせ元のユーザ毎に対応した細やかなサービスを提供することが難しくなる。

　エージェントシステム３３０は、撮像部１０７で撮像したユーザの画像を顔認識したり、音声入力部１０５で入力した音声を音声認識したり、テレビ受像機１１を介して収集した視聴履歴やリモコン操作履歴、あるいはセンサ部１０８の検出結果などに基づいて、問い合わせ元のユーザのプロファイルを識別することができる。

　そこで、エージェントシステム３３０は、音声で問い合わせたユーザのプロファイルを識別して、ユーザのプロファイルを外部エージェントサービス３４０のアカウント切替え機能に合わせてマッピングして、プロファイルを利用した呼び分けを行うようにする。

　例えば、エージェントシステム３３０が外部エージェントサービス３４０Ａ又は３４０Ｃを呼び出す場合には、父親からの問い合わせであれば大人の男性の口調及び声色を合成して呼び出し、母親からの問い合わせであれば大人の女性の口調及び声色を合成して呼び出し、子供からの問い合わせであれば子供の口調及び声色を合成して呼び出しを行う。また、エージェントシステム３３０が外部エージェントサービス３４０Ｂを呼び出す場合には、父親からの問い合わせであれば大人の男性っぽい口調の呼び出し文で呼び出し、子供からの問い合わせであれば子供っぽい口調の呼び出し文で呼び出しを行う。もちろん、エージェントシステム３３０は、ユーザのプロファイル情報をメタデータとして付加して、外部エージェントサービス３４０の呼び出しを行うようにしてもよい。

　各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、エージェントシステム３３０の呼び出し方に基づいてユーザのプロファイルを識別して、アカウント切替えを適宜行うとともに、問い合わせに対する回答をエージェントシステム３３０に返す。

　各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃにおけるアカウント切替えの方法はさまざまである。例えば、エージェントシステム３３０から問い合わせを受けたときのプロファイルが切り替わる度に、個別のユーザアカウントを割り当ててもよい。また、エージェントシステム３３０を１ユーザとしてアカウントを割り当てつつ、そのユーザアカウントの下に家族のメンバー毎の複数のプロファイルを登録するようにしてもよい。あるいは、エージェントシステム３３０を１ユーザとしてアカウントを割り当てつつ、そのユーザアカウントの下に家族のメンバー毎をサブユーザとして登録するようにしてもよい。

　図７には、エージェントシステム３３０がユーザのプロファイル情報を利用して外部エージェントサービス３４０を呼び分ける際の処理手順をフローチャートの形式で示している。

　エージェントシステム３３０は、ＴＶエージェント３１０を介して、ユーザからの音声を入力すると（ステップＳ７０１）、撮像部１０７で撮像したユーザの画像の顔認識結果や、入力音声の音声認識結果、さらにはセンサ部１０８による検出結果に基づいて、そのユーザのプロファイルを識別する（ステップＳ７０２）。

　次いで、エージェントシステム３３０は、ステップＳ７０１で入力した音声を意味解析して、呼び出すべき外部エージェントサービスを選択する（ステップＳ７０３）。

　次いで、エージェントシステム３３０は、選択した外部エージェントサービスにアカウント切替え機能があるかどうかをチェックする（ステップＳ７０４）。

　ここで、呼び出し先の外部エージェントサービスにアカウント切替え機能がある場合には（ステップＳ７０４のＹｅｓ）、エージェントシステム３３０は、ステップＳ７０２で識別したユーザのプロファイルを利用して、その外部エージェントサービスに適合した呼び出しを生成して、呼び出しを実行する（ステップＳ７０５）。例えば、エージェントシステム３３０は、外部エージェントサービスに対して、ユーザの年齢や性別などのプロファイルに合った口調や声色をした呼び出しを行う。

　一方、呼び出し先の外部エージェントサービスにアカウント切替え機能がない場合には（ステップＳ７０４のＮｏ）、エージェントシステム３３０は、ステップＳ７０２で識別したユーザのプロファイルを利用することなく、代表ユーザによる外部エージェントサービスの呼び出しを実行する（ステップＳ７０６）。

　また、エージェントシステム３３０が外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出す際の他の課題として、ユーザの機微情報が外部に漏えいしてしまうことが挙げられる。

　リビングに設置されたテレビ受像機１１で音声入力部１０５が音声入力するといった使用形態では、家族は無意識のうちに機微情報に関わるワードを含んだ会話を行いがちであり、ユーザからエージェントシステム３３０への問い合わせに機微情報を含んでしまうことがある。あるいは、ユーザは問い合わせたつもりではないが、エージェントシステム３３０側で問合せと自動的に判断して、サービスを開始する可能性もある。

　個人情報の保護管理に関する規格ＪＩＳ　Ｑ　１５００１：２００６では、「思想，信条又は宗教に関する事項」、「人種，民族，門地，本籍地（所在都道府県に関する情報を除く。），身体・精神障害，犯罪歴その他社会的差別の原因となる事項」、「勤労者の団結権，団体交渉その他団体行動の行為に関する事項」、「集団示威行為への参加，請願権の行使その他の政治的権利の行使に関する事項」、「保健医療又は性生活に関する事項」が機微情報として挙げられている。また、上記のような規格で規定された事項の他にも、パスワードや口座番号などビジネス的、金融的又は個人的な性質を持つさまざまな情報も、機微な個人情報である。このような機微情報が不正者によって引き出されたり、使用されたり、拡散されたりしてしまうと、個人の人格や財産が侵害されるなどさまざまな危険にさらされる。付言すれば、撮像部１０７がリビングなど家庭内の様子を撮像した映像は、顔画像を始めとして、保護すべきさまざまな機微人情報を含むことが多い。

　例えば、機微情報を格納するデバイスをセキュリティレベルの高いモードで動作させるなど、機微情報を保護するいくつかの技術が知られている。しかしながら、リビングに設置されたテレビ受像機１１に内蔵された（若しくは外付け接続された）音声入力部１０５や撮像部１０７、センサ部１０８などを用いて情報収集を行う場合、機微情報が混ざってしまうことは避けられない。

　エージェントシステム３３０が、機微情報を含んだまま外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出すと、いずれかの外部エージェントサービスを起点として機微情報が拡散して、不正に利用されてしまうおそれがある。また、エージェントシステム３３０が、ＴＶエージェント３１０から収集した情報のうち機微情報の部分を単純に黒く塗り潰して隠すという方法では、問い合わせの内容を判読できなくなり、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃが正常なエージェントサービスを提供できなくなってしまう。

　そこで、エージェントシステム３３０は、ユーザからの問い合わせに含まれる機微情報を他の情報に置き換えて、内容自体は判読可能な状態を保ちながら、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出すようにする。

　例えば、ユーザからの問い合わせに病名が含まれる場合には「病気」という言葉に置き換え、個人名が含まれる場合には「人」、「お父さん」、「彼」（代名詞）、「○○な人」のように個人を特定できない言葉に置き換え、「住所」を含む場合には、番地や町村名を取り除いて、完全には特定できないが、問い合わせの意図は判読可能な状態を保つようにする。また、ユーザの映像や音声を含む問い合わせの場合には、ユーザの顔画像や音声を、ユーザと同じ年齢や性別の平均的な顔画像や音声に置き換えて、ユーザのプロファイルを保ちながら、個人を特定できないようにする。

　また、エージェントシステム３３０は、上記のように、機微情報を含む文言や画像、音声を置き換えるためのデータベースを備えておいてもよいし、この種の外部データベースを利用可能であってもよい。

　図８には、ユーザの機微情報を保護しながら外部エージェントサービス３４０を呼び分ける際の処理手順をフローチャートの形式で示している。

　エージェントシステム３３０は、ＴＶエージェント３１０を介して、ユーザからの問い合わせを入力すると（ステップＳ８０１）、その問い合わせに含まれる映像や音声を認識処理するとともに、問い合わせの意図を解析する（ステップＳ８０２）。

　次いで、エージェントシステム３３０は、ステップＳ８０２における認識結果や解析結果に基づいて、映像や音声、問い合わせの中にユーザの機微情報が含まれているかどうかをチェックする（ステップＳ８０３）。

　そして、ＴＶエージェント３１０を介して入力した情報の中にユーザの機微情報が含まれている場合には（ステップＳ８０３のＹｅｓ）、問い合わせの意図は判読可能な状態を保ちながら、機微情報を別の情報に置き換える（ステップＳ８０４）。

　ステップＳ８０４では、例えば、ユーザからの問い合わせに病名が含まれる場合には「病気」という言葉に置き換え、個人名が含まれる場合には「人」、「お父さん」、「彼」（代名詞）、「○○な人」のように個人を特定できない言葉に置き換え、「住所」を含む場合には、番地や町村名を取り除く。また、ユーザの顔画像や音声を、ユーザと同じ年齢や性別の平均的な顔画像や平均的な音声に置き換える。

　要するに、エージェントシステム３３０は、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出して、ユーザからの問い合わせに回答する際に、言わばゲートウェイとなって、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃに機微情報が流出しないようにマスク処理することができる。

　なお、図８にはエージェントシステム３３０が外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを呼び出す際に機微情報をマスキングする例を示したが、エージェントシステム３３０がローカル側の情報を収集する際に、ＴＶエージェント３１０がユーザの機微情報をマスキングするようにしてもよい。

　ここまでの説明では、エージェントシステム３３０や外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃがユーザからの問い合わせに対して応答する動作を中心に説明してきた。エージェントシステム３３０や外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、自発的にユーザに話し掛けることも可能である。ところが、ユーザがテレビ番組を視聴中に、ＴＶエージェント３１０や外部エージェントデバイス３２０から話し掛けられると、邪魔になる。また、ユーザが録画番組を視聴している場合や、テレビ受像機１１以外の機器を利用しているとき（音楽を干渉しているときや、電話しているとき、ゲームをプレイしているときなど）にも、同様のことが当てはまる。

　エージェントシステム３３０は、テレビ受像機１１に常駐しているＴＶエージェント３１０を通じて、ユーザの視聴状態を判定することが可能であり、その判定結果に基づいてユーザに話し掛けるタイミングを適切に制御することができる。他方、外部エージェントサービス３４０Ｃは、外部エージェントデバイス３２０の音声入力部３２１への入力音声を通じてしかユーザの状態を把握することができない。ユーザが発話しない無音状態であっても、話し掛けてよい状態であるのか、テレビ番組を黙って視聴しているのかを判定することができない。

　そこで、エージェントシステム３３０は、ＴＶエージェント３１０を通じて収集したローカル側の情報に基づいてユーザの状態を判定するとともに、ユーザの状態に応じて外部エージェントの動作を制御するようにする。

　具体的には、エージェントシステム３３０は、ユーザがテレビ番組を視聴中には、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを無効化する。他方、ユーザがテレビ番組の視聴を終了すると、エージェントシステム３３０は、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを有効化する。

　また、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃからエージェントシステム３３０に対して問い合わせが可能な場合には、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、主体的なアクションを実行する前に、エージェントシステム３３０に対してユーザの状態若しくは主体的なアクションの実施の可否を問い合わせるようにしてもよい。エージェントシステム３３０は、ユーザがテレビ番組を視聴中には、主体的なアクションの実施が不可である旨を応答して、ＴＶエージェント３１０又は外部エージェントデバイス３２０からのユーザの呼び出しを抑制する。他方、ユーザがテレビ番組の視聴を終了していれば、主体的なアクションが可能である旨を応答する。なお、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、エージェントシステム３３０に対して、例えば音声又はＡＰＩ呼び出しにより問い合わせが可能である。

　図１０には、エージェントシステム３３０がユーザの状態に応じて外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを制御する様子を示している。

　エージェントシステム３３０は、ＴＶエージェント３１０を通じて、ローカル側の状況、すなわちテレビ番組の視聴履歴や、現在の視聴状況、テレビ受像機１１自体の状態（オン／オフ、音量、画質設定など）録画履歴、テレビ受像機１１に対するリモコンの操作履歴などを取得して（Ｓ１００１）、制御部３３４において、ユーザがテレビ番組を視聴中かであるどうかを判定する。

　制御部３３４は、ユーザがテレビ番組を視聴中には、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを無効化する。無効化処理は、制御部３３４が各外部エージェントサービスの呼び出し仕様に適合する形式で実施する。具体的には、制御部３３４が外部エージェントサービス３４０Ａを無効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、外部エージェントサービス３４０Ａに送信する（Ｓ１００２）。また、制御部３３４は、外部エージェントサービス３４０Ｂを無効化するための指示を、そのまま（すなわち、音声合成せずに）外部エージェントサービス３４０Ｂに送信する（Ｓ１００３）。また、制御部３３４が外部エージェントサービス３４０Ｃを無効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、ＴＶエージェント３１０に送信し、ＴＶエージェント３１０から外部エージェントデバイス３２０に対して音声により外部エージェントサービス３４０Ｃの無効化を指示する（Ｓ１００４）。外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、上記のようにしてエージェントシステム３３０によって無効化されている期間は、主体的なユーザの呼び出しを抑制する。

　なお、エージェントシステム３３０がすべての外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを一斉に無効化する以外に、いずれか一部の外部エージェントサービスのみを無効化する場合もある。

　他方、ユーザがテレビ番組の視聴を終了すると、制御部３３４は、外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを有効化する。有効化処理は、制御部３３４が各外部エージェントサービスの呼び出し仕様に適合する形式で実施する。具体的には、制御部３３４が外部エージェントサービス３４０Ａを有効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、外部エージェントサービス３４０Ａに送信する（Ｓ１００２）。また、制御部３３４は、外部エージェントサービス３４０Ｂを有効化するための指示を、そのまま（すなわち、音声合成せずに）外部エージェントサービス３４０Ｂに送信する（Ｓ１００３）。また、制御部３３４が外部エージェントサービス３４０Ｃを有効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、ＴＶエージェント３１０に送信し、ＴＶエージェント３１０から外部エージェントデバイス３２０に対して音声により外部エージェントサービス３４０Ｃの有効化を指示する（Ｓ１００４）。無効化された状態の外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、上記のようにしてエージェントシステム３３０によって有効化されると、主体的なユーザの呼び出しを再開することができる。

　なお、エージェントシステム３３０がすべての外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃを一斉に有効化する以外に、いずれか一部の外部エージェントサービスのみを有効化する場合もある。

　また、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃは、主体的なユーザの呼び出しを行う前に、エージェントシステム３３０に対してユーザの状態若しくは主体的なアクションの実施の可否を問い合わせることができる。

　外部エージェントサービス３４０Ａ内では、処理部３４３Ａがエージェントシステム３３０に対する問い合わせを生成すると、テキスト情報を音声合成部３４４Ａで音声データに変換してから、エージェントシステム３３０に送信する（Ｓ１００５）。ユーザがテレビ番組を視聴中で、外部エージェントサービス３４０Ａによるユーザの呼び出しを抑制すべきときには、制御部３３４が外部エージェントサービス３４０Ａを無効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、外部エージェントサービス３４０Ａに送信する（Ｓ１００２）。一方、ユーザがテレビ番組の視聴を終了しており、外部エージェントサービス３４０Ａによるユーザの呼び出しを許可する場合には、制御部３３４が外部エージェントサービス３４０Ａを有効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、外部エージェントサービス３４０Ａに送信する（Ｓ１００２）。

　また、外部エージェントサービス３４０Ｂ内では、処理部３４３Ｂは、エージェントシステム３３０に対する問い合わせを生成して、ＡＰＩ呼び出しによりエージェントシステム３３０に対して問い合わせを行う（Ｓ１００６）。ユーザがテレビ番組を視聴中で、外部エージェントサービス３４０Ｂによるユーザの呼び出しを抑制すべきときには、制御部３３４は、外部エージェントサービス３４０Ｂを無効化するための指示を、そのまま（すなわち、音声合成せずに）外部エージェントサービス３４０Ｂに送信する（Ｓ１００３）。一方、ユーザがテレビ番組の視聴を終了しており、外部エージェントサービス３４０Ｂによるユーザの呼び出しを許可する場合には、制御部３３４は、外部エージェントサービス３４０Ｂを有効化するための指示を、そのまま（すなわち、音声合成せずに）外部エージェントサービス３４０Ｂに送信する（Ｓ１００３）。

　また、外部エージェントサービス３４０Ｃ内では、処理部３４３Ｃがエージェントシステム３３０に対する問い合わせを生成すると、テキスト情報を音声合成部３４４Ｃで音声データに変換してから、エージェントシステム３３０に送信する（Ｓ１００７）。ユーザがテレビ番組を視聴中で、外部エージェントサービス３４０Ｃによるユーザの呼び出しを抑制すべきときには、制御部３３４が外部エージェントサービス３４０Ｃを無効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、ＴＶエージェント３１０に送信し、ＴＶエージェント３１０から外部エージェントデバイス３２０に対して音声により外部エージェントサービス３４０Ｃの無効化を指示する（Ｓ１００４）。一方、ユーザがテレビ番組の視聴を終了しており、外部エージェントサービス３４０Ｃによるユーザの呼び出しを許可する場合には、制御部３３４が外部エージェントサービス３４０Ｃを有効化するための指示を生成すると、音声合成部３３３で音声データに変換してから、ＴＶエージェント３１０に送信し、ＴＶエージェント３１０から外部エージェントデバイス３２０に対して音声により外部エージェントサービス３４０Ｃの有効化を指示する（Ｓ１００４）。

　なお、各外部エージェントサービス３４０Ａ、３４０Ｂ、３４０Ｃからエージェントシステム３３０への問い合わせは、それぞれ任意のタイミングで行うことができるが、もちろん２以上の外部エージェントサービスが同期してエージェントシステム３３０への問い合わせを行うようにしてもよい。

　以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本明細書では、本明細書で開示する技術をテレビ受像機に常駐するＴＶエージェントに適用した実施形態を中心に説明してきたが、本明細書で開示する技術の要旨はこれに限定されるものではない。エアコン、録画機、洗濯機などの各種ＣＥ機器やＩｏＴデバイス、スマートフォンやタブレットなどのユーザが持ち運び可能な情報端末、ユーザが着用するウェアラブル機器、対話型ロボット、車内に設置されたカーナビなど各種情報機器に常駐するエージェントを利用したさまざまなエージェントシステムに対しても、同様に本明細書で開示する技術を適用して、必要に応じて外部エージェントサービスを利用できるようにすることができる。

　要するに、例示という形態により本明細書で開示する技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）第１の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
　外部エージェントサービスを制御する制御部と、
を具備する情報処理装置。
（１－１）ユーザから入力された音声を認識する音声認識部と、その音声認識結果を意味解析する意味解析部と、ユーザに対する回答を音声合成する音声合成部をさらに備え、
　前記音声合成部による音声合成結果を前記第１の機器から音声出力させる、
上記（１）に記載の情報処理装置。
（２）前記制御部は、ユーザの画像又は音声、ユーザによる前記第１の機器の操作に関する情報、前記第１の機器が装備するセンサが検出したセンサ情報のうち少なくとも１つを含む前記情報を収集する、
上記（１）に記載の情報処理装置。
（３）前記第１の機器はテレビ受像機であり、
　前記制御部は、ユーザによるテレビ番組の視聴履歴、録画履歴、リモコン操作履歴を含む前記情報を収集する、
上記（１）又は（２）のいずれかに記載の情報処理装置。
（４）前記制御部は、前記第１の機器から収集した情報に基づいてユーザのアカウントを管理する、
上記（２）又は（３）のいずれかに記載の情報処理装置。
（５）前記制御部は、外部エージェントサービスの呼び出しを制御する、
上記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）前記制御部は、各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する、
上記（５）に記載の情報処理装置。
（７）前記制御部は、第１の外部エージェントサービスへの呼び出し内容を音声合成して、前記第１の外部エージェントサービスの呼び出しを行う、
上記（６）に記載の情報処理装置。
（８）前記制御部は、第２の外部エージェントサービスへの呼び出し内容を音声合成し、前記第１の機器から前記第２の外部エージェントサービスの配下の外部エージェントデバイスに対して音声による呼び出しを行う、
上記（６）に記載の情報処理装置。
（９）外部エージェントサービスからの音声による回答を認識する音声認識部、及びその音声認識結果を意味解析する意味解析部をさらに備える、
上記（５）乃至（８）のいずれかに記載の情報処理装置。
（１０）外部エージェントサービスからＡＰＩ呼び出しにより回答を受け取る、
上記（５）乃至（８）のいずれかに記載の情報処理装置。
（１１）前記制御部は、複数の外部エージェントサービスからの回答を選択又は合成して、ユーザから前記エージェントへの問い合わせに対する回答を生成する、
上記（５）に記載の情報処理装置。
（１２）前記制御部は、前記第１の機器を呼び出したユーザのプロファイル情報に基づいて、外部エージェントサービスの呼び出しを制御する、
上記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）前記制御部は、プロファイル切替え機能を有する外部エージェントサービスに対して、前記第１の機器を呼び出したユーザのプロファイル識別結果に基づく呼び出しを行う、
上記（１２）に記載の情報処理装置。
（１４）前記制御部は、前記第１の機器を呼び出したユーザの機微情報に基づいて、外部エージェントサービスの呼び出しを制御する、
上記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）前記制御部は、ユーザの呼び出しに含まれる機微情報を別の情報に置換処理して、外部エージェントサービスの呼び出しを行う、
上記（１４）に記載の情報処理装置。
（１６）前記制御部は、ユーザの状態に基づいて外部エージェントサービスを制御する、
上記（１）乃至（１５）のいずれかに記載の情報処理装置。
（１６－１）前記制御部は、ユーザによる前記第１の機器の使用状態に基づいて外部エージェントサービスを制御する、
上記（１６）に記載の情報処理装置。
（１６－２）前記制御部は、ユーザの状態に基づいて、外部エージェントサービスを無効化及び有効化する、
上記（１６）に記載の情報処理装置。
（１６－３）前記制御部は、ユーザの状態に基づいて、外部エージェントサービスからのエージェントの呼び出しに関する問い合わせに応答する、
上記（１６）に記載の情報処理装置。
（１７）ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信部と、
　前記回答を出力する出力部と、
を具備する情報処理装置。
（１８）第１の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
　外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法。
（１９）ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
　前記回答を出力する出力ステップと、
を有する情報処理方法。
（２０）ユーザと対話するエージェントが常駐する第１の機器と、
　前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、　外部エージェントサービスを制御する制御部と、
を具備する情報処理システム。
（２０－１）前記第１の機器は、ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信して出力する、
上記（２０）に記載の情報処理システム。

　１００…情報機器（テレビ受像機）
　１０１…処理部、１０２…チューナ、１０３…通信部
　１０４…表示部、１０５…音声入力部、１０６…音声出力部
　１０７…撮像部、１０８…センサ部
　１０９…リモコン受信部、１１０…記録部
　３００…エージェントクラウドプラットフォーム
　３１０…ＴＶエージェント、３２０…外部エージェントデバイス
　３２１…音声入力部、３２２…音声出力部
　３３０…エージェントシステム
　３３１…音声認識部、３３２…意味解析部、３３３…音声合成部
　３３４…制御部、３３５…音声認識部、３３６…意味解析部

Claims

　第１の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信部と、
　外部エージェントサービスを制御する制御部と、
を具備する情報処理装置。
　前記制御部は、ユーザの画像又は音声、ユーザによる前記第１の機器の操作に関する情報、前記第１の機器が装備するセンサが検出したセンサ情報のうち少なくとも１つを含む前記情報を収集する、
請求項１に記載の情報処理装置。
　前記第１の機器はテレビ受像機であり、
　前記制御部は、ユーザによるテレビ番組の視聴履歴、録画履歴、リモコン操作履歴を含む前記情報を収集する、
請求項１に記載の情報処理装置。
　前記制御部は、前記第１の機器から収集した情報に基づいてユーザのアカウントを管理する、
請求項２に記載の情報処理装置。
　前記制御部は、外部エージェントサービスの呼び出しを制御する、
請求項１に記載の情報処理装置。
　前記制御部は、各外部エージェントサービスの呼び出し仕様に適合するように形式変換してから、呼び出しを実行する、
請求項５に記載の情報処理装置。
　前記制御部は、第１の外部エージェントサービスへの呼び出し内容を音声合成して、前記第１の外部エージェントサービスの呼び出しを行う、
請求項６に記載の情報処理装置。
　前記制御部は、第２の外部エージェントサービスへの呼び出し内容を音声合成し、前記第１の機器から前記第２の外部エージェントサービスの配下の外部エージェントデバイスに対して音声による呼び出しを行う、
請求項６に記載の情報処理装置。
　外部エージェントサービスからの音声による回答を認識する音声認識部、及びその音声認識結果を意味解析する意味解析部をさらに備える、
請求項５に記載の情報処理装置。
　外部エージェントサービスからＡＰＩ呼び出しにより回答を受け取る、
請求項５に記載の情報処理装置。
　前記制御部は、複数の外部エージェントサービスからの回答を選択又は合成して、ユーザから前記エージェントへの問い合わせに対する回答を生成する、
請求項５に記載の情報処理装置。
　前記制御部は、前記第１の機器を呼び出したユーザのプロファイル情報に基づいて、外部エージェントサービスの呼び出しを制御する、
請求項１に記載の情報処理装置。
　前記制御部は、プロファイル切替え機能を有する外部エージェントサービスに対して、前記第１の機器を呼び出したユーザのプロファイル識別結果に基づく呼び出しを行う、
請求項１２に記載の情報処理装置。
　前記制御部は、前記第１の機器を呼び出したユーザの機微情報に基づいて、外部エージェントサービスの呼び出しを制御する、
請求項１に記載の情報処理装置。
　前記制御部は、ユーザの呼び出しに含まれる機微情報を別の情報に置換処理して、外部エージェントサービスの呼び出しを行う、
請求項１４に記載の情報処理装置。
　前記制御部は、ユーザの状態に基づいて外部エージェントサービスを制御する、
請求項１に記載の情報処理装置。
　ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信部と、
　前記回答を出力する出力部と、
を具備する情報処理装置。
　第１の機器に常駐するエージェントを介したユーザとの対話に関する情報を受信する通信ステップと、
　外部エージェントサービスを制御する制御ステップと、
を有する情報処理方法。
　ユーザとの対話に関する情報が処理されて生成された、前記ユーザへの回答を受信する通信ステップと、
　前記回答を出力する出力ステップと、
を有する情報処理方法。
　ユーザと対話するエージェントが常駐する第１の機器と、
　前記エージェントを介したユーザとの対話に関する情報を受信する通信部と、
　外部エージェントサービスを制御する制御部と、
を具備する情報処理システム。