WO2020158536A1

WO2020158536A1 - 情報処理システム、情報処理方法および情報処理装置

Info

Publication number: WO2020158536A1
Application number: PCT/JP2020/002101
Authority: WO
Inventors: 政晴永田; 美希時武
Original assignee: ソニー株式会社
Priority date: 2019-01-30
Filing date: 2020-01-22
Publication date: 2020-08-06
Also published as: JP7512900B2; CN113348451A; US20210390140A1; EP3920046A4; JPWO2020158536A1; EP3920046A1

Abstract

この情報処理システムは、検出されたユーザおよびユーザの行動に関する情報からユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報をコンテンツデータと紐付けてコンテンツデータベースに登録する第１の演算ユニットを有する第１の情報処理ユニットと、ユーザを含むコンテンツ視聴環境から検出される情報に基づいてタグ情報を選択し、選択されたタグ情報に基づいて１以上のコンテンツデータを検索して順次再生し、コンテンツ視聴環境からの検出情報の変化に応じてコンテンツデータの検索に用いるタグ情報を更新する第２の演算ユニットを有する第２の情報処理ユニットと、を具備する。

Description

情報処理システム、情報処理方法および情報処理装置

　本技術は、タグ付きのコンテンツデータを管理し、検索、再生する情報処理装置、情報処理方法および情報処理システムに関する。

　近年、動画、写真などの画像ファイルや音声ファイルなどのコンテンツデータをストレージに大量に保存し、ストレージから選択的にファイルを読み出してスライドショーのように連続再生するシステムが知られる。

　例えば、特許文献１には、写真毎にユーザの発話内容のキーワードをタグとして記録することで、キーワードによる検索性を高める技術が開示される。
　特許文献２には、ユーザに質問文を与え、この質問文に対するユーザの回答文からキーワードを抽出して、コンテンツを検索するための情報とする技術が開示される。

特開２０１０－２２４７１５号公報特開２０１３－５４４１７号公報

　しかしながら、上記の公知文献に開示される技術を含めて現在までに知られるコンテンツデータの管理検索システムは、ユーザが求めるコンテンツデータの検索性に優れるものの、例えば、ユーザが忘れかけているような意外な思い出を想起させるには不十分であったり、検索のためにユーザからの意図的なアクションを要するなど、様々な改良の余地がある。

　以上のような事情を鑑み、本技術の目的は、タグ付きのコンテンツデータの登録から検索閲覧までのユーザの負担を低減でき、また、ユーザの思い出に関連があるものの意外性を有するコンテンツデータを交えた新しい形態のスライドシューを提示することのできる情報処理システム、情報処理方法および情報処理装置を提供することにある。

　上記の課題を解決するために、本技術に係る情報処理システムは、検出されたユーザおよびユーザの行動に関する情報から前記ユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツデータベースに登録する第１の演算ユニットを有する第１の情報処理ユニットと、ユーザを含むコンテンツ視聴環境から検出される情報に基づいて前記タグ情報を選択し、選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生し、前記コンテンツ視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する第２の演算ユニットを有する第２の情報処理ユニットと、を具備する。

　本技術に係る情報処理システムによれば、第１の情報処理ユニットの第１の演算ユニットが、検出されたユーザおよびユーザの行動に関する情報からコンテンツデータと紐付けられるタグ情報を作成し、第２の情報処理ユニットの第２の演算ユニットが、ユーザを含むコンテンツデータの視聴環境から検出される情報に基づいてタグ情報を選択し、選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生する。これにより、ユーザが明示的にタグ情報を指定することなく、タグ付きのコンテンツデータの登録から検索再生までが行われ、ユーザの負担を低減される。さらに、第２の情報処理ユニットの第２の演算ユニットは視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する。これにより、ユーザが明示的にタグ情報を指定することなく、関連性を変えた一連のコンテンツデータの再生に切り替えることができる。これにより、ユーザにとって意外性のあるコンテンツデータが提示され、ユーザが忘れかけていたような意外な思い出に触れる機会をユーザに与えることができる。

　前記検出されたユーザおよびユーザ行動に関する情報および前記コンテンツデータ視聴環境から検出される情報は、前記ユーザを含む撮影画像から認識される人物情報およびこの人物の顔表情からの推定される感情情報であってよい。

　前記検出されたユーザおよびユーザ行動に関する情報および前記コンテンツデータ視聴環境から検出される情報が、前記ユーザの発話内容から抽出されるキーワードであってよい。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境にユーザが存在することを検出したとき、前記１以上のコンテンツデータを順次再生するようにしてよい。その際、１以上のコンテンツデータをランダムに選択して順次再生するようにしてよい。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境内のユーザの変化、ユーザの組み合わせの変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新するように構成されてもよい。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境の変化後のユーザの人物名を含むタグ情報に更新するように構成されてもよい。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境内のユーザの顔表情の変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新するように構成し得る。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記変化後のユーザの顔表情から推定される感情情報を含むタグ情報に更新するように構成し得る。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境内のユーザの動きの大きさと速度の変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新するようにも構成し得る。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境内のユーザの発話から抽出されたキーワードに応じて、前記コンテンツデータの検索に用いるタグ情報を更新するように構成し得る。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境内のユーザの発話から抽出された新たなキーワードを、提示中のコンテンツデータに対する新たなタグ情報としてコンテンツデータベースに追加するように構成し得る。

　前記第２の情報処理ユニットの前記第２の演算ユニットは、前記コンテンツ視聴環境内のユーザからの音声による指令を受けて、当該ユーザを認識し、当該ユーザの予定情報と当該ユーザを特定する人物情報に紐付けられた１以上のコンテンツデータを順次再生し、当該ユーザからの感想の音声をテキストデータに変換し、日記データとして保存するように構成し得る。

本技術に係る第１の実施形態の情報処理システム１の構成を示すブロック図である。コンテンツデータとタグ情報との関係を示す図である。コンテンツデータベース生成環境における情報端末１０とコンテンツデータベース生成装置１００の機能的な構成を示すブロック図である。コンテンツ再生装置２００の機能的な構成を示すブロック図である。コンテンツ再生装置２００の動作のフローチャートである。コンテンツＤＢ２０に蓄積されたコンテンツデータ毎のメタ情報群を日時と感情とで分類して示す図である。日時のタグ情報によるコンテンツデータのカプセル化の例を示す図である。感情のタグ情報によるコンテンツデータのカプセル化の例を示す図である。ママのタグ情報によるコンテンツデータのカプセル化の例を示す図である。感情（楽しい）のタグ情報によるコンテンツデータのカプセル化の例を示す図である。本技術に係る情報処理装置１Ａの構成を示すブロック図である。

　以下、本技術の実施の形態を図面をもとに説明する。
　＜第１の実施形態＞
　［情報処理システム］
　図１は、本実施形態の情報処理システム１の構成を示すブロック図である。
　この情報処理システム１は、ユーザの情報端末１０と、第１の情報処理ユニットであるコンテンツデータベース生成装置１００と、コンテンツデータベース（コンテンツＤＢ）２０と、第２の情報処理ユニットであるコンテンツ再生装置２００と、コンテンツ提示装置３０とを含む。ユーザの情報端末１０と第１の情報処理ユニットであるコンテンツデータベース生成装置１００はコンテンツデータベース生成環境にある。コンテンツデータベース生成環境とは、動画、写真などのユーザのコンテンツデータの撮影が行われる場所である。コンテンツ再生装置２００とコンテンツ提示装置３０はユーザがコンテンツデータを視聴できる場所、例えばユーザの自宅内、車内などである。

　コンテンツデータベース生成装置１００とコンテンツ再生装置２００はそれぞれ独立した情報処理装置であってもよいし、一つの情報処理装置であってもよい。情報処理装置の演算処理ユニットであるＣＰＵと、メモリと、ストレージデバイスと、各種のインタフェースを有する。メモリまたはストレージデバイスには、ＣＰＵによって実行されるプログラムが格納される。

　なお、コンテンツデータベース生成装置１００またはコンテンツ再生装置２００のうち少なくとも一方はクラウドコンピューティングによって実現され得る。したがって第１の情報処理装置または第２の情報処理装置のうち少なくとも一方はインターネット上でサービスを提供するためのサーバ装置であってよい。

　コンテンツデータベース生成装置１００は、ユーザおよび当該ユーザの行動を検出し、検出結果からユーザのコンテンツデータに関する１以上のタグ情報を生成し、この１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツＤＢ２０に登録する。

　コンテンツ再生装置２００は、コンテンツＤＢ２０に登録されたタグ情報に基づき、互いに関連する１以上のコンテンツデータをひとつにまとめてカプセル化し、これらのコンテンツデータを順次再生する。

　ここで、コンテンツデータは、ユーザに視覚的あるいは聴覚的に提示し得るデータであり、主に動画や静止画（写真）などの画像データ、音声データ、テキストデータまたはＨＴＭＬデータの少なくともいずれかを含む。

　タグ情報とは、コンテンツデータに関する情報であり、本技術では、複数のコンテンツデータのなかで連続再生する１以上のコンテンツデータを検索するための条件として用いられる。

　図２は、コンテンツデータとタグ情報との関係を示す図である。タグ情報には、コンテンツデータのファイル名、予定名、日時、場所、人物、行動などがある。また、人物のタグ情報には、人物名、感情、その人物から発話されたキーワードなどがある。予定名は、コンテンツデータに関連する予定情報から抽出された情報である。日時は、コンテンツデータの作成日時であり、コンテンツデータが動画や写真である場合にはその撮影日時、音声である場合にはその音声を取得してファイル化した日時などである。場所はコンテンツデータに関連する予定情報やユーザの位置情報に基づいて算出された具体的な場所を示す。登場人物は、コンテンツデータに関連する人物であり、画像に被写体として存在する人物や、音声データの話者を音声解析などによって推定した人物、あるいは会話に登場する人物等である。感情は、顔画像を解析するなどしてその表情から同定される情報であり、例えば、「楽しい」、「おいしい」、「悲しい」などの種類に分類される。キーワードは、その人物の発話の音声などから抽出されるキーワードである。行動は、コンテンツデータを得た際のユーザの行動であり、例えば、「歩行中」、「車で移動中」、「停止中」などに分類される。

　カプセルとは、何らかの共通のタグ情報をもつ１以上のコンテンツデータのまとまりを定義する情報である。例えば、コンテンツデータとして３つの写真Ｆ１、Ｆ２、Ｆ３が存在し、写真Ｆ１の被写体が人物Ａと人物Ｂであり、写真Ｆ２の被写体が人物Ａだけであり、写真Ｆ３の被写体が人物Ｂだけであるとき、人物Ａをタグ情報とした場合には写真Ｆ１と写真Ｆ２が１つのカプセルとして定義される。このようにカプセル化される１以上のコンテンツデータがタグ情報に基づいて決定されるので、互いに何らかの関連性をもつ１以上のコンテンツデータがまとめられて１つのカプセルが作成される。

　次に、本実施形態の情報処理システム１におけるコンテンツデータベース生成装置１００の構成について説明する。
　図３は、コンテンツデータベース生成環境における情報端末１０とコンテンツデータベース生成装置１００の機能的な構成を示すブロック図である。
　コンテンツデータベース生成装置１００は、情報解析部１１０とタグ情報生成部１２０とを有する。情報解析部１１０は、ユーザの情報端末１０と通信して、ユーザおよびユーザの行動を検出するための各種情報を取得し、解析する。
　タグ情報生成部１２０は、情報解析部１１０によって得られた解決結果からコンテンツデータに関する情報であるタグ情報を生成し、コンテンツＤＢ２０にコンテンツデータと紐付けて登録する。

　情報端末１０は、ユーザおよびユーザの行動の検出に必要な情報を取得する手段として、予定管理部１１、第１の画像入力部１２、位置情報取得部１３、第１の音声入力部１４、ＳＮＳ受信部１５およびウェブ情報受信部１６を有する。

　予定管理部１１は、ユーザの予定情報を管理する。ユーザの予定情報は、日時、予定名、場所、同行者などの情報が含まれる。

　第１の画像入力部１２は、カメラを使って取り込んだ動画、写真などの画像をデータ化し、撮影日時などのヘッダ情報を付与して画像ファイルを作成する。

　位置情報取得部１３は、例えば、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ：全球測位衛星システム）、地磁気センサー、加速度センサーなどの検出情報よりユーザの位置情報を取得する。

　第１の音声入力部１４は、マイクを使って入力した音声をデータ化し、日時などのヘッダ情報を付加して音声ファイルを生成する。

　ＳＮＳ受信部１５は、ユーザ自身や友人によるＳＮＳ投稿内容（発言、画像など）を受信する。

　ウェブ情報受信部１６は、インターネット上の各種情報サイトにアクセスしてニュース情報、気象情報、交通渋滞情報などのウェブ情報を受信する。

　なお、情報端末１０によって取得される情報は上記のものに限定されない。例えば、電子メール、メモなど、その他、様々なアプリケーションのデータを取得してコンテンツデータベース生成装置１００に与えてもよい。

　（情報解析部１１０の構成）
　コンテンツデータベース生成装置１００における情報解析部１１０は、予定情報解析部１１１、第１の画像解析部１１２、行動解析部１１３、第１の音声解析部１１４、ＳＮＳ解析部１１５およびウェブ情報解析部１１６を有する。

　予定情報解析部１１１は、予定管理部１１にて管理される予定情報を解析して、例えば日時、予定名、場所、同行者などの情報を抽出する。

　第１の画像解析部１１２は、第１の画像入力部１２によって入力された画像データに被写体として存在する人物や、人物以外の物体、景色などを認識したり、人物の顔の表情から感情を推定する。また、第１の画像解析部１１２は、人物の認識結果と物体の認識結果などから行動認識を行うことも可能である。例えば、人物ＸＸさんとコーヒーカップを認識した場合、人物ＸＸさんがコーヒーを飲んでいるという行動が認識される。

　行動解析部１１３は、位置情報取得部１３により例えばｎ秒間隔毎など、周期的に取得される位置情報に基づいてユーザの移動速度を算出し、その結果に基づいてユーザの行動、例えば歩行中、車で移動中、停止中などに分類する。ｎ秒は例えば１０秒等の固定値であってよいし、ユーザなどにより設定された可変値であってもよい。

　第１の音声解析部１１４は、第１の音声入力部１４によって入力された音声データを解析して、その音声に含まれる発話者である人物を推定したり、その発話内容に含まれるキーワードを抽出する。

　ＳＮＳ解析部１１５は、ＳＮＳ受信部１５にて受信したＳＮＳ投稿内容を解析し、そのＳＮＳ投稿内容に含まれる画像、キーワードなどを抽出する。

　ウェブ情報解析部１１６は、予定情報の日時や場所、ユーザの位置情報などに関連するニュース、気象情報、交通渋滞情報などのウェブ情報をウェブ情報受信部１６を使って取得する。

　（コンテンツデータベース生成装置１００の動作例）
　コンテンツデータベース生成装置１００において予定情報解析部１１１は、予定管理部１１より当日の予定情報を取得し、取得した予定情報の予定名、行動期間、同行者などを抽出する。例えば、当日（１０月１日）の予定情報として、"家族で終日遊園地ｘで遊ぶ。"が登録されている場合、予定情報解析部１１１は、予定名＝遊園地ｘ、行動期間＝１０月１日終日、同行者＝家族を抽出する。

　この結果を受けて、コンテンツデータベース生成装置１００は、当日（１０月１日）は終日、ユーザの行動を検出する対象期間として動作する。この対象期間においては、例えば、設定時刻毎に、設定時間間隔毎に、あるいは、情報端末１０にて画像データや音声データが取得されたタイミングで、画像解析、行動解析、音声解析、ウェブ情報解析などが行われ、それらの結果がタグ情報生成部１２０に与えられる。

　タグ情報生成部１２０は、情報解析部１１０の各解析結果からタグ情報を生成する。
例えば、タグ情報生成部１２０は、予定情報解析部１１１によって得られた予定名、場所、同行者などの情報をタグ情報として抽出する。また、タグ情報生成部１２０は、第１の画像解析部１１２によって得られた人物、その人物の感情の推定結果となどをタグ情報として抽出する。さらに、タグ情報生成部１２０は、行動解析部１１３によってユーザが道路上で長い時間停止している場合には渋滞が発生していると見なしてキーワード＝渋滞をタグ情報として生成する。さらに、タグ情報生成部１２０は、第１の音声解析部１１４によって解析された話者の人物、音声から抽出されたキーワードなどをタグ情報として抽出する。さらに、タグ情報生成部１２０は、ウェブ情報解析部１１６によって得られたニュース、気象情報、交通渋滞情報などのウェブ情報のＨＴＭＬファイル名などをタグ情報として抽出する。

　例えば、ユーザによって車内で家族の写真が撮られたとき、タグ情報生成部１２０は情報解析部１１０から得られた情報から以下のタグ情報を生成し、これらのタグ情報を写真データと紐付けてコンテンツＤＢ２０に登録する。
　・写真のファイル名：ＤＳＣ００００１.ＪＰＧ
　・予定名：遊園地ｘ
　・撮影日時：２０１８年１０月１日ＡＭ８：１５
　・場所：ＸＹインターチェンジ付近
　・人物：ママ（感情：楽しい）
　・行動：車で移動中
　なお、ファイル名は、ファイルの置き場所を示すパスを含んでもよい。

　また、撮影と同時に「すごい渋滞です」などの発話が検出された場合、その音声データが第１の音声解析部１１４によって解析されて発話人物と「渋滞」などのキーワードが抽出される。この結果、タグ情報生成部１２０によって、発話人物＝ママと、キーワード＝渋滞がタグ情報に追加される。

　なお、第１の音声入力部１４による音声入力は予定期間において常時行うようにし、特定の人物による発話が検出された場合、あるいは特定のキーワードが第１の音声解析部１１４にて検出された場合、あるいはその両方が成立した場合に、その前後所定の時間に入力された音声データについて解析が行われるようにしてもよい。

　（ＳＮＳ投稿内容からのコンテンツＤＢ２０へのデータ登録）
　次に、ＳＮＳ投稿内容からコンテンツデータおよびタグ情報を生成してコンテンツＤＢ２０に登録する動作の具体例を説明する。
　ユーザは、遊園地ｘのレストランｙｙで自分が注文した料理の写真を撮り、ＳＮＳにその写真データとコメント「ハンバーグ美味しい」を投稿し、この投稿に対して友達から「ポークソテーも美味しいよ」という新たな投稿が発生したこととする。

　コンテンツデータベース生成装置１００のタグ情報生成部１２０は、情報端末１０のＳＮＳ受信部１５で自分と友達との一連の投稿内容を取得し、ＳＮＳ解析部１１５でこれらの投稿内容を解析して写真データやキーワードを抽出し、写真データに以下のタグ情報を紐付けてコンテンツＤＢ２０に登録する。
　・写真のファイル名：ＤＳＣ０００５０.ＪＰＧ
　・予定名：遊園地ｘ
　・撮影日時：１０月１日ＡＭ１２：３０
　・場所：レストランｙｙ
　・人物：娘（キーワード：ハンバーグ、美味しい）
　・人物：娘の友人（キーワード：ポークソテー、美味しい）

　（コンテンツ再生装置２００の構成）
　次に、コンテンツ視聴環境におけるコンテンツ再生装置２００の構成について説明する。
　コンテンツ再生装置２００は、ユーザを含むコンテンツ視聴環境の情報を検出し、検出した情報に基づいて１以上のコンテンツデータを検索して順次再生する。

　図４はコンテンツ再生装置２００の機能的な構成を示すブロック図である。
　コンテンツ再生装置２００は、ユーザを含むコンテンツ視聴環境の情報を検出するための手段として第２の画像入力部２０１、第２の画像解析部２０２、第２の音声入力部２０３および第２の音声解析部２０４を有する。さらに、コンテンツ再生装置２００は、例えば、検出された情報に基づいてタグ情報を選択し、選択されたタグ情報に基づいて１以上のコンテンツデータを検索して順次再生する制御を行うコンテンツ制御部２０５を有する。

　第２の画像入力部２０１は、カメラを使って撮像したコンテンツ視聴環境の画像を入力し、データ化して第２の画像解析部２０２に出力する。第２の画像入力部２０１は例えば室内に設置された定点観測カメラなどである。

　第２の画像解析部２０２は、第２の画像入力部２０１によって入力された画像データから被写体の人物を認識するとともに、その人物の顔表情から感情を推定し、これらの結果をコンテンツ制御部２０５に出力する。

　第２の音声入力部２０３は、マイクを使ってコンテンツ視聴環境の音声を捉え、データ化して第２の音声解析部２０４に出力する。

　第２の音声解析部２０４は、第２の音声入力部２０３によって入力された音声データを解析して、その音声に含まれる発話者である人物を推定したり、その発話内容に含まれるキーワードを抽出し、これらの結果をコンテンツ制御部２０５に与える。

　コンテンツ制御部２０５は、第２の画像解析部２０２および第２の音声解析部２０４によって得られた解析結果に基づいてカプセル化のためのタグ情報を判定し、判定したタグ情報に基づいてコンテンツＤＢ２０を検索してカプセル化する１以上のコンテンツデータを判定し、これらのコンテンツデータを順次再生してコンテンツ提示装置３０に出力する。

　コンテンツ提示装置３０は、コンテンツ再生装置２００によって再生されたコンテンツデータの表示や音声出力を行う。コンテンツ提示装置３０は、テレビジョン、パーソナルコンピュータに接続されるモニター、プロジェクターなどであってよい。あるいは、スマートホン、タブレット端末、デジタルフォトフレームでもよい。

　（コンテンツ再生装置２００の動作）
　次に、コンテンツ再生装置２００の動作を説明する。
　図５は、コンテンツ再生装置２００の動作のフローチャートである。
　例えば、自宅内などのコンテンツ視聴環境にユーザが存在することが、第２の画像解析部２０２による画像解析によって検出されたり、第２の音声解析部２０４による音声解析などによって検出されたりすることによって（ステップＳ１０１）、コンテンツ制御部２０５は、コンテンツＤＢ２０から１以上のコンテンツデータを連続的に読み出し再生してコンテンツ提示装置３０にスライドシューのように提示することを開始する（ステップＳ１０２）。なお、コンテンツデータは必ずしもコンテンツＤＢ２０だけに保存されているとは限らない。他のデータベースに保存されたコンテンツデータを読み出して再生してもよい。

　この際、提示されるコンテンツデータは予め任意に決められたタグ情報によりカプセル化された１以上のコンテンツデータであってもよいし、コンテンツＤＢ２０からランダムに読み出されたコンテンツデータであってもよい。あるいは、コンテンツＤＢ２０にユーザの予定情報やその複写情報が保存されている場合には、その予定情報に基づき、最近完了した予定名をタグ情報としてカプセル化された１以上のコンテンツデータを読み出して再生してもよい。あるいは、所定日数前（例えば一か月、半年、一年前など）に完了した予定名をタグ情報としてカプセル化された１以上のコンテンツデータを読み出して再生してもよい。あるいは、第２の画像解析部２０２による画像解析によって認識されたユーザをタグ情報として、このユーザが登場人物に含まれるコンテンツデータをカプセル化して再生してもよい。

　また、コンテンツ再生装置２００に対してユーザから視聴したいコンテンツデータのタグ情報を音声などにより直接指定することも可能である。
　例えば、ユーザからの「遊園地ｘの写真を見せて」、「楽しい想い出を見せて」、「美味しい想い出を見せて」といった発話から抽出されたキーワードに基づいて再生されるコンテンツデータのタグ情報が決められてもよい。

　コンテンツデータの提示中、コンテンツ制御部２０５は画像解析結果および音声解析結果などから、再生対象のコンテンツデータのタグ情報を切り替えるイベントの検出を行う（ステップＳ１０４）。例えば、コンテンツ制御部２０５は、次のような解析結果が得られた場合にイベントの発生とみなす。
　１．コンテンツ視聴環境内のユーザの変化、ユーザの組み合わせの変化
　２．ユーザの特定の顔表情（特定の感情）への変化
　３．ユーザの行動の変化
　４．ユーザの発話に含まれるキーワード

　イベント１の検出時
　コンテンツ制御部２０５は、コンテンツ視聴環境内のユーザが変化したとき、あるいはユーザの組み合わせが変化したとき、例えば、変化後のユーザあるいは新たに加わったユーザがタグ情報として含まれる１以上のコンテンツデータなどをまとめたカプセルの提示に切り替える（ステップＳ１０５）。これにより、コンテンツ視聴環境内のユーザまたはユーザグループに関連する１以上のコンテンツデータに提示が切り替わり、コンテンツ視聴環境の場の盛り上げりを期待できる。

　イベント２の検出時
　コンテンツ制御部２０５は、例えば、ユーザの感情が例えば"楽しい"（顔表情が笑顔）などに変化した場合に、コンテンツ制御部２０５は、（感情：楽しい）のタグ情報に基づいて改めてカプセル化した１以上のコンテンツデータの提示に切り替える（ステップＳ１０５）。これにより、ユーザの楽しい気持ちのより一層の盛り上がりを期待できる。

　イベント３の検出時
　コンテンツ制御部２０５は、例えば、ユーザの動きが大きくなる、あるいは高速になるなどのユーザ行動の変化を検出した場合、例えば、"おめでとう"、"やったね！"などのポジティブな意味のキーワードのタグ情報でカプセル化した１以上のコンテンツデータの提示に切り替える（ステップＳ１０５）。

　イベント４の検出時
　コンテンツ制御部２０５は、コンテンツ視聴中のユーザの発話から抽出されたキーワードをタグ情報として改めてカプセル化した１以上のコンテンツデータの提示に切り替える（ステップＳ１０５）。

　また、コンテンツ制御部２０５は、コンテンツ視聴中のユーザの発話から抽出された新たなキーワードを、提示中のコンテンツデータに対する新たなタグ情報としてコンテンツＤＢ２０に追加する。例えば、レストランで次々に運ばれてくる料理の写真データが、コンテンツデータとしてタグ情報とともにコンテンツデータに登録されているものとする。この料理の写真データを提示中にユーザが「この料理は美味しかったね。」と発話したとすると、コンテンツ制御部２０５は、この発話内容から第２の音声解析部２０４によって抽出されたキーワード、例えば"美味しかった"のキーワードを写真データの新たなタグ情報としてコンテンツＤＢ２０に追加する。このように、コンテンツＤＢ２０に新たなタグ情報が追加されることによって、コンテンツＤＢ２０のタグ情報の充実度が増し、多彩なスライドシューを提示することができる。

　また、コンテンツ制御部２０５は、コンテンツ視聴環境内のユーザからの、視聴したいコンテンツデータに関するタグ情報を直接指定する指令を受け付けて、そのタグ情報でカプセル化された１以上のコンテンツデータを順次提示する。例えば、複数のユーザがテレビ放送による遊園地ｘに関する番組を視聴しているとき、いずれかのユーザが「この遊園地ｘに行きたい」と発言したとする。第２の音声解析部２０４は第２の音声入力部２０３を通じて入力された発話の音声データから「遊園地ｘ」というキーワードを抽出し、コンテンツ制御部２０５に与える。するとコンテンツ制御部２０５は、遊園地ｘに関連する１以上のコンテンツデータを順次提示する。

　また、遊園地ｘに関連する１以上のコンテンツデータの提示中に、遊園地ｘに移動中に撮影した渋滞の写真が含まれていたため、いずれかのユーザが「この時の道路交通情報を見せて」と発話すると、コンテンツ制御部２０５は、第２の音声解析部２０４で得られた「交通情報」というキーワードに基づいて、当該コンテンツデータに紐付けられてコンテンツＤＢ２０に保存された、当時の交通渋滞情報を読み出してコンテンツ提示装置３０に提示する。ユーザは、この交通渋滞情報を、次回遊園地ｘに行く際の交通ルート、出発時刻などを決めるための参考情報とすることができる。

　以上のコンテンツ再生装置２００によるコンテンツデータの提示は、コンテンツ視聴環境にユーザがいなくなったことが検出（ステップＳ１０３のＹＥＳ）されることによって停止される（ステップＳ１０６）。

　なお、ユーザからコンテンツ再生装置２００に対する指令の入力は、音声入力以外の方法を可能とする。例えば、画像解析によるジェスチャ入力、コンテンツ提示装置３０に表示させたメニューを使った入力などでもよい。

　（日記機能について）
　コンテンツ再生装置２００は、ユーザの日記機能を有する。
　コンテンツ再生装置２００に対してユーザが例えば"日記を書く"と発話すると、第２の画像解析部２０２による画像からの顔認識処理または第２の音声解析部２０４による音声解析の少なくとも一方によりユーザを特定するとともに、当該ユーザの日記機能を発動させる。

　コンテンツ制御部２０５は、特定されたユーザについての当日の予定情報をコンテンツＤＢ２０から読み込み、コンテンツ提示装置３０に表示する。ここで、当日の予定情報として、例えば"遊園地ｘで遊ぶ。"などの予定が入っている場合を想定する。するとコンテンツ制御部２０５は、当日の日時と当該ユーザ名をタグ情報として１以上のコンテンツデータをカプセルとしてまとめ、コンテンツ提示装置３０に順次提示する。

　コンテンツデータの視聴中、ユーザは提示されたコンテンツデータに対して何からの感想を発話すると、第２の音声解析部２０４は第２の音声入力部２０３によって取り込まれたユーザの音声データを認識して発話内容のテキストデータを生成する。コンテンツ制御部２０５は、生成されたテキストデータを当日の日記文として、記録日、記録者、発話内容中のキーワードなどのタグ情報と紐付けてコンテンツＤＢ２０に保存する。

　（コンテンツデータのカプセル化の具体例）
　次に、コンテンツデータのカプセル化の具体例を説明する。

　図６は、コンテンツＤＢ２０に蓄積されたコンテンツデータ毎のメタ情報群を日時と感情とで分類して示す図である。
　ここには計１３個のコンテンツデータＣ１～Ｃ１３のメタ情報群が存在する。コンテンツデータＣ１、Ｃ７は動画、コンテンツデータＣ２～Ｃ６、Ｃ８、Ｃ１０、Ｃ１２、Ｃ１３は写真、コンテンツデータＣ９、Ｃ１１は日記データである。

　コンテンツデータＣ１には、タグ情報として、（日時：２０１７年１０月１日）、（予約名：遊園地ｘ）、（人物：パパ）、（人物：ママ）、（人物：娘）、そしてそれぞれの人物について（感情：楽しい）が紐付けられている。
　コンテンツデータＣ２には、タグ情報として、（日時：２０１７年１０月１日）、（予約名：遊園地ｘ）、（人物：ママ）、（感情：楽しい）が紐付けられている。
　コンテンツデータＣ３には、タグ情報として、（日時：２０１７年１０月１日）、（予約名：遊園地ｘ）、（場所：レストランｙ）、（人物：娘）、（キーワード：ピザ）、（感情：美味しい）が紐付けられている。ここで、（感情：美味しい）は人物の顔表情の解析と（場所：レストランｙ）に基づいて判定された結果である。コンテンツデータＣ４、Ｃ８、Ｃ１２の感情タグについても同様である。

　コンテンツデータＣ４には、タグ情報として、（日時：２０１７年１０月１日）、（予約名：遊園地ｘ）、（場所：レストランｙ）、（人物：パパ）、（キーワード：ハンバーグ）、（感情：美味しい）が紐付けられている。
　コンテンツデータＣ５には、タグ情報として、（日時：２０１７年１０月１日）、（予約名：遊園地ｘ）、（人物：パパ）、（キーワード：交通渋滞）、（キーワード：事故）、（キーワード：疲れた）、（感情：悲しい）が紐付けられている。
　コンテンツデータＣ６には、タグ情報として、（日時：２０１７年１０月１日）、（予約名：遊園地ｘ）、（場所：レストランｙ）、（人物：ママ）、（キーワード：カレー）、（キーワード：辛すぎ）、（感情：悲しい）が紐付けられている。

　コンテンツデータＣ７には、タグ情報として、（日時：２０１７年１０月１０日）、（予約名：運動会）、（人物：娘）、（キーワード：リレー）、（キーワード：１等賞）、（感情：楽しい）が紐付けられている。
　コンテンツデータＣ８には、タグ情報として、（日時：２０１７年１０月１０日）、（予約名：運動会）、（人物：娘）、（キーワード：お弁当）、（キーワード：卵焼き）、（感情：美味しい）が紐付けられている。
　コンテンツデータＣ９には、タグ情報として、（日時：２０１７年１０月１０日）、（キーワード：ドラマ名ｚｚ話題）、（キーワード：涙）、（人物：ママ）、（感情：悲しい）が紐付けられている。

　コンテンツデータＣ１０には、タグ情報として、（日時：２０１７年１０月１７日）、（予約名：誕生日）、（キーワード：プレゼント）、（キーワード：ゲーム）、（人物：娘）、（感情：楽しい）が紐付けられている。
　コンテンツデータＣ１１には、タグ情報として、（日時：２０１７年１０月１７日）、（キーワード：ドラマｙｙ話題）、（キーワード：ハッピーエンド）、（人物：ママ）、（感情：楽しい）が紐付けられている。
　コンテンツデータＣ１２には、タグ情報として、（日時：２０１７年１０月１７日）、（予約名：誕生日）、（キーワード：ケーキ）、（人物：娘）、（感情：美味しい）が紐付けられている。
　コンテンツデータＣ１３には、タグ情報として、（日時：２０１７年１０月１７日）、（予約名：誕生日）、（キーワード：ケーキを食べられない）、（キーワード：出張）、（キーワード：がっかり）、（人物：パパ）、（感情：悲しい）が紐付けられている。

　ここで、カプセル化のためのタグ情報として（日時：２０１７年１０月１日）が選択された場合には、図７に示すように、コンテンツデータＣ１～Ｃ６をまとめたカプセルＴ１が生成され、それぞれのコンテンツデータＣ１～Ｃ６が順次スライドショーのように切り替えてコンテンツ提示装置３０に提示される。提示の順番は、コンテンツデータの日時順であってもよいし、ランダムでもよい。
　その他の日時についても同様に、カプセル化のためのタグ情報として選択された場合にはコンテンツデータＣ７～Ｃ９をまとめたカプセルＴ２や、コンテンツデータＣ１０～Ｃ１３をまとめたカプセルＴ３が生成される。

　また、カプセル化のためのタグ情報として（感情：楽しい）が選択された場合には、図８に示すように、コンテンツデータＣ１、Ｃ２、Ｃ７、Ｃ１０、Ｃ１１をまとめたカプセルＴ４が生成され、これらのコンテンツデータＣ１、Ｃ２、Ｃ７、Ｃ１０、Ｃ１１が順次提示される。この場合の、提示順についても日時順であってもよいし、ランダムでもよい。
　その他の感情（美味しい、悲しい）についても同様に、カプセル化のためのタグ情報として選択された場合には、コンテンツデータＣ３、Ｃ４、Ｃ８、Ｃ１２をまとめたカプセルＴ５や、コンテンツデータＣ５、Ｃ６、Ｃ９、Ｃ１３をまとめたカプセルＴ６が生成される。

　さらに、カプセル化のためのタグ情報として（人物：ママ）が選択された場合には、図９に示すように、コンテンツデータＣ１、Ｃ２、Ｃ６、Ｃ９、Ｃ１１、Ｃ１２をまとめたカプセルが生成される。その他の人物（パパ、娘）についても同様に、カプセル化のためのタグ情報として選択された場合には、コンテンツデータＣ４、Ｃ５、Ｃ１３をまとめたカプセルや、コンテンツデータＣ１、Ｃ３、Ｃ７、Ｃ８、Ｃ１０、Ｃ１２をまとめたカプセルが生成される。

　さらに、カプセル化のためのタグ情報として"動画"が選択された場合には、コンテンツデータＣ１、Ｃ７をまとめた動画のカプセルが生成され、"写真"が選択された場合には、コンテンツデータＣ２、Ｃ３、Ｃ４、Ｃ５、Ｃ６、Ｃ８、Ｃ１０、Ｃ１２、Ｃ１３をまとめた写真のカプセルが生成され、"日記"が選択された場合には、コンテンツデータＣ９、Ｃ１１をまとめた日記のカプセルが生成される。

　複数のタグ情報によりカプセル化を行うことも可能である。
　例えば、カプセル化のためのタグ情報として（人物：ママ）と（感情：楽しい）が選択された場合には、図１０に示すように、コンテンツデータＣ１、Ｃ２、Ｃ１１をまとめたカプセルが生成され、カプセル化のためのタグ情報として（人物：娘）と（感情：美味しい）が選択された場合には、コンテンツデータＣ３、Ｃ８、Ｃ１２をまとめたカプセルが生成される。

　以上のように、本実施形態によれば、コンテンツデータベース生成装置１００にて、個々のコンテンツデータに対して紐付けられた１以上のタグ情報がコンテンツＤＢ２０に登録され、コンテンツ再生装置２００では、選択されたタグ情報により１以上のコンテンツデータがまとめられてカプセルが生成され、順次コンテンツ提示装置３０に提示される。そしてカプセルの提示中に、再生対象のコンテンツデータのタグ情報を切り替えるイベントが検出されたならば、そのイベントに対応する別のタグ情報により改めて１以上のコンテンツデータをまとめなおしたカプセルが生成されて提示される。これにより、コンテンツ視聴環境においてユーザに対して提示されるコンテンツデータのテーマが、ユーザの変化や直感的な発話などによって時々刻々と変化し、ユーザが忘れかけていたような意外な思い出に触れる機会をユーザに与えることができる。

　また、タグ情報によりまとめられて順次提示されるコンテンツデータには、ニュース、気象情報、交通渋滞情報などの外部から入手した一般情報も含み得るため、思い出を別の観点から眺めることができる。例えば、「遊園地ｘに行った日は台風が上陸する前日だった」、「その日は高速道路上での事故により大渋滞だった」といったユーザの思い出を膨らますような新たな情報をユーザに与えることができる。

　＜変形例１＞
　以上、コンテンツデータベース生成装置１００とコンテンツ再生装置２００とが分離した情報処理システム１の実施形態を説明したが、図１１に示すように、コンテンツデータベース生成装置１００の機能を有するコンテンツデータベース生成部１００Ａとコンテンツ再生装置２００の機能を有するコンテンツ再生部２００Ａを１つの情報処理ユニット１Ａで構成することも可能である。

　また、情報処理ユニット１Ａは、情報端末１０の予定管理部１１、第１の画像入力部１２、位置情報取得部１３、第１の音声入力部１４、ＳＮＳ受信部１５およびウェブ情報受信部１６（図１参照）の機能を搭載して構成されてもよい。
　あるいは、情報処理ユニット１Ａは、コンテンツＤＢ２０の機能、さらにはコンテンツ提示装置３０の機能を搭載したものであってもよい。

　（同行者の予約登録）
　予定管理部１１の予約情報に同行者を登録することによって、第１の画像解析部１１２が画像から人物を認識したり、第１の音声解析部１１４が発話の音声から人物を推定する精度を向上させることができる。
　また、予定完了後に、同行者の情報端末１０にＳＮＳなどを通じて当日得られた動画や写真などのコンテンツデータを投稿したり、感想などの情報交換を行うことができるようになり、その感想などの情報から抽出したキーワードをコンテンツＤＢ２０上の当該コンテンツデータに対する新たなタグ情報として追加したりすることができる。

　（日記の自動生成）
　日記のユーザの人物名が紐付けられたコンテンツデータを特定し、このコンテンツデータと、これに紐付けられた他のタグ情報やウェブ情報などをコンテンツＤＢ２０から抽出し、時系列にこれらの情報を並べることで、簡易的な日記を自動生成することができる。ユーザは、この簡易日記に、音声などにより入力された新たな感想文などの情報を付加して充実度に富む日記を作成することができる。

　（ＳＮＳ投稿内容からの日記作成）
　例えば、友人同士でＳＮＳにハッシュタグを付けて情報交換した場合、ハッシュタグを予定名としてコンテンツＤＢ２０に登録し、ＳＮＳ上で交換された感想や写真等のデータと併せて管理してもよい。これにより、ＳＮＳ上で交換された感想や写真等のデータをまとめたカプセルを簡易的な日記として作成して提示することができる。

　＜ＧＮＳＳの活用＞
　コンテンツＤＢ２０にコンテンツデータに紐付けて登録された位置情報からユーザの居場所を特定し、その周辺のコンテンツに対し、居場所を予定名としてコンテンツＤＢ２０に登録してもよい。
　例えば、公園ａで友人と遊んでいる様子を撮影した場合、位置情報からユーザの場所が公園ａであることが特定できる。この公園名を予定名として写真データと紐付けてコンテンツＤＢ２０に登録してもよい。これにより、公園名をタグ情報として１以上の写真データをまとめたカプセルを公園ａのアルバムとして作成し、提示することができる。

　（コンテンツＤＢ２０のデータ修正）
　コンテンツ再生装置２００は、コンテンツＤＢ２０に登録されたキーワード、感情、予定名、人物などのタグ情報をユーザからの指令入力により任意の情報に変更することが可能である。
　また、カプセル化するコンテンツデータや、カプセルから排除するコンテンツデータはユーザが直接音声やメニュー操作によって選択することも可能である。
　コンテンツ再生装置２００で生成されたカプセルは、他のユーザのコンテンツ再生装置２００との間で交換できるようにしてもよい。これにより、他のユーザのカプセルに含まれるコンテンツデータとの紐付けも可能となり、カプセルの種類や内容が充実する。

　［本技術の別の構成］
　本技術は以下のような構成も採ることができる。
（１）検出されたユーザおよびユーザの行動に関する情報から前記ユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツデータベースに登録する第１の演算ユニットを有する第１の情報処理ユニットと、
　ユーザを含むコンテンツ視聴環境から検出される情報に基づいて前記タグ情報を選択し、前記選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生し、前記視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する第２の演算ユニットを有する第２の情報処理ユニットとを具備する
　情報処理システム。

（２）上記（１）に記載の情報処理システムであって、
　前記検出されたユーザおよびユーザ行動に関する情報および前記コンテンツデータ視聴環境から検出される情報が、前記ユーザを含む撮影画像から認識される人物情報およびこの人物の顔表情からの推定される感情情報である
　情報処理システム。

（３）上記（１）または（２）に記載の情報処理システムであって、
　前記検出されたユーザおよびユーザ行動に関する情報および前記コンテンツデータ視聴環境から検出される情報が、前記ユーザの発話内容から抽出されるキーワードである
　情報処理システム。

（４）上記（１）から（３）のいずれかに記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境にユーザが存在することを検出したとき、前記１以上のコンテンツデータを順次再生する
　情報処理システム。

（５）上記（４）に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　１以上のコンテンツデータをランダムに選択して順次再生する
　情報処理システム。

（６）上記（１）から（５）のいずれかに記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの変化、ユーザの組み合わせの変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。

（７）上記（６）に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境の変化後のユーザの人物名を含むタグ情報に更新する
　情報処理システム。

（８）上記（１）から（５）のいずれかに記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの顔表情の変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。

（９）上記（８）に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記変化後のユーザの顔表情から推定される感情情報を含むタグ情報に更新する
　情報処理システム。

（１０）上記（１）から（５）のいずれかに記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの動きの大きさと速度の変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。

（１１）上記（１）から（５）のいずれかに記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの発話から抽出されたキーワードに応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。

（１２）上記（１）から（１１）のいずれかに記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの発話から抽出された新たなキーワードを、提示中のコンテンツデータに対する新たなタグ情報としてコンテンツデータベースに追加する
　情報処理システム。

（１３）上記（１）から（１２）のいずれかに記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザからの音声による指令を受けて、当該ユーザを認識し、当該ユーザの予定情報と当該ユーザを特定する人物情報に紐付けられた１以上のコンテンツデータを順次再生し、当該ユーザからの感想の音声をテキストデータに変換し、日記データとして保存する
　情報処理システム。

（１４）検出されたユーザおよびユーザの行動に関する情報から前記ユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツデータベースに登録し、
　ユーザを含むコンテンツ視聴環境から検出される情報に基づいて前記タグ情報を選択し、前記選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生し、前記視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する演算ユニットを有する
　情報処理装置。

（１５）検出されたユーザおよびユーザの行動に関する情報から前記ユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツデータベースに登録し、
　ユーザを含むコンテンツ視聴環境から検出される情報に基づいて前記タグ情報を選択し、前記選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生し、前記視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理方法。

　その他、本技術は、上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

　Ｃ１～Ｃ１３…コンテンツデータ
　Ｔ１～Ｔ６…カプセル
　１…情報処理システム
　１Ａ…情報処理ユニット
　１０…情報端末
　２０…コンテンツデータベース
　３０…コンテンツ提示装置
　１００…コンテンツデータベース生成装置
　１１０…情報解析部
　１１１…予定情報解析部
　１１２…第１の画像解析部
　１１３…行動解析部
　１１４…第１の音声解析部
　１１５…ＳＮＳ解析部
　１１６…ウェブ情報解析部
　１２０…タグ情報生成部
　２００…コンテンツ再生装置
　２０１…第２の画像入力部
　２０２…第２の画像解析部
　２０３…第２の音声入力部
　２０４…第２の音声解析部
　２０５…コンテンツ制御部

Claims

　検出されたユーザおよびユーザの行動に関する情報から前記ユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツデータベースに登録する第１の演算ユニットを有する第１の情報処理ユニットと、
　ユーザを含むコンテンツ視聴環境から検出される情報に基づいて前記タグ情報を選択し、前記選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生し、前記視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する第２の演算ユニットを有する第２の情報処理ユニットと、
　を具備する情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記検出されたユーザおよびユーザ行動に関する情報および前記コンテンツデータ視聴環境から検出される情報が、前記ユーザを含む撮影画像から認識される人物情報およびこの人物の顔表情からの推定される感情情報である
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記検出されたユーザおよびユーザ行動に関する情報および前記コンテンツデータ視聴環境から検出される情報が、前記ユーザの発話内容から抽出されるキーワードである
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境にユーザが存在することを検出したとき、前記１以上のコンテンツデータを順次再生する
　情報処理システム。
　請求項４に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　１以上のコンテンツデータをランダムに選択して順次再生する
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの変化、ユーザの組み合わせの変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。
　請求項６に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境の変化後のユーザの人物名を含むタグ情報に更新する
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの顔表情の変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。
　請求項８に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記変化後のユーザの顔表情から推定される感情情報を含むタグ情報に更新する
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの動きの大きさと速度の変化に応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの発話から抽出されたキーワードに応じて、前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザの発話から抽出された新たなキーワードを、提示中のコンテンツデータに対する新たなタグ情報としてコンテンツデータベースに追加する
　情報処理システム。
　請求項１に記載の情報処理システムであって、
　前記第２の情報処理ユニットの前記第２の演算ユニットは、
　前記コンテンツ視聴環境内のユーザからの音声による指令を受けて、当該ユーザを認識し、当該ユーザの予定情報と当該ユーザを特定する人物情報に紐付けられた１以上のコンテンツデータを順次再生し、当該ユーザからの感想の音声をテキストデータに変換し、日記データとして保存する
　情報処理システム。
　検出されたユーザおよびユーザの行動に関する情報から前記ユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツデータベースに登録し、
　ユーザを含むコンテンツ視聴環境から検出される情報に基づいて前記タグ情報を選択し、前記選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生し、前記視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する演算ユニットを有する
　情報処理装置。
　検出されたユーザおよびユーザの行動に関する情報から前記ユーザのコンテンツデータに対する１以上のタグ情報を生成し、生成された１以上のタグ情報を前記コンテンツデータと紐付けてコンテンツデータベースに登録し、
　ユーザを含むコンテンツ視聴環境から検出される情報に基づいて前記タグ情報を選択し、前記選択されたタグ情報に基づいて１以上の前記コンテンツデータを検索して順次再生し、前記視聴環境からの検出情報の変化に応じて前記コンテンツデータの検索に用いるタグ情報を更新する
　情報処理方法。