JP2009081575A

JP2009081575A - 映像を出力する装置、方法およびシステム

Info

Publication number: JP2009081575A
Application number: JP2007247998A
Authority: JP
Inventors: Shinko Sekine; 真弘関根; Yasuaki Yamauchi; 康晋山内; Norio Mihara; 功雄三原; Yasukazu Higuchi; 靖和樋口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-09-25
Filing date: 2007-09-25
Publication date: 2009-04-16
Anticipated expiration: 2027-09-25
Also published as: US8466961B2; JP5121367B2; CN101441650A; US20090083814A1

Abstract

【課題】入力された映像データから多様な出力映像を生成して表示する映像出力装置を提供すること。
【解決手段】映像データを入力する映像入力部１０１と、映像データに関連する複数の参照データを入力する参照データ入力部１０２と、複数の参照データの識別情報うち、出力要求を受付けたときからの経過時間に応じた識別情報を決定する抽出条件決定部１０３と、決定された識別情報の参照データを抽出する参照データ抽出部１０４と、入力された映像データ内のフレームと参照データとの類似度を算出し、算出した類似度が第１閾値より大きいフレームを抽出する解析部１０５と、抽出されたフレームを含む出力映像データを生成する映像生成部１０６と、生成された出力映像データを出力する出力部１５３と、を備えた。
【選択図】図１

Description

この発明は、映像データの中から視聴する映像データを抽出して生成した映像データを出力する装置、方法およびシステムに関するものである。

近年、通信ネットワークのブロードバンド化、テレビ放送のハイビジョン化、そしてデジタルビデオカメラのコモディティ化に伴い、ユーザは膨大な映像データを扱うようになった。また、そのような映像データの中には、あるユーザにとっては冗長な映像データも含まれる。そのため、ユーザは膨大かつ冗長な映像データの中から視聴する映像データを検索することや、映像データの内容を即座に理解することが困難になってきた。

このような問題に対して、サムネイルと呼ばれる映像内の代表的な画像を表示することによって映像データの内容を一覧する技術が広く知られている。最も単純な映像データの表示方法としては、映像データの先頭フレームを抽出し、抽出した先頭フレームを縮小してサムネイル化することによって映像データの内容を表示するという方法が存在する。

しかし、先頭フレームがその映像データの内容を特徴づける代表的なフレームであるとは限らないため、そのサムネイル画像を見ただけでは映像データの内容を十分に理解することができないことが多い。

そこで、映像データの先頭フレームとテキストデータとを合成してサムネイル表示するという技術が提案されている（例えば、特許文献１）。この技術は、時間の経過とともに、先頭フレームの画像だけでは映像データの内容が判断することが困難になるという問題を解決するための技術である。そして、この技術では、番組名、出演者、録画日時等のテキストデータを含むタイトル画像を、先頭フレームの画像に合成することによってこの問題を解消し、映像データのより把握しやすい表示方法を実現している。

また、映像データを解析し、その映像データを特徴づける画像を選択して表示するという技術も提案されている（例えば、特許文献２）。この技術は、映像データのシーンの変わり目を検出するシーンチェンジ検出機能を用いることによって代表画像の候補を抽出し、複数の代表画像候補の中から手動で代表画像を選択して表示するものである。このようにある程度絞られた候補の中から、ユーザが最も代表的である思われる画像を選択することによって、効果的なサムネイル表示を実現することができる。

さらに、映像データの種別に応じたサムネイルの作成を行うという技術も提案されている（例えば、特許文献３）。この技術は、映画、ニュース、コマーシャル（ＣＭ）などといった映像データの種別によって特性や構成が異なるため、映像データの種別の属性に応じて映像区間の分割や画像の抽出・合成を行うものである。このような方法によって、映像データの種別毎に適したサムネイルの作成を行うことができ、より効率的なサムネイル表示を実現することができる。

特開２００２−２０９１７８号公報特開平１１-３３４６号公報特開平９−２１９８３５号公報

しかしながら、上記のような技術では、所定の判断基準で選出または作成された固定的な画像しか表示できないという問題があった。例えば、特許文献１の方法では、先頭フレームの画像と番組名等のテキストデータを含むタイトル画像とを合成したサムネイル画像が表示される。すなわち、ある映像データに対しては、ユーザやユーザの視聴状況が異なる場合であっても、各技術で定められた方法によって決定される同一のサムネイル画像が表示される。このため、ユーザの嗜好や様々な状況を考慮した画像を作成して表示することができないという問題があった。

本発明は、上記に鑑みてなされたものであって、入力された映像データから多様な出力映像を生成して表示することができる装置、方法およびシステムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、入力された映像データから抽出されたフレームを含む出力映像データを生成して出力する映像出力装置であって、映像データを入力する映像入力部と、入力された映像データに関連する画像データ、テキストデータ、および音声データの少なくとも１つである複数の参照データを入力する参照データ入力部と、予め定められた規則に基づいて、複数の前記参照データの識別情報うち、前記出力映像データの出力要求を受付けたときからの経過時間を含む動的に変化する予め定められた変動情報に応じた前記識別情報を決定する決定部と、複数の前記参照データから、決定された前記識別情報の前記参照データを抽出する参照データ抽出部と、入力された映像データ内のフレームと前記参照データとして抽出された前記画像データとの類似度、前記フレームに前記メタデータとして付与されたテキストデータと前記参照データとして抽出されたテキストデータとの類似度、および前記フレームに付与された音声データと前記参照データとして抽出された前記音声データとの類似度の少なくとも１つを算出し、算出した類似度が予め定められた第１閾値より大きい前記フレームまたは算出した類似度が前記第１閾値より大きい前記音声データが付与された前記フレームを抽出するフレーム抽出部と、抽出された前記フレームを含む前記出力映像データを生成する映像生成部と、生成された前記出力映像データを出力する出力部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法である。

また、本発明は、商品に関する映像データを提供する提供装置と、購入した前記商品に関する購入情報に応じて前記商品の提供者に対する課金処理を実行する課金装置と、前記提供装置および前記課金装置にネットワークを介して接続され、入力された映像データから抽出されたフレームを含む出力映像データを生成して出力する映像出力装置と、を備えた購入システムであって、前記映像出力装置は、映像データを入力する映像入力部と、入力された映像データに関連する画像データ、テキストデータ、および音声データの少なくとも１つである複数の参照データを入力する参照データ入力部と、予め定められた規則に基づいて、複数の前記参照データの識別情報うち、前記出力映像データの出力要求を受付けたときからの経過時間を含む動的に変化する予め定められた変動情報に応じた前記識別情報を決定する決定部と、複数の前記参照データから、決定された前記識別情報の前記参照データを抽出する参照データ抽出部と、入力された映像データ内のフレームと前記参照データとして抽出された前記画像データとの類似度、前記フレームに前記メタデータとして付与されたテキストデータと前記参照データとして抽出されたテキストデータとの類似度、および前記フレームに付与された音声データと前記参照データとして抽出された前記音声データとの類似度の少なくとも１つを算出し、算出した類似度が予め定められた第１閾値より大きい前記フレームまたは算出した類似度が前記第１閾値より大きい前記音声データが付与された前記フレームを抽出するフレーム抽出部と、抽出された前記フレームを含む前記出力映像データを生成する映像生成部と、生成された前記出力映像データを出力する出力部と、前記出力部によって出力された前記出力映像データに応じて指定された前記商品の購入に関する処理を実行する購入処理部と、前記購入処理部で購入した前記商品に関する前記購入情報を前記課金装置に送信する課金処理部と、を備えたことを特徴とする。

本発明によれば、入力された映像データから多様な出力映像を生成して表示することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる装置、方法およびシステムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
第１の実施の形態にかかる映像出力装置は、映像データに関連する参照データ群から抽出条件にしたがって抽出された参照データを用いて、映像データからフレームを抽出し、抽出したフレームを含む出力用の映像データを生成して表示するものである。

ここで、映像データとは、少なくとも１つの映像フレームから構成されるデータをいう。すなわち、映像データには、動画像データおよび静止画像データが含まれる。また、参照データとは、例えば入力された映像データとは異なる他の映像データ、文字列や数値などを含むテキストデータ、および音声データであって、映像データから出力用映像データを生成するために参照するデータをいう。そして、参照データ群とは、複数の参照データの集合であって、抽出条件にしたがって１つ以上の参照データを抽出可能な情報をいう。

また、以下では、出力用の映像データを出力映像データという。出力映像データは、静止画像のみ、動画像データのみ、または両者の組み合わせによって構成することができる。

また、以下では、映像出力装置を一般的なパーソナルコンピュータ（ＰＣ）として実現した例について説明する。適用可能な装置はＰＣに限られるものではなく、映像を出力可能な装置であれば、ＰＤＡ（Personal Digital Assistants）、携帯電話、ＴＶ、およびビデオレコーダなどのあらゆる装置に適用できる。

また、適用可能なデータは映像データに限られるものではなく、音楽、インターネット上のホームページ情報、電子番組（ＥＰＧ）情報、および地図情報など他の様々なメディアに対しても同様に適用することができる。

図１は、第１の実施の形態にかかるＰＣ１００の構成を示すブロック図である。図１に示すように、ＰＣ１００は、主なハードウェア構成として、操作部１５１と、通信部１５２と、出力部１５３と、を備えている。また、ＰＣ１００は、主なソフトウェア構成として、映像入力部１０１と、参照データ入力部１０２と、抽出条件決定部１０３と、参照データ抽出部１０４と、解析部１０５と、映像生成部１０６と、出力制御部１０７と、を備えている。

操作部１５１は、ユーザからの入力操作を受付けるものである。具体的には、操作部１５１は、キーボード、マウス、リモコン、およびタッチパネルなどにより構成することができる。ユーザは、後述する出力部１５３に表示される各種映像データや、入力された参照データおよび抽出条件などを確認しながら、操作部１５１によって、利用する抽出条件などを指定できる。

通信部１５２は、図示しないネットワークを介して外部装置との間でデータを送受信するものである。通信部１５２は、有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、またはＢｌｕｅｔｏｏｔｈなどの利用するネットワーク形態に応じたインタフェース機能を備えている。インタフェース機能を備えることで、他のユーザがおすすめする映像データ、参照データ、抽出条件などを受信することができる。

出力部１５３は、後述する映像生成部１０６が生成した出力映像データを出力するものである。例えば、出力部１５３は、一般的なディスプレイ装置などにより構成することができる。なお、出力部１５３を、映像データを印刷物として出力するプリンタ装置などにより構成してもよい。

映像入力部１０１は、映像の内容を示すタグ情報（メタデータ）が予め付与されている映像データ、またはタグ情報が全く付与されていない１つ以上の映像データを入力するものである。映像入力部１０１は、ビデオレコーダで録画したテレビ番組、放送されているテレビ番組、ビデオカメラやビデオカメラ機能付き携帯機器で撮影した映像データ、デジタルカメラやカメラ機能付き携帯機器で撮影した画像、インターネットで配信されている映像データ、映画、および他のＰＣ上で作成または編集された映像データなど、あらゆる映像データを入力することができる。

図２は、入力される映像データの一例を示す図である。図２では、「Jack」および「Olivia」という２人の登場人物を含む複数のフレームからなる映像データの例が示されている。

一般に、映像データとは、映像の内容のみが格納されたデータを指す。一方、近年では、ＭＰＥＧ（Moving Picture Experts Group）７などの技術でも規定されているように、映像データの属性や構造を表すタグ情報を映像データに付与することが多い。

以下では、このような映像データに付与されたタグ情報を映像インデックスと呼ぶ。上述のように、映像入力部１０１は、映像インデックスが予め付与されている映像データ、および映像インデックスが付与されていない映像データのいずれも入力することができる。ただし、後述するように、映像インデックスが予め付与されていた方が、解析部１０５が効率よく映像データを解析することができる。

映像インデックスとしては、映像データ全体に対するもの、映像データの一部のカット（フレーム群）に対するもの、映像データの一部のフレームに対するものが存在する。

映像全体に対する映像インデックスには、例えば、その映像データのタイトル、撮影日時、録画日時、ジャンル、登場人物（出演者）、平均視聴率、瞬間最高視聴率、およびその映像データが紹介されているインターネット上のホームページのＵＲＬ（Uniform Resource Locator）情報等が含まれる。

また、映像の一部のカット（フレーム群）や一部のフレームに対する映像インデックスには、例えば、そのフレームの盛り上がり度、登場人物（出演者）、撮影場所、撮影日時、瞬間視聴率、そのフレームに登場している物（登場人物が着ている服や持っている鞄など）の情報、およびその物が紹介されているインターネット上のホームページのＵＲＬ情報等が含まれる。

図３は、映像インデックスの一例を示す模式図である。図３は、図２の２人の人物のそれぞれが、いずれのフレーム（フレーム群）に登場しているかを示すために付与された映像インデックスを視覚的に表した例である。

図４は、映像インデックスの記述例を示す図である。図４は、ＸＭＬ（eXtensible Markup Language）形式で記述した映像インデックスの例である。なお、映像インデックスの記述形式はこれに限られず、他のタグ形式を含むあらゆる記述形式を適用できる。

同図では、「all」タグで括られた設定項目４０１が、映像全体に対する映像インデックスを示している。また、「part」タグで括られた設定項目４０２が、映像の一部のカットまたは一部のフレームに対する映像インデックスを示している。

映像全体に対する映像インデックスでは、映像データのタイトルが「○○○○○」であり、録画（開始）日時が「####年##月##日 ##時##分」であり、出演者は「Jack」と「Olivia」の２人であることが設定されている。

また、映像の一部のカットまたは一部のフレームに対する映像インデックスでは、３０フレーム目から３８９フレーム目までの間に「Jack」が出演しており、２７０フレーム目から１７９９フレーム目までの間に「Olivia」が出演していることが設定されている。

なお、登場人物（出演者）などについては、その人物の名前をテキストデータとして格納するだけでなく、その人物の顔写真を含む画像データや、その人物の声を含む音声データを映像インデックスとして設定することもできる。この場合、例えば、図４の設定項目４１１のようにテキストデータとして登場人物名「Olivia」を設定する代わりに、設定項目４１２のように画像データのファイル名「Olivia.bmp」や、設定項目４１３のように音声データのファイル名「Olivia.wav」を設定する。

映像インデックスは、テレビ番組を放映する放送局が付与する映像インデックスであっても、番組を録画した後にユーザが自動または手動で付与した映像インデックスであっても、インターネット上で配信されている映像インデックスであってもよい。仮に、これらの映像インデックスのフォーマットが異なる場合には、映像入力部１０１が、映像データを入力するときにフォーマットを変換するように構成する。

また、映像入力部１０１は、ＭＰＥＧ２、ＭＰＥＧ４、およびＨ．２６４などのあらゆるフォーマットの映像データを入力することができる。また、２つ以上の映像データを入力する場合には、映像入力部１０１は、それぞれの映像データを識別する識別情報を映像インデックスとして新たに付与するように構成してもよい。例えば、入力順を表すＩＤや、出力時の優先順位に従って割り当てたＩＤなどを映像インデックスとして付与することができる。

図１に戻り、参照データ入力部１０２は、入力される映像データに関連する複数の参照データを含む参照データ群を入力するものである。図５〜図７は、参照データ群の一例を示す図である。図５は、画像の配列からなる映像データである参照データ群の例を示している。

また、図６は、テキストデータである参照データ群の例を示している。なお、同図は、テキストデータ内に、人物名「Jack」を示すテキスト６０１、および人物名「Olivia」を示すテキスト６０２を含むことを表している。

また、図７は、音声データである参照データ群の例を示している。なお、同図は、音声データ内に、人物名「Jack」を示す音声７０１、および人物名「Olivia」を示す音声７０２を含むことを表している。

参照データ入力部１０２は、映像入力部１０１と同様に、ビデオレコーダで録画したテレビ番組、放送されているテレビ番組、ビデオカメラやビデオカメラ機能付き携帯機器で撮影した映像、デジタルカメラやカメラ機能付き携帯機器で撮影した画像、インターネットで配信されている映像データ、映画、および他のＰＣ上で作成または編集された映像データなど、あらゆる映像データを参照データとして入力することができる。また、参照データ入力部１０２は、本に書かれているテキストやその本を朗読している人の音声、電光掲示板で流れているテキスト、地図上である場所を指定している時のその場所の地名などを参照データとして入力してもよい。

また、参照データ入力部１０２は、他のＰＣまたは携帯機器で作成または編集したテキストデータ、インターネットで配信されているテキストデータ、テレビ番組などに付与されているテロップ情報、イメージスキャナのＯＣＲ（Optical Character Recognition）機能などを用いて取得したテキストデータ、音声を音声認識技術によってテキスト化したテキストデータなど、あらゆるテキストデータを入力することができる。

また、参照データ入力部１０２は、ユーザの自然な話し声、電話・携帯電話で通話している際の話し声、映像データに付与された音声データ、インターネットで配信されている音声データ、ラジオで流されている音声データ、ＣＤ（Compact Disc）等で流されている音楽、および効果音など、あらゆる音声データを入力することができる。

また、２つ以上の参照データ群を入力する場合には、参照データ入力部１０２は、それぞれの参照データ群を識別する識別情報を付与するように構成してもよい。例えば、入力順を表すＩＤや、利用時の優先順位に従って割り当てたＩＤなどを参照データ群それぞれに付与することができる。

図１に戻り、抽出条件決定部１０３は、ユーザによる出力映像データの出力要求を受付け付け、予め定められた規則に従って、参照データ入力部１０２によって入力された参照データ群の中から１つ以上の参照データを抽出するための抽出条件を決定するものである。抽出条件は、例えば、参照データ群内で各参照データを識別するための識別情報である配列のアドレスやアドレスの範囲で表される。

ここで、映像データ、テキストデータ、および音声データとして参照データを抽出するための抽出条件の具体例についてそれぞれ説明する。

映像データを抽出する場合は、フレーム番号を抽出条件として利用することができる。フレーム番号を指定することによって、映像データからなる参照データ群の中から特定のフレーム画像を抽出し、そのフレーム画像を参照データとすることができる。

このようにフレーム番号の範囲を指定することにより、複数のフレームを映像データとして抽出することができる。さらに、映像データがチャプター分割されている場合には、チャプター番号、またはチャプター番号とチャプターの先頭フレームから数えたフレーム番号などを抽出条件として利用することができる。

テキストデータを抽出する場合は、例えば、表形式などにより配列されたテキストデータであれば、その表の行番号および列番号を抽出条件として利用することができる。また、通常のテキスト文章が参照データ群として入力された場合には、「先頭から何番目の文か」、「先頭から何番目の文節か」または「先頭から何番目の単語」か、などの抽出条件を利用することができる。

このようにテキスト文章に出現する単語の番号を指定することによって、テキストデータからなる参照データ群の中から特定の単語を抽出し、その単語を参照データとすることができる。また、単語を抽出する範囲（語数）を指定することにより、複数の単語を参照データとして抽出することができる。さらに、文、文節、単語といった単位ではなく、名詞だけを抽出する条件、または動詞だけを抽出する条件などを抽出条件として用いることもできる。

音声データを抽出する場合は、例えば、音源が表などにマッピングされているならばその表の行番号・列番号を抽出条件として利用することができる。また、通常の音声（朗読や会話など）が参照データ群として入力された場合には、入力された音声を音声認識したテキストデータに対して、単語の番号を指定する抽出条件など、上記と同様の抽出条件を利用できる。

このように音声に出現する単語の番号を指定することによって、音声データからなる参照データ群の中から特定の単語を抽出し、その音声を参照データとすることができる。また、音声データの場合、データの先頭を基準とした発声時間を抽出条件として利用することができる。

次に、抽出条件決定部１０３による抽出条件の決定方法について説明する。抽出条件決定部１０３は、動的に変化する変動情報に応じて抽出条件を決定することを定めた規則にしたがい、抽出条件を決定する。変動情報としては、例えば、出力映像データの出力要求を受付けて処理を開始した時からの経過時間を利用できる。そして、規則としては、例えば、所定の時間が経過するごとに映像データの次のフレーム番号を抽出条件として決定するという規則を利用できる。

なお、変動情報はこれに限られず、出力映像データの表示位置、ユーザの視点位置、視聴者の歓声の大きさ、および気温・湿度などのように、動的に変化しうるものであればあらゆる情報を利用できる。

そして、規則としては、利用する変動情報に応じた規則を適用できる。例えば、変動情報として出力映像データの表示位置を利用する場合は、出力映像データの表示位置を表す座標値が増加するごとに抽出条件として決定するフレーム番号を増加させるという規則を適用できる。

また、例えば、変動情報として気温を利用する場合は、気温ごとに抽出すべきフレームのフレーム番号を対応づけた情報などを参照して、視聴環境の気温に対応するフレーム番号を抽出条件として決定するという規則を適用できる。これにより、例えば、季節に応じて出力する映像データを動的に変更することが可能となる。

また、参照データ群内で動的に変化する情報を変動情報として利用することもできる。例えば、参照データである映像データに付与された音声データ内の歓声を変動情報として利用することができる。歓声のほか、映像の瞬間視聴率などのような盛り上がり度・注目度を決定する属性を変動情報として利用してもよい。

また、抽出条件決定部１０３は、変動情報の値に応じて、抽出条件を決定する契機を変更するように構成してもよい。例えば、変動情報として視聴者の歓声の大きさを利用する場合は、視聴者の歓声が大きいときは抽出条件を決定する時間間隔を増加させ、歓声が小さいときは時間間隔を減少させるように構成することができる。

抽出条件決定部１０３が、変動情報に応じて抽出条件を決定することにより、例えば、時間的な変化に応じてフレーム番号を大きくすることが可能となる。そして、このように動的に変化する抽出条件によって、後述する参照データ抽出部１０４は、「Jack」が映っている画像から「Olivia」が映っている画像へ、参照データとしての映像データを動的に変化させることが可能となる。

テキストデータが参照データ群として入力された場合は、例えば、時間的な変化に応じて出現する単語の番号を大きくすることによって、参照データ抽出部１０４は、「Jack」という単語から「Olivia」という単語へ、参照データとしてのテキストデータを動的に変化させることが可能となる。

さらに、音声データが参照データ群として入力された場合は、例えば、時間的な変化に応じて出現する単語の番号を大きくすることによって、参照データ抽出部１０４は、「Jack」という音声から「Olivia」という音声へ、参照データとしての音声データを動的に変化させることが可能となる。

なお、抽出条件決定部１０３は、ユーザの操作に応じて抽出条件を決定してもよい。例えば、抽出条件決定部１０３は、参照データである映像データの再生時刻に対応して変化する、ユーザが操作可能なスライドバーの位置に応じて、参照データとして抽出する映像データのフレーム番号を決定してもよい。また、ユーザが、操作部１５１によって抽出条件を更新させるためのトリガを入力するように構成してもよい。例えば、ユーザは、操作部１５１によって、参照データ群として入力された映像データの再生の開始、参照データとして抽出するフレームの変更、および再生の停止を指示することができる。

参照データ抽出部１０４は、参照データ入力部１０２によって入力された参照データ群の中から、抽出条件に適合する１つ以上の参照データを抽出するものである。上述のように、参照データ群の中から参照データを抽出するための抽出条件が動的に変化するため、参照データ抽出部１０４が抽出する参照データも動的に変化する。

本実施の形態では、ユーザの嗜好に沿い、ユーザが視聴を希望する内容に関連する参照データを含む参照データ群が入力されることが前提となっている。したがって、例えば、「Jack」というテキストデータや音声データ、または「Jack」が映っている映像データが参照データとして抽出された場合、ユーザは映像データの中の「Jack」が出演しているシーンの視聴を希望していると解釈される。

また、「Olivia」というテキストデータや音声データ、または「Olivia」が映っている映像データが参照データとして抽出された場合、ユーザは映像データの中の「Olivia」が出演しているシーンの視聴を希望していると解釈される。

さらに、「Jack Olivia」というテキストデータや音声データ、または「Jack」と「Olivia」が共に映っている映像データが参照データとして抽出された場合、ユーザは映像データの中の「Jack」と「Olivia」が共演しているシーンの視聴を希望していると解釈される。

解析部１０５は、入力された映像データを解析し、参照データ抽出部１０４により抽出された参照データに適合するフレームを出力映像データに含めるべき画像候補として抽出するものである。

例えば、図４に示すような映像インデックスが存在し、参照データとしてテキストデータ「Olivia」が与えられたとする。この場合、解析部１０５は、映像インデックスから「Olivia」が登場するシーンが２７０フレーム目から１７９９フレーム目までということが分かるので、この区間のフレーム画像を出力映像データに含めるべき画像候補として抽出する。

さらに、図３に示すように各人物が登場するフレームが映像インデックスとして付与されていたとする。このとき、「Jack」が参照データとして与えられた場合は、解析部１０５は、実線部分の「Jack」が登場しているフレーム群を抽出する。また、「Olivia」が参照データとして与えられた場合は、解析部１０５は、破線部分の「Olivia」が登場しているフレーム群を抽出する。さらに、「Jack」と「Olivia」が参照データとして与えられた場合は、解析部１０５は、実線と破線の共通部分に相当する、「Jack」と「Olivia」が２人とも登場しているフレーム群を抽出する。

なお、解析部１０５は、映像データに映像インデックスが予め付与されているか否かによって、また、付与されている場合は付与されている映像インデックスの形式によって、処理方法を変更する。また、解析部１０５は、参照データの形式によって処理方法を変更する。参照データの形式には、映像データ形式、テキストデータ形式、および音声データ形式が含まれる。

以下に、このような解析部１０５の機能の詳細について説明する。図８は、解析部１０５な詳細な構成を示すブロック図である。図８に示すように、解析部１０５は、映像解析部１０５ａと、テキスト解析部１０５ｂと、音声解析部１０５ｃとを備えている。

映像解析部１０５ａは、映像データ形式の参照データと、映像データとして付与された映像インデックスまたは入力された映像データ自体とを照合することにより、出力映像データに含めるべき画像候補を抽出するものである。

例えば、「Olivia」の登場しているフレーム画像が参照データとして与えられ、映像データに、図４の設定項目４１２のように画像データのファイル名「Olivia.bmp」が映像インデックスとして予め付与されていたとする。この場合、映像解析部１０５ａは、参照データのフレーム画像と、映像インデックスで指定されたファイルの画像データとのマッチング処理を行う。そして、映像解析部１０５ａは、参照データのフレーム画像とファイルの画像データ間の類似度が所定の閾値以上の場合、両者がマッチすると判断し、２７０フレーム目から１７９９フレーム目までの区間のフレーム画像を、出力映像データに含めるべき画像候補として抽出することができる。映像データ間の類似度は、例えば、差分絶対値和（SAD: Sum of Absolute Difference）や累積二乗誤差（SSD: Sum of Squared Difference）、S/N比などを用いることによって算出することができる。また、オブジェクト検出（顔検出）技術やオブジェクト照合（顔照合）技術を利用することによって算出することもできる。

また、映像インデックスが付与されていない場合は、映像解析部１０５ａは、入力された映像データそのものを解析し、参照データと照合することによって、照合するフレームを画像候補として抽出する。例えば、参照データとして、「Jack」の画像や「Olivia」の画像が与えられた場合、映像解析部１０５ａは、映像データの各フレームと参照データとして与えられた画像データとのマッチング処理を行う。これにより、映像解析部１０５ａは、各出演者がいずれのフレームに登場するのかを検出することができる。

なお、このような処理で作成した映像インデックスを映像データに付与するように構成してもよい。これにより、映像データの解析結果を再利用することができる。なお、映像インデックスが付与されている場合であっても、マッチするフレームが抽出されなければ、映像インデックスが付与されていない場合と同様の処理を行うように構成してもよい。

次に、テキスト解析部１０５ｂについて説明する。テキスト解析部１０５ｂは、テキストデータ形式の参照データと、テキストデータとして付与された映像インデックスとを照合することにより、出力映像データに含めるべき画像候補を抽出するものである。

例えば、「Olivia」というテキストデータが参照データとして与えられ、映像データに、図４の設定項目４１１のようにテキストデータとして登場人物名「Olivia」が映像インデックスとして予め付与されていたとする。この場合、テキスト解析部１０５ｂは、参照データのテキストデータと、映像インデックスのテキストデータとのマッチング処理を行う。そして、テキスト解析部１０５ｂは、参照データのテキストデータと、映像インデックスのテキストデータとの類似度が所定の閾値以上の場合、両者がマッチすると判断し、２７０フレーム目から１７９９フレーム目までの区間のフレーム画像を、出力映像データに含めるべき画像候補として抽出することができる。テキストデータ間の類似度は、例えば、テキストデータ全体の照合処理もしくは部分的な照合処理を行うことによって算出することができる。また、テキストデータ間の類似度を蓄積した辞書データを利用して算出することもできる。なお、映像インデックスが付与されていない場合も、テキストデータを用いて同様の処理をテキスト解析部１０５ｂは行うことができる。

次に、音声解析部１０５ｃについて説明する。音声解析部１０５ｃは、音声データ形式の参照データと、音声データとして付与された映像インデックス、または映像データ自体に付与されている音声データとを照合することにより、出力映像データに含めるべき画像候補を抽出するものである。

例えば、「Olivia」という音声データが参照データとして与えられ、映像データに、図４の設定項目４１３のように音声データのファイル名「Olivia.wav」が映像インデックスとして予め付与されていたとする。この場合、音声解析部１０５ｃは、参照データの音声データと、映像インデックスで指定されたファイルの音声データとのマッチング処理を行う。そして、音声解析部１０５ｃは、参照データの音声データと、映像インデックスで指定されたファイルの音声データとの類似度が所定の閾値以上の場合、両者がマッチすると判断し、音声データがマッチする２７０フレーム目から１７９９フレーム目までの区間のフレーム画像を、出力映像データに含めるべき画像候補として抽出することができる。音声データ間の類似度は、例えば、音声の波形データの相関計算を行うことによって算出することができる。

また、映像インデックスが付与されていない場合は、音声解析部１０５ｃは、入力された映像データそのものに付与されている音声データを解析し、参照データと照合することによって、照合するフレームを画像候補として抽出する。ただし、このような処理では、「Olivia」と発声されているシーンが抽出できるが、必ずしも「Olivia」の登場しているシーンが抽出できるとは限らない。「Olivia」の登場しているシーンで、常に「Olivia」という音声データが付与されているとは限らないためである。

このように、参照データとして音声データが与えられた場合には、映像インデックスが付与されている場合と付与されていない場合とでは抽出される画像候補の種類が大きく異なる。そこで、いずれの方法で抽出を行うかを指定する情報を参照データとともに入力し、この情報にしたがって抽出方法を変更するように構成してもよい。

また、音声解析部１０５ｃは、「Olivia」のように登場人物名そのものを発声した音声データを参照データとして利用するのではなく、「Olivia」という登場人物の発声した音声の音声データを参照データとして、「Olivia」が発声しているシーンを抽出することもできる。この場合、音声解析部１０５ｃは、音声データの語句のマッチングではなく、パターン解析による声質のマッチングを行う。

図１に戻り、映像生成部１０６は、出力映像データに含めるフレームの属性や出力態様を決定する予め定められた生成条件（以下、出力映像データ生成条件という）にしたがって、解析部１０５によって抽出された画像候補の中から適切な画像を選択し、選択した画像の合成処理を行って出力映像データを生成するものである。

出力映像データ生成条件には、画像の選択・合成条件とレイアウト条件とが含まれる。画像の選択・合成条件には、解析部１０５によって抽出された画像候補に優先順位を付けるための基準や、選択した画像を合成する方法を設定する。

図９は、画像の選択・合成条件の一例を示す図である。画像の選択・合成条件には、例えば、画像候補の中から単一の画像を選択するための条件、画像候補の中から複数の画像を選択するための条件、および複数の画像を合成するための条件などが含まれる。

単一の画像を選択するための条件としては、フレーム占有率優先、オブジェクト数優先、盛り上がり度優先、および視聴率優先などのフレームの属性に関する条件が指定できる。

フレーム占有率優先とは、照合に用いた人物などがフレーム内にできるだけ大きく映っている画像を優先的に出力映像データに含める条件を意味する。オブジェクト数優先とは、例えば参照データで与えられた人物以外にも他の人物や物がより多く映っている画像を優先的に出力映像データに含める条件を意味する。盛り上がり度優先とは、例えばスポーツ映像の歓声の大きさなどに応じて算出された盛り上がり度がより高い画像を優先的に出力映像データに含める条件を意味する。視聴率優先とは、放送時の瞬間視聴率がより高い画像、または、瞬間視聴率が所定の閾値以上の中でより高い視聴率の画像を優先的に出力映像データに含める条件を意味する。なお、盛り上がり度、視聴率などは、映像インデックスとして予め付与された数値情報を利用することができる。

また、複数の画像を選択するための条件としては、フレーム間の類似度優先、およびフレーム間の間隔優先などのフレームの属性に関する条件が指定できる。

フレーム間の類似度優先とは、差分絶対値和（SAD: Sum of Absolute Difference）や累積二乗誤差（SSD: Sum of Squared Difference）などを用いて画像候補間の類似度を算出し、より類似度が小さい画像を優先的に出力映像データに含める条件を意味する。

類似度が小さい画像を選択する方法としては、画像の特徴量でクラスタリングする方法を適用してもよい。すなわち、例えば、３枚の画像を選択する場合に、画像候補のフレーム群を画像の特徴量（ベクトル）に従ってクラスタリングし、３つに分割された各クラスタの中心に最も近いフレームを出力映像データとして選択する方法を用いてもよい。このような処理によって、人物が様々な形で登場していることを３枚の画像から把握することができるようになる。

フレーム間の間隔優先とは、画像候補間のフレーム間の間隔がより大きい画像、すなわち、再生時間がより離れている画像を出力映像データに含める条件を意味する。なお、これとは反対に、より類似度が大きい画像を優先的に出力映像データに含める条件や、フレーム間の間隔がより小さい画像を出力映像データに含める条件を指定するように構成してもよい。

なお、画像の選択・合成条件のその他の例として、あるフレームより後ろの画像候補は出力映像データとして選択しないという条件を用いてもよい。これにより、例えばスポーツやドラマなどの映像データに対して、試合結果や結末を先に見せないような出力映像データを生成することが可能となる。

また、複数の画像を合成するための条件としては、２枚の画像を合成する条件、３枚の画像を合成する条件などのフレームの出力形態に関する条件が指定できる。さらに具体的な条件として、図９の右側に示すように、単純に並べて配置することによって合成する条件、またはシームレスに繋がるように画像処理することによって合成する条件も指定できる。なお、シームレスな画像合成条件以外にも、従来から用いられている様々な画像フィルタリング条件を合成条件として含めることができる。

ここで、画像の選択・合成条件によって画像候補から画像を選択する例について説明する。図１０は、フレーム占有率優先の条件で選択された画像の一例を示す図である。

例えば、「Jack」が登場している画像を選択する際、解析部１０５は、「Jack」が登場する全てのフレームを画像候補として抽出する。そして、映像生成部１０６は、抽出された画像候補を順位付けするために、登場人物のフレーム占有率を利用する。すなわち、映像生成部１０６は、画像候補のフレームをさらに解析することによって、それぞれのフレームで「Jack」がどの程度大きく映っているかを求め、最も大きく映っているフレームを選択する。同図の例では、「Jack」はフレームＡで最も大きく登場しているため、映像生成部１０６は、フレームＡを出力映像データとして選択する。

「Olivia」が登場している画像を選択する場合も同様の処理により、映像生成部１０６は、フレームＢを出力映像データとして選択することができる。また、「Jack」と「Olivia」が共に登場しているシーンを選択する場合は、映像生成部１０６は、両者が共に大きく映っているフレームを探索することによってフレームＣを出力映像データとして選択することができる。

次に、出力映像データ生成条件に含まれるもう１つの条件であるレイアウト条件について説明する。

レイアウト条件には、出力映像データで用いるフレームの枚数、各フレーム画像をレイアウトする際の位置座標、各フレーム画像のサイズ（スケーリング値）、表示する時間などのフレームの出力形態に関する条件が含まれる。また、レイアウト条件には、各フレーム画像の優先順位の情報も含まれ、優先順位の高い順にレイアウトの位置やサイズが割り当てられる。優先順位の最も高いフレーム画像を最も目に付きやすい位置に配置し、最も大きなサイズでレイアウトするのが一般的である。

図１１は、レイアウト条件の一例を示す図である。図１１に示すように、各レイアウト条件は、「レイアウト#-#」の形式で記述されるレイアウト名で識別される。この形式内の左の記号「#」の部分には、レイアウトに含まれる画像の枚数を表す数値が設定される。また、右の記号[#]の部分には、画像の枚数ごとのレイアウト条件の通し番号が設定される。

画像が１枚の場合には、単純に表示画面全体または一部に１つの画像を表示するだけである。画像が２枚以上の場合は、それぞれの画像の位置関係や大きさが異なる様々なレイアウト条件を指定できる。

また、レイアウト条件の各画像のフレーム内に記載された数値は、画像の優先順位を表している。映像生成部１０６は、例えば、照合した画像データのフレーム占有率の大きい順に優先順位を付与するなどの所定の基準にしたがって、選択した画像に優先順位を付与する。そして、映像生成部１０６は、付与した優先順位にしたがって、対応する優先順位が記載されたフレームに各画像をレイアウトする。

また、レイアウト条件には、「レイアウト２−３」および「レイアウト３−２」のように、アスペクト比の異なるフレームが並べられる条件も含まれる。例えば、「レイアウト２−３」が選択された場合、映像生成部１０６は、優先順位が１番目の画像はそのままスケーリング処理をして並べればよい。一方、映像生成部１０６は、優先順位が２番目の画像は横長の画像に変換した後、該当するフレームに割り振る必要がある。

横長の画像に変換する方法としては、拡大・縮小することによってアスペクト比を変換する方法、またはトリミング処理を行うことによってアスペクト比を変換する方法などのように複数の方法が存在する。このため、このようなレイアウト条件の場合は、変換方法を特定する情報をレイアウト条件に含めることができる。

さらに、トリミング処理を行う場合は、参照データで指定されたオブジェクト（例えば、「Jack」という人物）が欠けることなく全て含まれるようにトリミングするという条件を含めることもできる。

また、レイアウト条件には、「レイアウト３−３」、「レイアウト３−４」、および「レイアウト４−４」などのように複数のフレームが重なり合っている条件も含まれる。このようなレイアウト条件の場合には、重なる領域の各フレームの透過度をさらに含めることができる。例えば、「レイアウト３−３」が選択された場合、優先順位が２番目と３番目の画像が表示される領域で、それらの画像を透過度０．８の割合で表示し、優先順位が１番目の画像を透過度０．２の割合で重ねるという条件を含めることができる。

以上のようにして、映像生成部１０６は、画像の選択・合成条件に基づいたフレーム画像の選択と合成、およびレイアウト条件に基づいたフレーム画像のレイアウトを実行することにより、出力映像データを生成する。なお、画像の選択・合成条件やレイアウト条件は、予め設定された固定の条件を利用してもよいし、各ユーザがカスタマイズ可能なレイアウト条件を用いてもよい。また、インターネットなどで配布されたレイアウト情報をダウンロードして用いてもよい。

なお、より単純な方法として、映像生成部１０６が、抽出された画像候補の中から先頭のフレーム画像、中間のフレーム画像、またはランダムに選出したフレーム画像を１つ選択し、選択したフレーム画像をそのまま出力映像データとして生成するように構成してもよい。この場合、出力映像データ生成条件として、画像の選択条件では「先頭のフレーム画像」、「中間のフレーム画像」または「ランダムに選出したフレーム画像」などが指定される。また、画像の合成条件では「合成しない」が指定される。また、レイアウト条件では「画面にそのまま表示（全画面表示）」が指定される。

出力制御部１０７は、出力映像データおよび参照データ抽出部１０４によって抽出された参照データを出力部１５３に出力する処理を制御するものである。出力制御部１０７は、出力映像データと参照データとを対応づけて出力部１５３に出力する。これにより、出力映像データと参照データとを比較することができ、どのような参照データでどのような出力映像データが生成されたのかを容易に把握することができる。また、参照データ群と映像データとがどのような部分でどのように関連しているのか、どのように似ているのかを比較することができる。

出力制御部１０７は、参照データが映像データである場合は、出力映像データの表示と同様の方法で参照データを出力部１５３に表示する。また、出力制御部１０７は、参照データがテキストデータである場合には、ベクトルフォントやラスターフォントなどの方法でテキストデータを出力部１５３に表示する。また、出力制御部１０７は、参照データが音声データである場合には、図示しないスピーカーからの音声を出力する。なお、参照データと出力映像データとは、同じ出力媒体に並べて表示してもよいし、別々の出力媒体に表示してもよい。

次に、このように構成された第１の実施の形態にかかるＰＣ１００による映像出力処理について図１２および図１３を用いて説明する。図１２は、第１の実施の形態における映像出力処理の全体の流れを示すフローチャートである。また、図１３は、映像出力処理で扱われる各種データの一例を示す図である。

まず、映像入力部１０１が、映像インデックスが予め付与されている映像データ、または映像インデックスが全く付与されていない映像データを１つ以上入力する（ステップＳ１２０２）。映像入力部１０１は、例えば、図１３の下部に示すような映像データ１３０１を入力する。

次に、参照データ入力部１０２が、１つ以上の参照データ群を入力する（ステップＳ１２０２）。参照データ入力部１０２は、例えば、図１３の上部に示すような映像データによる参照データ群１３０２を入力する。

次に、抽出条件決定部１０３が、入力された参照データ群の中から１つ以上の参照データを抽出するための抽出条件を決定する（ステップＳ１２０３）。抽出条件決定部１０３は、例えば、映像データである参照データ群１３０２からフレーム１３０３のフレーム番号を抽出条件として決定する。

次に、参照データ抽出部１０４が、入力された参照データ群から、決定された抽出条件を満たす１つ以上の参照データを抽出する（ステップＳ１２０４）。図１３の例では、参照データ抽出部１０４は、フレーム１３０３を参照データとして抽出する。

次に、解析部１０５が、入力された映像データを解析し、抽出された参照データに適合するフレームを、出力映像データに含めるべき画像候補として抽出する（ステップＳ１２０５）。図１３に示すように、解析部１０５は、例えば、映像データ内で「Jack」が含まれるフレーム１３０５を画像候補として抽出する。

次に、映像生成部１０６が、出力映像データ生成条件に従って、抽出された画像候補の中から適切な画像を選択し、合成処理を行うことによって出力映像データを生成する（ステップＳ１２０６）。図１３に示すように、映像生成部１０６は、例えば、フレーム１３０５をそのまま含む出力映像データ１３０６を生成する。

次に、出力制御部１０７は、生成した出力映像データを出力部１５３に出力する（ステップＳ１２０７）。さらに、出力制御部１０７は、ステップＳ１２０４で抽出された参照データを出力部１５３に出力する（ステップＳ１２０８）。

次に、出力制御部１０７は、映像データの再生時刻を確認し（ステップＳ１２０９）、出力を終了するか否かを判断する（ステップＳ１２１０）。すなわち、出力制御部１０７は、映像データをすべて再生したか否かを判断する。なお、出力制御部１０７は、ユーザにより出力終了が指示された場合にも出力を終了すると判断する。

出力を終了しない場合は（ステップＳ１２１０：ＮＯ）、抽出条件決定部１０３は、抽出条件を更新する時刻か否かを判断する（ステップＳ１２１１）。例えば、抽出条件決定部１０３は、所定の時間を経過するごとに抽出条件を更新する時刻であると判断する。

更新時刻でない場合は（ステップＳ１２１１：ＮＯ）、再生時刻の確認処理に戻って処理を繰り返す（ステップＳ１２０９）。更新時刻である場合は（ステップＳ１２１１：ＹＥＳ）、次の抽出条件を選択して処理を繰り返す（ステップＳ１２０４）。

例えば、抽出条件決定部１０３が、所定時間の経過ごとに抽出条件を更新し、図１３のフレーム１３０４のフレーム番号を抽出条件として決定したとする。この場合、参照データ抽出部１０４は、フレーム１３０４を参照データとして抽出する。さらに、解析部１０５は、フレーム１３０４とマッチする映像データ内のフレーム１３０７を画像候補として抽出し、映像生成部１０６が、このフレーム１３０７をそのまま含む出力映像データ１３０８を生成する。

ステップＳ１２１０で、出力を終了すると判断された場合は（ステップＳ１２１０：ＹＥＳ）、映像出力処理が終了する。

このような処理を行うことによって、動的に更新される抽出条件によって抽出される参照データを動的に変化させ、さらに、それに応じて生成される出力映像データを動的に変化させることができる。このため、従来のように所定の判断基準で選出または作成された固定的な画像を出力するのではなく、動的に変化する多様な出力映像を生成して表示することが可能となる。また、上述のように、ユーザの操作に応じて抽出条件を変更させることもできるため、ユーザは、出力される映像を自由に操作することが可能となる。

次に、参照データ群として、テキストデータおよび音声データが入力された場合の映像出力処理の具体例について説明する。図１４および図１５は、それぞれテキストデータおよび音声データが参照データ群として入力された場合の、映像出力処理で扱われる各種データの一例を示す図である。ここでは、映像データが参照データ群として入力された場合の例を示す図１３と同様の映像データ１３０１が入力されたことを前提とする。

図１４は、参照データ群としてテキストデータ１４０２が入力された例を示している。映像データ１３０１のフレーム１３０５および１３０６に、映像インデックスとして、テキストデータで「Jack」および「Olivia」がそれぞれ付与されていたとすると、図１３と同様に、例えば単語１４０３に適合するフレーム１３０５が画像候補として抽出され、出力映像データ１３０６が生成される。

そして、抽出条件が単語１４０４の番号に更新されると、抽出される参照データが単語１４０４に変化し、抽出される画像候補もフレーム１３０７に変化する。さらに、生成される映像データは、出力映像データ１３０６から出力映像データ１３０８に動的に変化する。

図１５は、参照データ群として音声データ１５０２が入力された例を示している。映像データ１３０１のフレーム１３０５および１３０６に、映像インデックスとして、音声データで「Jack」および「Olivia」がそれぞれ付与されていたとすると、図１３と同様に、例えば音声１５０３に適合するフレーム１３０５が画像候補として抽出され、出力映像データ１３０６が生成される。

そして、抽出条件が音声１５０４の番号に更新されると、抽出される参照データが音声１５０４に変化し、抽出される画像候補もフレーム１３０７に変化する。さらに、生成される映像データは、出力映像データ１３０６から出力映像データ１３０８に動的に変化する。

このように、第１の実施の形態にかかる映像出力装置では、映像データに関連する参照データ群から抽出条件にしたがって抽出された参照データを用いて、映像データからフレームを抽出し、抽出したフレームを含む出力映像データを生成して表示することができる。また、抽出条件が時間経過などに応じて動的に変化するため、抽出する参照データを動的に変更し、結果として生成される出力映像データも動的に変更することができる。

これにより、ユーザの嗜好や様々な状況に応じて、入力された映像データから多様な出力映像を生成して表示することが可能となる。また、入力された映像データをすべて出力するのではなく、抽出された参照データに適合するフレームから合成した出力映像データを出力するため、ユーザが所望する映像のみを効率的に表示することができる。

また、第１の実施の形態にかかる映像出力装置を、既存の映像データを編集する用途に利用することもできる。すなわち、既存の映像データを入力し、動的に変化する参照データを入力することによって、その参照データに応じた出力映像データが随時生成されるため、生成される出力映像データを新たな映像データとして保存することができる。

また、映像データの提供者は、大容量の映像データをユーザに提供せず、小容量の参照データ群および抽出条件のみを提供するだけで、既にユーザが保有している映像データを、提供者が推奨する方法でユーザに視聴させることができる。例えば、提供者がテキストデータとしてある人物、物、および場所などのアピール文章を入力すると、ユーザはそのアピール文章に合わせて、その人物、物、および場所に関する映像を視聴することができる。また、「ある映像のこの部分に注目して視聴するとよい」という情報や、「ある映像をこのような順番で視聴するとよい」という情報などを、映像を見せるための動的な条件すなわち参照データとして提供することもできる。

なお、参照データ群および抽出条件は、ユーザ自身の入力に限らず、ユーザと一緒にいる別の人物が直接入力してもよいし、ＨＤＤやＣＤ、ＤＶＤなどの記憶媒体に格納されたものを入力してもよい。また、インターネット等で配信されたものを用いてよい。

（第２の実施の形態）
第２の実施の形態にかかる映像出力装置は、参照データを相互に対応づけた参照データ記憶部を備え、参照データ記憶部から取得した参照データを利用可能とするものである。また、適合するフレームの抽出処理や、出力映像データの生成処理の処理結果の妥当性を判定し、判定結果をフィードバックしてより適切な参照データを利用可能とするものである。

図１６は、第２の実施の形態にかかる映像出力装置としてのＰＣ１６００の構成を示すブロック図である。図１６に示すように、ＰＣ１６００は、主なハードウェア構成として、操作部１５１と、通信部１５２と、出力部１５３と、参照データ記憶部１６２１と、履歴記憶部１６２２と、を備えている。また、ＰＣ１６００は、主なソフトウェア構成として、映像入力部１０１と、参照データ入力部１０２と、抽出条件決定部１０３と、参照データ抽出部１６０４と、解析部１０５と、映像生成部１０６と、出力制御部１０７と、解析結果判定部１６０８と、生成結果判定部１６０９と、を備えている。

第２の実施の形態では、参照データ抽出部１６０４の機能と、参照データ記憶部１６２１、履歴記憶部１６２２、解析結果判定部１６０８、および生成結果判定部１６０９を追加したことと、が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかるＰＣ１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

参照データ記憶部１６２１は、参照データ入力部１０２で入力する参照データ群、または参照データ抽出部１６０４で抽出する参照データと同様の参照データ群または参照データ、およびそれらの参照データ間の関連性を示すリンク情報などを記憶するものである。

解析部１０５が、出力映像データに含めるべき画像候補の絞り込みを効率的に行い、出力映像データに含めるべき画像候補の数や質を調整するためには、参照データ群の中から抽出した参照データを他の形式に変換することや、その参照データに関連する新たな参照データを生成して利用することが望ましい。

参照データ記憶部１６２１は、このような参照データ抽出部１６０４での参照データの変換や生成に必要となるデータを提供する。なお、参照データ記憶部１６２１が存在しない場合、参照データ抽出部１６０４は、入力された参照データ群のみから適切な参照データを抽出する。

図１７は、参照データ記憶部１６２１に記憶された参照データのデータ構造の一例を示す図である。図１７に示すように、参照データ記憶部１６２１は、様々な人物、物、および場所について、名前、画像、音声、およびＵＲＬ等の付加情報を参照データとして記憶する。また、参照データ記憶部１６２１は、参照データを相互に関連付けるリンク情報を含んでいる。

例えば、参照データ群の中から参照データとして「Olivia」というテキストデータが抽出された場合、図１７に示すような参照データ記憶部１６２１にアクセスすることによって、このテキストデータに関連するデータとして、「Olivia」の画像情報や音声データを取得することができる。

なお、ある人物、物、場所に対して参照データ記憶部１６２１に記憶する映像データ、テキストデータ、および音声データ等の参照データは１つに限られず、複数の参照データを記憶するように構成することができる。

例えば、「Olivia」の画像データとして、例えば、笑っている顔画像、泣いている顔画像、および驚いている顔画像のように内容の異なる３つの画像データを記憶することができる。そして、この３枚の画像情報を参照データとして選択することができる。このような複数の映像データ、テキストデータ、音声データを様々に組み合わせることによって、参照データのバリエーションを増やすことができる。

上述のように、参照データ記憶部１６２１は、人物と人物、人物と物、物と物、物と場所などの関連性を示すリンク情報を記憶することができる。図１７では、「Olivia」という人物と「Emily」という人物とが「似ている」というリンク情報１７０１、および「Olivia」という人物と「Jack」という人物とが「共演している」というリンク情報１７０２を含む例が示されている。このようなリンク情報を利用することにより、参照データ群から抽出された参照データと関連する人物、物、および場所などの他のデータを、新たな参照データとして生成することができる。

なお、参照データ記憶部１６２１は、予め定められたデータを記憶するように構成してもよいし、外部の記憶媒体やネットワーク上のデータベースからダウンロードするように構成してもよい。さらに、参照データ入力部１０２によって入力された参照データ群や参照データを参照データ記憶部１６２１に追加するように構成してもよい。

履歴記憶部１６２２は、映像生成部１０６で過去に生成された出力映像データを記憶するものである。具体的には、履歴記憶部１６２２は、後述する生成結果判定部１６０９で出力映像データの生成に成功したと判定された時点で、出力映像データを逐次保存する。履歴記憶部１６２２が、出力映像データに含まれる映像データ中のフレームのフレーム番号を保存するように構成してもよい。また、履歴記憶部１６２２に、出力映像データを生成した際の参照データを対応づけて保存するように構成してもよい。

このようにして保存された過去の出力映像データは、生成結果判定部１６０９での判定に利用され、参照データ抽出部１６０４へのフィードバックに生かされる（後述）。

なお、参照データ記憶部１６２１および履歴記憶部１６２２は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

参照データ抽出部１６０４は、参照データ記憶部１６２１を用いることによって、効果的に参照データを抽出するものである。参照データ抽出部１６０４は、予め定められた抽出方法にしたがって新たな参照データを抽出してもよいし、解析結果判定部１６０８などの他の構成部から指定された抽出方法にしたがって新たな参照データを抽出してもよい。なお、他の構成部からの指定にしたがって参照データを抽出する方法は、解析結果判定部１６０８および生成結果判定部１６０９の説明の中で後述する。

参照データ抽出部１６０４は、例えば、単純な方法として、「テキストデータとして人物の名前が参照データとして抽出されたら、その人物の顔画像も新たな参照データとして追加する」という抽出方法や、「画像情報として人物の顔画像が参照データとして抽出されたら、その人物の他の表情の顔画像も新たな参照データとして追加する」という抽出方法を利用できる。

解析結果判定部１６０８は、解析部１０５で解析した結果を判定し、判定結果を参照データ抽出部１６０４にフィードバックするものである。例えば、解析結果判定部１６０８は、参照データの形式と映像データの形式との整合性を判定し、参照データ抽出部１６０４に対して、さらにどのような参照データを抽出すればよいかを命令する。

なお、映像データの形式とは、映像インデックスが付加されているかいないか、付加されている場合はいずれの形式のデータが付加されているかなどによって分類される形式である。

以下に、解析結果判定部１６０８による判定処理と、参照データ抽出部１６０４による新たな参照データの抽出処理の詳細について説明する。

まず、参照データの形式と映像データの形式との整合性の判定について説明する。映像データの解析で、より効率的に画像候補を抽出できるのは、映像データに映像インデックスが付加されており、その映像インデックスと参照データの情報が同じメディア（データの形式）である場合である。

例えば、図４の設定項目４１１のようにテキストデータである登場人物名「Olivia」が映像インデックスとして付与されている場合は、参照データも「Olivia」というテキストデータであることが望ましい。同様に、画像ファイル「Olivia.bmp」として映像インデックスが付与されている場合には、参照データも「Olivia」の画像情報であることが望ましい。また、音声ファイル「Olivia.wav」として映像インデックスが付与されている場合には、参照データも「Olivia」の音声データであることが望ましい。

そこで、解析結果判定部１６０８は、参照データの形式と、映像データの形式とを比較し、それぞれの形式が異なる場合は、解析結果判定部１６０８は、画像候補が適切に抽出できていないと判定し、参照データを映像データの形式に合わせて変換するように参照データ抽出部１６０４に対して命令する。

命令する方法としては、例えば参照データを変換することを表す情報と、変換先の参照データの形式とを含む命令情報を参照データ抽出部１６０４に送出する方法などを適用できる。なお、命令方法はこれに限られず、判定結果に応じて参照データ抽出部１６０４が参照データを再抽出できるものであれば、あらゆる方法を適用できる。

例えば、映像インデックスで「Olivia」が出演していることが「Olivia」画像情報として付与されているにも関わらず、参照データとして「Olivia」というテキストデータが与えられていた場合、解析結果判定部１６０８は、参照データを「Olivia」というテキストデータから「Olivia」の画像情報に変換するように参照データ抽出部１６０４に対して命令する。参照データ抽出部１６０４は、参照データ記憶部１６２１を利用することにより、参照データの形式を変換することができる。

なお、映像インデックスが存在しない場合、すなわち、映像データの内容を補足説明するテキストデータ、映像データ、および音声データが存在しない場合は、解析部１０５は、映像データのフレーム情報や映像データに付与された音声データを解析し、参照データと照合する。したがって、映像インデックスが存在せず、さらに参照データとして「Olivia」というテキストデータが与えられていた場合には、解析部１０５は、映像データを解析しても「Olivia」の出演しているフレーム群を抽出することができない。

そこで、解析結果判定部１６０８は、映像インデックスが存在しない映像データを扱う場合には、映像自体のフレーム情報や音声データを解析できるように、「Olivia」の画像情報や音声データを参照データとするように参照データ抽出部１６０４に対して命令する。

さらに別の方法として、映像データに映像インデックスが付与されていないにも関わらず参照データとしてテキストデータが与えられた場合に、解析結果判定部１６０８が、テキストデータ自体を画像情報に変換する命令を出すように構成してもよい。これにより、映像データ中に含まれているテロップ情報などのテキストデータとのマッチング処理が可能となり、そのテキストデータが表示されているフレーム画像を出力映像データに含めるべき画像候補として抽出できるようになる。

なお、このような形式変換のフィードバック処理を予め実行するように構成してもよい。この場合、例えば、解析部１０５は、最初の解析処理では画像候補を抽出せず、映像データの形式および参照データの形式のみを出力する。そして、解析結果判定部１６０８が、出力された映像データの形式および参照データの形式の整合性を判定し、判定結果を参照データ抽出部１６０４にフィードバックする。そして、参照データ抽出部１６０４がフィードバックに応じて参照データの形式変換を行い、その結果である参照データを用いて、解析部１０５が画像候補の抽出を行う。

次に、抽出された出力映像データに含めるべき画像候補の数（フレーム数）の判定について説明する。最終的に適切な画像候補の数は、後述する生成結果判定部１６０９が判定するが、画像候補が１つも見つからない場合には、解析結果判定部１６０８が妥当性を判定し、参照データ抽出部１６０４にフィードバックするのが望ましい。

例えば、図２に示すような映像データが入力され、「JackとOliviaと犬とが同時に映っている」映像データが参照データとして入力されたとする。この場合、図２の映像データには犬が映っているフレームが存在しないため、解析部１０５は、参照データに適合する画像候補を見つけることができない。

このような場合、解析結果判定部１６０８は、画像候補の数が０であることを判定し、参照データの変更を命令する。具体的には、解析結果判定部１６０８は、「Jackが映っている」映像データと、「Oliviaが映っている」映像データと、「犬が映っている」映像データと、に参照データを分割することを、参照データ抽出部１６０４に対して命令する。

なお、解析結果判定部１６０８は、このように分割した参照データによって抽出された画像候補をさらに判定する。そして、例えば、犬が映っているフレームが存在しないことが分かった場合は、解析結果判定部１６０８は、「JackとOliviaとが同時に映っている」という参照データに変更するように再度参照データ抽出部１６０４に対して命令する。

なお、上記のように「JackとOliviaと犬とが同時に映っている」という条件から「JackとOliviaとが同時に映っている」という条件に変化させることは、条件を緩和することを意味している。条件を緩和しても画像候補が見つからない場合は、さらに条件を緩和して処理を繰り返す。例えば、「Jackが映っている」、または「Jackに似ている人が映っている」などというように条件を変化させる。また、「Jack」というテキストデータに加えて、「Jack」のニックネームなどを参照データに追加するように構成してもよい。

なお、条件を緩和して抽出した画像候補を表示する場合に、緩和の度合いが大きいほど、透過度を高くし、低い輝度で表示するように構成してもよい。また、条件を緩和しても画像候補が見つからなかった場合に、例えば、一面黒色の画像、または特定の画像を表示するように構成してもよい。

また、画像候補の数が過大となるのを回避するため、解析結果判定部１６０８は、画像候補の数が所定の閾値を超えた場合に、画像候補の数を減少させる参照データに変更するように命令してもよい。

例えば、「Jack」というテキストデータが参照データとして与えられ、適合するフレームとして大量の画像候補が抽出された場合に、解析結果判定部１６０８が、「Jack」というテキストデータだけではなく「Jack」の代表的な顔画像をさらに参照データに含まるように命令するように構成してもよい。また、参照データ記憶部１６２１から「Jack」のミドルネームやファミリーネーム等を取得し、「Jack」をフルネールのテキストデータに変換して参照データとするように命令してもよい。なお、解析結果判定部１６０８では、画像候補の数が所定の閾値よりも多かったり少なかったりした場合に、上記のように参照データ自体を変更するように命令することもできるが、解析部１０５で出力映像データに含めるべき画像候補を抽出する際に使用する閾値を変更するように命令することもできる。例えば、「Jack」の顔画像を参照データとして、解析部１０５において、ある閾値を基に解析し抽出された画像候補が少なかった場合、解析結果判定部１６０８においてその閾値を小さくして参照データ抽出部１０４にフィードバックさせ、再度同じ「Jack」の顔画像を参照データとして、解析部１０５において、小さくした閾値を基に解析することによって適した数の画像候補を抽出することができる。

このように、解析結果判定部１６０８によって繰り返し参照データを抽出しなおす命令を出すことによって、最適な画像候補を抽出することが可能となる。

なお、解析結果判定部１６０８は、上記のような方法のうち予め定められたフィードバック方法にしたがって判定処理を実行してもよいし、外部から入力されたフィードバック方法にしたがって判定処理を実行してもよい。

図１６に戻り、生成結果判定部１６０９の機能について説明する。生成結果判定部１６０９は、映像生成部１０６で生成した結果を判定し、判定結果を参照データ抽出部１６０４にフィードバックするものである。具体的には、生成結果判定部１６０９は、出力映像データに含めるべき画像候補の数や質を判定し、画像候補の数や質が適していないと判定した場合に、異なる参照データを抽出するように参照データ抽出部１６０４に命令する。

解析部１０５によって抽出された画像候補の数や質が適しているかは、出力映像データ生成条件に依存する。例えば、最終的に出力映像データに含めるべき画像の数が多い場合は、より多くの画像候補が必要になる。一方、例えば、相互に類似する多数の画像候補が抽出されたとしても、画像の選択条件として「できるだけ異なる画像を選択する」という条件が与えられていた場合には、質のよい画像候補とは言えない。そこで、生成結果判定部１６０９が、出力映像データ生成条件に従って生成される出力映像データに含まれる画像候補の数や質を判定して、判定結果を参照データ抽出部１６０４にフィードバックする。

なお、生成結果判定部１６０９は、映像生成部１０６が出力映像データを生成した後に、生成された出力映像データが出力映像データ生成条件を満たすか否かを判定してもよいし、映像生成部１０６が出力映像データを生成する前に、出力映像データ生成条件を満たす出力映像データが生成できるか否かを判定するように構成してもよい。

まず、画像候補の質の判定について説明する。例えば、「Jack」という人物が様々なスタイルで登場している３枚の画像を出力映像データに含める場合、「Jack」ができるだけ異なる様子で映っている３枚の画像が画像候補として抽出されることが望ましい。ところが、映像インデックスの付与されていない映像データに対して、１枚の画像情報のみを含む参照データで画像候補を抽出したような場合には、その１枚の画像情報に照合するフレームのみが画像候補として抽出される。すなわち、相互に類似するフレームが画像候補として抽出される可能性が高い。

このような場合、生成結果判定部１６０９は、まず、抽出された画像候補間の類似度を算出する。そして、生成結果判定部１６０９は、画像の選択条件「できるだけ異なる画像を選択する」に対して事前に設定された類似度の閾値と、算出した類似度とを比較する。

そして、生成結果判定部１６０９は、算出した類似度が閾値より大きい場合、すなわち、類似する画像が選択されていると判定した場合は、参照データ記憶部１６２１に格納されている異なる２枚の画像情報を参照データとして新たに追加するように参照データ抽出部１６０４に対して命令する。これにより、「Jack」という人物が様々なスタイルで登場している３枚の画像が画像候補として抽出されるようになる。また音声データなども組み合わせることによって、画像候補のバリエーションをさらに増やすことができる。

次に、画像候補の数の判定について説明する。上述のように、画像候補の数は、解析結果判定部１６０８によっても判定されている。ところが、解析結果判定部１６０８で適切な画像候補の数であると判定した場合であっても、出力映像データを生成する段階で、画像候補が不足する場合や、画像候補が余る場合がある。

このような場合にも、生成結果判定部１６０９は、適切な画像候補の数となるように参照データ抽出部１６０４にフィードバックすることができる。例えば、レイアウト条件内の出力映像データで用いるフレームの枚数として、解析結果判定部１６０８が判定可能な範囲を超える枚数が指定されていた場合、生成結果判定部１６０９は、さらに多くの画像候補が必要であることを参照データ抽出部１６０４にフィードバックする。

また、例えば、画像の選択・合成条件として視聴率優先が指定されているにも関わらず、抽出された画像候補に、視聴率が閾値以上の画像候補が含まれていない場合、生成結果判定部１６０９は、さらに多くの画像候補が必要であることを参照データ抽出部１６０４にフィードバックする。

なお、生成結果判定部１６０９が、出力映像データ生成条件そのものを参照データに反映させる命令を出すように構成してもよい。例えば、出力映像データの左上に必ずタイトルの表示されているフレーム画像を表示させる条件や、出力映像データの右上に必ず最も瞬間視聴率の高いフレーム画像を表示させる条件が出力映像データ生成条件として指定されている場合が該当する。このような場合、最初の画像候補の抽出処理では、この条件を満たすフレーム画像が抽出できるとは限らない。そこで、生成結果判定部１６０９が、条件を満たすフレーム画像が画像候補に含まれるか否かを判定する。そして、含まれない場合は、例えば、タイトルのテキストデータを参照データに含める命令や、瞬間視聴率の最も高いフレームという数値情報を参照データに含める命令を、参照データ抽出部１６０４に送出する。

このようなフィードバック処理により、一部の画像は参照データに依存しない静的な表示を行い、残りの画像は参照データに依存した動的な表示を行うというように、より効果的な出力映像データの表示を実現することができる。

また、生成結果判定部１６０９が、出力映像データそのものを参照データに反映させる命令を出すように構成してもよい。例えば、「Jack」が出演している番組Ａが映像データとして与えられ、「Jack」が出演している別の番組Ｂが参照データ群として与えられたとする。また、番組Ａと番組Ｂとでは「Jack」の着ている服装が異なるものとする。この前提では、番組Ｂから抽出された「Jack」の映っている画像データを参照データとして、番組Ａから適合するシーンを抽出しても、服装が異なるため、「Jack」の登場しているシーンを適切に抽出できない場合がある。

このような場合、生成結果判定部１６０９は、最初の処理で抽出された番組Ａの画像候補自体を参照データに追加することを参照データ抽出部１６０４に命令する。そして、解析部１０５は、追加した参照データで再度画像候補を抽出する。これにより、同じ服装の「Jack」の画像データを参照データとして、「Jack」の登場しているシーンを抽出することができる。すなわち、より適切な画像候補を抽出することが可能となる。

次に、履歴記憶部１６２２を利用した判定について説明する。例えば、時間が経過しても参照データ抽出部１６０４で抽出される参照データがほとんど変化しないような場合、参照データの動的な変化によって出力映像データを動的に変化させるという効果が得られない。そこで、生成結果判定部１６０９は、履歴記憶部１６２２に保存されている参照データの変化を判定し、一定時間変化していないと判定した場合に、参照データを変化させることを参照データ抽出部１６０４に命令する。

例えば、「Jack」のある顔画像が参照データとして選択され、その状態が５秒間継続した場合、参照データ抽出部１６０４へのフィードバックを行い、「Jack」の別の顔画像を新たな参照データとすることができる。これにより、５秒間隔で様々な表情の「Jack」の登場シーンを見ることが可能となる。

また、生成結果判定部１６０９は、出力映像データの変化を判定し、出力映像データが一定時間変化していないと判定した場合に、参照データを変化させることを参照データ抽出部１６０４に命令する。履歴記憶部１６２２にフレーム番号によって出力映像データを保存している場合は、生成結果判定部１６０９は、フレーム番号の一致を判定することにより、出力映像データの変化を判断する。また、履歴記憶部１６２２に出力映像データそのものを保存している場合は、生成結果判定部１６０９は、出力映像データを画像解析することによって映像データ間の類似度を判定する。具体的には、生成結果判定部１６０９は、画像間のＳ／Ｎ比を算出し、算出した値によって類似度を決定する。そして、生成結果判定部１６０９は、類似度が所定の閾値より小さくなった場合に、出力映像データが変化したと判定する。なお、履歴記憶部１６２２では、上記の例とは反対に、出力映像データの急激な変化を抑制するような効果を生み出すこともできる。生成結果判定部１６０９において出力映像データの変化を判定し、１つ前に出力された出力映像データとの変化が大きいような場合に、参照データ抽出部１６０４へのフィードバックを行い、現在の参照データに１つ前に使われた参照データを追加したり、現在の参照データと１つ前に使われた参照データとの補間データを参照データにしたりするように命令することができる。例えば、１つ前では「Jack」の参照データ、現在では「Olivia」の参照データが抽出されていたとすると、急激に「Jack」の登場している映像から「Olivia」の登場している映像に変化してしまう。そのため、一定時間は、１つ前の「Jack」の参照データも追加しておくことによって、急激に「Olivia」の登場している映像に変化するのではなく、「Jack」が登場している映像からスムーズに「Olivia」が登場している映像に移り変わるような効果を生み出すことができる。

なお、生成結果判定部１６０９は、上記のような方法のうち予め定められたフィードバック方法にしたがって判定処理を実行してもよいし、外部から入力されたフィードバック方法にしたがって判定処理を実行してもよい。

次に、このように構成された第２の実施の形態にかかるＰＣ１６００による映像出力処理について図１８を用いて説明する。図１８は、第２の実施の形態における映像出力処理の全体の流れを示すフローチャートである。

ステップＳ１８０１からステップＳ１８０５までは、第１の実施の形態にかかるＰＣ１００におけるステップＳ１２０１からステップＳ１２０５までと同様の処理なので、その説明を省略する。

解析部１０５が映像データを解析して画像候補を抽出した後、解析結果判定部１６０８が、解析部１０５による解析結果を判定する（ステップＳ１８０６）。具体的には、解析結果判定部１６０８は、上述のように、参照データの形式と映像データの形式との整合性、および、抽出された出力映像データに含めるべき画像候補の数を判定する。

次に、解析結果判定部１６０８は、判定結果から、参照データを再抽出するか否かを判断する（ステップＳ１８０７）。再抽出する場合は（ステップＳ１８０７：ＹＥＳ）、解析結果判定部１６０８は、参照データ抽出部１６０４に再抽出を命令する。そして、参照データ抽出部１６０４は、命令に応じて参照データの再抽出処理を実行する（ステップＳ１８０５）。

再抽出しない場合は（ステップＳ１８０７：ＮＯ）、映像生成部１０６が、出力映像データ生成条件に従って出力映像データを生成する（ステップＳ１８０８）。

次に、生成結果判定部１６０９が、映像生成部１０６による出力映像データの生成結果を判定する（ステップＳ１８０９）。具体的には、生成結果判定部１６０９は、上述のように、出力映像データに含めるべき画像候補の数や質を判定する。

次に、生成結果判定部１６０９は、判定結果から、参照データを再抽出するか否かを判断する（ステップＳ１８１０）。再抽出する場合は（ステップＳ１８１０：ＹＥＳ）、生成結果判定部１６０９は、参照データ抽出部１６０４に再抽出を命令する。そして、参照データ抽出部１６０４は、命令に応じて参照データの再抽出処理を実行する（ステップＳ１８０５）。

ステップＳ１８１１からステップＳ１８１５までは、第１の実施の形態にかかるＰＣ１００におけるステップＳ１２０７からステップＳ１２１１までと同様の処理なので、その説明を省略する。

このように、第２の実施の形態にかかる映像出力装置では、参照データを相互に対応づけた参照データ記憶部を参照すること、および、映像データの解析結果または出力映像データの生成結果を判定することによって、より適切な参照データを利用することができる。これにより、参照データを補正し、出力映像データをより効率よく生成することができる。また、過去に出力した出力映像データの履歴を参照して出力映像データの生成結果を判定することができるため、さらに効果的な出力映像データを生成することができる。

（第３の実施の形態）
第３の実施の形態にかかる映像出力装置は、入力された表示画面のサイズや解像度などの映像データの視聴状況に関する制約条件に応じて決定した出力映像データ生成条件を用いて、出力映像データを生成するものである。

図１９は、第３の実施の形態にかかる映像出力装置としてのＰＣ１９００の構成を示すブロック図である。図１９に示すように、ＰＣ１９００は、主なハードウェア構成として、操作部１５１と、通信部１５２と、出力部１５３と、参照データ記憶部１６２１と、履歴記憶部１６２２と、対応情報記憶部１９２３と、を備えている。また、ＰＣ１９００は、主なソフトウェア構成として、映像入力部１０１と、参照データ入力部１０２と、抽出条件決定部１０３と、参照データ抽出部１６０４と、解析部１０５と、映像生成部１０６と、出力制御部１０７と、解析結果判定部１９０８と、生成結果判定部１９０９と、制約条件入力部１９１０と、生成条件取得部１９１１と、を備えている。

第３の実施の形態では、解析結果判定部１９０８および生成結果判定部１９０９の機能と、対応情報記憶部１９２３、制約条件入力部１９１０、および生成条件取得部１９１１を追加したことと、が第２の実施の形態と異なっている。その他の構成および機能は、第２の実施の形態にかかるＰＣ１６００の構成を表すブロック図である図１６と同様であるので、同一符号を付し、ここでの説明は省略する。

対応情報記憶部１９２３は、予め定められた制約条件と、出力映像データ生成条件とを対応づけた対応情報を記憶するものである。図２０は、対応情報記憶部１９２３に記憶される対応情報のデータ構造の一例を示す説明図である。図２０に示すように、対応情報は、制約条件と出力映像データ生成条件とが含まれる。

制約条件には、例えば、表示媒体に関する制約条件、映像データの種類に関する制約条件、およびユーザの状況に関する制約条件などを指定する。表示媒体に関する制約条件は、表示画面のサイズ、表示画面の解像度、表示可能な画像枚数、および表示可能な画像サイズなどを含む。映像データの種類に関する制約条件は、映像のジャンル情報などを含む。ユーザの状況に関する制約条件は、ユーザの嗜好、視聴履歴、他のユーザとの位置関係、表示媒体からユーザまでの距離、視力、および健康状態などを含む。

なお、制約条件欄には、複数の制約条件を組み合わせて指定することができる。また、制約条件はこれらに限られるものではなく、映像の視聴に関連する条件であればあらゆる条件を適用できる。

出力映像データ生成条件には、第１の実施の形態で説明した図９の画像の選択・合成条件、または図１１のレイアウト条件を指定する。出力映像データ生成条件欄には、複数の出力映像データ生成条件を組み合わせて指定することができる。

ここで、制約条件と出力映像データ生成条件との関係についてさらに説明する。制約条件は、主に出力映像データ生成条件内の画像の選択・合成条件に関わる条件と、主に出力映像データ生成条件内のレイアウト条件に関わる条件とに分けられる。

まず、画像の選択・合成条件に関わる制約条件の具体例について説明する。例えば、表示媒体に関する制約条件の１つとして、表示画面のサイズが挙げられる。すなわち、テレビなどの比較的大きなサイズの画面に表示するのか、携帯電話などの比較的小さなサイズの画面に表示するのかを表す制約条件である。

例えば、ある人物が登場しているシーンを出力映像データとして生成するとき、画面サイズが大きい場合は、大きい画像を表示することができるため、その人物自体が大きく映っている必然性はない。反対に、他の人物や他の物も映っていてその人物がどのような行動をしているのかが一瞥できるようなフレームを用いて出力映像データを生成した方がよい。このため、出力映像データ生成条件として、例えば、オブジェクト数優先を対応づけるのが望ましい。

一方、画面サイズが小さい場合は、小さい画像しか表示できないため、その人物ができるだけ大きく映り、その人物自体が一瞥できるようなフレームを用いて出力映像データを生成した方がよい。このため、出力映像データ生成条件として、例えば、フレーム占有率優先を対応づけるのが望ましい。

また、映像データの種類に関する制約条件の１つとして、映像のジャンル情報が挙げられる。例えば、スポーツやドラマなどのジャンルの映像では、試合結果や結末を先に見せることがないように出力映像データを生成する必要がある。このため、映像のジャンル情報がスポーツまたはドラマであるという制約条件に対しては、出力映像データ生成条件として、例えば、試合結果や結末の部分を選択しないという画像の選択・合成条件を対応づける。

また、ユーザの状況に関する制約条件の１つとして、ユーザの視聴履歴が挙げられる。例えば、ユーザが視聴済みであれば、上述のようなスポーツなどのジャンルの映像であっても、試合結果を含む出力映像データを生成しても問題がない。このため、映像データに対する視聴履歴が存在するという制約条件に対しては、出力映像データ生成条件として、試合結果や結末の部分を選択してもよいという画像の選択・合成条件を対応づける。

次に、レイアウト条件に関わる制約条件の具体例について説明する。例えば、表示媒体に関する制約条件の１つとして、表示画面のサイズ、表示画面の解像度、表示可能な画像枚数、および表示可能な画像サイズを組み合わせた条件が挙げられる。

例えば、４２インチのディスプレイであり、解像度が１９２０×１０８０ピクセルであり、その表示画面の中に６４０×４８０ピクセルの画像を４枚まで表示することができるという制約条件が該当する。この場合、出力映像データ生成条件として、例えば、図１１の「レイアウト４−１」から「レイアウト４−４」などのように４枚の画像を表示するレイアウト条件を対応づける。

また、映像データの種類に関する制約条件の１つとして、上記と同様に映像のジャンル情報が挙げられる。例えば、自然の風景などのジャンルの映像では、少ない画像をできるだけ大きな画像サイズで表示した方が綺麗に表示することができる。そこで、映像のジャンル情報が自然の風景であるという制約条件に対しては、出力映像データ生成条件として、例えば、図１１の「レイアウト１−１」などのようにサイズの大きい１枚の画像を表示するレイアウト条件を対応づける。

一方、例えば、バラエティ番組などのジャンルの映像では、多くの画像をできるだけ小さい画像サイズ表示した方が、番組の内容を適切に伝えることができる。そこで、映像のジャンル情報がバラエティ番組であるという制約条件に対しては、出力映像データ生成条件として、例えば、図１１の「レイアウト４−１」から「レイアウト４−４」などのように４枚の画像を表示するレイアウト条件を対応づける。

また、ユーザの状況に関する制約条件の１つとして、表示媒体からユーザまでの距離が挙げられる。例えば、ユーザがテレビから遠く離れた位置から映像を視聴している場合、６４０×４８０ピクセルの画像を４枚表示するよりも１２８０×１０２４ピクセルの画像を１枚表示する方がよい。そこで、表示媒体からユーザまでの距離が所定の閾値より大きいという制約条件に対しては、例えば、図１１の「レイアウト１−１」などのようにサイズの大きい１枚の画像を表示するレイアウト条件を対応づける。

また、ユーザの状況に関する制約条件の別の例として、複数のユーザそれぞれの嗜好および複数のユーザ間の位置関係を組み合わせた制約条件が挙げられる。例えば、２人のユーザが図２に示すような映像データをテレビで視聴しているとする。また、「Jack」の登場するシーンを見たいユーザＡがテレビに向かって右側に座っており、「Olivia」の登場するシーンを見たいユーザＢがテレビに向かって左側に座っているものとする。さらに、「Jack」に関する参照データと「Olivia」に関する参照データが与えられて関連するフレームが抽出されたものとする。

この場合、「Jack」に関する参照データで抽出されたフレームを出力映像データの右側に配置し、「Olivia」に関する参照データで抽出されたフレームを出力映像データの左側に配置するように表示するのが好ましい。そこで、ユーザＡが「Jack」の映像の視聴を希望すること、ユーザＢが「Olivia」の映像の視聴を希望すること、および、ユーザＡおよびユーザＢがそれぞれテレビに向かって右側および左側に座っているという位置関係を含む制約条件に対しては、例えば、図１１の「レイアウト４−４」などのように４枚の画像を含むレイアウト条件を対応づける。なお、このレイアウト条件は、優先順位が１番目や４番目のフレームには各ユーザが希望する登場人物が共に登場している画像を表示し、優先順位が３番目のフレームには右側に座っているユーザが希望する登場人物が登場している画像を表示し、優先順位が２番目のフレームには左側に座っているユーザが希望する登場人物が登場している画像を表示する条件をさらに含むのが望ましい。

なお対応情報記憶部１９２３は、予め定められた対応情報を記憶するように構成してもよいし、外部の記憶媒体やネットワーク上のデータベースから対応情報をダウンロードして記憶するように構成してもよい。

制約条件入力部１９１０は、上記のような予め定められた制約条件のうち、いずれかの制約条件を入力するものである。制約条件入力部１９１０は、例えば、操作部１５１からユーザが指定した制約条件を入力する。また、表示媒体に関する制約条件であれば、制約条件入力部１９１０が、ＰＣ１９００内に記憶されているシステム情報などから制約条件を入力するように構成してもよい。また、制約条件入力部１９１０は、カメラやセンサなどから検出されるユーザの状況を制約条件として入力するように構成してもよい。さらに、制約条件入力部１９１０は、通信部１５２を介して外部装置から制約条件を入力してもよい。

生成条件取得部１９１１は、入力された制約条件に対応する出力映像データ生成条件を、対応情報記憶部１９２３から取得するものである。例えば、「表示画面サイズ＝４２インチ、解像度＝１９２０×１０８０ピクセル」という制約条件が入力された場合は、生成条件取得部１９１１は、図２０に示すような対応情報記憶部１９２３から、対応する出力映像データ生成条件として「レイアウト４−１」を取得する。

また、生成条件取得部１９１１は、解析結果判定部１９０８および生成結果判定部１９０９からのフィードバックに応じて、出力映像データ生成条件を再取得する。フィードバックに応じた出力映像データ生成条件の再取得処理の詳細は後述する。

なお、図１１に示すようなレイアウト条件は、ある表示画面の解像度で表示する際の画像サイズを基準にして決められたレイアウト条件の例を表している。生成条件取得部１９１１は、このレイアウト条件に対して、入力された表示画面サイズや解像度などの制約条件に応じて、スケーリング、アスペクト比の変更、平行移動などの微調整を行うように構成してもよい。

解析結果判定部１９０８は、解析部１０５で解析した結果を判定し、判定結果を生成条件取得部１９１１にフィードバックする機能が追加された点が、第２の実施の形態の解析結果判定部１６０８と異なっている。

前述したように、出力映像データ生成条件は映像データの種類に左右されることが多い。そこで、解析結果判定部１９０８は、映像データの解析結果から、映像データのジャンル情報や、ユーザの視聴履歴を判定し、生成条件取得部１９１１に送出する。生成条件取得部１９１１は、受け取ったジャンル情報等の制約条件に応じて、対応する出力映像データ生成条件をさらに取得することができる。映像データに、ジャンル情報やユーザの視聴履歴等のような出力映像生成条件を左右するような映像インデックスが付与されている場合には、映像データを解析することによって映像インデックスからジャンル情報やユーザ視聴履歴等を抽出し、生成条件取得部１９１１に送出する。一般的に、ジャンル情報などは電子番組表データに含まれていることが多く、ユーザ視聴履歴などは番組毎の属性として装置に記憶されることが多いが、本装置ではこれらのデータを映像インデックスとして扱うことができる。

また、解析結果判定部１９０８は、参照データに関する条件の緩和や参照データの数に応じて生成条件取得部１９１１へのフィードバックを行うことができる。例えば、「JackとOliviaと犬とが同時に映っている」という参照データが、条件を緩和することにより、「Jackが映っている」という参照データに変更された場合は、解析結果判定部１９０８は、その参照データによって抽出されたフレームを、より小さくより低い輝度で表示されるように生成条件取得部１９１１にフィードバックする。

また、例えば、「Jack」に関する参照データと「Olivia」に関する参照データとが与えられた場合、それぞれの参照データで抽出された画像候補をどのように出力映像データに含めるべきかを決めなければならない。そのため、解析結果判定部１９０８は、生成条件取得部１９１１にフィードバックを行い、２種類の画像候補に対する画像の選択・合成条件、レイアウト条件を取得するように命令することができる。例えば、「Jack」に関する参照データと「Olivia」に関する参照データとが与えている場合について考える。参照データの如何に関わらず、例えば、生成条件取得部１９１１においてレイアウト条件として図１１の「レイアウト２−１」が取得されてしまうと、１枚のフレームしか大きく表示されないような出力映像が生成されてしまう。「Jack」と「Olivia」がそれぞれ登場しているフレームを大きく２枚表示して欲しいということが参照データから分かる場合、図１１の「レイアウト２−２」に変更するように命令することができる。また、参照データの如何に関わらず、例えば、生成条件取得部１９１１において画像の選択・合成条件として視聴率優先で選択するような条件が取得されてしまうと、視聴率の影響によって、「Jack」と「Olivia」がそれぞれ登場しているフレームがうまく選択されないことが考えられる（「Olivia」の登場しているフレームが極端に視聴率が低い場合など）。「Jack」と「Olivia」がそれぞれ登場しているフレームを効率よく選択するために、例えばフレーム占有率優先などに変更するよう命令することができる。

なお、解析結果判定部１９０８は、生成条件取得部１９１１のみに対してフィードバックを行うように構成してもよい。

生成結果判定部１９０９は、映像生成部１０６で解析した結果を判定し、判定結果を生成条件取得部１９１１にフィードバックする機能が追加された点が、第２の実施の形態の生成結果判定部１６０９と異なっている。

まず、生成結果判定部１９０９が、出力映像データの生成結果を判定して画像の選択・合成条件の取得にフィードバックを与える例について示す。例えば、フレーム占有率優先が画像の選択・合成条件として指定されているとき、同じようなフレーム占有率の画像候補が抽出されたため、一意に優先順位を決定できない場合がある。

このような場合に、生成結果判定部１９０９は、フレーム占有率優先に加えて、視聴率優先を画像の選択・合成条件として採用するように生成条件取得部１９１１に対して命令することができる。

次に、生成結果判定部１９０９が、出力映像データの生成結果を判定してレイアウト条件の取得にフィードバックを与える例について示す。例えば、３枚の画像を必要とするようなレイアウト条件が指定されているにも関わらず、画像候補が２枚しか抽出されない場合がある。このような場合、生成結果判定部１９０９は、２枚の画像を配置するレイアウト条件に変更するように生成条件取得部１９１１に対して命令することができる。

また、生成結果判定部１９０９は、指定されたレイアウト条件にしたがってフレームを配置すると、注目するオブジェクトが他のフレームによって隠される場合に、レイアウト条件を変更するように命令することができる。例えば、優先順位が１番目の画像の右上の部分に、その他の優先順位の画像を重ねて表示する図１１の「レイアウト３−４」のようなレイアウト条件が指定されており、参照データに適合したオブジェクト（例えば、「Jack」の顔画像）が、その部分に存在する場合などが該当する。この場合は、例えば、生成結果判定部１９０９は、レイアウト条件を「レイアウト３−３」に変更するように生成条件取得部１９１１に対して命令することができる。

なお、生成結果判定部１９０９は、生成条件取得部１９１１のみに対してフィードバックを行うように構成してもよい。一方、第２の実施の形態と同様に参照データ抽出部１６０４に対してもフィードバックする場合は、参照データ抽出部１６０４および生成条件取得部１９１１のいずれにフィードバックするかを判定するように構成してもよい。

例えば、３枚の画像を必要とするレイアウト条件が指定されているにも関わらず、画像候補が２枚しか抽出されなかったとする。この場合、参照データ抽出部１６０４へフィードバックして画像候補を増加させるように参照データを補正することもできる。一方、生成条件取得部１９１１へフィードバックし、２枚の画像候補を配置するレイアウト条件に変更することもできる。

生成結果判定部１９０９は、参照データの柔軟性と出力映像データ生成条件の柔軟性とを比較することによって、フィードバック先を決定する。参照データの柔軟性とは、関連する他の参照データを容易に追加できるか否かを表すものであり、容易に追加できる場合は、柔軟性のある参照データと判定される。

例えば、「Jack」というテキストデータの参照データが、さらに「Jack」のニックネームのテキストデータなどの他の参照データを追加することによって容易に画像候補を増加させることができる場合、この参照データは柔軟性のある参照データである。

一方、出力映像データ生成条件の柔軟性とは、他の出力映像データ生成条件へ容易に変更できるか否かを表すものであり、容易に変更できる場合は、柔軟性のある参照データと判定される。

例えば、入力された制約条件に対して、３枚の画像を用いるレイアウト条件および２枚の画像を用いるレイアウト条件のいずれも採用可能な場合は、この制約条件に対応する出力映像データ生成条件は、柔軟性のある出力映像データ生成条件である。

次に、履歴記憶部１６２２を利用した判定について説明する。まず、履歴記憶部１６２２を参照して、画像の選択・合成条件の変更をフィードバックする例について説明する。

例えば、動的に抽出条件が更新されているにも関わらず、常に「Jack」に関する参照データしか抽出されず、３秒間同一の出力映像データが出力されたとする。このような場合、生成結果判定部１９０９は、まず、履歴記憶部１６２２に保存されている出力映像データの変化を判定し、一定時間変化していないと判定する。そして、生成結果判定部１９０９は、例えば「過去の出力映像データで利用したフレームの次のフレームを選択する」という画像の選択・合成条件に変更することを生成条件取得部１９１１に命令する。

これにより、同じような参照データの入力が続く場合には、３秒間だけ出力映像データが静止画として表示され、それ以降はその静止画から始まる動画が表示されるように制御することができる。

また、例えば「Jack」と「Olivia」といった参照データが継続して与えられ、２枚の画像をシームレスに合成するような形で３０秒間同じ表示が継続したとする。このような場合、生成結果判定部１９０９は、まず、履歴記憶部１６２２に保存されている出力映像データの変化を判定し、一定時間変化していないと判定する。そして、生成結果判定部１９０９は、例えば「参照データに関わらず代表的な登場物を含む画像を選択し、３枚の画像のシームレスな合成に移行する」という画像の選択・合成条件に変更することを生成条件取得部１９１１に命令する。

これにより、３枚の画像をシームレスに合成する画像の選択・合成条件に移行し、代表的な登場物として例えば犬に関する参照データを追加するように参照データ抽出部１６０４へフィードバックすることができる。そして、追加された参照データによって犬が登場する画像が抽出され、３枚の画像の１つに合成される。

なお、この場合、１／３０秒間隔や１／６０秒間隔といった短い間隔で画像の合成条件を更新し、「Jack」と「Olivia」が登場している画像が徐々に合成画像の上側に移動し、犬が登場している画像が徐々に合成画像の下側に挿入されるように表示させてもよい。これにより、２枚の合成から３枚の合成にシームレスに移行しているような視覚効果を生じさせることができる。

次に、履歴記憶部１６２２を参照して、レイアウト条件の変更をフィードバックする例について説明する。

例えば、「Jack」のある顔画像が参照データとして与えられ、図１１の「レイアウト３−３」が指定されていることにより、「Jack」の登場する３枚の画像が表示される状態が１分間継続したとする。このような場合、生成結果判定部１９０９は、まず、履歴記憶部１６２２に保存されている出力映像データの変化を判定し、一定時間変化していないと判定する。そして、生成結果判定部１９０９は、例えば「レイアウト４−３」というレイアウト条件に変更することを生成条件取得部１９１１に命令する。

これにより、ユーザに対する出力映像データの見せ方を動的に変化させることができる。この場合、１／３０秒間隔や１／６０秒間隔といった短い間隔でレイアウト条件を更新し、最初に優先順位が２番目と３番目の画像を徐々に表示画面の上側に移動させ、次に優先順位が４番目の新たな画像を表示画面の下側にフェードインするように表示させてもよい。これにより、「レイアウト３−３」から「レイアウト４−３」にシームレスに移行しているような視覚効果を生じさせることができる。上記に示した例は、履歴記憶部１６２２において出力映像データがなかなか変化しない場合にいかに効果的に変化させるかというものであったが、逆に、出力映像データの急激な変化に対して、それに応じた生成条件取得部１９１１へのフィードバックも考えられる。例えば、出力映像データが急激に変化し、画像の選択条件も「フレーム占有率優先」から「オブジェクト数優先」に変化したとする。そのような場合、画像の選択条件を「フレーム占有率優先」に戻すように命令することによって、例えば、表示される人物は変化するものの、その人物のフレーム占有率が大きいままで表示されるため、映像の雰囲気の変化を最小限に抑えられるという効果を生み出すことができる。また、出力映像データが急激に変化したもののレイアウト条件が全く変化していないような場合、レイアウト条件を変更するように命令することによって、例えば、表示される人物の変化に応じて、レイアウトも変化するため、変化するタイミングを効率良く把握できるという効果を生み出すことができる。

次に、このように構成された第３の実施の形態にかかるＰＣ１９００による映像出力処理について図２１を用いて説明する。図２１は、第３の実施の形態における映像出力処理の全体の流れを示すフローチャートである。

ステップＳ２１０１からステップＳ２１０４までは、第２の実施の形態にかかるＰＣ１６００におけるステップＳ１８０１からステップＳ１８０４までと同様の処理なので、その説明を省略する。

参照データの抽出後、制約条件入力部１９１０は、表示画面サイズや解像度などの制約条件を入力する（ステップＳ２１０５）。次に、生成条件取得部１９１１は、入力された制約条件に対応する出力映像データ生成条件を、対応情報記憶部１９２３から取得する（ステップＳ２１０６）。

ステップＳ２１０７の映像データ解析処理は、第２の実施の形態にかかるＰＣ１６００におけるステップＳ１８０６と同様の処理なので、その説明を省略する。

次に、解析結果判定部１９０８が、解析部１０５による解析結果を判定する（ステップＳ２１０８）。解析結果判定部１９０８は、まず、第２の実施の形態と同様に、参照データの形式と映像データの形式との整合性、および、抽出された出力映像データに含めるべき画像候補の数を判定する。さらに、解析結果判定部１９０８は、上述のように、映像データのジャンル情報などを判定する。

次に、解析結果判定部１９０８は、判定結果から、参照データを再抽出するか否かを判断する（ステップＳ２１０９）。再抽出する場合は（ステップＳ２１０９：ＹＥＳ）、解析結果判定部１９０８は、参照データ抽出部１６０４に再抽出を命令する。

再抽出しない場合は（ステップＳ２１０９：ＮＯ）、解析結果判定部１９０８は、判定結果から、出力映像データ生成条件を再取得するか否かを判断する（ステップＳ２１１０）。再取得する場合は（ステップＳ２１１０：ＹＥＳ）、解析結果判定部１９０８は、生成条件取得部１９１１に再取得を命令する。そして、生成条件取得部１９１１は、命令に応じて出力映像データ生成条件の再取得処理を実行する（ステップＳ２１０６）。

再取得しない場合は（ステップＳ２１１０：ＮＯ）、映像生成部１０６が、出力映像データ生成条件に従って出力映像データを生成する（ステップＳ２１１１）。

次に、生成結果判定部１９０９が、映像生成部１０６による出力映像データの生成結果を判定する（ステップＳ２１１２）。生成結果判定部１９０９は、まず、第２の実施の形態と同様に、出力映像データに含めるべき画像候補の数や質を判定する。さらに、生成結果判定部１９０９は、上述のように、出力映像データに含めるべき画像候補が出力映像データ生成条件を満たすか否かを判定する。

次に、生成結果判定部１９０９は、判定結果から、参照データを再抽出するか否かを判断する（ステップＳ２１１３）。再抽出する場合は（ステップＳ２１１３：ＹＥＳ）、生成結果判定部１９０９は、参照データ抽出部１６０４に再抽出を命令する。

再抽出しない場合は（ステップＳ２１１３：ＮＯ）、生成結果判定部１９０９は、判定結果から、出力映像データ生成条件を再取得するか否かを判断する（ステップＳ２１１４）。再取得する場合は（ステップＳ２１１４：ＹＥＳ）、生成結果判定部１９０９は、生成条件取得部１９１１に再取得を命令する。そして、生成条件取得部１９１１は、命令に応じて出力映像データ生成条件の再取得処理を実行する（ステップＳ２１０６）。

ステップＳ２１１５からステップＳ２１１９までは、第２の実施の形態にかかるＰＣ１６００におけるステップＳ１８１１からステップＳ１８１５までと同様の処理なので、その説明を省略する。

このように、第３の実施の形態にかかる映像出力装置では、入力された制約条件にしたがって、複数の出力映像データ生成条件の中から適切な出力映像データ生成条件を選択することができる。これにより、様々な画像の選択・合成条件、レイアウト条件のもとで出力映像データを生成することができる。

（変形例）
なお、上記のように、第３の実施の形態では、制約条件を入力し、入力された制約条件に応じて出力映像データ生成条件を選択していた。これに対し、出力映像データ生成条件を直接入力し、入力された出力映像データ生成条件を用いて出力映像データを生成するように構成してもよい。

図２２は、このように構成された第３の実施の形態の変形例にかかるＰＣ２２００の構成を示すブロック図である。この変形例では、制約条件入力部１９１０、生成条件取得部１９１１、および対応情報記憶部１９２３が削除され、代わりに生成条件入力部２２１２が追加されている。

生成条件入力部２２１２は、出力映像データ生成条件を入力するものである。映像生成部１０６は、生成条件入力部２２１２によって入力された出力映像データ生成条件にしたがって出力映像データを生成する。

このような構成により、ユーザの嗜好に応じて、インターネット上で配信されている情報等を参照して多様な出力映像データ生成条件を入力することができる。

なお、本変形例の生成条件入力部２２１２を、第３の実施の形態の制約条件入力部１９１０、生成条件取得部１９１１、および対応情報記憶部１９２３とともに利用するように構成することもできる。

すなわち、生成条件入力部２２１２によって、直接的に出力映像データ生成条件を入力する方法と、制約条件入力部１９１０によって、間接的に出力映像データ生成条件を指定する方法とを併用するように構成してもよい。

この場合、例えば、生成条件入力部２２１２からの入力を優先し、生成条件入力部２２１２から入力されていない条件についてのみ、制約条件入力部１９１０からの入力にしたがって出力映像データ生成条件を選択する。

（第４の実施の形態）
第４の実施の形態では、上記のような映像出力装置を、商品を購入する処理を行う購入システムに適用した例について説明する。第４の実施の形態にかかる購入システムは、商品提供者が提供した商品に関する映像データを表示し、表示と連動して商品の購入処理を行い、商品購入に伴う課金を行うものである。

図２３は、第４の実施の形態にかかる購入システム１０の構成を示すブロック図である。図２３に示すように、購入システム１０は、ＰＣ２３００と、商品提供サーバ２４００と、課金サーバ２５００とが、インターネットなどのネットワーク２６００で接続された構成となっている。

商品提供サーバ２４００は、商品提供者が提供する商品に関する情報を管理する装置であり、商品に関する映像データを提供する機能を備えている。なお、商品提供サーバ２４００が、商品の購入処理を実行するＷＥＢサイトなどを備えるように構成してもよい。

課金サーバ２５００は、ＰＣ２３００のユーザが商品提供サーバ２４００から提供された映像データを視聴し、視聴に伴って商品を購入した場合に、商品提供者に対して課金処理を行う装置である。課金サーバ２５００は、例えば、商品に関する映像データの視聴に伴って購入したことを示す情報や購入額を含む購入情報をＰＣ２３００から受信し、購入情報を参照して、購入額の所定割合を商品提供者に課金する。

ＰＣ２３００は、商品提供サーバ２４００から提供された映像データを表示し、表示と連動して商品の購入処理を実行可能とするものである。

図２３に示すように、ＰＣ２３００は、主なハードウェア構成として、操作部１５１と、通信部１５２と、出力部１５３と、参照データ記憶部１６２１と、履歴記憶部１６２２と、対応情報記憶部１９２３と、を備えている。また、ＰＣ２３００は、主なソフトウェア構成として、映像入力部１０１と、参照データ入力部１０２と、抽出条件決定部１０３と、参照データ抽出部１６０４と、解析部１０５と、映像生成部１０６と、出力制御部１０７と、解析結果判定部１９０８と、生成結果判定部１９０９と、制約条件入力部１９１０と、生成条件取得部１９１１と、購入処理部２３１３と、課金処理部２３１４と、を備えている。

第４の実施の形態では、購入処理部２３１３および課金処理部２３１４を追加したことが第３の実施の形態と異なっている。その他の構成および機能は、第３の実施の形態にかかるＰＣ１９００の構成を表すブロック図である図１９と同様であるので、同一符号を付し、ここでの説明は省略する。

購入処理部２３１３は、出力映像データとして表示された商品の購入に関する処理を実行するものである。例えば、購入処理部２３１３は、操作部１５１によってユーザが商品の購入を選択した場合に、選択した商品の個数などの情報を、商品提供サーバ２４００に送信する。購入処理部２３１３は、購入処理の中で、購入に必要なユーザ情報などをユーザに入力させるように構成してもよい。商品提供サーバ２４００が購入処理を実行するＷＥＢサイトを備える場合は、購入処理部２３１３は、当該ＷＥＢサイトを表示してユーザが購入手続きを実行するように構成する。

課金処理部２３１４は、購入処理部２３１３により購入された商品の個数、購入額などを含む購入情報を課金サーバ２５００に送信するものである。

ＰＣ２３００の提供者は、例えば、ユーザがＰＣ２３００の購入処理部２３１３を用いて商品を購入した場合、ＰＣ２３００の提供者に対し、商品購入誘導への対価としてマージンを支払うという内容で、商品提供者との間で予め契約を結ぶ。課金処理部２３１４は、このような契約にしたがって商品提供者に課金するための情報を課金サーバ２５００に送信する。そして、課金サーバ２５００は、この情報にしたがって商品提供者に対して課金を行う。

なお、本実施の形態の映像入力部１０１は、商品提供者が提供する商品のコマーシャル映像などの商品に関する映像データを入力する。商品提供者には、ＷＥＢ販売または通信販売サイトの運営者などが含まれる。また、本実施の形態の参照データ入力部１０２は、商品提供者が提供する商品のアピール文章などを参照データ群として入力する。また、本実施の形態の抽出条件決定部１０３は、例えば、アピール文章内の注目するテキストなどを指定するための抽出条件を入力する。

次に、このように構成された第４の実施の形態にかかるＰＣ１６００による商品映像表示・購入処理について図２４を用いて説明する。図２４は、第４の実施の形態における映像出力処理の全体の流れを示すフローチャートである。

まず、ＰＣ２３００の通信部１５２は、商品提供サーバ２４００から商品の映像データ、参照データ群、および抽出条件を受信する（ステップＳ２４０１）。次に、受信した映像データ、参照データ群、および抽出条件を用いて映像出力処理が実行される（ステップＳ２４０２）。映像出力処理の内容は、第３の実施の形態の映像出力処理を示す図２１と同様である。

次に、購入処理部２３１３は、ユーザの指示に応じて、表示された出力映像データに関連する商品の購入処理を実行する（ステップＳ２４０３）。商品を購入した場合は、課金処理部２３１４が、購入した商品に関する購入情報を課金サーバに送信し（ステップＳ２４０４）、商品映像表示・購入処理を終了する。

各ユーザの嗜好は異なるため、商品提供者はあらゆるユーザに受け入れられるコマーシャル映像を制作することが難しい。第４の実施の形態の映像出力装置を用いれば、ユーザの嗜好を示すデータに応じて映像を表示することができるため、各ユーザの嗜好に合わせたコマーシャル映像を表示することができる。そのため、商品提供者は、従来よりも効果的に商品をアピールすることができる。

また、ユーザは、操作部を操作することによって自由に参照データを動的に変化させることができるため、商品の特徴を素早く把握することができ、表示されている映像が示している商品を気軽に購入することができる。

次に、第１〜第４の実施の形態にかかる映像出力装置のハードウェア構成について図２５を用いて説明する。図２５は、第１〜第４の実施の形態にかかる映像出力装置のハードウェア構成を示す説明図である。

第１〜第４の実施の形態にかかる映像出力装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。

第１〜第４の実施の形態にかかる映像出力装置で実行される映像出力プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、第１〜第４の実施の形態にかかる映像出力装置で実行される映像出力プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第４の実施の形態にかかる映像出力装置で実行される映像出力プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、第１〜第４の実施の形態の映像出力プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１〜第４の実施の形態にかかる映像出力装置で実行される映像出力プログラムは、上述した各部（映像入力部、参照データ入力部、抽出条件決定部、参照データ抽出部、解析部、映像生成部、出力制御部、解析結果判定部、生成結果判定部、制約条件入力部、生成条件取得部、購入処理部、課金処理部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１（プロセッサ）が上記記憶媒体から映像出力プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

第１の実施の形態にかかる映像出力装置の構成を示すブロック図である。入力される映像データの一例を示す図である。映像インデックスの一例を示す模式図である。映像インデックスの記述例を示す図である。映像データである参照データ群の例を示す図である。テキストデータである参照データ群の例を示す図である。音声データである参照データ群の例を示す図である。解析部な詳細な構成を示すブロック図である。画像の選択・合成条件の一例を示す図である。フレーム占有率優先の条件で選択された画像の一例を示す図である。レイアウト条件の一例を示す図である。第１の実施の形態における映像出力処理の全体の流れを示すフローチャートである。映像出力処理で扱われる各種データの一例を示す図である。映像出力処理で扱われる各種データの一例を示す図である。映像出力処理で扱われる各種データの一例を示す図である。第２の実施の形態にかかる映像出力装置の構成を示すブロック図である。参照データ記憶部に記憶された参照データのデータ構造の一例を示す図である。第２の実施の形態における映像出力処理の全体の流れを示すフローチャートである。第３の実施の形態にかかる映像出力装置の構成を示すブロック図である。対応情報記憶部に記憶される対応情報のデータ構造の一例を示す説明図である。第３の実施の形態における映像出力処理の全体の流れを示すフローチャートである。第３の実施の形態の変形例にかかる映像出力処理の構成を示すブロック図である。第４の実施の形態にかかる購入システムの構成を示すブロック図である。第４の実施の形態における映像出力処理の全体の流れを示すフローチャートである。第１〜第４の実施の形態にかかる映像出力装置のハードウェア構成を示す説明図である。

符号の説明

１０購入システム
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１０１映像入力部
１０２参照データ入力部
１０３抽出条件決定部
１０４参照データ抽出部
１０５解析部
１０５ａ映像解析部
１０５ｂテキスト解析部
１０５ｃ音声解析部
１０６映像生成部
１０７出力制御部
１５１操作部
１５２通信部
１５３出力部
４０１、４０２、４１１、４１２、４１３設定項目
６０１、６０２テキスト
７０１、７０２音声
１３０１映像データ
１３０２参照データ群
１３０３、１３０４、１３０５、１３０７フレーム
１３０６、１３０８出力映像データ
１４０２テキストデータ
１４０３、１４０４単語
１５０２音声データ
１５０３、１５０４音声
１６０４参照データ抽出部
１６０８解析結果判定部
１６０９生成結果判定部
１６２１参照データ記憶部
１６２２履歴記憶部
１７０１、１７０２リンク情報
１９０８解析結果判定部
１９０９生成結果判定部
１９１０制約条件入力部
１９１１生成条件取得部
１９２３対応情報記憶部
２２１２生成条件入力部
２３１３購入処理部
２３１４課金処理部
２４００商品提供サーバ
２５００課金サーバ
２６００ネットワーク

Claims

入力された映像データから抽出されたフレームを含む出力映像データを生成して出力する映像出力装置であって、
映像データを入力する映像入力部と、
入力された映像データに関連する画像データ、テキストデータ、および音声データの少なくとも１つである複数の参照データを入力する参照データ入力部と、
予め定められた規則に基づいて、複数の前記参照データの識別情報うち、前記出力映像データの出力要求を受付けたときからの経過時間を含む動的に変化する予め定められた変動情報に応じた前記識別情報を決定する決定部と、
複数の前記参照データから、決定された前記識別情報の前記参照データを抽出する参照データ抽出部と、
入力された映像データ内のフレームと前記参照データとして抽出された前記画像データとの類似度、前記フレームに前記メタデータとして付与されたテキストデータと前記参照データとして抽出されたテキストデータとの類似度、および前記フレームに付与された音声データと前記参照データとして抽出された前記音声データとの類似度の少なくとも１つを算出し、算出した類似度が予め定められた第１閾値より大きい前記フレームまたは算出した類似度が前記第１閾値より大きい前記音声データが付与された前記フレームを抽出するフレーム抽出部と、
抽出された前記フレームを含む前記出力映像データを生成する映像生成部と、
生成された前記出力映像データを出力する出力部と、
を備えたことを特徴とする映像出力装置。
前記フレームに付与された前記メタデータおよび抽出された前記参照データのそれぞれが、画像データ、テキストデータ、または音声データのうちいずれのデータ形式であるかを判定し、前記メタデータのデータ形式と前記参照データのデータ形式とが一致しているか否かを判定する解析結果判定部をさらに備え、
前記参照データ抽出部は、さらに、前記メタデータのデータ形式と前記参照データのデータ形式とが一致していない場合に、データ形式が前記メタデータと一致する前記参照データを抽出すること、
を特徴とする請求項１に記載の映像出力装置。
抽出された前記フレームの個数が予め定められた範囲内であるか否かを判定する解析結果判定部をさらに備え、
前記参照データ抽出部は、さらに、前記個数が前記範囲内でない場合に、決定された前記識別情報の前記参照データと異なる前記参照データを抽出すること、
を特徴とする請求項１に記載の映像出力装置。
前記映像生成部は、前記出力映像データに含める前記フレームの属性および出力態様を規定する予め定められた生成条件に基づいて、抽出された前記フレームから前記生成条件に含まれる前記属性の前記フレームを選択し、選択した前記フレームを前記生成条件に含まれる前記出力態様で出力する前記出力映像データを生成すること、
を特徴とする請求項１に記載の映像出力装置。
抽出された前記フレームに前記属性の前記フレームが含まれるか否か、または／および、抽出された前記フレームに前記出力態様で出力しうる前記フレームが含まれるか否かを判定する生成結果判定部をさらに備え、
前記参照データ抽出部は、さらに、抽出された前記フレームに前記属性の前記フレームが含まれない場合、または／および、抽出された前記フレームに前記出力態様で出力しうる前記フレームが含まれない場合に、決定された前記識別情報の前記参照データと異なる前記参照データを抽出すること、
を特徴とする請求項４に記載の映像出力装置。
前記フレーム抽出部は、さらに、入力された映像データ内のフレームと前記出力映像データに含まれるフレームとの類似度、または前記フレームに付与された音声データと前記出力映像データに含まれるフレームに付与された音声データとの類似度を算出し、算出した類似度が前記第１閾値より大きい前記フレームまたは算出した類似度が前記第１閾値より大きい前記音声データが付与された前記フレームを抽出すること、
を特徴とする請求項１に記載の映像出力装置。
生成された前記出力映像データを随時記憶する履歴記憶部と、
前記映像生成部によって新たに生成された前記出力映像データと前記履歴記憶部に記憶された前記出力映像データとの類似度を算出し、算出した類似度が予め定められた第２閾値より大きいか否かを判定する生成結果判定部と、をさらに備え、
前記参照データ抽出部は、さらに、算出された類似度が前記第２閾値との大小関係に応じて、決定された前記識別情報の前記参照データと異なる前記参照データを抽出すること、
を特徴とする請求項１に記載の映像出力装置。
前記参照データと、前記参照データに関連する他の参照データと対応づけて記憶する参照データ記憶部をさらに備え、
前記参照データ抽出部は、さらに、抽出した前記参照データに関連する前記他の参照データを前記参照データ記憶部から取得すること、
を特徴とする請求項１に記載の映像出力装置。
前記出力映像データに含める前記フレームの属性および出力態様を規定する予め定められた生成条件と、前記出力映像データの視聴状況に関する予め定められた制約条件とを対応づけた対応情報を記憶する対応情報記憶部と、
前記制約条件を入力する制約条件入力部と、
入力された前記制約条件に対応する前記生成条件を前記対応情報記憶部から取得する生成条件取得部と、をさらに備え、
前記映像生成部は、抽出された前記フレームのうち、取得された前記生成条件に含まれる前記属性の前記フレームを選択し、選択した前記フレームを取得された前記生成条件に含まれる前記出力態様で出力する前記出力映像データを生成すること、
を特徴とする請求項１に記載の映像出力装置。
抽出された前記フレームを解析して前記フレームに関連する前記制約条件を取得する解析結果判定部をさらに備え、
前記生成条件取得部は、さらに、取得された前記制約条件に対応する前記生成条件を前記対応情報記憶部から取得すること、
を特徴とする請求項９に記載の映像出力装置。
抽出された前記フレームに取得された前記生成条件に含まれる前記属性の前記フレームが含まれるか否か、または／および、抽出された前記フレームに取得された前記生成条件に含まれる前記出力態様で出力しうる前記フレームが含まれるか否かを判定する生成結果判定部をさらに備え、
前記生成条件取得部は、さらに、抽出された前記フレームに前記属性の前記フレームが含まれない場合、または／および、抽出された前記フレームに前記出力態様で出力しうる前記フレームが含まれない場合に、取得した前記生成条件と異なる前記生成条件をさらに前記対応情報記憶部から取得すること、
を特徴とする請求項９に記載の映像出力装置。
生成された前記出力映像データを随時記憶する履歴記憶部と、
前記映像生成部によって新たに生成された前記出力映像データと前記履歴記憶部に記憶された前記出力映像データとの類似度を算出し、算出した類似度が予め定められた第３閾値より大きいか否かを判定する生成結果判定部と、をさらに備え、
前記生成条件取得部は、さらに、算出された類似度が前記第３閾値との大小関係に応じて、取得された前記制約条件と異なる前記制約条件に対応する前記生成条件を前記対応情報記憶部から取得すること、
を特徴とする請求項９に記載の映像出力装置。
前記出力映像データに含める前記フレームの属性および出力態様を規定する予め定められた生成条件を入力する生成条件入力部をさらに備え、
前記映像生成部は、抽出された前記フレームから、入力された前記生成条件に含まれる前記属性の前記フレームを選択し、選択した前記フレームを入力された前記生成条件に含まれる前記出力態様で出力する前記出力映像データを生成すること、
を特徴とする請求項１に記載の映像出力装置。
前記出力部は、さらに、抽出された前記参照データと、生成された前記出力映像データとを対応づけて出力すること、
を特徴とする請求項１に記載の映像出力装置。
前記出力部は、さらに、前記識別情報を指定可能に表示し、
表示された前記識別情報から少なくとも１つの前記識別情報を指定するための操作部をさらに備え、
前記決定部は、前記操作部によって指定された前記識別情報を、抽出すべき前記参照データの前記識別情報として決定すること、
を特徴とする請求項１に記載の映像出力装置。
前記映像出力装置は、商品に関する映像データを提供する提供装置と、購入した前記商品に関する購入情報に応じて前記商品の提供者に対する課金処理を実行する課金装置と、にネットワークを介して接続され、
前記映像入力部は、商品に関する映像データを前記提供装置から入力し、
前記出力部によって出力された前記出力映像データに応じて指定された前記商品の購入に関する処理を実行する購入処理部と、
前記購入処理部で購入した前記商品に関する前記購入情報を前記課金装置に送信する課金処理部と、をさらに備えたこと、
を特徴とする請求項１に記載の映像出力装置。
入力された映像データから抽出されたフレームを含む出力映像データを生成して出力する映像出力装置で行われる映像出力方法であって、
映像入力部が、映像データを入力する映像入力ステップと、
参照データ入力部が、入力された映像データに関連する画像データ、テキストデータ、および音声データの少なくとも１つである複数の参照データを入力する参照データ入力ステップと、
決定部が、予め定められた規則に基づいて、複数の前記参照データの識別情報うち、前記出力映像データの出力要求を受付けたときからの経過時間を含む動的に変化する予め定められた変動情報に応じた前記識別情報を決定する決定ステップと、
参照データ抽出部が、複数の前記参照データから、決定された前記識別情報の前記参照データを抽出する参照データ抽出ステップと、
フレーム抽出部が、入力された映像データ内のフレームと前記参照データとして抽出された前記画像データとの類似度、前記フレームに前記メタデータとして付与されたテキストデータと前記参照データとして抽出されたテキストデータとの類似度、および前記フレームに付与された音声データと前記参照データとして抽出された前記音声データとの類似度の少なくとも１つを算出し、算出した類似度が予め定められた第１閾値より大きい前記フレームまたは算出した類似度が前記第１閾値より大きい前記音声データが付与された前記フレームを抽出するフレーム抽出ステップと、
映像生成部が、抽出された前記フレームを含む前記出力映像データを生成する映像生成ステップと、
出力部が、生成された前記出力映像データを出力する出力ステップと、
を備えたことを特徴とする映像出力方法。
商品に関する映像データを提供する提供装置と、購入した前記商品に関する購入情報に応じて前記商品の提供者に対する課金処理を実行する課金装置と、前記提供装置および前記課金装置にネットワークを介して接続され、入力された映像データから抽出されたフレームを含む出力映像データを生成して出力する映像出力装置と、を備えた購入システムであって、
前記映像出力装置は、
映像データを入力する映像入力部と、
入力された映像データに関連する画像データ、テキストデータ、および音声データの少なくとも１つである複数の参照データを入力する参照データ入力部と、
予め定められた規則に基づいて、複数の前記参照データの識別情報うち、前記出力映像データの出力要求を受付けたときからの経過時間を含む動的に変化する予め定められた変動情報に応じた前記識別情報を決定する決定部と、
複数の前記参照データから、決定された前記識別情報の前記参照データを抽出する参照データ抽出部と、
入力された映像データ内のフレームと前記参照データとして抽出された前記画像データとの類似度、前記フレームに前記メタデータとして付与されたテキストデータと前記参照データとして抽出されたテキストデータとの類似度、および前記フレームに付与された音声データと前記参照データとして抽出された前記音声データとの類似度の少なくとも１つを算出し、算出した類似度が予め定められた第１閾値より大きい前記フレームまたは算出した類似度が前記第１閾値より大きい前記音声データが付与された前記フレームを抽出するフレーム抽出部と、
抽出された前記フレームを含む前記出力映像データを生成する映像生成部と、
生成された前記出力映像データを出力する出力部と、
前記出力部によって出力された前記出力映像データに応じて指定された前記商品の購入に関する処理を実行する購入処理部と、
前記購入処理部で購入した前記商品に関する前記購入情報を前記課金装置に送信する課金処理部と、
を備えたことを特徴とする購入システム。