JP6624958B2

JP6624958B2 - 通信装置、通信システム、通信制御方法およびコンピュータプログラム

Info

Publication number: JP6624958B2
Application number: JP2016019295A
Authority: JP
Inventors: 祐樹藤森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2019-12-25
Anticipated expiration: 2036-02-03
Also published as: JP2017139628A; EP3412030A1; US20190045269A1; KR102087533B1; CN108605149A; KR20180105690A; US20210136455A1; WO2017135133A1

Description

本発明は、通信装置、通信システム、通信制御方法およびコンピュータプログラムに関し、特に映像データのストリーミング技術に関する。

近年、音声データや映像データ等のコンテンツをストリーミング配信する配信システムが提供されている。このような配信システムにより、ユーザはユーザが保持する端末装置を介して、ライブ映像等の所望のコンテンツをリアルタイムで楽しむことができる。
スマートフォンやタブレット型パソコンのような端末の普及により、様々な端末装置を用いていつでもどこでもストリーミングコンテンツを楽しみたいという需要が高まっている。このような要求を実現するため、端末装置の能力や端末装置が置かれる通信状況に応じて、取得するストリームを動的に変更する技術（ＭＰＥＧ−ＤＡＳＨ、ＨｔｔｐＬｉｖｅＳｔｒｅａｍｉｎｇなど）が注目されている。“ＩＳＯ−ＩＥＣ２３００９−１”に、“ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ（ＤＡＳＨ）”の技術が規定されている。また、“ｄｒａｆｔ−ｐａｎｔｏｓ−ｈｔｔｐ−ｌｉｖｅ−ｓｔｒｅａｍｉｎｇ−１６”に、“ＨｔｔｐＬｉｖｅＳｔｒｅａｍｉｎｇ”技術が規定されている。
これらの技術では、映像データを細かい時間単位のセグメントに分割し、このセグメントを取得するためのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）をプレイリスト（Ｐｌａｙｌｉｓｔ）と呼ばれるファイルに記述する。受信装置は、このプレイリストを取得し、プレイリストに記述されている情報を用いて所望の映像データを取得する。

ここで、プレイリスト中には、複数のバージョンの映像データセグメントに対するＵＲＬを記述することができる。これにより、受信装置が自身の能力や通信環境に応じて、最適なバージョンの映像データをプレイリストから選択し、選択した映像データセグメントを取得することができる。
特許文献１は、このような映像データのセグメントを受信装置に取得させるＵＲＬを記述するプレイリストの技術を用いて、映像データ中でユーザが着目する領域の映像データを配信する技術を開示する。この映像データ中の着目領域を、（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ（以下、「ＲＯＩ」という。））。より詳細には、特許文献１では、映像データを予めタイル状に領域分割し、映像全体のデータと、映像全体のデータの中でユーザが着目するオブジェクトが映り込むＲＯＩの領域のデータとを配信することが可能となる。

英国特許ＧＢ２５０５９１２Ｂ号公報

ところで、配信される映像データ中に移りこむオブジェクトの数や位置は時系列的に変化していくため、映像データの配信前に、所望のオブジェクトを含む領域をＲＯＩとして予め指定することは困難である。
本発明は、上記課題を解決するためになされたものであり、その目的は、映像データ中で配信されるべき着目領域の配信に係る処理を効率的に実行可能な通信装置を提供することにある。

上記課題を解決するために、本発明に係る通信装置の一態様は、映像データを複数の映像領域に分割する分割手段と、前記分割手段により分割された前記複数の映像領域の中から、オブジェクトが含まれる映像領域であるオブジェクト領域を判別する判別手段と、前記判別手段により判別された前記オブジェクト領域の映像データを含む映像セグメントを生成する第１の生成手段と、前記判別手段により判別されたオブジェクト領域の前記オブジェクトの識別子と、前記オブジェクトの前記映像データ中の座標情報と前記オブジェクトの大きさの少なくとも何れかを含む位置情報と、を含むメタデータセグメントを生成する第２の生成手段と、前記映像セグメントを取得するための第１の資源識別子と、前記メタデータセグメントを取得するための第２の資源識別子とを記述したプレイリストを生成する第３の生成手段と、前記プレイリストを受信した他の通信装置からの前記第２の資源識別子を指定した要求に応じて、前記第２の生成手段により生成された前記メタデータセグメントを前記他の通信装置へ送信する第１の送信手段と、前記第１の送信手段により送信されたメタデータセグメントを受信した前記他の通信装置からの前記第１の資源識別子を指定した要求に応じて、前記第１の生成手段により生成された前記映像セグメントを前記他の通信装置へ送信する第２の送信手段と、を具備する。

本発明によれば、映像データ中で配信されるべき着目領域の配信に係る処理を効率的に実行することが可能となる。

本実施形態の画像配信システムの構成図である。本実施形態における送信装置１０１の機能構成を示すブロック図である。本実施形態における受信装置１０２の機能構成を示すブロック図である。本実施形態において表示される映像の具体例を示す図である。本実施形態におけるプレイリストの具体例を示す図である。本実施形態におけるプレイリストの具体例を示す図である。本実施形態におけるメタデータの具体例を示す図である。本実施形態におけるメタデータの具体例を示す図である。本実施形態におけるプレイリストの具体例を示す図である。本実施形態における送信装置１０１の処理の具体例を示す図である。本実施形態における受信装置１０２の処理の具体例を示す図である。本実施形態における受信装置１０２の処理の具体例を示す図である。ユーザインタフェース部３０７の具体的な表示例を示す図である。送信装置１０１と受信装置１０２の間の通信を示すシーケンス図である。送信装置１０１と受信装置１０２の間の通信を示すシーケンス図である。実施形態で説明した各部のハードウエア構成の一例を示す図である。

以下、添付図面を参照して、本発明を実施するための形態について詳細に説明する。
なお、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施の形態に限定されるものではない。
本実施形態の通信システムにおいては、映像データの送信装置が、映像データ中で着目領域（ＲＯＩ）の候補となるべきオブジェクトを特定する情報（例えば、座標情報や大きさ情報などの位置情報）を、プレイリストを介して受信装置側に通知する。受信装置は、ＲＯＩの候補からユーザに所望するＲＯＩを選択させ、選択されたＲＯＩのオブジェクトを特定する情報を送信装置へ送信し、選択されたＲＯＩを含む映像セグメントを、送信装置に配信させる。また、オブジェクトを特定する情報は、例えば、オブジェクトの名称やＩＤを用いて絶対的に特定する情報でもよいし、リストの上から３番目の如く相対的に特定する情報であってもよい。また、座標情報の場合も、絶対座標によって特定する情報でもよいし、画面上や映像上の相対的な位置で特定する情報であってもよい。

（本実施形態のシステムの全体構成）
図１には、本実施形態における映像データを配信する通信システムの全体構成を示す。本実施形態に係る送信装置１０１（通信装置）は、ネットワーク１０３を介して、受信装置１０２（通信装置）と接続されている。なお、図１では、送信装置１０１、受信装置１０２はそれぞれ１台のみ示されているが、複数の送信装置１０１、複数の受信装置１０２がそれぞれ存在する通信システムを構成してもよい。
送信装置１０１は、本実施形態において映像データを配信するための送信装置である。送信装置１０１の具体的な例としては、カメラ装置、ビデオカメラ装置、スマートフォン装置、ＰＣ装置、携帯電話などが挙げられるが、後述の機能構成を満たすものであればよく、ここで挙げた機器の例には限定されない。

受信装置１０２は、本実施形態における映像データを受信する受信装置である。受信装置１０２の具体例は、スマートフォン装置、ＰＣ装置、テレビ、携帯電話、などが挙げられるが、後述の機能構成を満たすものであればよく、ここで挙げた機器の例には限定されない。
ネットワーク１０３は、本実施形態における映像データが配信されるためのネットワークであり、映像データを伝送できればどのようなネットワークでもよい。例えば、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、または無線ＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）等を利用することができる。ネットワーク１０３は、これに限られず、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）や３ＧなどのＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）でもよい。また、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ（登録商標）などのＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）でもよい。

（送信装置１０１の機能構成）
図２は、本実施形態における送信装置１０１の機能構成図である。本実施形態における送信装置１０１は、撮像部２０１と、映像領域分割部２０２と、オブジェクト認識部２０３と、映像領域判別部２０４と、セグメント生成部２０５と、プレイリスト生成部２０６と、通信部２０７と、を備えている。
撮像部２０１は撮影を行い、映像データを出力する。映像領域分割部２０２は、撮像部２０１が撮影したこの映像データを領域分割して符号化する。この結果、映像領域分割部２０２は、符号化した領域分割された映像データを出力する。なお、映像領域分割部２０２は、領域分割前の全体の映像データも符号化する機能を備える。なお、図２には撮像部２０１が送信装置１０１内に備えられるものとして示されているが、撮像部２０１は、送信装置１０１の外部にあって映像データを送信装置１０１に提供してもよい。
符号化の方式としては、ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）を利用する例を説明するが、これに限られるものではない。例えば、Ｈ．２６４やＭＰＥＧ２（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐｐｈａｓｅ２）や、それらと同等の符号化方式であればどのようなものでも利用可能である。

オブジェクト認識部２０３は、映像領域分割部２０２が符号化した映像データに対して、この映像データ中に映るＲＯＩの候補となりうるオブジェクトの認識を行う。オブジェクト認識部２０３が実行するオブジェクト認識の方法は、映像データ中に映る複数のオブジェクトを同時に認識可能な方法であり、映像データ中の各オブジェクトの位置情報（座標情報と大きさ）を認識結果として出力する。なお、オブジェクト認識部２０３は、送信装置１０１の外部に配置してもよい。外部に配置された場合のオブジェクト認識部２０３は、送信装置１０１から符号化された映像データを受信し、映像データ中のオブジェクトの認識結果である位置情報（座標情報と大きさ）を送信装置１０１に送信してもよい。
映像領域判別部２０４は、オブジェクト認識部２０３が認識したオブジェクトの認識結果である位置情報（座標情報と大きさ）を用いて、映像領域分割部２０２が分割した映像領域の中からオブジェクトの含まれる映像領域（以下、「オブジェクト領域」という。）を判別する。
セグメント生成部２０５は、映像セグメントとメタデータセグメントを生成する。映像セグメントは、映像領域判別部２０４が判別した映像領域（オブジェクト領域）及び全体の映像データを含むデータである。なお、セグメント生成部２０５は、映像セグメントとして、オブジェクト領域のみを含む映像セグメントを生成してもよい。

一方、メタデータセグメントは、プレイリストの属性情報と、オブジェクトの映像中の座標情報とを含むデータである。プレイリストの属性情報には、例えばオブジェクトの数や映像データの帯域の情報を含む。なお、メタデータセグメントは、座標情報を含むので、座標セグメントとも言い得る。
メタデータセグメントは、オブジェクトの位置情報を含んでいてもよい。この位置情報は、上述したように、映像データ中のオブジェクトの座標情報と、オブジェクトの大きさと、を含むことができる。また、オブジェクトの位置に関する情報であれば、どのような情報でもよく、オブジェクトの輪郭線の情報や、オブジェクトの頂点の座標情報、オブジェクトの向きに関する情報等を含んでいてもよい。また、メタデータセグメント中の座標情報は、上で説明したように、絶対座標でもよいし、相対座標でもよい。

本実施形態における映像セグメントのファイルフォーマットとしては、例えばＩＳＯＢＭＦＦ（ＢａｓｅＭｅｄｉａＦｉｌｅＦｏｒｍａｔ）を利用することができる。ただし、ファイルフォーマットはこれに限らずに、ＭＰＥＧ２ＴＳ（ＭＰＥＧ２ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）などのフォーマットを利用してもよい。
プレイリスト生成部２０６（第３の生成手段）は、セグメント生成部２０５が作成した映像セグメント、メタデータセグメントへのアクセスを可能とするＵＲＬ（「資源識別子」、または「アクセス識別子」と呼ぶ。）を記述したプレイリストを生成する。本実施形態では、ＵＲＬ（資源識別子）を、映像セグメントへアクセスするための識別子として用いたが、アクセスすることができれば他の識別子やリンク情報を用いてもよい。
通信部２０７は、受信装置１０２からの要求に応じて、生成されたプレイリスト及びセグメント（映像セグメント及びメタデータセグメント）を、ネットワーク１０３を介して受信装置１０２に送信する。
なお、プレイリストのフォーマットとしてＭＰＥＧ−ＤＡＳＨで規定されているＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）を利用することができる。本実施形態ではこのＭＰＤを利用する例を説明するが、“ｈｔｔｐＬｉｖｅｓｔｒｅａｍｉｎｇ”におけるプレイリストの記述方法など、ＭＰＤと同等の機能を有するフォーマットであればどのようなフォーマットでもよい。

（受信装置１０２の機能構成）
図３は、本実施形態における受信装置１０２の機能構成図である。
本実施形態における受信装置１０２は、表示部３０１と、復号化部３０２と、セグメント解析部３０３と、プレイリスト解析部３０４と、取得セグメント決定部３０５と、通信部３０６と、を備えている。受信装置１０２は、さらに、ユーザインタフェース部３０７と、取得オブジェクト決定部３０８と、を備えている。
表示部３０１は、復号化部３０２が復号化した映像セグメントの表示、及びセグメント解析部３０３がメタデータセグメントに基づき解析したメタデータの表示を行う。なお、表示部３０１は、必要に応じて映像セグメント内のＲＯＩの領域のみを表示してもよい。
復号化部３０２は、セグメント解析部３０３が出力する映像ビットストリームの復号化を行い、復号化した映像セグメントを表示部３０１に供給して表示させる。

セグメント解析部３０３は、通信部３０６が出力する映像セグメント及びメタデータセグメントの解析を行う。セグメント解析部３０３は、映像セグメントを解析して得られた映像ビットストリームを復号化部３０２に対して出力する。また、セグメント解析部３０３は、メタデータセグメントを解析して、オブジェクトの座標情報及びプレイリストの属性情報を取得する。取得されたオブジェクトの座標情報は表示部３０１及び取得オブジェクト決定部３０８に対して出力される。一方、取得されたプレイリストの属性情報は、プレイリスト解析部３０４に対して出力される。
プレイリスト解析部３０４は、通信部３０６から出力されたプレイリストの解析を行う。また、プレイリスト解析部３０４は、セグメント解析部３０３が出力する、メタデータセグメントから得られたプレイリストの属性情報を用いてプレイリストを一部更新する。

取得オブジェクト決定部３０８は、ユーザインタフェース部３０７から通知されたユーザ入力と、セグメント解析部３０３から出力されたオブジェクトの座標情報と、に基づき、ユーザが着目するＲＯＩとしてその映像を取得すべきオブジェクトを決定する。
取得セグメント決定部３０５は、取得オブジェクト決定部３０８が決定したオブジェクトと、ユーザインタフェース部３０７が出力するユーザ入力と、に基づき、ＲＯＩのオブジェクトを含む取得すべき映像セグメントとその取得タイミングとを決定する。決定された取得セグメントの情報及び取得タイミングとは、通信部３０６に対して出力される。
通信部３０６はネットワーク１０３を介して送信装置１０１にプレイリスト及びセグメント（映像セグメントおよびメタデータセグメント）を要求し、これらプレイリストおよびセグメント（映像セグメントおよびメタデータセグメント）を受信する。プレイリストは、上述したように、映像セグメントに対するアクセス識別子であるＵＲＬを含むデータである。また、プレイリストは、メタデータセグメント（座標セグメント）に対するアクセス識別子であるＵＲＬを含むデータである。
ユーザインタフェース部３０７は、ユーザ入力を受付け、取得オブジェクト決定部３０８に選択されたオブジェクトをＲＯＩとして通知する。なお、本実施形態ではユーザインタフェース部３０７としてタッチパネルを利用するが、これに限定されず、マウス、キーボード、音声入力その他各種の入力を利用することができる。

（表示される映像の具体例）
図４は、本実施形態において表示される映像の具体例を示す図である。図４（ａ）は、領域分割前の全体映像４０１を示す。図４（ｂ）は、全体映像４０１が領域分割された様子を示す。
図４（ｂ）において、分割された後の映像４０２中の破線が分割領域間の境界を示す。本実施形態では全体映像４０１の中に枠４０６、枠４０７、枠４０８でそれぞれ囲まれた３つの領域中にそれぞれオブジェクト４０６ａ、４０７ａ、４０８ａが認識されていることを想定する。なお、オブジェクトの数は３つに限らず０以上であればよい。
それぞれのオブジェクトを含む領域をＲＯＩと推定し、受信装置１０２がＲＯＩの映像データのみを表示する場合、それぞれこれらＲＯＩオブジェクトを含む分割領域４０３、４０４、４０５のみを送信装置１０１より取得すればよい。
受信装置１０２において、オブジェクト４０６ａのＲＯＩを表示したい場合、分割領域４０３に対応する映像セグメントを取得しそのまま表示してもよいし、あるいは分割領域４０３中から、ＲＯＩのオブジェクト部分４０９のみを取り出して表示してもよい。

（プレイリストの具体例）
図５および図６を用いて本実施形態におけるプレイリストの具体例について説明する。
図５のプレイリスト５０１、図６のプレイリスト５１０は、ＭＰＥＧ−ＤＡＳＨで規定されているＭＰＤのフォーマットに従った実際の記述例である。本実施形態ではＭＰＤのフォーマットの例を示すがこれに限定されず、ＨＬＳ（ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ）で規定されている同等のプレイリストその他同等のプレイリストでもよい。プレイリスト５０１、５１０はそれぞれ複数のオブジェクトに対して２種類のビットレートのストリームを配信可能とするプレイリストの例である。なお、ビットレートの種類の数については本実施形態では２種類としているがこれに限定されず、３種類以上でもよい。
図５のＭＰＤフォーマット中で、テンプレート５０２で示すように「＄」記号を用いてプレイリスト内の文字列をテンプレート化する方法が規定されている。

本実施形態においては、この方法を拡張したダイナミックテンプレートを提案する。ダイナミックテンプレートは、プレイリスト５０１、５１０内の一部属性情報を関連するメタデータストリームに含まれる値に置き換えることで、プレイリスト中の属性情報（映像セグメントの情報）を動的に更新可能とする仕組みである。
これにより、プレイリスト中の映像セグメントと、メタデータセグメント（座標セグメント）とを関連付けることができる。
本実施形態では、図５において、ダイナミックテンプレート５０３〜５０５、図６において、ダイナミックテンプレート５１１〜５１４がそれぞれ示されている。
なお、本実施形態では、ダイナミックテンプレート中の「！」記号で囲まれた部分が、値を置き換え可能な部分として示しているが、これに限らず他の記号を用いて示してもよい。ダイナミックテンプレート（５０３〜５０５等）は、メタデータストリーム内で規定される値によって動的に置換することが可能である。例えばダイナミックテンプレート５０３の「！ＯｂｊｅｃｔＩＤ！」は関連するメタデータストリームを示すリプリゼンテーション５０８内の情報を用いて更新することができる。このように、本実施形態におけるプレイリスト生成部２０６（第３の生成手段）は、前記メタデータセグメントの情報に基づき、内容を更新可能な前記プレイリストを生成する。

ダイナミックテンプレート（５０３〜５０５等）を更新するためのリプリゼンテーション（５０８等）は、以下のようにして特定される。例えば、プレイリスト５０１中のＡｓｓｏｃｉａｔｉｏｎＩＤ（以下、「ＡＩＤ」と略す。）及びＡｓｓｏｉｃｉａｔｉｏｎＴｙｐｅ（以下、「ＡＴｙｐｅ」と略す。）によって、リプリゼンテーションは特定される。リプリゼンテーション５０６及び５０７のリプリゼンテーション属性としてＡＩＤ＝‘Ｒｍ’、ＡＴｙｐｅ＝‘ｄｔｐｌ’と記述する。これにより、リプリゼンテーション５０８で示すメタデータストリーム（ＩＤが‘Ｒｍ’）に対してダイナミックテンプレートとしての関連性を示すことができる。このＡｔｙｐｅの情報は、映像セグメントとメタデータセグメント（座標セグメント）の関連性の情報である。これによって、映像セグメントに対して、メタデータストリーム（メタデータセグメント群）を関連づけることができる。
なお、本実施形態ではダイナミックテンプレートを意味するＡＴｙｐｅとして‘ｄｔｐｌ’を示したが、これに限らず別の文字列を、ダイナミックテンプレートを意味するＡＴｙｐｅとして用いてもよい。

次に、ダイナミックテンプレートの具体的な使用方法について、プレイリスト５０１を用いて説明する。プレイリスト５０１において「！」記号で囲まれた「！ＯｂｊｅｃｔＩＤ！」と「！ＯｂｊｅｃｔＢＷ！」属性がそれぞれリプリゼンテーションＩＤ‘Ｒｍ’で示されるリプリゼンテーション（以下、「リプリゼンテーションＲｍ」と呼ぶ。）によって更新される。例えば時刻ｔにおけるリプリゼンテーションＲｍはテンプレート５０９の情報とＢａｓｅＵＲＬの情報より、＜ＢａｓｅＵＲＬ＞／Ｒｍ−ｔ．ｍｐ４のＵＲＬに要求することで取得することができる。
図７、図８は、この要求により取得されるストリーム内のメタデータの例を示す。なお、本実施形態においては図７、図８にメタデータの記述例を示すが、これに限らずＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）やバイナリＸＭＬなどの形式を利用して記述してもよい。また、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）などのデータ記述言語で記述してもよい。

まず、図７のメタデータ５１５を説明する。メタデータ５１５中の、行５１６の記述により、ＯｂｊｅｃｔＩＤ＝１、２、３の３つのＯｂｊｅｃｔＩＤが存在することが記述されている。これは時刻ｔにおいて映像中に３つのオブジェクトが認識されＲＯＩの候補となっていることを意味する。なお、本実施形態では、ＯｂｊｅｃｔＩＤ＝０は分割前の全体映像を示すこととしている。これにより、メタデータ５１５に追加の記述の必要なしに全体映像の配信も可能となる。あるいは、全体映像を示すストリームはダイナミックテンプレートを使わずに別のＡｄａｐｔａｔｉｏｎｓｅｔとして別途プレイリスト５０１内に記述してもよい。

例えば行５１７により、ＯｂｊｅｃｔＩＤが１で示されるオブジェクトをＲＯＩとするストリームの帯域幅が２種類存在し、その値が、行５１７中に示す２種の値であることが判明する。これらの値（帯域幅）を使用して、プレイリストのダイナミックテンプレート５０３〜５０５の「！ＯｂｊｅｃｔＩＤ！」およびダイナミックテンプレート５０４、５０５中の「！ＯｂｊｅｃｔＢＷ！」をそれぞれ時刻ｔにおける値に更新することができる。例えば時刻ｔにおけるＯｂｊｅｃｔＩＤ＝１に対応するＲＯＩの映像ストリームは＜ＢａｓｅＵＲＬ＞／１／１＿ｌｏｗ（もしくはｍｉｄ）／ｔ．ｍｐ４のＵＲＬに要求することで取得できる。そのときの帯域幅はそれぞれ１＿ｌｏｗが１００００００で１＿ｍｉｄが２００００００となる。また本実施形態では特定時刻ｔにおける情報のみを記載したが、複数時刻の情報を一つのメタデータセグメント内に記載してもよい。その場合は、テンプレート５０２、５０９で用いるパラメータとして「＄Ｔｉｍｅ＄」の代わりに例えば「＄Ｎｕｍｂｅｒ＄」を使用すればよい。
以上のようにメタデータセグメント５１５を用いることで、時刻ｔにおけるオブジェクトの数及び各オブジェクトをＲＯＩとするストリームの帯域幅を更新する。これにより、プレイリスト自体の更新を行うことなく各ＲＯＩの映像ストリームを取得することが可能になる。

ただし、図７のメタデータ５１５のみでは各ＯｂｊｅｃｔＩＤが画面内のどのオブジェクトに対応するかを知ることができない。そこで、本実施形態では、図８に示すメタデータ５１８に示すように、オブジェクトの画面内の座標情報をメタデータとして追加する。図８において、行５１９に示すように画面内の左上端を原点として時刻ｔにおけるオブジェクトの水平方向位置をｘ、垂直方向位置をｙ、画面全体の幅をＷ、高さをＨとしたときのオブジェクトの幅をｗ、高さをｈとして記述している。これにより、各オブジェクトのＯｂｊｅｃｔＩＤと、それが画面内のどのオブジェクトに対応するかを、受信装置１０２において対応付け可能となる。
この値を利用し、図９のプレイリスト５２０中のダイナミックテンプレート５２１で示されている「ｕｒｎ：ｍｐｅｇ：ｄａｓｈ：ｓｒｄ：２０１４」スキームで規定された各属性値をダイナミックテンプレートとし、メタデータストリームで更新してもよい。

なお、図６に示すように、全てのメタデータを１つのメタデータストリーム配信するのではなく、複数のメタデータトラックに分けて配信してもよい。図６のプレイリスト５１０において、１つ目のメタデータストリームに、図８で示す行５１９に相当するオブジェクトの画面内の座標情報を格納することができる。そして、図６のプレイリスト５１０において、２つ目のメタデータストリームに、図７で示す行５１６、行５１７に相当するオブジェクトの数と使用する帯域幅の情報を格納することもできる。
このような記述によって、受信装置１０２は、必要なオブジェクトのみの座標情報を選択的に取得することが可能となる。この場合ダイナミックテンプレートの解決に用いるメタデータストリームと映像ストリームの関連性は前述の例と同様に、ＡＴｙｐｅとして‘ｄｔｐｌ’を用いることによって関連性を表すことができる。すなわち、このダイナミックテンプレートの解決に用いる関連性を表す情報は、ＡＴｙｐｅで規定される情報である。
他方、座標情報を含むメタデータストリームと映像ストリームの関連性は、図６のプレイリスト５１０で示すように、ＡＴｙｐｅとして‘ｒｏｉｓ’を導入することによって表現することができる。この結果、受信装置１０２は、映像ストリームとメタデータストリームとの関連性を把握することができる。なお、ここでは、座標情報を含むメタデータストリームと映像ストリームとの関連性を示すのに‘ｒｏｉｓ’を用いているが、これに限らず別の文字列を、座標情報を意味するＡＴｙｐｅとして用いてもよい。

（送信装置１０１における処理）
次に、図１０を用いて本実施形態における送信装置１０１が実行する処理について説明する。
図１０に示すように、送信装置１０１が実行する処理は、主として２種類のタスクによって構成される。一方のタスクは、プレイリストやセグメントデータ処理を行うタスク６００であり、他方のタスクは、受信装置１０２から送信されてきた要求を処理するタスク６０２である。なお、本タスク構成は、本実施形態における送信装置１０１の処理構成の一例であるが、単一のタスクで実施することや、より多くの種類のタスクで実施してもよい。
タスク６００は、領域分割映像記録６０４と、プレイリスト作成６０６と、オブジェクト認識６０８と、メタデータ記録６１０と、メタデータセグメント化６１１と、映像セグメント化６１２と、を含む。
図２の映像領域分割部２０２は、撮像部２０１より取得される映像データを領域分割可能な形で符号化し、記録することによって、領域分割映像記録６０４を実行する。また、この領域分割映像記録６０４と並行もしくはほぼ同時に、プレイリスト生成部２０６は、プレイリスト生成６０６を実行する。この処理によって、タスク６００は、図５、図６、図９で示すようなプレイリスト５０１、５１０、５２０を生成する。

次に、オブジェクト認識部２０３は、映像データ内のオブジェクトの数及びその座標情報を取得することによって、オブジェクト認識６０８を実行する。さらに、映像領域判別部２０４は、各オブジェクトが含まれる映像領域の領域数より各オブジェクトを含む映像データの帯域を計算し、それらの情報を送信装置１０１の記録装置に記録することによって、メタデータ記録６１０を実行する。
セグメント生成部２０５は、このようにして記録されたメタデータ（例えば５１５、５１８）を、ｍｐ４セグメントとしてセグメント化することによって、メタデータセグメント化６１１を実行する。なお、本実施形態ではｍｐ４セグメントとしてセグメント化する例を説明したが、ＭＰＥＧ２ＴＳとしてセグメント化してもよい。セグメントの符号化方式はこれらに限定されるものではなく、どのような符号化方式でもよい。なお、ｍｐ４は、動画像圧縮符号化の標準規格であるＭＰＥＧ−４の第１４部で規定されているファイルフォーマットを表す。
セグメント処理部２０５は、タスク６００内のこれまで述べた上記各処理の実行と並行して、もしくは各処理の実行に引き続き連続して映像セグメント化６１２を実行する。具体的には、セグメント生成部２０５は、領域分割した映像データをそれぞれ異なるｍｐ４セグメント（ＭＰＥＧ２ＴＳなどでもよい）の中に別トラックとして格納することによって、映像セグメント化６１２を実行する。

一方、タスク６０２は、プレイリスト送信６１４と、メタデータセグメント送信６１６と、ｏｂｊｅｃｔＩＤパース６１８と、オブジェクトベースの再セグメント化６２２と、映像セグメント送信６２４と、を含む。
図２の通信部２０７は、受信装置１０２からのプレイリスト要求を常に監視し、プレイリスト要求があれば、プレイリスト生成６０６で生成されたプレイリストを受信装置１０２に送信することによって、プレイリスト送信６１４を実行する。同様に、通信部２０７は、受信装置１０２からセグメント要求を常に監視し、メタデータセグメント要求があれば、メタデータセグメント化６１１で記録されたメタデータセグメントを受信装置１０２に送信する。これによって、通信部２０７は、タスク６０２に含まれるメタデータセグメント送信６１６を実行する。

また、通信部２０７は、受信装置１０２からセグメント要求を常に監視する。映像セグメント要求があれば、要求されたＯｂｊｅｃｔＩＤパース（ｐａｒｓｅ）６１８により、要求された映像セグメントがどのオブジェクトに対する要求であるかを解析する。
そして、オブジェクトベースの再セグメント化６２２において、要求されたオブジェクトが含まれる映像領域のみのトラックを抽出した映像セグメントを生成する。
生成した映像セグメント（ＲＯＩを含む映像セグメント）は、通信部２０７を介して受信装置１０２に送信される。この送信処理は、映像セグメント送信処理６２４である。
ここで、オブジェクトがすでに画面内から消失した後要求されたオブジェクトに対する映像セグメント及びメタデータセグメントの要求があった場合には、受信装置１０２に対してエラーを通知してもよい。あるいはこの場合、映像セグメントを送信する代わりに全体映像を送信してもよい。

（受信装置１０２における処理）
図１１、図１２を用いて本実施形態における受信装置１０２の処理について説明する。
受信装置１０２の処理は主に図１１と図１２にそれぞれ示す２つのタスクによって構成される。一方のタスク６３０は、図１１に示されるように、プレイリストやセグメントデータ処理を行うタスクである。他方のタスク６７０は、図１２に示すように、ユーザインタフェース部３０７からの要求を処理するタスクである。なお、ここで説明するタスクの構成は、本実施形態における受信装置１０２の処理の構成の一例であるが、これを単一のタスクで実施してもよいし、より多くの種類のタスクで実施してもよい。

まず初めに、図１１に示すタスク６３０について説明する。
プレイリスト要求６３２において、受信装置１０２の通信部３０６は、送信装置１０１に対してプレイリスト要求を送信する。プレイリスト解析６３４において、通信部３０６は、送信装置１０１から送信されてきたプレイリストを受信し、プレイリスト解析部３０４は、受信したプレイリストの解析を行う。
ダイナミックテンプレート有無判断６３６において、プレイリスト解析部３０４は、受信したプレイリストにダイナミックテンプレートがあるかないかの判定を行う。ダイナミックテンプレートの有無の判定は、受信したプレイリスト中において特定文字列の検索を行うことによって可能である。本実施形態では前述したとおり、ダイナミックテンプレート部分を、「！」記号で囲むことよって表しているため、この部分の有無を検索することによってダイナミックテンプレートの有無を判定することができる。この判定において、ダイナミックテンプレートがないと判定された場合は、標準ＤＡＳＨ６５６に進み、標準のＤＡＳＨにおけるＭＰＤ解析の処理を行えばよい。他方、ダイナミックテンプレートが存在すると判定された場合は、ダイナミックテンプレート解決方法判断６３８に進む。

ダイナミックテンプレート解決方法判断６３８において、プレイリスト解析部３０４は、ダイナミックテンプレートを解決する方法があるかの判定を行う。本実施形態では前述したとおり、ＡＴｙｐｅを‘ｄｔｐｌ’にすることによって関連付けられたメタデータストリームを取得し、取得したメタデータストリームを用いてダイナミックテンプレートを解決することができる。ここで、関連するメタデータストリームが存在しない場合は、ダイナミックテンプレートの解決を不可能と判定し、プレイリストパージ６４０に進む。関連するメタデータストリームが存在し、ダイナミックテンプレートを解決する方法があると判定した場合は、メタデータセグメント要求６４２に進む。メタデータセグメント要求６４２において、通信部３０６は、送信装置１０１に対してメタデータセグメントの要求を送信する。
プレイリストパージ６４０において、プレイリスト解析部３０４は、ダイナミックテンプレートに関連する箇所をプレイリストから除去する。その後、標準ＤＡＳＨ６５６に移行し、標準のＤＡＳＨにおけるＭＰＤ解析の処理を実行する。
メタデータ解析６４４において、通信部３０６は、メタデータセグメントを受信し、受信したメタデータセグメントの解析を行う。

テンプレートパラメータ選択６４８において、セグメント解析部３０３は、メタデータ解析６４４において解析したメタデータセグメントの情報を用いて、メタデータセグメント中のどの値をテンプレートの値（パラメータ）として用いるか選択する。テンプレートパラメータの選択の具体的な方法は、図１３を用いて後述する。
テンプレート更新６５０において、プレイリスト解析部３０４は、テンプレートパラメータ選択６４８において選択したテンプレートパラメータを用いてプレイリスト内のダイナミックテンプレートを更新する。すなわち、受信したメタデータセグメント（座標セグメント）を解析し、プレイリスト中のどのテンプレートパラメータを更新するべきかをセグメント解析部３０３が決定している。そして、プレイリスト解析部３０４は、セグメント解析部３０３が決定したメタデータセグメント（座標セグメント）の更新内容に基づき、プレイリストを更新する。

映像セグメント要求６５２において、取得セグメント決定部３０５は、更新されたプレイリストの情報を用いて映像セグメントを決定し、決定した映像セグメントを、ユーザが選択したＲＯＩの映像セグメントとして送信装置１０１に対して要求する。
復号化と再生６５４において、通信部３０６は、上記要求に係る映像セグメントを受信し、セグメント解析部３０３は、受信した映像セグメントからビットストリームを抽出する。また、復号化と再生６５４において、復号化部３０２は、抽出したビットストリームを復号化し、表示部３０１は、復号化されたビットストリームを表示する。このとき、セグメント解析部３０３は、メタデータ解析６４４におけるメタデータ解析の処理において得ていたオブジェクトの数や座標情報、帯域の情報を表示部３０１に出力し、表示部３０１は出力された情報を必要に応じて表示してもよい。

次に、メタデータセグメント要求６４２に戻り、処理を繰り返す。このように、図１１のフローチャートで示されるタスクは、以降、映像ストリーミングが終了するまで同様の処理を繰り返す。
次に、図１２のフローチャートで示されるタスク６７０について説明する。
ユーザ入力待ち６７２において、ユーザインタフェース部３０７は、ユーザ入力待ち処理を実行する。ユーザ入力有無判断６７４において、ユーザインタフェース部３０７は、ユーザ入力があるかないかの判定を行う。ユーザ入力がなければ、ユーザ入力待ち６７２に戻りこれを繰り返し、ユーザ入力があればユーザ入力解析６７６に進む。ユーザ入力解析６７６において、ユーザインタフェース部３０７は、ユーザ入力の解析を行う。ユーザ入力反映６７８において、ユーザインタフェース部３０７は、解析した結果を受信装置１０２内に反映する。

具体的なユーザ入力とその反映の例については図１３を用いて以下で説明する。
（テンプレートパラメータ選択方法とユーザインタフェース）
テンプレートパラメータ選択方法及びユーザインタフェースの具体例ついて図１３を用いて説明する。図１３は、本実施形態における受信装置１０２のユーザインタフェース部３０７の一具体例であるタッチパネルの外観を示す説明図である。なお、本実施形態におけるユーザインタフェース部３０７の一具体例として図１３を挙げるが、ユーザインタフェース部３０７は、同等の機能を有するものであればこれに限定されない。
図１３（ａ）には、オブジェクト選択前のユーザインタフェース部３０７の一つの表示画面７０１が示されている。また、図１３（ｂ）には、オブジェクト選択後のユーザインタフェース部３０７の表示画面７０６が示されている。図１３（ａ）および図１３（ｂ）には、プレイリストのＵＲＬを入力可能とする入力ボックス７０２と、入力ボックス７０２に入力されたＵＲＬに対してプレイリスト取得を発行するときに押下するロードボタン７０３と、が示されている。

上述したユーザ入力有無判断６７４において、ユーザインタフェース部３０７は、このロードボタン７０３の押下を検出した場合、ユーザ入力解析６７６において、ユーザインタフェース部３０７は、ユーザ入力の解析を行う。ユーザ入力反映６７８において、ユーザインタフェース部３０７は、この解析の結果、プレイリストの要求がなされたことを受信装置１０２内において反映する。その結果、このようにして、図１１に示すタスクにおけるプレイリスト要求６３２が開始される。
なお、ユーザがＵＲＬを入力ボックス７０２に入力する場合、ユーザインタフェース部３０７は、ＵＲＬのリスト（候補）を表示して、表示したリスト（候補）中から所望のＵＲＬを選択させてもよい。また、ＵＲＬを固定したい場合は、あらかじめユーザが設定（固定）したＵＲＬを、固定で入力ボックス７０２に表示させるように構成してもよい。さらに、事前に決められたＵＲＬのみに取得要求を出すような場合は、入力ボックス７０２をユーザインタフェース部３０７は表示しないように構成してもよい。

図１３（ａ）において、映像が表示される枠７０４が示されており、また図１３（ｂ）において、映像が表示される枠７０７が示されている。また、図１３（ａ）および図１３（ｂ）には、はユーザが視聴したい時刻を設定するためのスライドバー７０８が示されている。ユーザは、スライドバー７０８を操作することで、全ストリーム中のどの部分を視聴したいかを選択することができる。
ユーザ入力解析６７６において、ユーザインタフェース部３０７は、スライドバー７０８の操作を検出した場合、ユーザ入力反映６７８において、ユーザインタフェース部３０７は、この操作を取得セグメント決定部３０５に送信する。その結果、映像セグメント要求６５２において、セグメント決定部３０５は、ユーザが視聴したい時刻の情報が反映されるように、要求される映像セグメントの時刻を更新する。

また、上述したテンプレートパラメータ選択６４８において、セグメント解析部３０３は、用いるテンプレートの値（パラメータ）を選択しているが、それに替えて、全体映像を表すようにパラメータを選択してもよい。映像の再生の最初においては、ユーザが、画面内のオブジェクトを選択しやすくさせるために、領域を限定せずに全体映像を表示させたものである。この場合、例えば、１回目のテンプレートパラメータ選択６４８において、セグメント解析部３０３は、メタデータ５１５中のＯｂｊｅｃｔＩＤ＝０で示される情報を選択することができる。
また、全体映像のストリームが、ダイナミックテンプレートを使わない別のＡｄａｐｔａｔｉｏｎＳｅｔとして記述されている場合は、初めは当該別のＡｄａｐｔａｔｉｏｎＳｅｔを単純に取得してもよい。このとき、受信装置１０２側の処理としては、セグメント解析部３０３は、前述したようにメタデータ５１８中の行５１９を一例とするオブジェクトの座標情報を取り出し、取り出した座標情報を表示部３０１に渡すことができる。このような処理によって、ユーザインタフェース部３０７は、表示部３０１にオブジェクトの座標情報を枠７１０，７１１，７１２として表示させることができる。

図１３の表示例７０１で示すように、表示部３０ｌは、同じ時刻情報を持つ映像データとメタデータを映像にオーバーレイする形で表示することができる。このような表示によって、表示部３０１は、ユーザに対して、全体の映像と、そのとき全体映像に含まれるオブジェクトの座標情報と、を共に示すことができる。
表示部３０１がユーザに表示例７０１を表示させた状態の映像を提示した後、ユーザは着目したいオブジェクトをユーザインタフェース部３０７上で選択する。これにより、表示例７０６に示すように、着目したいオブジェクトのみの映像を表示させることが可能になる。
図１３（ａ）において、例えば枠７１０で示されたオブジェクトが、ユーザによって着目したいオブジェクトとして選択された場合、その選択されたオブジェクトを含む映像が、例えば図１３（ｂ）に示すように表示される。

ユーザの選択の方法としては、例えば、ユーザインタフェース部３０７は、ユーザのタッチ入力やマウス入力を検出して、枠７１０で示される枠内が押下されたと判断することができる。このような判断がなされた場合に、ユーザインタフェース部３０７は、該当する枠（７１０等）が対応するＯｂｊｅｃｔＩＤのオブジェクトが選択されたと判定することができる。本実施形態では入力の一例として、ユーザによるタッチやマウスを具体例に挙げたが、これに限らずキーボード、音声などの入力でもよい。
ユーザ入力解析６７６において、ユーザインタフェース部３０７は、オブジェクトの選択を検出した場合、ユーザ入力反映６７８において、ユーザインタフェース部３０７は選択したオブジェクト情報を反映する処理を実行する。この反映に従って、テンプレートパラメータ選択６４８において、セグメント解析部３０３は、選択するパラメータを決定する。例えば枠７１０内がユーザ入力により押下された場合、ユーザインタフェース部３０７は、枠７０４内における枠７１０の相対的な座標情報を取得する。そして、ユーザインタフェース部３０７は、取得した座標情報を取得オブジェクト決定部３０８に送信する。

取得オブジェクト決定部３０８は、この相対的な座標情報及びセグメント解析部３０３が解析したメタデータから得られるＯｂｊｅｃｔＩＤとその座標の対応関係から、画面上で選択されたオブジェクトが対応するＯｂｊｅｃｔＩＤを割り出すことができる。取得オブジェクト決定部３０８は、割り出したこのＯｂｊｅｃｔＩＤの情報を取得セグメント決定部３０５に渡す。このような処理によって、受信装置１０２の処理で前述したように、取得セグメント決定部３０５は、ダイナミックテンプレートを更新し、取得する映像セグメントを決定することができる。オブジェクト選択後の画面表示としては表示例７０６に示すように選択されたオブジェクトのみを表示することができる。このとき、取得される映像データとしては、例えば、分割領域群４０３で示すように４つの分割領域の組合せとすることもできる。表示する部分は分割領域群４０３全体でもよいし、切り出した領域４０９の部分のみをオブジェクトの座標情報を用いてクロップ（ｃｒｏｐ）して表示してもよい。
オブジェクト選択後の画面表示状態から再度他のオブジェクトを選択可能な状態に戻りたい場合に、表示例７０１の全体映像を表示したい場合がある。この場合は、ユーザは、枠７０７内の任意の点をユーザ入力によって押下してもよいし、別途、全体映像に戻るためのボタンなどを用意してユーザに押下させても良い。また、ユーザが全体映像の表示に戻りたい場合は、テンプレートパラメータ選択６４８において、ＯｂｊｅｃｔＩＤ＝０番を選択した初期の状態に戻してもよい。

＜変形例＞
変形例として、初めにユーザに着目するオブジェクトを選択させるために、枠７０４内で映像を流す前に、受信装置１０２は、ユーザが視聴したい映像セグメント内の初めのフレームを静止画として表示させてもよい。表示は、受信装置１０２の表示部３０１が実行することができる。この場合、通信部３０６は、取得する映像セグメントとしては、ユーザが視聴したい初めのフレームを含む映像セグメントのみを送信装置１０１から取得すればよい。また、通信部３０６は、メタデータセグメントもユーザが視聴したい初めのフレームの時刻に対応するもののみを送信装置１０１から取得すればよい。そして、本実施形態で説明した方法と同様に、ユーザに選択を行わせた時点で選択されたオブジェクトを含む映像セグメントを送信装置１０１に要求すればよい。

（シーケンス図）
図１４、図１５に示すシーケンス図を用いて、本実施形態における送信装置１０１と受信装置１０２の間の送受信の具体例について説明する。
図１２のユーザ入力解析６７６において、ユーザインタフェース部３０７は、プレイリスト要求のユーザ入力が検出する。すると、ユーザ入力反映６７８において、ユーザインタフェース部３０７は、その入力内容を受信装置１０２における処理に反映し、図１４の本シーケンスは開始する。
Ｍ１において、受信装置１０２は、送信装置１０１に対してプレイリスト要求を送信する。この処理は、プレイリスト要求６３２の処理に相当する。Ｍ２において、送信装置１０１は、プレイリスト要求に対する応答であるプレイリスト応答として、プレイリスト生成６０６において生成したプレイリストを受信装置１０２に送信する。ここで、送信装置１０１内でプレイリスト生成６０６が完了しておらず、プレイリストの送信準備が完了していない場合は、Ｍ２において送信装置１０１の通信部２０７はエラーを応答してもよい。

Ｍ３において、受信装置１０２は、受信したプレイリストを用いてプレイリスト解析を行う。これはプレイリスト解析６３４、ダイナミックテンプレート有無判断６３６、ダイナミックテンプレート解決方法判断６３８、プレイリストパージ６４０の処理に相当する。Ｍ４において、受信装置１０２は、Ｍ３におけるプレイリストの解析結果に従って、送信装置１０１に対してユーザが視聴したい時刻に対応するメタデータセグメント要求を送信する。これはメタデータセグメント要求６４２の処理に相当する。
Ｍ５において、送信装置１０１は、メタデータセグメント応答として、メタデータセグメント化６１１において生成したメタデータセグメントを送信する。Ｍ５において、送信装置１０１内でメタデータセグメント化６１１が完了しておらず、メタデータセグメントの送信準備が完了していない場合は、送信装置１０１の通信部２０７はエラーを応答してもよい。

Ｍ６において、受信装置１０２は、受信したメタデータセグメントを用いてメタデータ解析、テンプレート更新を行う。これはメタデータ解析６４４、テンプレートパラメータ選択６４８、テンプレート更新６５０の処理に相当する。Ｍ７において、受信装置１０２は、メタデータ解析、テンプレート更新の結果に従って送信装置１０１に対してユーザが視聴したいオブジェクト、及び時刻に対応する映像セグメント要求（映像セグメント配信要求）を送信する。これは映像セグメント要求６５２の処理に相当する。
Ｍ８において、送信装置１０１は、映像セグメント応答として、映像セグメント化６１２において生成した映像セグメントを受信装置１０２に対して送信する。ここで、送信装置１０１内で映像セグメント化６１２が完了しておらず、映像セグメントの送信準備が完了していない場合は、Ｍ８において送信装置１０１の通信部２０７はエラーを応答してもよい。Ｍ９において、受信装置１０２は、受信した映像セグメントを用いて映像の復号化、再生を行う。これは復号化と再生６５４に相当する処理である。
Ｌ１において、以降、Ｍ４からＭ９までの処理を繰り返し行う。

図１５は、テンプレートパラメータ選択方法と、本実施形態において説明したユーザインタフェース部３０７の動作の場合のシーケンス図を示す。図１５のＭ１からＭ８までは、図１４のＭ１からＭ８の処理と同様のため説明を割愛する。図１５のＭ９ｂの復号化、再生処理においては１フレーム分の復号化のみを行い静止画としての表示を行う点が、図１４のＭ９と異なる。
Ｍ１０において、受信装置１０２は、ユーザがオブジェクト選択を行う。Ｍ１１において、受信装置１０２は、ユーザによって選択されたオブジェクトに応じて、送信装置１０１に対して映像セグメント要求を送信する。この処理は、テンプレートパラメータ選択６４８、テンプレート更新６５０、映像セグメント要求６５２の処理に対応する。
Ｍ１２およびＭ１３については、それぞれ図１２におけるＭ８およびＭ９と同様の処理のため説明を割愛する。
ループ処理Ｌ３において、選択オブジェクトや視聴時刻の変更要求がない限りＭ１１からＭ１３までの処理が繰り返し実行される。選択オブジェクトや視聴時刻の変更要求がされるとループ処理Ｌ３を抜けてループ処理Ｌ２の処理に戻る。すなわち、再びＭ４の処理から開始されて、ループ処理Ｌ３の繰り返しの処理に至る。
本実施形態において、選択オブジェクトや視聴時刻の変更要求は、前述したようにユーザインタフェース部３０７がユーザ入力を受けることによって発生させてもよい。また、オブジェクトが画面内から消失した場合に送信装置１０１から送信されるエラー情報もしくは、全体映像の受信をトリガーとして発生させてもよい。

（ハードウエア構成例）
図１６は、上記各実施形態の各部を構成することのできるコンピュータ８１０の構成の例を示す。例えば、図２に示す送信装置１０１を、コンピュータ８１０で構成することができる。また、図３に示す受信装置１０２に含まれる各部を、コンピュータ８１０で構成することもできる。
ＣＰＵ８１１は、ＲＯＭ８１２、ＲＡＭ８１３、外部メモリ８１４等に格納されたプログラムを実行することによって、上記各実施形態の各部を実現する。ＲＯＭ８１２、ＲＡＭ８１３は上記ＣＰＵが実行するプログラムや各種データを保持することができる。ＲＡＭ８１３は、上述したプレイリスト５０１やメタデータ５１５等を保持することができる。

また、外部メモリ８１４は、ハードディスク、光学式ディスクや半導体記憶装置等で構成してよく、映像セグメント等を格納してもよい。また、撮像部８１５は、撮像部２０１を構成してもよい。
入力部８１６は、ユーザインタフェース部３０７を構成することができる。キーボードやタッチパネルで構成することができるが、マウス等のポインティングデバイスや各種スイッチで構成してもよい。
表示部８１７は、図３の表示部３０１を構成することができ、各種ディスプレイで構成することができる。通信Ｉ／Ｆ８１８は、外部と通信を行うインターフェースであり、図２の通信部２０７や図３の通信部３０６を構成することができる。また、コンピュータ８１０の上記説明した各部はバス８１９によって相互に接続されている。

（その他の実施形態）
本発明は、以下の処理を実行することによっても実現される。
即ち、上述した実施形態の１以上の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給することができる。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵまたは１つ以上のプロセッサ等）がプログラムを読み出して実行する処理で上述した各処理を実現することもできる。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１・・・送信装置、１０２・・・受信装置、１０３・・・ネットワーク、２０１・・・撮像部、２０２・・・映像領域分割部、２０３・・・オブジェクト認識部、２０４・・・映像領域判別部、２０５・・・セグメント生成部、２０６・・・プレイリスト生成部、２０７・・・通信部、３０１・・・表示部、３０２・・・復号化部、３０３・・・セグメント解析部、３０４・・・プレイリスト解析部、３０５・・・取得セグメント決定部、３０６・・・通信部、３０７・・・ユーザインタフェース部、３０８・・・取得オブジェクト決定部

Claims

映像データを複数の映像領域に分割する分割手段と、
前記分割手段により分割された前記複数の映像領域の中から、オブジェクトが含まれる映像領域であるオブジェクト領域を判別する判別手段と、
前記判別手段により判別された前記オブジェクト領域の映像データを含む映像セグメントを生成する第１の生成手段と、
前記判別手段により判別されたオブジェクト領域の前記オブジェクトの識別子と、前記オブジェクトの前記映像データ中の座標情報と前記オブジェクトの大きさの少なくとも何れかを含む位置情報と、を含むメタデータセグメントを生成する第２の生成手段と、
前記映像セグメントを取得するための第１の資源識別子と、前記メタデータセグメントを取得するための第２の資源識別子とを記述したプレイリストを生成する第３の生成手段と、
前記プレイリストを受信した他の通信装置からの前記第２の資源識別子を指定した要求に応じて、前記第２の生成手段により生成された前記メタデータセグメントを前記他の通信装置へ送信する第１の送信手段と、
前記第１の送信手段により送信されたメタデータセグメントを受信した前記他の通信装置からの前記第１の資源識別子を指定した要求に応じて、前記第１の生成手段により生成された前記映像セグメントを前記他の通信装置へ送信する第２の送信手段と、
を具備することを特徴とする通信装置。
前記第３の生成手段は、前記映像セグメントと前記メタデータセグメントとの関連を示す情報を記述した前記プレイリストを生成することを特徴とする請求項１に記載の通信装置。
前記第１及び第２の資源識別子はＵＲＬ(ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ)であることを特徴とする請求項１または２に記載の通信装置。
前記メタデータセグメントは、前記プレイリストの属性情報を含み、
前記プレイリストの属性情報は、少なくとも、前記オブジェクトの数、前記映像データの帯域、のいずれかを含むことを特徴とする請求項１から３のいずれか１項に記載の通信装置。
前記第１の生成手段は、さらに、前記全体の映像データも含む映像セグメントを生成することを特徴とする請求項１から４のいずれか１項に記載の通信装置。
前記第１の生成手段によって生成される映像セグメントは、ファイルフォーマットとしてＩＳＯＢＭＦＦ（ＢａｓｅＭｅｄｉａＦｉｌｅＦｏｒｍａｔ）を利用して生成され、前記第３の生成手段によって生成されるプレイリストは、ＭＰＥＧ−ＤＡＳＨで規定されているＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）を利用して生成されることを特徴とする請求項１から５のいずれか１項に記載の通信装置。
映像データが複数の映像領域に分割され、分割された映像データの中のオブジェクトが含まれる映像領域に対応する映像セグメントを取得するための第１の資源識別子と、前記オブジェクトの識別子と前記オブジェクトの前記映像データ内の座標情報及び／又は前記オブジェクトの大きさとを含む位置情報とを含むメタデータセグメントを取得するための第２の資源識別子とが記述されたプレイリストを受信する第１の受信手段と、
前記第１の受信手段により受信されたプレイリストに記述された前記第２の資源識別子を選択する選択手段と、
前記選択手段により選択された第２の資源識別子に対応するメタデータセグメントの要求を他の通信装置へ送信する第１の送信手段と、
前記第１の送信手段によって送信された要求に応じて前記他の通信装置から送信される前記メタデータセグメントを受信する第２の受信手段と、
前記第２の受信手段により受信されたメタデータセグメントに基づいて、前記第１の資源識別子に対応する映像セグメントの要求を前記他の通信装置へ送信する第２の送信手段と、
を具備することを特徴とする通信装置。
前記映像セグメントは、ファイルフォーマットとしてＩＳＯＢＭＦＦ（ＢａｓｅＭｅｄｉａＦｉｌｅＦｏｒｍａｔ）を利用して生成され、前記プレイリストは、ＭＰＥＧ−ＤＡＳＨで規定されているＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）を利用して生成されることを特徴とする請求項７に記載の通信装置。
前記第２の送信手段によって送信された要求に応じて前記他の通信装置から送信される前記映像セグメントを受信する第３の受信手段と、
前記第３の受信手段によって受信された映像セグメントを復号化して出力する処理手段と、
をさらに具備することを特徴とする請求項７又は８に記載の通信装置。
ネットワークと、
前記ネットワークに接続する前記請求項１から６のいずれか１項に記載の通信装置と、
前記ネットワークに接続する前記請求項７から９のいずれか１項に記載の通信装置と、
を具備することを特徴とする通信システム。
映像データを複数の映像領域に分割するステップと、
前記分割するステップにおいて分割された前記複数の映像領域の中から、オブジェクトが含まれる映像領域であるオブジェクト領域を判別するステップと、
前記判別するステップにおいて判別された前記オブジェクト領域の映像データを含む映像セグメントを生成するステップと、
前記判別するステップにおいて判別されたオブジェクト領域の前記オブジェクトの識別子と、前記オブジェクトの前記映像データ中の座標情報と前記オブジェクトの大きさの少なくとも何れかを含む位置情報と、を含むメタデータセグメントを生成するステップと、
前記映像セグメントを取得するための第１の資源識別子と、前記メタデータセグメントを取得するための第２の資源識別子とを記述したプレイリストを生成するステップと、
前記プレイリストを受信した他の通信装置からの前記第２の資源識別子を指定した要求に応じて、前記生成するステップにおいて生成された前記メタデータセグメントを前記他の通信装置へ送信するステップと、
前記送信するステップにおいて送信されたメタデータセグメントを受信した前記他の通信装置からの前記第１の資源識別子を指定した要求に応じて、前記映像セグメントを生成するステップにおいて生成された前記映像セグメントを前記他の通信装置へ送信するステップと、
を含むことを特徴とする通信制御方法。
映像データが複数の映像領域に分割され、分割された映像データの中のオブジェクトが含まれる映像領域に対応する映像セグメントを取得するための第1の資源識別子と、前記オブジェクトの識別子と前記オブジェクトの前記映像データ内の座標情報及び／又は前記オブジェクトの大きさとを含む位置情報とを含むメタデータセグメントを取得するための第2の資源識別子とが記述されたプレイリストを受信するステップと、
前記受信するステップにおいて受信されたプレイリストに記述された前記第２の資源識別子」を選択させるステップと、
前記選択させるステップにおいて選択された第２の資源識別子に対応するメタデータセグメントの要求を他の通信装置へ送信するステップと、
前記送信するステップにおいて送信された要求に応じて前記他の通信装置から送信される前記メタデータセグメントを受信するステップと、
前記メタデータセグメントを受信するステップにおいて受信されたメタデータセグメントに基づいて、前記第１の資源識別子に対応する映像セグメントの要求を前記他の通信装置へ送信するステップと、
を含むことを特徴とする通信制御方法。
コンピュータを、請求項１から請求項６のいずれか１項に記載の通信装置の各手段として機能させるためのコンピュータプログラム。