以下、図を参照して、本発明の実施の形態について説明する。
図1に画像処理システム1を示す。画像処理システム1は、大きく分けて、画像処理装置11と、PCIバス21によって画像処理装置11と接続された、記憶装置12、ビデオデータ入力装置13−1乃至13−n、ドライブ14、操作コントローラ15、マウス16、および、キーボード17、並びに、ディスプレイ18、および、スピーカ19などの外部装置から構成されている。
この画像処理システム1では、記憶装置12に記録されている、または、ビデオデータ入力装置13−1乃至13−nやドライブ14を介して供給された動画コンテンツを解析して、その特徴量を得ることができ、その結果得られた特徴量をメタデータとして登録することができる。また、この画像処理システム1では、記憶装置12に蓄積された、または、ビデオデータ入力装置13−1乃至13−nやドライブ14を介して供給された動画コンテンツのメタデータを用いて、複数の動画コンテンツの特徴を示すことのできるGUI(graphic user interface)を表示することができるようになされている。ユーザは、表示されたGUIを参照して、複数のコンテンツの関連を知ることができるようになされている。
画像処理装置11は、マイクロプロセッサ31、GPU(Graphics Processing Unit)32、XDR(Extreme Data Rate)−RAM33、サウスブリッジ34、HDD35、USBインタフェース36、および、サウンド入出力コーデック37を含んで構成されている。
画像処理装置11においては、マイクロプロセッサ31に対してGPU32、XDR−RAM33およびサウスブリッジ34が接続されるとともに、サウスブリッジ34にHDD35、USBインタフェース36、および、サウンド入出力コーデック37が接続されている。このサウンド入出力コーデック37にはスピーカ19が接続されている。また、GPU32にはディスプレイ18が接続されている。
また、サウスブリッジ34には、PCIバス21を介して、マウス16、キーボード17、記憶装置12、ビデオデータ入力装置13−1乃至13−nドライブ14、および、操作コントローラ15が接続されている。
操作コントローラ15、マウス16、および、キーボード17は、ユーザの操作入力を受け、PCIバス21およびサウスブリッジ34を介して、ユーザの操作入力の内容を示す信号を、マイクロプロセッサ31に供給する。記憶装置12は、所定のデータを記録または再生できるようになされている。
ビデオデータ入力装置13−1乃至13−nには、例えば、ビデオテープレコーダ、光ディスク再生装置、インターネットやLAN(local area network)などを介して外部の装置と情報の授受を行うことが可能なネットワークインタフェースなどが用いられ、ビデオデータを取得することができるようになされている。
ドライブ14は、光ディスクや半導体メモリなどのリムーバブルメディアを装着可能であって、リムーバブルメディアに記録されている情報を読み出したり、情報をリムーバブルメディアに記録することができる。
画像処理装置11のマイクロプロセッサ31は、OS(Operating System)等の基本プログラム、および、各種処理を画像処理装置に実行させるためのプログラムを実行する汎用のメインCPUコア51と、メインCPUコア51に内部バス52を介して接続された複数(この場合8個)のRISC(Reduced Instruction Set Computer)タイプの信号処理プロセッサ(以下、これをサブCPUコアと称する)53−1乃至53−8と、XDR−RAM33に対するメモリコントロールを行うメモリコントローラ54と、サウスブリッジ34との間でデータの入出力を管理するI/O(In/Out)コントローラ55とが1チップに集積されたマルチコア構成でなり、例えば動作周波数4[GHz]を実現している。
すなわち、マイクロプロセッサ31は、起動時、HDD35に格納された制御プログラムに基づき、HDD35に格納されている必要なアプリケーションプログラムを読み出してXDR−RAM33に展開し、この後このアプリケーションプログラムおよびオペレータ操作に基づいて必要な制御処理を実行する。
マイクロプロセッサ31は、例えば、供給される動画像または静止画像に対して、MPEG(Moving Picture Expert Group)、JPEG(Joint Photographic Experts Group)2000、H.264/AVC(Advanced Video Coding)等のコーデック処理を施す役割を担い、コーデック処理に関する物理演算等を行うようになされている。具体的には、マイクロプロセッサ31は、供給される非圧縮の動画像または静止画像に対するエンコードの結果得られた符号化ストリームを、サウスブリッジ34を介して、HDD35に供給して記憶させたり、供給される圧縮された動画像または静止画像に対してデコードした結果得られる動画または静止画のコンテンツの再生映像を、GPU32へデータ転送して、ディスプレイ18に表示させることができる。
特に、マイクロプロセッサ31では、8個のサブCPUコア53−1乃至53−8が、エンコーダユニットを構成するエンコーダの役割をそれぞれ担い、ベースバンド信号を同時並列的にエンコードすることや、8個のサブCPUコア53−1乃至53−8が、デコーダユニットを構成するデコーダの役割をそれぞれ担い、圧縮画像信号を同時並列的にデコードすることが可能である。
このように、マイクロプロセッサ31は、8個のサブCPUコア53−1乃至53−8によって同時並列的にエンコード処理やデコード処理を実行することができるようになされている。
また、マイクロプロセッサ31の8個のサブCPUコア53−1乃至53−8は、そのうちの一部がエンコード処理を、他の部分がデコード処理を、同時並列的に実行することも可能である。
また、例えば、PCIバス21に、独立したエンコーダまたはデコーダ、もしくは、コーデック処理装置が接続されている場合、マイクロプロセッサ31の8個のサブCPUコア53−1乃至53−8は、サウスブリッジ34およびPCIバス21を介して、これらの装置が実行する処理を制御することができるようになされている。これらの装置が複数接続されている場合、または、これらの装置が複数のデコーダまたはエンコーダを含んでいる場合、マイクロプロセッサ31の8個のサブCPUコア53−1乃至53−8は、複数のデコーダまたはエンコーダが実行する処理を、分担して制御することが可能である。
また、メインCPUコア51は、8個のサブCPUコア53−1乃至53−8が行う以外の処理や管理を行うようになされており、サウスブリッジ34を介してマウス16、キーボード17、または、操作コントローラ15から供給された命令を受け付け、命令に応じた種々の処理を実行する。
また、マイクロプロセッサ31は、処理されるベースバンド信号または符号化ストリームが有する種々のパラメータを抽出し、これらをメタデータファイルとして、サウスブリッジ34を介してHDD35に登録する処理も実行可能なようになされている。
また、マイクロプロセッサ31は、抽出されたパラメータを基に、複数のコンテンツの全体の比較をユーザが直感的に行うことができるようなGUI表示画面の表示に必要な情報を計算し、GPU32に供給する。
すなわち、画像処理装置11は、複数のコンテンツの全体を一度に比較した場合のコンテンツ相互の一致度などをユーザが直感的に認識できるようなユーザインタフェースを提供するために、軌跡モードとタイムラインモードとの2つのGUI表示モードを有している。マイクロプロセッサ31は、軌跡モードとタイムラインモードとの2つのモードに対応するGUI表示画面を生成するための各種演算を実行し、その結果を、GPU32に供給する。軌跡モードとタイムラインモードとの2つのモードにおける表示画面については、後述する。
また、マイクロプロセッサ31は、動画コンテンツの映像データおよび音声データのうち音声データに対して音声ミキシング処理を施し、その結果得られた編集音声データを、サウスブリッジ34およびサウンド入出力コーデック37を介して、スピーカ19へ送出することにより、音声信号に基づく音声をスピーカ19から出力させることもできる。
また、マイクロプロセッサ31は、GPU32との間を帯域幅の大きなバス38により接続されており、例えば、最大30[Gbyte/Sec]の転送速度でデータ転送し得るようになされている。
GPU32は、マイクロプロセッサ31の制御のもとに、マイクロプロセッサ31から供給された動画コンテンツの映像データや静止画コンテンツの画像データ、または、GUI表示画面を表示させるための情報に対して所定の信号処理を施し、その結果得られた映像データや画像データをディスプレイ18へ送出して、画像信号をディスプレイ18へ表示させる。
すなわち、GPU32は、ディスプレイ18に表示する、例えば、動画コンテンツの再生映像を動かすときのテクスチャの張り込みなどに関する最終的なレンダリング処理に加えて、動画コンテンツの再生映像を構成する各フレーム画像のうちの一部をディスプレイ18に一度に複数表示するときの座標変換計算処理や、動画コンテンツの再生映像または静止画コンテンツの静止画像に対する拡大・縮小処理等を行う機能を司り、マイクロプロセッサ31の処理負担を軽減させるようになされている。
XDR−RAM33は、例えば、256[MByte]の容量を持つメモリであり、帯域幅の大きなバス39によりマイクロプロセッサ31のメモリコントローラ54と接続されており、例えば最大25.6[Gbyte/Sec]の転送速度でデータ転送し得るようになされている。
サウスブリッジ34は、マイクロプロセッサ31のI/Oコントローラ55と接続され、マイクロプロセッサ31と、HDD35、USBインタフェース36、および、サウンド入出力コーデック37との情報の授受を行う。
HDD35は、ハードディスクにより構成される大容量の記憶部であり、例えば、基本プログラム、制御プログラム、アプリケーションプログラムなどを格納するとともに、これらの実行に必要な情報やパラメータなども格納することができる。また、HDD35には、上述したメタデータも格納される。
USBインタフェース36は、外部の装置とUSB接続により接続するための入出力インタフェースである。
サウンド入出力コーデック37は、サウスブリッジ34を介して供給された音声データを所定の方式でデコードし、スピーカ19に供給して、音声出力させる。
次に、軌跡モードとタイムラインモードとの2つのモードについて説明する。
まず、図2乃至図14を参照して、軌跡モードの表示について説明する。
例えば、図2に示されるように、X軸に「赤色(R)」、Y軸に「青色(B)」、Z軸に「輝度」を表示軸のパラメータとする仮想的な3次元の表示空間において、1枚の静止画像データ、または、動画像を構成するフレーム画像データは、それらが有する特徴量に基づいて、いずれかの位置に配置可能である。
なお、図2に示される3次元表示空間では、X軸の赤色、Y軸の青色、および、Z軸の輝度について、原点からプラス方向だけの象現が用いられているが、X軸、Y軸およびZ軸について、原点からマイナス方向をも含めて表示されるようにしてもよい。
図2に示されるように、X軸にR、Y軸にB、Z軸に輝度をパラメータとする3次元表示空間においては、画面右下方向にはビデオデータに含まれる赤色レベルの高いピクチャが配置される。また、画面中央上方向にはビデオデータに含まれる輝度レベルの強いピクチャが配置される。また、画面左下方向にはビデオデータに含まれる青色レベルの高いピクチャが配置される。これにより、複数のビデオデータを確認するユーザに対して、複数のビデオデータに含まれる明るさや色成分の大まかな傾向(分布)をイメージとして直感的に認識させ得るようになされている。
この3次元表示空間におけるそれぞれの表示軸(X軸、Y軸およびZ軸)を構成するパラメータは、コンテンツを構成するビデオデータの特徴を示す特徴量である。基本的に、特徴量は、同一静止画のピクチャが時間的に継続していない限り、ビデオデータを構成するピクチャ毎に異なる。
そして、このような特徴量を持った複数のピクチャにより構成される動画像データにおいては、複数フレームの間画像が変化しないような特殊な状況を除けば、基本的に、フレームごとに特徴量が異なるため、動画像データの各フレームの特徴量の座標は、このような3次元表示空間を浮遊する。
図3に、X軸にCr、Y軸にCb、Z軸に輝度Yをパラメータとする3次元表示空間において、複数の動画像データの各フレームの特徴量を追っていくことにより描かれた複数のコンテンツの軌跡の例を示す。
画像処理装置11のマイクロプロセッサ31は、例えば、記憶装置12に記録されている、または、ビデオデータ入力装置13−1乃至13−nやドライブ14を介して供給されたコンテンツデータの一覧である、図示しないクリップ一覧表示画面を参照したユーザによって選択された1つまたは複数のコンテンツを、記憶装置12、ビデオデータ入力装置13−1乃至13−n、または、ドライブ14から取得する。そして、マイクロプロセッサ31は、取得されたコンテンツに、上述したような3次元空間座標に用いられる特徴量により構成されるメタデータが付随されていれば、そのメタデータをHDD35に登録し、メタデータがコンテンツにメタデータが付随されていなければ、メタデータを演算して、HDD35に登録する。
そして、マイクロプロセッサ31は、必要に応じて、コンテンツをデコードするとともに、対応するコンテンツのメタデータをHDD35から読み出して、設定されている3次元空間座標の軌跡を描くために必要な演算を実行し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、図3に示されるような3次元空間の軌跡を、ディスプレイ18に表示させる。
例えば、図4に示されるような軌跡が表示された場合、軌跡(a)に対応するコンテンツaと、軌跡(a)に部分一致する軌跡(b)に対応するコンテンツbとにおいて、コンテンツbはコンテンツaの一部を抽出したものであることが容易に推測できる。
ただし、図4に示される場合では、3次元空間を構成する3つのパラメータにおける比較しか行われていないのと同義である。そこで、3次元空間を構成する3つのパラメータの設定を変更し、異なる3次元軸における3次元空間を表示することができるようにする。
例えば、ユーザが、操作コントローラ15またはマウス16などを用いて、3次元空間を構成する3つのパラメータの設定を、図4に示される輝度Y軸、Cb軸、および、Cr軸から、Cb軸、Cr軸、および、DCT(Discrete cosine Transform)縦方向周波数軸へ変更することを指令した場合、マイクロプロセッサ31は、サウスブリッジ34を介して供給される、ユーザの操作入力に対応する信号に基づいて、新たに設定されたCb軸、Cr軸、DCT縦方向周波数軸の3次元空間座標の軌跡を描くために必要な演算を実行し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、図5に示されるようなCb軸、Cr軸、DCT縦方向周波数軸の3次元空間の軌跡を、ディスプレイ18に表示させる。
このようにして、表示される3次元空間座標の軸を変更した結果、図4に示される、軌跡(a)と軌跡(b)とに相関がない場合、ユーザは、コンテンツaとコンテンツbとは異なるコンテンツであると推測することができる。
ここで、画像処理装置11のマイクロプロセッサ31は、例えば、図6の(A)に示すように、RGBの各色成分を表すR軸、G軸、およびB軸からなる3次元表示空間、図6の(B)に示すように、輝度レベル軸、R軸、およびB軸からなる3次元表示空間、図6の(C)に示すように、動き量軸、Cb軸、およびCr軸からなる3次元表示空間、図6の(D)に示すように、細かさ情報軸、輝度レベル軸、および色相軸からなる3次元表示空間、図6の(E)に示すように、R軸、DCT縦周波数軸、およびDCT横周波数軸からなる3次元表示空間、図6の(F)に示すようにDCT縦周波数軸、Cb軸、およびCr軸からなる3次元表示空間、図6の(G)に示すようにHLS空間の各要素であるL(Luminance)軸、H(Hue)軸、およびS(Saturation)軸からなる種々の3次元表示空間等を生成するように各表示軸を決定することができる。なお、メタデータファイルに登録される特徴量、すなわち、3次元空間の軸となるパラメータは、これらに限られるものではなく、メタデータファイルに登録された種々の特徴パラメータを表示軸とした3次元表示空間を生成するように決定することが可能である。
具体的には、例えば、フレーム画像の細かさを示すパラメータ軸、動きの大きさを示すパラメータ軸、および、輝度Y軸からなる3次元表示空間、色の分散を示すパラメータ軸、DCT縦周波数軸、および、DCT横周波数軸からなる3次元表示空間、フレーム画像の細かさを示すパラメータ軸、H(Hue)軸、およびS(Saturation)軸からなる3次元表示空間、ある人の顔との一致度を示すパラメータ軸、Cb軸、およびCr軸からなる3次元表示空間などを用いて、動画像の特徴量を示す軌跡を描画することが可能である。
ここで、ある人の顔との一致度は、例えば、特開2006−4003に記載の発明を用いて求めることができるものであり、このような技術を用いて所定の顔とコンテンツデータの各フレームに現れる顔との一致度を求め、その値(例えば、0%乃至100%)を、3次元空間のある軸のパラメータとすることができる。
また、映画館で上映されている映画を盗み撮りして得られたビデオデータは、その画枠内に、スクリーン周辺の部分や観客の頭などが黒く写っているため、3次元空間を構成する3つのパラメータに輝度が含まれている場合、元のビデオデータと盗み撮りされて得られたビデオデータとは、輝度以外の2つのコンテンツのパラメータの価は略同じであるが、盗み撮りのビデオデータは黒の部分が多いために、輝度成分のみが低い軌跡を描く。
したがって、図7に示されるような場合、コンテンツbは、例えば、映画館でコンテンツaを盗み撮りしたデータのうちの一部を抽出したものであるなど、コンテンツaに関連性のあるコンテンツであると推測することができる。
また、同様に、3次元空間を構成する3つのパラメータに輝度が含まれている場合、同一のビデオデータの一方に白かそれに近い色のフレームが施されているとき、それらのビデオデータは、輝度以外のパラメータの値は略同じであるが、フレームありのビデオデータは白の部分が多いために、輝度成分のみが高い軌跡を描くような状況もありうる。
また、複数のコンテンツの一部から構成されている編集されたコンテンツは、複数のコンテンツの軌跡の一部と同じまたは並行した軌跡を有している。具体的には、図8に示されるように、コンテンツ(c)は、コンテンツ(a)の一部と、コンテンツ(d)の一部と、コンテンツ(e)の一部とを含んで構成されている。
なお、編集でコンテンツを接続した部分などに発生するシーンチェンジの前後において、コンテンツの特徴量は、上述したような3次元空間において連続性を有さない。そこで、シーンチェンジ前後の連続性を有しない2つの座標は、これらの3次元空間上で、直線で接続されるものとすることができる。そして、シーンチェンジがない、特徴量がなだらかに変化していく部分と、シーンチェンジのために特徴量が大きく変わる部分とでは、それらの軌跡の表示を、例えば、図9に示されるように、実線と点線とすることなどにより、区別可能なようにしても良い。
また、図10に示されるように、編集されたコンテンツ(c´)の一部は、ある3次元座標系(ここでは、Cb軸,Cr軸,Y軸で構成される3次元座標系)で、コンテンツ(a)およびコンテンツ(e)と略同じ軌跡を描くが、他の一部は、図7を用いて説明したようにして、コンテンツ(d)の軌跡に対して輝度方向に平行移動された軌跡である。このように、編集されたコンテンツは、その基となるコンテンツの軌跡と一致しているばかりでなく、その一部が、関連性がある軌跡である場合もある。このような場合、ユーザは、表示される3次元空間の座標を変更したときに、それぞれの対応する軌跡をそのまま把握したいし、また、多くの軌跡が表示されている表示画面上で、一致または関連性を有している軌跡とそうではない軌跡を分かりやすく区別できると好適である。そこで、画像処理装置11においては、ユーザにより選択された複数の軌跡を、図10に示されるように、ハイライト表示したり、異なる色で表示することを可能とすると好適である。これにより、例えば、ある編集済みコンテンツに対して、その素材であると推定されるコンテンツをほかのコンテンツと区別して表示させることが可能となる。
このとき、マイクロプロセッサ31は、操作コントローラ15、マウス16、または、キーボード17から供給されるユーザの操作入力に基づいて、ユーザにより指定されたコンテンツのメタデータに対して、選択コンテンツフラグを付与する。そして、マイクロプロセッサ31は、選択コンテンツフラグが付与されたメタデータに対応するコンテンツの軌跡を、ハイライト表示させるか、または異なる色を用いて表示させるためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、図10に示されるように、ユーザにより選択された軌跡がハイライト表示されているか、または、異なる色で表示されているGUI表示画面をディスプレイ18に表示させる。
また、画像処理装置11においては、唯1つのコンテンツを注目コンテンツとして、他の選択されたコンテンツとは区別可能なように選択・表示することができる。具体的には、例えば、図10に示されるコンテンツ(c´)の軌跡を、注目コンテンツとして、他の選択されたコンテンツとは更に区別可能なようにして表示させることができる。
このとき、マイクロプロセッサ31は、操作コントローラ15、マウス16、または、キーボード17から供給されるユーザの操作入力に基づいて、ユーザにより注目コンテンツとして指定されたコンテンツのメタデータに対して、注目コンテンツフラグを付与する。そして、マイクロプロセッサ31は、注目コンテンツフラグが付与されたメタデータに対応するコンテンツの軌跡を、選択コンテンツと区別可能な表示方法でハイライト表示させるか、または異なる色を用いて表示させるためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、ユーザにより選択された注目コンテンツに対応する軌跡がほかの選択コンテンツと区別可能なように表示されているGUI表示画面をディスプレイ18に表示させる。
また、画像処理装置11においては、ユーザが、GUI表示画面を参照して、2つ以上のコンテンツにおいてその内容が一致していると推定される部分のみを選択し、他の部分とは異なるように表示することができる。具体的には、ユーザが、表示されている3次元座標上において一致されると推定される部分の始点と終了点を、例えば、図11においてばつ印(×)に示されるようにして選択したとき、始点と終了点との間の軌跡が、それ以外の部分とは区別可能に表示されるものとする。
そのとき、マイクロプロセッサ31は、操作コントローラ15、マウス16、または、キーボード17から供給されるユーザの操作入力に基づいて、ユーザにより選択されたコンテンツの始点と終了点の座標を得、それを基に、そのコンテンツの始点と終了点に対応するフレーム番号、または、対応するフレームの再生時刻(例えば、該当するコンテンツの開始位置からの相対時刻)などの情報を取得し、対応するメタデータのフレームに、始点フラグおよび終了点フラグを付与するとともに、始点と終了点との間の軌跡が、それ以外の部分とは区別可能に表示させるためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、ユーザにより指定された始点および終了点との間の軌跡がそれ以外の部分と区別可能なように表示されているGUI表示画面をディスプレイ18に表示させる。
また、後述するタイムラインモードにより、異なるコンテンツ間で内容が一致していることが設定されたあと、軌跡モードが実行された場合、内容が一致していると設定された部分については、自動的に、設定された始点および終了点との間の軌跡がそれ以外の部分と区別可能なように表示されるものとする。
すなわち、マイクロプロセッサ31は、HDD35に登録されたメタデータから、始点フラグおよび終了点フラグが付与されたフレームを抽出し、それらのフレーム間の軌跡がそれ以外の部分と区別することが可能なように、始点フラグおよび終了点フラグが付与されたフレームの座標を演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、ユーザにより指定された始点および終了点との間の軌跡がそれ以外の部分と区別可能なように、例えば、異なる色や異なる線種で表示されているGUI表示画面をディスプレイ18に表示させる。
また、GPU32は、マイクロプロセッサ31からデコードされたコンテンツデータの供給も受けるので、軌跡モードにおいては、上述した3次元空間の軌跡とともに、コンテンツデータを表示させることもできる。例えば、図12に示されるように、3次元空間とともに、ユーザにより選択された軌跡に対応するコンテンツを表示させるための別ウィンドウ71を設け、別ウィンドウ71に、選択された軌跡に対応するコンテンツデータを再生表示させるようにしても良い。
また、画像処理装置11において実行されるコンテンツデータの再生では、再生開始点を軌跡上の所定の点からとすることができるようにしても良い。すなわち、マイクロプロセッサ31は、対応するコンテンツのメタデータに基づいて、設定されている3次元空間座標の軌跡を描くために必要な演算を実行するので、軌跡の各点が、それぞれのコンテンツデータの再生時刻のどの点に対応するかを認識している。ユーザが、操作コントローラ15またはマウス16などを用いて、3次元空間座標の軌跡上の所定の座標を選択した場合、マイクロプロセッサ31は、サウスブリッジ34を介して供給される、ユーザの操作入力に対応する信号に基づいて、ユーザにより選択された座標に対応するコンテンツデータの再生開始点を求め、対応する部分からのデコード済みのデータをGPU32に供給する。GPU32は、マイクロプロセッサ31から供給されたデコード済みのデータを用いて、図12に示されるように、別ウィンドウ71に、選択された軌跡に対応するコンテンツデータを、ユーザにより指定された座標に対応するフレームから、ディスプレイ18に再生表示させる。
また、画像処理装置11で実行される軌跡モードにおいては、コンテンツデータを構成する各フレーム画像に対応するサムネイル画像を軌跡上の対応する位置に表示させたることが可能である。例えば、コンテンツデータの開始フレームを表示させることにより、軌跡とコンテンツとの関連をユーザが容易に認識できるようにしても良い。また、マイクロプロセッサ31は、軌跡の各点が、それぞれのコンテンツデータの再生時刻のどの点に対応するかを認識しているので、ユーザが、操作コントローラ15またはマウス16などを用いて、3次元空間座標の軌跡上の所定の座標を選択した場合、マイクロプロセッサ31は、サウスブリッジ34を介して供給される、ユーザの操作入力に対応する信号に基づいて、ユーザにより選択された座標に対応するフレーム画像データを抽出して、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、図13に示されるように、ディスプレイ18に表示されている軌跡上の所定の座標に、サムネイル画像を表示させる。
ユーザは、例えば、複数の軌跡のうち、内容が一致していると推定する部分の開始点および終了点などのフレーム画像に対応するサムネイル画像の表示を指令することなどにより、全てのフレームを確認することなく、それらの内容が一致しているか否かを確認することが可能となる。
このとき、マイクロプロセッサ31は、操作コントローラ15またはマウス16からサウスブリッジ34を介して供給されるユーザの操作入力に基づいて、対応するコンテンツのメタデータに対して、ユーザにより指定された座標に対応するフレーム画像データに対応するフレームの部分に、サムネイル画像表示フラグを付与する。
また、ユーザにより、既に表示されているサムネイル画像の表示の取り消しが指令された場合、マイクロプロセッサ31は、操作コントローラ15またはマウス16からサウスブリッジ34を介して供給されるユーザの操作入力に基づいて、対応するコンテンツのメタデータに対して、ユーザにより指定された座標に対応するフレーム画像データに対応するフレームのサムネイル画像表示フラグを消去するとともに、そのサムネイル画像の表示を取り消すための情報を生成して、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、ユーザに指定されたサムネイル画像の表示を取り消す。
このように、ユーザの所望の位置のフレーム画像データに対応するサムネイル画像を表示させることにより、ユーザは、対応する2つの軌跡の内容が本当に一致するものであるか、また、一致する場合は、どの部分が一致しているかを認識することが可能となる。
また、軌跡モードとは、時間軸の関係をなくして、各フレームの特徴量により構成される3次元空間上の軌跡を比較するものである。例えば、図14に示されるように、もともと連続する動画であるコンテンツ(a)と、コンテンツ(a)から間欠的にフレームを削除することにより再生時間が短くなるようになされた図中実線で示されるコンテンツ(f)とが3次元空間上に表示された場合のように、例えば、フレームごとに得られた特徴量の連続性の比較では類似が分かりにくいような場合であっても、表示された軌跡を比較することにより、これらのコンテンツ間の関係を、容易に認識することができる。
このように、軌跡モードでは、複数のコンテンツ間の相関関係を、時間軸の関係をなくして認識することができるが、特に、シーンチェンジが発生している場合など、目に見える軌跡の長さと実際のコンテンツの長さが一致しないので、それら1つ1つのコンテンツにおける時間軸とそれぞれのシーンとの位置関係が分かりにくい。また、軌跡モードでは、あるコンテンツとあるコンテンツの一部が一致していることを認識することができても、ぞれぞれのコンテンツの中でどの部分が他のコンテンツのどの部分と一致しているかについては、時間軸が明確ではないため、分かりにくい。
これに対して、タイムラインモードは、時間軸を設定し、複数のコンテンツを同一の時間軸に基づいて表示させるものである。
次に、図15乃至図21を参照して、タイムラインモードについて説明する。
タイムラインモードは、基本的には、軌跡モードにおいて、ユーザにより選択された選択コンテンツおよび注目コンテンツを同一の時間軸上に表示するものである。なお、時間軸は、表示対象となるコンテンツのうちの最も長い時間を有するコンテンツを基準とすると好適である。
例えば、上述した軌跡モードにおいて注目コンテンツが図4などで示されていたコンテンツ(a)と設定されており、コンテンツ(a)に対して、図7で示されていたコンテンツ(b´)、図8などで示されていたコンテンツ(c)、および、上述した図においては示されていないコンテンツXなどの、複数のコンテンツの一部が一致していると推定されて選択コンテンツとして選択され、ユーザにより、一致部分の始点および終了点が設定されている状態においてタイムラインモードが指令された場合について説明する。
画像処理装置11のマイクロプロセッサ31は、HDD35に登録されたメタデータから、注目コンテンツフラグが付与されたコンテンツのメタデータと、選択コンテンツフラグが付与されたメタデータを抽出する。そして、マイクロプロセッサ31は、抽出されたメタデータから、始点フラグおよび終了点フラグが付与されたフレームのフレーム番号とそのフレームの画像データを抽出するとともに、サムネイル画像表示フラグが付与されたフレーム、および、そのコンテンツの開始フレームおよび終了フレームのフレーム番号と画像データを抽出し、例えば、図15に示されるように、注目コンテンツとその他のコンテンツの開始時刻を基準とした同一タイムライン上に、それぞれのコンテンツの開始フレームおよび終了フレームのサムネイル画像、軌跡モードにおいて一致しているとされた部分の始点および終了点フレームのサムネイル画像、並びに、軌跡モードにおいて表示されていたサムネイル画像を表示させ、一致していると認識された部分をアンダーラインで示すためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、図15に示されるGUI表示画面をディスプレイ18に表示させる。ここでは、注目コンテンツであるコンテンツ(a)の一部が、表示されている他のコンテンツの一部と一致している。
また、マイクロプロセッサ31は、始点フラグおよび終了点フラグが付与されたフレームに基づいて、一致していると推定されている区間のフレーム数を計数し、注目コンテンツに対する他の選択コンテンツの一致率を演算し、GPU32に供給して、図15に示されるGUI表示画面に表示させることができる。
また、タイムラインモードにおいて表示されるサムネイル画像の数を増やすことにより、注目コンテンツと選択コンテンツのどの位置からどの位置までが一致しているかを、より直感的に正確に把握できるようにすることができる。
すなわち、マイクロプロセッサ31は、サムネイル画像表示フラグが付与されたフレームに加えて、所定間隔のフレームを全てサムネイル画像として表示するためのデータを演算し、GPU32に供給し、例えば、図16に示されるように多くのサムネイル画像が表示されたGUI画面を、ディスプレイ18に表示させるものとしても良い。このとき、サムネイル画像を表示するフレーム間隔を、一致していると設定されている部分は狭くし、一致していないと設定されている部分は狭くするようにしても良い。また、それぞれのサムネイルにシーンチェンジが発生している場合、そのシーンチェンジの最初のフレームに対応するサムネイル画像を表示するものとしても良い。マイクロプロセッサ31は、従来用いられている任意の方法で、それぞれのコンテンツのシーンチェンジ点を検出することができる。
なお、HDD35に登録されているメタデータにおいて、このようにして更に追加して表示されるサムネイル画像に対するサムネイル画像表示フラグも、メタデータに新たに登録される。すなわち、マイクロプロセッサ31は、所定間隔のフレーム、または、シーンチェンジ後の最初のフレームに対して、サムネイル画像表示フラグを付与し、メタデータを更新する。
また、タイムラインモードの表示画面において、ユーザが、サムネイル画像が表示されていない部分でサムネイル画像の表示の追加を希望する所望のポイントを指定し、その時刻に対応するサムネイル画像を表示させることができるようにしても良い。
このとき、マイクロプロセッサ31は、操作コントローラ15、マウス16、または、キーボード17から供給されるユーザの操作入力に基づいて、ユーザにより指定されたコンテンツの対応する時刻のフレームに対して、サムネイル画像表示フラグを付与する。そして、マイクロプロセッサ31は、サムネイル画像表示フラグが付与されたフレームに対応するサムネイル画像を更に表示させるためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、ユーザが指定した位置にサムネイル画像が更に追加して表示されたGUI表示画面をディスプレイ18に表示させる。
また、ユーザにより、既に表示されているサムネイル画像の表示の取り消しが指令された場合、マイクロプロセッサ31は、操作コントローラ15またはマウス16からサウスブリッジ34を介して供給されるユーザの操作入力に基づいて、対応するコンテンツのメタデータに対して、ユーザにより指定された座標に対応するフレーム画像データに対応するフレームのサムネイル画像表示フラグを消去するとともに、そのサムネイル画像の表示を取り消すための情報を生成して、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、ユーザに指定されたサムネイル画像の表示を取り消す。
なお、このようにして軌跡モードにおける場合から更に追加して表示されるサムネイル画像に対するサムネイル画像表示フラグは、軌跡モードにおいて設定されたサムネイル画像表示フラグと同一のものとしても良いし、区別可能なものとしても良い。区別可能なフラグが付与される場合、一旦タイムラインモードが実行されてサムネイル画像表示フラグが追加されたコンテンツに対して軌跡モードが実行されたとき、軌跡モードにおいては、追加して表示されたサムネイル画像は表示されないが、同一のフラグが付与される場合、一旦タイムラインモードが実行されてサムネイル画像表示フラグが追加されたコンテンツに対して軌跡モードが実行されたとき、軌跡モードにおいても全てのサムネイル画像が表示される。
また、例えば、図14を用いて説明したように、フレームの一部を間欠的に削除することによりコンテンツの再生時間を短くした場合や、コマーシャル部分を削除した場合などであっても、図17に示されるように、一致部分を示すアンダーラインや、ユーザが所望する位置を含むサムネイル画像の表示を参照することにより、ユーザは、再生時間の合計は異なるが、その内容は一致していることを容易に推測することが可能である。
また、注目コンテンツや注目コンテンツと対応して表示される選択コンテンツは、変更可能であることは言うまでもない。注目コンテンツや選択コンテンツを変更するには、例えば、軌跡モードにもう一度戻って、選択するコンテンツを変更するものとしても良い。また、注目コンテンツや選択コンテンツを変更するには、新たな選択対象となるコンテンツ、すなわち、HDD35にメタデータが登録されているコンテンツの一覧であるクリップ一覧を異なるウィンドウに表示させて、その中から、所望のコンテンツを選択するものとしても良い。
マイクロプロセッサ31は、操作コントローラ15、マウス16、または、キーボード17から供給されるユーザの操作入力に基づいて、選択コンテンツフラグまたは注目コンテンツフラグが付与されたメタデータを変更する。そして、マイクロプロセッサ31は、新たに設定された選択コンテンツフラグまたは注目コンテンツフラグが付与されたコンテンツのメタデータを抽出する。そして、マイクロプロセッサは、抽出されたメタデータから、始点フラグおよび終了点フラグが付与されたフレーム、サムネイル画像表示フラグが付与されたフレーム、および、そのコンテンツの開始フレームおよび終了フレームの画像データを抽出し、図15を用いて説明した場合と同様に、注目コンテンツとその他のコンテンツの開始時刻を基準とした同一タイムライン上に、それぞれのコンテンツの開始フレームおよび終了フレームのサムネイル画像、一致しているとされた部分の始点および終点フレームのサムネイル画像、並びに、軌跡モードにおいて表示されていたサムネイル画像を表示させ、一致していると認識された部分をアンダーラインで示すためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、新たに選択された注目コンテンツまたは選択コンテンツのサムネイル画像データがタイムライン上に表示されているGUI表示画面をディスプレイ18に表示させる。
また、タイムラインモードにおいても、図18に示されるように、別ウィンドウにおいて、注目コンテンツを再生表示し、タイムライン上に、その再生位置を示すようにしても良い。
また、図18に示される場合は、注目コンテンツを上述したコンテンツ(c)とし、コンテンツ(a)、コンテンツ(d)およびコンテンツ(e)が選択コンテンツとされている。選択コンテンツそれぞれの一部により構成された編集コンテンツが注目コンテンツであるので、注目コンテンツのアンダーラインは、コンテンツ(a)乃至コンテンツ(c)のそれぞれ異なるものに対応付けられる。そこで、このような場合、複数のコンテンツ間で一致していると認識されている部分全てに同一のアンダーラインを表示するのみではなく、対応するアンダーラインを線で結んで表示させたり、アンダーラインに複数の色を用いて、対応するアンダーラインは同色で表示させたり、アンダーラインの線種を複数用いて、対応するアンダーラインは同種のアンダーラインとすることなどにより、ユーザに、いずれのコンテンツのどの部分と、いずれのコンテンツのどの部分が一致するか、対応する部分を容易に認識することができるように表示することができる。
このように表示させる場合、マイクロプロセッサ31は、対応するメタデータに付与する始点フラグおよび終了点フラグを、それぞれ、一致している箇所ごとに区別して付与するものとすればよい。
また、画像処理装置11においては、軌跡モードにおいて設定された一致箇所の始点および終了点を、タイムラインモードにおいて修正することができる。
上述したように、ユーザは、タイムライン上の所望の点を選択し、その時点に対応するサムネイル画像の表示を指令することができる。そして、ユーザは、新たに表示されたサムネイル画像を確認し、図19に示されるように、アンダーラインの長さを変更したり、または、始点または終了点として新たに選択するフレームを選択する操作入力を行う。
マイクロプロセッサ31は、操作コントローラ15、マウス16、または、キーボード17から供給されるユーザの操作入力に基づいて、対応するメタデータの始点フラグまたは終了点フラグの位置を変更して、メタデータを更新する。そして、マイクロプロセッサ31は、更新されたメタデータに基づいて、サムネイル画像表示フラグが付与されたフレームを抽出し、それらのフレームに対応するサムネイル画像が表示されるとともに、それらのフレーム間に対応する部分にアンダーラインを示すためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、し、図20に示されるように、ユーザの操作入力に基づいて、一致していると推定される部分を示すアンダーラインの長さが修正されたGUI表示画面をディスプレイ18に表示させる。
このようにして、ユーザが蓄積しているコンテンツデータ、または、動画共有サイトなどにアップロードされているコンテンツデータのうちの一部が共通している場合、それらの関係性を整理することができれば、無駄なデータを削除したり、または、編集されたコンテンツから、その基となるコンテンツを検索することが容易となる。ユーザは、タイムラインモードにおける表示を参考として、例えば、図21に示されるように、一部共通しているコンテンツを容易に分類することが可能である。
なお、タイムラインモードにおいては、基本的には、軌跡モードにおいてユーザにより選択された選択コンテンツおよび注目コンテンツを、設定した時間軸上に表示するものとして説明したが、軌跡モードにおけるコンテンツの選択にかかわらず、タイムラインモードにおいて、注目コンテンツおよび選択コンテンツを設定することができるようにしても良いことは言うまでもない。
すなわち、画像処理装置11においては、例えば、選択対象となるコンテンツ、すなわち、HDD35にメタデータが登録されているコンテンツの一覧であるクリップ一覧を異なるウィンドウに表示させて、その中から、ユーザがタイムラインモードにおいて注目コンテンツ及び選択コンテンツとして表示させたい所望のコンテンツを選択することが可能である。
マイクロプロセッサ31は、操作コントローラ15、マウス16、または、キーボード17から供給されるユーザの操作入力に基づいて、対応するメタデータに、選択コンテンツフラグまたは注目コンテンツフラグを付与する。そして、マイクロプロセッサ31は、選択コンテンツフラグまたは注目コンテンツフラグが付与されたコンテンツのメタデータを抽出する。そして、マイクロプロセッサは、抽出されたメタデータに各種フラグが存在するか否かを判断し、各種フラグが存在する場合、メタデータから、始点フラグおよび終了点フラグが付与されたフレーム、サムネイル画像表示フラグが付与されたフレーム、および、そのコンテンツの開始フレームおよび終了フレームの画像データを抽出し、図15を用いて説明した場合と同様に、注目コンテンツとその他のコンテンツの開始時刻を基準とした同一タイムライン上に、それぞれのコンテンツの開始フレームおよび終了フレームのサムネイル画像、始点フラグおよび終了点フラグが付与されたフレームのサムネイル画像、並びに、軌跡モードにおいて表示されていたサムネイル画像を表示させ、一致していると認識された部分をアンダーラインで示すためのデータを演算し、GPU32に供給する。GPU32は、マイクロプロセッサ31から供給された情報に基づいて、新たに選択された注目コンテンツまたは選択コンテンツのサムネイル画像データがタイムライン上に表示されているGUI表示画面をディスプレイ18に表示させる。
なお、この場合、抽出されたメタデータに、始点フラグおよび終了点フラグが存在しなかった場合、一致部分を示すアンダーラインは表示されない。さらに、抽出されたメタデータにサムネイル画像表示フラグが存在しなかった場合、表示させるサムネイルは、所定時間間隔のフレームに対応するサムネイル画像を表示させるものとしても良いし、シーンチェンジに対応するフレームを表示させるものとしても良い。
このように、画像処理装置11においては、複数のコンテンツのそれぞれの先頭やシーンチェンジ点の画像を確認しなくても、動画の軌跡を確認することにより、一致の可能性があるか否かの選別の補助となるGUI表示画面を表示させることが可能である。
具体的には、軌跡モードにおいて、3次元座標軸の設定を変更したり、軌跡モードとタイムラインモードを繰り返して、所望の位置のサムネイル画像を表示させるなどすることにより、パラメータの傾向があっていても、実際は、異なるコンテンツであることを簡単に判別でき、また、内容が同じコンテンツが、編集や、画像サイズの変更または圧縮伸張などの画像処理の繰り返しにより、画像のパラメータが異なってしまった場合であっても、その一致部分を容易に見つけることができる。
これにより、例えば、動画共有サイトにおける著作権管理の手間を少なくすることができる。また、動画共有サイトにユーザがある動画をアップロードする場合、同一内容の動画が既に登録されていないか、容易に判断することができる。また、動画共有サイトを管理する管理者等においても、同様の動画が重なって登録されているとき、それらを整理したり、分類することが可能となる。
また、タイムラインモードの表示を参照して、編集後のコンテンツを構成する各シーンの基となる動画に対して、リンクをはって、例えば、編集されたコンテンツを鑑賞しているユーザが、その部分について更に興味を持った場合、リンクをたどって、編集素材となったコンテンツを視聴することができるようにするなどのサービスを、容易に提供することができる。
また、個人のユーザが多くのコンテンツを記録している場合であっても、同じコンテンツを重なって記録してしまうようなことがあったり、コンテンツを編集し、編集前素材コンテンツと編集後のコンテンツを含めて管理するべきコンテンツ数が膨大になってしまっても、画像処理装置11において、軌跡モードおよびタイムラインモードにおけるGUI表示画面を参照することにより、それらのコンテンツの一致する箇所を確認し、容易に分類整理することができる。
次に、図22は、画像処理装置11が上述した軌跡モードおよびタイムラインモードの処理を実行するために有する機能について説明するための機能ブロック図である。
図22に示されるように、コンテンツデータは、記憶装置12、ビデオデータ入力装置13-1乃至13-n、または、ドライブ14から供給される。そして、メタデータ抽出部101、圧縮画像生成部103、表示空間制御部106、座標および時間軸計算部107、および、デコーダ108は、マイクロプロセッサ31により機能するものである。
また、メタデータデータベース102およびビデオデータベース104は、HDD35の所定の領域である。そして、ユーザの操作入力を取得する操作入力取得部105は、操作コントローラ15、マウス16、およびキーボード17に対応し、ディスプレイ18に表示されるGUI100の表示の制御やレンダリングなどを行う画像表示制御部109は、GPU32に対応する。
ここでは、ビデオデータを構成している個々のピクチャから特徴パラメータを予めメタデータとして抽出しておき、それを用いてビデオデータを表示する構成について説明するが、ビデオデータを構成している個々のピクチャからメタデータを生成しながら、上述したようなGUI表示画面を表示するようにしても良いし、取得するコンテンツデータにメタデータが予め付与されている場合は、そのメタデータを用いて、上述したようなGUI表示画面を表示するようにしても良い。
また、画像処理装置11は、例えば、取得されたコンテンツデータの特徴パラメータを抽出し、メタデータデータベース102に登録するとともに、必要に応じてコンテンツデータを圧縮し、ビデオデータベース104に登録する処理を行うのみであってもよいし、他の装置によって生成されたメタデータを用いて、取得されたコンテンツデータに対して、上述したようなGUI表示画面を表示するのみであってもよい。すなわち、図中メタデータデータベース102-aおよびビデオデータベース104−aより左側に記載された機能と、メタデータデータベース102-bおよびビデオデータベース104−bより右側に記載された機能とは、それぞれ、異なる装置において実現されても良い。画像処理装置11がメタデータの抽出と表示処理とをいずれも実行するようになされている場合、メタデータデータベース102-aおよびメタデータデータベース102-bは、同一のデータベースであり、ビデオデータベース104−aおよびビデオデータベース104−bは、同一のデータベースである。
メタデータ抽出部101は、コンテンツデータを構成するAVデータから種々の特徴量を示す特徴パラメータを抽出し、これらをコンテンツデータに対するメタデータファイルとしてメタデータデータベース(メタデータDB)102に登録する。
圧縮画像生成部103は、メタデータ抽出部101を介して供給されたビデオデータの各ピクチャを圧縮して、ビデオデータベース(ビデオDB)104に登録する。また、圧縮画像生成部103は、更に、ビデオデータにおける各ピクチャの画素数を所定の割合で間引き、その結果得られる画素数の少ないビデオストリームをビデオDB104に登録するようにしても良い。画素数の少ないビデオストリームが予め生成されている場合、上述したサムネイル画像を容易に生成することができ、好適である。
操作入力取得部105は、画像表示制御部109の処理によりディスプレイ18への表示が制御された図3乃至図20を用いて説明したようなGUI100を参照したユーザの操作入力を取得し、表示空間制御部106に供給する。
表示空間制御部106は、ディスプレイ18に表示されたGUI100を参照したユーザの操作入力を、操作入力取得部105から取得し、ユーザにより指定された3次元表示空間の生成に用いられる表示軸のパラメータを認識し、必要なメタデータをメタデータデータベース102から読み出して座標および時間軸計算部107に供給させる。また、表示空間制御部106は、軌跡モードの3次元表示空間に対応するコンテンツや、タイムラインモードにおいて表示されるサムネイル画像に対応するコンテンツなどを認識し、ユーザにより選択されたコンテンツ、または、コンテンツの所定の時点に関する情報を、座標および時間軸計算部107に供給する。そして、表示空間制御部106は、所定のコンテンツのメタデータをメタデータデータベース102から読み出して座標および時間軸計算部107に供給させたり、所定のコンテンツのデータをビデオデータベース104から読み出してデコーダ108に供給させる。
座標および時間軸計算部107は、軌跡モードにおいて、表示されるそれぞれのコンテンツのメタデータを参照して、表示空間制御部106から供給された特徴パラメータを表示空間の表示軸に設定し、特徴パラメータを3次元表示空間内の座標(座標パラメータ)に計算により変換し、変換した座標パラメータの値に応じて3次元表示空間内の軌跡やサムネイル画像の配置位置を決定する。そして、座標および時間軸計算部107は、3次元表示空間内に配置されるべき複数の軌跡やサムネイル画像を決定された配置位置に表示させるために必要な情報を画像表示制御部109へ供給する。
また、座標および時間軸計算部107は、タイムラインモードにおいて、表示されるコンテンツの再生時間などに基づいて、その画面における時間軸を設定し、表示されるそれぞれのコンテンツのメタデータを参照して、サムネイル画像を決定された配置位置に表示させるために必要な情報を画像表示制御部109へ供給する。
デコーダ108は、ビデオDB104から供給されビデオストリームをデコードし、その結果得られるデコード後のビデオデータを画像表示制御部109へ送出する。
画像表示制御部109は、座標および時間軸計算部107から供給された各種情報、および、デコーダ108から供給されたビデオデータを用いて、図3乃至図20を用いて説明したようなGUI100のディスプレイ18への表示を制御する。
次に、図23は、メタデータ抽出部の更に詳細な機能例について説明するための機能ブロック図である。図23においては、抽出されるメタデータとして、画像の細かさ、動き、DCT縦横方向周波数成分、色成分、音声、および、輝度を例として説明するが、上述したように、抽出可能なメタデータは、この限りではない。
メタデータ抽出部101は、細かさ情報算出部131、動き検出部132、DCT縦横周波数成分検出部133、色成分検出部134、音声検出部135、輝度色差検出部136などの特徴量の検出手段、および、メタデータファイル生成部137によって形成されている。但し、メタデータ抽出部101は、これら以外のパラメータの特徴量を抽出するための種々の検出部が設けられていても良い。
細かさ情報算出部131は、平均値算出部151、差分値演算部152、および、積算部153から構成されている。
平均値算出部151は、ビデオデータの供給を受け、ビデオデータのフレームを順次、注目フレームとし、その注目フレームを、例えば、図24に示すように、8×8画素のブロックに分割する。さらに、平均値算出部151は、注目フレームにおける各ブロックの画素値の平均値を求め、これを差分値演算部152へ供給する。
ここで、8×8画素のブロックのラスタスキャン順で、k番目の画素の画素値をPkと表した場合、平均値算出部151は、画素値の平均値Paveを、次の式(1)を用いて求める。
Pave=1/(8×8)×ΣPk ・・・(1)
なお、式(1)におけるサメーションΣは、kを1から8×8(=64)までに変えてのサメーションを表す。
差分値演算部152は、平均値算出部151と同様に、注目フレームを、8×8画素のブロックに分割し、ブロックの各画素値Pkと、平均値算出部151から供給される、そのブロックの画素値の平均値Paveとの差分値の絶対値|Pk−Pave|を求め、積算部153に供給する。
積算部153は、差分値演算部152から供給されるブロックの各画素について求められた差分値の絶対値|Pk−Pave|を積算し、積算値Q=Σ|Pk−Pave|を求める。ここで、積算値Q=Σ|Pk−Pave|におけるサメーションΣは、kを、1から8×8(=64)までに変えてのサメーションを表す。
さらに、積算部153は、注目フレームのすべてのブロックについて得られた積算値Qの総和を求め、これを注目フレームの細かさ情報QS1としてメタデータファイル生成部137へ出力する。
なお、注目フレームについて求められる積算値Qの総和は、イントラAC(Intra−AC)と呼ばれるもので、その値が大きいほど、注目フレームにおける画素値にばらつきが大きい。従って、積算値Qの総和である細かさ情報QS1が大きいほど、注目フレームは細かな(複雑な)画像であるということになる。
動き検出部132は、動きベクトル検出部161および統計量算出部162で構成されている。
動きベクトル検出部161は、図25に示すように、前フレームを16×16画素のマクロブロックに分割し、前フレームの各マクロブロックについて、そのマクロブロックに最も類似する注目フレームの16×16画素のブロック(以下、類似ブロックという)を検出する。そして、動きベクトル検出部161は、マクロブロックの、例えば、左上を始点とすると共に、類似ブロックの左上を終点とするベクトルを、マクロブロックの動きベクトル△F0(h,v)として求める。
いま、前フレームの左からh番目で、上からv番目のマクロブロックの位置をF0(h,v)と表すと共に、マクロブロックF0(h,v)から、そのマクロブロックF0(h,v)の動きベクトル△F0(h,v)だけ移動した位置の注目フレームの16×16画素のブロック、即ち、類似ブロックの位置をF1(h,v)と表すこととすると、マクロブロックF0(h,v)の動きベクトル△F0(h,v)は、次の式(2)で示される。
△F0(h,v)=F1(h,v)−F0(h,v)・・・(2)
統計量算出部162は、前フレームのマクロブロックについて求められた動きベクトルの統計量として、例えば、前フレームにおける全てのマクロブロックの動きベクトル△F0(h,v)の大きさ|△F0(h,v)|の総和D0=Σ|△F0(h,v)|を求め、この総和D0を、注目フレームの動き情報として出力する。
なお、総和D0=Σ|△F0(h,v)|におけるサメーションΣは、hを、1から、前フレームの横方向のマクロブロックの数までに変えると共に、vを、1から、前フレームの縦方向のマクロブロックの数までに変えてのサメーションを表す。
ここで、前フレームの各マクロブロックF0(h,v)における動きベクトル△F0(h,v)の大きさが大きいと、その和である動き情報D0も大きくなる。従って、注目フレームの動き情報D0が大きい場合には、注目フレームの画像の動きも大きい(激しい)ということになる。
なお、上述の場合には、前フレームのマクロブロックについて求められた動きベクトルの統計量として、前フレームの全てのマクロブロックにおける動きベクトル△F0(h,v)の大きさ|△F0(h,v)|の総和D0=Σ|△F0(h,v)|を求めるようにしたが、前フレームのマクロブロックについて求められた動きベクトルの統計量としては、その他、例えば、前フレームのマクロブロックについて求められた動きベクトルの分散を採用することが可能である。
この場合、統計量算出部162では、前フレームの全てのマクロブロックにおける動きベクトル△F0(h,v)の平均値△aveが求められ、前フレームの全てのマクロブロックF0(h,v)における動きベクトル△F0(h,v)の分散σ0が、例えば、次の式(3)を演算することで求められる。
σ0=Σ(△F0(h,v)−△ave)2・・・(3)
なお、式(3)の分散におけるサメーションΣは、hを、1から、前フレームの横方向のマクロブロックの数までに変えると共に、vを、1から、前フレームの縦方向のマクロブロックの数までに変えてのサメーションを表す。
この分散σ0も、総和D0と同様に、注目フレームの画像の動きが大きい(激しい)と大きくなる。
なお、動き検出部132は、各フレームの画素値の簡略的なヒストグラムを作成し、あるフレームのヒストグラムと前フレームに対するヒストグラムとの差分絶対値和を注目フレームの動き情報としてもよい。
例えば、ビデオデータの画素値が、例えば、0乃至255の整数値により表現可能な8ビットで表されるとすると、動き検出部132は、図26に示されるように、所定の画素値の幅で、iフレーム目とi+1フレーム目の画素値の簡略的なヒストグラムを作成し、これらのヒストグラムの同一の小範囲における度数同士の差分値の絶対値△(図26において影を付して示す部分)の総和(差分絶対値和)Σ△を求め、注目フレームの動き情報としてメタデータファイル生成部137へ出力する。
ここで、注目フレームの動きが大きい(激しい)場合には、注目フレームの画素値の度数分布は、前フレームの画素値の度数分布と異なるものになる。従って、注目フレームの差分絶対値和Σ△が大きい場合には、注目フレームの画像の動きも大きい(激しい)ということになる。
次に、DCT縦横周波数成分検出部133は、周波数分析部171および縦すじ横すじレベル算出部172を含んで構成されている。
図27は、DCT縦横周波数成分検出部133の周波数分析部171の構成例を示す機能ブロック図である。この周波数分析部171は、DCT変換部221、積算部222、および、重み係数算出部223から構成されている。
DCT変換部221には、ビデオデータが供給され、このビデオデータのフレームを、順次、注目フレームとし、注目フレームを、例えば、8×8画素のブロックに分割する。更にDCT変換部221は、注目フレームの各ブロックをDCT変換し、各ブロックについて得られる8×8個のDCT係数を積算部222へ供給する。
重み係数算出部223は、ブロックの8×8個のDCT係数それぞれに付す重みを求めて積算部222へ供給する。積算部222は、DCT変換部221から供給されるブロックの8×8個のDCT係数それぞれに、重み係数算出部223から供給される重みを付して積算することにより積算値を求める。更に積算部222は、注目フレームの各ブロックについて求められた積算値の総和を求め、注目フレームの細かさ情報として縦すじ横すじレベル算出部172へ送出する。
ここで注目フレームに高周波成分が含まれるほど、積算値Vの総和Kである細かさ情報は大きくなるので、注目フレームの画像が細かな(複雑な)静止画像であるということになる。
そして、DCT縦横周波数成分検出部133の縦すじ横すじレベル算出部172は、注目フレームのうちエリアAR1におけるDCT係数に基づいて縦方向に細かいスジが存在する画像すなわち横方向の周波数が高い画像であることや、注目フレームのうちエリアAR2におけるDCT係数に基づいて横方向に細かいスジが存在する画像すなわち縦方向の周波数が高い画像であることを検出するようになされている。
これによりDCT縦横周波数成分検出部133では、周波数分析部171で注目フレームの画像が細かな(複雑な)静止画像であるか否かを判別し得ると共に、横方向の周波数及び縦方向の周波数がどのくらいのレベルにあるのかを判別し、それをDCT縦横周波数成分情報FVHとしてメタデータファイル生成部137へ出力するようになされている。
そして、色成分検出部134は、画素RGBレベル検出部181、RGBレベル統計分散検出部182、および、HLSレベル統計分散検出部183から構成されている。
画素RGBレベル検出部181は、ビデオデータの注目フレームにおける各画素のRGBレベルをそれぞれ検出し、その検出結果をRGBレベル統計分散検出部182およびHLSレベル統計分散検出部183へ送出する。
RGBレベル統計分散検出部182は、画素RGBレベル検出部181から供給された注目フレームにおける各画素のRGBレベルに対する統計及び分散を算出し、注目フレームにおけるRGBの各色成分がどのようなレベルにあるのかを示す統計値や、注目フレームにおける色成分が全体的な色として付されているのか、局所的な色として付されているのかを示す分散値を色成分情報CL1としてメタデータファイル生成部137へ出力する。
HLSレベル統計分散検出部183は、画素RGBレベル検出部181から供給された注目フレームにおける各画素のRGBレベルを、色相(Hue)、彩度(Saturation)および輝度(Luminance/Lightness)の3つの成分に変換し、これら色相、彩度及び輝度からなる、図28に示すHLS空間における各要素の統計及び分散として算出し、その検出結果をHLS情報CL2としてメタデータファイル生成部137へ出力するようになされている。
ここでHLS空間における色相とは、色味を0度乃至359度の範囲の角度で表したものであり、0度は赤で、その反対側に位置する180度は赤の反対にあたる青緑となる。すなわち、HLS空間では反対色を見つけるのも容易である。
HLS空間における彩度とは、有彩色が混ざる割合のことであり、特にHLS空間ではHSV(色相(Hue)、彩度(Saturation)及び明度(Value))空間とは異なり、純色から彩度が落ちるということは、すなわち灰色になっていくという考え方に基づいているので、灰色に近いと彩度が低く、灰色から遠いと彩度が高いということになる。
HLS空間における輝度とは、HSV空間のように明度100%を純色とし、そこからどれだけ明るさが失われるかを示すのとは異なり、輝度0%を黒、輝度100%を白とし、その中間を純白としたものである。
したがって、HLSレベル統計分散検出部183は、RGB空間に比べて色相を一段と分かり易く表現したHLS情報CL2をメタデータファイル生成部137へ出力することができる。
音声検出部135は、周波数分析部191およびレベル検出部192から構成されている。
周波数分析部191では、ビデオデータの注目フレームに対応したオーディオデータの供給を受けてその周波数を分析し、その周波数帯域をレベル検出部192へ通知する。
レベル検出部192は、周波数分析部191から通知された周波数帯域における音声データのレベルを検出し、その音声レベル情報ALをメタデータファイル生成部137へ出力する。
輝度色差検出部136は、Y、Cb、Crレベル検出部201と、Y、Cb、Crレベル統計分散検出部202とから構成されている。
Y、Cb、Crレベル検出部201は、ビデオデータの供給を受け、ビデオデータの注目フレームにおける各画素の輝度信号Yの輝度レベル、色差信号Cb、Crの信号レベルを検出し、これらをY、Cb、Crレベル統計分散検出部202へ供給する。
Y、Cb、Crレベル統計分散検出部202は、Y、Cb、Crレベル検出部201から供給された注目フレームにおける各画素の輝度信号Yの輝度レベル、色差信号Cb、Crの信号レベルに対する統計及び分散を算出し、注目フレームにおける輝度信号Y、色差信号Cb、Crがどのようなレベルにあるのかを示す統計値や、注目フレームにおける輝度信号Y、色差信号Cb、Crの分散値を色成分情報CL3としてメタデータファイル生成部137へ出力する。
そして、メタデータファイル生成部137は、細かさ情報算出部131から得られる細かさ情報QS1、動き検出部132から得られる注目フレームの動き情報D0、DCT縦横周波数成分検出部133から得られるDCT縦横周波数成分情報FVH、色成分検出部134から得られる色成分情報CL1やHLS情報CL2、音声検出部135から得られる音声レベル情報AL、及び輝度色差検出部136から得られる色成分情報CL3を基に、ビデオデータを構成しているピクチャの特徴パラメータまたはビデオデータに対応するオーディオデータの特徴パラメータを、メタデータを含むメタデータファイルとしてそれぞれ生成し、これを出力する。
このメタデータファイルには、例えば、図29に示すように、コンテンツデータを構成している1フレームから最終フレームまでの複数のピクチャ毎に「タイムコード」、「動き量」、「細かさ」、「赤」、「青」、「緑」、「輝度」、「赤分散」、「緑分散」、「色相」、「飽和度」、「縦スジ」、「横スジ」、「動き分散」および「音声レベル」等の様々な特徴パラメータが登録される。
なお、図29に示されるメタデータファイルの各特徴パラメータにおける特徴量の値としては、0乃至1の間の正規化された相対値を用いているが、パラメータの値は、これに限るものではなく、例えば、絶対値を用いても良い。また、メタデータファイルの内容としても、上述した特徴パラメータの特徴量に限られるものではない。例えば、上述した軌跡モードにおいて、対応するコンテンツに基づいて、いずれかの特徴量を軸とした空間の軌跡が表示された場合、その3次元空間上の座標値についてもメタデータの一種として登録しておくようにすると好適である。
次に、図30のフローチャートを参照して、画像処理装置11が実行する画像認識のためのGUI表示処理について説明する。
ステップS11において、メタデータ抽出部101は、コンテンツデータを取得する。
ステップS12において、メタデータ抽出部101は、取得されたコンテンツデータにメタデータが付随されているか否かを判断する。
ステップS12において、メタデータが付随されていないと判断された場合、ステップS13において、メタデータ抽出部101は、図23乃至図28を用いて説明したようにして、コンテンツデータを解析し、たとえば、図29に示されるようなメタデータを生成する。
ステップS12において、メタデータが付随されていると判断された場合、または、ステップS13の処理の終了後、ステップS14において、メタデータ抽出部101は、付随されていた、または、生成したメタデータにより構成されるメタデータファイルをメタデータデータベース102に供給する。メタデータデータベース102は、供給されたメタデータファイルを、コンテンツデータごとに区別可能なように登録するとともに、コンテンツデータを、圧縮画像生成部103に供給する。
ステップS15において、圧縮画像生成部103は、供給されたコンテンツデータをビデオデータベース104に登録するために、圧縮符号化が必要であるか否かを判断する。
ステップS15において、圧縮符号化が必要であると判断された場合、ステップS16において、圧縮画像生成部103は、供給されたコンテンツデータに圧縮符号化を行う。
ステップS15において、圧縮符号化が必要ではないと判断された場合、または、ステップS16の処理の終了後、ステップS17において、圧縮画像生成部103は、コンテンツデータをビデオデータベース104に供給する。ビデオデータベース104は、供給されたコンテンツデータを記憶する。
ステップS18において、圧縮画像生成部103は、取得が指令されたコンテンツデータは、全て記録されたか否かを判断する。ステップS18において、取得が指令されたコンテンツデータの記録がまだ終了していないと判断された場合、処理は、ステップS11に戻り、それ以降の処理が繰り返される。
ステップS18において、取得が指令されたコンテンツデータが全て記録されたと判断された場合、ステップS19において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、軌跡モードの実行が指令されたか否かを判断する。
ステップS19において、軌跡モードの実行が指令されたと判断された場合、ステップS20において、図31および図32を用いて後述する軌跡モード実行処理が実行される。
ステップS19において、軌跡モードの実行が指令されていないと判断された場合、ステップS21において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、タイムラインモードの実行が指令されたか否かを判断する。
ステップS21において、タイムラインモードの実行が指令されたと判断された場合、ステップS20において、図33および図34を用いて後述するタイムラインモード実行処理が実行される。
ステップS20またはステップS22の処理の終了後、ステップS23において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、モードの変更が指令されたか否かを判断する。ステップS23において、モードの変更が指令されたと判断された場合、処理は、ステップS19に戻り、それ以降の処理が繰り返される。
ステップS23において、モードの変更が指令されていないと判断された場合、ステップS24において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、コンテンツデータの追加記録が指令されたか否かを判断する。ステップS24において、コンテンツデータの追加記録が指令されたと判断された場合、処理は、ステップS11に戻り、それ以降の処理が繰り返される。
ステップS24において、コンテンツデータの追加記録が指令されていないと判断された場合、ステップS25において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、処理の終了が指令されたか否かを判断する。ステップS25において、処理の終了が指令されていないと判断された場合、処理は、ステップS19に戻り、それ以降の処理が繰り返される。
ステップS25において、処理の終了が指令されたと判断された場合、処理は終了される。
このような処理により、取得されたコンテンツのメタデータが登録され、ユーザの操作入力に基づいて、軌跡モードまたはタイムラインモードが実行される。
次に、図31および図32のフローチャートを参照して、図30のステップS20において実行される、軌跡モード実行処理について説明する。
ステップS51において、表示空間制御部106は、初期設定、または、操作入力取得部105から供給される、ユーザの操作入力に基づいて、3次元空間の座標の設定を取得し、ユーザにより指定された3次元表示空間の生成に用いられる表示軸のパラメータを認識する。
ステップS52において、操作入力取得部105は、表示対象となるコンテンツの選択を受け、表示空間制御部106に供給する。表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、必要なメタデータをメタデータデータベース102から読み出して座標および時間軸計算部107に供給させる。
ステップS53において、座標および時間軸計算部107は、表示対象となるコンテンツのメタデータを取得する。
ステップS54において、座標および時間軸計算部107は、取得されたメタデータに各種フラグが存在するか否かを判断する。
ステップS54において、取得されたメタデータに各種フラグが存在すると判断された場合、ステップS55において、座標および時間軸計算部107は、各種フラグを反映させて、表示されるそれぞれのコンテンツのメタデータを参照して、表示空間制御部106から供給された特徴パラメータを表示空間の表示軸に設定し、特徴パラメータを3次元表示空間内の座標(座標パラメータ)に計算により変換し、変換した座標パラメータの値に応じて3次元表示空間内の軌跡およびその線種、並びに、サムネイル画像の配置位置を決定する。そして、座標および時間軸計算部107は、3次元表示空間内に配置されるべき複数の軌跡やサムネイル画像を決定された配置位置に表示させるために必要な情報を画像表示制御部109へ供給する。そして、画像表示制御部109は、例えば、図3乃至図14を用いて説明したような、表示対象となるコンテンツのメタデータに対応する軌跡が3次元空間に表示されているGUI100のディスプレイ18への表示を制御する。
ステップS54において、取得されたメタデータに各種フラグが存在しないと判断された場合、ステップS56において、座標および時間軸計算部107は、表示されるそれぞれのコンテンツのメタデータを参照して、表示空間制御部106から供給された特徴パラメータを表示空間の表示軸に設定し、特徴パラメータを3次元表示空間内の座標(座標パラメータ)に計算により変換し、変換した座標パラメータの値に応じて3次元表示空間内の軌跡の配置位置を決定する。そして、座標および時間軸計算部107は、3次元表示空間内に配置されるべき複数の軌跡を決定された配置位置に表示させるために必要な情報を画像表示制御部109へ供給する。そして、画像表示制御部109は、例えば、図3を用いて説明したような、表示対象となるコンテンツのメタデータに対応する軌跡が3次元空間に表示されているGUI100のディスプレイ18への表示を制御する。
ステップS55またはステップS56の処理の終了後、ステップS57において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、3次元空間の座標の設定の変更が指令されたか否かを判断する。ステップS57において、3次元空間の座標の設定の変更が指令されたと判断された場合、処理は、ステップS51に戻り、それ以降の処理が繰り返される。
ステップS57において、3次元空間の座標の設定の変更が指令されていないと判断された場合、ステップS58において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、表示対象となるコンテンツの変更が指令されたか否かを判断する。ステップS58において、表示対象となるコンテンツの変更が指令されたと判断された場合、処理は、ステップS52に戻り、それ以降の処理が繰り返される。
ステップS58において、表示対象となるコンテンツの変更が指令されていないと判断された場合、ステップS59において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、GUI表示画面に表示されているいずれかの軌跡が選択されたか、すなわち、コンテンツの選択が指令されたか否かを判断する。ステップS59において、コンテンツの選択が指令されていないと判断された場合、処理は、後述するステップS62に進む。
ステップS59において、コンテンツの選択が指令されたと判断された場合、ステップS60において、表示空間制御部106は、ユーザにより指定されたコンテンツのメタデータに対して、選択コンテンツフラグを付与する。
ステップS61において、表示空間制御部106は、ユーザにより指定されたコンテンツを示す情報を、座標および時間軸計算部107に供給する。座標および時間軸計算部107は、ユーザにより指定されたコンテンツに対応する軌跡の表示を、例えば、ハイライト表示や、異なる色の表示などに変更するための情報を生成し、画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたGUI100の3次元空間におけるユーザにより指定されたコンテンツに対応する軌跡の表示を変更する。
ステップS59において、コンテンツの選択が指令されていないと判断された場合、または、ステップS61の処理の終了後、ステップS62において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、注目コンテンツの選択が指令されたか否かを判断する。ステップS62において、注目コンテンツの選択が指令されていないと判断された場合、処理は、後述するステップS65に進む。
ステップS62において、注目コンテンツの選択が指令されたと判断された場合、ステップS63において、表示空間制御部106は、注目コンテンツとして指定されたコンテンツのメタデータに対して、注目コンテンツフラグを付与する。
ステップS64において、表示空間制御部106は、ユーザにより指定された注目コンテンツを示す情報を、座標および時間軸計算部107に供給する。座標および時間軸計算部107は、ユーザにより指定された注目コンテンツに対応する軌跡の表示を、例えば、ハイライト表示や、異なる色の表示など、選択コンテンツとも更に異なる表示方法に変更するための情報を生成し、画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたGUI100の3次元空間におけるユーザにより指定された注目コンテンツに対応する軌跡の表示を変更する。
ステップS62において、注目コンテンツの選択が指令されていないと判断された場合、または、ステップS64の処理の終了後、ステップS65において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、一致していると推定される部分の開始点または終了点の選択を受けたか否かを判断する。ステップS65において、一致していると推定される部分の開始点または終了点の選択を受けていないと判断された場合、処理は、後述するステップS68に進む。
ステップS65において、一致していると推定される部分の開始点または終了点の選択を受けたと判断された場合、ステップS66において、表示空間制御部106は、ユーザにより指定された座標に対応するフレームに、始点または終了点を示す始点フラグおよび終了点フラグを付与する。
ステップS67において、表示空間制御部106は、一致していると推定される部分の開始点または終了点を示す情報を、座標および時間軸計算部107に供給する。座標および時間軸計算部107は、ユーザにより指定された一致していると推定される部分の開始点または終了点の座標を演算し、画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたGUI100の3次元空間におけるユーザにより指定された一致していると推定される部分の開始点または終了点に、例えば、ばつ印などをつけたり、その間の軌跡の表示を変更する。
ステップS65において、一致していると推定される部分の開始点または終了点の選択を受けていないと判断された場合、または、ステップS67の処理の終了後、ステップS68において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、サムネイル画像の表示が指令されたか否かを判断する。ステップS68において、サムネイル画像の表示が指令されていないと判断された場合、処理は、後述するステップS71に進む。
ステップS68において、サムネイル画像の表示が指令されたと判断された場合、ステップS69において、表示空間制御部106は、ユーザにより指定された座標に対応するフレームに、サムネイル画像表示フラグを付与する。
ステップS70において、表示空間制御部106は、ユーザにより指定された座標に対応するフレームを示す情報を、座標および時間軸計算部107に供給する。さらに、表示空間制御部106は、そのフレームの画像をビデオデータベース104から読み出して、デコーダ108においてデコードさせ、画像表示制御部109に供給させる。座標および時間軸計算部107は、ユーザにより指定された座標情報を画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたGUI100の3次元空間におけるユーザにより選択された座標に、対応するフレーム画像データに基づくサムネイル画像を表示させる。
ステップS68において、サムネイル画像の表示が指令されていないと判断された場合、または、ステップS70の処理の終了後、ステップS71において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、動画の再生が指令されたか否かを判断する。ステップS71において、動画の再生が指令されていないと判断された場合、処理は、後述するステップS75に進む。
ステップS71において、動画の再生が指令されたと判断された場合、ステップS72において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、再生開始位置が指令されているか否かを判断する。
ステップS72において、再生開始位置が指令されていると判断された場合、ステップS73において、表示空間制御部106は、ユーザにより指定された軌跡の再生開始位置として指定された座標から、その軌跡に対応するコンテンツとその再生開始フレームを演算し、座標および時間軸計算部107に供給する。さらに、表示空間制御部106は、そのコンテンツの指定された座標に対応するフレーム以降の画像をビデオデータベース104から読み出して、デコーダ108においてデコードさせ、画像表示制御部109に供給させる。座標および時間軸計算部107は、別ウィンドウを表示し、指定された軌跡に対応するコンテンツを指定された再生開始位置から再生表示させるための情報を生成して、画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたGUI100に別ウィンドウを表示して、指定された軌跡に対応するコンテンツを指定された再生開始位置から再生表示させる。
ステップS72において、再生開始位置が指令されていないと判断された場合、ステップS74において、表示空間制御部106は、ユーザにより指定されたコンテンツを示す情報を、座標および時間軸計算部107に供給する。さらに、表示空間制御部106は、そのコンテンツの画像を、先頭から、ビデオデータベース104から読み出して、デコーダ108においてデコードさせ、画像表示制御部109に供給させる。座標および時間軸計算部107は、別ウィンドウを表示し、指定された軌跡に対応するコンテンツを再生表示させるための情報を生成して、画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたGUI100に別ウィンドウを表示して、指定された軌跡に対応するコンテンツを再生表示させる。
ステップS71において、動画の再生が指令されていないと判断された場合、または、ステップS73もしくはステップS74の処理の終了後、ステップS75において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、操作終了、モードの変更、または、コンテンツの追加記録が指令されたか否かを判断する。
ステップS75において、操作終了、モードの変更、または、コンテンツの追加記録が指令されていないと判断された場合、処理は、ステップS57に戻り、それ以降の処理が繰り返される。ステップS75において、操作終了、モードの変更、または、コンテンツの追加記録が指令されたと判断された場合、処理は、図30のステップS20に戻り、ステップS23に進む。
このような処理により、図3乃至図14を用いて説明したような軌跡モードが実行されて、ユーザが所望する特徴パラメータにより軸が構成される仮想的な3次元空間において、それぞれのコンテンツの特徴量に基づいた軌跡が描画されるので、ユーザは、少なくともその一部が一致していると推定されるコンテンツの組み合わせなどを容易に見つけることができ、それらのコンテンツの軌跡の表示を変更させたり、所望の位置にサムネイル画像を表示させたり、一致していると思われる部分の開始点と終了点に挟まれる範囲をそれ以外の部分と区別可能にすることができる。
次に、図33および図34のフローチャートを参照して、図33のステップS22において実行される、タイムラインモード実行処理について説明する。
ステップS101において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、軌跡モード実行状態からタイムラインモードに変更されたか否かを判断する。
ステップS101において、軌跡モード実行状態からタイムラインモードに変更されたと判断された場合、ステップS102において、表示空間制御部106は、選択コンテンツフラグおよび注目コンテンツフラグが付与されたコンテンツのメタデータをメタデータデータベース102から読み出して座標および時間軸計算部107に供給する。座標および時間軸計算部107は、選択コンテンツフラグおよび注目コンテンツフラグが付与されたコンテンツのメタデータを取得する。
ステップS103において、座標および時間軸計算部107は、取得されたメタデータから、各種フラグを抽出する。
ステップS104において、座標および時間軸計算部107は、各種フラグに基づいて、アンダーラインおよびサムネイル画像データを表示させるための情報を生成し、画像表示制御部109へ供給する。ステップS104の処理の終了後、処理は、後述するステップS108に進む。
ステップS101において、軌跡モード実行状態からタイムラインモードに変更されていないと判断された場合、ステップS105において、表示空間制御部106は、ビデオデータベース104に記録されている、タイムラインモードにおいて表示されるコンテンツとして選択可能なコンテンツはいずれであるかを判断し、選択可能なコンテンツの一覧を表示するために必要な情報を画像表示制御部109へ供給する。そして、画像表示制御部109は、選択可能なコンテンツの一覧をGUI100のディスプレイ18へ表示させる。
ステップS106において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、選択コンテンツおよび注目コンテンツの入力を受け、その情報を、画像表示制御部109へ供給する。
ステップS107において、表示空間制御部106は、選択コンテンツおよび注目コンテンツとしてユーザにより選択されたコンテンツのメタデータに、選択コンテンツフラグおよび注目コンテンツフラグを付与するとともに、これらのコンテンツのメタデータをメタデータデータベース102から読み出して座標および時間軸計算部107に供給する。座標および時間軸計算部107は、選択コンテンツフラグおよび注目コンテンツフラグが付与されたコンテンツのメタデータを取得し、選択されたコンテンツに対応するサムネイル画像データを表示させるための情報を生成し、画像表示制御部109へ供給する。
ステップS104またはステップS107の処理の終了後、ステップS108において、画像表示制御部109は、例えば、図15乃至図17を用いて説明したような、タイムライン上にサムネイル画像データが並べられたGUI表示画面のディスプレイ18への表示を制御する。
ステップS109において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、コンテンツを新たに追加して表示することが指令されたか否かを判断する。ステップS109において、コンテンツを新たに追加して表示することが指令されていないと判断された場合、処理は、後述するステップS113に進む。
ステップS109において、コンテンツを新たに追加して表示することが指令されたと判断された場合、ステップS110において、表示空間制御部106は、ビデオデータベース104に記録されているコンテンツのうち、現在表示されていないコンテンツであって、タイムラインモードにおいて表示されるコンテンツとして選択可能なコンテンツはいずれであるかを判断し、選択可能なコンテンツの一覧を表示するために必要な情報を画像表示制御部109へ供給する。そして、画像表示制御部109は、選択可能なコンテンツの一覧をGUI100のディスプレイ18へ表示させる。
ステップS111において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、選択されたコンテンツの入力を受け、その情報を、画像表示制御部109へ供給する。
ステップS112において、表示空間制御部106は、ユーザにより新たに選択されたコンテンツのメタデータに、選択コンテンツフラグ(または、注目コンテンツフラグ)を付与するとともに、これらのコンテンツのメタデータをメタデータデータベース102から読み出して座標および時間軸計算部107に供給する。座標および時間軸計算部107は、新たに選択されたコンテンツのメタデータを取得し、新たに選択されたコンテンツに対応するサムネイル画像データをタイムラインに追加して表示させるための情報を生成し、画像表示制御部109へ供給する。
そして、画像表示制御部109は、例えば、図15乃至図17を用いて説明したような、GUI表示画面のタイムライン上に、新たに選択されたコンテンツのサムネイル画像を追加して表示させる。
ステップS109において、コンテンツを新たに追加して表示することが指令されていないと判断された場合、または、ステップS112の処理の終了後、ステップS113において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、タイムライン上にサムネイル画像の表示を追加する操作入力を受けたか否かを判断する。タイムライン上にサムネイル画像の表示を追加する方法は、例えば、一定間隔ごとにサムネイル画像を追加するものであっても、シーンチェンジ直後のサムネイル画像を表示させるものであっても、タイムライン上でユーザが指定する時刻のサムネイル画像を追加するものであっても良い。ステップS113において、タイムライン上にサムネイル画像の表示を追加する操作入力を受けていないと判断された場合、処理は、後述するステップS116に進む。
ステップS113において、タイムライン上にサムネイル画像の表示を追加する操作入力を受けたと判断された場合、ステップS114において、表示空間制御部106は、サムネイル画像の表示の指令に対応するコンテンツのメタデータに対して、追加して表示されるフレームにサムネイル画像表示フラグを付与して更新する。
ステップS115において、表示空間制御部106は、タイムライン上に所定のサムネイル画像の表示を追加するための情報を座標および時間軸計算部107に供給する。さらに、表示空間制御部106は、サムネイル画像として追加表示されるフレームの画像をビデオデータベース104から読み出して、デコーダ108においてデコードさせ、画像表示制御部109に供給させる。座標および時間軸計算部107は、サムネイル画像を表示させるべきタイムライン上の位置を演算し、その演算結果を画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたGUI100に、対応するフレーム画像データに基づくサムネイル画像を追加して表示させる。
ステップS113において、タイムライン上にサムネイル画像の表示を追加する操作入力を受けていないと判断された場合、またはステップS115の処理の終了後、ステップS116において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、アンダーラインの長さの変更を指令する操作入力を受けたか否かを判断する。ステップS116において、アンダーラインの長さの変更を指令する操作入力を受けていないと判断された場合、処理は、後述するステップS119に進む。
ステップS116において、アンダーラインの長さの変更を指令する操作入力を受けたと判断された場合、ステップS117において、表示空間制御部106は、ユーザの操作入力に基づいて、アンダーラインの長さの変更を指令する操作入力に対応するコンテンツのメタデータにおいて、始点フラグまたは終了点フラグの付与されたフレームを変更し、その情報を、座標および時間軸計算部107に供給する。さらに、表示空間制御部106は、新たに始点または終了点として指定されたフレームの画像をビデオデータベース104から読み出して、デコーダ108においてデコードさせ、画像表示制御部109に供給させる。
ステップS118において、座標および時間軸計算部107は、ユーザにより指定された始点および終了点に基づいて、画面上のアンダーラインの長さを変更するための演算を実行し、その結果を画像表示制御部109に供給する。画像表示制御部109は、供給された情報に基づいて、ディスプレイ18に表示されたアンダーラインの長さを変更させるとともに、新たに始点または終了点として指定されたフレームのサムネイル画像を、タイムライン上の対応する点に表示させる。
ステップS116において、アンダーラインの長さの変更を指令する操作入力を受けていないと判断された場合、または、ステップS118の処理の終了後、ステップS119において、表示空間制御部106は、操作入力取得部105から供給される、ユーザの操作入力に基づいて、操作終了、モードの変更、または、コンテンツの追加記録が指令されたか否かを判断する。
ステップS119において、操作終了、モードの変更、または、コンテンツの追加記録が指令されていないと判断された場合、処理は、ステップS108に戻り、それ以降の処理が繰り返される。ステップS119において、操作終了、モードの変更、または、コンテンツの追加記録が指令されたと判断された場合、処理は終了される。
このような処理により、図15乃至図20を用いて説明したようにして、ライムラインモードが実行されて、複数のコンテンツの一致部分が、それぞれのコンテンツのどの位置にあるのかをユーザが容易に認識したり、それらの一致部分の関連をユーザが容易に認識することができるので、ユーザは、例えば、多くのコンテンツを分類整理するための情報を得ることができる。
また、図33および図34のフローチャートでは説明していないが、図18乃至図20に示されるように、タイムラインモードにおいても、別ウィンドウで動画像を表示することができるようにしても良いことはいうまでもない。その場合の処理は、図32のステップS71乃至ステップS74を用いて説明した処理と基本的に同様である。
このように、画像処理装置11においては、例えば、動画共有サイトで、著作権管理上好ましくない動画を見つけたい場合や、重複したアップロードを検出するためなどに、複数のコンテンツのそれぞれの先頭やシーンチェンジ点の画像を確認しなくても、動画の軌跡をみることにより、一致の可能性があるか否かの選別の補助となるGUI表示画面を表示させることが可能である。
例えば、2つのコンテンツの内容が一致するか否かを知るためにパラメータの数値の比較を行った場合、上述したように輝度情報のみがずれているようなものを異なるコンテンツであると判別してしまうし、そのようなことを避けるためにパラメータの誤差範囲を広く設定してしまうと、誤検出を多く引き起こしてしまう。これに対して、特に、軌跡モードにおいては、内容が同じコンテンツであっても、編集や、画像サイズの変更または圧縮伸張などの画像処理の繰り返しにより、画像のパラメータが異なってしまった場合においても、それらの内容が一致していることが推定される部分をユーザが容易に発見することができる。また、一方、パラメータの傾向が似通っていても、軌跡モードにおいて3次元座標軸の設定を変更したり、軌跡モードとタイムラインモードを繰り返して、所望の位置のサムネイル画像を表示させるなどすることにより、ユーザは、これらが実際異なるコンテンツである場合、それを簡単に判別することも可能である。
また、管理が必要なコンテンツ数が多くなった場合、同じコンテンツを重なって記録してしまうようなことがあったり、コンテンツを編集し、編集前素材コンテンツと編集後のコンテンツを含めて管理するべきコンテンツ数が膨大になってしまうおそれがある。例えば、2つのコンテンツの内容が一致するか否かを知るためにパラメータの数値の比較を行った場合、全ての組み合わせで数値の一致を見なければならず、計算量が膨大になってしまう。これに対して、画像処理装置11では、軌跡モードおよびタイムラインモードにおけるGUI表示画面を参照することにより、一度に複数のコンテンツを比較して、それらのコンテンツの一致する箇所を確認し、容易に分類整理することができる。
また、画像処理装置11を用いることにより、タイムラインモードの表示を参照して、編集後のコンテンツを構成する各シーンの基となる動画に対して、編集素材となったコンテンツにリンクを張るなどの処理を行い、ユーザが、関連するコンテンツを相互に視聴することができるようにするなどのサービスを、容易に提供することができる。
上述した一連の処理は、ソフトウェアにより実行することもできる。そのソフトウェアは、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
この記録媒体は、例えば、図1のドライブ14に装着されるリムーバブルディスクなど、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini-Disc)(商標)を含む)、もしくは半導体メモリなどよりなるパッケージメディアなどにより構成される。
また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
なお、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
1 画像処理システム, 11 画像処理装置, 12 記憶装置, 13 ビデオデータ入力装置, 14 ドライブ, 15 操作コントローラ, 16 マウス, 17 キーボード, 18 ディスプレイ, 31 マイクロプロセッサ, 32 GPU, 35 HDD, 101 メタデータ抽出部, 102 メタデータデータベース, 103 圧縮画像生成部, 104 ビデオデータベース, 105 操作入力取得部, 106 表示空間制御部, 107 座標および時間軸計算部, 108 デコーダ, 109 画像表示制御部