JP4666784B2

JP4666784B2 - ビデオシーケンスのキーフレーム抽出方法及びビデオシーケンスのキーフレーム抽出装置

Info

Publication number: JP4666784B2
Application number: JP2001024529A
Authority: JP
Inventors: ウジン; ジョアンレノンアリソン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-01-31
Filing date: 2001-01-31
Publication date: 2011-04-06
Anticipated expiration: 2021-01-31
Also published as: JP2001258038A; US7046731B2; AUPQ535200A0; US20010016007A1

Description

【０００１】
【発明の属する技術分野】
本発明は、全般的にビデオシーケンスからキーフレームを抽出することに関する。特に、本発明はビデオシーケンスからキーフレームを抽出する方法及び装置と、ビデオシーケンスの表現を生成する方法及び装置に関する。また、本発明は、このような方法を実現するコンピュータプログラムを有するコンピュータ読み取り可能な媒体にも関する。更に、本発明は、このような方法により作成されるビデオサマリにも関する。
【０００２】
【従来の技術】
近年、ビデオカメラの人気が益々高まってきている。カメラユーザは、一般に、各ビデオカセット又はその他の媒体上に１つ又は複数のビデオクリップを格納している。ビデオデータの増加に伴い、ユーザは自分のビデオデータを構成及び管理することが必要になっている。
【０００３】
ビデオデータを構成及び管理する１つの基本的な方法は、ビデオの特定部分をアクセスするためのキーワード・ベースの探索及び早送り／巻戻しブラウジングを必要とする。しかしながら、キーワード・ベースのデータ検索システムでは、ビデオデータの内容を厳密かつ一意に表現することはできない。早送り／巻戻し操作は極めて低速でかつ非効率的である。
【０００４】
ビデオクリップの特定部分にアクセスするための他の一般的な方法は、ビデオシーケンスから抽出される代表的なフレームとしてキーフレームを用いる。キーフレームの抽出は高速ビデオブラウジングを可能とし、またビデオ内容の要約化及び視覚化の強力なツールを提供する。
【０００５】
しかしながら、一定時間の求めによりフレームの抽出に基づくビデオの要約化及び視覚化は、ショット情報もフレームの類似性も使用していない。短い重要なショットの場合は代表的なフレームがない可能性があり、長いショットの場合は類似した内容を有する複数のフレームがある可能性がある。
【０００６】
ビデオサマリを作成するための他の一般的な方法は、カット／変化検出を使用して映画のショットに関する代表的なキーフレームを選択することである。代表的なフレームを選択するための典型的な手法は、カットポイントをキーフレームとして使用することである。そして、キーフレームはサマリとして使用される。通常、そのカットポイントはフレームの色ヒストグラムから決定される。互いに隣接するフレームの色ヒストグラム間の差が所定の閾値よりも大きくなったとき１つのカットポイントが決定される。しかしならが、この方法は、キーフレームを多く生成し過ぎ、多くの場合（例えば、映画、ニュース、レポートなど）で、選択されたキーフレームは多くの同様なフレーム（例えば、新聞のフレーム）を含むことがある。
【０００７】
このようなヒストグラム技法は、画素ベースであるか、或いはブロックベースである。そして、閾値を決定する方法がシーン変化を判定するのに利用される。このような技法では、照明の変化が同じシーンを示す連続するフレーム間で色をシフトさせるので、誤りの結果をしばしば生成している。同様に、カメラズームショットが多過ぎるキーフレームをしばしば生成している。
【０００８】
Ratakonda等の米国特許第5,995,095号は、ビデオシーケンスのキーフレームに基づいて階層的なサマリを生成すること、及びデジタルビデオシーケンスのデジタルビデオ信号を入力することを含む、階層的デジタルビデオ要約化及びブラウジングの方法を記載している。この階層的なサマリは、詳細（即ち、フレームの数）によって変化する複数のレベルを含む。最も粗い、即ち、最もコンパクトなレベルでは最も顕著な特徴が形成され、このレベルは最も少ない数のフレームを含む。
【０００９】
ユーザは、最もコンパクトな（最も粗い）レベルのサマリ、即ち、最もコンパクトなサマリを得ることができる。そして、ユーザは親フレームにタグ付けし、より密なレベルの子（複数の子）フレームを見ることができる。最も密なレベルにおけるフレームにタグ付けすることはビデオの再生に帰着する。その方法は、ショット境界検出を利用して階層の最も密なレベルに含まれるもののためにキーフレームを選択する。ショット境界検出は、ショット境界（即ち、シーン変化）を判定するために互いに連続するフレームのヒストグラム間の差が比較される、閾値法を用いて行われる。この階層的ビデオ要約化方法は、ビットストリームの最小限の復号化と共にＭＰＥＧ圧縮されたビデオに対して行われる。このビデオ要約化方法は、任意のパン運動の画像モザイク及び任意のズームのズームサマリを任意選択でかつ別々に判定することができる。しかしながら、Ratakonda等は、自動パン／ズーム検出／抽出機能を組み込むには、フレームビットストリーム全体が復号されなければならないことを開示している。更に、Ratakonda等は、計算にコストがかかり計算が非効率的である画素レベルでの動きベクトルに基づくパン及びズーム検出方法を開示している。また、Ratakonda等は、背景／前景の変化又は複雑なカメラ効果が現れる可能性がある実世界の複雑なショットでは効果的に実現することのできないショットフレームのパノラマビューの画像モザイクを構築することも記載している。
【００１０】
【発明が解決しようとする課題】
本発明は、既存の構成の１つ又は複数の欠点を実質的に解消する、換言すれば少なくとも改善することを目的とする。
【００１１】
【課題を解決するための手段】
本発明の一態様によれば、動きベクトルを持つ圧縮ビデオデータを有するビデオシーケンスからキーフレームを抽出する方法であって、前記動きベクトルに基づいてグローバル動き信号を生成する工程と、生成されたグローバル動き信号に基づいて、前記グローバル動き信号がグループ化されたドミナントグローバル方向クラスタを生成する工程と、生成されたドミナントグローバル方向クラスタを使用してキーフレームを選択する工程と、キーフレームを抽出するために前記選択されたキーフレームを解凍する工程とを有することを特徴とする方法が提供される。
【００１２】
本発明の他の態様によれば、ブロック動きベクトルを持つ圧縮ビデオデータを有するビデオシーケンスの表現を生成する方法であって、前記ブロック動きベクトルを得るために前記圧縮ビデオデータを解凍する工程と、前記ブロック動きベクトルを順方向ブロック動きベクトルに変換する工程と、前記順方向ブロック動きベクトルに基づいてグローバル動き信号を生成する工程と、生成されたグローバル動き信号に基づいて、前記グローバル動き信号がグループ化されたドミナントグローバル方向クラスタを生成する工程と、生成されたドミナントグローバル方向クラスタ及び予め設定された規則に基づいてビデオシーケンスの潜在的なキーフレームを選択する工程と、選択された潜在的なキーフレームの冗長なキーフレームを削除して残りの選択されたキーフレームを得る工程と、前記ビデオシーケンスの表現を得るために前記残りの選択されたキーフレームを解凍する工程とを有することを特徴とする方法が提供される。
【００２０】
【発明の実施の形態】
以下、図面を参照しながら本発明のいくつかの好ましい実施形態について説明する。
【００２１】
図面のうち任意の１つ又は複数において、参照は同じ参照符号の工程及び／又は特徴に対してなされ、これらのステップ及び／又は特徴は矛盾する趣旨が現れない限り、説明の都合上、同じ機能を有し又は動作する。
【００２２】
ビデオカメラのユーザは、しばしば１つの位置から他の位置にパン及びズームして異なった場所及び事象の関連性を示し、カメラを静止状態に保持し、重要な事象又はユーザが関心を有する特定のものに焦点を合わせている。この実施形態によるキーフレーム抽出方法は、圧縮されたビデオデータから推定されるカメラ運動のドミナントグローバル方向クラスタに基づかれるものである。この方法は、入力ビデオが既に圧縮された形態であるという事実を利用している。この利点は、あらゆるフレームを完全に解凍する際の計算上のコストが不要になることである。選択された多数のキーフレームをプロセスの終了時に解凍するだけでよい。また、この方法はユーザの関心といくつかの重要な事象を取り込むことを試みている。この方法は、ビデオの複雑さによる合理的な多数の効率的かつ効果的なキーフレームを与えている。
【００２３】
ここで説明する好ましい方法の原理は、ビデオシーケンスからキーフレームを抽出する方法に一般的に適用可能である。しかしながら、説明の都合上、ビデオクリップを参照しながら好ましい方法のステップを説明する。ビデオクリップは、記録開始取込み事象及び記録終了取込み事象との間のビデオの区分として定義される。しかしながら、本発明は、後述する方法には限らない。例えば、本発明は多数のそのようなクリップを有する商業的な映画などに適用しても良い。また、この方法はＭＰＥＧ(Moving Picture Coding Experts Group)２などの動き補償予測圧縮ビデオに適用可能である。しかしながら、この方法はこれに限らない。動きベクトルを組み込んだあらゆる圧縮ビデオシーケンスに適切である。
【００２４】
次に、図１を参照して、第１の実施形態によるビデオクリップからキーフレームを抽出する方法の概要に関する流れ図を示す。キーフレーム抽出方法１００はステップ１０２から開始され、任意の必要なパラメータが初期設定される。方法１００は続くステップ１０４で、方法１００によって処理するＭＰＥＧ２の圧縮ビデオクリップを入力する。そして、方法１００はステップ１０６に進み、ビデオクリップのグローバル動き信号を生成する。これらのグローバル動き信号は、ビデオクリップの大部分のフレームのためのグローバル動きパラメータを備えている。これらのグローバル動きパラメータは、ビデオクリップの利用可能な各フレーム毎にパンパラメータ、チルトパラメータ、ズームパラメータを備えている。グローバル動き信号は、ビデオシーケンス全体について時間の関数としてこれらのパラメータを備えている。例えば、図５Ａから図５Ｃは、例示的なビデオシーケンスに関するグローバル動き信号を示すグラフである。これらのグローバル動き信号を生成する方法については以下に詳しく説明する。
【００２５】
ステップ１０６の後、方法はステップ１０８に進み、ビデオシーケンス全体に関するグローバル動きのドミナント方向のクラスタ（以下、「ドミナントグローバル方向クラスタ」と呼ぶ）が生成される。この方法では、このステップ１０８の間、利用可能な各フレーム毎に全３つのグローバル動き信号を入力として取り込み、フレームのグローバル動き信号のドミナント方向を判定する。フレームのドミナント方向は、左パン、右パン、上チルト、下チルト、ズームイン、ズームアウト、グローバル静止の何れかで良い。そして、全ての利用可能なフレームのドミナント方向をクラスタ化し、ビデオシーケンス全体のドミナントグローバル方向クラスタを形成する。例えば、図５Ｄは、図５Ａに用いられたのと同じ例示的なビデオシーケンスの時間の関数としてのドミナントグローバル方向クラスタ（即ち、フレーム番号）のグラフである。図５Ｄを見るとわかるように、ビデオシーケンスは、グローバル静止クラスタを有するフレーム番号＝０から始まり、ズームインクラスタ、左パンクラスタに進み、グローバル静止クラスタで終わるクラスタにセグメント化される。これらのドミナントグローバル方向クラスタがどのように生成されるかについては以下に詳しく説明する。
【００２６】
ステップ１０８の後、方法はステップ１１０に進み、ビデオシーケンスからキーフレームを抽出する。このステップ１１０の間、１組の予め定義された規則のセットを用いてドミナントグローバル方向クラスタからいくつかの潜在的なキーフレームが選択される。そして、この方法は冗長な潜在的キーフレームを削除して、最後に結果として得られる残りのキーフレームを完全に復号する。これらのキーフレームがどのように抽出されるかについては以下に詳しく説明する。そして、この方法は復号されたキーフレームをビデオシーケンスのサマリとして出力する。
【００２７】
次に、図２を参照して、図１のキーフレーム抽出方法のステップ１０６のサブステップの流れ図を詳細に示す。ステップ１０４でＭＰＥＧビデオシーケンスが入力された後、方法はステップ２０２に進む。このステップ２０２の間、ＭＰＥＧ２圧縮ビデオシーケンスが既知の方式で部分的に解凍され、ビデオシーケンスの全てのＭＰＥＧ２ブロック動きベクトルが得られる。
【００２８】
動画に関するＭＰＥＧ２圧縮基準は、ビデオシーケンスの空間的冗長性と時間的冗長性の両方を活用するものである。ＭＰＥＧ２は圧縮のいくつかのモードを利用している。１つのモードはフレーム内符号化（イントラ符号化）と呼ばれ、ビデオの多数の画面（pictures）は個別にかつ独立に圧縮又は符号化される。フレーム内符号化は、画面の互いに隣接する画素間に存在する空間的冗長性を活用している。フレーム内符号化のみを用いて符号化された画面をＩピクチャと呼ぶ。ＭＰＥＧは画面間の時間的冗長性を活用する、フレーム間符号化（インター符号化）と呼ばれる別のモードを利用している。時間的冗長性は、互いに隣接する画面間の高い相関の度合に起因する。
【００２９】
ＭＰＥＧ２は、予測誤差と呼ばれるフレーム間差分信号を算出することによりこの冗長性を活用している。ＭＰＥＧ２は、予測誤差を算出する際に、動き補償に対してマクロブロック手法を使用している。符号化すべきフレームの中の目標マクロブロックが参照画像と呼ばれる前（又は連続）フレームの中の最も類似した置換されたマクロブロックとマッチされる。目標マクロブロックから予測マクロブロックへの置換を記述する（ブロック）動きベクトルは、最もマッチするマクロブロック、即ち、予測マクロブロックの位置を示す。その（ブロック）動きベクトル情報は符号化され、圧縮画像フレームと共に伝送される。順方向予測では、符号化すべき画面の中の目標マクロブロックが、参照画面と呼ばれる過去の画面の中の同じサイズの１組の置換されたマクロブロックとマッチされる。目標マクロブロックから予測マクロブロックへの水平及び垂直置換を記述する（ブロック）動きベクトルは、この最もマッチする予測マクロブロックの位置を示す。順方向予測を使用してＭＰＥＧ２で符号化された画面をＰピクチャと呼ぶ。
【００３０】
また、ＭＰＥＧ２圧縮基準は双方向時間予測を使用している。双方向予測で符号化される画面は２つの参照画面、過去の参照画面、将来の参照画面を使用している。双方向に符号化された画面の中の目標マクロブロックは、過去の参照画面からの予測マクロブロックによって予測するか（順方向予測）、将来の参照画面からの予測マクロブロックによって予測するか（逆方向予測）、２つの予測マクロブロックの平均によって予測するか、各参照画面（補間）からの予測マクロブロックによって予測される。すべての場合において、参照画面からの予測マクロブロックは動きベクトルに関連付けられ、その結果、１マクロブロック当たり、最大２つの動きベクトルを双方向予測と共に使用することができる。
【００３１】
このステップ２０２の間、キーフレーム抽出方法はビデオシーケンスを解凍し、ビデオシーケンスのすべてのＭＰＥＧブロック動きベクトルを得る。この方法はシーケンスを完全に復号することなく、このステップの間にフレーム間復号が行われることはない。当業者には、すべてのフレームが部分的に復号されるわけではないことが理解されよう。即ち、すべてのフレームが動きブロックベクトルを有するわけではない。
【００３２】
この方法は、ステップ２０２でＭＰＥＧビデオシーケンスを部分的に解凍した後、ステップ２０４に進む。ステップ２０４では、すべての逆方向（ブロック）動きベクトルが、基本的に参照及び方向の変化を必要とする順方向（ブロック）動きベクトルに変換される。これらの順方向（ブロック）動きベクトルは、グローバル動きを算出することのできるローカル変位ベクトルを表す。
【００３３】
次に、この方法はステップ２０６に続き、順方向動きベクトルを含む利用可能な各フレーム毎の３つのグローバル動きパラメータを算出する。これらのグローバル動きパラメータは、「Global Zoom/Pan estimation and Compensation for video Compression」(Proc ICASSP91、Yi Tong Tse and Richard Baker著、2725ページから2728ページ）に記載された方法を使用してフレームの順方向動きベクトルから算出される。３つのグローバルパラメータ、即ちパンパラメータとしてのｘ、チルトパラメータとしてのｙ、ズームパラメータとしてのｚが算出される。利用可能な各フレーム毎にグローバル動きパラメータが算出される。そして、ビデオシーケンスに関する時間の関数として、これらのグローバルパラメータから３つのグローバル動き信号、Ｘ＝ｘ（ｔ）、Ｙ＝ｙ（ｔ）、及びＺ＝ｚ（ｔ）が形成される。このように生成されたグローバル動き信号の例が図５Ａから図５Ｃに示されている。
【００３４】
次に、図５Ａを参照して、例示的なビデオシーケンスに関する（パン）生成されたグローバル動き信号ｘ（ｔ）のグラフを示す。水平軸はフレーム番号０からフレーム番号２６０までのビデオシーケンスのフレームの数を表している。垂直軸は−１０画素から＋２０画素まで変化するパンパラメータｘである。パンパラメータｘが−１０から＋１０までは一般に小さなパン移動を示すことがわかる。１０を越えるパンパラメータｘは左パン移動を示す。−１０未満のパンパラメータｘは右パン移動を示す。図からわかるように、ビデオシーケンスの間中、概ねフレーム番号１３０から２３０までは左パン移動である。
【００３５】
次に、図５Ｂを参照して、図５Ａで使用されているのと同じ例示的なビデオシーケンスの（チルト）生成されたグローバル動き信号ｙ（ｔ）のグラフを示す。図５Ａと同様に、水平軸はフレーム番号０からフレーム番号２６０までのビデオシーケンスのフレームの数を表している。垂直軸は−２０画素から＋２０画素まで変化するチルトパラメータｙである。チルトパラメータｙが−１０から＋１０までは一般に小さなチルト移動を示すことがわかる。１０を越えるチルトパラメータｙは上チルト移動を示す。−１０未満のパンパラメータｙは下チルト移動を示す。図からわかるように、ビデオシーケンスの間中、概ねフレーム番号６０、１２５、１５０、１６０、２２０、及び２４０は短いチルト移動である。
【００３６】
次に、図５Ｃを参照して、図５Ａで使用されているのと同じ例示的なビデオシーケンスの（ズーム）生成されたグローバル動き信号ｚ（ｔ）のグラフを示す。図５Ａと同様に、水平軸はフレーム番号０からフレーム番号２６０までのビデオシーケンスのフレームの数を表している。垂直軸は０ズーム係数から１．２ズーム係数まで変化するズームパラメータｚである。ズームパラメータｚが０．９８から１．０２までは一般に小さなズーム移動を示すことがわかる。１．０２を超えるズームパラメータｚはズームアウト移動し、０．９８未満のズームパラメータｚはズームイン移動を示す。図からわかるように、ビデオシーケンスの間中、概ねフレーム番号４０から１４０まではズームイン移動である。
【００３７】
次に、図３を参照して、図１に示した方法のステップ１０８のサブステップの流れ図を詳細に示す。キーフレーム抽出方法はステップ２０６でグローバル動き信号を算出した後、ステップ３０２に進む。ステップ３０２の間、方法はグローバル信号の各々の閾値を導入する。即ち、キーフレーム抽出方法は、利用可能な各フレームの各グローバルパラメータを３つの離散グローバルパラメータ値＋１、０、−１の１つに変換する。例えば、グローバルパンパラメータｘの場合に、−１０≦ｘ≦＋１０であればｘが０に変換される。さもなければ、ｘ＞１０であればｘが１に変換され、ｘ＜−１０であればｘが−１に変換される。グローバルチルトパラメータｙについても同様である。グローバルズームパラメータｚの場合に、０．９８≦ｚ≦１．０２であればｚが０に変換される。さもなければ、ｚ＜０．９８であればｚが−１に変換され、ｚ＞１．０２であればｚが＋１に変換される。
【００３８】
閾値を導入するステップ３０２の後、ステップ３０４に進み、離散グローバル動き信号からノイズを除去する。離散グローバルパラメータがより顕著な形状に変形される既知の形態論処理技法を使用して離散グローバル動き信号からノイズを除去する。この技法は、短い遷移スパイクを除去し、離散グローバル動き信号中のあらゆるホールを充填する。形態論処理の基本動作を説明した「Fundamentals of Digital Image Processing」(A.K.Jain著、384ページ）を参照されたい。この方法は、ステップ３０４の後、ステップ３０６に進む。
【００３９】
このキーフレーム抽出方法は、ステップ３０６の間、ビデオシーケンス全体に渡ってノイズが低減された離散グローバル動き信号に基づいてドミナントグローバル方向クラスタを生成する。この方法は、利用可能な各フレーム毎のノイズが低減されたすべての３つの離散グローバル動き信号を入力として取り込み、このフレームのグローバル動き信号のドミナント方向を判定する。フレームのドミナント方向は、左パン、右パン、上チルト、下チルト、ズームイン、ズームアウト、グローバル静止の何れかである。そして、すべての利用可能なフレームのドミナント方向をクラスタ化し、ビデオシーケンス全体のドミナントグローバル方向クラスタを形成する。例えば、「グローバル静止」運動はカメラ静止及び／又は小さなローカルオブジェクト運動、即ちゼロに近いか又はゼロに等しいそのフレームに対するすべての離散グローバル動き値を取り込む。左パン運動の例では、フレームの離散グローバル動き値は（パン＝１、ズーム＝０、チルト＝０）である。しかしながら、フレームに関して組み合わされた動きが存在する場合（例えば、離散グローバル信号パン＝１、ズーム＝１、チルト＝０）、グローバル運動のドミナント方向は、ステップ２０６で算出された３つの最初のグローバル動き信号のうちの最大の信号である。後者の場合、比較が行われ、フレーム中の最大の最初のグローバル動き信号を判定する。好ましくは、まず比較の前に、時間の経過と共に最初のグローバル動き信号の平均を求め、あらゆる遷移を削除する。図５Ａから図５Ｃに示されるように、ズームグローバルパラメータは、チルトグローバルパラメータやパングローバルパラメータとは異なるメトリックを有する。ズームグローバル動き信号は、チルトグローバル動きパラメータ又はパングローバル動きパラメータと直接比較してグローバル運動のドミナント方向を判定できるように正規化される。各フレーム毎のグローバル運動のドミナント方向を判定した後、これらのドミナント方向をグループ化してクラスタを形成する。前述のように、このようなクラスタを本実施形態ではドミナントグローバル方向クラスタと呼ぶ。このクラスタ化サブステップにより、同じ種類の連続的で密なクラスタがグループ化される。非常に短い動きセグメントは無視される。
【００４０】
次に、図５Ｄを参照して、図５Ａで使用されているのと同じ例示的なビデオシーケンスの時間の関数としてのドミナントグローバル方向クラスタ（即ち、フレーム番号）のグラフを示す。図示するように、フレーム番号０から４０までのグローバル静止クラスタがある。この時間中のドミナントグローバル運動はなく、ビデオシーケンスは比較的静止している。フレーム番号４０から１３０の間にズームインクラスタがある。この時間中のドミナントグローバル運動はズームインである。ズームインクラスタの後、フレーム番号１３０から２３０の間に左パンクラスタがある。この持続時間の間のドミナントグローバル運動は左パンである。最後のクラスタは、フレーム番号２３０から２６０までのグローバル静止クラスタである。この期間中のドミナントグローバル運動はない。
【００４１】
次に、図５Ａから図５Ｃに示したように、フレーム番号１３０から１４０までの期間に左パン移動とズームイン移動とが重なり合っていることがわかる。このキーフレーム抽出方法は、この期間中ドミナントグローバル運動を左パンであると判定する。概ねフレーム番号６０、１２５、１５０、１６０、２２０でのチルト移動が左パン移動とズームイン移動の両方と重なり合っていることもわかる。しかしながら、チルト動きセグメントは短く、キーフレーム抽出方法はクラスタ化の間このようなセグメントを無視している。
【００４２】
次に、図４を参照して、図１のキーフレーム抽出方法のステップ１１０のサブステップの流れ図を示す。ステップ３０６でドミナントグローバル方向クラスタを判定した後、この方法はステップ４０２に進む。このステップ４０２の間、ドミナントグローバル方向クラスタから潜在的なキーフレームが選択される。これらキーフレームは、この段階でＭＰＥＧ圧縮ビデオから抽出されることはない。これらキーフレームは、以下の定義済み規則のセットに応じて選択される。
【００４３】
・パン又はチルトの長さ及び速度によってパンクラスタ又はチルトクラスタのために１つ又は複数のフレームを選択する。
【００４４】
・ズーム係数及びズームの長さによってズームクラスタのために１つ又は複数のフレームを選択する。
【００４５】
・各グローバル静止クラスタのために１つのフレームのみを選択する。
【００４６】
例えば、パンクラスタから選択される潜在的なキーフレームは、パンクラスタの長さ及び速度によってパンの開始部分、パンの中央、及びパン終了部分に存在することも、或いはパンの開始部分から１つの潜在的なキーフレームにのみ存在することもできる。
【００４７】
次に、図５Ｄに戻り、図５Ａから図５Ｃに示されるビデオシーケンスのために選択された潜在的なキーフレームを説明する。この例では、第１のグローバル静止クラスタのために選択される１つのキーフレーム、ズームインクラスタの開始及び終了でズームインクラスタのために選択される２つのキーフレーム、左パンクラスタの開始及び終了で選択される２つのキーフレーム、最後のグローバル静止クラスタのために選択される１つのキーフレームがある。
【００４８】
ステップ４０２の後、この方法はステップ４０４に進む。ステップ４０４では、ステップ４０２で選択されたキーフレームの冗長なキーフレームが写真の特性を考慮した定義済みの発見的規則のセットに基づいて削除される。例えば、グローバル静止は他の動きクラスタよりも重要である。グローバル静止では、しばしばユーザの関心又はある特定の事象が取り込まれる。また、グローバル静止では時には動く画像よりも多くの焦点が合った画像が取り込まれる。適用できる発見的規則のうちのいくつかを以下に示す。
【００４９】
・「グローバル静止」でないクラスタの開始／終了で選択される潜在的なキーフレームが「グローバル静止」クラスタの後に続くか、このキーフレームの後に「グローバル静止」クラスタが続く場合、このキーフレームを削除する。例えば、「ズームイン」クラスタの終了で選択される潜在的なキーフレームの後に「グローバル静止」クラスタが続くとき、このキーフレームを削除する。「グローバル静止」から選択されるキーフレームは、しばしば「ズームイン」クラスタの終了から抽出されるキーフレームよりも良い品質を有し、これらのキーフレームは類似している。
【００５０】
・パン／チルトの開始で選択される潜在的なキーフレームがズームクラスタの後に続く場合、このキーフレームを削除する。例えば、「ズームイン」クラスタの後に、非常に短い無視される動きセグメントが続き、その後、「右パン」クラスタが続く場合は、「右パン」の開始からの潜在的なキーフレームを削除する。しかしながら、発見的規則のセットはこれらの使用規則に限らない。
【００５１】
そして、この方法はステップ４０６に進み、ステップ４０４の後、残っている選択されたキーフレームのうち同様なキーフレーム及び／又は繰り返されるキーフレームを削除する。定義済みの発見的規則を使用するにもかかわらず、依然としてシーンが繰り返され、異なる時間に同様なキーフレームが生じることもある。このステップ４０４は、画像類似性測定を用いてこれらの同様なキーフレームを削除する。画像の類似性を測定する既存の方法（例えば、色ヒストグラム比較）が使用できる。色ヒストグラムを算出する際に、ＰフレームやＢフレームではなく、ＭＰＥＧビデオの最も密なＩフレームがキーフレームとして使用される。その場合、ＭＰＥＧ圧縮画像のＤＣ係数を使用して低解像度画像を生成することができる。画像の類似性の測定は、ＤＣキーフレーム画像を使用して行うことができる。
【００５２】
ステップ４０６の後、この方法はステップ４０８に進み、ステップ４０６から依然として残っている選択されたキーフレームをＭＰＥＧビデオシーケンスから完全に復号する。これらの復号された残りキーフレームは、ＭＰＥＧビデオシーケンスのサマリを形成し、ステップ１１２で出力される（例えば、ハードディスク上に記憶される）。そして、この方法はステップ１１４で終了する。このように、この方法は高速で効率的なキーフレーム抽出を実行する。
【００５３】
次に、図５Ｄに戻り、図５Ａから図５Ｃに示されるビデオシーケンスのために抽出されたキーフレームを説明する。ステップ４０４の間、図示するように抽出されたキーフレームを残す上述の発見的規則のセットを用いて第２、第４、及び第５の潜在的なキーフレームが除去される。この例における削除ステップ４０６は、同様なキーフレームも繰り返されるキーフレームも見つからず、抽出されたキーフレームは図示のように残される。そして、この方法はこれらの抽出されたキーフレームを復号し、ビデオシーケンスのビデオサマリを形成する。
【００５４】
［装置の好ましい実施形態］
キーフレームを抽出する方法は、図６に示すような従来型の汎用コンピュータシステム６００を使用して実施することが好ましい。ここで、図６のプロセスはコンピュータシステム６００の中で実行するアプリケーションプログラムなどのソフトウェアとして実施される。特に、キーフレームを抽出する方法のステップは、コンピュータによって実行されるソフトウェアとして符号化された命令によって実施される。このソフトウェアは、キーフレーム抽出方法を実行する１つの部分と、この部分とユーザとの間のユーザインタフェースを管理する他の部分との２つの別々の部分に分割することができる。このソフトウェアは、例えば後述する記憶装置を含むコンピュータ読み取り可能な媒体に記憶されても良い。このソフトウェアは、コンピュータ読み取り可能な媒体からコンピュータにロードされ、そしてコンピュータによって実行される。このようなソフトウェア又はコンピュータプログラムが記録されたコンピュータ読み取り可能な媒体はコンピュータプログラム製品である。コンピュータ内でこのコンピュータプログラム製品を使用することにより、本発明の実施形態に応じてキーフレームを抽出する有利な装置を実現することが好ましい。
【００５５】
コンピュータシステム６００は、コンピュータモジュール６０１、キーボード６０２及びマウス６０３のような入力装置、プリンタ６１５を含む出力装置及び表示装置６１４を備えている。変復調（モデム）トランシーバ装置６１６が、例えば電話回線６２１又はその他の機能媒体を介して接続可能な通信ネットワーク６２０との間で通信するためにコンピュータモジュール６０１によって使用される。このモデム６１６は、インターネット、及びローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）など他のネットワークシステムへのアクセスを得るために使用される。
【００５６】
コンピュータモジュール６０１は通常、少なくとも１つのプロセッサユニット６０５、例えば半導体ランダムアクセスメモリ（ＲＡＭ）や読み取り専用メモリ（ＲＯＭ）で形成されたメモリユニット６０６、ビデオインタフェース６０７を含む入出力（Ｉ／Ｏ）インタフェース、キーボード６０２及びマウス６０３及びオプションのジョイスティック（図示せず）用の入出力インタフェース６１３、並びにモデム６１６用のインタフェース６０８を含む。記憶装置６０９が設けられ、この装置は通常、ハードディスクドライブ６１０及びフロッピィーディスクドライブ６１１を含む。また、磁気テープドライブ（図示せず）を使用することもできる。非揮発性データ源として通常、ＣＤ−ＲＯＭドライブ又はＤＶＤドライブ６１２が設けられている。コンピュータモジュール６０１の構成要素６０５〜６１３は通常、相互接続されたバス６０４を介して、関連技術におけるこれら周知のコンピュータシステム６００の従来型の動作モードが得られるように通信している。本実施形態を実施できるコンピュータの例には、IBM-PC及びコンパチブル、Sun Sparcstation又はそれらから進化した同様なコンピュータシステムが含まれる。
【００５７】
通常、好ましい実施形態のアプリケーションプログラムは、ハードディスクドライブ６１０上に存在し、プロセッサ６０５によって実行される際に読み取られ制御される。プログラム及びネットワーク６２０から取り込まれたあらゆるデータの中間記憶は、半導体メモリ６０６を、場合によってはハードディスクドライブ６１０と共に使用して行われる。いくつかの例では、アプリケーションプログラムは、ＣＤ−ＲＯＭ又はフロッピィーディスク上に符号化されてユーザに供給され、対応するドライブ６１２又は６１１を介して読み取るか、或いはユーザによってモデム装置６１６を介してネットワーク６２０から読み取られても良い。更に、ソフトウェアは磁気テープ、ＲＯＭ又は集積回路を含む他のコンピュータ読み取り可能な媒体、光磁気ディスク、コンピュータモジュール６０１及び他の装置の間の無線伝送チャネル又は赤外線伝送チャネル、ＰＣＭＣＩＡカードなどのコンピュータ読み取り可能なカード、電子メール伝送及びＷｅｂサイトなどに記録された情報を含むインターネット及びイントラネットからコンピュータシステム６００にロードされても良い。上述したものは、関連するコンピュータ読み取り可能な媒体の例に過ぎない。本発明の範囲及び趣旨から逸脱せずに他のコンピュータ可読媒体を実現することができる。
【００５８】
このコンピュータシステム６００は、キーフレーム抽出方法への入力として働く多量のビデオデータを記憶する機能を有する。ビデオデータはＤＶＤ−ＲＯＭドライブ６１２を介して、或いはカムコーダ（図示せず）から入出力インタフェース６０８を介して直接、コンピュータシステム６００に入力されても良い。
【００５９】
キーフレーム抽出方法は、図１に示す機能又は副機能を実行する１つ又は複数の集積回路などの専用ハードウェアで実現されても良い。このような専用ハードウェアは、カムコーダやＶＣＲなどに組み込まれても良く、グラフィックプロセッサ、デジタル信号プロセッサ又は１つ又は複数のマイクロプロセッサ及び関連するメモリを含んでも良い。
【００６０】
［産業上の利用可能性］
本発明の実施形態がビデオ処理業界に適用可能であることは上述の説明からも明らかである。キーフレーム抽出方法は、例えばビデオ内容の視覚識別、ビデオインデックス付け、ビデオブラウジング、ビデオ編集など多数の用途を有する。ここで、図５Ｄに戻り、図５Ａから図５Ｃで用いられているビデオシーケンスのための抽出されたキーフレームを示す。ステップ４０４の間、図示するように、キーフレームを残す上述の発見的規則のセットを使用して第２、第４、及び第５の潜在的なキーフレームが削除される。
【００６１】
以上、本発明の１つの実施形態／いくつかの実施形態のみについて説明したが、本発明の範囲及び趣旨から逸脱せずに実施形態に修正及び／又は変更を加えることができる。各実施形態は例示的なものであり、制限的なものではない。
【図面の簡単な説明】
【図１】第１の実施形態によってビデオシーケンスからキーフレームを抽出する方法の概要の流れ図である。
【図２】図１に示す方法のステップ１０６のサブステップの流れ図である。
【図３】図１に示す方法のステップ１０８のサブステップの流れ図である。
【図４】図１に示す方法のステップ１１０のサブステップの流れ図である。
【図５Ａ】例示的なビデオシーケンスの（パン）グローバル動き信号ｘ（ｔ）のグラフである。
【図５Ｂ】図５Ａと同様に例示的なビデオシーケンスの（チルト）グローバル動き信号ｙ（ｔ）のグラフである。
【図５Ｃ】図５Ａと同様に例示的なビデオシーケンスの（ズーム）グローバル動き信号ｚ（ｔ）のグラフである。
【図５Ｄ】図５Ａと同様に例示的なビデオシーケンスの、時間の関数としてのドミナントグローバル方向クラスタ、潜在的なキーフレーム、及び生成されるキーフレームのグラフである。
【図６】本発明の実施形態を実施できる汎用コンピュータの概略ブロック図である。
【符号の説明】
６００コンピュータシステム
６０１コンピュータモジュール
６０２キーボード
６０３マウス
６０４相互接続されたバス
６０５プロセッサユニット
６０６メモリユニット
６０７ビデオインタフェース
６０８入出力（Ｉ／Ｏ）インタフェース
６０９記憶装置
６１０ハードディスクドライブ
６１１フロッピィーディスクドライブ
６１２ＣＤ−ＲＯＭドライブ又はＤＶＤドライブ
６１３入出力インタフェース
６１４表示装置
６１５プリンタ
６１６モデム
６２０ネットワーク
６２１電話回線

Claims

動きベクトルを持つ圧縮ビデオデータを有するビデオシーケンスからキーフレームを抽出する方法であって、
前記動きベクトルに基づいてグローバル動き信号を生成する工程と、
生成されたグローバル動き信号に基づいて、前記グローバル動き信号がグループ化されたドミナントグローバル方向クラスタを生成する工程と、
生成されたドミナントグローバル方向クラスタを使用してキーフレームを選択する工程と、
キーフレームを抽出するために前記選択されたキーフレームを解凍する工程とを有することを特徴とする方法。
前記選択する工程は、前記生成されたドミナントグローバル方向クラスタ及び予め設定した規則に基づいてキーフレームを選択することを特徴とする請求項１に記載の方法。
前記選択する工程は、
前記生成されたドミナントグローバル方向クラスタ及び予め設定された第１の規則に基づいてビデオシーケンスの潜在的なキーフレームを選択し、
予め設定された第２の規則に基づいて前記選択された潜在的なキーフレームから冗長なキーフレームを削除して選択されたキーフレームを得ることを特徴とする請求項１に記載の方法。
前記グローバル動き信号を生成する工程は、パングローバル動き信号、ズームグローバル動き信号、チルトグローバル動き信号を生成することを特徴とする請求項１に記載の方法。
前記ドミナントグローバル方向クラスタは、左パン動きクラスタ、右パン動きクラスタ、上チルト動きクラスタ、下チルト動きクラスタ、ズームイン動きクラスタ、ズームアウト動きクラスタ、グローバル静止動きクラスタの１つ又は複数を有することを特徴とする請求項１に記載の方法。
前記ドミナントグローバル方向クラスタを生成する工程は、
前記生成されたグローバル動き信号から離散グローバル動き信号を生成し、
生成された離散グローバル動き信号からノイズを除去し、
前記ノイズが低減された離散グローバル動き信号に基づいてドミナントグローバル方向クラスタを生成することを特徴とする請求項１に記載の方法。
ブロック動きベクトルを持つ圧縮ビデオデータを有するビデオシーケンスの表現を生成する方法であって、
前記ブロック動きベクトルを得るために前記圧縮ビデオデータを解凍する工程と、
前記ブロック動きベクトルを順方向ブロック動きベクトルに変換する工程と、
前記順方向ブロック動きベクトルに基づいてグローバル動き信号を生成する工程と、
生成されたグローバル動き信号に基づいて、前記グローバル動き信号がグループ化されたドミナントグローバル方向クラスタを生成する工程と、
生成されたドミナントグローバル方向クラスタ及び予め設定された規則に基づいてビデオシーケンスの潜在的なキーフレームを選択する工程と、
選択された潜在的なキーフレームの冗長なキーフレームを削除して残りの選択されたキーフレームを得る工程と、
前記ビデオシーケンスの表現を得るために前記残りの選択されたキーフレームを解凍する工程とを有することを特徴とする方法。
動きベクトルを持つ圧縮ビデオデータを有するビデオシーケンスからキーフレームを抽出する装置であって、
前記動きベクトルに基づいてグローバル動き信号を生成する手段と、
生成されたグローバル動き信号に基づいて、前記グローバル動き信号がグループ化されたドミナントグローバル方向クラスタを生成する手段と、
生成されたドミナントグローバル方向クラスタを使用してキーフレームを選択する手段と、
キーフレームを抽出するために前記選択されたキーフレームを解凍する手段とを有することを特徴とする装置。
ブロック動きベクトルを持つ圧縮ビデオデータを有するビデオシーケンスの表現を生成する装置であって、
前記ブロック動きベクトルを得るために前記圧縮ビデオデータを解凍する手段と、
前記ブロック動きベクトルを順方向ブロック動きベクトルに変換する手段と、
前記順方向ブロック動きベクトルに基づいてグローバル動き信号を生成する手段と、
生成されたグローバル動き信号に基づいて、前記グローバル動き信号がグループ化されたドミナントグローバル方向クラスタを生成する手段と、
生成されたドミナントグローバル方向クラスタ及び予め設定された規則に基づいてビデオシーケンスの潜在的なキーフレームを選択する手段と、
選択された潜在的なキーフレームの冗長なキーフレームを削除して残りの選択されたキーフレームを得る手段と、
前記ビデオシーケンスの表現を得るために前記残りの選択されたキーフレームを解凍する手段とを有することを特徴とする装置。
請求項１に記載の方法をコンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
請求項７に記載の方法をコンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。