JP5164866B2

JP5164866B2 - ビデオ画像シーケンスの時間的頻度を適合させる方法および装置

Info

Publication number: JP5164866B2
Application number: JP2008558944A
Authority: JP
Inventors: フロッシュ，エルヴェル; クリストフジスケ，
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-03-14
Filing date: 2007-03-09
Publication date: 2013-03-21
Anticipated expiration: 2027-03-09
Also published as: WO2007105118A3; JP2009530892A; CN101401434A; EP1994759B1; EP1994759A2; WO2007105118A2; CN101401434B; FR2898757A1; US20090041132A1

Description

本発明は、通信ネットワークを介して送信するために、ビデオ画像シーケンスの時間的頻度(temporal frequency)を適合させる方法および装置に関する。

例えばMPEG-4規格に従う符号化アルゴリズムを用いて、ビデオシーケンスを圧縮する場合、伸長後のビデオシーケンスの画像品質が低下することがある。

この例は、一般に、ビデオシーケンスの画像が非常にテクスチャ的で、かつ、その動きが激しいか、および/または、レートが低い場合に発生する。

このような条件において、ビデオシーケンスを時間方向にダウンサンプリングして、シーケンスの画像をある程度、削除することが知られている。

従って、圧縮率が低くとも、ダウンサンプリングの結果得られる画像品質はより良くなる。

例えば、一秒当り50の画像を1Mビット（メガビット）に圧縮することが望まれる場合、ファクタ2の時間方向のダウンサンプリングにより、一秒当り25の画像だけが1Mビットに圧縮されることが理解される。

このため、ビデオシーケンスの各画像に適用される圧縮率が低下し、それら画像の品質は向上する。

多くの場合、そのようなダウンサンプリングの結果得られる流動性(fluidity)の印象は悪いが、あるケースにおいては受け入れられる。

これは、ダウンサンプリングの結果得られる画像の鮮明さが優先されると考えられる場合か、ビデオシーケンスが伸長された後に時間方向の補間(temporal interpolation)により補償される場合である。

従来のビデオ符号化方法の改善として、特許文献1の方法が知られている。

従来、符号器の計算リソースが利用可能ならば、ビデオシーケンスの各画像はその符号器によって符号化される。符号器が既にビジーで、ビデオシーケンスの現在の画像を処理できない場合がある。この場合、現在の画像は削除され、符号器が既にアクティブである場合、同様のことがシーケンスの他の画像にも適用される。

これら画像の削除は規則的ではないから、シーケンス内で痙攣(jerk)が発生する。

本明細書は、上記の現象を回避するために規則的な間隔で画像を削除することを提案する。

そのため、上記の方法は、符号器化により画像を圧縮する平均時間を評価し、平均時間に従いビデオをサンプリングする時間的頻度を生成することを目指す。

しかし、符号器のアクティビティが時間によって変動するとして、頻度を一度しか生成しなければ、この方法は充分に効果的ではない。

また、レート歪モデルを用いる符号化方法として、非特許文献1の方法が知られている。

上記の方法によれば、第一のレート歪モデルは、画像の単純な量子化において使用される。

この場合、ビデオのサンプリングの時間的頻度は最大と仮定され、意図するレートに依存する歪みの値は、第一のレート歪モデルにより供給される。

第一のレート歪モデルは、レートと歪みを関連付ける単純、かつ、当業者に周知の式を必要とする。

上記の方法は、さらに、第一のレート歪モデルに比べてサンプリングの時間的頻度を削減すると考えられ、画像を規則的に削除する場合に使用する第二のレート歪モデルを必要とする。

第二のモデルは、同一シーンの画像は変動しないこと、および、失われた画像（失われた画像は、時間的な観点から最も近い復号画像に置き換えられる）の歪みは静止性(stationarity)を用いて推測(deduce)できることを前提条件とする。

このため、解析的な時間歪モデル(temporal distortion model)は、パラメータ学習フェーズと、ビデオを均一なシーンに区切るフェーズから生成される。

従って、本明細書の開示によれば、二つのレート歪モデルは、ある時間間隔に亘り、歪みの二つの測定値である、最大の時間分解能で第一のモデルが提供する平均歪みと、画像の時間的ダウンサンプリングを考慮する第二のモデルが提供する平均歪みを提供する。

そして、それらのモデルが計算する歪みの値に基づき、ビデオシーケンスのダウンサンプリングが決定される。

なお、上記の方法は、とくに学習と区分フェーズに関して、実現がとくに複雑で、多くの計算を必要とする。さらに、上記の方法は、信頼度が低い可能性がある補間モデルに基づく。

米国特許第6,633,609号公報「Rate-Distortion Models for Video Transcoding」SPIE Conference on Image and Video Communications and Processing、2003年1月

本発明は、単純な方法により、ビデオシーケンスをサンプリングする時間的頻度を適合させることで、上述した欠点の少なくとも一つを軽減することを目的とする。

本発明にかかる方法は、通信ネットワークを介して送信するために、ビデオ画像シーケンスの時間的頻度を適合させる方法であって、シーケンスの画像は時間的頻度f1でサンプリングされ、シーケンスをサンプリングする時間的頻度f1が増加可能か否かを判定するために、時間的頻度f2＞f1でサンプリングされたビデオシーケンスの画像の符号化をシミュレートするステップの実行を決定するステップを備える。その決定は、そのシミュレーションステップを実行可能な通信装置のリソースに関する少なくとも一つの判定基準に基づき、並びに/あるいは、ビデオシーケンスおよび/またはネットワークの特性の時間に沿う漸進的な変化(evolution over time)に基づき行われることを特徴とする。

従って、サンプリングの時間的頻度の増加を決定する前に、その頻度における符号化シミュレーションの実行が適切か否かが決定される。これは異なる条件に従い行われる。

従って、本発明は、時間的に徐々に変化する異なる条件に従いサンプリング頻度を動的に適合させることが可能で、とくに融通性を有する。

その上、本発明は、とくに実現が容易であり、レート歪モデルを必要とする従来技術において使用される技術よりも正確であることを証明する。

なお、ビデオシーケンスは、強いか弱いであるエネルギまたはビデオアクティビティによって特徴付けられてもよいし、高いか低いである視覚品質により特徴付けられてもよい。

ネットワークは、良いか悪いかである送信能力（例えば、利用可能な帯域幅、データ送信時間など）により特徴付けられてもよい（例えば、高いか低いである帯域幅、長いか短いであるデータ送信時間など）。

ある特徴によれば、ビデオシーケンスおよび/またはネットワークの特性の時間に沿う漸進的な変化は、サンプリングに時間的頻度f1を使用すると決定されたとき、ビデオシーケンスおよび/またはネットワークが提示する初期の特性に関して特筆される。

次に、サンプリングの時間的頻度が頻度f1に移るように変更されたコンテキストの時間的な変化(temporal evolution)が注目される。コンテキストは、ある時のビデオシーケンスおよび/またはネットワークの状態により定義される。

ある特徴によれば、前記方法は、シミュレーションステップの実行を決定するステップの前に、ビデオシーケンスの画像をサンプリングする時間的頻度に関連して、ある時のビデオシーケンスの特性および/またはネットワークの特性をメモリに格納するステップを有する。

従って、ビデオシーケンスおよび/またはネットワークの時間に沿う漸進的な変化への追従を可能にするために、ビデオシーケンスおよび/またはネットワークによって定義されるコンテキストがメモリに格納される。

なお、このコンテキストのメモリへの格納は、サンプリングの時間的頻度を値f1に変更する前または後に行われてもよい。

このメモリへの格納は、とくに、例えば統計的な目的でビデオコンテキストおよび/またはネットワークコンテキストの時間的な変化に追従するという理由で有用であってもよい。

ある特徴によれば、メモリに格納するステップは、ビデオシーケンスの画像をサンプリングする時間的頻度を頻度f0から頻度f1に低減すると決定された後に実行される。

なお、メモリへの格納は、シーケンスをサンプリングする時間的頻度を低減する際に行わず、および/または、上述したように、時間的なコンテキストの時間に沿う漸進的な変化の履歴を取得するために他のタイミングで行ってもよい。

サンプリングの頻度を低減する際のビデオコンテキストおよび/またはネットワークコンテキストの記録は、後に、そのコンテキストの時間的な変化の検査において、シーケンスをサンプリングする頻度を増加するか否かの決定を可能にする。

ある特徴によれば、前記方法は、シミュレーションステップの実行を決定するステップの前に、次のステップを有する。
時間的頻度f0＞f1でビデオシーケンスの画像をサンプリングする、
サンプリング画像を符号化する、
符号化された画像の品質を判定する、
判定された品質について所定の閾値と比較する、
比較結果に従い、ビデオシーケンスの画像をサンプリングする時間的頻度を頻度f0から頻度f1に低減することを決定する。

従って、ビデオシーケンスをサンプリングする時間的頻度を値f1に低減する決定は、符号化サンプリング画像の品質の評価後に行われる。

なお、メモリ格納ステップが提供される場合、当該ステップは、上述したサンプリング、符号化、品質判定、比較および決定の各ステップの任意の一つについて、任意の時点で実行される。

また、前記記録は、それらステップの任意の一つと並行して行われる。

例えば、サンプリングの頻度をf0からf1に低減すると決定された場合、前記記録は、その決定前、その決定後、あるいは、頻度の変更後、または、頻度の変更と並行に行ってもよい。

ある特徴によれば、前記方法は、ビデオシーケンスおよび/またはネットワークが提示する現在の特性と、サンプリングに時間的頻度f1を使用すると決定された場合にビデオシーケンスおよび/またはネットワークが提示する初期の特性を比較するステップを有する。

現在の特性は、まず、時間的頻度を変更するという決定が行われ、続いて、ある時間が経過した後のビデオシーケンスおよび/またはネットワークの特性を意味する。

これら現在の特性は、例えば、符号化シミュレーションを行うと決定した時に存在する特性である。

前記比較は、ビデオシーケンスおよび/またはネットワークの特徴の時間に沿う漸進的な変化の判定を可能にする。

ある特徴によれば、特性を比較するステップは、特に、ビデオシーケンスの現在の特性（現在のコンテキスト）および初期の特性（初期のコンテキスト）をそれぞれ用いて得られるビデオシーケンスの品質を比較するステップの形態で実行される。

なお、前記比較ステップは、初期のコンテキストにおけるビデオシーケンスの品質がメモリに格納されていること、および、現在の状態において、ビデオシーケンスの品質が判定されることを前提とする。

ある特徴によれば、前記方法は、比較ステップの結果に従い、サンプリングの時間的頻度のf1からf2への増加を決定するステップを有する。

従って、現在の特性と初期の特性の比較結果に従い、より一般的には、それらの特性の時間に沿う漸進的な変化に従い、時間的頻度の増加を直接決定することが可能になり、それによって符号化シミュレーションステップを不要にすることができる。

この変化は、迅速な決定を可能にする凡の指示(approximate indication)を提供する。しかし、状況（例えば、送信するビデオデータの種類）によって、頻度の増加を決定する前にコンテキストの時間的な変換の詳細を得ることが好ましければ、符号化シミュレーションの先行ステップが好ましい。

ある特徴によれば、前記方法は、時間と伴にビデオシーケンスおよび/またはネットワークの現在の特性が向上した場合、サンプリングの時間的頻度を増加するステップを有する。

従って、ビデオおよび/またはネットワークのコンテキストが好ましく変化した場合、符号化シミュレーションステップに頼ることなく、サンプリングの時間的頻度を直接増加することが想定可能になる。

これは、時間の節約と、前記方法の計算コストの低減を可能にする。

ある特徴によれば、ビデオシーケンスおよび/またはネットワークの現在の特性が時間に沿って改善した場合、時間的頻度f2＞f1でサンプリングした画像の符号化をシミュレートするステップの実行は、所定の閾値に関する通信装置のリソースの状態に依存する。

ビデオおよび/またはネットワークのコンテキストが好ましく変化した場合、通信装置のリソースは、符号化シミュレーションステップの実行を決定する前に考慮される。

しかし、ある状況において、これらリソースを考慮することなく符号化シミュレーションを実行することが想定可能である。これは、頻度の増加の決定を迅速に行う必要がない場合、または、ビデオデータをよりゆっくり符号化してもよい場合に想定される。

ある特徴によれば、通信装置のリソースの状態が所定の閾値未満の場合、前記方法は、符号化シミュレーションステップに頼ることなく、サンプリングの時間的頻度を増加するステップを有する。

従って、通信装置のリソース（計算容量、メモリ空間）の状態が不足する場合、ある状況において、符号化シミュレーションを省略し、サンプリング頻度を直接増加することが可能になる。

しかし、リソースの状態が許容する場合、サンプリング頻度の増加の決定前に、シミュレーション方法において符号化されたビデオシーケンスの品質を評価するために、符号化シミュレーションステップも想定可能である。

ある特徴によれば、ビデオシーケンスおよび/またはネットワークの現在の特性が時間に沿って劣化した場合、符号化シミュレーションステップは実行されない。

従って、ビデオおよび/またはネットワークのコンテキストの追従に依存して、とくにコンテキストが劣化した場合、増加したサンプリング頻度におけるビデオシーケンスの品質は多分不充分であるから、符号化シミュレーションステップは無益と推測される。

他の特徴によれば、前記方法は、通信装置のリソースの状態が所定の閾値より大きい場合、時間的頻度f2＞f1でサンプリングされたビデオシーケンスの画像の符号化をシミュレートするステップを有する。

従って、装置のリソースの状態が許容する場合、符号化シミュレーションが実行される。

より詳しくは、シミュレーションステップは、次のサブステップに細分化される。
ビデオシーケンスの画像を時間的頻度f2でサンプリングする、
サンプリングした画像の符号化をシミュレートする、
符号化した画像の品質を判定する、
判定した品質について所定の閾値と比較する、
閾値を超える場合、ビデオシーケンスの画像をサンプリングする時間的頻度を増加する。

従って、シミュレーションから発生する符号化画像の品質が不充分と判明した場合、ビデオシーケンスの画像をサンプリングする同一の時間的頻度が維持される。

ある特徴によれば、ビデオシーケンスの特性は、そのビデオシーケンスのビデオアクティビティ、例えば、予測誤差の分散、動きベクトルの分散、および/または、ビデオシーケンスの品質である。

ビデオシーケンスまたは画像の品質は、符号化後の、ビデオシーケンス、一または複数の画像の信号対雑音比に関して表現することができる。

さらに、ネットワークの特性は、例えば、ネットワークの帯域幅によって定義される。

本発明にかかる装置は、通信ネットワークを介して送信するために、ビデオ画像シーケンスの時間的頻度を適合させる装置であって、シーケンスの画像は時間的頻度f1でサンプリングされ、シーケンスをサンプリングする時間的頻度f1が増加可能か否かを判定するために、時間的頻度f2＞f1でサンプリングされたビデオシーケンスの画像の符号化をシミュレートの実行を決定する手段を備える。その決定は、そのシミュレーションステップを実行可能な通信装置のリソースに関する少なくとも一つの判定基準に基づき、並びに/あるいは、ビデオシーケンスおよび/またはネットワークの特性の時間に沿う漸進的な変化に基づき行われることを特徴とする。

上述した方法を実現する装置は、上述した方法と同一の利点を有する。

さらに、本発明は、次に関する。
コンピュータシステムが読み取り可能な、全体または一部がリムーバブルな、とくにCD-ROM、ハードディスクまたはディスクなどの磁気媒体、あるいは、電気信号または光信号などの伝送可能な媒体であり、コンピュータプログラムの命令を有し、そのプログラムがコンピュータシステムによりロードされ実行されると、上に簡潔に述べた方法の実現を可能にすることが特徴の情報媒体。
コンピュータシステムにロード可能で、コンピュータシステムにロードされ実行されると、上に簡潔に述べた方法の実現を可能にする命令を含むコンピュータプログラム。

他の特徴と利点は、単に非限定的な例によって提供され、添付の図面を参照して行われる、以下の説明において明らかになるだろう。

図1に示すように、本発明を実現する装置110は、例えば、異なる周辺装置が接続されるマイクロコンピュータの形態で実現される。

周辺装置の中には、処理すべきデータを装置110に供給する、図示しないグラフィクスカードに接続されるディジタルビデオカメラ1100がある。

なお、ビデオカメラは、画像を取得または格納する任意の手段に置き換えてもよいし、装置110とデータ通信が可能なスキャナに置き換えてもよい。

装置110は、ディジタルデータが送信される通信ネットワーク1103に接続される通信インタフェイス1102を有する。

装置110は、処理すべきデータをネットワーク1103から受信してもよいし、それらデータを処理した後、それらデータをネットワーク1103を介して送信してもよい。

装置110は、ハードディスクなどのデータ格納手段1104を有する。

ディスク1106用のドライブ1105は、装置110内に存在し、ディスク1106はディスケット（登録商標）、CD-ROMまたはDVD-ROMである。

ディスク1106は、ハードディスク1104と同様に、本発明を実現する一または複数のコンピュータプログラムとともに、本発明によって処理されたデータを含んでもよい。

例えば、一または複数のプログラムは、記録媒体1106に含まれ、装置110の例えばハードディスク1104に格納するために装置110に転送される。

変形例にれば、装置110に本発明を実現させる一または複数のプログラムは、リードオンリメモリ(ROM)1107に格納される。

他の変形例によれば、一つまたは複数のプログラムは、通信ネットワーク1103から装置110に受信され、上述した方法と同一の方法で装置110に格納される。

装置110は、音声データを処理するマイク1108に接続する。

画面1109は、処理すべきデータまたは処理済のデータを表示し、または、ユーザとのインタフェイスとして機能する。それにより、ユーザは、キーボード1110またはマウスや別のポインティングデバイスなどの他の任意の手段を使用して、ある処理モードのパラメータを設定する(parameterize)。

装置110は、本発明の実現に関連する命令を実行する中央処理装置(CPU)1111を有する。

これら命令またはコード列は、ROM1107または上述した他の格納手段に格納される。

装置がパワーオンすると、不揮発性メモリである例えばROM1107に格納された本発明に従う一または複数の処理プログラムがランダムアクセスメモリ(RAM)1112に転送される。その後、本発明の実現に必要な変数を格納するレジスタとともに、RAM1112は、一または複数のプログラムの実行可能コードを含む。

一般には、コンピュータまたはマイクロコンピュータにより読み取り可能なデータ格納手段は、本発明に従う方法、とくに、データの符号化、送信および復号方法を実現する一または複数のプログラムを格納する。

なお、データ格納手段は、装置110に統合しても統合しなくてもよく、リムーバブルでもよい。

装置110は、装置110に統合されるか接続されるかに関わらず、上述した異なる構成をまとめてリンクし、それら異なる構成間の通信の確立を可能にする通信バス1113を有する。

バス1113の上記描写は限定されず、とくに、CPU1111は、装置110の任意の構成または装置110に接続される構成に、直接または装置110の別の構成を介して、命令を通信することができる。

なお、装置110により処理されたデータは、ビデオ画像シーケンスからのデータである。

図2に示すように、本発明は、とくに、例えば図1の装置110と同一の通信装置から、通信ネットワーク1103を介して、ビデオ画像シーケンスを送信する状況に適用される。

送信の上流に、ビデオシーケンスを取得するモジュール200が、例えば、非圧縮形式で画像を配信するカメラの形態で提供される。

図示される例において、ビデオ取得の頻度は30画像/秒と仮定する。

モジュール200により取得された画像は、次に、例えばMPEG-4規格に従うビデオ符号器であるビデオ符号化モジュール201に転送される。

モジュール201により圧縮された各画像は、次に、モジュール203によってデータパケットに分割され、形成されたパケットは、送信モジュール204によりネットワーク1103を介して送信される。

なお、ネットワークを介するパケットの送信は、制御モジュール205の管理下、ネットワークの帯域幅B(t)の制約に従って実行される。

変数tは時間指標であり、ある時点において判定されるネットワークの帯域幅は、時間的に変化してもよい。

なお、帯域幅B(t)の値はビデオ符号化モジュール201には既知である。ビデオ符号化モジュール201は、すべてのパケットがネットワーク1103を介して送信できるように、画像の圧縮率と品質を適合させる。帯域幅B(t)の値が低く過ぎる場合、圧縮率は高くなり過ぎ、ビデオの品質は著しく低下する。

そのような場合、ビデオ取得モジュール200が供給する画像の幾らかを削除して、ビデオシーケンスをサンプリングする時間的頻度が適合される。

モジュール202は、ビデオシーケンスの画像を適切にサンプリングする時間的頻度を判定する役割を有する。

モジュール202により一回以上、時間的頻度が適合されたビデオシーケンスは、ネットワーク1103を介して送信される。

ネットワーク1103は、例えば無線ネットワークである。

なお、モジュール200〜205は、送信機として示される通信装置110の一部を形成する。

送信されたパケットは、主データ受信モジュール206とパケット受信モジュール207によって連続的に受信され、パケット受信モジュール207においてバイナリファイルを構成するためにアセンブルされる。

そして、バイナリファイルを構成するデータは、ビデオデータ復号モジュール208によって処理される。

ビデオシーケンスの画像の復号が実行されると、それら画像またはビデオ全体は、視覚品質を向上するために後処理される。

そのような処理は後処理モジュール209によって実行され、例えば、時間方向の補間によってビデオシーケンスの初期の時間的頻度が回復される。

さらに、モジュール209は、ブロック効果を抑制する方法や、当業者に周知の多くの他の方法を実現してもよい。

次に、表示モジュール210は、ビデオシーケンスの表示を実行する。

モジュール206〜210は、例えば図1の装置110と同一の、受信機として示される通信装置の一部を形成する。

なお、上述した説明において、ビデオの取得と符号化はリアルタイムに実行される。

しかし、本発明に従うビデオシーケンスの時間的頻度の適合は、例えばMPEG-4または他の形式で既に圧縮されたビデオに対して実行されてもよい。

その場合、圧縮ビデオのサイズをネットワークの帯域幅制限に適合させるため、圧縮ビデオのコード変換が必要である。

コード変換は、再量子化および/または時間的頻度の変更に含まれてもよい。

図3に示すアルゴリズムは、図2のモジュール202により実現される異なる機能性の一部を詳細に示す。

なお、一般に、図2のモジュール202は、以下で定義する判定基準に基づき、時間的頻度をビデオシーケンスのサンプリングに適合させる決定を行う必要がある。従って、この決定は、ビデオシーケンスの画像のダウンサンプリング、または、サンプリングの時間的頻度の増加の何れかを導く。

図3のアルゴリズムは、例えばカメラを用いてビデオシーケンスを取得する第一のステップ300を有する。

ビデオシーケンスが取得されると、その画像は、時間的頻度f0でサンプリングされる。

次のステップ301は、ビデオシーケンスを符号化する。ステップ303は、ビデオシーケンスの各画像に割り当てるレートの制御を可能にする。

詳細には、ステップ303におけるレート制御は、通信ネットワークにおいて利用可能な帯域幅B(t)を考慮して、符号化パラメータを適合させることを可能にする。

次のステップ304は、サンプリングおよび符号化された画像の視覚品質を判定する。

例えば、ビデオシーケンスの画像の視覚品質の尺度として、ピーク信号対雑音比(PSNR: peak signal to noise ratio)を使用することが可能である。

PSNRは、次式に従って判定される。
PSNR = 20・log₁₀(255/RMSE)
ここで、RMSEはMSEの平方根を示し、MSEは次式で判定される画像の色成分（輝度(luminance)または色度(chrominance)）の平均二乗誤差を示す。
MSE = {1/(L×H)}ΣΣ{X(i, j) - X'(i, j)}²
ここで、Lは画像の幅を表し、Hは高さを表す、
一つ目のΣ演算の範囲はi=0からL-1、
二つ目のΣ演算の範囲はj=0からH-1。

なお、ビデオ符号化ステップ301において実現される量子化フェーズにおいて、MSEを直接計算してもよい。

符号化した画像の視覚品質を判定した後、次のステップ305において、視覚品質と所定の閾値Sの比較を行う。

頻度f0でサンプリングし符号化した画像の視覚品質が所定の閾値S未満の場合、画像の空間的な品質(spatial quality)の向上が必要であることを意味する。

なお、この閾値Sは、経験的に判定され、ビデオデータの種類および/または想定される用途に依存する。従って、例えば、ビデオ会議に関連する用途の閾値は29dBに等しく、ビデオ監視用途の閾値はそれより低い。

そのため、ビデオシーケンスの画像のサンプリングの時間的頻度は低減されるべきである。

この決定は、ステップ306において行われる。

なお、明瞭のために、図3において、符号化した画像の視覚品質が閾値Sより大きい場合を想定しなかった。

しかし、そのような場合、ビデオシーケンスのサンプリング頻度f0は変更されない。

頻度f0を頻度f1に低減すると決定すると、すぐに、ステップ307において、その決定を導いた条件が記録される。

詳細には、メモリに格納される条件は、例えば、ある時点のビデオシーケンスの特性(characteristics)または性質(properties)、および/または、ネットワークの特性または性質である。

ビデオシーケンスのサンプリングの時間的頻度の低減を導いたコンテキストがメモリに格納され、初期値が零の変数「context_to_record」に1が設定される。

従って、後続の画像の符号化において、当該変数が値1を有すれば、ステップ304で判定される品質（例えばPSNR）が初期のコンテキスト値として記録され、その記録の後、当該変数は直ちに零にリセットされる。

なお、ステップ307においてメモリに格納されるコンテキストは、例えば、頻度の変更時の利用可能な帯域幅B(t)と、ビデオアクティビティ（予測誤差の分散、動きベクトルの分散）である。

ステップ306の決定の後、ステップ308において、新しい低減された時間的頻度f1が判定される。

例えば、時間的頻度f0を2で割る。

従って、図3のアルゴリズムは、ある判定基準に基づく時間的なダウンサンプリングを決定し、その決定を行ったコンテキストをメモリに格納することができる。このコンテキストは、後に、高いサンプリングの時間的頻度に戻る場合に役立つ。

次に説明する図4のアルゴリズムは、本発明の実施例1に従いサンプリング頻度を増加する条件を定義する。

このアルゴリズムによれば、時間的頻度f1より高いf2でサンプリングしたビデオシーケンスの画像の符号化をシミュレートするステップの実行の決定は、当該ステップを実行する通信装置のリソースに関連する少なくとも一つの判定基準に基づき行われる。

シミュレーションステップは、実際の条件に従い、新しい頻度がサンプリングに適合するか否かを正確に判定するために存在する。

図4のアルゴリズムは、カメラを用いてビデオシーケンスを取得する第一のステップ400を有する。ステップ401は、例えば、取得されたビデオデータの一時的な格納のために実行される。

次のステップ402は、低減された頻度f1で、ビデオシーケンスのダウンサンプリングを行う。

これは、サンプリング頻度をf0からf1に低減するという決定が、図3のステップ306において既に行われているためである。

次に、サンプリングされたシーケンスの画像は、例えば、ステップ403で一時的に格納された後、ステップ404で符号化される。

次のステップ405は、符号化した画像の品質を判定し、図3の二つのステップ304と305と同様に、その品質と閾値Sを比較する。

なお、ここで想定される処理は画像ごとに行われる。

得られた品質が所定の閾値S未満であれば、新しい低減された時間的頻度が選択され（ステップ406）、頻度を低減する決定が行われた条件（コンテキスト）がメモリに格納される（ビデオシーケンスの特性および/またはネットワークの特性）。

詳細には、変数「context_to_record」に1が設定される。

さらに詳細には、図3に関連して上述したステップ307と308において、低い頻度への移行を定義する説明を参照してもよい。

次のステップ407は、新しい頻度でサンプリングしたシーケンスの後続の画像を選択することを可能にし、その後、以下の動作が同様に実行される。
新しい画像を符号化する、
符号化された画像の品質を判定する、そして、
前の画像に対する上記と同様に、閾値Sと比較する。

ステップ405に戻り、符号化した画像の視覚品質が閾値Sより大きい場合、次のステップ408において、同一のサンプリング頻度が維持され、頻度f1でサンプリングされたシーケンスの後続の画像が上述したように渡される（ステップ407）。

これらの動作に並行して、ステップ409は、通信装置のリソースの状態を分析し、とくに、その装置において符号化シミュレーションを実行するために、計算リソースとメモリ空間が利用可能か否かを判定する。

例えば、利用可能性は、計算ユニットの占有率とメモリ空間の占有率の最大レベルを定義する閾値について判定される。

リソースの状態が許容する場合、ビデオシーケンスのある数の連続する画像がステップ401の終了時に選択される。なお、これらリソースの状態に従い、選択した画像数を適合させ、例えばリソースが閾値に近い場合は少数の画像（一、二または三）のみを使用して、符号化シミュレーションを実行すると決定してもよい。また、これら画像の符号化を計算する時間を、実時間によって強いられる時間よりも長い時間経過に拡張してもよい。これにより、時間的頻度を増加するという可能な決定に僅かな時間オフセットを引き起こすが、決定において、さらに幾つかの画像（五または六画像）を考慮することが可能になる。

次に、選択された画像は、ステップ410において、ステップ402のサンプリングに使用された頻度f1よりも高い時間的頻度f2でダウンサンプリングされる。

ステップ410において適用されるダウンサンプリングのレベルは、例えば、ステップ402において適用されるダウンサンプリングのレベルの二倍より小さい。

ダウンサンプリングされた画像は、例えば、ステップ411で一時的に格納され、ステップ412で符号化される。

なお、符号化ステップ404と412が同一の画像を使用する範囲において、第二の符号化のシミュレーションにおけるステップ412が実行する幾つかの計算は、その後、符号化ステップ404において再利用が可能である。

次のステップ413は、符号化がシミュレートされた各画像の品質を、例えば図3のステップ304において上述したように、それらの視覚品質の判定によって判定する。

次のステップ414は、符号化した画像の品質が品質閾値Sよりかなり大きいか否かを判定するために、符号化した画像の品質と閾値aS（a＞1）を比較する。

実際、複数の符号化した画像が存在すれば、この検査に使用する画像の品質が、選択した全画像の品質のうちで可能な限り安定していること（従って、最も代表的な候補）を保証するために、このステップは最後に選択した画像についてのみ実行される。

ステップ414において肯定（符号化した画像の品質が閾値aSより大きい）の場合、続くステップ415において、サンプリングの時間的頻度をf1からf2に増加することが許可される。

そして、このステップにおいて、例えば、ダウンサンプリングのレートは2で割り算される。

ステップ414に戻り、符号化がシミュレートされた画像の品質が不充分であることが判明すると、上述したステップ408を参照して既に説明したように、サンプリング頻度を変更しないと決定される。

ステップ409〜415で説明したように、ある時間的頻度で行う第一の符号化（ステップ404）に並行して、高い時間的頻度の第二の符号化のシミュレーションが可能か否かを決定するために、計算リソースと可能ならばメモリ空間の利用可能性を判定する。

例えば、現在の時間的頻度を用いるビデオの一秒分の符号化がマシンリソースの50%を使用する場合、ステップ410と412において、第二の符号化をシミュレートするためにビデオの0.5秒分を選択することが可能である。

ビデオ符号器において、二つの画像間の動きの推定は、計算コストが非常に高いことは周知である。

この点を考慮すると、符号化ステップ412において推定された動きに基づき、符号化ステップ404において、二つの画像間の動きを推定することが可能である。

従って、ステップ412において画像I(0)とI(1)の間、画像I(1)とI(2)の間で動きが計算されていれば、簡単な加算によりI(0)とI(2)の間の動きが推定され、その動きを符号化ステップ404において第一の近似として使用してもよい。反対に、ステップ404で行った計算をステップ412で再利用することも可能である。

これにより、探索空間(search space)と計算時間を大幅に減少することができる。

なお、ステップ402において画像を低減した頻度f1でサンプリングすることが決定される場合、図3のステップ307と308が実行されている。

従って、初期のコンテキストが記録され（例えば、ビデオアクティビティと帯域幅）、変数「context_to_record」に1が設定される。

そして、頻度f1でサンプリングされた後続の画像は、その視覚品質がステップ405において判定される前に、ステップ404で符号化される。

しかし、符号化に並行して、または、符号化後、上述した変数の値が1か否かを確認するステップ416が実行される。

肯定（変数の値が1）の場合、次のステップ417において、当該変数は零に設定され、図3のステップ304において判定された最新の視覚品質(PSNR)の値が記録される。

しかし、この記録（PSNR値の記録を除き）は、代わりに、図3のステップ307で実行されてもよい。

一般に、画像の視覚品質は、ビデオアクティビティとネットワークの送信能力に依存する。詳細には、ある帯域幅に対して、ビデオアクティビティが高いほど、視覚品質は低い。

ステップ416の検査において変数が零の場合、サンプリング頻度が低減されなかったことを意味し、コンテキスト(PSNR)は記録されない。

図5は、本発明の実施例2に従って、ビデオシーケンスのサンプリング頻度をビデオシーケンスおよび/またはネットワークの特性（コンテキスト）の時間に沿う漸進的な変化に従い適合させるアルゴリズムを示す。

以下に説明するように、このアルゴリズムは、とくに、ある環境下で、上述したコンテキストの時間的な変化を考慮すると同時に、マシンリソース（計算ユニットおよび/またはメモリ空間）の使用の減少を可能にする。

図5のアルゴリズムは、ビデオシーケンスを取得する第一のステップ500を有す。取得されたビデオシーケンスは、ステップ501で格納され、ステップ502（図3のステップ306に相当）に関連する時間的頻度を低減する決定に従うステップ503において、頻度f1でダウンサンプリングされる。そして、ステップ504で格納され、ステップ505で符号化される。

これらステップはそれぞれ、図4のステップ400、401、402、306、403、404と同一である。

同様に、符号化した画像の品質を閾値Sと比較するステップ506、サンプリングの時間的頻度を低減する決定と新しいコンテキストを記録するステップ507、同一のサンプリング頻度の維持を決定するステップ509はそれぞれ、図4のステップ405、406、408と同一である。

これらのステップの後、後続の画像は、図4のステップ407と類似する(analogous to)ステップ508において処理される。

ステップ505で後続の画像を符号化した後、ステップ510において、コンテキストが時間的に変化した様子が判定される。

この検査ステップの結果により、高いサンプリングの時間的頻度における第二の符号化のシミュレーションが有用か否かが決定される。

なお、ステップ510は、アルゴリズム内の他の場所に存在してもよく、コンテキストがビデオアクティビティおよび/またはネットワークの送信能力によって特徴付けられる場合は符号化後にある必要はない。

詳細には、ステップ510において次が比較される。一方は、サンプリングの時間的頻度を低減すると決定した時点のビデオシーケンスおよび/またはネットワークを表すコンテキスト（事前に記録されたコンテキスト515）である。他方は、現在または直前のビデオシーケンスおよび/またはネットワークの状態を表す所謂現コンテキスト（ビデオアクティビティと現在の帯域幅512）である。

なお、初期のコンテキスト515は図3のステップ307において記録され、その記録515は、頻度f1の低減直後（図4のステップ417）の符号化した画像の視覚品質(PSNR)の記録も含む。

コンテキストは、例えば、ある時点でビデオシーケンスおよび/またはネットワークが提示する特性によって定義される。コンテキストは、例えば、ビデオまたは画像の視覚品質（例えばPSNR）、ビデオアクティビティ（予測誤差の分散および/または動きベクトルの分散）、参照時に利用可能な帯域幅でよい。

しかし、このステップにおいて、画像の視覚品質のみを考慮すれば、図4のステップ417で最初に記録された画像の視覚品質と、現在の視覚品質を比較することができる。なお、ステップ417で最初に記録された画像の視覚品質は、ビデオシーケンスをサンプリングする時間的頻度の低減を決定した時に記録された画像の視覚品質である。また、現在の視覚品質は、ステップ505で符号化された画像の視覚品質である。

この符号化した画像は、低減した頻度におけるサンプリングの結果得られる。

従って、コンテキストの時間的な変化がビデオシーケンスおよび/またはネットワークの現在の特性の時間的な改善を示す場合、例えば、現在のビデオシーケンスの視覚品質が初期のビデオシーケンスの視覚品質より高いか、帯域幅が前の帯域幅より広い場合、サンプリングの時間的頻度が高いビデオシーケンスの視覚品質が良好である可能性がある。

この場合、ステップ503の頻度f1より高い時間的頻度でサンプリングされたビデオシーケンスの画像の第二の符号化のシミュレーションを想定することができる。

しかし、この符号化シミュレーションは、ある時点で利用可能なマシンリソース（計算ユニットおよび/またはメモリ空間）の状態に従属する。

所定の閾値（計算ユニットまたはメモリ空間の占有のレベル）に関して、マシンリソースの状態を確認するステップは、図4のステップ409と同一のステップ513において実行される。

しかし、マシンリソースの状態を考慮することなく、符号化シミュレーションのステップを実行することも可能である。

従って、ステップ503で使用するサンプリング頻度よりも高いサンプリング頻度を採用する場合、ダウンサンプリング514、格納515、符号化516、視覚品質の判定517、その品質と閾値aSの比較518の各ステップが実行される。

これらステップはそれぞれ、図4のステップ410、411、412、413、414と同一である。

より高い頻度のビデオシーケンスの視覚品質が充分に良好な場合（PSNR＞aS）、次のステップ519は、例えば符号化シミュレーションを実行した場合より高い時間的頻度を選択して、頻度を適合する。

他方、視覚品質が不充分の場合（PSNR≦aS）、ステップ503で使用したサンプリング頻度を維持する（ステップ509）。

なお、ステップ513において使用したマシンリソースの状態が所定の閾値（占有のレベル）未満の場合、ステップ514以降で実行する符号化シミュレーションを用いずに、サンプリングの時間的頻度を直接増加することも想定可能である。

従って、計算時間は節約され、決定速度は増加される。

比較ステップ510に戻り、コンテキストが時間的に劣化すれば、その結果、ビデオシーケンスの現在の視覚品質（PSNR）は、サンプリングの時間的頻度を低減した時のビデオシーケンスの視覚品質以下になる。そして、より高い時間的頻度におけるビデオシーケンスの視覚品質は不充分である可能性が非常に高い。

詳細には、これは、現在のコンテキストが、時間的頻度の低減を既に導いたコンテキストより良好ではないと判明することから説明される。

この場合、ステップ514以降で実行する符号化シミュレーションは無益であることが判明し、ステップ510に続くステップ520において、判定された視覚品質（PSNR）の値は零にリセットされる。ステップ520に続いて上述したステップ518へ進み、PSNRの値が与えられ、同一のサンプリング頻度を維持するステップ509へ直接導かれる。

なお、変数「context_to_record」を介したコンテキストの記録は、図4の416と417を参照して説明した方法と同一の方法で実行される。

なお、より高いサンプリングの時間的頻度を選択する場合、例えば、サンプリングの時間的頻度を二倍にする場合、現在のコンテキストは、前にサンプリングの時間的頻度を低減した時に記録されたコンテキストに対応する。

本発明が実現する通信装置を示す図、本発明の環境を概略的に示す図、本発明によりビデオ画像シーケンスの時間的頻度を判定するアルゴリズムを概略的に示す図、本発明の実施例1によりビデオ画像シーケンスの時間的頻度を判定するアルゴリズムを概略的に示す図、実施例2によりビデオ画像シーケンスの時間的頻度を判定するアルゴリズムを概略的に示す図である。

Claims

通信ネットワークを介して送信するために、ビデオ画像シーケンスの時間的頻度を適合させる方法であって、
前記シーケンスの画像は時間的頻度f1でサンプリングされ、
前記シーケンスをサンプリングする前記時間的頻度f1が増加可能か否かを判定するために、時間的頻度f2＞f1でサンプリングされた前記ビデオシーケンスの画像の符号化をシミュレートするステップの実行を決定するステップを有し、
前記決定は、前記シミュレーションステップ(412; 516)を実行可能な通信装置のリソースに関する少なくとも一つの判定基準(409; 513)に基づき、並びに/あるいは、前記ビデオシーケンスおよび/またはネットワークの特性(512, 515)の時間に沿う漸進的な変化に基づき行われることを特徴とする方法。
前記ビデオシーケンスおよび/またはネットワークの特性の前記時間に沿う漸進的な変化は、前記サンプリングに前記時間的頻度f1を用いると決定されたときに、前記ビデオシーケンスおよび/またはネットワークが提示した初期の特性に関して示されることを特徴とする請求項1に記載された方法。
前記シミュレーションステップの実行を決定するステップの前に、前記ビデオシーケンスの画像をサンプリングする時間的頻度に関連して、所定の時点における前記ビデオシーケンスの特性および/またはネットワークの特性をメモリに格納するステップ(307)を有することを特徴とする請求項1または請求項2に記載された方法。
前記メモリに格納するステップ(307)は、前記ビデオシーケンスの画像をサンプリングする時間的頻度を頻度f0から前記頻度f1に低減すると決定された(306)後に実行されることを特徴とする請求項3に記載された方法。
前記シミュレーションステップの実行を決定するステップの前に、前記ビデオシーケンスの画像を時間的頻度f0＞f1でサンプリングするステップ(300)と、
前記サンプリングした画像を符号化するステップ(301)と、
前記符号化した画像の品質を判定するステップ(304)と、
前記判定した品質を所定の閾値と比較するステップ(305)と、
前記比較の結果に従い、前記ビデオシーケンスの画像をサンプリングする時間的頻度を前記頻度f0から前記頻度f1に低減することを決定するステップ(306)とを有することを特徴とする請求項1から請求項4の何れか一項に記載された方法。
前記サンプリングに前記時間的頻度f1を使用することが決定された場合、前記ビデオシーケンスおよび/またはネットワークが提示する前記現在の特性(512)と、前記ビデオシーケンスおよび/またはネットワークが提示した前記初期の特性(515)を比較するステップ(510)を有することを特徴とする請求項1から請求項5の何れか一項に記載された方法。
前記特性を比較するステップ(510)は、とくに、前記現在の特性と前記初期の特性のそれぞれを用いて得られる前記ビデオシーケンスの前記品質を比較するステップの形態で実行されることを特徴とする請求項6に記載された方法。
前記比較ステップの結果に従い、前記サンプリングの時間的頻度をf1からf2に増加すると決定するステップ(518)を有することを特徴とする請求項6または請求項7に記載された方法。
前記方法は、前記ビデオシーケンスおよび/またはネットワークの前記現在の特性が時間的に改善した場合、前記サンプリングの時間的頻度を増加するステップ(519)を有することを特徴とする請求項8に記載された方法。
前記ビデオシーケンスおよび/またはネットワークの前記現在の特性が時間的に改善した場合、前記時間的頻度f2＞f1でサンプリングされた画像の符号化をシミュレートするステップの実行の決定は、所定の閾値に関する前記通信装置のリソース(513)の状態に依存することを特徴とする請求項6または請求項7に記載された方法。
前記通信装置のリソースの状態が前記所定の閾値未満の場合、前記符号化シミュレーションステップを用いずに、前記サンプリングの時間的頻度を増加するステップ(507)を有することを特徴とする請求項10に記載された方法。
前記ビデオシーケンスおよび/またはネットワークの前記現在の特性が時間的に劣化した場合、前記符号化シミュレーションステップは実行されないことを特徴とする請求項6または請求項7に記載された方法。
前記通信装置のリソース(409, 513)の状態が所定の閾値より大きい場合、前記時間的頻度f2＞f1でサンプリングした前記ビデオシーケンスの画像の符号化をシミュレートするステップ(412; 516)を有することを特徴とする請求項1から請求項10の何れか一項に記載された方法。
前記シミュレーションステップは、前記ビデオシーケンスの画像を前記時間的頻度f2でサンプリングするサブステップ(410; 514)と、
前記サンプリングした画像の符号化をシミュレートするサブステップ(412; 516)と、
前記符号化した画像の品質を判定するサブステップ(413; 517)と、
前記判定した品質を所定の閾値と比較するサブステップ(414; 518)と、
前記閾値を超える場合、前記ビデオシーケンスの画像をサンプリングする時間的頻度を増加するサブステップ(415; 519)と含む複数のサブステップに細分化されることを特徴とする請求項13に記載された方法。
前記ビデオシーケンスの特性は、前記ビデオシーケンスのビデオアクティビティおよび/または品質であることを特徴とする請求項1から請求項14の何れか一項に記載された方法。
前記ビデオシーケンスの品質または画像の品質は、前記符号化された画像またはビデオシーケンスの信号対雑音比に関して表されることを特徴とする請求項1から請求項15の何れか一項に記載された方法。
前記ネットワークの特性は前記ネットワークの帯域幅であることを特徴とする請求項1から請求項16の何れか一項に記載された方法。
通信ネットワークを介して送信するために、ビデオ画像シーケンスの時間的頻度を適合させる装置であって、
前記シーケンスの画像は時間的頻度f1でサンプリングされ、
前記シーケンスをサンプリングする前記時間的頻度f1が増加可能か否かを判定するために、時間的頻度f2＞f1でサンプリングされた前記ビデオシーケンスの画像の符号化をシミュレーションを実行する手段を有し、
前記決定は、前記シミュレーションステップを実行可能な通信装置のリソースに関する少なくとも一つの判定基準に基づき、並びに/あるいは、前記ビデオシーケンスおよび/またはネットワークの特性の時間に沿う漸進的な変化に基づき行われることを特徴とする装置。
前記ビデオシーケンスの画像をサンプリングする時間的頻度に関連して、所定の時点における前記ビデオシーケンスの特性および/またはネットワークの特性をメモリに格納する手段を有することを特徴とする請求項18に記載された装置。
前記ビデオシーケンスの画像を時間的頻度f0＞f1でサンプリングする手段と、
前記サンプリングした画像を符号化する手段と、
前記符号化した画像の品質を判定する手段と、
前記判定した品質を所定の閾値と比較する手段と、
前記ビデオシーケンスの画像をサンプリングする時間的頻度を前記頻度f0から前記頻度f1に低減することを決定する手段とを有し、
前記決定手段は、前記比較の結果に依存して決定を行うことを特徴とする請求項18または請求項19に記載された装置。
前記サンプリングに前記時間的頻度f1を使用することが決定された場合、前記ビデオシーケンスおよび/またはネットワークが提示する前記現在の特性と、前記ビデオシーケンスおよび/または前記ネットワークが提示した前記初期の特性を比較する手段を有することを特徴とする請求項18から請求項20の何れか一項に記載された装置。
前記サンプリングの時間的頻度をf1からf2に増加することを決定する手段を有し、
前記決定手段は、前記比較の結果に依存して前記決定を行うことを特徴とする請求項21に記載された装置。
前記頻度を増加するように構成され、前記ビデオシーケンスおよび/またはネットワークの前記現在の特性が時間的に改善した場合、前記サンプリングの時間的頻度を増加する手段を有することを特徴とする請求項22に記載された装置。
前記時間的頻度f2＞f1でサンプリングされた前記ビデオシーケンスの画像の符号化をシミュレーションする手段を具備し、前記手段は、前記通信装置の前記リソースの前記状態が所定の閾値より大きい場合に前記符号化をシミュレーションするように構成されることを特徴とする請求項18から請求項23の何れか一項に記載された装置。
前記シミュレーション手段は、前記ビデオシーケンスの画像を前記時間的頻度f2でサンプリングする手段と、
前記サンプリングした画像の符号化をシミュレートする手段と、
前記符号化した画像の品質を判定する手段と、
前記判定した品質を所定の閾値と比較する手段と、
前記ビデオシーケンスの画像をサンプリングする時間的頻度を増加し、前記閾値を超える場合に前記時間的頻度を増加する手段とを有することを特徴とする請求項24に記載された装置。
プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータにロードされ実行されると、請求項1から請求項17の何れか一項に記載された方法の実現を可能にする命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。
コンピュータシステムにロード可能で、前記コンピュータシステムにロードされ実行されると、請求項1から請求項17の何れか一項に記載された方法の実現を可能にする命令を含むプログラム。