JP2010500818A

JP2010500818A - 漫画アニメーション圧縮のためのシステムおよび方法

Info

Publication number: JP2010500818A
Application number: JP2009523845A
Authority: JP
Inventors: シュン，ピン−カン; チェークオ，チュン; ヤン，シェン
Original assignee: デジタルメディアカートリッジ，リミティド
Priority date: 2006-08-08
Filing date: 2007-08-08
Publication date: 2010-01-07
Also published as: WO2008019156A2; EP2084669A4; WO2008019156A3; EP2084669A2; US20100303150A1

Abstract

アニメーションまたは漫画アニメーションのコンテンツの映像の符号化に特化したシステムは映像シーケンスを符号化する。本システムは、一連の映像フレームから動くオブジェクトを除去し、複数の順次的な映像フレームで使用される静止した背景についての背景定義を生成する背景分析部と、映像ストリーム中に含まれる色を分析し、該映像ストリーム中で発生する色の主要色リストを作成する色クラスタリング部と、一連の映像フレーム中での位置および回転姿勢以外は該一連の映像フレーム中で一定である１つ以上のオブジェクトを識別するオブジェクト識別部と、複数の符号化技術の各々によって達成される圧縮に応じて該複数の符号化技術のうち１つにしたがって映像シーケンスから導出された背景およびオブジェクトを符号化するハイブリッドエンコーダとを含む。

Description

本発明は、漫画アニメーション圧縮のためのシステムおよび方法に関する。

関連出願の相互参照
本出願は、その内容全体が参照によって本出願に明示的に組み込まれる、２００６年８月８日出願の米国仮特許出願第６０／８３６，４６７号および２００６年９月７日出願の米国仮特許出願第６０／８４３，２６６号に基づくものであり、それらの優先権を主張する。
ＭＰＥＧ−３、ＭＰＥＧ−４、Ｈ．２６４といった、様々な映像圧縮技術が当該技術分野で知られている。一般に、こうした映像圧縮技術は、従来のフィルムまたは映像カメラによって撮影されたコンテンツのような「実写」コンテンツの圧縮に適している。アニメーション、および特に漫画アニメーションによる映像の固有の特徴を考慮した圧縮技術に対する必要が存在している。

アニメーション、および特に漫画アニメーションは、それを「実景」または「実写」のフィルムまたは映像と区別する多くの特性を有する。本発明は、そうしたいくつかの特性を利用して、符号化利得を改善し、かつ／または復号の際の計算の複雑さを減少させるより柔軟な圧縮技術を提供する。漫画アニメーションの特徴としては次のようなものがある。
−カメラの動きは非常に単純であり、普通、カメラのズームおよびパンのみである。多くの場合、カメラは１つのシーンの間固定している。
−色または色の濃淡の数がより少ない。
−テクスチャパターンが非常に単純である。例えば、１つの連続した範囲は普通１色だけで描画される。
−オブジェクトの境界は非常に明瞭なので、オブジェクトを背景から容易に分離することができる。

アニメーションまたは漫画アニメーションのコンテンツの映像の符号化に特化した、本発明に係るシステムは、映像シーケンスを符号化する。本システムは、一連の映像フレームから動くオブジェクトを除去し、複数の順次的な映像フレームで使用される静止した背景についての背景定義を生成する背景アナライザと、映像ストリーム中に含まれる色を分析し、該映像ストリーム中で発生する色の主要色リストを作成する色クラスタラと、一連の映像フレーム中での位置および回転姿勢以外は該一連の映像フレーム中で一定である１つ以上のオブジェクトを識別するオブジェクトアイデンティファイアと、複数の符号化技術の各々によって達成される圧縮に応じて該複数の符号化技術のうち１つにしたがって映像シーケンスから導出された背景およびオブジェクトを符号化するハイブリッドエンコーダとを含む。

本発明の例示実施形態のシステムアーキテクチャのブロック図である。フレーム内処理フィルタリングの前の元の漫画アニメーションのフレームである。本発明の実施形態に係るフレーム内処理フィルタによるフィルタリングの後の図２Ａに示すフレームである。図２Ａおよび図２Ｂに示すフレーム間の負の差分である。例示的な漫画アニメーション中の２つの連続するフレームを示す。例示的な漫画アニメーション中の２つの連続するフレームを示す。図３Ａおよび図３Ｂに示すフレーム間の差分を示す。先鋭化した後の図３Ｃに示すフレームを示す。先鋭化した後の図３Ｃに示すフレームをフィルタリングした画像を示す。図３Ｃに示す差分フレームのヒストグラムである。３：２プルダウンのアーティファクトを呈する映像フレームである。修正されたエンコーダの実施形態のブロック図である。ありうる全てのフレーム間輝度差分についてｆ₃を測定した経験的結果を示すグラフである。

本発明の例示実施形態のシステムアーキテクチャのブロック図を図１に示す。図１のシステム１００は、映像１０４を受信してマルチプレクサ１０６への出力を発生する。マルチプレクサ１０６の出力はデマルチプレクサ１０８に入力され、デマルチプレクサ１０８はその出力をデコーダ１１０に送信する。そして、デコーダ１１０は復号された映像１１２を出力する。多くの実施形態で、エンコーダ１０２およびデコーダ１１０は、プログラムされた汎用コンピュータを使用して実現される。他の実施形態では、エンコーダ１０２およびデコーダ１１０は各々、１つ以上の特殊機能ハードウェアユニットにおいて実現される。また別の実施形態では、エンコーダ１０２およびデコーダ１１０は各々、エンコーダまたはデコーダの機能の一部を実行するプログラムされた汎用コンピュータと、エンコーダまたはデコーダの他の機能を実行する１つ以上の特殊機能ハードウェアユニットとを含む。例えば、エンコーダ１０２は主としてプログラムされた汎用コンピュータ上で実現してもよいが、データの特定の部分のＨ．２６４符号化を実行するための専用のＨ．２６４エンコーダを使用し、その一方で、デコーダ１１０は、手持ち式映像再生装置中のＡＳＩＣチップのような、特殊機能ハードウェアユニットを使用して全体を実現してもよい。

エンコーダ１０２およびデコーダ１１０は、機能または機能を実行する装置を表すいくつかのブロックを含む図１に示される。しかし、各ブロックは、ブロックが機能またはハードウェア装置のどちらの名称を付されているかにかかわらず、実行される機能および機能を実行する対応するハードウェア要素の両者を表すものである。

漫画アニメーションの場面はベータカムフォーマットで格納されることが多い。ベータカム装置が使用する損失性の圧縮技術のため、復号された映像シーケンスは元のものとわずかに異なっている。これは一種のノイズと考えることができる。このノイズは視覚的品質を劣化させるわけではないが、より多くのビットを必要とし、圧縮比を低下させる。したがって、圧縮されたソースがベータカム記憶装置からのものである場合、まず、前々処理１１４で実際に符号化する前にノイズを除去しなければならない。ノイズは、フレーム内ノイズ（１つのフレーム内のノイズ）およびフレーム間ノイズ（２つのフレームの間のノイズ）という２つのカテゴリに分類できる。

フレーム内前処理の目的は、Ｉ−フレームのような１つのフレーム内のノイズを除去することである。こうしたフレームは、映像ショットまたはシーン中の後続の連続するフレームに対する基準として使用できるため、普通その映像ショットまたはシーンの最初のフレームである。

アニメーションを制作する工程を通じて、１つの連続した範囲は普通１色だけで埋められており、例えば、１つのフレーム内で、空全体はある特定の色調の青色となる。しかし、ベータカムまたは他の映像記憶装置から変換した後では、こうした範囲内には普通小さな差が存在する。図１に示すプリプロセッサはフレーム内処理フィルタ（図示せず）を含む。フレーム内処理フィルタは、類似の値を持つ色を１つの色に変換して、損失性の記憶装置に起因する小さな乱れを除去するように設計される。

フレーム内ノイズおよび前処理の結果の例を図２Ａ〜図２Ｄに示す。図２Ａは、フィルタリングする前の元の漫画アニメーションのフレームである。図２Ｂは、本発明の実施形態に係るフレーム内処理フィルタによるフィルタリングの後の図２Ａのフレームである。図２Ｃは、差分が人間により容易に知覚できるように先鋭化しコントラストを増大した、図２Ａと図２Ｂとの間の負の差分（黒色が差分を示す）である。

フレーム間前処理の目的は、普通映像ショット中でＩフレーム以外のフレームである、ＰおよびＢフレーム中のノイズを除去することである。ＩフレームはＰおよびＢフレーム中のノイズを除去するための基準として使用される。

図３Ａおよび図３Ｂは、例示的な漫画アニメーション中の２つの連続するフレームを示す。それらの間の差分を図３Ｃに示す。先鋭化した後、図３Ｄからノイズを明瞭に見ることができる。

ノイズの分布を分析することによって、ノイズの水準は普通、図４に示すように、実写映像の信号と異なって、非常に小さいことが判明した。ノイズを除去するためのしきい値は、図４に示すヒストグラムに基づいて注意深く選択される。フィルタリングされた画像を図３Ｅに示す。先鋭化した後の、図３Ｅのフィルタリングされた画像を図３Ｆに示す。

上記の２つのアーティファクトの他に、元の漫画アニメーションのシーケンスが３：２プルダウンによって処理された後デインターレースされたものである場合、インターレースという第３のアーティファクトが存在することになる。３：２プルダウンは、２４ｆｐｓソース（通常フィルム）を３０ｆｐｓ出力（通常ＮＴＳＣ映像）に変換するために利用されるものであり、その際３０ｆｐｓ中の各フレームは２つの順次的なインターレースされたフィールドからなる。別言すれば、３０ｆｐｓ出力は、毎秒６０個のインターレースされたフィールドを備える。３：２プルダウンによって生成されたこうした出力では、ソースの第１のフレームを使用して３つの連続するフィールドを生成し、そのうち最初の２つのフィールドが出力の第１のフレームを構成し、最後のフィールドが次のフレームの１／２を構成する。そして、第２のソースフレームを使用して次の２つの連続するフィールドを生成し、そのうち第１のフィールドが第２の出力フレームの第２のフィールドを構成し、第２のフィールドが第３の出力フレームの第１のフィールドを構成する。第３のソースフレームでは、再びそれを使用して３つの連続するフィールドを生成し、そのうち第１のフィールドが第３の出力フレームの第２の１／２を構成し第２および第３のフィールドが第４の出力フレームを構成する。ここでは、この第３の出力フレームが、第２のソースフレームから導出された１つのフィールドと、第３のソースフィールドから導出された１つのフィールドとを有することに注意されたい。このことは出力がインターレースされたままである限りは問題ではない。さて、３：２：３：２サイクル（すなわち３：２プルダウン）に話を戻すと、第４のソースフィールドを使用して２つの出力フィールドを生成し、この場合それらはどちらも出力の第５のフレームのために使用される。この処理を繰り返し使用すると、ソースは４つのフレーム毎に出力の５つのフレーム（１０個のフィールド）に（すなわち２４：３０の比で）変換され、２４ｆｐｓから３０ｆｐｓ（毎秒６０フィールド、インターレース）への変換を達成する。

３０ｆｐｓインターレースソースを３０ｆｐｓプログレッシブ（またはノンインターレース）出力に変換する時に問題が生じる。この処理では、各フレームの第１および第２のフィールドがデインターレースされて、毎秒３０個のノンインターレースフレームを生じる。しかし、上記で説明したように、３：２プルダウンを使用して３０ｆｐｓソースが生成された場合は、出力の第３のフレームは１つのソースフレームの偶数の走査線と別のソースフレームの奇数の走査線とを含んでいる。その結果、元の２４ｆｐｓソース素材の２つのフレーム間で動く任意のオブジェクトの２つの半分の（インターレースされた）画像を含むフレームが生じる。漫画アニメーションの文脈でのこうしたフレームの例を図５に示す。この状況では普通、３０ｆｐｓプログレッシブソースの５フレーム毎にインターレースアーティファクトを伴うフレームが見られるようになるだろう。漫画アニメーションによる映像では実写映像よりもオブジェクトの色やエッジがより鮮明なので、プルダウンによるインターレースアーティファクトはさらに明白であることが多く、実写映像で通常見られる不鮮明さが増すようなアーティファクトではなく、縞状のアーティファクトを生じる。

一実施形態では、（５フレーム毎の）インターレースアーティファクトを含む各フレームを、前または後ろ何れかのフレームによって置換することによってデインターレースが実行される。別の実施形態では、３０ｆｐｓインターレースソースを３０ｆｐｓプログレッシブ出力に変換する時に、逆３：２プルダウンが実行される。代替的には、アニメーションが３：２プルダウンされる前に（２４ｆｐｓフォーマットで）取得される場合は、インターレースアーティファクトは存在しない。

図１に戻ると、エンコーダは、シーンの境界を検出して入力映像をショットに区分すること１１６と、映像シーケンスのグローバル動きベクトルを計算すること１１８と、各ショットに対して背景を合成すること１２０と、フレームを背景と比較して動くオブジェクトを抽出すること１２４と、背景と映像オブジェクトとを個別に符号化すること１２６とを含む。

この処理では、符号化範囲がフレーム全体から映像オブジェクトを含む小さな範囲に縮小され、複数のフレームが共有する背景は一度符号化するだけでよく、かつグローバル動きベクトルを使用することによって、各マクロブロックの動きベクトルのために必要なビットを減らすことができるため、圧縮比が改善される。

最初のステップ１１４では、漫画アニメーションのシーケンスをショットに区分することによって、シーンの境界（映像中の各シーンの始点および終点）が検出される。その後、各ショットは個別に処理され符号化される。シーン変化検出は、時間領域に沿った視覚的不連続性を検出する。この処理を通じて、フレーム間の類似性の度合いを測定する視覚的特徴を抽出する必要がある。ｇ（ｎ，ｎ＋ｋ）、ただしｋ≧１、で表示される尺度はフレームｎおよびｎ＋ｋの間の差分に関するものである。この差分を計算する多くの方法が提案されている。

多くの実施形態では、（１）フレーム間のピクセルを基準とした差分を直接計算する、および（２）ヒストグラム間の差分を計算する、という２つの測定法の一方または両方を使用してシーンの変化が検出される。

ここで、Ｉ（ｘ，ｙ）はｘおよびｙ位置での画像のピクセル値である。

映像ショット間の遷移にはいくつかの種類が存在する。１つの種類の遷移はワイプ、例えば、左から右、上から下、下から上、対角線方向、中心から周辺へのアイリス円の拡大等である。ワイプは普通、ピクセル差分およびヒストグラム差分の両者についての円滑な遷移である。別の種類の遷移はカットである。例えばクローズアップを使用して物語の核心を形作るため等の理由で、カットは即座に次の画像に変化する。カットは通常、ピクセル差分およびヒストグラム差分の両者についての突然の遷移を伴う。別の種類の遷移はフェードである。フェードはシーンの完全な変化についての隠喩として使用されることが多い。ここで論じる最後の種類の遷移はディゾルブである。ディゾルブは、次の明瞭な画像が現れる前に現在の画像が歪んで認識不能な形態になるものであって、例えば、ボクシーディゾルブ、クロスディゾルブ等がある。

別の実施形態では、順次的なフレームの色の集合を分析することによってシーンの変化が検出される。多くの漫画アニメーション中のシーンは制限された数の色だけを使用している。順次的なフレームについての色データを正規化して各フレームでどの色（パレット）が使用されているかを決定することができ、色の集合の大きな変化はシーン間の変化の良好な指標である。

シーン変化検出１１８に目を向けると、２つの画像を想定すると、それらの動き変換は、

Ｉ_t（ｐ）＝Ｉ_t-1（ｐ−ｕ（ｐ，θ））

としてモデル化することができ、ここでｐは画像座標であり、ｕ（θ）はパラメータベクトルθによって記述したｐでの変位ベクトルである。動き変換は、２つのパラメータの単純な変換モデルとしてモデル化することができる。

残余誤差の目的関数を最小化することによって、未知のパラメータが推定される。すなわち、

であり、ここでｒ_iはｉ次の画像ピクセルである。
ｒ_i＝Ｉ_t（ｐ_i）−Ｉ_t-1（ｐ_i−ｕ（ｐ_i，θ））

したがって、動き推定の課題はパラメータベクトルθを計算するための最小化の問題となるが、これはガウス−ニュートン（Ｇ−Ｎ）アルゴリズム等によって解くことができる。

背景分析１２０に目を向けると、各ショットについての静的スプライトが合成される。静的スプライトは、ショット内のフレームについて、動くオブジェクトを抽出するための基準となる。

静的スプライトの生成は、共通領域検出、背景拡張、動くオブジェクトの除去、という３つのステップから構成される。

１つの映像ショットのフレームは１つの背景を共有している。残余シーケンスを分析することによって、共通領域を容易に抽出することができる。２つの隣接するフレーム間の差分を計算することによって残余画像が計算される。残余シーケンスのどのフレームでも１つのピクセルが所定のしきい値より小さい場合、それは背景ピクセルであると考えられる。

共通領域は、一旦検出されると、拡張して背景部分を拡大することができる。１つのピクセルが背景ピクセルに連接しており類似の色を有する場合、それは背景ピクセルであると考えられる。

動くオブジェクトに隠されて第２のステップで拡張されていないピクセルについては、動くオブジェクトを除去することによってそれらの色を発見する必要がある。動くオブジェクトを検出するため、１つのフレームを次のフレームから減算する。

色のクラスタリング１２２に目を向けると、前に言及したように、漫画アニメーション中の色の数は実景の映像よりはるかに少なく、広い範囲が１色だけで埋められている。したがって、エンコーダ側では主要な色を記録するための、マスター色リストのようなテーブルが確立され、デコーダ側ではこれを使用して、色マッピングによって元の色を回復することができる。

オブジェクト分析１２４に目を向けると、背景画像が生成された後、背景からフレームを単純に減算することによって動くオブジェクトが達成される。

Ｒ_t（ｘ，ｙ）＝Ｉ_t（ｘ，ｙ）−ＢＧ（ｘ，ｙ）

ここで、Ｉ_t（ｘ，ｙ）はフレームｔ、ＢＧ（ｘ，ｙ）は背景、Ｒ_t（ｘ，ｙ）はフレームｔの残余画像である。ＭＥＰＧ−４のコンテンツベースの符号化と比較して、このアルゴリズムの利点は、形状符号化とテクスチャ符号化とを結合していることである。

ピクセル値の範囲が［０，２５５］であると想定する。すると次式が得られる。

その後、映像コーデックと互換性を持たせるために、残余画像を［０，２５５］にマッピングする。

ここで、ｒｏｕｎｄ（ｍ）はｍに最も近い整数を生じることである。変換の後、背景と残余画像との両者は汎用コードによって符号化することができる。しかし、ｒｏｕｎｄ演算のため色は元の色と異なっており、このことは色ドリフトと呼ばれる。以下後処理に関連して論じるように、このアーティファクトは色マッピングによって除去することができる。

次に、従来の映像符号化技術１２６を使用して背景とオブジェクトとの両者が符号化される。これは図１ではＨ．２６４符号化として表示されているが、視覚的品質をさらに改善するため、実施形態によっては、空間領域と周波数領域との間の切り換えを行うハイブリッド映像符号化が使用される。例えば、符号化すべきブロックに対して、汎用映像符号化と形状符号化との両者が適用され、実際の符号化のためにより高い圧縮比を持つものが選択される。漫画アニメーションは普通非常に明瞭な境界を有することを考慮すると、ハイブリッド符号化法は汎用映像符号化法より良好な視覚的品質を生じることが多い。

さらに詳しく言うと、Ｈ．２６４符号化では、予測符号化によって時間的冗長性が減少する。変換の符号化効率は、予測誤差の相関に高度に依存する。予測誤差が相関される場合、変換の符号化効率は良好になり、そうでない場合良好にならない。漫画アニメーションの場合、あるオブジェクトおよび／または背景について予測誤差が高度に相関しないということは珍しくないので、Ｈ．２６４は不十分にしか機能しない。したがって、各ブロックはもっとも効率的なモード、すなわちＤＣＴまたは変換なしで符号化される。

デコーダ１１０に目を向けると、一般に、復号は符号化の逆の処理と考えることができ、シーン変化合成１２８、背景合成１３０、色マッピング１３２、オブジェクト合成１３４、Ｈ．２６４デコーダ１３６、ショット連結１３８、および後処理１４０を含む。

機能１２８〜１３８を通じた復号の後、色ドリフトおよび残余陰影という２つの種類のアーティファクトが存在することが多い。上記で言及したように、色ドリフトは、残余画像を計算する時のｒｏｕｎｄ演算によって発生する。これは色マッピングによって容易に除去することができる。さらに詳しく言うと、色マッパ１３２が供給する主要色リストを使用して、後処理１４０は復号された画像の色を主要色リストと比較し、復号された画像が、主要色リスト上にないが主要色リスト上のある色に非常に近く、主要色リスト上の他のどの色とも大きく異なっている色を含んでいる場合、復号された色はその色に近い主要色によって置き換えられる。

残余陰影は、残余画像の損失性の表示から生じる。その結果、復号された残余画像は背景と十分に適合できないので、アーティファクトが生成される。

残余陰影は、後処理１４０での以下のステップによって除去することができる。（１）残余陰影は背景以外の範囲でだけ発生する。残余画像の背景が黒色であることを考慮すると、どの部分をフィルタリングすべきかの基準とすることができる。（２）そして、復号されたフレームのエッジマップが検出される。復号されたフレームで、エッジを保存するローパスフィルタリングが実行される。

実施形態によっては、Ｈ．２６４符号化のさらなる修正が使用される。この修正は、空間／時間感度およびマスキング効果のため、人間の目は人間の知覚モデルのしきい値以下の変化があっても感知できないという観察に基づいている。例えば、その全体が参照によって本明細書に組み込まれる、Ｊ．Ｇｕ、「人間の知覚モデルによる３Ｄウェーブレットベースの映像コーデック（３ＤＷａｖｅｌｅｔ−ＢａｓｅｄＶｉｄｅｏＣｏｄｅｃｗｉｔｈＨｕｍａｎＰｅｒｃｅｐｔｕａｌＭｏｄｅｌ）」、修士論文、メリーランド大学、１９９９年、を参照されたい。したがって、変換符号化の前に知覚できない情報を除去することができる。

この修正は次の３つのマスキング効果を利用していた。すなわち、（１）背景輝度マスキング。ＨＶＳ（人間の視覚系）は輝度の絶対値より輝度のコントラストに敏感である。（２）テクスチャマスキング。変化に対する視認性はテクスチャによって低下することがあり、テクスチャの施された領域は平滑またはエッジの範囲よりも誤差を隠すことがある。（３）時間マスキング。普通、（動きによって発生する）フレーム間差分が大きくなると、時間マスキングも大きくなる。

修正されたエンコーダの実施形態のブロック図を図６に示す。修正されたエンコーダは、スキップモード決定６０５および残余前処理６１０という２つの追加モジュールを従来の映像コーデックの枠組みに統合している。スキップモード決定モジュールはスキップモードの範囲を拡張する。残余前処理モジュールは、主観的な視覚的品質を損なわずに、知覚できない情報を除去して符号化利得を改善する。

映像信号から知覚的に意味のない成分を除去するため、ＪＮＤプロファイルの概念が映像および画像の知覚符号化に成功裏に適用されている。例えば、その全体が参照によって本明細書に組み込まれる、Ｘ．Ｙａｎｇ他、「最小可知歪みプロファイルに基づく映像符号化での動き補償された残余の前処理（Ｍｏｔｉｏｎ−ＣｏｍｐｅｎｓａｔｅｄＲｅｓｉｄｕｅＰｒｅｐｒｏｃｅｓｓｉｎｇｉｎＶｉｄｅｏＣｏｄｉｎｇＢａｓｅｄｏｎＪｕｓｔ−Ｎｏｔｉｃｅａｂｌｅ−ＤｉｓｔｏｒｔｉｏｎＰｒｏｆｉｌｅ）」、ＩＥＥＥ映像技術用回路およびシステム会報（ＩＥＥＥＴｒａｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈ）、第１５巻、第６号、７４２〜６５２ページ、２００５年６月、およびその全体が参照によって本明細書に組み込まれる、Ｎ．Ｊａｙａｎｔ、Ｊ．ＪｈｏｎｓｔｏｎおよびＲ．Ｓａｆｒａｎｅｋ、「人間知覚のモデルに基づく信号圧縮（Ｓｉｇｎａｌｃｏｍｐｒｅｓｓｉｏｎｂａｓｅｄｏｎｍｏｄｅｌｓｏｆｈｕｍａｎｐｅｒｃｅｐｔｉｏｎ）」、ＩＥＥＥ紀要（Ｐｒｏｃ．ＩＥＥＥ）、第８１巻、１３８５〜１４２２ページ、１９９３年１０月、を参照されたい。ＪＮＤは、符号化される各信号に、そのしきい値以下では復元誤差が知覚できなくなる歪みの視認性しきい値を提供する。

この節では、まずフレーム内でＪＮＤの空間部分が計算される。その後、時間マスキングを統合することによって、空間−時間部分が得られる。

第１のステップでは、背景輝度マスキングおよびテクスチャマスキングという、画像領域での空間輝度ＪＮＤに影響を与える主要な２つの要因が存在する。各ピクセルの空間ＪＮＤは、０≦ｘ＜Ｈ、０≦ｙ＜Ｗについて、

によって記述することができ、ここでｆ₁はテクスチャマスキングによる誤差視認性しきい値であり、ｆ₂は平均背景輝度による視認性しきい値である。Ｃ_b,m（０＜Ｃ_b,m＜１）はマスキングのオーバーラップ効果を考慮している。ＨおよびＷはそれぞれ画像の高さおよび幅を示す。ｍｇ（ｘ，ｙ）は、（ｘ，ｙ）でのピクセルの周囲の輝度勾配の最大加重平均を示し、ｂｇ（ｘ，ｙ）は平均背景輝度である。

であり、ここでＴ０、γおよびλは実験を通じて１７、３／１２８および１／２であることが判明している。例えば、その全体が参照によって本明細書に組み込まれる、Ｃ．Ｈ．ＣｈｏｕおよびＹ．Ｃ．Ｌｉ、「最小可知歪みプロファイルの測定に基づく知覚的に調整したサブバンド画像コーダ（Ａｐｅｒｃｅｐｔｕａｌｌｙｔｕｎｅｄｓｕｂｂａｎｄｉｍａｇｅｃｏｄｅｒｂａｓｅｄｏｎｔｈｅｍｅａｓｕｒｅｏｆｊｕｓｔ−ｎｏｔｉｃｅａｂｌｅ−ｄｉｓｔｏｒｔｉｏｎｐｒｏｆｉｌｅ）」、ＩＥＥＥ映像技術用回路およびシステム会報（ＩＥＥＥＴｒａｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈ）、第５巻、４６７〜４７６ページ、１９９５年１２月、を参照されたい。

４つの方向でのピクセルの周囲の輝度変化の加重平均を計算することによって、（ｘ，ｙ）でのピクセル全体にわたるｍｇ（ｘ，ｙ）の値が計算される。エッジ周囲のマスキング効果の過大評価を避けるために、エッジ領域の特徴が考慮される。したがって、ｍｇ（ｘ，ｙ）は、

として計算され、ここでｐ（ｘ，ｙ）は（ｘ，ｙ）でのピクセルを示す。

４つの演算子Ｇ_k（ｉ，ｊ）は、

平均背景輝度、ｂｇ（ｘ，ｙ）は、加重ローパス演算子、Ｂ（ｉ，ｊ）、ｉ，ｊ＝１，．．．，５によって計算される。

である。

ＪＮＤモデル生成の第２のステップでは、空間−時間領域での誤差視認性しきい値を表すＪＮＤプロファイルは、

であり、ここでｉｌｄ（ｘ，ｙ，ｎ）は、ｎ番目と（ｎ−１）番目とのフレームの間の平均フレーム間輝度差分を表す。

ｆ₃は動きによる誤差視認性しきい値を表す。全ての可能なフレーム間輝度差分についてｆ₃を測定した経験的結果を図７に示す。

Ｈ．２６４では、
最良の動き補償ブロックサイズが１６×１６であり、
基準フレームがすぐ前のものであり、
動きベクトルが（０，０）またはＰＭＶ（予測動きベクトル）と同じであり、
その変換係数が全てゼロに量子化される、
という条件が全て満たされる場合、かつその場合だけ、マクロブロックはスキップされる（例えば、その全体が参照によって本明細書に組み込まれる、「汎用オーディオビジュアルサービスのための高度映像符号化（Ｈ．２６４）（Ａｄｖａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇｆｏｒｇｅｎｅｒｉｃａｕｄｉｏｖｉｓｕａｌｓｅｒｖｉｃｅｓ（Ｈ．２６４））、ＩＴＵ−Ｔ、２００５年３月、を参照されたい）。

実際には、上記の条件は漫画アニメーションのコンテンツに対しては厳密すぎる。変換係数がゼロに量子化されていなくとも、歪みが知覚できない限りはマクロブロックをスキップすることができる。

したがって、ＪＮＤプロファイルの基本的な概念に基づいて、修正されたエンコーダでは、スキップモード決定６０５で、マクロブロックをスキップできるか否かが決定される。マクロブロックの最小可知歪み（ＭＮＤ）は、

として表すことができ、ここでδ（ｉ，ｊ）は、１．０〜４．０の範囲の点（ｘ，ｙ）での歪み指標である。

動き推定の後の平均二乗誤差（ＭＳＥ）は、

として計算することができ、ここでｐ（ｘ，ｙ）は元のフレームの（ｘ，ｙ）でのピクセルを表し、Ｐ’（ｘ，ｙ）は予測されたピクセルである。ＭＳＥ（ｉ，ｊ）＜ＭＮＤ（ｉ，ｊ）である場合、動き推定歪みは知覚できないので、その基準ブロックを単純にコピーすることによって、マクロブロックを得ることができる。

マクロブロックがスキップされた場合変換符号化は必要ないので、計算コストが低下するという副次的結果が得られる。

残余前処理６１０の目的は、実際の符号化の前に知覚的に重要でない情報を除去することである。ＪＮＤ適応残余プリプロセッサは

Claims

アニメーションまたは漫画アニメーションのコンテンツの映像の符号化に特化した、映像シーケンスを符号化するためのシステムであって、前記システムが、
一連の映像フレームから動くオブジェクトを除去し、複数の順次的な映像フレームで使用される静止した背景についての背景定義を生成する背景分析部と、
映像ストリーム中に含まれる色を分析し、前記映像ストリーム中で発生する色の主要色リストを作成する色クラスタリング部と、
一連の映像フレーム中での位置および回転姿勢以外は前記一連の映像フレーム中で一定である１つ以上のオブジェクトを識別するオブジェクト識別部と、
複数の符号化技術の各々によって達成される圧縮に応じて前記複数の符号化技術のうち１つにしたがって映像シーケンスから導出された背景およびオブジェクトを符号化するハイブリッドエンコーダとを備えるシステム。
アニメーションまたは漫画アニメーションのコンテンツの映像の符号化に特化した、映像シーケンスを符号化するための方法であって、前記方法が、
一連の映像フレームから動くオブジェクトを除去し、複数の順次的な映像フレームで使用される静止した背景についての背景定義を生成し、
映像ストリーム中に含まれる色を分析し、前記映像ストリーム中で発生する色の主要色リストを作成し、
一連の映像フレーム中での位置および回転姿勢以外は前記一連の映像フレーム中で一定である１つ以上のオブジェクトを識別し、
複数の符号化技術の各々によって達成される圧縮に応じて前記複数の符号化技術のうち１つにしたがって映像シーケンスから導出された背景およびオブジェクトを符号化することとを備える方法。