Nothing Special   »   [go: up one dir, main page]

JP6698077B2 - モデルベースの映像符号化用の知覚的最適化 - Google Patents

モデルベースの映像符号化用の知覚的最適化 Download PDF

Info

Publication number
JP6698077B2
JP6698077B2 JP2017513750A JP2017513750A JP6698077B2 JP 6698077 B2 JP6698077 B2 JP 6698077B2 JP 2017513750 A JP2017513750 A JP 2017513750A JP 2017513750 A JP2017513750 A JP 2017513750A JP 6698077 B2 JP6698077 B2 JP 6698077B2
Authority
JP
Japan
Prior art keywords
block
frame
tcsf
quantization parameter
motion vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017513750A
Other languages
English (en)
Other versions
JP2017532858A5 (ja
JP2017532858A (ja
Inventor
リー・ニゲル
パーク・サンソク
トゥン・ミョー
コッケ・デーン・ピー
リー・ジェユン
ウィード・クリストファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Euclid Discoveries LLC
Original Assignee
Euclid Discoveries LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/532,947 external-priority patent/US9621917B2/en
Application filed by Euclid Discoveries LLC filed Critical Euclid Discoveries LLC
Publication of JP2017532858A publication Critical patent/JP2017532858A/ja
Publication of JP2017532858A5 publication Critical patent/JP2017532858A5/ja
Application granted granted Critical
Publication of JP6698077B2 publication Critical patent/JP6698077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

関連出願
本願は、2015年5月7日出願の米国仮特許出願第62/158,523号および2014年11月11日出願の米国仮特許出願第62/078,181号の利益を主張する。本願は、さらに、2014年11月4日出願の米国特許出願第14/532,947号の一部継続出願(CIP)である。この米国特許出願第14/532,947号は、2014年3月10日出願の米国仮特許出願第61/950,784号および2014年9月11日出願の米国仮特許出願第62/049,342号の利益を主張する。これら参照した特許出願の全教示内容は、参照をもって本明細書に取り入れたものとする。
映像圧縮は、デジタル映像データを、記憶時又は伝送時において少ないビット数を用いた形式で表現するプロセスであると考えられる。映像符号化は、映像データの空間的冗長性、時間的冗長性又は色空間冗長性を利用することにより圧縮を達成することができる。典型的に、映像圧縮プロセスは、映像データをフレームの集まりやペルの集まりなどの各部位に分割して、その映像内における冗長な部分を特定し、当該冗長な部分を元々の映像データで求められるよりも少ないビット数で表現し得る。データのこのような冗長性を利用することにより、より大きな圧縮を達成することができる。映像データを符号化フォーマットに変換するにはエンコーダが用いられ得る。そして、デコーダを用いることにより、符号化された映像を元々の映像データに匹敵する形態に変換することができる。エンコーダ/デコーダを実現するものがコーデックと称される。
標準のエンコーダ(標準エンコーダ)は、符号化にあたって、所与の映像フレームを、互いに重なり合わない複数の符号化単位すなわちマクロブロック(複数の連続するペルからなる矩形領域)に分割する。典型的に、マクロブロック(本明細書では、より包括的に「入力ブロック」や「データブロック」と称される)は、映像フレームの左から右の走査順序や上から下の走査順序で処理される。圧縮は、入力ブロックが符号化済みのデータを用いて予測・符号化されることで達成され得る。入力ブロックを、同じフレーム内の先に符号化されたブロックのうち、当該入力ブロックと空間的に隣接するサンプルを用いて符号化するプロセスは、イントラ予測と称される。イントラ予測は、データにおける空間的冗長性を利用しようとするものである。入力ブロックを、動き推定プロセスを用いて見つけ出された、先に符号化したフレームからの類似する領域を用いて符号化することは、インター予測と称される。インター予測は、データにおける時間的冗長性を利用しようとするものである。動き推定プロセスは、動きベクトルを生成し得る。動きベクトルは、例えば、参照フレーム内の一致する領域の、符号化中の入力ブロックに対する位置を指定する。大抵の動き推定プロセスは、所与の入力ブロックについての動きベクトルの初めの粗推定(および対応する時間的予測)を提供する動き初期推定(初期の動き推定)と、この初めの推定の近傍において局所探索を実行することによってその入力ブロックについての動きベクトルのより正確な推定(および対応する予測)を決定する動き精推定(精細な動き推定)との、2つの主なステップからなる。
エンコーダは、符号化すべきデータと予測(予測結果)との差分を測定することにより、残差を生成し得る。この残差は、予測されたブロックと元々の入力ブロックとの差分を提供し得る。これらの予測、動きベクトル(インター予測用)、残差および関連データは、空間変換、量子化、エントロピー符号化、ループフィルタなどの他のプロセスと組み合わされることにより、映像データの効率的な符号(符号化)を生成することができる。量子化及び変換を受けた残差は、処理されて且つ上記予測に組み戻されることで復号化フレームへと組み立てられて、フレームストアに記憶される。このような映像符号化技術の詳細は、当業者であればよく知っている。
MPEG−2(H.262)およびH.264(MPEG−4 Part10 Advanced Video Coding(AVC))は、比較的低いビットレートで高品質映像表現を達成する、映像圧縮用の2種類のコーデック規格である(以降では、それぞれMPEG−2、H.264と称する)。MPEG−2及びH.264の符号化基本単位は、16×16マクロブロックである。H.264は、広く普及している最近の映像圧縮規格であると共に、映像データを圧縮するにあたってMPEG−2の2倍の効率を有すると一般的に考えられている。
基礎的なMPEG規格は、フレーム内の入力ブロックの符号化方法に基づいて3種類のフレーム(又はピクチャ)を規定する。Iフレーム(イントラ符号化ピクチャ)は、そのフレームに存在するデータのみを用いて符号化されるものなので、イントラ予測ブロックのみで構成される。Pフレーム(予測ピクチャ)は、予め復号化されたIフレーム又はPフレーム(参照フレームとも称される)からのデータを用いた前方向予測により符号化される。Pフレームは、イントラブロックおよび(前方向)予測ブロックのいずれも含み得る。Bフレーム(双予測ピクチャ)は、前のフレームと後のフレームの両方からのデータを用いた双方向予測により符号化される。Bフレームは、イントラブロック、(前方向)予測ブロックおよび双予測ブロックのいずれも含み得る。
参照フレームの特定の集合のことを、Group of Pictures(ピクチャの集まり)(GOP)と称する。GOPは、各参照フレーム内の復号化されたペルのみを含み、入力ブロックやフレームがどのように符号化されたのか(Iフレームなのか、Bフレームなのか、それともPフレームなのか)についての情報を含まない。MPEG−2などの古い映像圧縮規格は、Pフレームを予測するのに1つの参照フレーム(過去のフレーム)を利用し、Bフレームを予測するのに2つの参照フレーム(1つ前のフレームと1つ後のフレーム)を利用する。対照的に、H.264、HEVC(High Efficiency Video Coding)などのより新しい圧縮規格は、Pフレーム及びBフレームの予測に複数の参照フレームを利用することを可能にする。典型的な参照フレームは現在のフレームと時間的に隣接するフレームであるが、これらの規格は、時間的に隣接しないフレームを参照フレームとすることも可能である。
従来のインター予測は、ブロックベースの動き推定・補償(BBMEC)に基づくものである。BBMECプロセスは、ターゲットブロック(符号化中の現在の入力ブロック)と予め復号化された参照フレーム内の同サイズの領域との最良の一致を探索する。そのような一致が見つかると、エンコーダは、参照フレーム内でのこの最良の一致の位置へのポインタの役割を果たす動きベクトルを送信し得る。しかし、BBMEC探索プロセスは、演算上の理由により、探索対象にできる参照フレームの観点からみて時間的に制限されているだけでなく、探索対象にできる近傍領域の観点からみて空間的にも制限されている。これは、「考えられる最良の」一致が常に見つかるとは限らず、また、高速で変化するデータの場合には特にそうであることを意味する。
最も単純な形式のBBMECプロセスは、動き推定の初期設定を、(0,0)動きベクトルとする。これは、つまり、ターゲットブロックの初めの推定が、参照フレーム内での同位置のブロックであることを意味する。次に、動き精推定が、この領域の局所近傍においてそのターゲットブロックと最良に一致する(すなわち、そのターゲットブロックに対する誤差が最小になる)領域を探索することによって行われる。この局所探索は、その局所近傍を網羅的にクエリすることによって行われたり、ダイヤモンドサーチや六角形サーチなどといった幾つかの「高速探索」法のうちの任意のものを用いて行われたりし得る。
MPEG−2の後発バージョン以降の標準コーデックに設けられた、BBMECプロセスの改良として、拡張予測区域探索(enhanced predictive zonal search)(EPZS)法(非特許文献1:Tourapis達による「単・多フレーム動き推定のための拡張予測区域探索(Enhanced predictive zonal search for single and multiple frame motion estimation)」)が挙げられる。このEPZS法は、ターゲットブロックの初めの推定用として、既に符号化済みの近傍ブロックの動きベクトルならびに前の参照フレームにおける同位置のブロック(および近傍)の動きベクトルに基づく、動きベクトル候補の集合を検討する。EPZS法は、映像の動きベクトル場が幾らかの空間的及び時間的冗長性を有すると考え、よって、ターゲットブロックについての動き推定の初期設定は、近傍ブロックの動きベクトルまたは符号化済みのフレームにおける近隣ブロックからの動きベクトルとするのが合理的であると仮定する。EPZS法は、それら初めの推定の集合が集まると、近似レート歪み解析によって当該集合を絞り込む。この後に、動き精推定が行われる。
任意の所与のターゲットブロックについて、エンコーダが、選択候補となる複数のインター予測を生成し得る。これらの予測は、複数の予測プロセス(例えば、BBMEC方式、EPZS方式、モデルベース方式等)から生じ得る。また、これらの予測は、ターゲットブロックのサブ区分処理に基づいて異なり得る。サブ区分処理では、相異なる動きベクトルがターゲットブロックの相異なるサブ区分に対応付けられ、かつ、それぞれの動きベクトルが参照フレーム内のサブ区分サイズの領域をそれぞれ指し示す。また、これらの予測は、動きベクトルが指し示す参照フレームに基づいて異なり得る。というのも、前述したように、最近の圧縮規格は、複数の参照フレームの使用を可能にするからである。通常、所与のターゲットブロックについての最良の予測の選択は、レート歪み最適化により達成される。レート歪み最適化では、最良の予測は、レート歪み尺度D+λR(式中、歪みDは、ターゲットブロックと予測との誤差であり、レートRは、予測を符号化するコスト(ビット単位)を定量化し、λは、スカラー重み付け係数である。)を最小化する予測とされる。
Tourapis, A., 2002, "Enhanced predictive zonal search for single and multiple frame motion estimation," Proc. SPIE 4671, Visual Communications and Image Processing, pp. 1069- 1078
過去、BBMEC予測の限界を回避する目的で、数多くのモデルベース圧縮スキームが提案されてきた。このようなモデルベース圧縮スキーム(この種のスキームとして、MPEG−4 Part2規格が恐らく最も良く知られている)は、映像内のオブジェクトや特徴(一般的に「関心成分」と定義される)の検出及び追跡、さらに、これらの特徴/オブジェクトを映像フレームの残りの部分とは別に符号化する方法を利用する。特徴/オブジェクトの検出/追跡は、標準の動き推定プロセスにおける空間的探索と独立して行われるので、特徴/オブジェクトのトラックは、標準の動き推定により得られるものとは異なる集合の予測を生じさせ得る。
しかし、特徴/オブジェクトに基づくそのようなモデルベース圧縮スキームでは、映像フレームをオブジェクト領域とオブジェクトでない領域と(あるいは、特徴領域と特徴でない領域と)に分割することによる問題に直面する。第一に、オブジェクトのサイズは多種多様であり得るので、オブジェクトのテクスチャ(カラーコンテンツ)だけでなくオブジェクトの形状も符号化する必要がある。第二に、動きを伴うオブジェクトを複数追跡することは困難であり得て、精度の低いトラッキング(追跡)は不正確なセグメンテーション(分割)を引き起こし、通常、低い圧縮性能につながる。第三の問題は、全ての映像コンテンツがオブジェクトや特徴で構成されるとは限らないので、オブジェクト/特徴が存在しない場合には、代わりの符号化スキームが必要となる。
2014年11月4日出願の同時係属中の米国仮特許出願第61/950,784号(本明細書では「‘784出願」と称する)は、上記のセグメンテーション問題を回避するモデルベース圧縮スキームを提示している。‘784出願の連続的ブロックトラッカー(連続的ブロック追跡手段)(CBT)は、オブジェクトや特徴を検出せず、オブジェクトや特徴をオブジェクトでない/特徴でない背景と分割する必要性をなくす。むしろ、CBTは、フレーム−フレーム間の動き推定を連続的なトラックへと組み込むことにより、映像フレーム内の全ての入力ブロック(「マクロブロック」)をあたかも関心領域であるかの如く追跡する。こうすることにより、CBTは、インター予測を向上させるというデータの高次モデリング(モデル化)の恩恵を、セグメンテーション問題を回避しつつ享受するように映像内の動きをモデル化する。
他のモデルベース圧縮アプローチとして、映像データのコンテンツに対する人間の視覚系(HVS)の応答を、映像フレームのどの部分が人間の知覚にとって最も気付き易いのかを示す重要度マップとしてモデル化するものが挙げられる。重要度マップは、映像フレーム内のそれぞれの入力ブロック又はデータブロックについて数値を取る。また、所与のどのブロックについての重要度マップ値(重要度マップの数値)も、映像をとおしてフレーム−フレーム間で変化し得る。一般的に、重要度マップは、より高い数値がより重要なデータブロックを示すように定義される。
重要度マップの一種として、時間的コントラスト感度関数(TCSF)(de Lange, H., 1954, "Relationship between critical flicker frequency and a set of low frequency characteristics of the eye(臨界融合周波数と眼の低周波数特性のセットとの関係)," J. Opt. Soc. Am., 44:380-389)が挙げられる。TCSFは、周期的な刺激に対するHVSの応答を時間的に測定し、データ内の特定の時間的特性が観測者である人間にとって気付き易いものであることを明らかにする。これらの時間的特性がデータ内の動きに関連付けられて、TCSFは、データ内で最も気付き易い種類の動きが極めて高い時間的周波数および極めて低い時間的周波数のいずれにも該当しない「中程度」の動きであることを予測する。
留意すべき重要な点として、TCSFが、正確な時間的コントラスト値を生成するのに、映像内の動きを伴うコンテンツの速度の正確な測定を必要とすることが挙げられる。このような速度は、カメラの動きおよび/またはオブジェクトの動きによる映像コンテンツの正味の(明らかな)動きを表す、オプティカルフローを算出することによって近似を求めることが可能である。しかし、標準の映像エンコーダの大半は、オプティカルフローを正確に算出するよりも、圧縮効率を最適化する動き推定プロセスを採用している。
他種の重要度マップとして、空間的コントラスト感度に基づくものが挙げられ、これは、明るさ、エッジ、空間的周波数、色などの空間的特性に対するHVSの応答を測定する。空間的コントラスト感度関数(SCSF)(例えば、Barten, P., 1999, Contrast Sensitivity of the Human Eye and Its Effects on Image Quality(人間の眼のコントラスト感度および画像品質へのその影響), SPIE Press等を参照のこと)は、単にコントラスト感度関数(CSF)としても知られており、HVSにとって顕著である空間的コントラストを測定する。SCSFは、JPEG2000画像圧縮規格において、画像圧縮アーチファクトを低減する目的での適用が成功を収めている。オブジェクトや特徴についても、空間的コントラスト手法の支援(例えば、空間的周波数勾配により示されるエッジの存在等)によって典型的に検出される。空間的コントラスト感度は画像圧縮(例えば、JPEG2000コーデック等)においては研究・利用されてきたものの、また、オブジェクト・特徴の検出に基づく映像圧縮プロセスが数多く提案されてきたものの、TCSFで表される時間的コントラスト感度がこれまで映像圧縮に適用されることはなかった。
開示する幾つかの発明的実施形態は、映像符号化の品質を向上させるように、重要度マップを映像圧縮に適用する。例示的な一実施形態では、標準の映像符号化処理ストリーム内での時間的周波数が、色空間領域における構造的類似度(SSIM)を用いて波長の近似を求めることにより、かつ、エンコーダの動きベクトル(エンコーダ動きベクトル)を用いて速度の近似を求めることにより算出される。次に、時間的周波数が、時間的コントラスト感度関数(TCSF)への入力としての役割を果たす。TCSFは、全てのデータブロックについて算出され得て、これにより、映像フレームのどの領域が観測者である人間にとって最も気付き易いのかを示す時間的重要度マップを生成し得る。
例示的なさらなる実施形態では、エンコーダにより生成された動きベクトルの相対品質についての情報が、符号化プロセスにおける種々の時点で算出され得て、真の動きベクトルマップを生成するのに用いられ得る。真の動きベクトルマップは、それぞれのターゲットブロックについて、その動きベクトルがどれほど信頼できるのかを出力する。0または1の数値を取るこの真の動きベクトルマップは、動きベクトルが正確でないターゲットブロック(すなわち、真の動きベクトルマップが0であるターゲットブロック)にはTCSFが適用されないようにTCSFを洗練化するマスクとして用いられ得る。
さらなる実施形態では、空間的複雑度マップ(SCM)が、所与のターゲットブロックの、その近傍に対する空間的コントラストを決定するように、ブロック分散(ブロック内分散)、ブロック輝度、エッジ検出などの尺度から算出され得る。他の実施形態では、SCMからの情報が、複合的な統合化された重要度マップを得るようにTCSFと組み合わされ得る。この統合化された重要度マップにおける空間的および時間的コントラスト情報の組合せは、人間の視覚的応答の両側面を効果的に両立させる。
例示的な一実施形態では、統合化された重要度マップ(TCSFおよびSCMの両方からの情報を含む重要度マップ)が、標準のレート歪み尺度であるD+λRのうちの歪み部分を重み付けるのに用いられる。これにより、それぞれのターゲットブロックの知覚的相対重要度に合ったソリューション(重要度マップがその最大値に近いときには低歪みソリューションで、重要度マップがその最小値に近いときには低レートソリューション)へと重み付けされた、改変されたレート歪み最適化が得られる。代替的な一実施形態では、上記の目的に、TCSF又はSCMが独立して用いられ得る。
例示的な他の実施形態では、(真の動きベクトルによる洗練化を伴う)TCSFおよびSCMが、エンコーダのブロックレベル量子化を調整するように用いられ得る。前記重要度マップが高い数値をとるターゲットブロックでは、量子化パラメータがフレーム量子化パラメータに比べて小さくされることで、これらのブロックについては高い品質が得られる。前記重要度マップが低い数値をとるターゲットブロックでは、量子化パラメータがフレーム量子化パラメータに比べて大きくされることで、これらのブロックについては低い品質が得られる。代替的な一実施形態では、上記の目的に、TCSF又はSCMが独立して用いられ得る。
TCSFは、インター予測を組み込み且つ動きベクトル(映像内のコンテンツの速度の近似を求めるのにTCSFにより利用される)を生成するエンコーダであればどのようなエンコーダの場合にも算出可能であるが、映像圧縮へのTCSFの適用は、どの動きベクトルが真の動きベクトルであるのかを正確に決定可能な ‘784出願の連続的ブロックトラッカー(CBT)などの、モデルベース圧縮フレームワークにおいて最も効果的となる。前述したように、標準の映像エンコーダの大半は、真の動きを反映するよりも圧縮効率を最適化する動きベクトルを算出する。対照的に、CBTは、高い圧縮効率に適した動きベクトルとTCSFの効果を最大化するモデル化情報との両方を提供する。
例示的な一部の発明的実施形態は、得られたビットストリームが、ブロックベースの動き推定を用いて且つその後に残差信号の変換、量子化及びエントロピー符号化が続けられる任意の映像圧縮規格に準拠したものとなるように構築される。そのような映像圧縮規格は、MPEG−2、H.264およびHEVCを含むが、これらに限定されるわけではない。本発明は、ブロックベースでない非標準の映像エンコーダであっても、インター予測を組み込み且つ動きベクトルを生成するものであれば、そのような映像エンコーダにも適用可能である。
例示的な一部の実施形態は、映像データを符号化する方法及びシステム、ならびにこれを実現するための任意のコーデック(エンコーダおよびデコーダ)を含み得る。複数の映像フレームであって、当該映像フレームが互いに重なり合わないターゲットブロックを有する複数の映像フレームが、エンコーダにより処理され得る。前記複数の映像フレームは、重要度マップを用いて、当該重要度マップが量子化を改変(調整)することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に変更を加えるように、前記エンコーダにより符号化され得る。
前記重要度マップは、時間的情報と空間的情報の少なくとも一方を用いて構成され得る。時間的情報と空間的情報との両方が用いられた場合、前記重要度マップは統合化された重要度マップと見なされる。前記重要度マップは、前記複数の映像フレームのうちのある映像フレームの、人間の知覚にとって最も気付き易い部分を示す(特定する、または表す)ように設定され得る。具体的に述べると、前記重要度マップが高い数値をとるブロックでは、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQPframeに比べて小さくされることで、これらのブロックについては高い品質が得られる。また、前記重要度マップが低い数値をとるターゲットブロックでは、前記ブロック量子化パラメータが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについては低い品質が得られる。
前記空間的情報は、ルールに基づく空間的複雑度マップ(SCM)により提供され得て、その最初のステップは、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散varframeよりも大きい分散を有するかを決定することである。平均ブロック分散varframeよりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQPframeよりも高いQP値が振り当てられ得て、このブロックQPの振当量QPblockは、そのブロック分散varblockがvarframeよりもいかなる程度大きいかに従って、QPframeと量子化パラメータ上限QPmaxとの間で線形的に増減される。
好ましくは、前記時間的情報は、どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)、および、どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM)により提供され得る。なお、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされ得る。
分散の大きい(high-variance)ブロックは、そのブロックのQPの振当量QPblockが、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合にはQPblockが2増加するように、前記TCSF及び前記TMVMによりさらに洗練化され得る。
前記SCMは、極めて明るい(170超の輝度)か又は極めて暗い(60未満の輝度)ターゲットブロックのブロック量子化パラメータQPblockがQPmaxに調節し直される輝度マスキングを含み得る。前記SCMは、符号化された映像の品質レベルに基づくQPmaxの動的な決定を含み得て、この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果をこれらフレームの平均ブロック分散varframeと共に用いて、品質が測定され、測定された品質が低いと、前記量子化パラメータ上限QPmaxの数値が前記フレーム量子化パラメータQPframeに幾分近づくように減らされる。
分散の極めて小さい(very-low-variance)ブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QPblockの数値が低くなるように(、かつ、品質が高くなるように)決められた低い量子化パラメータ(QP)の値である前記振当量QPblockが振り当てられ得る。分散の極めて小さいブロックに対する前記低い量子化パラメータ(QP)の値である前記振当量QPblockは、最初に、Iフレームについて決められ、その後、Pフレーム及びBフレームについてはipratioパラメータ及びpbratioパラメータを用いて決められ得る。分散は小さいが、分散が極めて小さいとは見なさないブロックは、当該ブロックについて品質向上が必要か否かを判定するために、前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QPblockが現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されるように調べられる。前記現在のブロックの前記SSIMの推定SSIMestが、前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出され得る。SSIMestが0.9未満の場合、前記振当量QPblockの数値が2減少され得る。
一部の実施形態において、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される。前記TMVMは、前景データの場合にのみ1に設定され得る。
一部の実施形態において、前記TCSFの時間的周波数は、前記ターゲットブロックとその参照ブロックとの間の色空間領域におけるSSIMを用いて波長の近似を求めて且つ動きベクトルの大きさ(動きベクトル大きさ)とフレームレートとを用いて速度の近似を求めることによって算出される。
前記TCSFは、現在のフレームについての当該TCSFが最近のフレームにおけるTCSFマップの重み付き平均であるように且つより最近のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出され得る。
前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、十分に大きい差分を有するブロックが前景データであると判断されることによって特定され得る。
前景データとして特定されたデータブロックについて、前記グローバル動きベクトルから前記エンコーダ動きベクトルが減算されることによって差分動きベクトルを得ることがあり得て、この差分動きベクトルの大きさが前記TCSFの時間的周波数を算出するのに用いられる。
映像データを処理するコンピュータに基づく方法、映像データを処理するコーデック(エンコーダおよびデコーダ)、ならびに映像データを処理するその他のコンピュータシステム及び装置が、本発明の前述した原理を具現化し得る。
前述の内容は、添付の図面に示す本発明の例示的な実施形態についての、以下のより詳細な説明から明らかになる。図面では、異なる図をとおして同一の参照符号が同一の構成/構成要素を指すものとする。図面は必ずしも縮尺どおりではなく、むしろ、本発明の実施形態を示すことに重点が置かれている。
標準のエンコーダの構成を示すブロック図である。 一般的なエンコーダの場合のインター予測に伴うステップを示すブロック図である。 連続的ブロック追跡による動き初期推定に伴うステップを示すブロック図である。 連続的ブロック追跡と拡張予測区域探索との組合せによる統合化された動き推定を示すブロック図である。 Wooten達による時間的コントラスト感度関数の最近の測定結果(2010年)を示すプロットである。 本発明の一実施形態における、CIE1976Lab色空間における構造的類似度(SSIM)の算出の様子を示すブロック図である。 本発明の一実施形態における、映像符号化の知覚的品質を向上させるための知覚的統計量の一般的な適用の様子を示すブロック図である。 本発明の一実施形態における、連続的ブロック追跡によるインター予測を改変して映像符号化の知覚的品質を向上させるための知覚的統計量の適用の様子を示すブロック図である。 重要度マップを用いてブロック量子化を改変して符号化するプロセスの一例を示すブロック図である。 各実施形態が配備されるコンピュータネットワーク環境の概略図である。 図9Aのネットワークにおけるコンピュータノードのブロック図である。
本明細書で引用する全ての特許公報、全ての特許出願公報及び全ての刊行物の全教示内容は、参照をもって本明細書に取り入れたものとする。以下では、本発明の例示的な実施形態について説明する。
本発明は、標準の様々な符号化に適用可能である。以下では、特記しない限り、「従来」や「標準」という語(しばしば、「圧縮」、「コーデック」、「符号化(encoding)」や「エンコーダ」と共に用いられる)は、MPEG−2、MPEG−4、H.264またはHEVCのことを指し得る。「入力ブロック」は、一般性を失うことなく、エンコーダの符号化基本単位のことを指すものとし、しばしば、「データブロック」や「マクロブロック」と同じ意味で称され得る。符号化中の現在の入力ブロックは、「ターゲットブロック」と称される。
<連続的ブロック追跡による映像符号化及びインター予測>
符号化プロセスは、映像データを、圧縮フォーマットつまり符号化フォーマットに変換するものであり得る。同様に、解凍つまり復号化プロセスは、圧縮された映像を、圧縮される前のつまり未処理のフォーマットに変換するものであり得る。映像圧縮・解凍プロセスは、一般的にコーデックと称されるエンコーダおよびデコーダのペアとして実現され得る。
図1は、標準の変換ベース且つ動き補償のエンコーダのブロック図である。図1のエンコーダは、ソフトウェア環境、ハードウェア環境又はこれらの組合せで実現され得る。このエンコーダは、任意の組合せの構成要素を備え得る。これらの構成要素は、インター予測手段20に出力する動き推定手段15、イントラ予測手段30、変換・量子化手段60、逆変換・量子化手段70、ループ内フィルタ80、フレームストア85およびエントロピー符号化手段90を含むが、これらに限定されるわけではない。上記の予測手段(インター予測とイントラ予測との両方)の目的は、所与の入力映像ブロック10(略して「入力ブロック」、あるいは、「マクロブロック」又は「データブロック」)についての最良の予測信号40を生成することである。入力ブロック10から予測信号40が減算されることによって予測残差50を生成し、この予測残差50が変換・量子化60を受ける。その後、この残差の量子化係数65がエントロピー符号化手段90へと渡されて、エントロピー符号化手段90が圧縮ビットストリームへと符号化する。量子化係数65は逆変換・量子化手段70にも渡されて、その結果得られる信号(前記予測残差の近似)が予測信号40に組み戻されて、これによって入力ブロック10についての再構成信号75を生成する。再構成信号75はデブロッキングフィルタなどのループ内フィルタ80に通され得て、この(場合によってフィルタリング済みである)再構成信号がフレームストア85の一部となる。フレームストア85は、今後の入力ブロックの予測を支援する。図1に示すエンコーダの各構成要素の機能は、当業者であればよく知っている。
図2に、標準のインター予測(図1の符号30)における各種ステップを示す。インター予測の目的は、新たなデータを、前のフレームからの予め復号化されたデータを用いて、当該データにおける時間的冗長性を利用して符号化することである。インター予測では、現在符号化中のフレーム(ターゲットフレームとも称される)からの入力ブロック10が、図1のフレームストア85に記憶された、予め復号化された参照フレーム内の同サイズの領域から「予測」される。符号化中のフレーム内の入力ブロックの位置と参照フレーム内のこれと一致する領域の位置との(x、y)のずれを示す二成分ベクトルは、動きベクトルと称される。このように、動き推定のプロセスは、符号化すべき入力ブロックを参照フレーム内のこれと一致する領域と最良に結び付ける動きベクトルを決定することを伴う。
大半のインター予測プロセスは、所与の入力ブロックについての「良好」な動きベクトル115の1つ以上の粗推定を生成する動き初期推定(図2の符号110)から始まる。この後に、任意で、複数の動きベクトル候補が近似レート歪み尺度を用いて単一の候補に低減され得る動きベクトル候補フィルタリングステップ120が続けられる。レート歪み解析では、最良の動きベクトル候補(予測)は、レート歪み尺度D+λR(式中、歪みDは、入力ブロックとこれと一致する領域との誤差であり、レートRは、予測を符号化するコスト(ビット単位)を定量化し、λは、スカラー重み付け係数である。)を最小化するものが選ばれる。実際のレートコストは、テクスチャビットと動きベクトルビットとの2種類の成分を含む。テクスチャビットは、残差信号(入力ブロックから予測を減算したもの)の量子化変換係数を符号化するのに必要なビットの数であり、動きベクトルビットは、動きベクトルを符号化するのに必要なビットの数である。通常、動きベクトルは、既に符号化済みの動きベクトルに対して差分符号化される。エンコーダにおける初期の段階ではテクスチャビットが利用可能でないので、レート歪み尺度のうちのレート部分は、動きベクトルビットにより近似で求められる。一方で、動きベクトルビットは、差分動きベクトルの大きさに依存する動きベクトルペナルティ係数として近似される。したがって、動きベクトル候補フィルタリングステップ120において、この近似レート歪み尺度が、単一の「最良」の初めの動きベクトル又はより少数の集合の「最良」の初めの動きベクトル125を選び出すのに用いられる。次に、そのような初めの動きベクトル125は、動き精推定130により洗練化(refine(さらに改良))される。動き精推定130は、それぞれの初めの推定の近傍において局所探索を行うことにより、その入力ブロックについての動きベクトル(および対応する予測)のより正確な推定を決定する。通常、この局所探索の後に、整数値動きベクトルが内挿により1/2又は1/4ピクセル精度まで洗練化されるサブピクセル洗練化が続けられる。動き精推定ブロック130は、洗練化済みの動きベクトル135の集合を生成する。
次に、動き精ベクトル135が与えられると、モード生成手段140がそのエンコーダが採用し得る符号化モードに基づいて予測候補145の集合を生成する。このようなモードは、コーデックによって異なる。符号化モードが異なるというのは、インターレース対プログレッシブ(フィールド対フレーム)動き推定、参照フレームの方向(前方向予測、後方向予測、双予測)、参照フレームのインデックス(複数の参照フレームを可能にするH.264、HEVCなどのコーデックの場合)、インター予測対イントラ予測(良好なインター予測が存在しない場合にイントラ予測へと戻ることを可能にする一部のシナリオ)、異なる量子化パラメータ、および入力ブロックの異なるサブ区分である(ただし、これらに限定されるわけではない)。予測候補145の集合の全体が、単一の最良の候補を決定するように「最終」のレート歪み解析150を受ける。「最終」のレート歪み解析では、正確なレート歪み尺度D+λRが用いられて、歪み部分用の予測誤差D(通常、二乗誤差和(SSE)として算出)およびレート部分用の実際の符号化ビットR(図1のエントロピー符号化90からのもの)を算出する。最終の予測160(つまり図1の符号40)は、全ての候補のなかで最小のレート歪みスコアD+λRを有する予測であり、この最終の予測が、その動きベクトル及び他の符号化パラメータと共にエンコーダにおける後続のステップへと渡される。
図3に、インター予測時に、連続的ブロック追跡(CBT)による動き初期推定がどのようにして行われ得るのかを示す。CBTは、ターゲットフレームと時間的予測が導き出される参照フレームとの間に、複数のフレーム分のギャップが存在する場合に有用である。MPEG−2の場合、IBBPBBP(イントラ予測Iフレーム、双予測Bフレームおよび前方向予測Pフレームからなる)の典型的なGOP構造は、現在のフレームから最大3フレーム分離れた参照フレームを可能にする(その理由は、MPEG−2ではBフレームが参照フレームとして機能できないからである)。符号化すべき各フレームにつき複数の参照フレームを可能にするH.264やHEVCでは、上記と同じGOP構造でも、現在のフレームから6フレーム分以上離れた参照フレームを可能にする。より長いGOP構造(例えば、Pフレーム同士の間に7つのBフレーム等)であれば、参照フレームは、ターゲットフレームからなおいっそう離れたものとなり得る。現在のフレームと参照フレームとの間に複数のフレーム分のギャップが存在するとき、連続的追跡は標準の時間的予測手法では捉えられないデータ内の動きをエンコーダが捉えることを可能にするので、CBTはより優れた時間的予測を生成することを可能にする。
CBTでの最初のステップは、フレーム−フレーム間追跡(図3の符号210)を実行することである。所与のフレーム内の入力ブロック10ごとに、フレームバッファ205内の前のフレームへの後方向と当該フレームバッファ内の次のフレームへの前方向との両方の動きベクトルが算出される。一実施形態において、フレーム−フレーム間追跡は、再構成された参照フレームではなく元々のソース映像からのフレームに作用する。これは、ソース映像のフレームが量子化や他の符号化アーチファクトによって劣化していないことから、ソース映像のフレームに基づく追跡は映像における真の動き場をより正確に表すので有利だからである。フレーム−フレーム間追跡は、従来のブロックベースの動き推定(BBME)又は階層的な動き推定(HME)を用いて行われ得る。
フレーム−フレーム間追跡の結果は、フレーム内のそれぞれの入力ブロックごとに対する、フレームバッファ205内の一番最近のフレーム内での最良に一致する領域と、フレームバッファ205内の一番最近のフレームのブロックごとに対する、現在のフレーム内での最良に一致する領域とを表す、フレーム−フレーム間動きベクトル215の集合である。次に、連続的追跡220が、利用可能なフレーム−フレーム間追跡情報を集約することにより、複数の参照フレームにわたってそれぞれの入力ブロックについての連続的なトラックを生成する。連続的追跡を行う方法の詳細については、全内容を参照をもって本明細書に取り入れた‘784出願に記載されている。連続的追跡220の出力は、符号化中の現在のフレーム内の全ての入力ブロックを過去の参照フレーム内のこれらと一致する領域へと追跡する連続的ブロック追跡(CBT)動きベクトル225である。CBTの場合、これらのCBT動きベクトルが初めの動きベクトル(図2の符号125)となり且つ前述したように動き精推定(図2の符号130)により洗練化され得る。
図4に、本発明の一実施形態において、CBTがどのようにしてEPZS法と組み合わされることで統合化された動き推定プロセスを作り出し得るのかを示す。図4では、CBTが動き初期推定110のためにフレーム−フレーム間追跡210及び連続的追跡220により動きベクトルを生成した後、動き精推定130のための局所探索及びサブピクセル洗練化250が続けられる。EPZSが候補生成手段230により初めの動きベクトルを生成した後、先に詳述したような近似レート歪み解析によってフィルタリングを行う候補フィルタリング手段240が続けられる。この後に、さらに、局所探索及びサブピクセル洗練化260による動き精推定130が続けられる。このようにして得られたCBT動きベクトル255およびEPZS動きベクトル265の両方が、総合的な「最良」のインター予測を決定するために残りのインター予測ステップ(図2のモード生成140及び最終のレート歪み解析150)へと渡される。
代替的な一実施形態では、図4のCBT動きベクトル候補255及びEPZS動きベクトル候補265に、さらなる候補が追加され得る。このような候補は、ランダム動きベクトル、(0,0)動きベクトル、およびいわゆる「中央値予測子(median predictor)」を含む(ただし、これらに限定されるわけではない)。ランダム動きベクトルには、その局所近傍において最良の候補を見つけ出すように動き精推定130が適用されてもよい。(0,0)動きベクトルは、EPZSの初めの候補のうちの一つであるが、EPZS候補フィルタリング(図4の符号240)後の時点で常に選び出されているとは限らず、仮に候補フィルタリング後の時点で選び出されていたとしても、動き精推定130によって(0,0)以外の動きベクトルが出力される可能性がある。(動き精推定を受けない)(0,0)動きベクトルを最終のレート歪み解析用の候補として明示的に含めることは、少なくとも1つの、大きさの小さい且つ「動きの小さい」候補が検討されることを確実にする。同様に、「中央値予測子」もEPZSの初めの候補のうちの一つであるが、EPZS候補フィルタリング(図4の符号240)後の時点で常に選び出されているとは限らない。中央値予測子は、現在符号化中のデータブロックの左、上および右上のデータブロックで予め算出された動きベクトルの、中央値として定義される。(動き精推定を受けない)中間値予測子を最終のレート歪み解析用の候補として明示的に含めることは、映像フレームのうちの空間的に均質な(「フラット」な)領域を符号化するうえで特に有益となり得る。つまり、代替的なこの実施形態では、5種類以上の動きベクトル候補(CBT由来の動きベクトル、EPZS由来の動きベクトル、ランダム動きベクトル由来の動きベクトル、(0,0)動きベクトル、および中央値予測子を含む(ただし、これらに限定されるわけではない))が、残りのインター予測ステップ(図2のモード生成140及び最終のレート歪み解析150)へと渡され得る。
<映像符号化用の重要度マップの算出>
知覚的統計量が、映像フレームのどの領域が人間の視覚系(HVS)にとって重要なのかを示す重要度マップを算出するのに用いられ得る。
知覚的統計量の一例として、時間的に周期的な刺激に対する人間の視覚系(HVS)の応答をモデル化する、いわゆる時間的コントラスト感度関数(TCSF)が挙げられる。背景技術の欄で述べたように、TCSFの概念は(「時間変調伝達関数」として紹介された)1950年代から存在しているが、これまで映像圧縮に適用されることはなかった。図5に、TCSFの最近の測定結果(Wooten, B. 達による2010, "A practical method of measuring the temporal contrast sensitivity function(時間的コントラスト感度関数を測定する実用的な方法)," Biomedical Optical Express, l(l):47-58)を、周波数の対数の関数としての時間的コントラスト感度の対数(横軸に周波数の対数、縦軸に時間的コントラスト感度の対数)のかたちで示す。測定データ点(図5の丸印)は、3次多項式(図5の実線)を用いてフィッティングされている。なお、後述の全てのTCSF算出に、このフィッティングを用いている。TCSFは、人間の視覚系(HVS)が中程度の周波数域に対して最大の応答を示す一方で、低周波数域ではHVSの応答がわずかに低下し且つ高周波数域では急激に低下するものと予想する。
映像圧縮へのTCSFの適用には、TCSFへの入力である時間的周波数(図5の横軸)を算出する方法が必要となる。周波数を算出するための本発明の一実施形態にかかる方法の一つを、次で説明する。周波数fは、f=v/λ(式中、vは速度で、λは波長である)により与えられる。一実施形態において、任意のデータブロックのコンテンツの速度v(ピクセル/秒単位)は、エンコーダにより生成された動きベクトル(例えば、図2の符号135、図3の符号215,225、図4の符号255,265等)の大きさからv=|MV|×フレームレート/N(式中、|MV|は、そのデータブロックの動きベクトルの大きさであり、フレームレートはその映像が生成された1秒当たりのフレームの数であり、Nは動きベクトルにより指し示される参照フレームと現在のフレームとの間のフレームの数である)として算出され得る。
波長λの適切な近似は、CIE 1976 Lab色空間(www://en.wikipedia.org/wiki/Lab_color_space)において算出される構造的類似度(SSIM)(Wang, Z. 達による2004, "Image quality assessment: From error visibility to structural similarity(画像品質評価:誤差可視度から構造的類似度まで)," IEEE Trans, on Image Processing, 13(4):600-612)の算出結果から導き出され得る。図6に、Lab色空間におけるSSIMの算出の様子を示す。SSIMは、ターゲットブロック300(符号化すべき現在のデータブロック)とその動きベクトルが指し示す参照ブロック310との間で算出される。通常、エンコーダにより処理される映像データはYUV420などの標準の空間で表現されるので、次のステップは、それらターゲットブロック(符号320)および参照ブロック(符号330)の両方を一般的に文献に記載されている任意の手法を用いてCIE 1976 Lab空間に変換することである。次に、Lab空間におけるこれらのターゲットブロックと参照ブロックとの間の誤差ΔE(符号340)が、
(式中、添字Tは「ターゲットブロック」を意味し、添字Rは「参照ブロック」を意味する)として算出される。最後に、誤差ΔEと同次元のゼロ行列との間のSSIM360が、データの色空間変化の尺度を示すものとして算出される。初めに定まるSSIMは、−1〜1の数値を取り、数値の1は完全な類似(空間的な差異がないこと)を示す。SSIMを波長λに変換する目的に、0〜1の数値を取る空間的非類似度DSSIM=(1−SSIM)/2を使用することが可能であり得て、0は短い波長(最大の空間的類似度)に相当し、1は長い波長(最小の空間的類似度)に相当する。SSIMをピクセル単位に変換するには、SSIMの数値を、算出対象のブロックのピクセルの数で乗算することが可能であり得る。一実施形態では、SSIMのブロックサイズが8×8なので、DSSIM値に64が乗算される。この場合、周波数の最終的な算出結果は、
f=|MV|×フレームレート/(N×64×(1−SSIM)/2)
により与えられる。
所与のターゲットブロックについての周波数が算出されれば、このブロックについてのTCSF値が、図5の曲線フィット(実線)から決定可能であり得る。TCSFは、log10スケールで0〜1.08または絶対スケールで1〜11.97の数値を取る。フレーム内の相異なるブロックが相異なるTCSF値を取ることにより、フレーム内の全てのブロックにわたるTCSF値の集約集合(aggregate set)が重要度マップを形成し、高い数値は時間的コントラストの観点からみて知覚的に重要なブロックを示し且つ低い数値は知覚的に重要でないブロックを示す。
さらなる実施形態では、最近のフレームからのTCSFの数値が、TCSFベースの重要度マップがフレーム間で変動し過ぎることのないようにそれぞれのデータブロックにつき平均化され得る。例えば、平均TCSFTCSFavgのそのような計算の一つとして、TCSFavg=0.7×TCSFcur+0.3×TCSFprev(式中、TCSFcurは現在のフレームからのTCSF値であり、TCSFprevは一番最近符号化された過去のフレームからのTCSF値である)が挙げられ得る。TCSFの計算は、このように平均化されることでよりロバスト(頑健)になる。
さらなる実施形態では、エンコーダにより生成された動きベクトルの相対品質についての情報が、符号化プロセスにおける種々の時点で算出され得て、真の動きベクトルマップ(TMVM)を生成するのに用いられ得る。真の動きベクトルマップ(TMVM)は、それぞれのデータブロックについて、その動きベクトルがどれほど信頼できるのかを出力する。0または1の数値を取るこの真の動きベクトルマップは、動きベクトルが正確でないデータブロック(すなわち、TMVM値が0であるデータブロック)にはTCSFが適用されないようにTCSFを洗練化するマスクとして用いられ得る。
一実施形態において、動きベクトルの正確さは、所与の映像フレームについてのグローバル動きモデルを推定し且つこの動きモデルを当該フレーム内のそれぞれのデータブロックに適用することによってそれぞれのデータブロックについてのグローバル動きベクトルを決定してから且つこのグローバル動きベクトルをそのデータブロックについてのエンコーダの動きベクトル(エンコーダ動きベクトル)と比較することにより、決定され得る。グローバル動きは、そのフレームからの符号化動きベクトルの集約集合であって、6つのパラメータ又は8つのパラメータのアフィン動きモデルにフィッティングされた集約集合から推定され得る。所与のデータブロックについてグローバル動きベクトルとエンコーダ動きベクトルとが同一である(又は類似する)場合、エンコーダ動きベクトルが正確であると見なされる(そして、そのデータブロックについてTMVN=1となる)。それら2つのベクトルが同一でない場合、それらの(二乗誤差和(SSE)又は差分絶対値和(SAD)で測定された)予測誤差同士を比較してもよい。一方の誤差が小さくて他方の誤差が大きい場合には、誤差が小さいほうの動きベクトルが、符号化に使われて且つ正確と見なされる(TMVM=1)。
代替的な一実施形態では、所与のデータブロックについてグローバル動きベクトルとエンコーダ動きベクトルとの差分の大きさが、そのデータブロックが前景データであること(これは、そのデータブロック内のコンテンツが、フレームの残りの部分(背景)と異なる動きを伴っていることを意味する)を特定するのに用いられる。この実施形態では、TMVMが1に設定されて、TCSFが前景データの場合にのみ適用される。さらなる実施形態では、前景データとして特定されたデータブロックについて、グローバル動きベクトルからエンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、(エンコーダ動きベクトルではなくて)この差分動きベクトルの大きさがTCSFの周波数を算出するのに用いられる(前述の式において、|MV|を|DMV|(DMVは差分動きベクトルである)に置き換える)。
他の実施形態では、動きベクトル対称度が、TMVMを洗練化するのに用いられ得る。動きベクトル対称度(Bartels, C.及びde Haan, G.による2009, "Temporal symmetry constraints in block matching(ブロックマッチングにおける時間的対称度制約)," Proc. IEEE 13th Int'l. Symposium on Consumer Electronics, pp. 749-752)は、動き推定の時間的方向を切り替えたときに互いに対をなす、動きベクトルのペアの相対対称度として定義され、算出された動きベクトルの品質の尺度となる(対称度が高ければ高いほど、動きベクトルの品質が優れている)。「対称度誤差ベクトル」は、前方向動き推定により得られた動きベクトルと後方向動き推定により得られた動きベクトルとの差分として定義される。動きベクトル対称度が低いこと(対称度誤差ベクトルが大きいこと)は、しばしば、オクルージョン(あるオブジェクトが別のオブジェクトの前側を動くことにより、その背景オブジェクトを隠したり露わにしたりすること)、オブジェクトの動きが映像フレーム上に又は映像フレーム外になること、照明変化など(いずれも、正確な動きベクトルを導き出すことを困難にする)の複雑な現象が存在することの指標となる。
一実施形態では、対称度誤差ベクトルの大きさが符号化中のデータブロックの範囲の半分よりも大きい場合(例えば16×16マクロブロックのときには、大きさが(8,8)ベクトルよりも大きい場合)に、低対称度(対称度が低い)と判断される。他の実施形態では、対称誤差ベクトルの大きさが追跡プロセス時に導き出された動きベクトル統計量に基づく閾値(例えば、現在のフレーム又は最近のフレーム同士の所与の組合せにおける、動きベクトル大きさ(動きベクトルの大きさ)の平均値に動きベクトル大きさの標準偏差の倍数を足したもの等)よりも大きい場合に、低対称度(対称度が低い)と判断される。一実施形態では、動きベクトルが上記の定義で低対称度を有するデータブロックに対してTMVM値=0が自動的に振り当てられて、他のデータブロックはグローバル動きベクトルとエンコーダ動きベクトルとの比較に由来するそれまでのTMVM値を維持する。
フラットなブロックは、高い空間的コントラスト感度を有するものの、動きベクトルを算出する際のよく知られている開口問題(aperture problem)
が原因となり、信頼できない動きベクトルを生じる傾向にある。フラットなブロックは、例えば、エッジ検出プロセス(データブロック内においてエッジが検出されなかった場合にフラットなブロックであると判断される)を用いて、あるいは、データブロックの分散を閾値と比較すること(この閾値よりも小さい分散がフラットなブロックを示す)によって検出され得る。一実施形態では、ブロックのフラットさが、前述のように算出されたTMVMを変更するように用いられ得る。例えば、フラットなブロックであると検出されたブロックには、TMVM値=0が振り当て直され得る。
一実施形態では、TMVMが、信頼できる動きベクトルを有するか否かに影響されるTCSFを洗練化するマスクとして用いられ得る。TMVMの数値は0又は1なので、あるブロックについてのTMVM値を、そのブロックについてのTCSF値へとブロック毎に乗算することには、TCSFをマスクする効果がある。TMVM値が0であるブロックの場合、TCSFの算出に必要な動きベクトルが信頼できないことになるので、そのTCSFが「無効」にされる。TMVM値が1であるブロックの場合、TCSF算出結果が信頼できるとみなされて且つこれまでに述べた任意の手法が確信して利用される。
他の実施形態では、時間的コントラストマップ(前述のTCSF)の代わりに、あるいは、これに加えて、空間的コントラストマップが生成され得る。本発明では、空間的コントラスト(これの反対は「空間的複雑度」と称される)を測定するのに、単純な尺度が用いられる。一実施形態では、データの輝度成分と色差成分との両方について測定されるブロック分散が、所与の入力ブロックの空間的複雑度を測定するのに用いられる。分散の大きい入力ブロックは、空間的に複雑であり且つHVSにとって気付き難いと考えられるので、その空間的コントラストは小さいことになる。
他の実施形態では、データの輝度成分について測定されるブロック輝度が、空間的複雑度の分散測定結果を洗練化するのに用いられる。分散は小さい(空間的複雑度が低い、空間的コントラストが大きい)が極めて明るいか又は極めて暗い入力ブロックは、空間的コントラストが小さいと自動的に見なされて且つその前に大きいと測定された空間的コントラストを上書きする。その理由は、極めて暗い領域や極めて明るい領域が、HVSにとって気付き難いからである。所与のブロックを極めて明るい又は極めて暗いと分類するための輝度閾値は、その時々の用途に特化したものとされるが、8ビットの映像の場合の典型的な数値は、極めて明るいが「170超」で、極めて暗いが「60未満」である。
上記のようにブロック輝度により改変されたブロック分散が、空間的コントラストの観点からHVSにとっての気付き易さの高い領域及び気付き易さの低い領域を示す空間的コントラストマップ(SCM)を形成するために、映像フレームの全ての入力ブロックについて算出され得る。
一実施形態では、SCMが、(TMVMにより洗練化された)TCSFと組み合わされることによって、統合化された重要度マップを形成し得る。この統合化されたマップは、例えば、SCMおよびTCSFの両方を適宜正規化したうえで、所与のブロックについてのSCM値をそのブロックについてのTCSF値へとブロック毎に乗算することによって形成され得る。他の実施形態では、TCSFの代用としてSCMが使用され得る。他の実施形態では、SCMが、TCSFを洗練化するのに用いられ得る。例えば、複雑度の高いブロックではSCM値がそのブロックについてのTCSF値を上書きし得て、複雑度の低いブロックではそのブロックについてのTCSF値が直接使用され得る。
<映像符号化への重要度マップの適用>
前述した重要度マップは、一般的なエンコーダ(図2)及びCBTエンコーダ(図3)のいずれの映像符号化プロセスにも適用され得て、符号化ビットストリームの品質を向上させる。
図7に、映像符号化への重要度マップの一般的な適用の様子を示す。入力映像フレーム5およびフレームストア85が、知覚的統計量390を生成するように使用される。そして、知覚的統計量390が、前述したような(TMVMにより洗練化された)TCSFおよび/またはSCMの重要度マップ400を形成するように適用される。知覚的統計量390は、動きベクトル大きさ、ブロック分散、ブロック輝度、エッジ検出、およびグローバル動きモデルパラメータを含み得る(ただし、これらに限定されるわけではない)。入力映像フレーム5およびフレームストア85は、さらに、符号450での映像フレームの符号化へと通常どおり入力される。その符号化は、通常の符号化ステップ(図1の動き推定15、インター予測20、イントラ予測30、変換・量子化60およびエントロピー符号化90)を含む。ただし図7では、符号化450が、後述の方法で重要度マップ400により機能拡張される。
図8Aに、CBTを用いた映像符号化を向上するための、重要度マップの具体的な適用の様子を示す。図8Aには、CBTからのフレーム−フレーム間追跡210ステップ及び連続的追跡220ステップによる動き初期推定(図2の符号110)が示されている。そして、動き精推定130が、既述したものと同じ局所探索及びサブピクセル洗練化の動き精推定ステップ(図4の符号250)で、グローバルCBT動きベクトル225に適用される。ここでも、その後に、エンコーダが採用し得る符号化モードに基づいて予測候補145の集合を生成するモード生成手段140が続く。図4と同じく、EPZSおよびモデルベースでない他の候補(例えば、(0,0)動きベクトル、中央値予測子等)も、統合化された動き推定フレームワークの一部として並行して生成され得る(図8Aでは、図示を簡略化するためにこれら他の候補の図示を省略している)。図8Aにおいても、CBT候補のあらゆる符号化モードおよび場合によってはモデルベースでない他の候補のあらゆる符号化モードも含め、予測候補145の集合の全体が、単一の最良の候補を決定するように「最終」のレート歪み解析155を受ける。「最終」のレート歪み解析では、正確なレート歪み尺度D+λRが用いられて、歪み部分用の予測誤差Dおよびレート部分用の実際の符号化ビットR(図1のエントロピー符号化90からのもの)を算出する。最終の予測160(または図1の符号40)が、その動きベクトル及び他の符号化パラメータと共にエンコーダにおける後続のステップへと渡される。
図8Aにおいて、知覚的統計量390が、フレーム−フレーム間動き追跡210から導き出された動きベクトルから算出され得て、その後、前述したような重要度マップ400を形成するように適用され得る。そして、これらの重要度マップ400が、最終のレート歪み解析155へと入力される。ここでも、知覚的統計量390は、動きベクトル大きさ、ブロック分散、ブロック輝度、エッジ検出、およびグローバル動きモデルパラメータを含み得る(ただし、これらに限定されるわけではない)。
一実施形態では、重要度マップが、レート歪み最適化条件を当該重要度マップに応じて改変するように用いられる。標準のエンコーダ(図2を参照のこと)では、所与の入力ブロック10についての予測候補145の集合の全体が、単一の最良の候補を決定するように「最終」のレート歪み解析150を受ける。「最終」のレート歪み解析では、正確なレート歪み尺度D+λRが用いられて、歪み部分用の予測誤差Dおよびレート部分用の実際の符号化ビットR(図1のエントロピー符号化90からのもの)を算出する。レート歪み尺度D+λRのスコアが最小である候補が、所与の入力ブロック10についての最終の予測160となる。本発明の一実施形態において、図7又は図8の知覚的に最適化されたエンコーダの場合、符号400で重要度マップIMが算出されて、かつ、最終のレート歪み解析155が改変されたレート歪み尺度D×IM+λRを使用する。この改変されたレート歪み尺度では、所与の入力ブロックについてのIM値が歪み項に乗算されて、IM値が高ければ高いほど、歪みの小さいソリューションにより大きな重要度が振り当てられる。というのも、高いIM値は、対応する入力ブロックが知覚的に重要であることを示すからである。重要度マップは、(場合によってはTMVM値により洗練化されている)TCSF、SCMまたはこれらを複合したものを含み得る。
さらなる実施形態では、上記に加えて、レート歪み尺度における歪みDが、SSE(二乗誤差和:歪みを算出する「標準」の手法)とYUV空間において算出されたSSIMとの重み付け和として算出され得る。重み付けγは、映像のうちの最初の幾つか(又は一番最近の幾つか)のフレームにおける平均SSIM値SSIMavgが当該映像のうちの当該最初の幾つか(又は当該一番最近の幾つか)のフレームにおける平均SSE値SSEavgと等しくなる(γ×SSIMavg=SSEavg)ように適応的に算出され得る。つまり、それぞれの入力ブロックについて、改変されたレート歪み尺度は、(SSE+γ×SSIM)×IM+2λR(式中、λR項の前にある乗算係数2は、歪み項が2つあることを意味している)となる。歪み測定にSSIMを含めることは、SSIMがデータの構造的情報に相当することから、レート歪み最適化においてHVS知覚が占める割合をなおいっそう増やすことになる。
他の実施形態では、重要度マップ(例えば、TMVMによる洗練化を伴うTCSF、SCM等)が、レート歪み最適化を改変するのに加えて(あるいは、この代わりに)、エンコーダのブロックレベル量子化を改変するように用いられ得る。量子化は、所与の入力ブロックが符号化される相対品質を制御するものである。つまり、高度に量子化されたデータは低品質の符号化済み出力となり、低度に量子化されたデータは高品質の符号化済み出力となる。量子化の量は、量子化パラメータQPによって制御される。標準のエンコーダは、異なるフレームタイプに異なるQP値QPframeを振り当てて、Iフレームは最小のQP(最も高品質)で符号化されて且つBフレームは最大のQP(最も低品質)で符号化されて且つPフレームは中間のQP(中間の品質)で符号化される。
つまり、上記の手法は、複数の映像フレーム(当該映像フレームは、互いに重なり合わないターゲットブロックを有している)を、重要度マップを用いて、各映像フレーム内の各ターゲットブロックの量子化を改変すること(そして、これによってその符号化品質に影響を与えること)によって符号化する方法を提示している。そのような重要度マップは、時間的情報(TMVMによる洗練化を伴うTCSF)、空間的情報、またはこれら2種類の組合せ(すなわち、統合化された重要度マップ)を用いて設定され得る。重要度マップは各映像フレームのどの部分が人間の知覚にとって最も気付き易いのかを示すものなので、前記重要度マップの数値は、それぞれのターゲットブロックについてのQPを、(i)当該重要度マップが高い数値をとるブロックでは、ブロックQPがQPframeに比べて小さくされることで、これらのブロックについては高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるブロックでは、前記ブロックQPが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについては低い品質となるように、変更するのが望ましい。
図8Bに、重要度マップ400を用いて符号化時の量子化を改変するプロセスの一例を示す。符号400では、知覚的統計量390から導き出された時間的情報および/または空間的情報を用いて重要度マップが構成/形成され得る。時間的情報は、例えば、どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いのかを示す時間的コントラスト感度関数(TCSF)、および、どのターゲットブロックが前景データに相当するのかを示す真の動きベクトルマップ(TMVM)により提供され得て、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされる。空間的情報は、例えば、ルールに基づく空間的複雑度マップ(SCM)により提供され得る。
そして、重要度マップ400は、符号化450内の量子化ステップ430を上記のように改変するのに用いられる。当該重要度マップが高い数値を取るブロックでは、ブロック量子化パラメータ(QP)が、フレーム量子化パラメータQPframeに対して減らされて、これらのブロックについては高い符号化品質が得られる。当該重要度マップが低い数値を取るブロックでは、前記ブロック量子化パラメータが、前記フレーム量子化パラメータQPframeに対して増やされて、これらのブロックについては低い符号化品質が得られる。重要度マップからの情報を用いることにより、量子化は、各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質を向上させるように改変され得る。
一実施形態では、所与のフレームについてのTCSFマップが、フレームQPをブロック毎に調節するように用いられ得る。ブロックQP、QPblockを算出する方法の一つは、(Li, Z.達による2011, "Visual attention guided bit allocation in video compression(映像圧縮における、視覚注意によって導かれたビット振当), J. of Image and Vision Computing, 29(1): 1-14)の手法に従って、その調節量をフレームにおけるTCSFマップ全体と関連付けることである。その結果得られる式は、QPblock=(TCSFframe/(TCSFblock×M))×QPframe(式中、TCSFframeはフレーム内の全てのブロックについてのTCSF値の合計であり、QPframeはフレームQPであり、Mはフレーム内のブロックの数である)により与えられる。さらなる実施形態では、乗算係数(TCSFframe/(TCSFblock×M))が、QPblockの最終的な数値がQPframeに対して大きくなり過ぎたり小さくなり過ぎたりすることのないように増減され得る。
代替的な一実施形態では、TCSFマップによるQPのブロック毎の調節が、そのフレームについてのTCSFマップ全体を参照することなく達成され得る。この実施形態では、QPblockの計算がより単純になる:QPblock=QPframe/TCSFblock。一実施形態では、QPblockの得られる数値が、そのフレームについての所定の上限QP値を上回ったり下限QP値を下回ったりしないように範囲限定される(クリップされる):QPmin≦QPblock≦QPmax
他の実施形態では、SCMの出力が、ルールに基づくアプローチを用いてブロック毎に量子化パラメータを改変するように用いられ得る。この実施形態は、まず、分散の大きいブロックに高いQP値(低品質)を振り当てることから始まる。というのも、高度に複雑な領域は、HVSにとって気付き難いからである。分散の小さいブロックには、低いQP値(高品質)が振り当てられる。というのも、低度に複雑な領域は、HVSにとって気付き易いからである。一実施形態では、所与のブロックについてのQP振当量が、フレームの上限QP値であるQPmax及び下限QP値であるQPminによって規制されており、かつ、そのフレーム内の他のブロック分散に対する自身のブロック分散に基づき線形的に増減される。代替的な一実施形態では、フレーム全体の平均分散よりも大きい分散を有するブロックのみに、フレームQPであるQPframeとQPmaxとの間のQP値が振り当てられて、かつ、その振当量はQPblock=((varblock−varframe/varblock))×(QPmax−QPframe)+QPframeとなるように線形的に増減される。この代替的な実施形態において、分散の大きいブロックに対するQP振当量は、TCSFによりさらに洗練化されてもよい。例えば、TMVMでそのブロックが前景データと見なされて且つTCSFのコントラスト感度対数値(図5の縦軸)が0.5未満である(そのブロックが時間的に重要でないことを意味する)場合には、QPblockが2だけ増やされる。代替的な一実施形態では、エッジ検出プロセスが適用され得て、エッジを含むブロックのQPが、それまでに振り当てられていた空間的複雑度からのQPを上書きするようにQPminに調節され得る。その理由は、エッジが、HVSにとって極めて気付き易いものだからである。さらなる実施形態では、極めて明るいか又は極めて暗いブロックのQPが、それまでに振り当てられていた分散及び(場合によっては)エッジ検出からのQPを上書きすることによってQPmaxに調節し直され得る。その理由は、極めて暗い領域や極めて明るい領域が、HVSにとって気付き難いからである。このプロセスは、輝度マスキングとして知られる。
さらなる実施形態では、上記に加えて、分散の大きいブロックについてのQPmaxの数値が、符号化された映像の品質レベルに基づいて動的に決定され得る。その思想は、低品質の符号化では分散の大きいブロックにおける品質低下を許容できないのでQPmaxはQPframeにより近づけるのが望ましい一方、高品質の符号化ではビットを節約するために分散の大きいブロックについてのQPmaxを増やすことを許容できるというものである。符号化の品質は、各I(イントラ)フレーム毎に、平均フレーム分散の±5%以内の分散を有するブロックの平均SSIMを算出することによって更新され得て、かつ、SSIM値が高ければ高いほどQPmaxのより高い数値に対応するようにされる。代替的な一実施形態では、品質指標が平均SSIMと平均フレーム分散との積として算出されるように、平均SSIMがそのフレームの平均分散によって調節される。
さらなる実施形態では、上記に加えて、分散の極めて小さいブロック(HVSにとって特に可視的であるフラットな領域に相当)に対して、これらの領域における高品質符号化を確実にするために、決まった低いQP値が振り当てられ得る。例えば、I(イントラ)フレームの場合、0〜10の分散を有するブロックにQP=28が振り当てられ得て、10〜30の分散を有するブロックにQP=30が振り当てられ得て、30〜60の分散を有するブロックにQP=32が振り当てられ得る。それから、P及びBフレーム内のブロックに対するQP振当量が、上記のQPからそれぞれipratio(ip率)パラメータ及びpbratio(pb率)パラメータを用いて導き出され得る。
さらなる実施形態では、上記に加えて、分散の小さいブロック(例えば、60〜平均フレーム分散の分散を有するブロック等)に対してフレームQPQPframeが振り当てられて、それから、当該分散の小さいブロックが、さらなる品質向上が必要なのか否かを判定するように調べられる。一実施形態では、ブロックノイズ(blockiness)アーチファクトを、符号化中の現在の(ターゲット)ブロックからの再構成されたピクセル及び元々のピクセルの空間的複雑度及び輝度を符号化済みの周囲のブロック(例えば、左、左上、上、右上(これらが存在する場合)のブロック等)の空間的複雑度及び輝度と比較することによって検出し得る。仮に、ターゲットブロックの再構成されたピクセルの空間的複雑度尺度及び輝度尺度と近傍ブロックの対応する尺度との間には大きな違いがあるものの、そのターゲットブロックの元々のピクセルとその近傍ブロックの元々のピクセルとの間には空間的複雑度及び輝度にそのような違いがない場合には、そのターゲットブロックが「ブロックノイズ(blocky)」であると見なされる。この場合、そのブロックのQP値が、当該ブロックの符号化品質を向上させるように減らされる(例えば、2だけ減らされる)。他の実施形態では、ターゲットブロックの推定品質が、符号化済みの周囲のブロック(例えば、左、左上、右、右上(これらが存在する場合)のブロック等)のSSIM値及びQP値を平均化することによって算出される。その平均QP値QPavgが、そのターゲットブロックについての推定QPQPblockとされる。平均SSIM値SSIMestが0.9未満であると、QPblock=QPavgが2だけ減らされてその品質を向上させる。さらなる実施形態において、TMVMにより前景データとして特定されたターゲットブロックは、そのTCSFのコントラスト感度対数値(図5の縦軸)が0.8超である(そのブロックが時間的に重要であることを意味する)場合にのみ、QPblockが2だけ減らされる。
これまでに説明した方法は、時間的重要度マップ(TMVMによる洗練化を伴うか又は伴わないTCSF)、空間的重要度マップまたは両方を使用し得る。時間的重要度マップと空間的重要度マップとの両方が用いられた場合、その結果生じるものは、統合化された重要度マップと称される。
前述したような知覚的統計量から生成された重要度マップは、動き補償を用いて動きベクトルを生成する映像圧縮フレームであればどのような映像圧縮フレームにも適用可能であり得て、これにより、同じ符号化サイズで視覚的により優れた符号化を作り出すようにレート歪み解析と量子化との両方が向上される。映像圧縮への重要度マップの適用は、既に詳述した連続的ブロックトラッカー(CBT)に適用するうえで特殊な適用を必要としない。しかも、CBTは、どの動きベクトルが真の動きベクトルであるのかを正確に決定するという追加の能力を提供するので、重要度マップはCBTベースの符号化フレームワークにおいてより効果的である。その具体的な理由として、CBTのフレーム−フレーム間動きベクトル(図8Aのフレーム−フレーム間追跡210からのもの)が、映像の元々のフレームから生成されたものであって再構成されたフレームから生成されたものではない点が挙げられる。一般的なエンコーダの場合の図2及び図7のフレームストア85は符号化プロセスから生成された再構成後のフレームを含むのに対し、図3、図4及び図8Aのフレームストア205は元々の映像フレームを含んでいる。そのため、CBTのフレーム−フレーム間追跡(図3、図4及び図8の符号210)は映像の真の動きをより良好に追跡することが可能であり、かつ、そのフレーム−フレーム間動きベクトルはより正確な真の動きベクトルマップを生成する。対照的に、一般的なエンコーダの動きベクトルは、レート歪み(圧縮)性能を最適化するように選択されており、映像の真の動きを反映しない可能性がある。
なお、生成された重要度マップは、イントラ予測フレームにも、これまでに述べた手法に従ってイントラ予測モード間のレート歪み最適化を改変するか又はブロックレベル量子化を改変することによって適用可能であり得る。ただし、オールイントラエンコーダ(全イントラエンコーダ)の場合には、TCSFを算出するうえで、映像フレーム内のそれぞれのデータブロックについての動きベクトルを生成するための別個の符号化手段(例えば、図8Aのフレーム−フレーム間追跡210等)が必要となる。
<デジタル処理環境>
本発明の例示的な実装は、ソフトウェア環境でもファームウェア環境でもハードウェア環境でも実現可能であり得る。図9Aに、そのような環境の一つを示す。少なくとも1つのクライアントコンピュータ/デバイス950(例えば、携帯電話、コンピューティングデバイス等)およびクラウド960(またはサーバコンピュータもしくはサーバコンピュータのクラスタ)は、アプリケーションプログラムを実行する処理機能、記憶機能、符号化機能、復号化機能および入出力装置などを提供する。
また、少なくとも1つのクライアントコンピュータ/デバイス950は、通信ネットワーク970を介して、他のクライアントデバイス/プロセス950および少なくとも1つのサーバコンピュータ960を含む他のコンピューティングデバイスと接続可能であり得る。通信ネットワーク970は、リモートアクセスネットワークの一部、グローバルネットワーク(例えば、インターネット等)の一部、世界規模のコンピュータの集まりの一部、ローカルエリアネットワークの一部、ワイドエリアネットワークの一部、あるいは、現在それぞれのプロトコル(TCP/IP、Bluetooth(登録商標)など)を用いて相互通信するゲートウェイの一部であり得る。それ以外の電子デバイス/コンピュータネットワークアーキテクチャも使用可能である。
本発明の実施形態は、映像又はデータ信号情報を符号化、追跡、モデル化、フィルタリング、調整、復号化又は表示する手段を含み得る。図9Bは、そのような映像又はデータ信号情報の符号化を促進するのに用いられ得る、図9Aの処理環境における所与のコンピュータ/コンピューティングノード(例えば、クライアントプロセッサ/デバイス/携帯電話デバイス/タブレット950、サーバコンピュータ960等)の内部構造の図である。各コンピュータ950,960は、コンピュータ又は処理システムの構成要素間のデータ転送に用いられる実在する又は仮想的なハードウェアラインのセットであるシステムバス979を備える。バス979は、コンピュータシステムの相異なる構成要素(例えば、プロセッサ、エンコーダチップ、デコーダチップ、ディスクストレージ、メモリ、入力/出力ポート等)同士を接続する共有の配管のようなものであり、それら構成要素間のデータのやり取りを可能にする。システムバス979には、様々な入出力装置(例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカ等)をコンピュータ950,960に接続するための入出力装置インターフェース982が取り付けられている。ネットワークインターフェース986は、コンピュータがネットワーク(例えば、図9Aの符号970で示されるネットワーク等)に取り付けられた他の様々なデバイスと接続することを可能にする。メモリ990は、本発明のソフトウェア実装を実現するのに用いられるコンピュータソフトウェア命令992及びデータ994を記憶する揮発性メモリである。
ディスクストレージ995は、本発明の一実施形態を実現するのに用いられるコンピュータソフトウェア命令998(等価的には「OSプログラム」)及びデータ994を記憶する不揮発性ストレージである。また、ディスクストレージ995は、映像を圧縮フォーマットで長期的に記憶するのにも使用され得る。システムバス979には、さらに、コンピュータ命令を実行する中央演算処理装置984も取り付けられている。なお、本明細書をとおして「コンピュータソフトウェア命令」と「OSプログラム」は互いに等価物とする。
一例として、エンコーダは、時間的情報や空間的情報から形成された重要度マップを用いて映像データを符号化するためのコンピュータ読取り可能な命令992により構成され得る。これらの重要度マップは、映像データの符号化/復号化を最適化するための、エンコーダ(又はエンコーダの構成要素)へのフィードバックループを提供するように構成され得る。
一実施形態において、プロセッサルーチン992及びデータ994は、エンコーダ(概して符号992で示す)を備えるコンピュータプログラムプロダクトである。このようなコンピュータプログラムプロダクトは、そのエンコーダ用のソフトウェア命令の少なくとも一部を提供する、ストレージ装置994に記憶可能なコンピュータ読取り可能な媒体を含む。
コンピュータプログラムプロダクト992は、当該技術分野において周知である任意の適切なソフトウェアインストール方法によってインストール可能なものであり得る。また、他の実施形態において、前記エンコーダの前記ソフトウェア命令の少なくとも一部は、ケーブルおよび/または通信および/または無線接続を介してダウンロード可能なものであり得る。他の実施形態において、エンコーダシステムソフトウェアは、非過渡的なコンピュータ読取り可能な媒体に組み込まれたコンピュータプログラム伝播信号プロダクト907(図9A)であり、当該コンピュータプログラム伝播信号プロダクト907は、実行されると、伝播媒体上の伝播信号(例えば、電波、赤外線波、レーザ波、音波、インターネットなどのグローバルネットワークや他の少なくとも1つのネットワークによって伝播される電気波など)として実現され得る。このような搬送媒体又は搬送信号が、本発明にかかるルーチン/プログラム992用のソフトウェア命令の少なくとも一部を提供する。
代替的な実施形態において、前記伝播信号は、伝播媒体によって搬送されるアナログ搬送波またはデジタル信号である。例えば、前記伝播信号は、グローバルネットワーク(例えば、インターネット等)、電気通信網または他のネットワークによって搬送されるデジタル信号であり得る。一実施形態において、前記伝播信号は、所与の期間のあいだ伝播媒体によって送信されるものであり、例えば、数ミリ秒、数秒、数分またはそれ以上の期間のあいだネットワークによってパケットで送信される、ソフトウェアアプリケーション用の命令等であり得る。他の実施形態において、コンピュータプログラムプロダクト992の前記コンピュータ読取り可能な媒体は、コンピュータシステム950が受け取って読み取りし得る伝播媒体である。例えば、コンピュータシステム950は、前述したコンピュータプログラム伝播信号プロダクトの場合のように、伝播媒体を受け取ってその伝播媒体内に組み込まれた伝播信号を特定する。
本発明を例示的な実施形態を参照しながら具体的に図示・説明したが、当業者であれば、添付の特許請求の範囲に包含された本発明の範囲を逸脱しない範疇で形態や細部に様々な変更を施せることを理解するであろう。
なお、本発明は、実施の態様として以下の内容を含む。
〔態様1〕
複数の映像フレームを符号化する方法であって、
前記映像フレームは、互いに重なり合わないターゲットブロックを有しており、
当該方法は、
重要度マップが量子化を調整することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に影響を与えるように、前記重要度マップを用いて前記複数の映像フレームを符号化する過程、
を備え、前記重要度マップが:
時間的情報及び空間的情報を用いて当該重要度マップを設定すること;ならびに、
(i)当該重要度マップが高い数値をとるブロックでは、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQP frame に比べて小さくされることで、これらのブロックについては高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるターゲットブロックでは、前記ブロック量子化パラメータが前記フレーム量子化パラメータQP frame に比べて大きくされることで、これらのブロックについては低い品質となるように、計算によって、前記複数の映像フレームのうちのある映像フレームのどの部分が人間の知覚にとって最も気付き易いのかを当該重要度マップに示させること;
によって構成されている、方法。
〔態様2〕
態様1に記載の方法において、前記空間的情報が、ルールに基づく空間的複雑度マップ(SCM)により提供されて、その最初のステップが、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散var frame よりも大きい分散を有するかを決定することであり、
前記平均ブロック分散var frame よりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQP frame よりも高い量子化パラメータ(QP)値を振り当て、このブロック量子化パラメータ(QP)の振当量QP block は、そのブロック分散var block が前記平均ブロック分散var frame よりもいかなる程度大きいかに従って、前記フレーム量子化パラメータQP frame と量子化パラメータ上限QP max との間で線形的に増減される、方法。
〔態様3〕
態様1に記載の方法において、前記時間的情報が、
どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)、および、
どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM)
により提供されて、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされる、方法。
〔態様4〕
態様2に記載の方法において、分散の大きいブロックは、そのブロック量子化パラメータ(QP)である前記振当量QP block が、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合には前記振当量QP block が2増加するように、前記TCSF及び前記TMVMによりさらに洗練化される、方法。
〔態様5〕
態様2に記載の方法において、前記SCMは、さらに、極めて明るい(170超の輝度)か又は極めて暗い(60未満の輝度)ターゲットブロックのブロック量子化パラメータである前記振当量QP block がQP max に調節し直される輝度マスキングを含む、方法。
〔態様6〕
態様2に記載の方法において、前記SCMは、さらに、前記符号化された映像の品質レベルに基づく前記量子化パラメータ上限QP max の動的な決定を含み、
この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果をこれらフレームの平均ブロック分散var frame と共に用いて、品質が測定され、
前記測定された品質が低いと、前記量子化パラメータ上限QP max の数値が前記フレーム量子化パラメータQP frame に近づくように減らされる、方法。
〔態様7〕
態様2に記載の方法において、分散の極めて小さいブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QP block の数値が低くなるように(、かつ、品質が高くなるように)、決められた低い量子化パラメータ(QP)の値である前記振当量QP block が振り当てられる、方法。
〔態様8〕
態様7に記載の方法において、分散の極めて小さいブロックに対する前記低い量子化パラメータ(QP)の値である前記振当量QP block は、最初に、Iフレームについて決められ、その後、Pフレーム及びBフレームについてはipratioパラメータ及びpbratioパラメータを用いて決められる、方法。
〔態様9〕
態様7に記載の方法において、分散は小さいが、分散が極めて小さいとは見なさないブロックは、当該ブロックについて品質向上が必要か否かを判定するために、
前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QP block が現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されて、且つ、
前記現在のブロックの前記SSIMの推定SSIM est が前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出されて、且つ、
SSIM est が0.9未満の場合、前記振当量QP block の数値が2減少されるように、
調べられる、方法。
〔態様10〕
態様9に記載の方法において、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される、方法。
〔態様11〕
態様3に記載の方法において、前記TCSFの時間的周波数は、前記ターゲットブロックとその参照ブロックとの間の色空間領域におけるSSIMを用いて波長の近似を求めて且つ動きベクトルの大きさとフレームレートとを用いて速度の近似を求めることによって算出される、方法。
〔態様12〕
態様3に記載の方法において、前記TCSFは、現在のフレームについての当該TCSFが最近のフレームにおけるTCSFマップの重み付き平均であるように且つより最近のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出される、方法。
〔態様13〕
態様3に記載の方法において、前記TMVMは、前景データの場合にのみ1に設定される、方法。
〔態様14〕
態様13に記載の方法において、前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、十分に大きい差分を有するブロックが前景データであると判断されることによって特定される、方法。
〔態様15〕
態様14に記載の方法において、前景データとして特定されたデータブロックについて、前記グローバル動きベクトルから前記エンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、この差分動きベクトルの大きさが前記TCSFの時間的周波数を算出するのに用いられる、方法。
〔態様16〕
態様3に記載の方法において、前記TCSFは、エンコーダからの動きベクトルから算出される、方法。
〔態様17〕
態様1に記載の方法において、前記重要度マップが前記時間的情報及び前記空間的情報で設定されたものである場合、当該重要度マップは統合化された重要度マップである、方法。
〔態様18〕
映像データを符号化するシステムであって、
重要度マップを用いて複数の映像フレームを符号化するコーデックであって、当該映像フレームは、互いに重なり合わないターゲットブロックを有している、コーデック、
を備え、前記重要度マップは、量子化を調整することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に影響を与えるように構成されており、
前記重要度マップが:
時間的情報及び空間的情報を用いて当該重要度マップを設定することであって、これら時間的情報と空間的情報とにより設定された重要度マップは、統合化された重要素マップであること;ならびに、
(i)当該重要度マップが高い数値をとるブロックでは、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQP frame に比べて小さくされることで、これらのブロックについては高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるターゲットブロックでは、前記ブロック量子化パラメータが前記フレーム量子化パラメータQP frame に比べて大きくされることで、これらのブロックについては低い品質となるように、計算によって、前記複数の映像フレームのうちのある映像フレームの、人間の知覚にとって最も気付き易い部分を当該重要度マップに示させること;
によって構成されている、システム。
〔態様19〕
態様18に記載のエンコーダにおいて、前記空間的情報が、ルールに基づく空間的複雑度マップ(SCM)により提供されて、その最初のステップが、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散var frame よりも大きい分散を有するかを決定することであり、
前記平均ブロック分散var frame よりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQP frame よりも高い量子化パラメータ(QP)値を振り当て、このブロック量子化パラメータ(QP)の振当量QP block は、そのブロック分散var block が前記平均ブロック分散var frame よりもいかなる程度大きいかに従って、前記フレーム量子化パラメータQP frame と量子化パラメータ上限QP max との間で線形的に増減される、エンコーダ。
〔態様20〕
態様18に記載のエンコーダにおいて、前記時間的情報が、
どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)、および、
どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM)
により提供されて、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされる、エンコーダ。
〔態様21〕
態様19に記載のエンコーダにおいて、分散の大きいブロックは、そのブロック量子化パラメータ(QP)である前記振当量QP block が、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合には前記振当量QP block が2増加するように、前記TCSF及び前記TMVMによりさらに洗練化される、エンコーダ。
〔態様22〕
態様19に記載のエンコーダにおいて、前記SCMは、さらに、極めて明るい(170超の輝度)か又は極めて暗い(60未満の輝度)ターゲットブロックのブロック量子化パラメータである前記振当量QP block がQP max に調節し直される輝度マスキングを含む、エンコーダ。
〔態様23〕
態様19に記載のエンコーダにおいて、前記SCMは、さらに、符号化された映像の品質レベルに前記量子化パラメータ上限基づくQP max の動的な決定を含み、
この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果をこれらフレームの平均ブロック分散var frame と共に用いて、品質が測定され、
測定された品質が低いと、前記量子化パラメータ上限QP max の数値が前記フレーム量子化パラメータQP frame 近づくように減らされる、エンコーダ。
〔態様24〕
態様19に記載のエンコーダにおいて、分散の極めて小さいブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QP block の数値が低くなるように(、かつ、品質が高くなるように)、決められた低い量子化パラメータ(QP)の値である前記振当量QP block が振り当てられる、エンコーダ。
〔態様25〕
態様24に記載のエンコーダにおいて、分散の極めて小さいブロックに対する前記低い量子化パラメータ(QP)の値である前記振当量QP block は、最初に、Iフレームについては決められ、その後、Pフレーム及びBフレームについてはipratioパラメータ及びpbratioパラメータを用いて決められる、エンコーダ。
〔態様26〕
態様19に記載のシステムにおいて、分散は小さいが、分散が極めて小さいとは見なさないブロックは、当該ブロックについて品質向上が必要か否かを判定するために、
前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QP block が現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されて、且つ、
前記現在のブロックの前記SSIMの推定SSIM est が前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出されて、且つ、
SSIM est が0.9未満の場合、前記振当量QP block の数値が2減少されるように、
調べられる、システム。
〔態様27〕
態様26に記載のシステムにおいて、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される、システム。
〔態様28〕
態様20に記載のシステムにおいて、前記TCSFの時間的周波数は、前記ターゲットブロックとその参照ブロックとの間の色空間領域におけるSSIMを用いて波長の近似を求めて且つ動きベクトルの大きさとフレームレートとを用いて速度の近似を求めることによって算出される、システム。
〔態様29〕
態様20に記載のシステムにおいて、前記TCSFは、現在のフレームについての当該TCSFが最近のフレームにおけるTCSFマップの重み付き平均であるように且つより最近のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出される、システム。
〔態様30〕
態様20に記載のシステムにおいて、前記TMVMは、前景データの場合にのみ1に設定される、システム。
〔態様31〕
態様30に記載のシステムにおいて、前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、十分に大きい差分を有するブロックが前景データであると判断されることによって特定される、システム。
〔態様32〕
態様20に記載のシステムにおいて、前景データとして特定されたデータブロックについて、前記グローバル動きベクトルから前記エンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、この差分動きベクトルの大きさが前記TCSFの時間的周波数を算出するのに用いられる、システム。
〔態様33〕
態様20に記載のシステムにおいて、前記TCSFは、前記エンコーダからの動きベクトルから算出される、システム。
〔態様34〕
態様18に記載のシステムにおいて、前記重要度マップが前記時間的情報と前記空間的情報で設定されたものである場合、当該重要度マップは統合化された重要度マップである、システム。

Claims (30)

  1. 複数の映像フレームを符号化する方法であって、
    前記映像フレームは、互いに重なり合わないターゲットブロックを有しており、
    当該方法は、
    重要度マップが量子化を調整することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に影響を与えるように、前記重要度マップを用いて前記複数の映像フレームを符号化する過程、
    を備え、前記重要度マップが:
    時間的情報及び空間的情報を用いて当該重要度マップを設定すること;ならびに、
    (i)当該重要度マップが高い数値をとるブロックであるほど、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQPframeに比べて小さくされることで、これらのブロックについてはより高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるターゲットブロックであるほど、前記ブロック量子化パラメータが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについてはより低い品質となるように、計算によって、前記複数の映像フレームのうちのある映像フレームのどの部分が人間の知覚にとって最も気付き易いのかを当該重要度マップに示させること;
    によって構成され、前記時間的情報が、
    時間的に周期的な刺激に対する人間の視覚系の応答を測定してどのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)、および、
    どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM)
    により提供されて、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされ、
    前記TCSFの時間的周波数は、動きベクトルの大きさとフレームレートとを用いて求められる速度の近似を、前記ターゲットブロックとその参照ブロックとの間の色空間領域における平均構造的類似度(SSIM)を用いて求められる波長の近似で除することによって算出される、方法。
  2. 請求項1に記載の方法において、前記空間的情報が、ルールに基づく空間的複雑度マップ(SCM)により提供されて、その最初のステップが、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散varframeよりも大きい分散を有するかを決定することであり、
    前記平均ブロック分散varframeよりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQPframeよりも高い量子化パラメータ(QP)値を振り当て、このブロック量子化パラメータ(QP)の振当量QPblockは、そのブロックのブロック分散var block 、前記平均ブロック分散var frame 、量子化パラメータ上限QP max および前記フレーム量子化パラメータQP frame を用いて、QP block =((var block −var frame )/var block )×(QP max −QP frame )+QP frame となるように線形的に増減される、方法。
  3. 請求項2に記載の方法において、前記フレーム内の平均ブロック分散var frame よりも分散の大きいブロックは、そのブロック量子化パラメータ(QP)である前記振当量QPblockが、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合には前記振当量QPblockが2増加するように、前記TCSF及び前記TMVMによりさらに洗練化される、方法。
  4. 請求項2に記載の方法において、前記SCMは、さらに、ブロック平均輝度が170超の輝度か又は60未満の輝度のターゲットブロックのブロック量子化パラメータである前記振当量QPblockがQPmaxに調節し直される輝度マスキングを含む、方法。
  5. 請求項2に記載の方法において、前記SCMは、さらに、前記符号化された映像の品質レベルに基づく前記量子化パラメータ上限QPmaxの動的な決定を含み、
    この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果を前記Iフレームの平均ブロック分散varframeと共に用いて、品質が測定され、
    前記測定された品質が低いほど、前記量子化パラメータ上限QPmaxの数値が前記フレーム量子化パラメータQPframeより近づくように減らされる、方法。
  6. 請求項2に記載の方法において、分散が60未満であるブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QPblockの数値が低くなるように、決められた低い量子化パラメータ(QP)の値である前記振当量QPblockが振り当てられる、方法。
  7. 請求項に記載の方法において、分散が60未満であるブロックに対する前記量子化パラメータ(QP)の値である前記振当量QPblockは、最初に、Iフレームの当該ブロックについて決められ、その後、Pフレーム及びBフレームにおける当該ブロックに相当するブロックについてはIフレームのフレームQP値のPフレームのフレームQP値に対する比率であるipratioパラメータ及びPフレームのQP値の、BフレームのQP値に対する比率であるpbratioパラメータを用いて決められる、方法。
  8. 請求項に記載の方法において、分散が60以上で、平均ブロック分散以下であるブロックは、当該ブロックについて、
    前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QPblockが現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されて、且つ、
    前記現在のブロックの前記SSIMの推定SSIMestが前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出されて、且つ、
    SSIMestが0.9未満の場合、品質向上が必要か否かの判定において品質向上が必要と判定され、前記算出された振当量QPblockの数値が2減少されるように、品質向上の処理がなされる、方法。
  9. 請求項に記載の方法において、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される、方法。
  10. 請求項に記載の方法において、前記TCSFは、現在のフレームについての当該TCSFが符号化された過去のフレームにおけるTCSFマップの重み付き平均であるように且つより時間的に近い過去の、符号化された過去のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出される、方法。
  11. 請求項に記載の方法において、前記TMVMは、前景データの場合にのみ1に設定される、方法。
  12. 請求項11に記載の方法において、前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、特定値より大きい差分を有するブロックが前景データであると判断されることによって特定される、方法。
  13. 請求項12に記載の方法において、前景データとして特定されたデータブロックについて、前記グローバル動きベクトルから前記エンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、前記TCSFの時間的周波数を算出するのに用いられる速度vが、この差分動きベクトルの大きさ|DMV|、この差分動きベクトルにより指し示される参照フレームと現在のフレームとの間のフレームの数Nおよびフレームレートを用いて、v=|DMV|×フレームレート/Nと算出される、方法。
  14. 請求項に記載の方法において、前記TCSFは、エンコーダからの動きベクトルMVを用いて前記TCSFへの入力である時間的周波数を算出するための速度vをv=|MV|×フレームレート/N(式中、フレームレートはその映像が生成された1秒当たりのフレームの数であり、Nは前記動きベクトルにより指し示される参照フレームと現在のフレームとの間のフレームの数である)より算出する、方法。
  15. 請求項に記載の方法において、前記重要度マップが前記時間的情報及び前記空間的情報で設定されたものである場合、当該重要度マップは統合化された重要度マップ(TCSFおよびSCMの両方からの情報を含む重要度マップ)である、方法。
  16. 映像データを符号化するシステムであって、
    重要度マップを用いて複数の映像フレームを符号化するコーデックであって、当該映像フレームは、互いに重なり合わないターゲットブロックを有している、コーデック、
    を備え、前記重要度マップは、量子化を調整することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に影響を与えるように構成されており、
    前記重要度マップが:
    時間的情報及び空間的情報を用いて当該重要度マップを設定すること;ならびに、
    (i)当該重要度マップが高い数値をとるブロックであるほど、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQPframeに比べて小さくされることで、これらのブロックについてはより高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるターゲットブロックであるほど、前記ブロック量子化パラメータが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについてはより低い品質となるように、計算によって、前記複数の映像フレームのうちのある映像フレームの、人間の知覚にとって最も気付き易い部分を当該重要度マップに示させること;
    によって構成され、前記時間的情報が、
    時間的に周期的な刺激に対する人間の視覚系の応答を測定してどのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)および
    どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM);
    により提供されて、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされ、
    前記TCSFの時間的周波数は、動きベクトルの大きさとフレームレートとを用いて求められる速度の近似を、前記ターゲットブロックとその参照ブロックとの間の色空間領域における平均構造的類似度(SSIM)を用いて求められる波長の近似で除することによって算出される、システム。
  17. 請求項16に記載のシステムにおいて、前記空間的情報が、ルールに基づく空間的複雑度マップ(SCM)により提供されて、その最初のステップが、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散varframeよりも大きい分散を有するかを決定することであり、
    前記平均ブロック分散varframeよりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQPframeよりも高い量子化パラメータ(QP)値を振り当て、このブロック量子化パラメータ(QP)の振当量QPblockは、そのブロックのブロック分散var block 、前記平均ブロック分散var frame 、量子化パラメータ上限QP max および前記フレーム量子化パラメータQP frame を用いて、QP block =((var block −var frame )/var block )×(QP max −QP frame )+QP frame となるように線形的に増減される、システム。
  18. 請求項17に記載のシステムにおいて、前記フレーム内の平均ブロック分散var frame よりも分散の大きいブロックは、そのブロック量子化パラメータ(QP)である前記振当量QPblockが、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合には前記振当量QPblockが2増加するように、前記TCSF及び前記TMVMによりさらに洗練化される、システム。
  19. 請求項17に記載のシステムにおいて、前記SCMは、さらに、ブロック平均輝度が170超の輝度か又は60未満の輝度のターゲットブロックのブロック量子化パラメータである前記振当量QPblockがQPmaxに調節し直される輝度マスキングを含む、システム。
  20. 請求項17に記載のシステムにおいて、前記SCMは、さらに、符号化された映像の品質レベルに基づく前記量子化パラメータ上限Qmaxの動的な決定を含み、
    この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果を前記Iフレームの平均ブロック分散varframeと共に用いて、品質が測定され、
    測定された品質が低いほど、前記量子化パラメータ上限QPmaxの数値が前記フレーム量子化パラメータQPframe により近づくように減らされる、システム。
  21. 請求項17に記載のシステムにおいて、分散が60未満であるブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QPblockの数値が低くなるように、決められた量子化パラメータ(QP)の値である前記振当量QPblockが振り当てられる、システム。
  22. 請求項21に記載のシステムにおいて、分散が60未満であるブロックに対する前記低い量子化パラメータ(QP)の値である前記振当量QPblockは、最初に、Iフレームについては決められ、その後、Pフレーム及びBフレームにおける当該ブロックに相当するブロックについてはIフレームのフレームQP値のPフレームのフレームQP値に対する比率であるipratioパラメータ及びPフレームのQP値の、BフレームのQP値に対する比率であるpbratioパラメータを用いて決められる、システム。
  23. 請求項17に記載のシステムにおいて、分散が60以上で、平均ブロック分散以下であるブロックは、当該ブロックについて、
    前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QPblockが現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されて、且つ、
    前記現在のブロックの前記SSIMの推定SSIMestが前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出されて、且つ、
    SSIMestが0.9未満の場合、品質向上が必要か否かの判定において品質向上が必要と判定され、前記算出された振当量QPblockの数値が2減少されるように、品質向上の処理がなされる、システム。
  24. 請求項23に記載のシステムにおいて、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される、システム。
  25. 請求項16に記載のシステムにおいて、前記TCSFは、現在のフレームについての当該TCSFが符号化された過去のフレームにおけるTCSFマップの重み付き平均であるように且つより時間的に近い過去の、符号化された過去のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出される、システム。
  26. 請求項16に記載のシステムにおいて、前記TMVMは、前景データの場合にのみ1に設定される、システム。
  27. 請求項26に記載のシステムにおいて、前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、特定値より大きい差分を有するブロックが前景データであると判断されることによって特定される、システム。
  28. 請求項16に記載のシステムにおいて、前景データとして特定されたデータブロックについて、前記データブロックについてのグローバル動きベクトルから前記データブロックについてのエンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、前記TCSFの時間的周波数を算出するのに用いられる速度vが、この差分動きベクトルの大きさ|DMV|、この差分動きベクトルにより指し示される参照フレームと現在のフレームとの間のフレームの数Nおよびフレームレートを用いて、v=|DMV|×フレームレート/Nと算出される、システム。
  29. 請求項16に記載のシステムにおいて、前記TCSFは、前記エンコーダからの動きベクトルMVを用いて前記TCSFへの入力である時間的周波数を算出するための速度vをv=|MV|×フレームレート/N(式中、フレームレートはその映像が生成された1秒当たりのフレームの数であり、Nは前記動きベクトルにより指し示される参照フレームと現在のフレームとの間のフレームの数である)より算出する、システム。
  30. 請求項17に記載のシステムにおいて、前記重要度マップが前記時間的情報と前記空間的情報で設定されたものである場合、当該重要度マップは統合化された重要度マップ(TCSFおよびSCMの両方からの情報を含む重要度マップ)である、システム。
JP2017513750A 2014-09-11 2015-09-03 モデルベースの映像符号化用の知覚的最適化 Active JP6698077B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201462049342P 2014-09-11 2014-09-11
US62/049,342 2014-09-11
US14/532,947 US9621917B2 (en) 2014-03-10 2014-11-04 Continuous block tracking for temporal prediction in video encoding
US14/532,947 2014-11-04
US201462078181P 2014-11-11 2014-11-11
US62/078,181 2014-11-11
US201562158523P 2015-05-07 2015-05-07
US62/158,523 2015-05-07
PCT/US2015/048353 WO2016040116A1 (en) 2014-09-11 2015-09-03 Perceptual optimization for model-based video encoding

Publications (3)

Publication Number Publication Date
JP2017532858A JP2017532858A (ja) 2017-11-02
JP2017532858A5 JP2017532858A5 (ja) 2018-10-11
JP6698077B2 true JP6698077B2 (ja) 2020-05-27

Family

ID=55459438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017513750A Active JP6698077B2 (ja) 2014-09-11 2015-09-03 モデルベースの映像符号化用の知覚的最適化

Country Status (5)

Country Link
EP (1) EP3175618A1 (ja)
JP (1) JP6698077B2 (ja)
CN (1) CN106688232A (ja)
CA (1) CA2960617A1 (ja)
WO (1) WO2016040116A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
CA2942336A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CN109547802A (zh) * 2017-09-22 2019-03-29 江苏智谋科技有限公司 基于三维视觉技术的无人机避障系统
CN107843227B (zh) * 2017-12-09 2020-04-10 连云港杰瑞电子有限公司 一种基于校准技术提高编码器精度的方法
US10652550B2 (en) 2017-12-22 2020-05-12 Shenzhen China Star Optoelectronics Semiconductor Display Technology Co., Ltd. Compensation table compressing method
CN108172168B (zh) * 2017-12-22 2019-11-15 深圳市华星光电半导体显示技术有限公司 一种补偿表压缩方法
WO2019194572A1 (en) * 2018-04-03 2019-10-10 Samsung Electronics Co., Ltd. Methods and apparatus for determining adjustment parameter during encoding of spherical multimedia content
CN111279685A (zh) 2018-04-28 2020-06-12 深圳市大疆创新科技有限公司 运动估计
GB2588023B (en) 2018-06-05 2023-04-12 Beijing Bytedance Network Tech Co Ltd Interaction between IBC and BIO
TWI729422B (zh) 2018-06-21 2021-06-01 大陸商北京字節跳動網絡技術有限公司 色彩分量間的子區塊移動向量繼承
WO2019244117A1 (en) 2018-06-21 2019-12-26 Beijing Bytedance Network Technology Co., Ltd. Unified constrains for the merge affine mode and the non-merge affine mode
CN110859057A (zh) * 2018-06-29 2020-03-03 深圳市大疆创新科技有限公司 运动矢量确定方法、设备及机器可读存储介质
TWI839388B (zh) 2018-09-24 2024-04-21 大陸商北京字節跳動網絡技術有限公司 簡化的基於歷史的運動矢量預測
US10992938B2 (en) * 2018-09-28 2021-04-27 Ati Technologies Ulc Spatial block-level pixel activity extraction optimization leveraging motion vectors
WO2020094150A1 (en) 2018-11-10 2020-05-14 Beijing Bytedance Network Technology Co., Ltd. Rounding in current picture referencing
CN109819252B (zh) * 2019-03-20 2021-05-18 福州大学 一种不依赖gop结构的量化参数级联方法
CN109982082B (zh) * 2019-05-05 2022-11-15 山东大学 一种基于局部纹理特性的hevc多失真准则率失真优化方法
CN111882564A (zh) * 2020-07-27 2020-11-03 山东大学 一种超高清医学病理图像的压缩处理方法
US11638025B2 (en) 2021-03-19 2023-04-25 Qualcomm Incorporated Multi-scale optical flow for learned video compression
CN113556544B (zh) * 2021-06-30 2024-04-19 北京锐马视讯科技有限公司 基于场景自适应的视频编码方法和装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6831947B2 (en) * 2001-03-23 2004-12-14 Sharp Laboratories Of America, Inc. Adaptive quantization based on bit rate prediction and prediction error energy
US8135062B1 (en) * 2006-01-16 2012-03-13 Maxim Integrated Products, Inc. Method and apparatus for QP modulation based on perceptual models for picture encoding
CN101184221A (zh) * 2007-12-06 2008-05-21 上海大学 基于视觉关注度的视频编码方法
CN101325711A (zh) * 2008-07-16 2008-12-17 上海大学 基于时空掩盖效应的自适应码率控制方法
US8848788B2 (en) * 2009-05-16 2014-09-30 Thomson Licensing Method and apparatus for joint quantization parameter adjustment
US8737464B1 (en) * 2011-07-21 2014-05-27 Cisco Technology, Inc. Adaptive quantization for perceptual video coding

Also Published As

Publication number Publication date
CN106688232A (zh) 2017-05-17
CA2960617A1 (en) 2016-03-17
WO2016040116A1 (en) 2016-03-17
EP3175618A1 (en) 2017-06-07
JP2017532858A (ja) 2017-11-02

Similar Documents

Publication Publication Date Title
JP6698077B2 (ja) モデルベースの映像符号化用の知覚的最適化
US10091507B2 (en) Perceptual optimization for model-based video encoding
US10097851B2 (en) Perceptual optimization for model-based video encoding
US10212456B2 (en) Deblocking filter for high dynamic range (HDR) video
US11240496B2 (en) Low complexity mixed domain collaborative in-loop filter for lossy video coding
US9621917B2 (en) Continuous block tracking for temporal prediction in video encoding
KR102295520B1 (ko) 비디오 코딩에서 모션 보상 예측을 위한 광흐름 추정
KR100989296B1 (ko) 아티팩트 평가를 통한 향상된 이미지/비디오 품질
US10390038B2 (en) Methods and devices for encoding and decoding video pictures using a denoised reference picture
US9270993B2 (en) Video deblocking filter strength derivation
KR20090039720A (ko) 적응적 참조 필터링을 위한 방법 및 장치
US9838690B1 (en) Selective prediction signal filtering
US20150256853A1 (en) Video encoder with transform size preprocessing and methods for use therewith
RU2684193C1 (ru) Устройство и способ для компенсации движения в видеоизображении
US10440384B2 (en) Encoding method and equipment for implementing the method
KR20170093833A (ko) 인트라 모드들의 코딩
CN117880498A (zh) 去块效应滤波自适应的编码器、解码器及对应方法
WO2022021422A1 (zh) 视频编码方法、编码器、系统以及计算机存储介质
KR20150034699A (ko) 인트라 모드를 이용한 쿼터 픽셀 해상도를 갖는 영상 보간 방법 및 장치
KR102402671B1 (ko) 보간 필터의 연산 복잡도를 조절할 수 있는 영상 처리 장치, 영상 보간 방법 및 영상 부호화 방법
Antony et al. Performance enhancement of HEVC lossless mode using sample-based angular and planar predictions
Lin et al. Perceptual importance analysis-based rate control method for HEVC
KR101647484B1 (ko) 영상 부호화 방법 및 장치
WO2023205371A1 (en) Motion refinement for a co-located reference frame
WO2022146215A1 (en) Temporal filter

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180830

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200427

R150 Certificate of patent or registration of utility model

Ref document number: 6698077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250