CN110741639A - 视频译码中的运动信息传播 - Google Patents
视频译码中的运动信息传播 Download PDFInfo
- Publication number
- CN110741639A CN110741639A CN201880037753.6A CN201880037753A CN110741639A CN 110741639 A CN110741639 A CN 110741639A CN 201880037753 A CN201880037753 A CN 201880037753A CN 110741639 A CN110741639 A CN 110741639A
- Authority
- CN
- China
- Prior art keywords
- block
- prediction block
- prediction
- motion information
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 51
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 27
- 238000010276 construction Methods 0.000 claims description 8
- 230000000644 propagated effect Effects 0.000 claims description 7
- 230000001902 propagating effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 47
- 230000002123 temporal effect Effects 0.000 description 18
- 238000013139 quantization Methods 0.000 description 16
- 238000005192 partition Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- AVVWPBAENSWJCB-DGPNFKTASA-N beta-D-galactofuranose Chemical compound OC[C@@H](O)[C@@H]1O[C@@H](O)[C@H](O)[C@H]1O AVVWPBAENSWJCB-DGPNFKTASA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/56—Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/109—Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/196—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/517—Processing of motion vectors by encoding
- H04N19/52—Processing of motion vectors by encoding by predictive encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
技术涉及一种用于对当前译码图片中的视频数据的当前块进行解码的装置。所述装置可包含配置成存储视频数据的存储器。所述装置还可包含处理器,所述处理器配置成:根据帧内预测模式为所述当前图片中的所述视频数据的所述当前块生成第一预测块;以及根据帧间预测模式为所述当前图片所述图片中的所述视频数据的所述当前块生成第二预测块。所述处理器可配置成:生成从所述图片的所述第二预测块传播到所述第一预测块的运动信息;以及使用所述运动信息来获得最终预测块;接着基于所述最终预测块与残余块的组合来生成经重构块。
Description
引用优先权申请的并入
本专利申请要求对2017年6月26日申请的名称为“视频译码中的运动信息传播(MOTION INFORMATION PROPAGATION IN VIDEO CODING)”的临时申请第62/525,075号和2018年6月18日申请的名称为“视频译码中的运动信息传播(MOTION INFORMATIONPROPAGATION IN VIDEO CODING)”的非临时申请第16/011,340号的优先权,且所述申请让渡给本受让人且特此以引用的方式明确并入本文中。
技术领域
本公开涉及视频编码和视频解码。
背景技术
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IECMPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual以及ITU-T H.264(又称为ISO/IECMPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。MVC的最新联合草案描述于2010年3月的“用于通用视听服务的高级视频译码(Advanced video coding forgeneric audiovisual services)”ITU-T规范H.264中。
此外,存在新开发的视频译码标准,即高效视频译码(HEVC),其由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。HEVC的近期草案可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_ Geneva/wg11/JCTVC-L1003-v34.zip获得。
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、手提式计算机或台式计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频串流装置以及其类似物数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分、高级视频译码(AVC)定义的标准、最近已定案的高效视频译码(HEVC)标准以及这种标准的扩展中所描述的技术。视频装置可通过实施这种视频压缩技术来更高效地发射、接收、编码、解码和/或存储数字视频信息。
视频压缩技术进行空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中的固有冗余。对于基于块的视频译码,可将视频切片(即,视频帧或视频帧的一部分)分割成视频块(其也可称为树块)、译码单元(CU)和/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测为待译码的块产生预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块根据指向形成预测性块的参考样本块的运动向量和指示经译码块与预测性块之间的差的残余数据来编码。经帧内译码块根据帧内译码模式和残余数据来编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,可接着量化所述残余变换系数。可扫描最初布置成二维阵列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多压缩。
发明内容
大体来说,本公开描述涉及高级运动向量预测的改进的技术。本公开的技术可应用于未来视频译码标准。在一个实例中,技术涉及一种用于对当前译码图片中的视频数据的当前块进行解码的装置。装置可包含配置成存储视频数据的存储器。装置还可包含处理器,所述处理器配置成:根据帧内预测模式为当前图片中的视频数据的当前块生成第一预测块;以及根据帧间预测模式为当前图片图片中的视频数据的当前块生成第二预测块。处理器可配置成:生成从图片的第二预测块传播到第一预测块的运动信息;以及使用运动信息来获得最终预测块;接着基于最终预测块与残余块的组合来生成经重构块。
在另一实例中,技术涉及一种用于处理视频数据的方法,其包含:根据帧内预测模式为图片的块生成第一预测块;根据帧间预测模式为图片的块生成第二预测块;以及基于来自第二预测块的运动信息将运动信息传播到第一预测块。技术包含基于第一预测块与第二预测块的组合来为图片的块生成最终预测块。
在下文的附图和描述中阐述本公开的一或多个方面的细节。本公开中所描述的技术的其它特征、目标以及优点将从描述、附图以及权利要求书中显而易见。
附图说明
图1A和图1B展示帧内帧和帧间帧的实例。
图2展示表示HEVC中的不同预测方向的帧内预测模式。
图3展示使用单向预测和双向预测的参考帧。
图4展示当前块的示范性相邻块。
图5A和图5B说明用于合并模式(图5A)和AMVP模式(图5B)的空间相邻MV候选项。
图6A说明TMVP候选项且图6B说明MV缩放。
图7是基于预定义次序(或按照预定义优先级)的候选项列表的实例。
图8说明HEVC中的合并候选项列表的建构的实例。
图9展示经帧间译码块与经帧内译码块之间的运动传播的实例;以及经帧内译码块与经帧间译码块之间的运动传播的实例。
图10展示如何基于当前块的帧内预测模式来继承运动信息的实例。
图11说明从时间相邻块继承运动信息的实例。
图12说明用继承的运动信息构建合并候选项列表的实例。
图13说明用继承的运动信息构建合并候选项列表的另一实例。
图14是说明可实施本公开中所描述的技术的实例视频编码器20的框图。
图15是说明可实施本公开中所描述的技术的实例视频解码器30的框图。
图16是说明根据本公开的技术的实例视频解码过程的流程图。
具体实施方式
本公开描述涉及可用于后处理阶段(作为环路内译码的部分)中或预测阶段中的滤波方法的技术。本公开的技术可实施到例如HEVC(高效视频译码)的现有视频编解码器中,或是用于未来视频译码标准(例如目前正在开发的H.266标准)的高效译码工具。
视频译码的基础
参考图1A和图1B且在例如HEVC的视频译码标准中,存在两个种类的帧(或切片,将帧划分成切片以用于译码):即帧间帧和帧内帧。在帧内帧中,块只可作为块内进行译码。参见G.J.沙利文(Sullivan)、J.-R.欧姆(Ohm)、W.-J.韩(Han)、T.韦根(Wiegand)(2012年12月)“高效视频译码(HEVC)标准的概述”(PDF),IEEE视频技术电路与系统汇刊(IEEETransactions on Circuits and Systems for Video Technology)(IEEE)22(12),检索2012-09-14(下文中称为“[1]”)。尽管在帧间帧中,但块可作为块内或块间进行译码。图1A和图1B展示帧内帧和帧间帧的实例。此处所使用的术语“块”可以是译码单元/块、预测单元/块、子PU、变换单元/块或任何其它译码结构。在本文中术语“帧”可与“图片”互换使用。
参考图2,使用帧内预测来预测作为块内译码的块,其中根据当前帧中的相邻像素(例如相邻块中的像素)来预测当前块。作为块间进行译码的块应用帧间预测,使用所述帧间预测通过经预先译码/解码帧(命名为“参考帧”)中的像素来预测当前块。在HEVC中,存在表示如图2中所展示的不同预测方向的35个帧内预测模式。在JEM中,帧内预测模式的数目增加到67。参见J.陈(Chen)、E.阿尔什纳(Alshina)、G.J.沙利文、J.-R.欧姆、J.博伊斯(Boyce),JVET-F1001,“联合探索测试模型6的算法描述”,2017年4月(下文中称为“[2]”)。
参考图3,每一经帧内译码块具有其帧内预测模式信息。对于帧间预测,根据如图3中所展示的参考帧中的一个参考块(单向预测)或两个参考块(双向预测)来使用运动补偿(MC)。每一经帧间译码块具有其运动信息,包含参考帧索引和运动向量(MV)。
参考图4,为了对帧内预测模式进行译码,将相邻块的帧内预测模式用作用于当前模式的预测模式。图4展示示范性相邻块。在HEVC中,将相邻块A和B的帧内预测模式用作用于当前块的帧内模式的预测模式。在JEM中,将更多相邻块(A0、A1、B0、B1、B2)用作用于当前模式的预测模式。如果相邻块不存在(当前块在帧的边界处)或相邻块未经帧内译码(当前帧是帧间帧但当前块经帧内译码),那么将相邻块标记为“不可用”且其帧内预测模式不用于预测当前块的帧内预测模式。
在预测之后,通常使用频率变换在编码器上生成残余(块与预测之间的差)且对所述残余进行编码。在预测之后,在解码器上,位流中的残余数据可用于重构残余,所述残余接着与解码器预测组合以生成经解码块。
运动信息
对于每一块,运动信息集合可以是可用的。运动信息集合含有用于前向和后向预测方向的运动信息。此处,前向和后向预测方向是对应于当前图片或切片的参考图片列表0(RefPicList0)和参考图片列表1(RefPicList1)的两个预测方向。术语“前向”和“后向”未必具有几何含义。实情为,其用于区分运动向量所基于的参考图片列表。前向预测意味着预测基于参考列表0形成,而后向预测意味着预测基于参考列表1形成。在参考列表0和参考列表1两者都用于形成针对给定块的预测的情况下,其称为双向预测。
对于给定图片或切片,如果仅使用一个参考图片列表,那么图片或切片内部的每一块都是前向预测的。如果两个参考图片列表都用于给定图片或切片,那么图片或切片内部的块可以是前向预测的,或后向预测的,或双向预测的。
对于每一预测方向,运动信息含有参考索引和运动向量。参考索引用于识别对应参考图片列表(例如RefPicList0或RefPicList1)中的参考图片。运动向量具有水平分量和竖直分量两者,其中每一分量分别指示沿水平和竖直方向的偏移值。在一些描述中,为简单起见,词语“运动向量”可与运动信息互换使用以指示运动向量和其相关联的参考索引两者。
POC
图片次序计数(POC)广泛用于视频译码标准中以识别图片的显示次序。尽管存在一个经译码视频序列内的两个图片可具有相同POC值的情况,但其通常不在经译码视频序列内发生。当位流中存在多个经译码视频序列时,具有相同POC值的图片可能就解码次序而言彼此更接近。
图片的POC值通常用于参考图片列表建构、参考图片集合的导出,就像在HEVC和运动向量缩放中一样。应指出,位流中的解码次序可能不同于序列的显示次序。
高级视频译码(AVC)
AVC中的MB结构
在H.264/AVC中,可将每一帧间宏块(MB)分割成四种不同方式:(a)一个16x16 MB分区;(b)两个16x8 MB分区;(c)两个8x16 MB分区;以及(d)四个8x8 MB分区。
一个MB中的不同MB分区可具有用于每一方向的不同参考索引值(RefPicList0或RefPicList1)。当MB未分割成四个8×8MB分区时,所述MB在每一方向上针对每一MB分区仅具有一个运动向量。当将MB分割成四个8×8MB分区时,每一8×8MB分区可进一步分割成子块,所述子块中的每一个可在每一方向上具有不同运动向量。存在从8x8 MB分区中获得子块的四种不同方式:(a)一个8x8子块;(b)两个8x4子块;(c)两个4x8子块;以及(d)四个4x4子块。每一子块可在每一方向上具有不同运动向量。因此,在等于高于子块的层级中存在运动向量。
AVC中的时间直接模式
在AVC中,时间直接模式可在MB或MB分区层级中启用以用于B切片中的跳过或直接模式。对于每一MB分区,使用与当前块的RefPicList1[0]中的当前MB分区并置的块的运动向量来导出运动向量。并置块中的每一运动向量是基于POC距离来缩放的。
AVC中的空间直接模式
在AVC中,直接模式还可根据空间相邻项预测运动信息。
HEVC
HEVC中的译码结构
在HEVC中,切片中的最大译码单元称为译码树块(CTB)或译码树单元(CTU)。CTB含有其节点为译码单元的四叉树。
CTB的大小可在HEVC主规范中的16x16到64x64范围内(尽管技术上可支持8x8CTB大小)。尽管译码单元(CU)可与CTB大小相同,但其可如8×8一样小。每一译码单元用一个模式译码。当CU经帧间译码时,其可进一步分割成2个或4个预测单元(PU),或当不应用进一步分割时变为仅一个PU。当两个PU存在于一个CU中时,其可为二分之一大小的矩形或具有CU的1/4或3/4大小的两个矩形大小。
当CU经帧间译码时,针对每一PU存在一个运动信息集合。此外,每一PU以唯一帧间预测模式译码以导出所述运动信息集合。每一单元包括一或多个明度或色彩分量中的每一个的块。
运动向量预测
在HEVC标准中,针对预测单元(PU)存在两个帧间预测模式,分别命名为合并(将跳过视为合并的特殊情况)和高级运动向量预测(AMVP)模式。在AMVP或合并模式中,针对多个运动向量预测符维护运动向量(MV)候选项列表。通过从MV候选项列表中获取一个候选项来生成当前PU的运动向量以及合并模式中的参考索引。
MV候选项列表含有用于合并模式的至多5个候选项和用于AMVP模式的仅两个候选项。合并候选项可含有运动信息集合,例如对应于参考图片列表(列表0和列表1)和参考索引两者的运动向量。如果通过合并索引来识别合并候选项,那么将参考图片用于当前块的预测,并且相关联的运动向量得到确定。然而,在AMVP模式下,对于来自列表0或列表1的每一潜在预测方向,需要将参考索引连同对MV候选项列表的MVP索引一起明确地传信,这是因为AMVP候选项仅含有运动向量。在AMVP模式中,可进一步优化经预测运动向量。可从上文看出,合并候选项对应于整个运动信息集合,而AMVP候选项仅含有用于特定预测方向和参考索引的一个运动向量。
以类似方式从相同空间和时间相邻块导出用于两个模式的候选项。
空间相邻候选项
图5A和图5B说明用于合并模式(图5A)和AMVP模式(图5B)的空间相邻MV候选项。
参考图5A和图5B,从针对特定PU(PU0)展示的相邻块导出空间MV候选项,然而从块中生成候选项的方法针对合并模式和AMVP模式而不同。
在合并模式中,可以图5A上所展示的带有数字的次序来导出至多四个空间MV候选项,且次序如下:左(0,A1)、上(1,B1)、右上(2,B0)、左下(3,A0)以及左上(4,B2)。换句话说,图5A说明用于合并模式的空间相邻MV候选项,而图5B说明用于AMVP模式的空间相邻MV候选项。
在AVMP模式中,如图5B中所说明,将相邻块划分成两个群组:由块0和1组成的左群组,以及如图5B上所展示的由块2、3以及4组成的上群组。对于每一群组,如由经传信的参考索引所指示的参考同一参考图片的相邻块中的潜在候选项具有最高待选优先级,以形成所述群组的最终候选项。有可能所有相邻块都不含有指向同一参考图片的运动向量。因此,如果无法找到这种候选项,那么将缩放第一可用候选项以形成最终候选项,因此可补偿时间距离差。
HEVC中的时间运动向量预测
如果经启用并且是可用的,那么在空间运动矢量候选项之后将时间运动向量预测符(TMVP)候选项添加到MV候选项列表中。对于合并模式和AMVP模式两者来说,TMVP候选项的运动向量导出的过程是相同的,然而在合并模式中用于TMVP候选项的目标参考索引始终设定成0。
图6A说明TMVP候选项且图6B说明MV缩放。
参考图6A,用于TMVP候选项导出的主块方位是如块“T”所展示的并置PU的外部的右下块,以补偿对用于生成空间相邻候选项的左上块的偏差。然而,如果所述块位于当前CTB行的外部或运动信息不可用,那么所述块被PU的中心块取代。
TMVP候选项的运动向量从在切片层级中指示的并置图片的并置PU导出。并置PU的运动向量称为并置MV。
类似于AVC中的时间直接模式,为导出TMVP候选项运动向量,并置MV需要缩放以补偿时间距离差,如图6A和图6B中所展示。
HEVC中的运动预测的其它方面
合并模式和AMVP模式的若干方面值得如下一提。运动向量缩放:假设运动向量的值与图片在呈现时间内的距离成正比。运动向量将两个图片,即参考图片与含有运动向量的图片(即含有图片(containing picture))相关联。当利用运动向量来预测另一运动向量时,基于图片次序计数(POC)值来计算含有图片与参考图片的距离。
对于待预测的运动向量,其相关联的含有图片和参考图片两者可以是不同的。因此,计算(基于POC的)新的距离。且运动向量基于这两个POC距离缩放。对于空间相邻候选项,两个运动向量的含有图片相同,而参考图片不同。在HEVC中,运动向量缩放适用于空间和时间相邻候选项的TMVP和AMVP两者。
人工运动向量候选项生成:如果运动向量候选项列表不完整,那么在列表结束时生成并插入人工运动向量候选项,直到其将具有全部候选项为止。
在合并模式中,存在两种类型的人工MV候选项:仅针对B切片导出的经组合双向预测候选项和默认固定候选项。如果第一类型未提供足够的人工候选项,那么仅将零候选项用于AMVP。
对于已经在候选项列表中且具有必要的运动信息的每一对候选项,经双向组合的运动向量候选项可通过参考列表0中的图片的第一候选项的运动向量与参考列表1中的图片的第二候选项的运动向量的组合来导出。
候选项插入的精简过程:来自不同块的候选项可能相同,这降低了合并/AMVP候选项列表的效率。精简过程可应用于解决这个问题。其将一个候选项与当前候选项列表中的其它候选项进行比较,以在一定程度上避免插入相同候选项。为了降低复杂度,仅应用有限数目的精简过程,而不是将每一潜在候选项与所有其它现有候选项进行比较。
如上文所描述,存在许多基于优先级的候选项列表。按照预定义优先级将每一候选项插入到候选项列表中。举例来说,在HEVC中,基于预定义次序(或按照预定义优先级)通过插入候选项来建构合并候选项列表、AMVP候选项列表。如图7中所展示,通过按预定义次序(A1→B1→B0→A0→B2)插入空间合并候选项来建构合并候选项列表。
图8说明HEVC中的合并候选项列表的建构的实例。如图8中的建构过程所说明,逐个检查每一空间或时间相邻块以识别所述块是否可提供可用合并候选项。术语“可用”意味着所述块存在、经帧间译码,候选项列表不完整,且块中的运动信息未经当前候选项列表中的现有候选项修剪。应注意,一个候选项仅可经修剪成当前候选项列表中的现有候选项的部分。对于B2,仅在检查A1、B1、B0以及A0之后检查其是否存在小于4个候选项。如果在检查所有空间和时间相邻块之后合并候选项列表不完整,那么将填入人工候选项以完成合并候选项列表。此处所使用的术语“块”(例如Block0到Block4以及当前块)可以是译码单元/块、预测单元/块、子PU、变换单元/块或任何其它译码结构。
提高译码效率
为了提高预测效率,实施例包含将运动信息传播到图片间中的经帧内译码块。换句话说,经帧内译码块自身可用于运动向量预测。举例来说,经帧内译码块可用于例如用于新近经译码块的合并候选项列表和AMVP列表的候选项列表的建构中。根据实施例,可分别应用以下示范性方法。根据替代性实施例,可应用示范性方法的任何组合。
图9说明经帧间译码块与经帧内译码块之间的运动传播的实例;以及经帧内译码块与经帧间译码块之间的运动传播的实例。
经帧内译码块从空间和/或时间相邻块继承运动信息,其中相邻块可以是经帧内译码和/或经帧间译码。图9展示经帧间译码块与经帧内译码块之间的运动传播的实例;以及经帧内译码块与经帧间译码块之间的运动传播的实例。
在一个实例中,相邻块是在同一切片/图块/LCU行/图片内的相邻块。
或者,相邻块可以是位于一或多个经预先译码帧中的相邻块。
经帧内译码块可从一个相邻块继承运动信息且可预定义相邻块的相对位置。
或者,可预定义大于一个相邻块的相对位置。可进一步定义规则以从多个相邻块选择一个相邻块,且经帧内译码块将从所选择的一个相邻块继承运动信息。
根据实例,每一块将在经编码/经解码之后填充有运动信息,不管其经帧内译码还是经帧间译码。
根据实例,经帧内译码块从相邻块继承运动信息,且对相邻块(从所述相邻块处继承当前经帧内译码块的运动信息)的选择是基于相邻块的译码模式。
根据实例,可定义基于优先级的方法以从相邻块选择运动信息。当经帧内译码块选择从其相邻块继承运动信息时,经帧间译码相邻块具有比经帧内译码相邻块更高的优先级。
根据实例,如果相邻块经帧内译码,那么经帧内译码块基于相邻块的帧内预测模式来从相邻块继承运动信息。
根据实例,经帧内译码块基于相邻块的运动信息来从相邻块继承运动信息。一实施例是当经帧内译码块选择从其相邻块继承运动信息时,双向预测的相邻块具有比单向预测的相邻块更高的优先级。
图10说明基于帧内预测模式来继承运动信息的实例。在图10的实例中,经帧内译码块基于当前经帧内译码块的帧内预测模式从相邻块继承运动信息。举例来说,当经帧内译码块选择从其相邻块继承运动信息时,每一相邻块的优先级取决于当前块的帧内预测模式。
图10展示如何基于当前块的帧内预测模式来继承运动信息的实例。如果帧内预测模式是DC或Planar,那么相邻块优先次序是L>T>LT>LB>TR;如果帧内预测模式是低于对角线方向的方向,那么相邻块优先级是L>LB>LT>T>TR;如果帧内预测模式是大于对角线方向的方向,那么相邻块优先级是T>TR>LT>L>LB。
图11说明从时间相邻块继承运动信息的实例。经帧内译码块的运动信息可从时间相邻块传播。举例来说,经帧内译码块可从并置块中的其并置块继承运动信息。图11展示从时间相邻块传播的实例。虚拟参考块在参考图片中以虚拟运动向量定位。当前块可从虚拟参考块继承运动信息。可预定义虚拟运动向量,或其可从空间或时间相邻块继承。
如下描述用以继承图片间中的经帧内译码块的运动信息的示范性方法。
首先,访问五个空间相邻块:L、T、TR、LB、LT。检查每一相邻块其是否可用。此外,在一个实例中,当前切片/图块/LCU行外部的相邻块定义成不可用且将不使用。
接下来,将可用相邻块分类成两个类别:1类和2类。如果相邻块经帧间译码,那么将其分类成1类;否则(也就是相邻块经帧内译码),将其分类成2类。
接下来,基于当前块的帧内预测模式来构建优先级次序列表(POL)。举例来说,存在可为可能的不同POL:(i)如果帧内预测模式是DC或Planar,那么POL={L,T,LT};(ii)如果帧内预测模式是低于对角线方向的方向,那么POL={L,LB,LT};且(iii)如果帧内预测模式是大于对角线方向的方向,那么POL={T,TR,LT}。
接下来,逐个检查POL中的每一相邻块且找出1类中的第一个。如果我们可找出1类中的第一个,那么从这一个继承运动信息且停止算法。
接下来,逐个检查POL中的每一相邻块且找出2类中的第一个。如果我们可找出2类中的第一个,那么从这一个继承运动信息且停止算法。
接下来,如果未填充当前块的运动信息,那么填入默认运动信息。举例来说,具有对参考列表0的参考索引=0的零运动可以是默认的一个运动信息。对于B图片,具有对参考列表0的参考索引=0的零运动和具有对参考列表1的参考索引=0的零运动的双向预测可以是默认的一个运动信息。
根据实施例,经帧内译码块的运动信息填充有用于当前经帧内译码块的合并列表的第一候选项的运动信息。
根据实施例,运动传播可在子块层级上进行。子块是小于当前块的M×N块。举例来说,子块大小可以是4×4、4×8、8×4 8×8等。当前块由X个非交叠子块组成。运动信息可在块与子块之间传播。此外,运动信息可在子块与子块之间传播。
根据实施例,经帧内译码块中的继承的运动信息可用于运动向量预测中。举例来说,其可用于建构用于新近经译码块的合并候选项列表和/或AMVP候选项列表。
图12说明用继承的运动信息构建合并候选项列表的实例。
根据另一实例,当构建候选项列表时,插入到候选项列表中的来自空间或相邻块的运动信息的次序可取决于其是否是来自经帧间译码块的原始信息,或其是否是来自经帧内译码块的继承的信息。
原始信息(即,与经帧间译码块相关联)和继承的运动信息(即,与经帧内译码块相关联)可具有不同优先级。可首先将具有更高优先级的运动信息添加到候选项列表。
在一个实例中,原始信息始终比继承的运动信息具有更高优先级。图12展示用继承的运动信息构建合并候选项列表的实例。术语“帧内有效(intra-valid)”意味着相邻块存在、经帧内译码,且当前块的候选项列表不完整,且相邻块中的继承的运动信息未经当前候选项列表中的现有候选项修剪。在普通TMVP候选项之后,检查空间和时间相邻块是否是帧内有效。如果相邻块是帧内有效,那么将相邻块的继承的运动信息附加到合并候选项列表中。
图13说明用继承的运动信息构建合并候选项列表的另一实例。在一个实例中,与空间相邻块相关联的原始信息可具有比继承的运动信息更高的优先级,而继承的运动信息可具有比与时间相邻块相关联的原始信息更高的优先级。图13展示用继承的运动信息构建合并候选项列表的另一实例。在检查普通空间候选项之后检查空间相邻块是否是帧内有效。在检查普通TMVP候选项之后检查时间相邻块是否是帧内有效。
在一个实例中,除针对优先级定义考虑原始或继承的运动信息之外,可进一步考虑相邻块的相对位置。检查次序的实例是:可用A1/B1/B0/A0块、帧内有效A1/B1/B0/A0块、可用B2、帧内有效B2、TMVP。
在一个实例中,继承的运动信息可具有比人工运动信息更高的优先级。在另一实例中,继承的运动信息可具有比来自非空间相邻和/或非时间相邻块的运动信息更高的优先级。
根据另一实例,继承的运动信息可仅存储且用于对当前切片/图块/图片进行译码。或者,对于参考图片,也可存储和使用继承的运动信息。
图14是说明可实施本公开中所描述的技术的实例视频编码器20的框图。视频编码器20可进行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空间预测以减少或去除给定视频帧或图片内的视频的空间冗余。帧间译码依赖于时间预测以减少或去除视频序列的相邻帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的压缩模式中的任一个。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的压缩模式中的任一个。
在图14的实例中,视频编码器20包含视频数据存储器33、分割单元35、预测处理单元41、求和器50、变换处理单元52、量化单元54、熵编码单元56。预测处理单元41包含运动估计单元(MEU)42、运动补偿单元(MCU)44以及帧内预测单元46。对于视频块重构,视频编码器20还包含逆量化单元58、逆变换处理单元60、求和器62、滤波器单元64以及经解码图片缓冲器(DPB)66。
如图14中所展示,视频编码器20接收视频数据并将接收到的视频数据存储在视频数据存储器33中。视频数据存储器33可存储待由视频编码器20的组件进行编码的视频数据。可例如从视频源18获得存储在视频数据存储器33中的视频数据。DPB 66可以是参考图片存储器,其存储参考视频数据以用于通过视频编码器20例如在帧内或帧间译码模式中对视频数据进行编码。视频数据存储器33和DPB 66可由各种存储器装置中的任一个形成,例如包含同步DRAM(SDRAM)的动态随机存取存储器(DRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM),或其它类型的存储器装置。视频数据存储器33和DPB 66可由同一存储器装置或单独存储器装置提供。在各种实例中,视频数据存储器33可与视频编码器20的其它组件一起位于芯片上,或相对于那些组件在芯片外。
分割单元35从视频数据存储器33检索视频数据并将视频数据分割成视频块。这一分割还可包含分割成切片、图块或其它较大单元,以及例如根据LCU和CU的四叉树结构的视频块分割。视频编码器20大体说明对待编码的视频切片内的视频块进行编码的组件。所述切片可划分成多个视频块(且有可能划分成称为图块的视频块的集合)。预测处理单元41可基于误差结果(例如,译码速率和失真度)为当前视频块选择多个可能的译码模式中的一个,例如多个帧内译码模式中的一个或多个帧间译码模式中的一个。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以生成残余块数据,并提供到求和器62以重构经编码块以用作参考图片。预测处理单元41可以是处理器的部分,所述处理器可配置成根据帧内预测模式为图片的块生成第一预测块,以及根据帧间预测模式为图片的块生成第二预测块。在生成第一和第二预测块之后,预测处理单元41可配置成基于来自第二预测块的运动信息将运动信息传播到第一预测块,以及基于第一预测块与第二预测块的组合为图片的块生成最终预测块。在实例中,第一预测块用于候选项列表的建构中。候选项列表可以是合并候选项列表,或替代性地,候选项列表可以是AMVP列表。
在实例中,第一预测块和第二预测块是相邻块。在另一实例中,第一预测块和第二预测块是空间相邻块。在另一实例中,第一预测块和第二预测块是时间相邻块。在另一实例中,相邻块在同一以下者的群组内:切片或图块或LCU或ROW或图片。在另一实例中,相邻块位于一或多个经预先译码帧中。此外,第一预测块从第二预测块继承运动信息,且预定义第二预测块相对于第一预测块的相对位置。此外,第二预测块是根据预定规则由多个相邻块中选出。
预测处理单元41内的帧内预测单元46可相对于与待译码的当前块在同一帧或切片中的一或多个相邻块而进行当前视频块的帧内预测性译码,以提供空间压缩。预测处理单元41内的运动估计单元42和运动补偿单元44相对于一或多个参考图片中的一或多个预测性块而进行当前视频块的帧间预测性译码以提供时间压缩。
运动估计单元42可配置成根据用于视频序列的预定模式来确定用于视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片或B切片。运动估计单元42与运动补偿单元44可高度集成,但出于概念目的而分别加以说明。通过运动估计单元42进行的运动估计是生成运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测性块的位移。
预测性块是发现在像素差方面与待译码的视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中,视频编码器20可计算存储在DPB 66中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置和分数像素位置进行运动搜索且输出具有分数像素精度的运动向量。
运动估计单元42通过比较经帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置来计算所述PU的运动向量。
参考图片可由第一参考图片列表(列表0)或第二参考图片列表(列表1)中选出,所述列表中的每一个识别存储在DPB 66中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56和运动补偿单元44。
通过运动补偿单元44进行的运动补偿可涉及基于通过运动估计(可能进行对子像素精度的内插)确定的运动向量来提取或生成预测性块。在接收当前视频块的PU的运动向量后,运动补偿单元44可在参考图片列表中的一个中定位所述运动向量指向的预测性块。视频编码器20通过从正经译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像素差值。像素差值形成用于所述块的残余数据,且可包含明度和色度差分量两者。求和器50表示进行这一减法运算的一或多个组件。运动补偿单元44还可生成与视频块和视频切片相关联的语法元素,以供视频解码器30在对视频切片的视频块进行解码时使用。
在预测处理单元41经由帧内预测或帧间预测为当前视频块生成预测性块之后,视频编码器20通过从当前视频块减去所述预测性块来形成残余视频块。残余块中的残余视频数据可包含在一或多个TU中并应用到变换处理单元52。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似的变换的变换来将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域,例如频域。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步降低位速率。量化过程可减小与所述系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着对包含经量化变换系数的矩阵进行扫描。在另一实例中,熵编码单元56可进行扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可进行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在由熵编码单元56进行熵编码后,可将经编码位流发射到视频解码器30,或将经编码位流存档以供稍后由视频解码器30发射或检索。熵编码单元56还可对正经译码的当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换来重构像素域中的残余块,以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块加到参考图片列表中的一个内的参考图片中的一个的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构残余块以计算供用于运动估计中的子整数像素值。求和器62将经重构残余块加到由运动补偿单元44产生的运动补偿预测块,从而产生经重构块。
滤波器单元64对经重构块(例如,求和器62的输出)进行滤波且将经滤波的经重构块存储在DPB 66中以用作参考块。参考块可供运动估计单元42和运动补偿单元44用作参考块,以对后续视频帧或图片中的块进行帧间预测。滤波器单元64可进行任何类型的滤波,例如解块滤波、SAO滤波、ALF和/或GALF,和/或其它类型的环路滤波器。举例来说,解块滤波器可应用解块滤波对块边界进行滤波,以从经重构视频去除成块效应假影。SAO滤波器可将偏移应用于经重构像素值以便改善整体译码质量。也可使用额外环路滤波器(在环路或后环路中)。
图15是说明可实施本公开中所描述的技术的实例视频解码器30的框图。图8的视频解码器30可例如配置成接收上文关于图14的视频编码器20所描述的信令。在图15的实例中,视频解码器30包含视频数据存储器78、熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、求和器90以及DPB 94。预测处理单元81包含运动补偿单元82和帧内预测单元84。在一些实例中,视频解码器30可进行与相对于来自图7的视频编码器20所描述的编码遍次大体上互逆的解码遍次。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联的语法元素的经编码视频位流。视频解码器30将接收到的经编码视频位流存储在视频数据存储器78中。视频数据存储器78可存储待由视频解码器30的组件解码的视频数据,例如经编码视频位流。存储在视频数据存储器78中的视频数据可例如经由链路16从存储装置26或从例如相机的本地视频源或通过存取物理数据存储媒体来获得。视频数据存储器78可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。DPB94可以是参考图片存储器,所述参考图片存储器存储例如在帧内或帧间译码模式中用于通过视频解码器30对视频数据进行解码的参考视频数据。视频数据存储器78和DPB 94可由各种存储器装置中的任一个形成,例如DRAM、SDRAM、MRAM、RRAM或其它类型的存储器装置。视频数据存储器78和DPB 94可由同一存储器装置或单独存储器装置提供。在各种实例中,视频数据存储器78可与视频解码器30的其它组件一起位于芯片上,或相对于那些组件在芯片外。
视频解码器30的熵解码单元80对存储在视频数据存储器78中的视频数据进行熵解码以生成经量化系数、运动向量以及其它语法元素。熵解码单元80将运动向量和其它语法元素转发到预测处理单元81。视频解码器30可接收视频切片层级和/或视频块层级处的语法元素。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测单元84可基于传信的帧内预测模式和来自当前帧或图片的经预先解码块的数据来为当前视频切片的视频块生成预测数据。当视频帧经译码为经帧间译码切片(例如B切片或P切片)时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收到的运动向量和其它语法元素来为当前视频切片的视频块产生最终所生成预测性块。最终所生成预测性块可由参考图片列表中的一个内的参考图片中的一个产生。预测处理单元81可以是处理器的部分,所述处理器可配置成根据帧内预测模式来为图片的块重构第一预测块,以及根据帧间预测模式来为图片的块重构第二预测块。在生成第一和第二预测块之后,预测处理单元81可配置成基于来自所生成第二预测块的运动信息将运动信息传播到第一所生成预测块,以及基于第一预测块与第二预测块的组合来为图片的块生成最终所生成预测块。在实例中,第一所生成预测块用于候选项列表的建构中。候选项列表可以是合并候选项列表,或替代性地,候选项列表可以是AMVP列表。
在实例中,第一预测块和第二预测块是相邻块。在另一实例中,第一预测块和第二预测块是空间相邻块。在另一实例中,第一预测块和第二预测块是时间相邻块。在另一实例中,相邻块在同一以下者的群组内:切片或图块或LCU或ROW或图片。在另一实例中,相邻块位于一或多个经预先译码帧中。此外,第一预测块从第二预测块继承运动信息,且预定义第二预测块相对于第一预测块的相对位置。此外,第二预测块是根据预定规则由多个相邻块中选出。
视频解码器30可基于存储在DPB 94中的参考图片使用默认建构技术来建构参考帧列表(列表0和列表1)。
逆量化单元86对提供于位流中且由熵解码单元80解码的经量化变换系数进行逆量化(即,解量化)。逆量化过程可包含使用由视频编码器20针对视频切片中的每一视频块计算出的量化参数来确定量化程度且同样确定应应用的逆量化程度。逆变换处理单元88将逆变换(例如逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数,以便产生像素域中的残余块。
在预测处理单元使用例如帧内或帧间预测为当前视频块生成预测性块之后,视频解码器30通过对来自逆变换处理单元88的残余块与通过运动补偿单元82生成的对应预测性块进行求和来形成经重构视频块。求和器90表示可进行这一求和运算的一或多个组件。
滤波器单元92对经重构块(例如求和器90的输出)进行滤波且将经滤波的经重构块存储在DPB 94中以供用作参考块。所述参考块可由运动补偿单元82用作用以对后续视频帧或图片中的块进行帧间预测的参考块。滤波器单元92可进行任何类型的滤波,例如解块滤波、SAO滤波、ALF和/或GALF,和/或其它类型的环路滤波器。举例来说,解块滤波器可应用解块滤波对块边界进行滤波,以从经重构视频去除成块效应假影。SAO滤波器可将偏移应用于经重构像素值以便改善整体译码质量。也可使用额外环路滤波器(在环路或后环路中)。
图16是说明根据本公开的技术的实例视频解码过程的流程图。如图16中所说明,一种用于对当前译码图片中的视频数据的当前块进行解码的装置,所述装置包括:存储器,其配置成存储视频数据;以及处理器,其配置成:120根据帧内预测模式来为当前图片中的视频数据的当前块生成第一预测块122。处理器可配置成根据帧间预测模式来为当前图片图片中的视频数据的当前块生成第二预测块124。此外,处理器可配置成生成从图片的第二预测块传播到第一预测块的运动信息126。此外,处理器可配置成:使用所确定的运动信息来获得最终预测块;128以及基于最终预测块与残余块的组合来生成经重构块130。
在一或多个实例中,所描述功能可在硬件、软件、固件或其任何组合中实施。如果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或发射,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体或通信媒体,所述通信媒体包含有助于例如根据通信协议将计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本公开中所描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
本文中所描述的技术可在硬件、软件、固件或其任何组合中实施。这种技术可实施于各种装置中的任一个中,例如通用计算机、无线通信装置手持机或集成电路装置,所述集成电路装置具有包含在无线通信装置手持机和其它装置中的应用的多种用途。描述为模块或组件的任何特征可一起实施于集成逻辑装置中或单独实施为离散但可互操作的逻辑装置。如果在软件中实施,那么所述技术可至少部分地由包括程序代码的计算机可读数据存储媒体来实现,所述程序代码包含在执行时进行上文所描述的方法中的一或多个的指令。计算机可读数据存储媒体可形成计算机程序产品的部分,其可包含封装材料。计算机可读媒体可包括存储器或数据存储媒体,例如随机存取存储器(RAM)(例如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存存储器、磁性或光学数据存储媒体以及其类似物。另外或替代地,所述技术可至少部分地由计算机可读通信媒体来实现,所述计算机可读通信媒体以指令或数据结构的形式载运或传达程序代码且可由计算机存取、读取和/或执行,例如传播的信号或波。
程序代码可由处理器执行,所述处理器可包含一或多个处理器,例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。这种处理器可配置成进行本公开中所描述的技术中的任一个。通用处理器可以是微处理器;但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心结合的一或多个微处理器,或任何其它这种配置。因此,如本文中所使用的术语“处理器”可指前述结构中的任一个、前述结构的任何组合,或适合于实施本文中所描述的技术的任何其它结构或设备。此外,在一些方面中,可将本文中所描述的功能性提供于配置用以编码和解码的专用软件模块或硬件模块内,或并入经组合的视频编码器-解码器(CODEC)中。
本文中所论述的译码技术可以是实例视频编码和解码系统中的实施例。系统包含提供待在稍后时间由目的地装置解码的经编码视频数据的源装置。特定来说,源装置经由计算机可读媒体将视频数据提供到目的地装置。源装置和目的地装置可包括广泛范围的装置中的任一个,包含台式计算机、笔记本(即,手提式)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置或其类似物。在一些情况下,源装置和目的地装置可经装备以用于无线通信。
目的地装置可经由计算机可读媒体接收待解码的经编码视频数据。计算机可读媒体可包括能够将经编码视频数据从源装置移动到目的地装置的任何类型的媒体或装置。在一个实例中,计算机可读媒体可包括使得源装置能够实时将经编码视频数据直接发射到目的地装置的通信媒体。经编码视频数据可根据通信标准(例如无线通信协议)加以调制,且发射到目的地装置。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)谱或一或多个物理发射线。通信媒体可形成基于包的网络(例如局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换机、基站或可用于促进从源装置到目的地装置的通信的任何其它仪器。
在一些实例中,经编码数据可从输出接口输出到存储装置。类似地,经编码数据可由输入接口从存储装置存取。存储装置可包含各种分布式或本地存取式数据存储媒体中的任一个,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另外实例中,存储装置可对应于文件服务器或可存储由源装置生成的经编码视频的另一中间存储装置。目的地装置可经由串流或下载从存储装置存取所存储视频数据。文件服务器可以是能够存储经编码视频数据并且将经编码视频数据发射到目的地装置的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含适合于存取存储在文件服务器上的经编码视频数据的无线信道(例如Wi-Fi连接)、有线连接(例如DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可以是串流发射、下载发射或其组合。
本公开的技术不必限于无线应用或设定。所述技术可应用于支持各种多媒体应用中的任一个的视频译码,例如空中电视广播、有线电视发射、卫星电视发射、因特网串流视频发射(例如HTTP动态自适应串流(DASH))、经编码到数据存储媒体上的数字视频、对存储在数据存储媒体上的数字视频进行解码,或其它应用。在一些实例中,系统可配置成支持单向或双向视频发射,以支持例如视频串流、视频重放、视频广播和/或视频电话的应用。
在一个实例中,源装置包含视频源、视频编码器以及输出接口。目的地装置可包含输入接口、视频解码器以及显示装置。源装置的视频编码器可配置成应用本文中所公开的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置可从外部视频源(例如外部相机)接收视频数据。同样,目的地装置可与外部显示装置介接,而非包含集成显示装置。
以上实例系统仅是一个实例。用于并行处理视频数据的技术可由任何数字视频编码和/或解码装置进行。尽管本公开的技术通常通过视频编码装置进行,但所述技术也可通过视频编码器/解码器(通常称为“CODEC”)进行。此外,本公开的技术还可通过视频预处理器进行。源装置和目的地装置仅为源装置在其中生成经译码视频数据以用于发射到目的地装置的这种译码装置的实例。在一些实例中,源装置和目的地装置可以基本上对称方式操作,使得所述装置中的每一个包含视频编码和解码组件。因此,实例系统可支持视频装置之间的单向或双向视频发射,例如用于视频串流、视频重放、视频广播或视频电话的视频装置。
视频源可包含视频俘获装置,例如摄像机、含有所预先俘获视频的视频存档和/或用以从视频内容提供者接收视频的视频馈入接口。作为另外替代方案,视频源可生成基于计算机图形的数据作为源视频,或实况视频、存档视频与计算机生成的视频的组合。在一些情况下,如果视频源是摄像机,那么源装置和目的地装置可形成所谓的相机电话或视频电话。然而,如上文所提及,本公开中所描述的技术通常可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可由视频编码器对所俘获、所预先俘获或计算机生成的视频进行编码。经编码视频信息可随后通过输出接口输出到计算机可读媒体上。
如所提及,计算机可读媒体可包含暂时性媒体,例如无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如硬盘、闪存驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未展示)可从源装置接收经编码视频数据且例如经由网络发射将经编码视频数据提供到目的地装置。类似地,媒体生产设施(例如光盘冲压设施)的计算装置可从源装置接收经编码视频数据并产生含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置的输入接口从计算机可读媒体接收信息。计算机可读媒体的信息可包含由视频编码器定义的语法信息,其也由视频解码器使用,且包含描述块和其它经译码单元(例如图片群组(GOP))的特性和/或处理的语法元素。显示装置向用户显示经解码视频数据,且可包括各种显示装置中的任一个,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
已描述各种实例。这些和其它实例在随附权利要求书的范围内。
Claims (30)
1.一种用于对当前译码图片中的视频数据的当前块进行解码的装置,所述装置包括:
存储器,其配置成存储视频数据;以及
处理器,其配置成:
根据帧内预测模式为所述当前图片中的所述视频数据的所述当前块生成第一预测块;
根据帧间预测模式为所述当前图片所述图片中的所述视频数据的所述当前块生成第二预测块;
生成从所述图片的所述第二预测块传播到所述第一预测块的运动信息;
使用所述运动信息来获得最终预测块;以及
基于所述最终预测块与残余块的组合来生成经重构块。
2.根据权利要求1所述的装置,其中所述第一预测块用于候选项列表的建构中。
3.根据权利要求2所述的装置,其中所述候选项列表是合并候选项列表。
4.根据权利要求2所述的装置,其中所述候选项列表是AMVP列表。
5.根据权利要求1所述的装置,其中所述第一预测块和所述第二预测块是相邻块。
6.根据权利要求5所述的装置,其中所述第一预测块和所述第二预测块是空间相邻块。
7.根据权利要求5所述的装置,其中所述第一预测块和所述第二预测块是时间相邻块。
8.根据权利要求5所述的装置,其中所述相邻块在同一以下者的群组内:切片或图块或LCU或ROW或图片。
9.根据权利要求5所述的装置,其中所述相邻块位于一或多个经预先译码帧中。
10.根据权利要求1所述的装置,其中预定义所述第二预测块相对于所述第一预测块的相对位置。
11.根据权利要求1所述的装置,其中所述第二预测块是根据预定规则由多个相邻块中选出。
12.根据权利要求1所述的装置,其中在子块层级上进行所传播的所述运动信息。
13.一种处理视频数据的方法,其包括:
根据帧内预测模式来为图片的块生成第一预测块;
根据帧间预测模式为所述图片的所述块生成第二预测块;
基于来自所述第二预测块的运动信息将运动信息传播到所述第一预测块;以及
基于所述第一预测块与所述第二预测块的组合来为所述图片的所述块生成最终预测块。
14.根据权利要求13所述的方法,其中所述第一预测块用于候选项列表的建构中。
15.根据权利要求14所述的方法,其中所述候选项列表是合并候选项列表。
16.根据权利要求14所述的方法,其中所述候选项列表是AMVP列表。
17.根据权利要求13所述的方法,其中所述第一预测块和所述第二预测块是相邻块。
18.根据权利要求17所述的方法,其中所述第一预测块和所述第二预测块是空间相邻块。
19.根据权利要求17所述的方法,其中所述第一预测块和所述第二预测块是时间相邻块。
20.根据权利要求17所述的方法,其中所述相邻块在同一以下者的群组内:切片或图块或LCU或ROW或图片。
21.根据权利要求17所述的方法,其中所述相邻块位于一或多个经预先译码帧中。
22.根据权利要求13所述的方法,其中所述第一预测块从所述第二预测块继承运动信息,且其中预定义所述第二预测块相对于所述第一预测块的相对位置。
23.根据权利要求13所述的方法,其中所述第二预测块是根据预定规则由多个相邻块中选出。
24.根据权利要求23所述的方法,其中在子块层级上进行所传播的所述运动信息。
25.根据权利要求13所述的方法,其中在对前一块进行编码之后进行所述运动信息的传播。
26.根据权利要求13所述的方法,其中在对前一块进行解码之后进行所述运动信息的所述传播。
27.一种用于对当前译码图片中的视频数据的当前块进行编码的装置,所述装置包括:
存储器,其配置成存储视频数据;以及
处理器,其配置成:
根据帧内预测模式为所述当前图片中的所述视频数据的所述当前块生成第一预测块;
根据帧间预测模式为所述当前图片所述图片中的所述视频数据的所述当前块生成第二预测块;
生成从所述图片的所述第二预测块传播到所述第一预测块的运动信息;
使用所述运动信息来获得最终预测块;以及
基于所述最终预测块与残余块的组合来生成经重构块。
28.根据权利要求27所述的装置,其中所述第一预测块用于合并候选项列表的建构中。
29.根据权利要求27所述的装置,其中所述第一预测块用于AMVP列表的建构中。
30.一种在上面存储有指令的计算机可读媒体,所述指令在由处理器执行时进行:
根据帧内预测模式为图片的块生成第一预测块;
根据帧间预测模式为所述图片的所述块生成第二预测块;
基于来自所述第二预测块的运动信息将运动信息传播到所述第一预测块;以及
基于所述第一预测块与所述第二预测块的组合来为所述图片的所述块生成最终预测块。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762525075P | 2017-06-26 | 2017-06-26 | |
US62/525,075 | 2017-06-26 | ||
US16/011,340 US10687077B2 (en) | 2017-06-26 | 2018-06-18 | Motion information propagation in video coding |
US16/011,340 | 2018-06-18 | ||
PCT/US2018/038804 WO2019005584A1 (en) | 2017-06-26 | 2018-06-21 | PROPAGATION OF MOVEMENT INFORMATION IN VIDEO CODING |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110741639A true CN110741639A (zh) | 2020-01-31 |
CN110741639B CN110741639B (zh) | 2023-12-01 |
Family
ID=64692948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880037753.6A Active CN110741639B (zh) | 2017-06-26 | 2018-06-21 | 视频译码中的运动信息传播 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10687077B2 (zh) |
CN (1) | CN110741639B (zh) |
WO (1) | WO2019005584A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020003283A1 (en) | 2018-06-29 | 2020-01-02 | Beijing Bytedance Network Technology Co., Ltd. | Conditions for updating luts |
JP7193629B2 (ja) | 2018-06-29 | 2022-12-20 | 北京字節跳動網絡技術有限公司 | 更新されるべき若しくは更新しない何れかのlut |
CN114885173A (zh) | 2018-06-29 | 2022-08-09 | 抖音视界(北京)有限公司 | Lut中的运动候选的检查顺序 |
TWI744661B (zh) | 2018-06-29 | 2021-11-01 | 大陸商北京字節跳動網絡技術有限公司 | 要根據模式檢查的查找表中的運動候選的數量 |
TWI719525B (zh) | 2018-06-29 | 2021-02-21 | 大陸商北京字節跳動網絡技術有限公司 | Lut與amvp之間的交互 |
KR20210025537A (ko) | 2018-06-29 | 2021-03-09 | 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 | 하나 또는 다수의 룩업 테이블들을 사용하여 이전에 코딩된 모션 정보를 순서대로 저장하고 이를 사용하여 후속 블록들을 코딩하는 개념 |
CN110662063B (zh) * | 2018-06-29 | 2020-12-15 | 北京字节跳动网络技术有限公司 | 视频处理方法、装置和计算机可读存储介质 |
EP3791585A1 (en) | 2018-06-29 | 2021-03-17 | Beijing Bytedance Network Technology Co. Ltd. | Partial/full pruning when adding a hmvp candidate to merge/amvp |
CN110662039B (zh) | 2018-06-29 | 2022-06-07 | 北京字节跳动网络技术有限公司 | 查找表的更新:fifo、约束的fifo |
WO2020008352A1 (en) | 2018-07-02 | 2020-01-09 | Beijing Bytedance Network Technology Co., Ltd. | Update of look-up tables |
CN111064959B (zh) | 2018-09-12 | 2023-09-01 | 北京字节跳动网络技术有限公司 | 要检查多少个hmvp候选 |
EP3888355A4 (en) | 2019-01-10 | 2022-03-23 | Beijing Bytedance Network Technology Co., Ltd. | LOOKUP TABLE UPDATE INVOCATION |
CN113383554B (zh) | 2019-01-13 | 2022-12-16 | 北京字节跳动网络技术有限公司 | LUT和共享Merge列表之间的交互 |
CN113302937B (zh) | 2019-01-16 | 2024-08-02 | 北京字节跳动网络技术有限公司 | 运动候选推导 |
WO2020177118A1 (en) * | 2019-03-07 | 2020-09-10 | Alibaba Group Holding Limited | Subsampled residual coding for video compression system |
CN113615193B (zh) | 2019-03-22 | 2024-06-25 | 北京字节跳动网络技术有限公司 | Merge列表构建和其他工具之间的交互 |
US20230108504A1 (en) * | 2021-10-04 | 2023-04-06 | Tencent America LLC | On geometric partition mode with intra and inter prediction |
WO2023194106A1 (en) * | 2022-04-07 | 2023-10-12 | Interdigital Ce Patent Holdings, Sas | Motion information parameters propagation based on intra prediction direction |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008093936A1 (en) * | 2007-01-29 | 2008-08-07 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding video and method and apparatus for decoding video |
WO2012119777A1 (en) * | 2011-03-09 | 2012-09-13 | Canon Kabushiki Kaisha | Video encoding and decoding |
US20120269270A1 (en) * | 2011-04-20 | 2012-10-25 | Qualcomm Incorporated | Motion vector prediction in video coding |
CN103370940A (zh) * | 2010-12-14 | 2013-10-23 | 吴秀美 | 帧间预测编码的运动画面的解码方法 |
CN104704833A (zh) * | 2012-09-19 | 2015-06-10 | 高通股份有限公司 | 多视图或3维视频译码中的高级视图间残差预测 |
CN105144715A (zh) * | 2013-04-10 | 2015-12-09 | 高通股份有限公司 | 后向视图合成预测 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180041211A (ko) * | 2015-09-10 | 2018-04-23 | 엘지전자 주식회사 | 인터-인트라 병합 예측 모드 기반 영상 처리 방법 및 이를 위한 장치 |
-
2018
- 2018-06-18 US US16/011,340 patent/US10687077B2/en active Active
- 2018-06-21 WO PCT/US2018/038804 patent/WO2019005584A1/en active Application Filing
- 2018-06-21 CN CN201880037753.6A patent/CN110741639B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008093936A1 (en) * | 2007-01-29 | 2008-08-07 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding video and method and apparatus for decoding video |
CN103370940A (zh) * | 2010-12-14 | 2013-10-23 | 吴秀美 | 帧间预测编码的运动画面的解码方法 |
WO2012119777A1 (en) * | 2011-03-09 | 2012-09-13 | Canon Kabushiki Kaisha | Video encoding and decoding |
US20120269270A1 (en) * | 2011-04-20 | 2012-10-25 | Qualcomm Incorporated | Motion vector prediction in video coding |
CN104704833A (zh) * | 2012-09-19 | 2015-06-10 | 高通股份有限公司 | 多视图或3维视频译码中的高级视图间残差预测 |
CN105144715A (zh) * | 2013-04-10 | 2015-12-09 | 高通股份有限公司 | 后向视图合成预测 |
Also Published As
Publication number | Publication date |
---|---|
US20180376164A1 (en) | 2018-12-27 |
US10687077B2 (en) | 2020-06-16 |
WO2019005584A1 (en) | 2019-01-03 |
CN110741639B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110741639B (zh) | 视频译码中的运动信息传播 | |
JP7342115B2 (ja) | 履歴ベースの動きベクトル予測子の改善 | |
EP3275188B1 (en) | Motion vector derivation in video coding | |
CN111567043B (zh) | 对视频数据进行译码的方法、装置和计算机可读存储介质 | |
KR102723082B1 (ko) | 비디오 코딩을 위한 중첩 모션 보상 | |
KR101773693B1 (ko) | 스킵 및 직접 모드들에 대한 3d 비디오 코딩에서의 디스패리티 벡터 유도 | |
KR20200108432A (ko) | 개선된 디코더측 모션 벡터 도출 | |
KR20190041480A (ko) | 후보 리스트들의 구성을 위한 지오메트리 기반의 우선순위 | |
CN110771164A (zh) | 视频译码中的帧间预测与帧内预测的组合 | |
KR20180016390A (ko) | 비디오 코딩을 위한 조명 보상 상태를 결정하는 시스템들 및 방법들 | |
KR20180016389A (ko) | 비디오 코딩을 위한 조명 보상 상태를 결정하는 시스템들 및 방법들 | |
KR20190008230A (ko) | 비디오 코딩에서 적응적 루프 필터링에서의 다중 필터들의 혼동 | |
JP2015529065A (ja) | スケーラブルビデオコーディングおよび3dビデオコーディングのための多重仮説動き補償 | |
EP3891988A1 (en) | Spatio-temporal motion vector prediction patterns for video coding | |
CN114402617A (zh) | 利用矢量裁剪的仿射译码 | |
KR102725370B1 (ko) | 디코더 측 모션 벡터 도출에 의해 도출된 모션 벡터 정보의 제약 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |