CN104956676A

CN104956676A - 层间语法预测控制

Info

Publication number: CN104956676A
Application number: CN201480006704.8A
Authority: CN
Inventors: 瓦迪姆·谢廖金; 陈颖
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-02-01
Filing date: 2014-01-29
Publication date: 2015-09-30
Anticipated expiration: 2034-01-29
Also published as: EP2951997A1; CN104956676B; JP2016509436A; JP6526574B2; US10129550B2; US20140219363A1; KR102282331B1; WO2014120721A1; KR20150111982A

Abstract

一种根据某些方面的用于译码视频信息的设备包含存储器单元及与所述存储器单元通信的处理器。所述存储器单元经配置以存储与基础层、增强层或两者相关联的视频信息。所述处理器操作性地耦合到所述存储器单元，且经配置以提供经配置以启用或停用层间语法预测的第一指示符且提供经配置以启用或停用层间纹理预测的第二指示符。所述第一指示符与所述第二指示符可彼此分离地提供。在一个实施例中，所述处理器经进一步配置以至少部分地基于指示与所述基础层相关联的编解码器的信息而停用层间语法预测。

Description

层间语法预测控制

技术领域

本发明涉及视频译码及压缩的区域。明确地说，其涉及高效率视频译码(HEVC)及其扩展，例如可缩放视频译码(SVC)、多视图视频及3D译码(MVC、3DV)，等。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码摄像机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频写码技术，例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所定义的标准、目前正在开发的高效率视频译码(HEVC)标准及此些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频译码技术而更有效率地发射、接收、编码、解码及/或存储数字视频信息。

视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码，视频切片(即，视频帧或视频帧的一部分)可分割成视频块，视频块还可被称作树块、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测编码图片的经帧内译码(I)切片中的视频块。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可称为帧，且参考图片可称为参考帧。

空间或时间预测导致译码块的预测性块。残差数据表示待译码原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残差数据来编码。经帧内译码块是根据帧内译码模式及残差数据来编码。为了进一步压缩，可将残差数据从像素域变换到变换域，从而产生残差变换系数，接着可对残差变换系数进行量化。可扫描最初布置为二维阵列的经量化的变换系数，以便产生变换系数的一维向量，且可应用熵译码以实现更多压缩。

在一些情形中，需要对于特定基础层编解码器(例如，HEVC，等)实现从基础层进行的一种类型的预测(称为层间语法预测(包含运动信息))。然而，当前SHVC(HEVC的可缩放扩展)设计不提供指示是否允许从基础层的此预测的机制。

发明内容

一般来说，本发明描述与可缩放视频译码(SVC)有关的技术。下文描述的技术提供用以指示对于特定基础层编解码器(例如，HEVC，等)是否允许层间语法预测(包含运动信息)的机制。

在一个实施例中，提供一种用于编码或解码视频信息的设备。所述设备包含经配置以存储与基础层及/或增强层相关联的视频信息的存储器单元。所述设备还包含操作性地耦合到所述存储器单元的处理器。所述处理器经配置以提供经配置以启用或停用层间语法预测的第一指示符。所述处理器还经配置以提供经配置以启用或停用层间纹理预测的第二指示符。所述第一指示符与所述第二指示符可彼此分离地提供。在另一实施例中，所述处理器经配置以提供所述第一指示符以至少部分地基于指示与所述基础层相关联的编解码器的信息而停用层间语法预测。

在另一实施例中，一种解码视频信息的方法包含：接收经配置以启用或停用层间语法预测的第一指示符；以及接收经配置以启用或停用层间纹理预测的第二指示符。所述第一指示符与所述第二指示符是彼此分离地接收。在一个实施例中，所述方法还包含至少部分地基于指示与基础层相关联的编解码器的信息而停用层间语法预测。

在另一实施例中，一种编码视频信息的方法包含：提供经配置以启用或停用层间语法预测的第一指示符；以及提供经配置以启用或停用层间纹理预测的第二指示符。所述第一指示符与所述第二指示符是彼此分离地提供。在一个实施例中，所述方法还包含提供所述第一指示符以至少部分地基于指示与基础层相关联的编解码器的信息而停用层间语法预测。

在另一实施例中，一种非暂时性计算机可读媒体包含在执行时致使处理器进行以下操作的代码：提供经配置以启用或停用层间语法预测的第一指示符；以及提供经配置以启用或停用层间纹理预测的第二指示符。所述第一指示符与所述第二指示符是彼此分离地提供。在一个实施例中，所述代码在执行时进一步致使所述处理器提供所述第一指示符以至少部分地基于指示与基础层相关联的编解码器的信息而停用层间语法预测。

在又一实施例中，一种用于译码视频信息的装置包含：用于提供经配置以启用或停用层间语法预测的第一指示符的装置；以及用于提供经配置以启用或停用层间纹理预测的第二指示符的装置。所述第一指示符与所述第二指示符可彼此分离地提供。在一个实施例中，所述用于提供所述第一指示符的装置包含用于提供所述第一指示符以至少部分地基于指示与基础层相关联的编解码器的信息而停用层间语法预测的装置。

在附图及以下描述中阐述一或多个实例的细节，其并不希望限制本文所述的发明性概念的完整范围。其它特征、目标及优势将从描述及图式且从权利要求书中显而易见。

附图说明

贯穿各图式，参考数字可再使用以指示所指代元件之间的对应关系。提供图式以说明本文中描述的实例实施例，且并不希望限制本发明的范围。

图1是说明可利用根据本发明中描述的方面的技术的实例视频编码及解码系统的框图。

图2是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。

图3是说明可实施本发明中描述的方面的技术的视频解码器的实例的框图。

图4是说明根据本发明的方面的用于控制层间语法预测的方法的实施例的流程图。

图5是说明根据本发明的方面的用于控制运动预测的方法的另一实施例的流程图。

具体实施方式

本发明中描述的技术大体涉及可缩放视频译码(SVC)及多视图/3D视频译码。举例来说，所述技术可与高效率视频译码(HEVC)可缩放视频译码(SVC，有时称为SHVC)扩展相关，且与其一起或在其内使用。在SVC扩展中，可存在多个视频信息层。在最低层级处的层可充当基础层(BL)，且在最顶部处的层(或最高层)可充当增强型层(EL)。“增强型层”有时被称作“增强层”，且这些术语可互换地使用。“基础层”有时被称作“参考层”(RL)，且这些术语也可互换地使用。基础层与顶层之间的所有层可充当EL或参考层(RL)中的任一者或两者。举例来说，在中间的层可为在其下方的层(例如基础层或任何介入增强层)的EL，且同时充当在其上方的增强层的RL。在基础层与顶层(或最高层)之间的每一层可用作较高层进行层间预测的参考，且可使用较低层作为用于层间预测的参考。

为简单起见，根据仅两个层来呈现实例：BL及EL；然而，应很好地理解，下文描述的构想及实施例还适用于具有多个层的情况。此外，为了易于解释，常常使用术语“帧”或“块”。然而，这些术语不打算是限制性的。举例来说，下文描述的技术可与多种视频单元中的任一者一起使用，所述视频单元包含但不限于像素、块(例如，CU、PU、TU、宏块，等)、切片、帧，等。

视频译码

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IECMPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也称为ISO/IECMPEG-4AVC)，包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。此外，存在一种新的视频译码标准，高效视频译码(HEVC)，其正由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。下文中被称作HEVC WD10的最新HEVC工作草案(WD)可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v12.zip获得。被称作HEVC WD9的另一HEVC工作草案可在http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v13.zip处获得。被称作HEVC WD8(或WD8)的另一HEVC工作草案可在http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC-J1003-v8.zip处获得。在下文中被称作HEVC WD7的另一HEVC工作草案可从http://phenix.int-evry.fr/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I1003-v5.zip获得。所有这些文件的全文以引用的方式并入。

可缩放视频译码(SVC)可用以提供质量(也被称作信噪比(SNR))可缩放性、空间可缩放性及/或时间可缩放性。举例来说，在一个实施例中，参考层(例如，基础层)包含足以显示在第一质量水平处的视频的视频信息，且增强层包含相对于参考层的额外视频信息以使得参考层及增强层一起包含足以显示在高于第一层级(例如，较少噪声、较大分辨率、较佳帧率等)的第二质量水平处的视频的视频信息。增强型层可具有与基础层不同的空间分辨率。举例来说，EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说，EL的空间方面可等于BL的空间方面的1.0、1.5或2.0倍。在一些实例中，EL的缩放因数可大于BL。举例来说，EL中的图片的大小可大于BL中的图片的大小。以此方式，可有可能(但不限制)EL的空间分辨率大于BL的空间分辨率。

在H.264的SVC扩展中，可使用针对SVC提供的不同层来执行对当前块的预测。此预测可被称作层间预测。在SVC中可利用层间预测方法以便减少层间冗余。层间预测的一些实例可包含层间帧内预测、层间运动预测及层间残差预测。层间帧内预测使用基础层中的共置块的重建来预测增强层中的当前块。层间运动预测使用基础层的运动来预测增强层中的运动。层间残差预测使用基础层的残差来预测增强层的残差。

在层间运动预测的一些实施例中，基础层(例如，用于共置块)的运动数据可用于预测增强层中的当前块。举例来说，在译码增强层中的视频单元时，视频译码器可使用来自参考层的信息以获得可用于识别额外假设的额外运动补偿数据。在从视频位流中的已经存在的数据隐式地导出这些额外假设时，可以极少或没有位流大小上的额外成本而获得视频译码中的额外性能。在另一实例中，来自在空间上相邻的视频单元的运动信息可用于定位额外假设。所导出的假设可随后被平均或另外与显式地编码的假设组合以产生对视频单元的值的更好预测。

下文参考附图更充分地描述新颖系统、设备及方法的各个方面。然而，本发明可以许多不同形式来体现，且不应将其解释为限于贯穿本发明所呈现的任何特定结构或功能。而是，提供这些方面以使得本发明将为透彻且完整的，且将向所属领域的技术人员充分传达本发明的范围。基于本文中的教示，所属领域的技术人员应了解，本发明的范围既定涵盖无论是独立于本发明的任何其它方面而实施还是与之组合而实施的本文中所揭示的新颖系统、设备和方法的任何方面。举例来说，可使用本文中阐述的任何数目的方面来实施设备或实践方法。此外，本发明的范围既定涵盖使用作为本文中所阐述的本发明的各种方面的补充或替代的其它结构、功能性或结构与功能性来实践的此设备或方法。应理解，可通过权利要求的一或多个要素来体现本文中所揭示的任何方面。

尽管本文描述了特定方面，但这些方面的许多变化及排列属于本发明的范围。尽管提到了优选方面之一些益处及优点，但本发明的范围不欲限于特定益处、用途或目标。而是，本发明的方面既定广泛地适用于不同无线技术、系统配置、网络及发射协议，其中的一些是借助于实例而在图中以及在优选方面的以下描述中说明。详细描述及图式仅说明本发明，而不具有限制性，本发明的范围由所附权利要求书及其等效物界定。

视频译码系统

图1是说明可利用根据本发明中所描述的方面的技术的实例视频译码系统10的框图。如本文中所描述地使用，术语“视频译码器”一般指视频编码器及视频解码器两者。在本发明中，术语“视频译码”或“译码”可一般地指视频编码及视频解码。

如图1中所示，视频编解码系统10包含源装置12和目的地装置14。源装置12产生经编码视频数据。目的地装置14可解码由源装置12产生的经编码视频数据。源装置12可经由计算机可读媒体16将视讯资料提供到目的地装置14。源装置12及目的地装置14可包含广泛范围的装置，包含桌上型计算机、笔记本(例如，膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话、所谓的“智能”板)、电视、摄像机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机、视频流式传输装置，等等。源装置12及目的地装置14可经装备以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。举例来说，计算机可读媒体16可包括使得源装置12能够实时将经编码的视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如，无线通信协议)来调制，且被发射到目的地装置14。通信媒体可包括无线或有线通信媒体，例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成分组网络(例如局域网、广域网或全球网络，例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的其它设备。

在一些实施例中，经编码数据可从输出接口22输出到存储装置。类似地，可通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或在本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储器、易失性或非易失性存储器，或用于储存视频数据的其它数字存储媒体。存储装置可对应于可存储由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可能是流式传输、下载发射或两者的组合。

本发明的技术可应用除了无线应用或设定外的应用或设定。所述技术可应用于视频译码以支持多种多媒体应用，例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式视频传输(例如动态自适应HTTP流式传输(DASH))、经编码到数据存储媒体上的数字视频，存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实施例中，系统10可经配置以支持单向或双向视频发射，以支持例如视频流式传输、视频回放、视频广播及/或视频电话等应用。

在图1中，源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。源装置12的视频编码器20可经配置以应用用于译码包含视频数据(符合多个标准或标准扩展)的位流的技术。在其它实施例中，源装置及目的地装置可包含其它组件或布置。举例来说，源装置12可从外部视频源18(例如外部摄像机)接收视频数据。同样，目的地装置14可与外部显示装置介接，而非包含集成式显示装置。

源装置12的视频源18可包含视频俘获装置，例如视频摄像机、含有先前所俘获视频的视频存档及/或用于从视频内容提供者接收视频的视频馈送接口。视频源18可产生基于电脑图形的数据(作为源视频)，或实况视频、所存档视频及计算机产生的视频的组合。在一些实施例中，如果视频源18是视频摄像机，那么源装置12及目的地装置14可形成所谓的摄像机电话或视频电话。可由视频编码器20来编码所俘获视频、经预先俘获的视频或计算机产生的视频。经编码视频信息可由输出接口22输出到计算机可读媒体16。

计算机可读媒体16可包含瞬时媒体，例如无线广播或有线网络发射，或存储媒体(例如，非暂时性存储媒体)，例如硬盘、闪存驱动器、压缩光盘、数字影音光盘、蓝光光盘或其它计算机可读媒体。网络服务器(未展示)可从源装置12接收经编码视频数据，且将经编码视频数据提供到目的地装置14(例如经由网络发射)。媒体生产设施(例如光盘冲压设施)的计算装置可从源装置12接收经编码视频数据，且生产含有所述经编码视频数据的光盘。因此，可将计算机可读媒体16理解为包括各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28可从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息，所述语法信息可供视频解码器30使用，所述语法信息包含描述块及其它经译码单元(例如，GOP)的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据，且可包含例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置等多种显示装置中的任一者。

视频编码器20及视频解码器30可根据视频译码标准(例如目前正在开发的高效率视频译码(HEVC)标准)来操作，且可符合HEVC测试模型(HM)。或者，视频编码器20及视频解码器30可根据其它专属或业界标准来操作，所述标准例如是ITU-T H.264标准，也被称为MPEG-4第10部分高级视频译码(AVC)，或此类标准的扩展。然而，本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及解码器集成，且可包括适当的多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件及软件，以处理对共同数据流或单独数据流中的音频与视频两者的编码。如果适用，MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。

视频编码器20及视频解码器30各自可实施为例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合的多种合适编码器电路中的任一者。当部分地以软件实施技术时，装置可将软件的指令存储于非暂时性计算机可读媒体中且使用一或多个处理器以硬件执行指令从而执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置，例如蜂窝式电话。

JCT-VC正在致力于开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化模型。HM假设视频译码装置根据(例如)ITU-TH.264/AVC相对于现有装置的若干额外能力。举例来说，虽然H.264提供了九种帧内预测编码模式，但是HM可提供多达三十三种帧内预测编码模式。

一般来说，HM的工作模型描述视频帧或图片可分成包含明度及色度样本两者的一连串树块或最大译码单元(LCU)。位流内的语法数据可定义最大译码单元(LCU，依据像素数目来说，其为最大译码单元)的大小。切片包含呈译码次序的多个连续树块。视频帧或图片可被分割成一或多个切片。每一树块可根据四叉树分裂成译码单元(CU)。一般来说，四叉树数据结构包含每个CU一个节点，其中一个根节点对应于所述树块。如果一个CU分裂成四个子CU，则对应于CU的节点包含四个叶节点，其中的每一者对应于所述子CU中的一者。

四叉树数据结构的每一节点可提供相对应的CU的语法数据。举例来说，四叉树中的一个节点可包括一个分裂旗标，这表明对应于所述节点的所述CU是否分裂成子CU。CU的语法元素可递归地来定义，且可取决于CU是否分裂成子CU。如果CU不进一步分裂，那么将其称为叶CU。在本发明中，叶CU的子CU也将被称作叶CU，即使不存在原始叶CU的明确分裂时也是如此。举例来说，如果16x16大小的CU不进一步分裂，那么这四个8x8子CU将也被称作叶CU，虽然16x16CU从未分裂。

CU具有类似于H.264标准的宏块的目的，但是CU并不具有大小区别。举例来说，树块可分裂成四个子节点(还被称作子CU)，且每一子节点又可为父节点且可分裂成另外四个子节点。最终的未分裂子节点(被称作四叉树的叶节点)包括译码节点，还称为叶CU。与经译码位流相关联的语法数据可界定树块可分裂的最大次数，被称作最大CU深度，且还可界定译码节点的最小大小。因此，位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代HEVC的上下文中的CU、PU或TU中的任一者，或者其它标准的上下文中的类似数据结构(例如，其在H.264/AVC中的宏块及子块)。

CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小且形状必须是正方形。CU的大小可从8x8像素到具有最大64x64像素或更大的树块的大小变动。每一CU可含有一或多个PU及一或多个TU。举例来说，与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有区别。PU可分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述CU根据四叉树到一或多个TU的分割。TU可为正方形或非正方形(例如，矩形)形状。

HEVC标准允许根据TU的变换，TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而设置，但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中，对应于CU的残差样本可使用一种被称为“残差四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数，可将所述变换系数量化。

叶CU可包含一或多个预测单元(PU)。一般来说，PU表示对应于相对应的CU的全部或一部分的空间区域，且可包含用于检索PU的参考样本的数据。此外，PU包含与预测有关的数据。举例来说，当PU经帧内模式编码时，用于PU的数据可包含在残差四叉树(RQT)中，残差四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含定义PU的一或多个运动向量的数据。定义PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片及/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

具有一或多个PU的叶CU还可包含一或多个变换单位(TU)。变换单元可使用RQT(还称为TU四叉树结构)来指定，如上文所论述。举例来说，分裂旗标可指示叶CU是否分裂成四个变换单元。接着，每一变换单元可进一步分裂成其它的子TU。当TU未经进一步分裂时，其可被称作叶TU。总体上，对于帧内译码，所有属于一个叶CU的叶TU共享相同的帧内预测模式。也就是说，总体上应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可使用帧内预测模式针对每一叶TU计算残差值，作为CU的对应于TU的部分与原始块之间的差。TU不必限于PU的大小。因此，TU可大于或小于PU。对于帧内译码，PU可与相同CU的对应叶TU共置。在一些实例中，叶TU的最大大小可对应于对应叶CU的大小。

此外，叶CU的TU还可与相应四叉树数据结构(被称作残差四叉树(RQT))相关联。也就是说，叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU，而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说，除非以其它方式提及，否则本发明分别使用术语CU及TU来指叶CU及叶TU。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它地方中的语法数据，其描述GOP中包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且根据指定译码标准可有不同大小。

作为一实例，HM支持各种PU大小的预测。假设特定CU的大小是2Nx2N，则HM支持2Nx2N或NxN的PU大小的帧内预测，及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N及nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中，不分割CU的一个方向，而将另一方向分割成25％及75％。CU的对应于25％分割区的部分由“n”继之以“上方(U)”、“下方(D)”、“左侧(L)”或“右侧(R)”的指示来指示。因而，举例来说，“2NxnU”是指水平地分割的2Nx2N CU，其中上方有2Nx0.5N PU，而下方有2Nx1.5N PU。

在本发明中，“NxN”与“N乘N”可互换使用来根据垂直及水平尺寸指代视频块的像素尺寸，例如，16x16像素或16乘16像素。大体来说，16x16块将在垂直方向上具有16个像素(y＝16)，且在水平方向上具有16个像素(x＝16)。同样，NxN块总体上在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。一块中的像素可布置成若干行及若干列。此外，块不需要一定在水平方向与垂直方向上具有相同数目的像素。举例来说，块可包括NxM像素，其中M未必等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码之后，视频编码器20可计算CU的TU的残差数据。PU可包括描述在空间域(还被称作像素域)中产生预测性像素数据的方法或模式的语法数据，且TU可包括在对残差视频数据应用变换(例如，离散正弦变换(DST)、离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后在变换域中的系数。残差数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残差数据的TU，且接着变换TU以产生用于CU的变换系数。

在进行用于产生变换系数的任何变换之后，视频编码器20可执行变换系数的量化。量化为既定具有其最广泛一般含义的广义术语。在一个实施例中，量化是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说，可在量化期间将n位值向下舍入到m位值，其中n大于m。

在量化之后，视频编码器可扫描变换系数，从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)的系数放置在阵列正面，且将较低能量(且因此较高频率)的系数放置在阵列的背面。在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对所述一维向量进行熵编码。视频编码器还20可对与经编码的视频数据相关联的语法元素进行熵编码以供视频解码器30在对视频数据解码时使用。

为了执行CABAC，视频编码器20可向待发射的符号指派上下文模型内的一个上下文。上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC，视频编码器20可选择用于待发射的符号的可变长度码。可建构VLC中的码字以使得相对较短代码对应于更有可能的符号，而较长代码对应于不太可能的符号。(例如)与对待发射的每一符号使用等长度码字的情形相比较，以此方式，使用VLC可实现位节省。概率确定可基于指派给符号的上下文。

视频编码器20可进一步例如在帧标头、块标头、切片标头或GOP标头中将例如基于块的语法数据、基于帧的语法数据及基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的帧的数目，且帧语法数据可指示用以编码相对应的帧的编码/预测模式。

视频编码器

图2为说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。视频编码器20可经配置以执行本发明的技术中的任一者或全部，包含但不限于下文关于图4及5更详细地描述的控制层间语法预测及控制运动预测的方法。作为一个实例，模式选择单元40或层间预测单元66(当提供时)可经配置以执行本发明中描述的技术中的任一者或全部。在其它实施例中，可通过模式选择单元40执行层间预测，在此情况下，可省略层间预测单元66。然而，本发明的方面不限于此。在一些实例中，本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中，作为补充或替代，处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。

视频编码器20可执行视频切片内的视频块的帧内、帧间及层间预测(有时称作帧内、帧间或层间译码)。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。层间译码依赖于基于相同视频译码序列内的不同层内的视频的预测。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指若干基于时间的译码模式中的任一者。

如图2所示，视频编码器20接收视频帧内的待编码的当前视频块。在图2的实例中，视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46、层间预测单元66及分割单元48。

对于视频块重建，视频编码器20还包含反量化单元58、反变换单元60，及求和器62。还可包含解块滤波器(图2中未展示)以将块边界滤波，以从经重建的视频移除成块假影。在需要时，解块滤波器通常对求和器62的输出进行滤波。除解块滤波器之外，还可使用额外滤波器(环路内或环路后)。为简洁起见未展示此类滤波器，但是必要时，此些滤波器可对求和器50的输出进行滤波(作为环路内滤波器)。

在编码过程期间，视频编码器20接收待译码的视频帧或切片。所述帧或切片可划分成多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次，例如，为了为每一视频数据块选择一种适当的译码模式。

此外，分割单元48可基于先前译码遍次中的先前分割方案的评估将视频数据块分割成子块。举例来说，分割单元48最初可将帧或切片分割成LCU，且基于速率失真分析(例如，速率失真优化等)将LCU中的每一者分割成子CU。模式选择单元40可进一步产生指示LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU及一或多个TU。

模式选择单元40可例如基于误差结果而选择译码模式(帧内、帧间或层间预测模式)中的一者，且将所得经帧内、帧间或层间译码的块提供到求和器50以产生残差块数据，且提供到求和器62以重建经编码块以用作参考帧。模式选择单元40还将语法元素(例如，运动向量、帧内模式指示符、分割信息及其它此类语法信息)提供到熵编码单元56。

运动估计单元42与运动补偿单元44可高度集成，但出于概念上的目的而分开予以说明。由运动估计单元42执行的运动估计是产生运动向量的过程，所述过程估计视频块的运动。举例来说，运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测块相对于当前帧(或其它经译码单元)内正经译码的当前块的移位。预测块是经发现在像素差方面密切地匹配待译码的块的块，其可通过绝对差总和(SAD)、平方差总和(SSD)或其它差量度来确定。在一些实例中，视频编码器20可计算存储在参考帧存储器64中的参考图片的子整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索且输出具有分数像素精度的运动向量。

运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，其中的每一个识别存储在参考帧存储器64中的一个或多个参考图片。运动估计单元42向熵编码单元56及运动补偿单元44发送计算出的运动向量。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量提取或产生预测性块。在一些实例中，运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后，运动补偿单元44便可在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器50通过从经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残差视频块，如下文所论述。在一些实施例中，运动估计单元42可相对于明度分量执行运动估计，且运动补偿单元44可对于色度分量及明度分量两者使用基于明度分量计算的运动向量。模式选择单元40可产生与视频块及视频切片相关联的供视频解码器30在解码视频切片的视频块时使用的语法元素。

作为如上文所描述由运动估计单元42及运动补偿单元44执行的帧间预测的替代方案，帧内预测单元46可对当前块进行帧内预测或计算。确切地说，帧内预测单元46可确定用来编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可例如在单独的编码编次期间使用各种帧内预测模式编码当前块，且帧内预测单元46(或在一些实例中为模式选择单元40)可从所述测试模式中选择适当帧内预测模式来使用。

举例来说，帧内预测单元46可使用速率失真分析计算针对各种经测试帧内预测模式的速率失真值，且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量，以及用于产生经编码块的位速率(也就是说，位数目)。帧内预测单元46可根据用于各种经编码块的失真及速率计算比率，以确定哪种帧内预测模式对于所述块展现最佳速率失真值。

在针对一块选择帧内预测模式之后，帧内预测单元46可将指示用于所述块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示选定帧内预测模式的信息。视频编码器20在发射的位流中可包含配置数据，其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称为码字映射表)，对用于编码各种块的上下文的定义，及对最可能帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。

视频编码器20可包含层间预测单元66。层间预测单元66经配置以使用可用于SVC(例如，基础或参考层)中的一或多个不同层来预测当前块(例如，EL中的当前块)。此预测可被称作层间预测。层间预测单元66利用预测方法以减少层间冗余，进而改善译码效率且降低计算资源要求。层间预测的一些实例包含层间帧内预测、层间运动预测及层间残差预测。层间帧内预测使用基础层中的共置块的重建来预测增强层中的当前块。层间运动预测使用基础层的运动信息来预测增强层中的运动。层间残差预测使用基础层的残差来预测增强层的残差。

视频编码器20通过从经译码的原始视频块减去来自模式选择单元40的预测数据而形成残差视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残差块，从而产生包括残差变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。举例来说，还可使用离散正弦变换(DST)、小波变换、整数变换、子带变换或其它类型的变换。

变换处理单元52可将所述变换应用于残差块，从而产生残差变换系数的块。所述变换可将残差信息从像素值域转换到变换域(例如，频域)。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减小位速率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中，量化单元54可接着执行对包含经量化的变换系数的矩阵的扫描。或者，熵编码单元56可执行所述扫描。

在量化之后，熵编码单元56对经量化的变换系数进行熵编码。举例来说，熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的状况下，上下文可基于相邻块。在熵编码单元56的熵译码之后，可将经编码位流发射到另一装置(例如视频解码器30)，或者将所述视频存档用于稍后发射或检索。

反量化单元58及反变换单元60分别应用反量化及反变换，以重建像素域中的残差块(例如，以用于稍后用作参考块)。运动补偿单元44可通过将残差块添加到参考帧存储器64的帧中的一者的预测块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建的残差块以计算子整数像素值以用于运动估计。求和器62将经重建的残差块相加到由运动补偿单元44产生的运动补偿预测块以产生经重建视频块用于存储在参考帧存储器64中。经重建的视频块可由运动估计单元42及运动补偿单元44用作用于对后续视频帧中的块进行帧间译码的参考块。

视频解码器

图3为说明可实施本发明中描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部，包含但不限于下文关于图4及5更详细地描述的控制层间语法预测及控制运动预测的方法。作为一个实例，层间预测单元75可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的方面不限于此。在一些实例中，本发明中描述的技术可在视频解码器30的各种组件之间共享。在一些实例中，作为补充或替代，处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。

在图3的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、层间预测单元75、反量化单元76、反变换单元78、参考帧存储器82及求和器80。在一些实施例中，运动补偿单元72及/或帧内预测单元74可经配置以执行层间预测，在此情况下，可省略层间预测单元75。视频解码器30在一些实例中可执行一般与关于视频编码器20(图2)所描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据，而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块及相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可接收在视频切片层级及/或视频块层级处的语法元素。

当视频切片经译码为经帧内译码(I)切片时，帧内预测单元74可基于用信号表示的帧内预测模式及来自当前图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。在视频帧被译码为经帧间译码(例如，B、P或GPB)切片时，运动补偿单元72基于运动向量及从熵解码单元70接收的其它语法元素而产生用于当前视频切片的视频块的预测块。可从参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储在参考帧存储器92中的参考图片使用默认建构技术建构参考帧列表：列表0及列表1。运动补偿单元72通过剖析运动向量及其它语法元素确定用于当前视频切片的视频块的预测信息，且使用所述预测信息产生用于经解码的当前视频块的预测性块。举例来说，运动补偿单元72使用一些接收到的语法元素确定用于译码视频切片的视频块的预测模式(例如，帧内预测或帧间预测)、帧间预测切片类型(例如，B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态及用以解码当前视频切片中的视频块的其它信息。

运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此状况下，运动补偿单元72可根据接收的语法信息元素而确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。

视频解码器30还可包含层间预测单元75。层间预测单元75经配置以使用可用于SVC(例如，基础或参考层)中的一或多个不同层来预测当前块(例如，EL中的当前块)。此预测可被称作层间预测。层间预测单元75利用预测方法以减少层间冗余，进而改善译码效率且降低计算资源要求。层间预测的一些实例包含层间帧内预测、层间运动预测及层间残余预测。层间帧内预测使用基础层中的共置块的重建来预测增强层中的当前块。层间运动预测使用基础层的运动信息来预测增强层中的运动。层间残差预测使用基础层的残差来预测增强层的残差。反量化单元76对提供于位流中且由熵解码单元70解码的经量化变换系数进行反量化，例如，解量化。反量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QPY以确定应应用的量化程度及同样确定应应用的反量化程度。

反变换单元78对变换系数应用反变换(例如，反DCT、反DST、反整数变换，或概念上类似的反变换过程)，以便产生像素域中的残差块。

在运动补偿单元72基于运动向量及其它语法元素产生了当前视频块的预测性块之后，视频解码器30通过将来自反变换单元78的残差块与由运动补偿单元72产生的相对应的预测性块加总来形成经解码视频块。求和器90表示可执行此求和运算的一或多个组件。如果需要的话，还可应用解块滤波器以对经解码块进行滤波，以便移除成块假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中，参考图片存储器92存储用于后续运动补偿的参考图片。参考帧存储器82还存储经解码视频用于稍后在显示装置(例如图1的显示装置32)上呈现。

层间语法预测

在当前SHVC测试模型中，来自基础层的运动场(例如，运动向量及参考索引)及预测模式可用于增强层译码。然而，不指明可与当前层间语法预测一起使用的基础层编解码器。

基础层编解码器

在当前SHVC测试模型中，基础层编解码器可为HEVC或H.264/AVC。此外，在视频参数集(VPS)中存在指示HEVC或AVC是否适用的旗标。旗标avc_base_layer_flag等于1指明基础层符合Rec.ITU-T H.264|ISO/IEC 14496-10；旗标等于0指明其符合HEVC规范。因此，用以编码或解码增强层的装置可知晓相对于基础层使用AVC还是HEVC。

视图间运动预测信令

在一些技术中，针对每一相依视图用信号表示旗标inter_view_texture_flag。所述旗标指示是否仅视图间运动预测用于相依视图而使得不使用基于经重建像素的视图间预测(例如，视图间纹理预测)。此外，可使用指示(例如，两个旗标)来指示是否启用视图间纹理预测及是否启用视图间运动预测。

可例如在序列参数集(“SPS”)中提供此信令。然而，置于序列参数集中的语法元素还可(或替代地)提供于视频参数集(“VPS”)中以实现类似功能性。此外，相同概念可明显地用于可缩放编解码器。

如上文所提及，可能需要例如针对特定基础层编解码器(例如HEVC，等)启用层间语法预测(包含运动信息)。然而，当前SHVC(HEVC的可缩放扩展)设计不具有指示是否允许来自基础层的此预测的方式。

层间语法预测控制

在一个实施例中，编码器或解码器具备处理器，所述处理器确定是否使用多标准编解码器来编码或解码视频块。举例来说，使用多标准编解码器可涉及以不同编解码器译码增强层与基础层，例如根据HEVC译码增强层且根据非HEVC编解码器(例如AVC)译码基础层。作为一个实例，为确定是否已根据AVC译码基础层，处理器可确定是否在视频参数集内设定旗标(例如avc_base_layer_flag)(例如，等于1或0)。如果使用非HEVC编解码器(例如，AVC或其它非HEVC编解码器)，那么由处理器停用层间语法预测。然而，如果非HEVC编解码器译码的层的运动信息可用于基础层，那么可使用层间语法预测。

或者，可提供旗标以特定地用信号表示层间语法预测的使用。在一个实施例中，语法预测是指使用基础层语法元素(例如，运动向量、参考索引、预测模式，等)来预测增强层语法元素的过程。一般来说，在一个实施例中，语法信息可指非纹理或非像素信息。此外，具有一个以上二进制状态(使得其可具有不同于仅两个值(例如0或1)的值)的语法元素可替代旗标用于指示。术语“指示符”及“旗标”通常是指旗标以及此些语法元素。如果此指示符(或旗标)为0，那么对于经译码视频序列的任何视频译码层(VCL)网络抽象层(NAL)单元不启用层间语法预测工具。在此情况下，如果avc_base_layer_flag仅指明序列参数集的视频参数集中的特定基础层编解码器(例如，HEVC)，那么可始终将层间语法预测用信号表示为停用。

作为以上技术的替代或补充，可引入旗标或语法元素以指示对于经译码视频序列的任何VCL NAL单元是否启用层间纹理预测。换句话说，提供例如一或多个旗标或语法元素等指示符(有时称为指示)以区分不同层间预测类型，至少包含层间语法预测及层间纹理预测。

作为以上技术的替代或补充，可对于属于或不属于随机存取图片的VCL NAL单元单独地用信号表示上述旗标。因此，两组用信号表示的旗标可存在于视频参数集或序列参数集中：一个用于不属于随机存取图片的NAL单元，且一个用于属于随机存取图片的NAL单元。

在又一实施例中，对于特定avc_base_layer_flag，可跳过用信号表示于增强层中的层间语法预测旗标。在此些情况下，可推断层间语法预测旗标被停用(例如，等于零)。

在另一实施例中，控制层间语法预测的高层级语法旗标或语法元素可用信号表示于至少视频参数集(VPS)、序列参数集(SPS)或图片参数集(PPS)中。

旗标还可用信号表示于切片标头中以指示当前切片是否将用于层间纹理预测。此外，旗标可用信号表示于切片标头中以指示当前切片是否将用于层间语法预测。

旗标还可用信号表示于切片标头中以指示当前切片是否利用层间纹理预测(用其相依层中的任一者)(例如，从且预测)。此外，旗标可用信号表示于切片标头中以指示当前切片是否利用层间语法预测(用其相依层中的任一者)。此外或替代地，旗标可用信号表示于切片标头中以指示当前切片是否利用从任何相依层的任何种类的层间预测。

此外，上述旗标可呈现为额外切片标头位的部分(如由slice_reserved_flag[i]指示)。

举例来说，在当前SHVC测试模型中，在运动场及从基础层的预测模式映射到层间参考图片时，存在运动映射工具。可仅对于HEVC基础层编解码器(例如，在avc_base_layer_flag等于零时)启用此工具。或者，可对于运动映射工具引入高层级语法旗标。如果此旗标为零，那么不使用运动映射。在一个实施例中，如果avc_base_layer_flag等于零，那么运动映射旗标始终等于零，或如果avc_base_layer_flag等于零且推断运动映射旗为零，那么可跳过运动映射旗标信令。

本文所述的技术适用于例如(但不限于)MVC及3DV等其它HEVC扩展。在此些情况下，上文关于层所论述的技术将应用于视图。如果可使用例如MPEG-2的其它基础层编解码器，那么可引入类似识别旗标。可以此些类似方法及编解码器使用扩展所揭示的技术。

图4说明在SHVC译码期间控制层间语法预测的方法的一个实施例，所述方法可由图2的视频编码器20或图3的视频解码器30执行。方法400开始于框410处。在框420处，确定在使用HEVC来译码增强层的同时，是否使用非HEVC编解码器(例如，AVC，等)来译码(例如，编码或解码)增强层的基础层。举例来说，可提供例如旗标或语法元素等指示符以指示用以译码基础层的编解码器，或更一般来说，以指示是否使用非HEVC编解码器来译码基础层。上文所论述的一个此旗标avc_base_layer_flag在其等于1时指示使用非HEVC编解码器(即，AVC)来译码基础层。可使用其它旗标或指示符。如果使用非HEVC编解码器来译码基础层，那么方法前进到框430；否则，方法400在框440处结束。举例来说，如果确定使用HEVC来译码基础层，或如果无法确定是否使用非HEVC编解码器来译码基础层，那么方法前进到框440。在框430处，停用层间语法预测。举例来说，可提供指示符以指示层间语法预测不可用作译码模式。在一个实施例中，可独立于如上文更详细论述的其它层间预测模式(例如，层间纹理预测，等)来用信号表示此指示符。方法400接着前进到框440，此处方法400结束。

停用TMVP

在HEVC扩展(例如，SVC或MVC)中，一或多个基础层/视图运动向量候选者可连同时间运动向量候选者(TMVP)一起包含在合并/AMVP候选者列表中。在HEVC中，仅存在一个用以译码(编码或解码)当前图片中的所有切片的共置参考图片。为此目的，索引值collocated_ref_idx用信号表示于切片标头中，但被限制为对于帧中的所有切片是相同的。

然而，使用基础层/视图运动向量可能引入与从两个不同共置图片存取运动向量相关联的带宽增加：用于TMVP的一个时间参考图片及用于基础层/视图运动向量的一个基础层/视图图片。

HEVC仅使用不同于当前图片的一个图片用于运动向量预测。在HEVC的可缩放或多视图扩展中，当前图片的共置图片仅可为由索引值collocated_ref_idx界定的时间参考图片或视图间/层间参考图片基础。

以限制基础层/视图运动向量(MV)候选者及TMVP的使用，编码器或解码器的实施例可包含以下条件(“限制条件”)中的至少一者：

1.在一些实施例中，如果至少在图片的一个切片中已启用TMVP(例如，旗标slice_temporal_mvp_enabled_flag等于1)，那么可编码或解码视频数据而使得基础层/视图MV候选者不可用于当前图片的任何切片。

2.在一些实施例中，如果旗标slice_temporal_mvp_enabled_flag对于图片中的所有切片等于0或者如果旗标sps_temporal_mvp_enabled_flag等于0，那么可编码/解码视频数据而使得基础层/视图MV候选者可用于合并/AMVP清单中。

3.在一些实施例中，可编码/解码视频数据而使得在其中层间/视图运动预测使用由例如如上文所描述的slice_motion_prediction_flag的旗标指示的实施例中，旗标slice_motion_prediction_flag与slice_temporal_mvp_enabled_flag不可在任何一个切片中皆等于1。此外，一旦在至少一个切片具有等于1的旗标slice_temporal_mvp_enabled_flag时，旗标slice_motion_prediction_flag对于所有切片应始终为0。同样，一旦在至少一个切片在同一图片中具有等于1的旗标slice_motion_prediction_flag时，旗标slice_temporal_mvp_enabled_flag对于所有切片应始终为0。

4.或者，在一些实施例中，条件性地用信号表示旗标slice_motion_prediction_flag及slice_temporal_mvp_enabled_flag。举例来说，在一个实例中，译码语法可为：

或者，在另一译码实例中：

如果旗标slice_motion_prediction_flag不存在，那么应由编码器或解码器的处理器利用如上文所论述而受约束的旗标(例如，见项目#3)推断其等于0。

5.在一些实施例中，译码可类似于3DV，类似之处在于层间运动预测可受如上文所描述的VPS、SPS或PPS旗标的控制。举例来说，在一个实施例中，对于VPS旗标，语法表可为或包含下表：

在信令方案的另一实施例中：

如果旗标vps_motion_prediction_flag不存在，那么应由编码器或解码器的处理器利用例如上文所描述而受约束的旗标(例如，见以上项目#3及#4)推断其等于零。

6.在以上实施例中的一些中，使用两个旗标来控制从基础层及TMVP的运动预测。在另一实施例中，仅一个旗标用以控制合并/AMVP模式的TMVP或基础层MV候选者使用。举例来说，此可包含于其中基础层/视图MV候选者与TMVP候选者被限制为不在序列层级一起使用的实施例中。

对于此些实施例，可以如下方式改变元素slice_temporal_mvp_enabled_flag的语义：此旗标可控制TMVP或基础层/视图MV候选者在切片中的使用。举例来说，在一个实施例中，所述元素的语义可为：slice_temporal_mvp_enabled_flag指明时间运动向量预测符还是参考层运动预测符可用于帧间预测。如果slice_temporal_mvp_enabled_flag等于0，那么当前图片的语法元素应受约束而使得时间运动向量预测符或参考层运动预测符都不用以解码当前图片。否则(当slice_temporal_mvp_enabled_flag等于1时)，时间运动向量预测符或参考层运动预测符可用以解码当前图片。在不存在时，推断slice_temporal_mvp_enabled_flag的值等于0。

举例来说，在一个实施例中，语法实施方案可包含以下实施方案：

图5说明控制运动预测的方法的一个实施例，所述方法可由图2的视频编码器20或图3的视频解码器30执行。方法500开始于框510处。在框520处，将来自时间参考图片的运动向量识别为时间运动向量预测符(TMVP)。在框530处，将来自基础层及/或视图图片的一或多个运动向量识别为基础层/视图运动向量。在框540处，提供限制，使得TMVP或一或多个基础层/视图运动向量但非两者可包含于用以编码及/或解码当前图片的当前块的候选列表中。可基于上文所论述的限制条件中的任何一或多者来提供所述限制。通常，当前图片相对于时间参考图片及基础层/视图图片共置。方法500继续进行到框550且结束。

虽然以上揭示内容已描述特定实施例，但许多变化是可能的。举例来说，如上文所提及，以上技术可应用于3D视频编码。在3D视频的一些实施例中，参考层(例如，基础层)包含足以显示视频的第一视图的视频信息且增强层包含相对于参考层的额外视频信息以使得参考层及增强层一起包含足以显示视频的第二视图的视频信息。这两个视图可用于产生立体图像。如上文所论述，根据本发明的方面，来自参考层的运动信息可用于在编码或解码增强层中的视频单元时识别额外的隐式假设。此可提供对3D视频位流的更大译码效率。

应认识到，取决于实例，本文中所描述的技术中的任一者的某些动作或事件可用不同顺序来执行，可添加、合并或全部省略所述动作或事件(例如，实践所述技术未必需要所有所描述动作或事件)。此外，在某些实施例中，可同时(例如，通过多线程处理、中断处理或多个处理器)而非顺序地执行动作或事件。

可使用多种不同技术及技艺中的任一者来表示本文中所揭示的信息及信号。举例来说，可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示在以上描述中始终参考的数据、指令、命令、信息、信号、位、符号及码片。

结合本文中所揭示的配置而描述的各种说明性逻辑块、模块、电路及算法步骤可被实施为电子硬件、计算机软件或两者的组合。为清楚说明硬件与软件的此互换性，上文已大致关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。所述功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式来实施所描述的功能性，但所述实施方案决定不应被解释为会导致脱离本发明的范围。

本文中所描述的技术可以硬件、软件、固件或其任一组合来实施。所述技术可实施于多种装置中的任一者中，例如通用计算机、无线通信装置手持机或集成电路装置，其具有包括在无线通信装置手持机及其它装置中的应用的多种用途。被描述为模块或组件的任何特征可共同实施于整合的逻辑装置中或单独实施为离散但可互操作的逻辑装置。如果以软件实施，那么所述技术可至少部分地由包含程序码的计算机可读数据存储媒体来实现，所述程序码包括在执行时执行上文所描述的方法中的一者或一者以上的指令。计算机可读数据存储媒体可形成计算机程序产品的一部分，所述计算机程序产品可包括封装材料。计算机可读媒体可包含存储器或数据存储媒体，例如随机存取存储器(RAM)(例如，同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等。另外或作为替代，所述技术可至少部分地由计算机可读通信媒体来实现，所述计算机可读通信媒体以指令或数据结构的形式载运或传达程序码且可由计算机存取、读取及/或执行(例如，传播的信号或波)。

程序码可由处理器执行，所述处理器可包括一或多个处理器，例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)，或其它等效集成或离散逻辑电路。此处理器可经配置以执行本发明中描述的技术中的任一者。通用处理器可为微处理器；但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器与DSP核心的联合，或任何其它此配置。因此，如本文中所使用的术语“处理器”可指代上述结构中的任一者、上述结构的任何组合，或适用于实施本文中所描述的技术的任何其它结构或设备。另外，在某些方面中，可将本文中所描述的功能性提供于经配置以用于编码及解码的专用软件模块或硬件模块内或并入组合的视频编码器-解码器(CODEC)中。

已描述本发明的各种实施例。这些及其它实施例在所附权利要求书的范围内。

Claims

1.一种用于译码视频信息的设备，所述设备包括：

存储器单元，其经配置以存储与基础层及/或增强层相关联的视频信息；以及

处理器，其操作性地耦合到所述存储器单元且经配置以：

提供经配置以启用或停用层间语法预测的第一指示符；以及

提供经配置以启用或停用层间纹理预测的第二指示符，

其中所述第一指示符与所述第二指示符可彼此分离地提供。

2.根据权利要求1所述的设备，其中所述处理器经配置以提供所述第一指示符以至少部分地基于指示与所述基础层相关联的编解码器的信息而停用层间语法预测。

3.根据权利要求2所述的设备，其中所述处理器经配置以提供所述第一指示符以在所述编解码器为AVC编解码器时停用层间语法预测。

4.根据权利要求2所述的设备，其中所述处理器经配置以提供所述第一指示符以在所述编解码器为非HEVC(高效率视频译码)编解码器时停用层间语法预测。

5.根据权利要求2所述的设备，其中指示所述编解码器的所述信息包括旗标或语法元素。

6.根据权利要求1所述的设备，其中所述第一指示符及所述第二指示符包括第一及第二旗标或语法元素。

7.根据权利要求1所述的设备，其中所述处理器经配置以在位流中用信号表示所述第一指示符及所述第二指示符，其中所述第一指示符与所述第二指示符为不同旗标、不同语法元素或单个语法元素的不同值。

8.根据权利要求1所述的设备，其中所述处理器经配置以从位流接收所述第一指示符及所述第二指示符，其中所述第一指示符与所述第二指示符为不同旗标、不同语法元素或单个语法元素的不同值。

9.根据权利要求1所述的设备，其中所述第一指示符及所述第二指示符用信号表示于参数集、视频参数集、序列参数集、图片参数集、切片标头或额外切片标头位中。

10.根据权利要求1所述的设备，其中所述第一指示符与所述第二指示符为不同旗标、不同语法元素或单个语法元素的不同值。

11.根据权利要求1所述的设备，其中所述处理器经配置以跳过在位流中用信号表示至少所述第一指示符或所述第二指示符，在此情况下，推断将停用层间语法预测。

12.根据权利要求1所述的设备，其进一步包括选自由以下各者组成的群组的一或多个装置：桌上型计算机、笔记本计算机、膝上型计算机、平板计算机、机顶盒、电话手持机、智能电话、智能板、电视、摄像机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机、视频流式传输装置，及经装备以用于无线通信的装置。

13.一种解码视频信息的方法，其包括：

接收经配置以启用或停用层间语法预测的第一指示符；以及

接收经配置以启用或停用层间纹理预测的第二指示符，

其中所述第一指示符与所述第二指示符是彼此分离地接收。

14.根据权利要求13所述的方法，其进一步包括至少部分地基于指示与基础层相关联的编解码器的信息而停用层间语法预测。

15.根据权利要求14所述的方法，其进一步包括在所述编解码器为AVC编解码器时停用层间语法预测。

16.根据权利要求14所述的方法，其进一步包括在所述编解码器为非HEVC(高效率视频译码)编解码器时停用层间语法预测。

17.根据权利要求14所述的方法，其中指示所述编解码器的所述信息包括旗标或语法元素。

18.根据权利要求13所述的方法，其中所述第一指示符及所述第二指示符包括第一及第二旗标或语法元素。

19.根据权利要求13所述的方法，其中所述第一指示符及所述第二指示符用信号表示于参数集、视频参数集、序列参数集、图片参数集、切片标头或额外切片标头位中。

20.根据权利要求13所述的方法，其中所述第一指示符与所述第二指示符为不同旗标、不同语法元素或单个语法元素的不同值。

21.根据权利要求13所述的方法，其进一步包括跳过在位流中用信号表示至少所述第一指示符或所述第二指示符且推断停用层间语法预测。

22.一种编码视频信息的方法，其包括：

提供经配置以启用或停用层间语法预测的第一指示符；以及

提供经配置以启用或停用层间纹理预测的第二指示符，

其中所述第一指示符与所述第二指示符是彼此分离地提供。

23.根据权利要求22所述的方法，其包括提供所述第一指示符以至少部分地基于指示与基础层相关联的编解码器的信息而停用层间语法预测。

24.根据权利要求23所述的方法，其包括提供所述第一指示符以在所述编解码器为AVC编解码器时停用层间语法预测。

25.根据权利要求23所述的方法，其包括提供所述第一指示符以在所述编解码器为非HEVC(高效率视频译码)编解码器时停用层间语法预测。

26.根据权利要求23所述的方法，其中指示所述编解码器的所述信息包括旗标或语法元素。

27.根据权利要求22所述的方法，其中所述第一指示符及所述第二指示符包括第一及第二旗标或语法元素。

28.根据权利要求22所述的方法，其中所述第一指示符及所述第二指示符用信号表示于参数集、视频参数集、序列参数集、图片参数集、切片标头或额外切片标头位中。

29.根据权利要求22所述的方法，其中所述第一指示符与所述第二指示符为不同旗标、不同语法元素或单个语法元素的不同值。

30.根据权利要求22所述的方法，其进一步包括跳过在位流中用信号表示至少所述第一指示符或所述第二指示符且推断停用层间语法预测。

31.一种包括代码的非暂时性计算机可读媒体，所述代码在执行时致使处理器：

提供经配置以启用或停用层间语法预测的第一指示符；以及

提供经配置以启用或停用层间纹理预测的第二指示符，

其中所述第一指示符与所述第二指示符可彼此分离地提供。

32.根据权利要求31所述的非暂时性计算机可读媒体，其中所述代码在执行时进一步致使所述处理器提供所述第一指示符以至少部分地基于指示与所述基础层相关联的编解码器的信息而停用层间语法预测。

33.根据权利要求32所述的非暂时性电脑可读媒体，其中所述代码在执行时进一步致使所述处理器提供所述第一指示符以在所述编解码器为非HEVC或AVC编解码器时停用层间语法预测。

34.根据权利要求31所述的非暂时性计算机可读媒体，其中所述第一指示符及所述第二指示符包括第一及第二旗标、第一及第二语法元素或单个语法元素的不同值。

35.一种用于译码视频信息的装置，其包括：

用于提供经配置以启用或停用层间语法预测的第一指示符的装置；以及

用于提供经配置以启用或停用层间纹理预测的第二指示符的装置，

其中所述第一指示符与所述第二指示符可彼此分离地提供。

36.根据权利要求35所述的用于译码视频信息的装置，其中所述用于提供所述第一指示符的装置包括用于提供所述第一指示符以至少部分地基于指示与所述基础层相关联的编解码器的信息而停用层间语法预测的装置。

37.根据权利要求36所述的用于译码视频信息的装置，其中所述用于提供所述第一指示符的装置包括用于提供所述第一指示符以在所述编解码器为非HEVC或AVC编解码器时停用层间语法预测的装置。

38.根据权利要求35所述的用于译码视频信息的装置，其中所述第一指示符及所述第二指示符包括第一及第二旗标、第一及第二语法元素或单个语法元素的不同值。