CN110572657A

CN110572657A - 扩展四叉树子块的形状

Info

Publication number: CN110572657A
Application number: CN201910487906.3A
Authority: CN
Inventors: 张莉; 张凯; 刘鸿彬; 庄孝强; 王悦
Original assignee: Beijing ByteDance Network Technology Co Ltd; ByteDance Inc
Current assignee: Beijing ByteDance Network Technology Co Ltd; ByteDance Inc
Priority date: 2018-06-05
Filing date: 2019-06-05
Publication date: 2019-12-13
Also published as: TW202005382A; US11445224B2; WO2019234605A1; US11570482B2; TWI709335B; CN110572651A; CN110572659A; TW202005400A; TWI715994B; WO2019234608A1; TWI708505B; CN110572660A; TWI714117B; TWI767126B; CN110572660B; CN110572684A; WO2019234612A1; US11381848B2; US20210120243A1; US20210051348A1

Abstract

描述了用于使用灵活和有效划分技术的方法、系统和设备，并且具体地描述了扩展四叉树划分中的子块形状。用于可视媒体解码的示例性方法包括对当前可视媒体块应用划分过程，该划分过程将当前可视媒体块划分成恰好四个子块，该四个子块包括尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的至少一个子块，其中当前可视媒体块的尺寸为M×N，其中M和N为正整数，并且其中所述至少一个子块的尺寸基于M和N之间的最小值或M和N之间的最大值；基于比特流表示对四个子块解码；以及基于四个子块和该划分过程对当前可视媒体块解码。

Description

扩展四叉树子块的形状

相关申请的交叉引用

根据适用的专利法和/或依据巴黎公约的规则，本申请及时要求于2018年6月5日提交的国际专利申请第PCT/CN2018/089918号的优先权和权益。出于根据美国法律的所有目的，该国际专利申请第PCT/CN2018/089918号的全部公开内容通过引用并入作为本申请的公开内容的一部分。

技术领域

本专利文件涉及视频编码技术、设备和系统。

背景技术

尽管视频压缩有所进步，但数字视频仍占因特网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的所连接的用户设备的数量增加，预计数字视频使用的带宽需求将继续增长。

发明内容

本专利文件公开了用于通过使用灵活且有效的划分技术来划分视频图片从而编码和解码数字视频的方法、系统和设备，并且具体地描述了扩展四叉树(EQT)划分中的子块形状。

在一个示例方面，公开了一种可视媒体解码方法。该方法包括对当前可视媒体块应用划分过程，该划分过程将当前可视媒体块划分成恰好四个子块，四个子块包括至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块；其中当前可视媒体块的尺寸为M×N，M和N为正整数，并且所述至少一个子块的尺寸基于M和N之间的最小值或M和N之间的最大值；基于比特流表示对四个子块解码；以及基于四个子块和该划分过程对当前可视媒体块解码。

在另一示例方面，公开了一种可视媒体编码方法。该方法包括接收与当前可视媒体块相关联的输入数据；对输入数据应用划分过程，该划分过程将当前可视媒体块划分成恰好四个子块，四个子块包括至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N，M和N为正整数，并且所述至少一个子块的尺寸基于M和N之间的最小值或M和N之间的最大值；基于该划分过程对四个子块编码；以及基于该编码生成当前可视媒体块的比特流表示。

在又一个示例方面，公开了一种可视媒体解码方法。该方法包括对当前可视媒体块应用划分过程，该划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N，其中M和N为正整数，其中所述四个子块中的第一子块和第二子块的第一尺寸为(M*w0/w)×(N*h0/h)，并且其中所述四个块中的第三子块和第四子块的第二尺寸是(M*(w-w0)/w)×(N*(h-h0)/h)，其中w、h、w0和h0为正整数，并且其中w0≤w且h0≤h；基于比特流表示，对所述四个子块解码；以及基于所述四个子块和该划分过程，对当前可视媒体块解码。

在又一个示例方面，公开了一种可视媒体编码方法。该方法包括接收与当前可视媒体块相关联的输入数据；对输入数据应用划分过程，该划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N个像素，其中M和N为正整数，其中所述四个子块中的第一子块和第二子块的第一尺寸为(M*w0/w)×(N*h0/h)，并且其中所述四个块中的第三子块和第四子块的第二尺寸是(M*(w-w0)/w)×(N*(h-h0)/h)，其中w、h、w0和h0为正整数，并且其中w0≤w且h0≤h；基于该划分过程，对所述四个子块编码；以及基于所述编码，生成当前可视媒体块的比特流表示。

在又一个示例方面，公开了一种可视媒体解码方法。该方法包括对当前可视媒体块应用划分过程，该划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N，其中M和N为正整数，并且其中所述四个子块具有维度H/4×W、H/2×W/2、H/2×W/2和H/4×W；基于比特流表示，对所述四个子块解码；以及基于所述四个子块和该划分过程，对当前可视媒体块解码。

在又一个示例方面，公开了一种可视媒体编码方法。该方法包括接收与当前可视媒体块相关联的输入数据；对输入数据应用划分过程，该划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N个像素，其中M和N为正整数，并且其中所述四个子块具有维度H×W/4、H/2×W/2、H/2×W/2和H×W/4；基于该划分过程，对所述四个子块编码；以及基于所述编码，生成当前可视媒体块的比特流表示。

在又一示例方面，公开了一种实现本文描述的可视媒体编码方法的可视媒体编码器设备。

在又一代表性方面，本文描述的各种技术可以体现为存储在非暂时性计算机可读介质上的计算机程序产品。该计算机程序产品包括用于执行本文描述的方法的程序代码。

在又一代表性方面，可视媒体解码器设备可以实现如本文中所描述的方法。

在随附的附件、附图和以下描述中阐述了一个或多个实施方式的细节。根据说明书和附图以及权利要求，其他特征将是显而易见的。

附图说明

图1是示出视频编码器实现方式的示例的框图。

图2示出了H.264视频编码标准中的宏块划分。

图3示出了将编码块(CB)划分为预测块(PU)的示例。

图4示出了用于将CTB细分为CB和变换块(TB)的示例实现方式。实线表示CB边界，并且虚线表示TB边界，包括带有其划分的示例CTB以及相应的四叉树。

图5A和图5B示出了用于划分视频数据的四叉树二叉树(QTBT)结构的示例。

图6示出了以下的示例：(a)四叉树划分(b)垂直二叉树划分(c)水平二叉树划分(d)垂直中心侧三叉树划分(e)水平中心侧三叉树划分。

图7A至图7K示出了将一个块划分为多个划分的示例。

图8A是示出可视媒体解码的方法的示例的流程图。

图8B是示出可视媒体编码的方法的示例的流程图。

图9是用于实现本文件中描述的可视媒体解码或可视媒体编码技术的硬件平台的示例的框图。

具体实施方式

为了改进视频的压缩比，研究人员正不断寻找用于编码视频的新技术。

1.本文件中公开的一些方面的概述

本专利文件涉及图像/视频编码，尤其涉及划分结构，即，如何将一个编码树单元(Coding Tree Unit，CTU)划分成多个编码单元(Coding Unit，CU)或者如何将一个CU划分成多个更小的CU。它可以应用于像HEVC之类的现有的视频编码标准或者待最终确定的标准(通用视频编码)。它也可以适用于未来的视频编码标准或视频编解码器。本文件中描述的技术可以应用于编码和解码视频，例如图片或图像的序列。该技术还可以用于单个图片或图像的编码和解码。因此，该技术适用于编码或解码视频或图像形式的可视媒体。为了提高可读性，在整个说明书的大部分中使用“视频”一词来表示视频或图像。

2.讨论

视频编码标准主要是通过众所周知的ITU-T和ISO/IEC标准的发展而得以演进。ITU-T制作了H.261和H.263标准，ISO/IEC制作了MPEG-1和MPEG-4Visual标准，并且两个组织联合制作了H.262/MPEG-2视频标准和H.264/MPEG-4高级视频编码(Advanced VideoCoding，AVC)标准和H.265/HEVC标准。从H.262开始，视频编码标准基于混合视频编码结构，其中利用时间预测加变换编码。图1中描绘了典型HEVC编码器框架的示例[1]。

2.1 H.264/AVC中的划分树结构

先前标准中的编码层的核心是宏块，其包含16×16的亮度(luma)样本块、以及在4：2：0颜色采样的通常情况下的两个对应的8×8的色度(chroma)样本块。

帧内编码块使用空间预测来利用像素之间的空间相关性。两种划分被定义为：16x16和4x4。

帧间编码块通过估计图片之间的运动来使用时间预测而不是空间预测。可以对于16x16宏块或其如下任何子宏块划分独立地估计运动：16x8、8x16、8x8、8x4、4x8、4x4(参见图2)[2]。每子宏块划分仅允许一个运动矢量(MV)。

2.2 HEVC中的划分树结构

在HEVC中，通过使用表示为编码树的四叉树结构将CTU划分成CU，以适应各种局部特性。使用图片间(时间)预测还是图片内(空间)预测来对图片区域编码的决策是在CU级进行的。根据PU划分类型，每个CU可以进一步划分成一个、两个或四个PU。在一个PU内部，应用相同的预测过程，并且在PU的基础上将相关信息发送到解码器。在通过基于PU划分类型应用预测过程而获得了残差块之后，可以根据类似于CU的编码树的另一个四叉树结构将CU划分为变换单元(TU)。HEVC结构的关键特征之一是它具有多个划分概念，包括CU、PU和TU。

在下文中，对使用HEVC的混合视频编码中涉及的各种特征强调如下。

1)编码树单元和编码树块(CTB)结构：HEVC中的类似结构是编码树单元(CTU)，其具有由编码器选择的尺寸并且可以大于传统宏块。CTU由亮度CTB和相应的色度CTB以及语法元素组成。亮度CTB的尺寸L×L可以被选择为L＝16、32或64个样本，较大的尺寸通常能够实现更好的压缩。然后，HEVC支持使用树结构和类似四叉树的信令来将CTB划分为更小的块。

2)编码单元(CU)和编码块(CB)：CTU的四叉树语法指定其亮度CB和色度CB的尺寸和位置。四叉树的根与CTU相关联。因此，亮度CTB的尺寸是亮度CB的最大支持尺寸。将CTU划分成亮度CB和色度CB是信令联合的。一个亮度CB和通常两个色度CB以及相关联的语法一起形成编码单元(CU)。CTB可以仅包含一个CU或者可以被划分以形成多个CU，并且每个CU具有相关联的、向预测单元(PU)以及变换单元(TU)的树的划分。

3)预测单元和预测块(PB)：使用帧间图片预测还是帧内图片预测来对图片区域编码的决策是在CU级进行的。PU划分结构的根在CU级。取决于基本预测类型决策，然后可以在尺寸上进一步划分亮度CB和色度CB，并根据亮度和色度预测块(PB)对其进行预测。HEVC支持从64×64到4×4样本的可变PB尺寸。图3示出了对于MxM CU所允许的PB的示例。

4)TU和变换块：使用块变换对预测残差进行编码。TU树结构的根在CU级。亮度CB残差可以与亮度变换块(TB)相同，或者可以被进一步划分成更小的亮度TB。这同样适用于色度TB。对于正方形TB尺寸4×4、8×8、16×16和32×32，定义类似于离散余弦变换(DCT)的整数基函数。对于亮度帧内图片预测残差的4×4变换，可以替代地指定从离散正弦变换(DST)的形式导出的整数变换。

向变换块和单元的树结构划分

对于残差编码，可以将CB递归地划分为变换块(TB)。由残差四叉树信令通知划分。仅指定正方形CB和TB划分，其中块可以被递归地划分到象限(quadrant)，如图4所示。对于尺寸为M×M的给定亮度CB，标志(flag)表明是否将该CB划分成四个尺寸为M/2×M/2的块。如果如SPS中指示的残差四叉树的最大深度所信令通知的，每个象限能够进一步划分，则为每个象限分配标志，该标志指示是否将其划分成四个象限。由残差四叉树产生的叶节点块是变换块，通过变换编码对其进一步处理。编码器指示它将使用的最大和最小亮度TB尺寸。当CB尺寸大于最大TB尺寸时，划分是隐含的。当划分将导致亮度TB尺寸小于所指示的最小值时，不划分是隐含的。除了当亮度TB尺寸为4×4时，色度TB尺寸在每个维度上是亮度TB尺寸的一半，在亮度TB尺寸为4×4的情况下，单个4×4色度TB被用于由四个4×4亮度TB覆盖的区域。在帧内图片预测的CU的情况下，最近邻的TB(在CB内或在CB外)的解码后样本被用作用于帧内图片预测的参考数据。

与先前的标准相反，HEVC设计允许TB跨越多个PB以用于图片间预测的CU，以使四叉树结构的TB划分的潜在编码效率益处最大化。

2.3 JEM中具有更大CTU的四叉树加二叉树(QTBT)块结构

为了探索HEVC之外的未来视频编码技术，由VCEG和MPEG于2015年联合成立联合视频探索团队(JVET)。从那时起，JVET采用了许多新方法[3]并将其纳入名为联合勘探模型(JEM)[4]的参考软件。

2.3.1 QTBT块划分结构

与HEVC不同[5]，QTBT结构去除了多种划分类型的概念，即，它去除了CU、PU和TU概念的分离，并且支持CU划分形状的更大灵活性。在QTBT块结构中，CU可以具有正方形或矩形形状。如图5A和图5B中所示，编码树单元(CTU)首先被四叉树结构划分。四叉树叶节点被二叉树结构进一步划分。在二叉树划分中有两种划分类型：对称水平划分和对称垂直划分。二叉树叶节点被称为编码单元(CU)，并且该划分被用于预测和变换处理而无需任何进一步的划分。这意味着CU、PU和TU在QTBT编码块结构中具有相同的块尺寸。在JEM中，CU有时由不同颜色分量的编码块(CB)组成，例如，在4：2：0色度格式的P和B条带(slice)的情况下，一个CU包含一个亮度CB和两个色度CB；并且CU有时由单个分量的CB组成，例如，在I条带的情况下，一个CU仅包含一个亮度CB或仅包含两个色度CB。

为QTBT划分方案定义以下参数。

-CTU尺寸：四叉树的根节点尺寸，与HEVC中的概念相同

-MinQTSize：最小允许的四叉树叶节点尺寸

-MaxBTSize：最大允许的二叉树根节点尺寸

-MaxBTDepth：最大允许的二叉树深度

-MinBTSize：最小允许的二叉树叶节点尺寸

在QTBT划分结构的一个示例中，CTU尺寸被设置为具有两个对应的64×64色度样本块的128×128亮度样本，MinQTSize被设置为16×16，MaxBTSize被设置为64×64，MinBTSize(宽度和高度)被设置为4×4，并且MaxBTDepth被设置为4。首先将四叉树划分应用于CTU以生成四叉树叶节点。四叉树叶节点可以具有从16×16(即，MinQTSize)到128×128(即，CTU尺寸)的尺寸。如果叶四叉树节点是128×128，则由于该尺寸超过MaxBTSize(即，64×64)，所以它不会被二叉树进一步划分。否则，叶四叉树节点可以被二叉树进一步划分。因此，四叉树叶节点也是二叉树的根节点，并且二叉树深度为0。当二叉树深度达到MaxBTDepth(即，4)时，不考虑进一步的划分。当二叉树节点的宽度等于MinBTSize(即，4)时，不考虑进一步的水平划分。类似地，当二叉树节点的高度等于MinBTSize时，不考虑进一步的垂直划分。通过预测和变换处理进一步处理二叉树的叶节点，而无需任何进一步的划分。在JEM中，最大CTU尺寸为256×256亮度样本。

图5A描绘了通过使用QTBT进行块划分的示例，图5B示出了对应的树表示。实线表示四叉树划分，虚线表示二叉树划分。在二叉树的每个划分(即，非叶)节点中，信令通知一个标志以指示使用哪种划分类型(即，水平或垂直)，其中0表示水平划分并且1表示垂直划分。对于四叉树划分，不需要指示划分类型，因为四叉树划分总是水平地且垂直地划分块以产生具有相等尺寸的4个子块。

另外，QTBT方案支持使亮度和色度具有单独的QTBT结构的能力。目前，对于P和B条带，一个CTU中的亮度CTB和色度CTB共享相同的QTBT结构。然而，对于I条带，通过QTBT结构将亮度CTB划分为CU，并且通过另一QTBT结构将色度CTB划分为色度CU。这意味着I条带中的CU由亮度分量的编码块或两个色度分量的编码块组成，并且P条带或B条带中的CU由所有三个颜色分量的编码块组成。

在HEVC中，小块的帧间预测受限于减少运动补偿的存储器访问，使得对于4×8和8×4块不支持双向预测，并且对于4×4块不支持帧间预测。在JEM的QTBT中，这些限制被去除。

2.4通用视频编码(VVC)的三叉树

如文献[3]中所提出的，支持不同于四叉树和二叉树的树类型。在该实现中，引入了另外两个三叉树(TT)划分，即，水平和垂直中心侧三叉树，如图6(d)和图6(e)所示。

图6示出以下示例：(a)四叉树划分(b)垂直二叉树划分(c)水平二叉树划分(d)垂直中心侧三叉树划分(e)水平中心侧三叉树划分。

在文献[3]中，存在两个级别的树：区域树(四叉树)和预测树(二叉树或三叉树)。CTU首先被区域树(RT)划分。可以用预测树(PT)进一步划分RT叶。还可以用PT进一步划分PT叶，直到达到最大PT深度。PT叶是基本编码单元。为方便起见，它仍被称为CU。CU不能被进一步划分。预测和变换都以与JEM相同的方式被应用于CU。整个划分结构被称为“多类型树”。

3.现有技术方案的缺点

诸如QTBT或TT的划分树的现有设计已经显示出了高得多的编码增益。但是，它们也可能存在以下问题：

BT和TT均试图减少块的划分数目(2或3个划分，而不是QT采用的4个划分)。对于具有高纹理的区域，可能优选更多的划分(例如，更小的划分)。使用当前的设计，可能需要相当多的比特来实现这一点。

代替修改划分数目，我们还可以修改四叉树划分以覆盖不同的情况。当前的四叉树划分总是将一个N×N正方块划分成四个N/2×N/2个子块。引入更多划分模式可带来额外的编码增益。

4.示例实施例

所公开的技术的实施例描述了不同的划分结构，例如扩展四叉树(extended quadtree，EQT)。

在以下描述中，应当注意，仅对于某一深度/级别允许划分结构，可以通过信令通知指示这种划分结构的使用。换句话说，如果对于某个深度/级别不允许划分结构，则将自动跳过划分结构的信令通知。所提出的方法可以单独应用，或彼此互组合或与现有技术相结合。

示例1：提出了一种扩展四叉树(EQT)划分结构，其对应于一种块划分过程，该块划分过程包括用于视频数据块的扩展四叉树划分过程，其中扩展四划分结构表示将视频数据块划分成最终子块，并且当扩展四叉树划分过程决定将扩展四叉树划分应用于一个给定块时，所述一个给定块总是被划分成四个子块；基于视频比特流对最终子块解码；以及基于根据导出的EQT结构而被解码的最终子块，对视频数据块解码。

示例1A：EQT划分过程可以递归地应用于给定块以生成EQT叶节点。可替代地，当EQT应用于某个块时，对于由于EQT而产生的每个子块，它可以进一步被划分成BT和/或QT和/或TT和/或EQT和/或其他种类的划分树。

示例1B：在一个示例中，EQT和QT可以共享相同的深度增量过程和叶节点尺寸的相同限制。在这种情况下，在以下条件时可以隐含地终止一个节点的划分：当该节点的尺寸达到最小允许的四叉树叶节点尺寸或该节点的EQT深度达到最大允许的四叉树深度时。

示例1C：可替代地，EQT和QT可以共享不同的深度增量过程和/或叶节点尺寸的限制。在以下条件时可以隐含地终止通过EQT对一个节点的划分：当该节点的尺寸达到最小允许的EQT叶节点尺寸或与该节点相关联的EQT深度达到最大允许的EQT深度时。此外，在一个示例中，可以在序列参数集(SPS)和/或图片参数集(PPS)和/或条带标头和/或CTU和/或区域和/或片(tile)和/或CU中，信令通知该EQT深度和/或该最小允许的EQT叶节点尺寸。

示例1D：提出尺寸为M×N(M和N是非零正整数值，相等或不相等)的块可以被等分为四个划分，例如M/4×N或M×N/4(示例在图7A和图7B中描绘)，或者被等分为四个划分并且划分尺寸取决于M和N的最大值和最小值。在一个示例中，一个4×32块可以被划分成四个4x8子块，而32x4块可以被划分成四个8x4子块。

示例1E：可替代地，尺寸为M×N(M和N是非零正整数值，相等或不相等)的块可以被不等分成四个划分，例如两个划分的尺寸等于(M*w0/w)x(N*h0/h)，并且另外两个划分的尺寸为(M*(w-w0)/w)x(N*(h-h0)/h)。

例如，w0和w可以分别等于1和2，即宽度减半，而高度可以使用除了2:1之外的其他比率来获得子块。这种情况的示例在图7C和图7E中描绘。可替代地，h0和h可以分别等于1和2，即高度减半，而宽度可以使用除了2:1之外的其他比率。这种情况的示例在图7D和图7F中描绘。

图7G和7H示出了扩展四叉树划分的两个替代示例。

图7I示出了具有不同形状的划分的扩展四叉树划分的更一般情况，其中每个划分可具有其自己的尺寸。

图7J和图7K示出了图7A和图7B的一般示例，其中四个划分为：(c)子块宽度固定为M/2，高度等于N/4或3N/4，顶部两个划分较小，(d)子块高度固定为N/2，宽度等于M/4或3M/4，左侧两个划分较小可以具有不同的尺寸，(e)子块宽度固定为M/2，高度等于3N/4或N/4，底部两个划分较小，(f)子块高度固定为N/2，宽度等于3M/4或M/4，右侧两个划分较小，

(g)M x N/4和M/2x N/2；(h)N x M/4和N/2x M/2，

(i)M1x N1、(M-M1)x N1、M1x(N-N1)和(M-M1)x(N-N1)，

(j)M x N1、M x N2、M x N3和M x N4，其中并且N1+N2+N3+N4＝N，以及

(k)M1x N、M2x N、M3x N和M4x N其中M1+M2+M3+M4＝M。

图8A是可视媒体解码方法800的流程图表示。可视媒体可以是视频或单个图像。方法800包括：在步骤802，对当前可视媒体块应用划分过程，该划分过程将当前可视媒体块划分成恰好四个子块，该四个子块包括至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块。在一些示例中，当前可视媒体块的尺寸为M×N，其中M和N为正整数。

在一些实施例中，至少一个子块的尺寸基于M和N之间的最小值或M和N之间的最大值。

方法800包括：在步骤804，基于比特流表示对四个子块解码。

方法800包括：在步骤806，基于四个子块和该划分过程对当前可视媒体块解码。

图8B是可视媒体编码方法820的流程图表示。可视媒体可以是视频或单个图像。方法820包括：在步骤822，接收与当前可视媒体块相关联的输入数据。

方法820包括：在步骤824，对输入数据应用划分过程，该划分过程将当前可视媒体块划分成恰好四个子块，该四个子块包括至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块。在一些示例中，当前可视媒体块的尺寸为M×N个像素，M和N为正整数。

方法820包括：在步骤826，基于该划分过程对四个子块编码。

方法820包括：在步骤828，基于该编码生成当前可视媒体块的比特流表示。

在一些实施例中，子块是叶节点。

在一些实施例中，四个子块中的每个的尺寸是(M/4)×N。在示例中，M＝32且N＝4。

在一些实施例中，四个子块中的每个的尺寸是M×(N/4)。在示例中，M＝4且N＝32。

在一些实施例中，四个子块中的第一子块和第二子块的第一尺寸为(M*w0/w)×(N*h0/h)，并且四个块中的第三子块和第四子块的第二尺寸是(M*(w-w0)/w)×(N*(h-h0)/h)，其中w、h、w0和h0为正整数，并且w0≤w且h0≤h。在示例中，w0＝1，w＝2，h0＝1且h＝4。在另一个示例中，h0＝1，h＝2，w0＝1且w＝4。

在一些实施例中，四个子块的尺寸为Mi×N，其中i＝1,2,3,4，并且其中M1+M2+M3+M4＝M。

在一些实施例中，四个子块的尺寸为M×Ni，其中i＝1,2,3,4，并且其中N1+N2+N3+N4＝N。

在一些实施例中，当前可视媒体块的高度(H)和宽度(W)为整数，并且四个子块具有维度H×W/4、H/2×W/2、H/2×W/2和H×W/4。在示例中，当前可视媒体块的左上角坐标表示为(x，y)，并且四个子块具有如下给出的左上角坐标和维度：(i)左上角坐标(x，y)，维度为H×W/4；(ii)左上角坐标(x+W/4，y)，维度为H/2×W/2；(iii)左上角坐标(x+W/4，y+H/2)，维度为H/2×W/2；和(iv)左上角坐标(x+3×W/4，y)，维度为H×W/4。

在一些实施例中，当前可视媒体块的高度(H)和宽度(W)为整数，并且四个子块具有维度H/4×W、H/2×W/2、H/2×W/2和H/4×W。在示例中，当前可视媒体块的左上角坐标表示为(x，y)，并且四个子块具有如下给出的左上角坐标和维度：(i)左上角坐标(x，y)，维度为H/4×W；(ii)左上角坐标(x，y+H/4)，维度为H/2×W/2；(iii)左上角坐标(x+W/2，y+H/4)，维度为H/2×W/2；和(iv)左上角坐标(x，y+3×H/4)，维度为H/4×W。

图9示出了可以被用以实现本公开技术的各个部分的硬件设备900的示例实施例的框图。硬件设备900可以是膝上型电脑、智能电话、平板电脑、便携式摄像机或能够处理视频的其他类型的设备。设备900包括用于处理数据的处理器或控制器902，以及与处理器902通信以存储和/或缓冲数据的存储器904。例如，处理器902可以包括中央处理单元(CPU)或微控制器单元(MCU)。在一些实现方式中，处理器902可以包括现场可编程门阵列(FPGA)。在一些实现方式中，设备900包括用于智能电话设备的各种可视和/或通信数据处理功能的图形处理单元(GPU)、视频处理单元(VPU)和/或无线通信单元或与之通信。例如，存储器904可以包括并存储处理器可执行代码，其在由处理器902执行时配置设备800以执行各种操作，例如接收信息、命令和/或数据，处理信息和数据，并且将处理后的信息/数据发送或提供给诸如致动器或外部显示器的另一个设备。为了支持设备900的各种功能，存储器904可以存储信息和数据，诸如指令、软件、值、图像以及由处理器902处理或参考的其他数据。例如，各种类型的随机存取存储器(RAM)设备900、只读存储器(ROM)设备、闪存设备和其他合适的存储介质可已被用于实现存储器904的存储功能。设备900还可以包括专用视频处理电路906，用于执行重复的计算功能，诸如变换和解码。在一些实施例中，视频处理电路1106可以在处理器902内部实现。在一些实施例中，视频处理电路1106可以是图形处理器单元(GPU)。

在本文件的第2部分的示例和权利要求部分中描述了对方法800和820的各种可能的变型和添加。例如，接收操作可以包括接收本地存储的比特流或通过网络连接接收比特流(例如，流式接收)。例如，可以通过使用视频比特流的协议语法的先验知识来解析视频比特流中的比特，从而实现导出操作。解码操作可以包括从视频的已压缩或编码后比特表示中生成未压缩的像素值(亮度和/或颜色)。

在一些实施例中，视频可视媒体解码过程可以生成解码后的视频数据，该解码后的视频数据可以存储在视频缓冲器中并显示在用户界面上以供用户查看。在一些实施例中，可以对未压缩或轻微压缩格式的视频执行可视媒体编码处理，该未压缩或轻微压缩格式的视频例如是从相机设备或数字存储设备捕获的等等。

在下面的实验结果中示出了通过将所公开的技术的实施例结合到HEVC参考软件中而实现的改进。测试序列包括通用测试条件(CTC)中的HEVC标准测试序列，其是由JCT-VC(视频编码联合协作团队)指定的。

在上表中，负百分比表示该特定场景的比特率节省。各种类别(例如，类别A1、A2、......、E)表示测试序列的不同分辨率，“主层级”和“低层级”标记表示不同的比特率范围，其分别使用量化参数(QP){22,27,32,37}和{32,37,42,47}，并且“RA”、“LDB”和“LDP”表示不同的编码条件。

例如，类别A1和A2的分辨率是4K，并且类别B、C、D和E的分辨率分别是1080p、832×480、416×240和720p。

例如，“RA”表示对应于一组编码条件的随机访问，该组编码条件被设计为在已编码视频数据中实现相对频繁的随机访问点，而不太强调延迟的最小化。相反，“LDx”表示低延迟并且对应于两组编码条件，该两组编码条件被设计为实现交互式实时通信，而不太强调随机访问的容易性。具体地，“LDB”是LD条件使用B图片的变型，而“LDP”是使用P帧的变型。

从前述内容可以理解，本文已经出于说明的目的描述了本公开技术的具体实施例，但是可以在不脱离本发明范围的情况下进行各种修改。因此，本公开的技术除了所附权利要求外不受限制。

本文件中描述的公开和其他实施例、模块和功能操作可以以数字电子电路实现，或者以计算机软件、固件或硬件实现，包括本文件中公开的结构及其结构等同物，或者以它们中的一个或多个的组合实现。公开和其他实施例可以实现为一个或多个计算机程序产品，即，在计算机可读介质上编码的一个或多个计算机程序指令模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质组合、或者它们中的一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如机器生成的电信号、光信号或电磁信号，其被生成以对信息进行编码以便传输到合适的接收器设备。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写，包括编译或解释语言，并且可以以任何形式来部署计算机程序，包括独立程序或适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序并不必需对应于文件系统中的文件。程序可以存储在文件的保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的部分中，存储在专用于所讨论的程序的单个文件中，或存储在多个协调文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。可以部署计算机程序以在一个计算机上或在位于一个站点上或分布在多个站点上并通过通信网络互连的多个计算机上执行。

本文件中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行，并且装置也可以实现为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

举例来说，适合于执行计算机程序的处理器包括通用和专用微处理器、以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合到用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，以从该一个或多个大容量存储设备接收数据，或将数据传输到该一个或多个大容量存储设备，或者既接收又传递数据。然而，计算机不需要具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

虽然本文件包含许多细节，但这些细节不应被解释为对任何发明或可要求保护的范围的限制，而是作为特定于特定发明的特定实施例的特征的描述。在本文件中，在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实现。此外，尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此要求权利保护，但是在某些情况下，可以从所要求保护的组合中去除来自该组合的一个或多个特征，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应该被理解为要求以所示的特定顺序或按顺序执行这样的操作，或者执行所有示出的操作，以实现期望的结果。此外，在本文件中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都要求这种分离。

仅描述了几个实现方式和示例，并且可以基于本文件中描述和示出的内容来做出其他实现方式、增强和变型。

Claims

1.一种可视媒体解码方法，包括：

对当前可视媒体块应用划分过程，所述划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N，其中M和N为正整数，并且其中所述至少一个子块的尺寸基于M和N之间的最小值或M和N之间的最大值；

基于比特流表示，对所述四个子块解码；以及

基于所述四个子块和所述划分过程，对当前可视媒体块解码。

2.一种可视媒体编码方法，包括：

接收与当前可视媒体块相关联的输入数据；

对输入数据应用划分过程，所述划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N个像素，其中M和N为正整数，并且其中所述至少一个子块的尺寸基于M和N之间的最小值或M和N之间的最大值；

基于所述划分过程，对所述四个子块编码；以及

基于所述编码，生成当前可视媒体块的比特流表示。

3.根据权利要求1或2所述的方法，其中子块是叶节点。

4.根据权利要求1或2所述的方法，其中所述四个子块中的每个的尺寸是(M/4)×N。

5.根据权利要求4所述的方法，其中M＝32且N＝4。

6.根据权利要求1或2所述的方法，其中所述四个子块中的每个的尺寸是M×(N/4)。

7.根据权利要求6所述的方法，其中M＝4且N＝32。

8.一种可视媒体解码方法，包括：

对当前可视媒体块应用划分过程，所述划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N，其中M和N为正整数，其中所述四个子块中的第一子块和第二子块的第一尺寸为(M*w0/w)×(N*h0/h)，并且其中所述四个块中的第三子块和第四子块的第二尺寸是(M*(w-w0)/w)×(N*(h-h0)/h)，其中w、h、w0和h0为正整数，并且其中w0≤w且h0≤h；

基于比特流表示，对所述四个子块解码；以及

9.一种可视媒体编码方法，包括：

接收与当前可视媒体块相关联的输入数据；

对输入数据应用划分过程，所述划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N个像素，其中M和N为正整数，其中所述四个子块中的第一子块和第二子块的第一尺寸为(M*w0/w)×(N*h0/h)，并且其中所述四个块中的第三子块和第四子块的第二尺寸是(M*(w-w0)/w)×(N*(h-h0)/h)，其中w、h、w0和h0为正整数，并且其中w0≤w且h0≤h；

基于所述划分过程，对所述四个子块编码；以及

基于所述编码，生成当前可视媒体块的比特流表示。

10.根据权利要求8或9所述的方法，其中w0＝1，w＝2，h0＝1且h＝4。

11.根据权利要求8或9所述的方法，其中h0＝1，h＝2，w0＝1且w＝4。

12.根据权利要求1或2所述的方法，其中所述四个子块的尺寸为Mi×N，其中i＝1,2,3,4，并且其中M1+M2+M3+M4＝M。

13.根据权利要求1或2所述的方法，其中所述四个子块的尺寸为M×Ni，其中i＝1,2,3,4，并且其中N1+N2+N3+N4＝N。

14.一种可视媒体解码方法，包括：

对当前可视媒体块应用划分过程，所述划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N，其中M和N为正整数，并且其中所述四个子块具有维度H/4×W、H/2×W/2、H/2×W/2和H/4×W；

基于比特流表示，对所述四个子块解码；以及

15.根据权利要求14所述的方法，其中当前可视媒体块的左上角坐标表示为(x,y)，并且其中所述四个子块具有如下给出的左上角坐标和维度：

(i)左上角坐标(x,y)，维度为H/4×W；

(ii)左上角坐标(x,y+H/4)，维度为H/2×W/2；

(iii)左上角坐标(x+W/2,y+H/4)，维度为H/2×W/2；以及

(iv)左上角坐标(x,y+3×H/4)，维度为H/4×W。

16.一种可视媒体编码方法，包括：

接收与当前可视媒体块相关联的输入数据；

对输入数据应用划分过程，所述划分过程将当前可视媒体块划分为恰好四个子块，所述四个子块包含至少一个尺寸不同于当前可视媒体块的宽度的一半乘以当前可视媒体块的高度的一半的子块，其中当前可视媒体块的尺寸为M×N个像素，其中M和N为正整数，并且其中所述四个子块具有维度H×W/4、H/2×W/2、H/2×W/2和H×W/4；

基于所述划分过程，对所述四个子块编码；以及

基于所述编码，生成当前可视媒体块的比特流表示。

17.根据权利要求16所述的方法，其中当前可视媒体块的左上角坐标表示为(x,y)，并且其中所述四个子块具有如下给出的左上角坐标和维度：

(i)左上角坐标(x,y)，维度为H×W/4；

(ii)左上角坐标(x+W/4,y)，维度为H/2×W/2；

(iii)左上角坐标(x+W/4,y+H/2)，维度为H/2×W/2；以及

(iv)左上角坐标(x+3×W/4,y)，维度为H×W/4。

18.根据权利要求1至17中任一项所述的方法，其中当前可视媒体块包括视频块。

19.根据权利要求1至17中任一项所述的方法，其中当前可视媒体块包括单个图像。

20.一种视频系统中的装置，包括处理器和其上具有指令的非暂时性存储器，其中所述指令在由所述处理器执行时使所述处理器实现权利要求1至19中的一项或多项所限定的方法。

21.一种存储在非暂时性计算机可读介质上的计算机程序产品，所述计算机程序产品包括用于执行权利要求1至19中的一项或多项所限定的方法的程序代码。