CN111724400A

CN111724400A - 视频自动抠像方法及系统

Info

Publication number: CN111724400A
Application number: CN202010605929.2A
Authority: CN
Inventors: 刘岩; 须佶成; 李川; 郭杏荣; 王建超; 高佩旭
Original assignee: Beijing Gosboro Education Technology Co ltd
Current assignee: Beijing Gosboro Education Technology Co ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-09-29
Anticipated expiration: 2040-06-29
Also published as: CN111724400B

Abstract

本发明提供了一种视频自动抠像方法及系统。该方法包括：将需要执行抠像的原始视频图像输入至初始分割模型，得到原始视频图像的三元图；将显示背景区域的背景图像及三元图作为先验信息，与原始视频图像一同输出至分割模型中，得到原始视频图像的抠像结果。本发明提供的视频自动抠像方法及系统能够在无需用户提供任何先验标记的条件下，对包含前景人像的视频进行自动化的精准抠像。

Description

视频自动抠像方法及系统

技术领域

本发明涉及图像处理技术领域，特别是涉及一种视频自动抠像方法及系统。

背景技术

一直以来，视频都是计算机视觉领域的一个研究热点。尤其是近年来，随着互联网技术的飞速发展，在线办公，在线教育走进了人们的生活。为了提升授课视频的质量，未经后期处理的视频已不再满足学生们的日益刁钻的口味，因此如何制作高质量的视频成为在线教育的一个发力点。通过后期技术来对原生视频进行美化成为了众多在线教育的一个发力点，但是一个小时的视频的后期往往就需要一个专业的后期处理几个小时乃至几天，而目前后期最重要的技术就是将视频中的人像快速精准的分割出来。因此，如何使用人工智能，自动将人像从背景画面中抠出来，从而可以对两块内容进行分别处理成为了目前抠像研究中尚未完美解决的问题。

目前，效果较为突出的人像抠像方法大多采用了深度学习作为基础框架。深度学习作为这几年最受关注的人工智能技术，已经在诸如人脸识别、语音识别和自动驾驶等多个领域表现出了超越传统方法的效果，现已成功的应用到我们生活的方方面面。深度学习是一种基于人工神经网络的方法，通过网络自学习的方式将输入的图像、声音等原始信息转化为有意义的数字特征，再利用这些特征完成规定的分类、识别等特定任务。利用深度学习的方法来完成人像抠像任务已经成为当前研究的主流。

现有的视频抠像方法大致可以分为两种类型。一种是基于分割思想，基于深度学习的分割技术是为图像中的每个像素值预测一个0或1的值，它们分别表示前景和背景。因此这种方法往往需要对图像进行降采样，所以对于人像细节部分的处理并不是很好，通常得到的分割结果比较粗糙，而且它无法提供毛发，眼镜等部分的半透明α通道信息。与单纯的图像的人像分割比，视频分割利用了视频帧之间的时序信息，尽管如此它依然无法提供像素级别准确率的分割效果，也就是无法提供α通道信息，因此很难应用到视频后期处理中。因为分割技术重在对每个像素的语义理解，然后将相同语义的合并到一个区域，得到的结果就是若干个不同语义的形状,分割技术并不考虑块与块之间的过渡是否平滑自然，它只是把图像分为前景和背景两块，然后取出前景。

另一种是基于抠像思想，它不同于分割算法返回的是一个整数，它返回的是该像素值是前景还是背景的概率p，这个p会在前景和背景的交互区域产生一个平滑的渐变效果，使得抠像的效果更佳自然。抠像的核心技术是把一张图像I看做前景F背景B以及透明度α组合而成,它可以表示为:

I＝α×F+(1-α)×B

现在的抠像算法就是通过I求得三个未知变量F、B、α。随着深度学习的快速发展，抠像的求解方案也分为传统策略和深度学习两个分支。传统算法往往需要用户通过交互的方式提供一些先验信息，例如草图或者三元图等信息。传统方法的缺点是需要交互。显然几分钟的视频帧数往往达到了几千帧，如此频繁的交互限制了传统抠像应用到视频抠像方向。另外一个方向是基于学习的抠像方法，目前基于人工提供三元图的深度学习抠像算法已经在准确率上超过了传统的方法，但是它仍需要交互。最近视频抠像的一个趋势是使用无交互的方式，这一方式在人像抠像上的进展最为迅速，它的主要方法是先预测三元图，再根据三元图预测α的值。另外一个抠像方向是使用对应背景图进行抠像，它们的主要原理是使用两个图的减法，但是这种方法的问题是产生的边界比较粗糙且不会有α的预测值。

发明内容

本发明要解决的技术问题是提供一种视频自动抠像方法及系统，在无需用户提供任何先验标记的条件下，对包含前景人像的视频进行自动化的精准抠像。

为解决上述技术问题，本发明提供了一种视频自动抠像方法，所述方法包括：将需要执行抠像的原始视频图像输入至初始分割模型，得到原始视频图像的三元图，三元图包括：前景区域，背景区域以及不确定区域；将显示背景区域的背景图像及三元图作为先验信息，与原始视频图像一同输出至分割模型中，得到原始视频图像的抠像结果。

在一些实施方式中，初始分割模型包括：原型网络，以及预测网络。

在一些实施方式中，将需要执行抠像的原始视频图像输入至初始分割模型，得到原始视频图像的三元图，包括：利用原型网络，为每个图片生成32个原型掩码；利用预测网络，生成各个候选框类别的置信度，锚点的位置以及原型掩码的系数；将预测网络得到的掩码系数和原型网络得到的原型掩码进行加权求和，得到输入图像的mask；根据输入图像的mask，生成三元图。

在一些实施方式中，根据输入图像的mask，生成三元图，包括：通过腐蚀操作及高斯滤波操作，生成三元图。

在一些实施方式中，将显示背景区域的背景图像及三元图作为先验信息，与原始视频图像一同输出至分割模型中，得到原始视频图像的抠像结果，包括：根据分割模型得到的检测框将整张图的分割简化成只对人像的抠像，其它剩余部分默认为背景区域；使用3个残差网络对3个输入分别进行编码，得到3组通道数为256的特征图；使用一个由1*1卷积，批归一化等操作组成的选择器来将输入图像的特征图分别和背景的特征图以及三元图的特征图进行融合；使用一个由1*1卷积等操作构成的协调器来对视频帧的特征图以及两个选择器得到的特征图融合成一个通道数为256的特征图；通过两个不同的残差网络分支分别得到前景图片F以及透明度的蒙板α。

在一些实施方式中，分割模型采用有监督训练和基于真实数据的对抗训练。

在一些实施方式中，还包括：在得到原始视频图像的抠像结果之后，对抠像结果进行后处理。

在一些实施方式中，对抠像结果进行后处理，包括：使用阈值0.95对预测的蒙板α进行初步过滤；取连通域面积最大的前景作为预测的抠像前景；根据人像区域的boundingbox信息，将模型生成的预测的α蒙板还原成原图的大小并放置于原图对应的位置中。

在一些实施方式中，对抠像结果进行后处理，还包括：在将模型生成的预测的α蒙板还原成原图的大小并放置于原图对应的位置中之后，根据业务场景确定不必参与抠像的部分生成新的mask掩码；根据mask掩码得到最终的抠像结果。

此外，本发明还提供了一种视频自动抠像系统，所述系统包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的视频自动抠像方法。

采用这样的设计后，本发明至少具有以下优点：

本发明实现了一个端到端的视频抠像流程，并且支持自定义的抠图效果。本发明在不需要人工交互的情况下，实现了接近人类的抠像水平，可以广泛的应用到视频人像提取，自动添加背景框等场景中。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是本发明实施例提供的视频自动抠像方法的流程图；

图2是本发明实施例提供的视频抠像网络的结构图；

图3是本发明实施例提供的对抗器网络的结构图；

图4是本发明实施例提供的视频自动抠像系统的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明要解决的问题是在无需用户提供任何先验标记的条件下，对包含前景人像的视频进行自动化的精准抠图。在准确且一致的提取人像主体和细节的同时，保证抠图结果视频质量不变。

本发明设计了一种全新的视频抠图处理流程，实现了在没有用户提供先验标记的条件下的自动化精准人像抠图。这个流程先对视频的每一帧进行单独处理，之后再将抠图结果和新背景融合并生成结果视频。在对每一帧进行单独处理的过程中，分别采用了两种深度学习的模型来提取人像特征信息：首先采用了分割模型对视频帧中包含的人像进行一个大致的切分，这一过程主要用于制作标记蒙板。之后经过一系列腐蚀膨胀等图像处理算法，将分割生成的二元图转化为一个三元图，再将原始视频帧图像和三元图一起交给matting模型进行精细化的抠图处理。最后，通过一个后处理步骤将抠图结果还原到输入图像上，或者加入自定义的功能，完成每一帧的抠图结果，并合并生成结果视频。下面依次对流程中包含的四个步骤进行详细的技术介绍。

分割

在matting相关的技术方案中，由人工交互的方式提供一个先验信息是提升抠图细节的效果的一个重要过程。交互式的人工先验信息有两种方式：1)通过绘制若干条分别表示前景和背景的辅助线来作为先验，这种图叫做草图；2)通过绘制整幅图的三元图来作为先验，三元图指的是前景区域，背景区域以及不确定区域。由于三元图的构成和分割算法生成的掩码图的内容非常相像，因此使用掩码图来代替人工交互的方式来自动生成三元图是构建一个完全自动化视频人像抠图的一个重要的环节。

图像(视频)分割和自动抠图是学术界两个非常火热的研究方向，但是这两个反向的研究目前还是比较独立。因此，如何找到一个契合点，使得分割算法所生成的三元图带来的先验信息尽可能多和准确是目前所有技术方案都没有涉及的一个方向。

结合对数十个前沿的分割算法的效果分析以及抠图算法的原理分析，并根据我们教育场景下抠图要求的特殊性，我们提出了分割算法的四条重要指标：

1.分割算法尽可能准确，错误点中可以有假阳性错误样本，但是不能有假阴性样本；

2.镂空区域的分割效果要比边界的分割效果更为重要；

3.使用分割图生成三元图的方式和所使用的分割和抠图算法密切相关；

4.分割的区域有且仅有一个联通域。

结合上面的分析，这里我们使用了单阶段的物体算法作为分割模型，并针对我们人像抠图的场景，只保留了它的“person”类别分支，来提升分割效果的准确率。分割算法的具体流程如图1所示，它是由两个分支组成：预测网络和原型网络。预测网络的作用是生成各个候选框类别的置信度，锚点的位置以及原型掩码的系数；原型网络的作用是为每个图片生成32个原型掩码。

原型网络是一个全卷积网络，它的输入是骨干网络(图1左侧)的P3层，也就是输入大小为69*69*256，依次经过一个3*3卷积，一个上卷积，一个1*1卷积，最终得到138*138的输出。

预测网络的输入是P3-P7共五个特征图，预测网络中也是有五个与之一一对应的预测层。首先它会根据特征图生成3个比例一次为1:1，1:2，2:1的锚点，五个特征图中锚点的边长依次为24,48,96,192,384。接下来每个特征图的预测网络会有三类输出，它们是：

1.81类的类别置信度,维度是81*a；

2.位置的偏移，维度是4*a；

3.掩码系数，维度是32*a。

其中a是P4-P4拼接的和。

分割模型的最后一步是对原型网络和预测网络进行合并，首先是将预测网络得到的掩码系数和原型网络得到的原型掩码进行加权求和，得到输入图像的mask。然后通过裁剪操作讲非预测区域的位置的掩码置0，用于过滤明显不在检测区域的误分割。最后一步则是通过阈值(该方案中阈值的值为0.5)的方式进行二值化，得到最终的分割结果。

三元图

如之前所介绍的，在抠图之前我们往往需要给抠图模型提供一些先验信息，例如三元图。通过对上面分割模型的输出分析，我们为其定制了一套三元图生成策略。

首先根据模型提供的检测框的信息，我们将抠图区域约束到检测框的内部；为了获得更平滑的三元图，我们选择了圆形的卷积核对1的卷积核进行5次腐蚀操作,然后跟一个高斯滤波来保证腐蚀之后的平滑。最后两图相减得到三元图的未知区域。

抠图

传统的抠图策略通过人工交互或者由分割策略得到的三元图进行抠图，这在多数场景中是一个普遍使用的策略。不同于其它的抠图场景，我们的场景中会非常容易得到无人像的背景区域，我们只需要在同样的环境下录取一组无人像的视频即可。

基于这个场景，我们采用了使用纯背景图作为先验的思想来优化我们的抠图效果。首先我们使用了和视频抠图类似的网络结构，不同点是我们发现相邻帧之间的信息对我们的抠图帮助不大，所以我们去掉了这一分支。在训练模型时，我们采用了有监督训练和无监督对抗训练两种方式。

我们的网络结构如图2的下半部分所示，它的输入有3个：视频的帧序列I,无人像的背景图B以及得到的3元图T。首先我们会根据分割算法得到的检测框将整张图的分割简化成只对人像的抠图，其它剩余部分默认为背景区域。然后我们使用3个残差网络对3个输入分别进行编码，他们编码之后会得到3组通道数为256的特征图。然后使用一个由1*1卷积，批归一化等操作组成的选择器来将输入图像的特征图分别和背景的特征图以及三元图的特征图进行融合。再然后我们使用一个由1*1卷积等操作构成的协调器来对视频帧的特征图以及两个选择器得到的特征图融合成一个通道数为256的特征图。最后通过两个不同的残差网络分支分别得到前景图片F以及透明度的蒙板α。

在训练分割模型时，我们采用了基于Adobe数据集的有监督训练和基于真实数据的对抗训练。在Adobe数据集中，它提供了450张前景图片F’以及与之对应的蒙板α’。由于我们的场景是对人像进行抠图，所以我们选择了其中100个和人比较接近的样本，通过将其和COCO数据集进行融合，我们得到了10万张带标签的数据进行有监督训练。

为了提升模型在我们特有场景的抠图效果，我们使用了基于LS-GAN的模型进行对抗训练。我们的对抗器需要判别的是我们的图片是真实拍摄的照片还是算法抠图生成的照片。我们的对抗学习是一个端到端可训练的一个网络。判别器的网络如图3所示，通过两个网络共同的训练，我们得到了最终的抠图预测网络。

后处理

由于我们的处理的视频的分辨率多为4K，所以抠图的后处理操作的速度是至关重要的，为了提升后处理的速度，我们后处理的操作均是基于CuPy进行开发。后处理主要分成如下几步：

1.我们使用阈值0.95对预测的蒙板α进行初步过滤；

2.因为我们要分割的人像必然是一个独立的连通域，我们取连通域面积最大的前景作为预测的抠图前景；

3.根据得到的人像区域的bounding box信息，将模型生成的预测的α蒙板还原成原图的大小并放置于原图对应的位置中；

4.根据业务场景确定不必参与抠图的部分(例如图2及图3中的电视区域)生成新的mask掩码。若无特殊需求，则会得到人像的抠图结果；

5.根据掩码得到最终的抠图结果。

图4示出了视频自动抠像系统的结构。参见图4，例如，所述视频自动抠像系统400可以用于充当视频图像处理系统中的人像提取主机。如本文所述，视频自动抠像系统400可以用于在视频图像处理系统中实现对人像图像的提取功能。视频自动抠像系统400可以在单个节点中实现，或者视频自动抠像系统400的功能可以在网络中的多个节点中实现。本领域的技术人员应意识到，术语视频自动抠像系统包括广泛意义上的设备，图4中示出的视频自动抠像系统400仅是其中一个示例。包括视频自动抠像系统400是为了表述清楚，并不旨在将本发明的应用限制为特定的视频自动抠像系统实施例或某一类视频自动抠像系统实施例。本发明所述的至少部分特征/方法可以在网络装置或组件，例如，视频自动抠像系统400中实现。例如，本发明中的特征/方法可以采用硬件、固件和/或在硬件上安装运行的软件实现。视频自动抠像系统400可以是任何通过网络处理，存储和/或转发数据帧的设备，例如，服务器，客户端，数据源等。如图4所示，视频自动抠像系统400可以包括收发器(Tx/Rx)410，其可以是发射器，接收器，或其组合。Tx/Rx 410可以耦合到多个端口450(例如上行接口和/或下行接口)，用于从其他节点发送和/或接收帧。处理器430可耦合至Tx/Rx410，以处理帧和/或确定向哪些节点发送帧。处理器430可以包括一个或多个多核处理器和/或存储器设备432，其可以用作数据存储器，缓冲区等。处理器430可以被实现为通用处理器，或者可以是一个或多个专用集成电路(application specific integrated circuit，简称ASIC)和/或数字信号处理器(digital signal processor，简称DSP)的一部分。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种视频自动抠像方法，其特征在于，包括：

将需要执行抠像的原始视频图像输入至初始分割模型，得到原始视频图像的三元图，三元图包括：前景区域，背景区域以及不确定区域；

将显示背景区域的背景图像及三元图作为先验信息，与原始视频图像一同输出至分割模型中，得到原始视频图像的抠像结果。

2.根据权利要求1所述的视频自动抠像方法，其特征在于，初始分割模型包括：原型网络，以及预测网络。

3.根据权利要求2所述的视频自动抠像方法，其特征在于，将需要执行抠像的原始视频图像输入至初始分割模型，得到原始视频图像的三元图，包括：

利用原型网络，为每个图片生成32个原型掩码；

利用预测网络，生成各个候选框类别的置信度，锚点的位置以及原型掩码的系数；

将预测网络得到的掩码系数和原型网络得到的原型掩码进行加权求和，得到输入图像的mask；

根据输入图像的mask，生成三元图。

4.根据权利要求3所述的视频自动抠像方法，其特征在于，根据输入图像的mask，生成三元图，包括：

通过腐蚀操作及高斯滤波操作，生成三元图。

5.根据权利要求1所述的视频自动抠像方法，其特征在于，将显示背景区域的背景图像及三元图作为先验信息，与原始视频图像一同输出至分割模型中，得到原始视频图像的抠像结果，包括：

根据分割模型得到的检测框将整张图的分割简化成只对人像的抠像，其它剩余部分默认为背景区域；

使用3个残差网络对3个输入分别进行编码，得到3组通道数为256的特征图；

使用一个由1*1卷积，批归一化等操作组成的选择器来将输入图像的特征图分别和背景的特征图以及三元图的特征图进行融合；

使用一个由1*1卷积等操作构成的协调器来对视频帧的特征图以及两个选择器得到的特征图融合成一个通道数为256的特征图；

通过两个不同的残差网络分支分别得到前景图片F以及透明度的蒙板α。

6.根据权利要求5所述的视频自动抠像方法，其特征在于，分割模型采用有监督训练和基于真实数据的对抗训练。

7.根据权利要求1所述的视频自动抠像方法，其特征在于，还包括：

在得到原始视频图像的抠像结果之后，对抠像结果进行后处理。

8.根据权利要求7所述的视频自动抠像方法，其特征在于，对抠像结果进行后处理，包括：

使用阈值0.95对预测的蒙板α进行初步过滤；

取连通域面积最大的前景作为预测的抠像前景；

根据人像区域的bounding box信息，将模型生成的预测的α蒙板还原成原图的大小并放置于原图对应的位置中。

9.根据权利要求8所述的视频自动抠像方法，其特征在于，对抠像结果进行后处理，还包括：

在将模型生成的预测的α蒙板还原成原图的大小并放置于原图对应的位置中之后，根据业务场景确定不必参与抠像的部分生成新的mask掩码；

根据mask掩码得到最终的抠像结果。

10.一种视频自动抠像系统，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至9任意一项所述的视频自动抠像方法。