CN111640187A

CN111640187A - 一种基于插值过渡的视频拼接方法及系统

Info

Publication number: CN111640187A
Application number: CN202010310346.7A
Authority: CN
Inventors: 邢云冰; 陈益强; 戴连君; 张钧
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-09-08
Anticipated expiration: 2040-04-20
Also published as: CN111640187B

Abstract

本发明提出一种基于插值过渡的视频拼接方法及系统，包括：统一视频前后的对象尺寸、查找最佳拼接点的位置、统一视频前后的光照亮度和对象位置，计算插值过渡图像的数量以及生成插值过渡图像序列。本发明提出的技术方案具有视频过渡平滑流畅，以及速度快，实时性强的技术效果。

Description

一种基于插值过渡的视频拼接方法及系统

技术领域

本发明涉及计算机视觉和视频处理技术领域，具体地说，本发明涉及一种利用插值过渡帧拼接视频的方法和系统。

背景技术

视频拼接是视频处理的一项重要内容。在视频通信中，当网络带宽波动时，可变码率的视频通信系统可以通过可伸缩编码的方式(例如调整分辨率，帧率或图像质量)动态调整码率，但对于固定码率的视频通信系统，接收端会出现明显的卡顿现象，具体表现为视频时断时续。对于第一种情况，可以对接收到的图像序列均匀插补来提高视频的帧率和播放的平滑度，对于第二种情况，需要对停顿的图像序列片段进行增补来保持视频的时长和播放的连续性。第一种情况的均匀插补可以看作是第二种情况的特例。

不同于在空间尺度的图像拼接，视频拼接是在时间尺度的处理，通过在相邻视频之间生成插值过渡图像，提高视频播放的流畅度。视频拼接在视频合成和视频编辑中也有广泛应用，比如在手语视频合成中，每个手语词对应一段视频，如果不同手语词对应的视频片段直接相接，相接后的手语视频可能会存在手部移动和角度转移偏差的问题，相邻视频在播放时会产生明显的视觉突兀切换现象，因此需要在相邻视频之间进行插值过渡。

目前对于视频片段的拼接主要有两种方法：传统基于光流的方法和基于深度学习的方法。

在基于光流的方法中，计算图像中每个像素点的光流，光流可以表示空间物体的运动变化信息，通过插值图像光流与相邻图像光流之间的线性关系，可以得到插值图像光流的表达形式从而生成插值过渡图像。

在基于深度学习的方法中，一般采用“训练+预测”的模式，在训练阶段通过已知的连续图像数据得到插值图像的生成模型，在预测阶段将相邻图像输入模型进行计算最终生成具有过渡效果的插值图像。为了达到更为自然流畅的播放效果，可以对拼接后的视频进行再平滑过渡处理。

基于光流的方法中，插值图像的质量对光流的准确度非常敏感，如果某个像素点的光流出错，会显著影响插值图像中正确位置和错误位置之间的所有区域。一方面，受搜索复杂度的影响，光流算法一般只在小范围内检测运动，而非连续的视频片段之间(例如两个不同的手语视频)运动幅度普遍较大，因此相邻图像之间很难准确检测出光流。另一方面，光流算法可以准确跟踪特征明显的像素点(例如角点)，但对于少纹理的目标(例如人手)，比较容易跟丢。

基于深度学习的方法中，普遍需要大量的数据进行模型的训练，获取训练数据是一件费时费力的事情，比如在手语视频合成中，并不存在表达多个手语词的连续视频。此外，深度学习的时间复杂度普遍较高，亦即不适合实时拼接场合。

视频图像可以分为前景和背景，前景由一个或多个目标对象组成，假设用P⁽ⁱ⁾表示第i个目标对象，则包含L个目标对象的图像

其中P⁽⁰⁾表示背景。每个目标对象包含若干关键节点，关键节点中部分属于锚节点。其中，关键节点是指相邻图像间可以获取对应关系的节点，锚节点是相邻图像中相对位置不变的节点。锚节点只作平移运动，非锚关键节点的运动由平移和转动两部分组成，在转动时需要相关关键节点作为支点，即非锚关键节点绕相关关键节点转动。

发明内容

针对上述问题，本发明提出一种基于插值过渡的视频拼接方法，其中包括：

步骤1、获取包含首视频和尾视频的待拼接的相邻视频片段，根据该首视频中每个目标对象的锚节点的平均距离值，调整该尾视频中所有图像的目标对象尺寸；

步骤2、以该相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值为坐标原点，得到每帧图像中同一目标对象的非锚关键节点的位置以及关键节点之间的方向，根据图像在视频片段的位置，得到该首视频和该尾视频的前后图像的拼接代价，取拼接代价最小的图像对，分别作为该首视频和该尾视频的最佳拼接点图像；

步骤3、以该首视频中每个目标对象的平均亮度值为基准，调整该尾视频中所有图像的目标对象的亮度，计算该首视频中最佳拼接点图像的每个目标对象的锚节点的平均位置值，并以该位置值为基准，调整该尾视频中所有图像的目标对象的位置；

步骤4、计算两个最佳拼接点图像之间的所有目标对象的所有非锚关键节点的运动轨迹和速度，通过该运动轨迹和该速度得到插值过渡图像的数量；

步骤5、根据两个最佳拼接点图像的所有目标对象的所有关键节点的位置值，插值过渡图像的数量和关键节点的运动轨迹，得到每帧插值过渡图像中关键节点的位置，以每帧插值过渡图像中关键节点和图像的边界节点为散点集做三角剖分，形成三角形网格，以每个三角形的顶点为目的顶点，分别以两个最佳拼接点图像的对应节点为源顶点，计算每对三角形的仿射变换，得到变换矩阵，分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域，计算三角形网格中所有三角形的变换矩阵，形成两个映射后的图像区域，分别对应两个最佳拼接点图像；

步骤6、根据两个最佳拼接点图像中区域的环境类别，将插值过渡图像的区域进行分类，根据插值过渡图像中各区域的类别，分别按照预设比例混合两个最佳拼接点图像，得到插值过渡图像，将包含该插值过渡图像的插值过渡图像序列拼接至该首视频和该尾视频之间，得到最终拼接视频。

所述的基于插值过渡的视频拼接方法，其中该步骤6中将插值过渡图像的区域进行分类具体包括：

将该插值过渡图像的区域分为三类：第一类区域是两个最佳拼接点图像中对应区域均为前景或均为背景，第二类区域是前一最佳拼接点图像的对应区域为前景而后一最佳拼接点图像的对应区域为背景，第三类区域是前一最佳拼接点图像的对应区域为背景而后一最佳拼接点图像的对应区域为前景。

所述的基于插值过渡的视频拼接方法，其中该步骤6包括：

依据该插值过渡图像在插值过渡图像序列中的位置k，在第一类区域中，将前一最佳拼接点图像P_T和后一最佳拼接点图像Q_S的像素按比例

和

混合，在第二类映类区域，将P_T的前景像素按比例

减少，Q_S的背景像素按比例

增加，在第三类映类区域，将Q_S的前景像素按比例

增加，P_T的背景像素按比例

减少；

其中，1≤k≤L，L为插值过渡图像序列的帧数。

所述的基于插值过渡的视频拼接方法，其中该步骤2中得到该首视频和该尾视频的前后图像的拼接代价具体包括：

其中α和β是平衡参数，

为尾视频中图像Q_j的非锚关键节点的位置，

为尾视频中图像Q_j的相关关键节点之间的方向，

为首视频中图像P_i的非锚关键节点的位置，

为首视频中图像P_i的相关关键节点之间的方向，i和j分别为图像在首视频和尾视频的位置。

所述的基于插值过渡的视频拼接方法，其中步骤4中该运动轨迹为直线或曲线。

本发明还提出了一种基于插值过渡的视频拼接系统，其中包括：

模块1、获取包含首视频和尾视频的待拼接的相邻视频片段，根据该首视频中每个目标对象的锚节点的平均距离值，调整该尾视频中所有图像的目标对象尺寸；

模块2、以该相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值为坐标原点，得到每帧图像中同一目标对象的非锚关键节点的位置以及关键节点之间的方向，根据图像在视频片段的位置，得到该首视频和该尾视频的前后图像的拼接代价，取拼接代价最小的图像对，分别作为该首视频和该尾视频的最佳拼接点图像；

模块3、以该首视频中每个目标对象的平均亮度值为基准，调整该尾视频中所有图像的目标对象的亮度，计算该首视频中最佳拼接点图像的每个目标对象的锚节点的平均位置值，并以该位置值为基准，调整该尾视频中所有图像的目标对象的位置；

模块4、计算两个最佳拼接点图像之间的所有目标对象的所有非锚关键节点的运动轨迹和速度，通过该运动轨迹和该速度得到插值过渡图像的数量；

模块5、根据两个最佳拼接点图像的所有目标对象的所有关键节点的位置值，插值过渡图像的数量和关键节点的运动轨迹，得到每帧插值过渡图像中关键节点的位置，以每帧插值过渡图像中关键节点和图像的边界节点为散点集做三角剖分，形成三角形网格，以每个三角形的顶点为目的顶点，分别以两个最佳拼接点图像的对应节点为源顶点，计算每对三角形的仿射变换，得到变换矩阵，分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域，计算三角形网格中所有三角形的变换矩阵，形成两个映射后的图像区域，分别对应两个最佳拼接点图像；

模块6、根据两个最佳拼接点图像中区域的环境类别，将插值过渡图像的区域进行分类，根据插值过渡图像中各区域的类别，分别按照预设比例混合两个最佳拼接点图像，得到插值过渡图像，将包含该插值过渡图像的插值过渡图像序列拼接至该首视频和该尾视频之间，得到最终拼接视频。

所述的基于插值过渡的视频拼接系统，其中该模块6中将插值过渡图像的区域进行分类具体包括：

所述的基于插值过渡的视频拼接系统，其中该模块6包括：

和

混合，在第二类映类区域，将P_T的前景像素按比例

减少，Q_S的背景像素按比例

增加，在第三类映类区域，将Q_S的前景像素按比例

增加，P_T的背景像素按比例

减少；

其中，1≤k≤L，L为插值过渡图像序列的帧数。

所述的基于插值过渡的视频拼接系统，其中该模块2中得到该首视频和该尾视频的前后图像的拼接代价具体包括：

其中α和β是平衡参数，

为尾视频中图像Q_j的非锚关键节点的位置，

为尾视频中图像Q_j的相关关键节点之间的方向，

为首视频中图像P_i的非锚关键节点的位置，

所述的基于插值过渡的视频拼接系统，其中模块4中该运动轨迹为直线或曲线。

与现有技术相比，本发明提出的技术方案具有以下优点：

(1)视频过渡平滑流畅，具有渐进过渡效果。本发明将视频图像分为背景、刚性前景和柔性前景，不同区域具有不同的过渡策略，重叠区域像素值按比例混合，非重叠区域像素按比例增减，符合人眼观察运动对象的反应过程。

(2)速度快，实时性强。无需对整帧图像进行搜索分析或网络递归。本发明所有计算处理均是基于单个像素，主要性能瓶颈在图像混合阶段计算最短距离，但其距离比较仅限定于三角形网格内，计算复杂度和关键节点的数量成反比，且采用合适的距离度量和搜索方式可提前获得结果。

附图说明

图1为人体关键节点的位置和方向(首尾是拼接点图像)；

图2为三角剖分(图1的中间图像)；

图3为三角形区域及对应的拼接点图像；

图4为插值过渡图像。

具体实施方式

本发明提出一种基于插值过渡的视频拼接方法：

步骤一、尺寸一致性。

在相邻视频片段中，计算前一段视频(首视频)中每个目标对象的锚节点的平均距离值，以该距离值为基准，调整后一段视频(尾视频)中所有图像的同一目标对象的尺寸。调整后一段视频中所有图像的所有目标对象的尺寸。

步骤二、查找最佳拼接点的位置。

计算相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值，以该位置值为坐标原点，重新计算该图像中同一目标对象的非锚关键节点的位置以及相关关键节点之间的方向。

在相邻视频片段中，计算前后图像的拼接代价，包括图像在视频片段的位置，所有目标对象的对应非锚关键节点的距离，所有目标对象的相关关键节点之间的方向差异。取拼接代价最小的图像对，分别作为相邻视频片段的最佳拼接点图像。删除前一段视频中最佳拼接点之后的所有图像以及后一段视频中最佳拼接点之前的所有图像。

步骤三、光照一致性和位置一致性。

在相邻视频片段中，计算前一段视频中每个目标对象的平均亮度值，以该亮度值为基准，调整后一段视频中所有图像的同一目标对象的亮度。调整后一段视频中所有图像的所有目标对象的亮度。

在相邻视频片段中，计算前一段视频中拼接点图像的每个目标对象的锚节点的平均位置值，以该位置值为基准，调整后一段视频中所有图像的同一目标对象的位置。调整后一段视频中所有图像的所有目标对象的位置。

步骤四、计算插值过渡图像的数量。

计算相邻视频片段中拼接点图像的所有目标对象的所有非锚关键节点的最长运动轨迹，其最长运动轨迹可以是直线也可以是曲线。分别计算拼接点图像的对应非锚关键节点的速度，即拼接点图像和相邻图像的对应节点的距离。通过运动轨迹和速度得到插值过渡图像的数量。

步骤五、生成插值过渡图像序列。

根据相邻视频片段中拼接点图像的所有目标对象的所有关键节点的位置值，插值过渡图像的数量和关键节点的运动轨迹，得到每帧插值过渡图像中对应关键节点的位置。

在每帧插值过渡图像中，以关键节点和图像的边界节点为散点集做三角剖分，形成三角形网格。以每个三角形的顶点为目的顶点，分别以两个拼接点图像的对应节点为源顶点，计算每对三角形的仿射变换。根据变换矩阵，分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域。计算三角形网格中所有三角形的变换矩阵，形成两个映射后的图像区域，分别对应两个拼接点图像。

将插值过渡图像的区域分为三类：一是两个拼接点图像中对应区域均为前景或均为背景，二是前一拼接点图像的对应区域为前景而后一拼接点图像的对应区域为背景，三是前一拼接点图像的对应区域为背景而后一拼接点图像的对应区域为前景。依据插值图像在整个图像序列中的位置，在第一类区域中，将两个拼接点图像的像素按比例混合，在第二类区域，将前一拼接点图像的前景像素按比例减少，后一拼接点图像的背景像素对应增加，在第三类区域，将后一拼接点图像的前景像素按比例增加，前一拼接点图像的背景像素对应减少。增加和减少的次序以前景像素和另一拼接点图像的前景的最短距离为度量标准。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

为了方便理解，在对本发明的方法做详细说明前，首先给出本发明方法的一个可能的应用场景。在手语视频合成中，需要对不同手语词对应的视频片段进行拼接，前一段手语视频由N帧图像组成，记为{P₁,P₂…P_N}，后一段手语视频由M帧图像组成，记为{Q_M,Q_M-1…Q₁}，并且

其中

和

分别表示图像P_i和Q_j的背景，为单一色，

和

表示人体，是前景中唯一的目标对象。在手语动作中，主要的运动对象是手部和胳膊，人体躯干可以认为是近似刚性的。因此人体的骨骼节点是关键节点，例如左右手、左右肘、左右五根手指等，其中颈部、左右肩和左右髋是锚节点，其坐标值以(X^joint,Y^joint)的形式表示，例如左手的坐标值为(X^LHand,Y^LHand)。

针对上述应用场景，下文给出了本发明的基于插值过渡的视频拼接的实施例。基本步骤如下：

步骤一、尺寸一致性。

分别计算前一段视频{P₁,P₂…P_N}和后一段视频{Q_M,Q_M-1…Q₁}中人体锚节点的平均距离值(W_P,H_P)和(W_Q,H_Q)。

分别以W_P/W_Q和H_P/H_Q为缩放比例，调整{Q_M,Q_M-1…Q₁}的宽度和高度。

步骤二、查找最佳拼接点的位置

计算前一段视频{P₁,P₂…P_N}中每帧图像P_i的人体锚节点的平均位置值

以

为坐标原点，重新计算图像P_i的人体非锚关键节点的位置

以及相关关键节点之间的方向

其中

是相关关键节点的位置，例如对于左手，其相关关键节点为左肘。

同理，计算后一段视频{Q_M,Q_M-1…Q₁}中每帧图像Q_j的人体非锚关键节点的位置

以及相关关键节点之间的方向

计算前后图像P_i和Q_j的拼接代价cost(P_i,Q_j)。

其中α和β是平衡参数，α决定了图像在视频片段的位置相对于对应人体非锚关键节点的距离的相对重要性，β平衡相关关键节点之间的方向差异的相对重要性。

取拼接代价最小的图像对P_T和Q_S，分别作为{P₁,P₂…P_N}和{Q_M,Q_M-1…Q₁}的最佳拼接点图像。删除{P₁,P₂…P_N}中编号T之后的所有图像以及{Q_M,Q_M-1…Q₁}中编号S之前的所有图像。

步骤三、光照一致性和位置一致性

分别计算前一段视频{P₁,P₂…P_T}和后一段视频{Q_S,Q_S-1…Q₁}中人体的平均亮度值L_P和L_Q，将{Q_S,Q_S-1…Q₁}中每帧图像的人体的亮度调高L_P-L_Q。

分别计算拼接点图像P_T和Q_S的人体锚节点的平均位置值

和

分别以

和

为移动尺度，调整{Q_S,Q_S-1…Q₁}的位置。

步骤四、计算插值过渡图像的数量

计算拼接点图像P_T和Q_S的人体非锚关键节点的最长运动轨迹，在本发明的实施例中，该运动轨迹为抛物线。

抛物线的一般轨迹方程为：

其中a,b,c,θ是抛物线的参数，t是方程的中间变量。以

为已知点，求解a,b,c,θ得到运动轨迹。

计算P_T和Q_S的人体非锚关键节点的轨迹长度

取最长的轨迹记为D_ST，分别计算D_ST对应节点的速度

和

在本发明的实施例中，人体非锚关键节点沿抛物线轨迹匀速运动，则插值过渡图像的数量为

步骤五、生成插值过渡图像序列

生成的插值过渡图像序列由L帧图像组成，记为{R₁,R₂…R_L}，以步骤四的方式计算拼接点图像P_T和Q_S的人体所有关键节点的运动轨迹，将每条运动轨迹均匀等分为L+1份，分割点即为每帧插值过渡图像R_k中对应人体关键节点的位置，其中1≤k≤L。如图1所示。

在R_k中，以人体关键节点和图像的8个边界节点(左上、右上、左下、右下、左中、右中、上中、下中)为散点集做三角剖分，形成三角形网格，如图2所示。以每个三角形的顶点为目的顶点，分别以P_T和Q_S的对应节点为源顶点，计算每对三角形的仿射变换。根据变换矩阵，分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域，如图3所示。计算三角形网格中所有三角形的变换矩阵，形成两个映射后的图像区域，分别对应P_T和Q_S。

将R_k的区域分为三类：一是P_T和Q_S中对应区域均为前景或均为背景，二是P_T的对应区域为前景而Q_S的对应区域为背景，三是P_T的对应区域为背景而Q_S的对应区域为前景。依据R_k在插值过渡图像序列中的位置k，在第一类区域中，将P_T和Q_S的像素按比例

和

混合，在第二类映类区域，将P_T的前景像素按比例

减少，Q_S的背景像素对应增加，在第三类映类区域，将Q_S的前景像素按比例

增加，P_T的背景像素对应减少。增加和减少的次序以前景像素和另一拼接点图像的前景的最短距离为度量标准，如图4所示。优选的，为了以最小的时间复杂度和空间复杂度计算最短距离，采用曼哈顿距离作为度量标准，且从前景像素当前位置起始向四周扩散搜索。其中次序指的是，以第二类区域为例，假设该区域共有100个像素，其中30个是前景，每个前景像素都对应一个最短距离。若k＝1，L＝9，表明第1帧插值图像仅保留P_T的90％前景像素，也就是按比例减少

减少的10％是最短距离最大的那些像素，减少的10％那些区域，就用Q_S的对应区域覆盖，也就是对应增加。

应当理解，根据本发明的实施例，可以采用现有技术中的任一方法获取人体关键节点(包括锚节点)，例如可以通过Kinect摄像头直接获取，也可通过人体姿态识别(例如深度学习)的方式计算得到。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

所述的基于插值过渡的视频拼接系统，其中该模块6包括：

和

混合，在第二类映类区域，将P_T的前景像素按比例

减少，Q_S的背景像素按比例

增加，在第三类映类区域，将Q_S的前景像素按比例

增加，P_T的背景像素按比例

减少；

其中，1≤k≤L，L为插值过渡图像序列的帧数。

其中α和β是平衡参数，

为尾视频中图像Q_j的非锚关键节点的位置，

为尾视频中图像Q_j的相关关键节点之间的方向，

为首视频中图像P_i的非锚关键节点的位置，