CN111640187A - 一种基于插值过渡的视频拼接方法及系统 - Google Patents
一种基于插值过渡的视频拼接方法及系统 Download PDFInfo
- Publication number
- CN111640187A CN111640187A CN202010310346.7A CN202010310346A CN111640187A CN 111640187 A CN111640187 A CN 111640187A CN 202010310346 A CN202010310346 A CN 202010310346A CN 111640187 A CN111640187 A CN 111640187A
- Authority
- CN
- China
- Prior art keywords
- video
- image
- images
- splicing point
- tail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007704 transition Effects 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000009466 transformation Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 19
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005286 illumination Methods 0.000 abstract description 2
- 230000003287 optical effect Effects 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23424—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Marketing (AREA)
- Business, Economics & Management (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Studio Circuits (AREA)
Abstract
本发明提出一种基于插值过渡的视频拼接方法及系统,包括:统一视频前后的对象尺寸、查找最佳拼接点的位置、统一视频前后的光照亮度和对象位置,计算插值过渡图像的数量以及生成插值过渡图像序列。本发明提出的技术方案具有视频过渡平滑流畅,以及速度快,实时性强的技术效果。
Description
技术领域
本发明涉及计算机视觉和视频处理技术领域,具体地说,本发明涉及一种利用插值过渡帧拼接视频的方法和系统。
背景技术
视频拼接是视频处理的一项重要内容。在视频通信中,当网络带宽波动时,可变码率的视频通信系统可以通过可伸缩编码的方式(例如调整分辨率,帧率或图像质量)动态调整码率,但对于固定码率的视频通信系统,接收端会出现明显的卡顿现象,具体表现为视频时断时续。对于第一种情况,可以对接收到的图像序列均匀插补来提高视频的帧率和播放的平滑度,对于第二种情况,需要对停顿的图像序列片段进行增补来保持视频的时长和播放的连续性。第一种情况的均匀插补可以看作是第二种情况的特例。
不同于在空间尺度的图像拼接,视频拼接是在时间尺度的处理,通过在相邻视频之间生成插值过渡图像,提高视频播放的流畅度。视频拼接在视频合成和视频编辑中也有广泛应用,比如在手语视频合成中,每个手语词对应一段视频,如果不同手语词对应的视频片段直接相接,相接后的手语视频可能会存在手部移动和角度转移偏差的问题,相邻视频在播放时会产生明显的视觉突兀切换现象,因此需要在相邻视频之间进行插值过渡。
目前对于视频片段的拼接主要有两种方法:传统基于光流的方法和基于深度学习的方法。
在基于光流的方法中,计算图像中每个像素点的光流,光流可以表示空间物体的运动变化信息,通过插值图像光流与相邻图像光流之间的线性关系,可以得到插值图像光流的表达形式从而生成插值过渡图像。
在基于深度学习的方法中,一般采用“训练+预测”的模式,在训练阶段通过已知的连续图像数据得到插值图像的生成模型,在预测阶段将相邻图像输入模型进行计算最终生成具有过渡效果的插值图像。为了达到更为自然流畅的播放效果,可以对拼接后的视频进行再平滑过渡处理。
基于光流的方法中,插值图像的质量对光流的准确度非常敏感,如果某个像素点的光流出错,会显著影响插值图像中正确位置和错误位置之间的所有区域。一方面,受搜索复杂度的影响,光流算法一般只在小范围内检测运动,而非连续的视频片段之间(例如两个不同的手语视频)运动幅度普遍较大,因此相邻图像之间很难准确检测出光流。另一方面,光流算法可以准确跟踪特征明显的像素点(例如角点),但对于少纹理的目标(例如人手),比较容易跟丢。
基于深度学习的方法中,普遍需要大量的数据进行模型的训练,获取训练数据是一件费时费力的事情,比如在手语视频合成中,并不存在表达多个手语词的连续视频。此外,深度学习的时间复杂度普遍较高,亦即不适合实时拼接场合。
视频图像可以分为前景和背景,前景由一个或多个目标对象组成,假设用P(i)表示第i个目标对象,则包含L个目标对象的图像其中P(0)表示背景。每个目标对象包含若干关键节点,关键节点中部分属于锚节点。其中,关键节点是指相邻图像间可以获取对应关系的节点,锚节点是相邻图像中相对位置不变的节点。锚节点只作平移运动,非锚关键节点的运动由平移和转动两部分组成,在转动时需要相关关键节点作为支点,即非锚关键节点绕相关关键节点转动。
发明内容
针对上述问题,本发明提出一种基于插值过渡的视频拼接方法,其中包括:
步骤1、获取包含首视频和尾视频的待拼接的相邻视频片段,根据该首视频中每个目标对象的锚节点的平均距离值,调整该尾视频中所有图像的目标对象尺寸;
步骤2、以该相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值为坐标原点,得到每帧图像中同一目标对象的非锚关键节点的位置以及关键节点之间的方向,根据图像在视频片段的位置,得到该首视频和该尾视频的前后图像的拼接代价,取拼接代价最小的图像对,分别作为该首视频和该尾视频的最佳拼接点图像;
步骤3、以该首视频中每个目标对象的平均亮度值为基准,调整该尾视频中所有图像的目标对象的亮度,计算该首视频中最佳拼接点图像的每个目标对象的锚节点的平均位置值,并以该位置值为基准,调整该尾视频中所有图像的目标对象的位置;
步骤4、计算两个最佳拼接点图像之间的所有目标对象的所有非锚关键节点的运动轨迹和速度,通过该运动轨迹和该速度得到插值过渡图像的数量;
步骤5、根据两个最佳拼接点图像的所有目标对象的所有关键节点的位置值,插值过渡图像的数量和关键节点的运动轨迹,得到每帧插值过渡图像中关键节点的位置,以每帧插值过渡图像中关键节点和图像的边界节点为散点集做三角剖分,形成三角形网格,以每个三角形的顶点为目的顶点,分别以两个最佳拼接点图像的对应节点为源顶点,计算每对三角形的仿射变换,得到变换矩阵,分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域,计算三角形网格中所有三角形的变换矩阵,形成两个映射后的图像区域,分别对应两个最佳拼接点图像;
步骤6、根据两个最佳拼接点图像中区域的环境类别,将插值过渡图像的区域进行分类,根据插值过渡图像中各区域的类别,分别按照预设比例混合两个最佳拼接点图像,得到插值过渡图像,将包含该插值过渡图像的插值过渡图像序列拼接至该首视频和该尾视频之间,得到最终拼接视频。
所述的基于插值过渡的视频拼接方法,其中该步骤6中将插值过渡图像的区域进行分类具体包括:
将该插值过渡图像的区域分为三类:第一类区域是两个最佳拼接点图像中对应区域均为前景或均为背景,第二类区域是前一最佳拼接点图像的对应区域为前景而后一最佳拼接点图像的对应区域为背景,第三类区域是前一最佳拼接点图像的对应区域为背景而后一最佳拼接点图像的对应区域为前景。
所述的基于插值过渡的视频拼接方法,其中该步骤6包括:
依据该插值过渡图像在插值过渡图像序列中的位置k,在第一类区域中,将前一最佳拼接点图像PT和后一最佳拼接点图像QS的像素按比例和混合,在第二类映类区域,将PT的前景像素按比例减少,QS的背景像素按比例增加,在第三类映类区域,将QS的前景像素按比例增加,PT的背景像素按比例减少;
其中,1≤k≤L,L为插值过渡图像序列的帧数。
所述的基于插值过渡的视频拼接方法,其中该步骤2中得到该首视频和该尾视频的前后图像的拼接代价具体包括:
其中α和β是平衡参数,为尾视频中图像Qj的非锚关键节点的位置,为尾视频中图像Qj的相关关键节点之间的方向,为首视频中图像Pi的非锚关键节点的位置,为首视频中图像Pi的相关关键节点之间的方向,i和j分别为图像在首视频和尾视频的位置。
所述的基于插值过渡的视频拼接方法,其中步骤4中该运动轨迹为直线或曲线。
本发明还提出了一种基于插值过渡的视频拼接系统,其中包括:
模块1、获取包含首视频和尾视频的待拼接的相邻视频片段,根据该首视频中每个目标对象的锚节点的平均距离值,调整该尾视频中所有图像的目标对象尺寸;
模块2、以该相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值为坐标原点,得到每帧图像中同一目标对象的非锚关键节点的位置以及关键节点之间的方向,根据图像在视频片段的位置,得到该首视频和该尾视频的前后图像的拼接代价,取拼接代价最小的图像对,分别作为该首视频和该尾视频的最佳拼接点图像;
模块3、以该首视频中每个目标对象的平均亮度值为基准,调整该尾视频中所有图像的目标对象的亮度,计算该首视频中最佳拼接点图像的每个目标对象的锚节点的平均位置值,并以该位置值为基准,调整该尾视频中所有图像的目标对象的位置;
模块4、计算两个最佳拼接点图像之间的所有目标对象的所有非锚关键节点的运动轨迹和速度,通过该运动轨迹和该速度得到插值过渡图像的数量;
模块5、根据两个最佳拼接点图像的所有目标对象的所有关键节点的位置值,插值过渡图像的数量和关键节点的运动轨迹,得到每帧插值过渡图像中关键节点的位置,以每帧插值过渡图像中关键节点和图像的边界节点为散点集做三角剖分,形成三角形网格,以每个三角形的顶点为目的顶点,分别以两个最佳拼接点图像的对应节点为源顶点,计算每对三角形的仿射变换,得到变换矩阵,分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域,计算三角形网格中所有三角形的变换矩阵,形成两个映射后的图像区域,分别对应两个最佳拼接点图像;
模块6、根据两个最佳拼接点图像中区域的环境类别,将插值过渡图像的区域进行分类,根据插值过渡图像中各区域的类别,分别按照预设比例混合两个最佳拼接点图像,得到插值过渡图像,将包含该插值过渡图像的插值过渡图像序列拼接至该首视频和该尾视频之间,得到最终拼接视频。
所述的基于插值过渡的视频拼接系统,其中该模块6中将插值过渡图像的区域进行分类具体包括:
将该插值过渡图像的区域分为三类:第一类区域是两个最佳拼接点图像中对应区域均为前景或均为背景,第二类区域是前一最佳拼接点图像的对应区域为前景而后一最佳拼接点图像的对应区域为背景,第三类区域是前一最佳拼接点图像的对应区域为背景而后一最佳拼接点图像的对应区域为前景。
所述的基于插值过渡的视频拼接系统,其中该模块6包括:
依据该插值过渡图像在插值过渡图像序列中的位置k,在第一类区域中,将前一最佳拼接点图像PT和后一最佳拼接点图像QS的像素按比例和混合,在第二类映类区域,将PT的前景像素按比例减少,QS的背景像素按比例增加,在第三类映类区域,将QS的前景像素按比例增加,PT的背景像素按比例减少;
其中,1≤k≤L,L为插值过渡图像序列的帧数。
所述的基于插值过渡的视频拼接系统,其中该模块2中得到该首视频和该尾视频的前后图像的拼接代价具体包括:
其中α和β是平衡参数,为尾视频中图像Qj的非锚关键节点的位置,为尾视频中图像Qj的相关关键节点之间的方向,为首视频中图像Pi的非锚关键节点的位置,为首视频中图像Pi的相关关键节点之间的方向,i和j分别为图像在首视频和尾视频的位置。
所述的基于插值过渡的视频拼接系统,其中模块4中该运动轨迹为直线或曲线。
与现有技术相比,本发明提出的技术方案具有以下优点:
(1)视频过渡平滑流畅,具有渐进过渡效果。本发明将视频图像分为背景、刚性前景和柔性前景,不同区域具有不同的过渡策略,重叠区域像素值按比例混合,非重叠区域像素按比例增减,符合人眼观察运动对象的反应过程。
(2)速度快,实时性强。无需对整帧图像进行搜索分析或网络递归。本发明所有计算处理均是基于单个像素,主要性能瓶颈在图像混合阶段计算最短距离,但其距离比较仅限定于三角形网格内,计算复杂度和关键节点的数量成反比,且采用合适的距离度量和搜索方式可提前获得结果。
附图说明
图1为人体关键节点的位置和方向(首尾是拼接点图像);
图2为三角剖分(图1的中间图像);
图3为三角形区域及对应的拼接点图像;
图4为插值过渡图像。
具体实施方式
本发明提出一种基于插值过渡的视频拼接方法:
步骤一、尺寸一致性。
在相邻视频片段中,计算前一段视频(首视频)中每个目标对象的锚节点的平均距离值,以该距离值为基准,调整后一段视频(尾视频)中所有图像的同一目标对象的尺寸。调整后一段视频中所有图像的所有目标对象的尺寸。
步骤二、查找最佳拼接点的位置。
计算相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值,以该位置值为坐标原点,重新计算该图像中同一目标对象的非锚关键节点的位置以及相关关键节点之间的方向。
在相邻视频片段中,计算前后图像的拼接代价,包括图像在视频片段的位置,所有目标对象的对应非锚关键节点的距离,所有目标对象的相关关键节点之间的方向差异。取拼接代价最小的图像对,分别作为相邻视频片段的最佳拼接点图像。删除前一段视频中最佳拼接点之后的所有图像以及后一段视频中最佳拼接点之前的所有图像。
步骤三、光照一致性和位置一致性。
在相邻视频片段中,计算前一段视频中每个目标对象的平均亮度值,以该亮度值为基准,调整后一段视频中所有图像的同一目标对象的亮度。调整后一段视频中所有图像的所有目标对象的亮度。
在相邻视频片段中,计算前一段视频中拼接点图像的每个目标对象的锚节点的平均位置值,以该位置值为基准,调整后一段视频中所有图像的同一目标对象的位置。调整后一段视频中所有图像的所有目标对象的位置。
步骤四、计算插值过渡图像的数量。
计算相邻视频片段中拼接点图像的所有目标对象的所有非锚关键节点的最长运动轨迹,其最长运动轨迹可以是直线也可以是曲线。分别计算拼接点图像的对应非锚关键节点的速度,即拼接点图像和相邻图像的对应节点的距离。通过运动轨迹和速度得到插值过渡图像的数量。
步骤五、生成插值过渡图像序列。
根据相邻视频片段中拼接点图像的所有目标对象的所有关键节点的位置值,插值过渡图像的数量和关键节点的运动轨迹,得到每帧插值过渡图像中对应关键节点的位置。
在每帧插值过渡图像中,以关键节点和图像的边界节点为散点集做三角剖分,形成三角形网格。以每个三角形的顶点为目的顶点,分别以两个拼接点图像的对应节点为源顶点,计算每对三角形的仿射变换。根据变换矩阵,分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域。计算三角形网格中所有三角形的变换矩阵,形成两个映射后的图像区域,分别对应两个拼接点图像。
将插值过渡图像的区域分为三类:一是两个拼接点图像中对应区域均为前景或均为背景,二是前一拼接点图像的对应区域为前景而后一拼接点图像的对应区域为背景,三是前一拼接点图像的对应区域为背景而后一拼接点图像的对应区域为前景。依据插值图像在整个图像序列中的位置,在第一类区域中,将两个拼接点图像的像素按比例混合,在第二类区域,将前一拼接点图像的前景像素按比例减少,后一拼接点图像的背景像素对应增加,在第三类区域,将后一拼接点图像的前景像素按比例增加,前一拼接点图像的背景像素对应减少。增加和减少的次序以前景像素和另一拼接点图像的前景的最短距离为度量标准。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
为了方便理解,在对本发明的方法做详细说明前,首先给出本发明方法的一个可能的应用场景。在手语视频合成中,需要对不同手语词对应的视频片段进行拼接,前一段手语视频由N帧图像组成,记为{P1,P2…PN},后一段手语视频由M帧图像组成,记为{QM,QM-1…Q1},并且 其中和分别表示图像Pi和Qj的背景,为单一色,和表示人体,是前景中唯一的目标对象。在手语动作中,主要的运动对象是手部和胳膊,人体躯干可以认为是近似刚性的。因此人体的骨骼节点是关键节点,例如左右手、左右肘、左右五根手指等,其中颈部、左右肩和左右髋是锚节点,其坐标值以(Xjoint,Yjoint)的形式表示,例如左手的坐标值为(XLHand,YLHand)。
针对上述应用场景,下文给出了本发明的基于插值过渡的视频拼接的实施例。基本步骤如下:
步骤一、尺寸一致性。
分别计算前一段视频{P1,P2…PN}和后一段视频{QM,QM-1…Q1}中人体锚节点的平均距离值(WP,HP)和(WQ,HQ)。
分别以WP/WQ和HP/HQ为缩放比例,调整{QM,QM-1…Q1}的宽度和高度。
步骤二、查找最佳拼接点的位置
计算前后图像Pi和Qj的拼接代价cost(Pi,Qj)。
其中α和β是平衡参数,α决定了图像在视频片段的位置相对于对应人体非锚关键节点的距离的相对重要性,β平衡相关关键节点之间的方向差异的相对重要性。
取拼接代价最小的图像对PT和QS,分别作为{P1,P2…PN}和{QM,QM-1…Q1}的最佳拼接点图像。删除{P1,P2…PN}中编号T之后的所有图像以及{QM,QM-1…Q1}中编号S之前的所有图像。
步骤三、光照一致性和位置一致性
分别计算前一段视频{P1,P2…PT}和后一段视频{QS,QS-1…Q1}中人体的平均亮度值LP和LQ,将{QS,QS-1…Q1}中每帧图像的人体的亮度调高LP-LQ。
步骤四、计算插值过渡图像的数量
计算拼接点图像PT和QS的人体非锚关键节点的最长运动轨迹,在本发明的实施例中,该运动轨迹为抛物线。
抛物线的一般轨迹方程为:
在本发明的实施例中,人体非锚关键节点沿抛物线轨迹匀速运动,则插值过渡图像的数量为
步骤五、生成插值过渡图像序列
生成的插值过渡图像序列由L帧图像组成,记为{R1,R2…RL},以步骤四的方式计算拼接点图像PT和QS的人体所有关键节点的运动轨迹,将每条运动轨迹均匀等分为L+1份,分割点即为每帧插值过渡图像Rk中对应人体关键节点的位置,其中1≤k≤L。如图1所示。
在Rk中,以人体关键节点和图像的8个边界节点(左上、右上、左下、右下、左中、右中、上中、下中)为散点集做三角剖分,形成三角形网格,如图2所示。以每个三角形的顶点为目的顶点,分别以PT和QS的对应节点为源顶点,计算每对三角形的仿射变换。根据变换矩阵,分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域,如图3所示。计算三角形网格中所有三角形的变换矩阵,形成两个映射后的图像区域,分别对应PT和QS。
将Rk的区域分为三类:一是PT和QS中对应区域均为前景或均为背景,二是PT的对应区域为前景而QS的对应区域为背景,三是PT的对应区域为背景而QS的对应区域为前景。依据Rk在插值过渡图像序列中的位置k,在第一类区域中,将PT和QS的像素按比例和混合,在第二类映类区域,将PT的前景像素按比例减少,QS的背景像素对应增加,在第三类映类区域,将QS的前景像素按比例增加,PT的背景像素对应减少。增加和减少的次序以前景像素和另一拼接点图像的前景的最短距离为度量标准,如图4所示。优选的,为了以最小的时间复杂度和空间复杂度计算最短距离,采用曼哈顿距离作为度量标准,且从前景像素当前位置起始向四周扩散搜索。其中次序指的是,以第二类区域为例,假设该区域共有100个像素,其中30个是前景,每个前景像素都对应一个最短距离。若k=1,L=9,表明第1帧插值图像仅保留PT的90%前景像素,也就是按比例减少减少的10%是最短距离最大的那些像素,减少的10%那些区域,就用QS的对应区域覆盖,也就是对应增加。
应当理解,根据本发明的实施例,可以采用现有技术中的任一方法获取人体关键节点(包括锚节点),例如可以通过Kinect摄像头直接获取,也可通过人体姿态识别(例如深度学习)的方式计算得到。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于插值过渡的视频拼接系统,其中包括:
模块1、获取包含首视频和尾视频的待拼接的相邻视频片段,根据该首视频中每个目标对象的锚节点的平均距离值,调整该尾视频中所有图像的目标对象尺寸;
模块2、以该相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值为坐标原点,得到每帧图像中同一目标对象的非锚关键节点的位置以及关键节点之间的方向,根据图像在视频片段的位置,得到该首视频和该尾视频的前后图像的拼接代价,取拼接代价最小的图像对,分别作为该首视频和该尾视频的最佳拼接点图像;
模块3、以该首视频中每个目标对象的平均亮度值为基准,调整该尾视频中所有图像的目标对象的亮度,计算该首视频中最佳拼接点图像的每个目标对象的锚节点的平均位置值,并以该位置值为基准,调整该尾视频中所有图像的目标对象的位置;
模块4、计算两个最佳拼接点图像之间的所有目标对象的所有非锚关键节点的运动轨迹和速度,通过该运动轨迹和该速度得到插值过渡图像的数量;
模块5、根据两个最佳拼接点图像的所有目标对象的所有关键节点的位置值,插值过渡图像的数量和关键节点的运动轨迹,得到每帧插值过渡图像中关键节点的位置,以每帧插值过渡图像中关键节点和图像的边界节点为散点集做三角剖分,形成三角形网格,以每个三角形的顶点为目的顶点,分别以两个最佳拼接点图像的对应节点为源顶点,计算每对三角形的仿射变换,得到变换矩阵,分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域,计算三角形网格中所有三角形的变换矩阵,形成两个映射后的图像区域,分别对应两个最佳拼接点图像;
模块6、根据两个最佳拼接点图像中区域的环境类别,将插值过渡图像的区域进行分类,根据插值过渡图像中各区域的类别,分别按照预设比例混合两个最佳拼接点图像,得到插值过渡图像,将包含该插值过渡图像的插值过渡图像序列拼接至该首视频和该尾视频之间,得到最终拼接视频。
所述的基于插值过渡的视频拼接系统,其中该模块6中将插值过渡图像的区域进行分类具体包括:
将该插值过渡图像的区域分为三类:第一类区域是两个最佳拼接点图像中对应区域均为前景或均为背景,第二类区域是前一最佳拼接点图像的对应区域为前景而后一最佳拼接点图像的对应区域为背景,第三类区域是前一最佳拼接点图像的对应区域为背景而后一最佳拼接点图像的对应区域为前景。
所述的基于插值过渡的视频拼接系统,其中该模块6包括:
依据该插值过渡图像在插值过渡图像序列中的位置k,在第一类区域中,将前一最佳拼接点图像PT和后一最佳拼接点图像QS的像素按比例和混合,在第二类映类区域,将PT的前景像素按比例减少,QS的背景像素按比例增加,在第三类映类区域,将QS的前景像素按比例增加,PT的背景像素按比例减少;
其中,1≤k≤L,L为插值过渡图像序列的帧数。
所述的基于插值过渡的视频拼接系统,其中该模块2中得到该首视频和该尾视频的前后图像的拼接代价具体包括:
Claims (10)
1.一种基于插值过渡的视频拼接方法,其特征在于,包括:
步骤1、获取包含首视频和尾视频的待拼接的相邻视频片段,根据该首视频中每个目标对象的锚节点的平均距离值,调整该尾视频中所有图像的目标对象尺寸;
步骤2、以该相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值为坐标原点,得到每帧图像中同一目标对象的非锚关键节点的位置以及关键节点之间的方向,根据图像在视频片段的位置,得到该首视频和该尾视频的前后图像的拼接代价,取拼接代价最小的图像对,分别作为该首视频和该尾视频的最佳拼接点图像;
步骤3、以该首视频中每个目标对象的平均亮度值为基准,调整该尾视频中所有图像的目标对象的亮度,计算该首视频中最佳拼接点图像的每个目标对象的锚节点的平均位置值,并以该位置值为基准,调整该尾视频中所有图像的目标对象的位置;
步骤4、计算两个最佳拼接点图像之间的所有目标对象的所有非锚关键节点的运动轨迹和速度,通过该运动轨迹和该速度得到插值过渡图像的数量;
步骤5、根据两个最佳拼接点图像的所有目标对象的所有关键节点的位置值,插值过渡图像的数量和关键节点的运动轨迹,得到每帧插值过渡图像中关键节点的位置,以每帧插值过渡图像中关键节点和图像的边界节点为散点集做三角剖分,形成三角形网格,以每个三角形的顶点为目的顶点,分别以两个最佳拼接点图像的对应节点为源顶点,计算每对三角形的仿射变换,得到变换矩阵,分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域,计算三角形网格中所有三角形的变换矩阵,形成两个映射后的图像区域,分别对应两个最佳拼接点图像;
步骤6、根据两个最佳拼接点图像中区域的环境类别,将插值过渡图像的区域进行分类,根据插值过渡图像中各区域的类别,分别按照预设比例混合两个最佳拼接点图像,得到插值过渡图像,将包含该插值过渡图像的插值过渡图像序列拼接至该首视频和该尾视频之间,得到最终拼接视频。
2.如权利要求1所述的基于插值过渡的视频拼接方法,其特征在于,该步骤6中将插值过渡图像的区域进行分类具体包括:
将该插值过渡图像的区域分为三类:第一类区域是两个最佳拼接点图像中对应区域均为前景或均为背景,第二类区域是前一最佳拼接点图像的对应区域为前景而后一最佳拼接点图像的对应区域为背景,第三类区域是前一最佳拼接点图像的对应区域为背景而后一最佳拼接点图像的对应区域为前景。
5.如权利要求1所述的基于插值过渡的视频拼接方法,其特征在于,步骤4中该运动轨迹为直线或曲线。
6.一种基于插值过渡的视频拼接系统,其特征在于,包括:
模块1、获取包含首视频和尾视频的待拼接的相邻视频片段,根据该首视频中每个目标对象的锚节点的平均距离值,调整该尾视频中所有图像的目标对象尺寸;
模块2、以该相邻视频片段中每帧图像的每个目标对象的锚节点的平均位置值为坐标原点,得到每帧图像中同一目标对象的非锚关键节点的位置以及关键节点之间的方向,根据图像在视频片段的位置,得到该首视频和该尾视频的前后图像的拼接代价,取拼接代价最小的图像对,分别作为该首视频和该尾视频的最佳拼接点图像;
模块3、以该首视频中每个目标对象的平均亮度值为基准,调整该尾视频中所有图像的目标对象的亮度,计算该首视频中最佳拼接点图像的每个目标对象的锚节点的平均位置值,并以该位置值为基准,调整该尾视频中所有图像的目标对象的位置;
模块4、计算两个最佳拼接点图像之间的所有目标对象的所有非锚关键节点的运动轨迹和速度,通过该运动轨迹和该速度得到插值过渡图像的数量;
模块5、根据两个最佳拼接点图像的所有目标对象的所有关键节点的位置值,插值过渡图像的数量和关键节点的运动轨迹,得到每帧插值过渡图像中关键节点的位置,以每帧插值过渡图像中关键节点和图像的边界节点为散点集做三角剖分,形成三角形网格,以每个三角形的顶点为目的顶点,分别以两个最佳拼接点图像的对应节点为源顶点,计算每对三角形的仿射变换,得到变换矩阵,分别将源顶点组成的三角形图像映射到目的顶点组成的三角形区域,计算三角形网格中所有三角形的变换矩阵,形成两个映射后的图像区域,分别对应两个最佳拼接点图像;
模块6、根据两个最佳拼接点图像中区域的环境类别,将插值过渡图像的区域进行分类,根据插值过渡图像中各区域的类别,分别按照预设比例混合两个最佳拼接点图像,得到插值过渡图像,将包含该插值过渡图像的插值过渡图像序列拼接至该首视频和该尾视频之间,得到最终拼接视频。
7.如权利要求6所述的基于插值过渡的视频拼接系统,其特征在于,该模块6中将插值过渡图像的区域进行分类具体包括:
将该插值过渡图像的区域分为三类:第一类区域是两个最佳拼接点图像中对应区域均为前景或均为背景,第二类区域是前一最佳拼接点图像的对应区域为前景而后一最佳拼接点图像的对应区域为背景,第三类区域是前一最佳拼接点图像的对应区域为背景而后一最佳拼接点图像的对应区域为前景。
10.如权利要求6所述的基于插值过渡的视频拼接系统,其特征在于,模块4中该运动轨迹为直线或曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310346.7A CN111640187B (zh) | 2020-04-20 | 2020-04-20 | 一种基于插值过渡的视频拼接方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310346.7A CN111640187B (zh) | 2020-04-20 | 2020-04-20 | 一种基于插值过渡的视频拼接方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111640187A true CN111640187A (zh) | 2020-09-08 |
CN111640187B CN111640187B (zh) | 2023-05-02 |
Family
ID=72332727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010310346.7A Active CN111640187B (zh) | 2020-04-20 | 2020-04-20 | 一种基于插值过渡的视频拼接方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111640187B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200739A (zh) * | 2020-09-30 | 2021-01-08 | 北京大米科技有限公司 | 一种视频处理的方法、装置、可读存储介质和电子设备 |
CN113518235A (zh) * | 2021-04-30 | 2021-10-19 | 广州繁星互娱信息科技有限公司 | 直播视频数据生成方法、装置及存储介质 |
CN113766275A (zh) * | 2021-09-29 | 2021-12-07 | 北京达佳互联信息技术有限公司 | 视频剪辑方法、装置、终端及存储介质 |
CN114125324A (zh) * | 2021-11-08 | 2022-03-01 | 北京百度网讯科技有限公司 | 一种视频拼接方法、装置、电子设备及存储介质 |
CN114286174A (zh) * | 2021-12-16 | 2022-04-05 | 天翼爱音乐文化科技有限公司 | 一种基于目标匹配的视频剪辑方法、系统、设备及介质 |
WO2022193090A1 (zh) * | 2021-03-15 | 2022-09-22 | 深圳市大疆创新科技有限公司 | 视频处理方法、电子设备及计算机可读存储介质 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1694512A (zh) * | 2005-06-24 | 2005-11-09 | 清华大学 | 一种交互式多视点视频系统中虚拟视点的合成方法 |
US20090300692A1 (en) * | 2008-06-02 | 2009-12-03 | Mavlankar Aditya A | Systems and methods for video streaming and display |
CN102201115A (zh) * | 2011-04-07 | 2011-09-28 | 湖南天幕智能科技有限公司 | 无人机航拍视频实时全景图拼接方法 |
CN102307309A (zh) * | 2011-07-29 | 2012-01-04 | 杭州电子科技大学 | 一种基于自由视点的体感交互导播系统及方法 |
CN102903085A (zh) * | 2012-09-25 | 2013-01-30 | 福州大学 | 基于角点匹配的快速图像拼接方法 |
CN102999901A (zh) * | 2012-10-17 | 2013-03-27 | 中国科学院计算技术研究所 | 基于深度传感器的在线视频分割后的处理方法及系统 |
CN103489165A (zh) * | 2013-10-01 | 2014-01-01 | 中国人民解放军国防科学技术大学 | 一种面向视频拼接的小数查找表生成方法 |
CN103501415A (zh) * | 2013-10-01 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于重叠部分结构变形的视频实时拼接方法 |
CN103533266A (zh) * | 2013-10-01 | 2014-01-22 | 中国人民解放军国防科学技术大学 | 垂直方向宽视域的360度拼接式全景摄像机 |
CN103646416A (zh) * | 2013-12-18 | 2014-03-19 | 中国科学院计算技术研究所 | 一种三维卡通人脸纹理生成方法及设备 |
CN104091318A (zh) * | 2014-06-16 | 2014-10-08 | 北京工业大学 | 一种中国手语视频过渡帧的合成方法 |
CN104103050A (zh) * | 2014-08-07 | 2014-10-15 | 重庆大学 | 一种基于局部策略的真实视频复原方法 |
US20170061687A1 (en) * | 2015-09-01 | 2017-03-02 | Siemens Healthcare Gmbh | Video-based interactive viewing along a path in medical imaging |
US20170195568A1 (en) * | 2016-01-06 | 2017-07-06 | 360fly, Inc. | Modular Panoramic Camera Systems |
CN107426524A (zh) * | 2017-06-06 | 2017-12-01 | 微鲸科技有限公司 | 一种基于虚拟全景的多方会议的方法及设备 |
WO2018005701A1 (en) * | 2016-06-29 | 2018-01-04 | Cellular South, Inc. Dba C Spire Wireless | Video to data |
TWI639136B (zh) * | 2017-11-29 | 2018-10-21 | 國立高雄科技大學 | 即時視訊畫面拼接方法 |
CN108734728A (zh) * | 2018-04-25 | 2018-11-02 | 西北工业大学 | 一种基于高分辨序列图像的空间目标三维重构方法 |
CN109165550A (zh) * | 2018-07-13 | 2019-01-08 | 首都师范大学 | 一种基于无监督深度学习的多模态手术轨迹快速分割方法 |
US20190318529A1 (en) * | 2018-04-16 | 2019-10-17 | Oculus Vr, Llc | Systems and Methods for Rendering Foveated Effects |
-
2020
- 2020-04-20 CN CN202010310346.7A patent/CN111640187B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1694512A (zh) * | 2005-06-24 | 2005-11-09 | 清华大学 | 一种交互式多视点视频系统中虚拟视点的合成方法 |
US20090300692A1 (en) * | 2008-06-02 | 2009-12-03 | Mavlankar Aditya A | Systems and methods for video streaming and display |
CN102201115A (zh) * | 2011-04-07 | 2011-09-28 | 湖南天幕智能科技有限公司 | 无人机航拍视频实时全景图拼接方法 |
CN102307309A (zh) * | 2011-07-29 | 2012-01-04 | 杭州电子科技大学 | 一种基于自由视点的体感交互导播系统及方法 |
CN102903085A (zh) * | 2012-09-25 | 2013-01-30 | 福州大学 | 基于角点匹配的快速图像拼接方法 |
CN102999901A (zh) * | 2012-10-17 | 2013-03-27 | 中国科学院计算技术研究所 | 基于深度传感器的在线视频分割后的处理方法及系统 |
CN103489165A (zh) * | 2013-10-01 | 2014-01-01 | 中国人民解放军国防科学技术大学 | 一种面向视频拼接的小数查找表生成方法 |
CN103501415A (zh) * | 2013-10-01 | 2014-01-08 | 中国人民解放军国防科学技术大学 | 一种基于重叠部分结构变形的视频实时拼接方法 |
CN103533266A (zh) * | 2013-10-01 | 2014-01-22 | 中国人民解放军国防科学技术大学 | 垂直方向宽视域的360度拼接式全景摄像机 |
CN103646416A (zh) * | 2013-12-18 | 2014-03-19 | 中国科学院计算技术研究所 | 一种三维卡通人脸纹理生成方法及设备 |
CN104091318A (zh) * | 2014-06-16 | 2014-10-08 | 北京工业大学 | 一种中国手语视频过渡帧的合成方法 |
CN104103050A (zh) * | 2014-08-07 | 2014-10-15 | 重庆大学 | 一种基于局部策略的真实视频复原方法 |
US20170061687A1 (en) * | 2015-09-01 | 2017-03-02 | Siemens Healthcare Gmbh | Video-based interactive viewing along a path in medical imaging |
US20170195568A1 (en) * | 2016-01-06 | 2017-07-06 | 360fly, Inc. | Modular Panoramic Camera Systems |
WO2018005701A1 (en) * | 2016-06-29 | 2018-01-04 | Cellular South, Inc. Dba C Spire Wireless | Video to data |
CN107426524A (zh) * | 2017-06-06 | 2017-12-01 | 微鲸科技有限公司 | 一种基于虚拟全景的多方会议的方法及设备 |
TWI639136B (zh) * | 2017-11-29 | 2018-10-21 | 國立高雄科技大學 | 即時視訊畫面拼接方法 |
US20190318529A1 (en) * | 2018-04-16 | 2019-10-17 | Oculus Vr, Llc | Systems and Methods for Rendering Foveated Effects |
CN108734728A (zh) * | 2018-04-25 | 2018-11-02 | 西北工业大学 | 一种基于高分辨序列图像的空间目标三维重构方法 |
CN109165550A (zh) * | 2018-07-13 | 2019-01-08 | 首都师范大学 | 一种基于无监督深度学习的多模态手术轨迹快速分割方法 |
Non-Patent Citations (3)
Title |
---|
安平;刘占伟;刘苏醒;张兆扬;: "视频会议系统中基于图像拼合的中间视合成" * |
方赵林;彭洁;葛春霞;秦绪佳;: "基于改进加权算法的实时图像数据融合研究" * |
王凯;陈朝勇;吴敏;姚辉;张翔;: "一种改进的非线性加权图像拼接融合方法" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200739A (zh) * | 2020-09-30 | 2021-01-08 | 北京大米科技有限公司 | 一种视频处理的方法、装置、可读存储介质和电子设备 |
WO2022193090A1 (zh) * | 2021-03-15 | 2022-09-22 | 深圳市大疆创新科技有限公司 | 视频处理方法、电子设备及计算机可读存储介质 |
CN113518235A (zh) * | 2021-04-30 | 2021-10-19 | 广州繁星互娱信息科技有限公司 | 直播视频数据生成方法、装置及存储介质 |
CN113518235B (zh) * | 2021-04-30 | 2023-11-28 | 广州繁星互娱信息科技有限公司 | 直播视频数据生成方法、装置及存储介质 |
CN113766275A (zh) * | 2021-09-29 | 2021-12-07 | 北京达佳互联信息技术有限公司 | 视频剪辑方法、装置、终端及存储介质 |
CN114125324A (zh) * | 2021-11-08 | 2022-03-01 | 北京百度网讯科技有限公司 | 一种视频拼接方法、装置、电子设备及存储介质 |
CN114125324B (zh) * | 2021-11-08 | 2024-02-06 | 北京百度网讯科技有限公司 | 一种视频拼接方法、装置、电子设备及存储介质 |
CN114286174A (zh) * | 2021-12-16 | 2022-04-05 | 天翼爱音乐文化科技有限公司 | 一种基于目标匹配的视频剪辑方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111640187B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111640187B (zh) | 一种基于插值过渡的视频拼接方法及系统 | |
US5745668A (en) | Example-based image analysis and synthesis using pixelwise correspondence | |
US9299152B2 (en) | Systems and methods for image depth map generation | |
US11915439B2 (en) | Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image | |
US10489956B2 (en) | Robust attribute transfer for character animation | |
JP2023526566A (ja) | 高速で深い顔面変形 | |
CN111294665B (zh) | 视频的生成方法、装置、电子设备及可读存储介质 | |
JP2019525515A (ja) | マルチビューシーンのセグメンテーションおよび伝播 | |
CN107274337B (zh) | 一种基于改进光流的图像拼接方法 | |
CN110322542A (zh) | 重建真实世界3d场景的视图 | |
Rambach et al. | Learning 6dof object poses from synthetic single channel images | |
CN110070598A (zh) | 用于3d扫描重建的移动终端及其进行3d扫描重建方法 | |
Lalonde | Deep learning for augmented reality | |
CN113436226A (zh) | 关键点检测的方法和装置 | |
CN103929648A (zh) | 一种帧率上采样中的运动估计方法和装置 | |
CN108492315A (zh) | 一种动态人脸跟踪方法 | |
CN104040593A (zh) | 用于3d模型变形的方法和装置 | |
CN110211190B (zh) | 相机自运动参数估计模型的训练方法、装置及存储介质 | |
WO2024051756A1 (zh) | 特效图像绘制方法、装置、设备及介质 | |
US11158122B2 (en) | Surface geometry object model training and inference | |
CN111915587A (zh) | 视频处理方法、装置、存储介质和电子设备 | |
Chang et al. | Mono-star: Mono-camera scene-level tracking and reconstruction | |
Ihm et al. | Low-cost depth camera pose tracking for mobile platforms | |
CN113469880A (zh) | 图像拼接方法及装置、存储介质及电子设备 | |
US11533451B2 (en) | System and method for frame rate up-conversion of video data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |