CN110414471A

CN110414471A - 基于双模型的视频识别方法及系统

Info

Publication number: CN110414471A
Application number: CN201910719433.5A
Authority: CN
Inventors: 邹培利
Original assignee: Fujian Chaipu Wulian Technology Co Ltd
Current assignee: Ruishen Netan Fujian Information Technology Co ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-05
Anticipated expiration: 2039-08-06
Also published as: CN110414471B

Abstract

本发明属于视频处理技术领域，更具体地，涉及一种基于双模型的视频识别方法及系统。该方法包括以下步骤，S100，从视频中随机选择N个视频帧构成第一图像识别模型的输入图像，从视频中选择M个视频帧作为第二图像识别模型的输入图像，并对提供的视频帧进行预处理；S200，采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取，采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取；S300，采用第一图像识别模型对N个视频帧的图像特征进行识别，采用第二图像识别模型对M个视频帧的图像进行识别；S400，第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频，则该视频为不良视频。

Description

基于双模型的视频识别方法及系统

技术领域

本发明属于视频处理技术领域，更具体地，涉及一种基于双模型的视频识别方法及系统。

背景技术

随着摄像技术和网络技术的快速发展，用户可以从各种各样的渠道获取不同的视频资源，有专业的视频，也有用手机拍摄的视频。

户外广告屏已经成为一种潮流趋势，户外广告屏优点：1、在单个或多个商业中心、人流量大的区域，建造户外全彩LED大屏，组成覆盖全城甚至全国的户外大屏联播网。2、大屏，强烈的视觉冲击，超清的图面，巨大的震憾力。无不张显着强大的广告魅力！利于品牌形象的塑造和传播。3、繁华街道，小区等建造高清中小型LED全彩显示屏或信息屏，组成一个媒体发布网络。4、小屏，传播渗透力强、网络化覆盖面广、直达消费终端，投资低见效快，宣传效果好。户外广告屏一般采用计算机控制播放内容，计算机仅仅播放相关视频或者图像，无法对待播放的视频或者图像进行识别。

由于户外广告屏针对的人群多，如果黑客入侵户外广告屏播放不法内容，会造成不良的影响，且影响面比较广。如何对户外广告屏即将播放的视频进行识别为当务之急，现有的视频识别方法采用从视频中提取图像帧，对图像帧进行识别，从而定义视频的类别。参考专利文献CN 109862391 A公开了一种视频分类方法、介质、视频分类装置和计算设备。该方法包括：从待分类视频的编码数据流中提取一个或者多个关键帧图像；将所述关键帧图像输入预先训练的图像分类模型，以得到各个所述关键帧图像的图像分类结果；根据所述图像分类结果确定所述待分类视频的视频分类结果。该方法提取的图像有限，因此准确率不高。一些不良视频为了避免被识别出来，会加入几段正常图像，由于该视频识别方法提取图像帧具有随机性，会使得视频识别准确率不高。

发明内容

为此，需要提供一种基于双模型的视频识别方法及系统，该视频识别方法采用两个图像识别模型，每个模型输入的图像帧不同，采用不同的模型识别，使得识别准确率高。

为实现上述目的，本发明采用如下技术方案：

基于双模型的视频识别方法，它包括以下步骤，

S100，从视频中随机选择N个视频帧构成第一图像识别模型的输入图像，从视频中选择M个视频帧作为第二图像识别模型的输入图像，并对提供的视频帧进行预处理；

S200，采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取，采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取；

S300，采用第一图像识别模型对N个视频帧的图像特征进行识别，采用第二图像识别模型对M个视频帧的图像进行识别；

S400，第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频，则该视频为不良视频。

本技术方案进一步的优化，所述步骤S100包括以下步骤，

S101，所述N个视频帧在整个视频的概率分布为正态分布，所述M个视频帧在视频中均匀分布；

S102，对N+M个视频帧进行背景减除、滤波处理。

本技术方案进一步的优化，所述步骤S200包括以下步骤，

S201，采用LBP特征提取算法提取N个视频帧的第一特征向量，采用HOG特征提取算法提取M个视频帧的第二特征向量；

S202，将上述N个第一特征向量进行两两融合，得到多个第一融合特征向量，将上述M个第二特征向量进行两两融合，得到多个第二融合特征向量；

S203，从多个第一融合特征向量中选择一个作为第一目标特征向量，从多个第二融合特征向量中选择一个作为第二目标特征向量。

本技术方案进一步的优化，所述步骤S200包括以下步骤，

S202，将上述N个第一特征向量至少两个进行融合，得到多个第一融合特征向量，将上述M个第二特征向量至少两个融合，得到多个第二融合特征向量；

本技术方案进一步的优化，所述第一视频识别模型为Inception V3网络模型，所述第二视频识别模型为VGGNet网络模型。

基于双模型的视频识别系统，它包括，

视频处理模块，从视频中随机选择N个视频帧构成第一图像识别模型的输入图像，从视频中选择M个视频帧作为第二图像识别模型的输入图像，并对提供的视频帧进行预处理；

图像特征提取模块，采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取，采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取；

图像特征识别模块，采用第一图像识别模型对N个视频帧的图像特征进行识别，采用第二图像识别模型对M个视频帧的图像进行识别；

视频识别模块，第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频，则该视频为不良视频。

本技术方案进一步的优化，所述视频处理模块包括，

视频帧分布模块，所述N个视频帧在整个视频的概率分布为正态分布，所述M个视频帧在视频中均匀分布；

视频帧预处理模块，对N+M个视频帧进行背景减除、滤波处理。

本技术方案进一步的优化，所述图像特征提取模块，包括，

特征向量获取模块，采用LBP特征提取算法提取N个视频帧的第一特征向量，采用HOG特征提取算法提取M个视频帧的第二特征向量；

特征向量融合模块，将上述N个第一特征向量进行两两融合，得到多个第一融合特征向量，将上述M个第二特征向量进行两两融合，得到多个第二融合特征向量；

特征向量选取模块，从多个第一融合特征向量中选择一个作为第一目标特征向量，从多个第二融合特征向量中选择一个作为第二目标特征向量。

本技术方案进一步的优化，所述图像特征提取模块包括，

特征向量融合模块，将上述N个第一特征向量至少两个进行融合，得到多个第一融合特征向量，将上述M个第二特征向量至少两个融合，得到多个第二融合特征向量；

区别于现有技术，上述技术方案具有两个视频识别模型，且两个视频识别模型的获取的视频帧不同，以便提高识别率。本发明对视频帧进行特征提取，截取了部分特征向量作为代表输入到视频识别模型中用于识别，减少了数据的输入和数据的转化的大小，提高了模型识别效率。

附图说明

图1为基于双模型的视频识别方法流程图；

图2为视频帧处理流程图；

图3为实施例一图像特征提取流程图；

图4为实施例二图像特征提取流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明提出的一种基于双模型的视频识别方法流程图，具体包括以下步骤：

S100，从视频中随机选择N个视频帧构成第一视频识别模型的输入图像，从视频中选择M个视频帧作为第二视频识别模型的输入图像，并对提供的视频帧进行预处理；

S300，采用第一视频识别模型对N个视频帧的图像特征进行识别，采用第二视频识别模型对M个视频帧的图像进行识别；

S400，第一视频识别模型和第二视频识别模型识别结果至少一个为不良视频，则该视频为不良视频。

实施例一

一种基于双模型的视频识别方法，具体包括以下步骤：

S100，从视频中随机选择N个视频帧构成第一视频识别模型的输入图像，从视频中选择M个视频帧作为第二视频识别模型的输入图像，并对提供的视频帧进行预处理。参阅图2所示，为视频帧处理流程图，具体包括以下步骤：

获取待识别的视频文件，视频文件的格式可为rm、rmvb、mp4、avi、dat、mkv、flv、vob等，对视频文件的格式不做限制，任何类型的均可。

对待识别视频文件进行处理，获取视频帧，该实施例有两个视频识别模型，每个视频识别模型获取的视频帧数量不同，且获取方式不同。

S101，所述N个视频帧在整个视频的概率分布为正态分布，所述M个视频帧在视频中均匀分布。该实施例的N个视频帧的概率分布为标准正态分布，标准正态分布(英语：standard normal distribution)，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。期望值μ＝0，即曲线图象对称轴为Y轴，标准差σ＝1条件下的正态分布，记为N(0，1)。标准正态分布能够使得获取的N个视频帧在整个视频长度内分布合集，视频的开始和结尾由于一般不含实质内容，使其获取的视频帧数量少，减少其对视频识别的影响。M个视频帧在视频长度内均匀分布，即每个固定时间间隔提取一个视频帧，时间间隔确定视频帧的数量。本领域技术人员可知，对于两个识别识别模块，视频帧的数量N和M可以相同，也可以不同，根据需要而定。

S102，对N+M个视频帧进行背景减除、滤波处理。背景减除法可以看做一种特殊的帧差法，利用当前帧与背景图像对应像素点的灰度差来识别图像中的物体。对视频帧进行滤波处理，滤除视频帧的毛刺和点噪声，该实施例采用均值滤波和中值滤波，其中，均值滤波对于平滑噪声有很好的效果，中值滤波能够保存物体的边缘。

S200，采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取，采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取。参阅图3所示，为实施例一图像特征提取流程图，具体包括以下步骤：

S201，采用LBP特征提取算法提取N个视频帧的特征向量，采用HOG特征提取算法提取M个视频帧的特征向量。

LBP，局部二值模式，局部特征描述算子，具有很强的纹理特征描述能力，具有光照不变性和旋转不变性。LBP特征提取算法对每个视频帧进行处理，后得到LBP纹理特征向量。HOG特征提取算法，方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。采用HOG特征提取算法对M个视频帧进行处理得到其对应的特征向量。

S202，将上述N个视频帧的特征向量进行两两融合，得到多个第一融合特征向量，将上述M个视频帧的特征向量进行两两融合，得到多个第二融合特征向量。

特征向量的一个维度上，将两个特征向量进行融合，可以选择相邻的两个特征向量进行融合，或者采用随机方法选择两个特征向量进行融合。本领域技术人员可知，该实施例限定的是两个特征向量进行融合，至于如何选择两个特征向量没有要求。

步骤202中得到多个融合特征向量，如果将这些融合特征向量均输入到视频识别模型中，计算速度慢。故该实施例从多个融合特征向量中选择一个作为代表，输入到视频识别模型中去。目标特征向量可以选择第一个融合特征向量，也可以选择第二个融合特征向量，或者中间的任意一个融合特征项里。还可以通过计算各融合特征向量的平方差，平方差最小的作为目标特征向量。目标特征向量的选择方式不限，可以采取各种各样的计算公式计算决定。

S300，采用第一视频识别模型对N个视频帧的图像特征进行识别，采用第二视频识别模型对M个视频帧的图像进行识别。该实施例的第一视频识别模型为Inception V3网络模型，第二视频识别模型为VGGNet网络模型。将目标特征向量输入到视频识别模型中去，视频识别模型识别出该图像。

S400，第一视频识别模型和第二视频识别模型识别结果至少一个为不良视频，则该视频为不良视频。由于该实施例采用两个视频识别模型，且两个视频识别模块采集的视频帧不同，故两个视频识别模型识别的结果可能相同，也可能不同。由于该实施例应用在广告屏上，鉴于其影响力，对于广告屏宁可少播放视频，也不能播放不良视频。因此，如果两个视频识别模型有一个识别结果为不良视频，则认定该视频为不良视频，不能播放。

该实施例一对应的系统如下：

基于双模型的视频识别系统，它包括，

视频处理模块，从视频中随机选择N个视频帧构成第一图像识别模型的输入图像，从视频中选择M个视频帧作为第二图像识别模型的输入图像，并对提供的视频帧进行预处理。

视频处理模块包括，

图像特征提取模块，采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取，采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取。

图像特征提取模块，包括，

需要说明的是，该实施例的第一视频识别模型为Inception V3网络模型，第二视频识别模型为VGGNet网络模型。

实施例二

一种基于双模型的视频识别方法，具体包括以下步骤：

S100，从视频中随机选择N个视频帧构成第一视频识别模型的输入图像，从视频中选择M个视频帧作为第二视频识别模型的输入图像，并对提供的视频帧进行预处理。具体包括以下步骤：

S200，采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取，采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取。参阅图4所示，为实施例二图像特征提取流程图，具体包括以下步骤：

S202，将上述N个视频帧的特征向量至少两个融合，得到多个第一融合特征向量，将上述M个视频帧的特征向量至少两个融合，得到多个第二融合特征向量。

特征向量的一个维度上，将两个以上特征向量进行融合，可以选择相邻的几个特征向量进行融合，或者采用随机方法选择几个特征向量进行融合。本领域技术人员可知，该实施例限定的是至少两个特征向量进行融合，因此融合的特征数量没有限制，可以是三个也可以是五个。至于如何选择要融合的特征向量没有要求。

该实施例二对应的系统如下：

基于双模型的视频识别系统，它包括，

视频处理模块包括，

图像特征提取模块，包括，

特征向量融合模块，将上述N个第一特征向量至少两个进行融合，得到多个第一融合特征向量，将上述M个第二特征向量至少两个进行融合，得到多个第二融合特征向量；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.基于双模型的视频识别方法，其特征在于：它包括以下步骤，

2.如权利要求1所述的基于双模型的视频识别方法，其特征在于：所述步骤S100包括以下步骤，

S102，对N+M个视频帧进行背景减除、滤波处理。

3.如权利要求1所述的基于双模型的视频识别方法，其特征在于：所述步骤S200包括以下步骤，

4.如权利要求1所述的基于双模型的视频识别方法，其特征在于：所述步骤S200包括以下步骤，

5.如权利要求1所述的基于双模型的视频识别方法，其特征在于：所述第一视频识别模型为Inception V3网络模型，所述第二视频识别模型为VGGNet网络模型。

6.基于双模型的视频识别系统，其特征在于：它包括，

7.如权利要求6所述的基于双模型的视频识别系统，其特征在于：所述视频处理模块包括，

8.如权利要求6所述的基于双模型的视频识别系统，其特征在于：所述图像特征提取模块，包括，

9.如权利要求6所述的基于双模型的视频识别系统，其特征在于：所述图像特征提取模块包括，

10.如权利要求6所述的基于双模型的视频识别系统，其特征在于：所述第一视频识别模型为Inception V3网络模型，所述第二视频识别模型为VGGNet网络模型。