CN110414471A - 基于双模型的视频识别方法及系统 - Google Patents
基于双模型的视频识别方法及系统 Download PDFInfo
- Publication number
- CN110414471A CN110414471A CN201910719433.5A CN201910719433A CN110414471A CN 110414471 A CN110414471 A CN 110414471A CN 201910719433 A CN201910719433 A CN 201910719433A CN 110414471 A CN110414471 A CN 110414471A
- Authority
- CN
- China
- Prior art keywords
- video
- video frame
- feature vector
- model
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于视频处理技术领域,更具体地,涉及一种基于双模型的视频识别方法及系统。该方法包括以下步骤,S100,从视频中随机选择N个视频帧构成第一图像识别模型的输入图像,从视频中选择M个视频帧作为第二图像识别模型的输入图像,并对提供的视频帧进行预处理;S200,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取;S300,采用第一图像识别模型对N个视频帧的图像特征进行识别,采用第二图像识别模型对M个视频帧的图像进行识别;S400,第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频,则该视频为不良视频。
Description
技术领域
本发明属于视频处理技术领域,更具体地,涉及一种基于双模型的视频识别方法及系统。
背景技术
随着摄像技术和网络技术的快速发展,用户可以从各种各样的渠道获取不同的视频资源,有专业的视频,也有用手机拍摄的视频。
户外广告屏已经成为一种潮流趋势,户外广告屏优点:1、在单个或多个商业中心、人流量大的区域,建造户外全彩LED大屏,组成覆盖全城甚至全国的户外大屏联播网。2、大屏,强烈的视觉冲击,超清的图面,巨大的震憾力。无不张显着强大的广告魅力!利于品牌形象的塑造和传播。3、繁华街道,小区等建造高清中小型LED全彩显示屏或信息屏,组成一个媒体发布网络。4、小屏,传播渗透力强、网络化覆盖面广、直达消费终端,投资低见效快,宣传效果好。户外广告屏一般采用计算机控制播放内容,计算机仅仅播放相关视频或者图像,无法对待播放的视频或者图像进行识别。
由于户外广告屏针对的人群多,如果黑客入侵户外广告屏播放不法内容,会造成不良的影响,且影响面比较广。如何对户外广告屏即将播放的视频进行识别为当务之急,现有的视频识别方法采用从视频中提取图像帧,对图像帧进行识别,从而定义视频的类别。参考专利文献CN 109862391 A公开了一种视频分类方法、介质、视频分类装置和计算设备。该方法包括:从待分类视频的编码数据流中提取一个或者多个关键帧图像;将所述关键帧图像输入预先训练的图像分类模型,以得到各个所述关键帧图像的图像分类结果;根据所述图像分类结果确定所述待分类视频的视频分类结果。该方法提取的图像有限,因此准确率不高。一些不良视频为了避免被识别出来,会加入几段正常图像,由于该视频识别方法提取图像帧具有随机性,会使得视频识别准确率不高。
发明内容
为此,需要提供一种基于双模型的视频识别方法及系统,该视频识别方法采用两个图像识别模型,每个模型输入的图像帧不同,采用不同的模型识别,使得识别准确率高。
为实现上述目的,本发明采用如下技术方案:
基于双模型的视频识别方法,它包括以下步骤,
S100,从视频中随机选择N个视频帧构成第一图像识别模型的输入图像,从视频中选择M个视频帧作为第二图像识别模型的输入图像,并对提供的视频帧进行预处理;
S200,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取;
S300,采用第一图像识别模型对N个视频帧的图像特征进行识别,采用第二图像识别模型对M个视频帧的图像进行识别;
S400,第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频,则该视频为不良视频。
本技术方案进一步的优化,所述步骤S100包括以下步骤,
S101,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布;
S102,对N+M个视频帧进行背景减除、滤波处理。
本技术方案进一步的优化,所述步骤S200包括以下步骤,
S201,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
S202,将上述N个第一特征向量进行两两融合,得到多个第一融合特征向量,将上述M个第二特征向量进行两两融合,得到多个第二融合特征向量;
S203,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
本技术方案进一步的优化,所述步骤S200包括以下步骤,
S201,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
S202,将上述N个第一特征向量至少两个进行融合,得到多个第一融合特征向量,将上述M个第二特征向量至少两个融合,得到多个第二融合特征向量;
S203,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
本技术方案进一步的优化,所述第一视频识别模型为Inception V3网络模型,所述第二视频识别模型为VGGNet网络模型。
基于双模型的视频识别系统,它包括,
视频处理模块,从视频中随机选择N个视频帧构成第一图像识别模型的输入图像,从视频中选择M个视频帧作为第二图像识别模型的输入图像,并对提供的视频帧进行预处理;
图像特征提取模块,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取;
图像特征识别模块,采用第一图像识别模型对N个视频帧的图像特征进行识别,采用第二图像识别模型对M个视频帧的图像进行识别;
视频识别模块,第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频,则该视频为不良视频。
本技术方案进一步的优化,所述视频处理模块包括,
视频帧分布模块,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布;
视频帧预处理模块,对N+M个视频帧进行背景减除、滤波处理。
本技术方案进一步的优化,所述图像特征提取模块,包括,
特征向量获取模块,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
特征向量融合模块,将上述N个第一特征向量进行两两融合,得到多个第一融合特征向量,将上述M个第二特征向量进行两两融合,得到多个第二融合特征向量;
特征向量选取模块,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
本技术方案进一步的优化,所述图像特征提取模块包括,
特征向量获取模块,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
特征向量融合模块,将上述N个第一特征向量至少两个进行融合,得到多个第一融合特征向量,将上述M个第二特征向量至少两个融合,得到多个第二融合特征向量;
特征向量选取模块,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
本技术方案进一步的优化,所述第一视频识别模型为Inception V3网络模型,所述第二视频识别模型为VGGNet网络模型。
区别于现有技术,上述技术方案具有两个视频识别模型,且两个视频识别模型的获取的视频帧不同,以便提高识别率。本发明对视频帧进行特征提取,截取了部分特征向量作为代表输入到视频识别模型中用于识别,减少了数据的输入和数据的转化的大小,提高了模型识别效率。
附图说明
图1为基于双模型的视频识别方法流程图;
图2为视频帧处理流程图;
图3为实施例一图像特征提取流程图;
图4为实施例二图像特征提取流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明提出的一种基于双模型的视频识别方法流程图,具体包括以下步骤:
S100,从视频中随机选择N个视频帧构成第一视频识别模型的输入图像,从视频中选择M个视频帧作为第二视频识别模型的输入图像,并对提供的视频帧进行预处理;
S200,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取;
S300,采用第一视频识别模型对N个视频帧的图像特征进行识别,采用第二视频识别模型对M个视频帧的图像进行识别;
S400,第一视频识别模型和第二视频识别模型识别结果至少一个为不良视频,则该视频为不良视频。
实施例一
一种基于双模型的视频识别方法,具体包括以下步骤:
S100,从视频中随机选择N个视频帧构成第一视频识别模型的输入图像,从视频中选择M个视频帧作为第二视频识别模型的输入图像,并对提供的视频帧进行预处理。参阅图2所示,为视频帧处理流程图,具体包括以下步骤:
获取待识别的视频文件,视频文件的格式可为rm、rmvb、mp4、avi、dat、mkv、flv、vob等,对视频文件的格式不做限制,任何类型的均可。
对待识别视频文件进行处理,获取视频帧,该实施例有两个视频识别模型,每个视频识别模型获取的视频帧数量不同,且获取方式不同。
S101,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布。该实施例的N个视频帧的概率分布为标准正态分布,标准正态分布(英语:standard normal distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。期望值μ=0,即曲线图象对称轴为Y轴,标准差σ=1条件下的正态分布,记为N(0,1)。标准正态分布能够使得获取的N个视频帧在整个视频长度内分布合集,视频的开始和结尾由于一般不含实质内容,使其获取的视频帧数量少,减少其对视频识别的影响。M个视频帧在视频长度内均匀分布,即每个固定时间间隔提取一个视频帧,时间间隔确定视频帧的数量。本领域技术人员可知,对于两个识别识别模块,视频帧的数量N和M可以相同,也可以不同,根据需要而定。
S102,对N+M个视频帧进行背景减除、滤波处理。背景减除法可以看做一种特殊的帧差法,利用当前帧与背景图像对应像素点的灰度差来识别图像中的物体。对视频帧进行滤波处理,滤除视频帧的毛刺和点噪声,该实施例采用均值滤波和中值滤波,其中,均值滤波对于平滑噪声有很好的效果,中值滤波能够保存物体的边缘。
S200,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取。参阅图3所示,为实施例一图像特征提取流程图,具体包括以下步骤:
S201,采用LBP特征提取算法提取N个视频帧的特征向量,采用HOG特征提取算法提取M个视频帧的特征向量。
LBP,局部二值模式,局部特征描述算子,具有很强的纹理特征描述能力,具有光照不变性和旋转不变性。LBP特征提取算法对每个视频帧进行处理,后得到LBP纹理特征向量。HOG特征提取算法,方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。采用HOG特征提取算法对M个视频帧进行处理得到其对应的特征向量。
S202,将上述N个视频帧的特征向量进行两两融合,得到多个第一融合特征向量,将上述M个视频帧的特征向量进行两两融合,得到多个第二融合特征向量。
特征向量的一个维度上,将两个特征向量进行融合,可以选择相邻的两个特征向量进行融合,或者采用随机方法选择两个特征向量进行融合。本领域技术人员可知,该实施例限定的是两个特征向量进行融合,至于如何选择两个特征向量没有要求。
S203,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
步骤202中得到多个融合特征向量,如果将这些融合特征向量均输入到视频识别模型中,计算速度慢。故该实施例从多个融合特征向量中选择一个作为代表,输入到视频识别模型中去。目标特征向量可以选择第一个融合特征向量,也可以选择第二个融合特征向量,或者中间的任意一个融合特征项里。还可以通过计算各融合特征向量的平方差,平方差最小的作为目标特征向量。目标特征向量的选择方式不限,可以采取各种各样的计算公式计算决定。
S300,采用第一视频识别模型对N个视频帧的图像特征进行识别,采用第二视频识别模型对M个视频帧的图像进行识别。该实施例的第一视频识别模型为Inception V3网络模型,第二视频识别模型为VGGNet网络模型。将目标特征向量输入到视频识别模型中去,视频识别模型识别出该图像。
S400,第一视频识别模型和第二视频识别模型识别结果至少一个为不良视频,则该视频为不良视频。由于该实施例采用两个视频识别模型,且两个视频识别模块采集的视频帧不同,故两个视频识别模型识别的结果可能相同,也可能不同。由于该实施例应用在广告屏上,鉴于其影响力,对于广告屏宁可少播放视频,也不能播放不良视频。因此,如果两个视频识别模型有一个识别结果为不良视频,则认定该视频为不良视频,不能播放。
该实施例一对应的系统如下:
基于双模型的视频识别系统,它包括,
视频处理模块,从视频中随机选择N个视频帧构成第一图像识别模型的输入图像,从视频中选择M个视频帧作为第二图像识别模型的输入图像,并对提供的视频帧进行预处理。
视频处理模块包括,
视频帧分布模块,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布;
视频帧预处理模块,对N+M个视频帧进行背景减除、滤波处理。
图像特征提取模块,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取。
图像特征提取模块,包括,
特征向量获取模块,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
特征向量融合模块,将上述N个第一特征向量进行两两融合,得到多个第一融合特征向量,将上述M个第二特征向量进行两两融合,得到多个第二融合特征向量;
特征向量选取模块,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
图像特征识别模块,采用第一图像识别模型对N个视频帧的图像特征进行识别,采用第二图像识别模型对M个视频帧的图像进行识别;
视频识别模块,第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频,则该视频为不良视频。
需要说明的是,该实施例的第一视频识别模型为Inception V3网络模型,第二视频识别模型为VGGNet网络模型。
实施例二
一种基于双模型的视频识别方法,具体包括以下步骤:
S100,从视频中随机选择N个视频帧构成第一视频识别模型的输入图像,从视频中选择M个视频帧作为第二视频识别模型的输入图像,并对提供的视频帧进行预处理。具体包括以下步骤:
获取待识别的视频文件,视频文件的格式可为rm、rmvb、mp4、avi、dat、mkv、flv、vob等,对视频文件的格式不做限制,任何类型的均可。
对待识别视频文件进行处理,获取视频帧,该实施例有两个视频识别模型,每个视频识别模型获取的视频帧数量不同,且获取方式不同。
S101,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布。该实施例的N个视频帧的概率分布为标准正态分布,标准正态分布(英语:standard normal distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。期望值μ=0,即曲线图象对称轴为Y轴,标准差σ=1条件下的正态分布,记为N(0,1)。标准正态分布能够使得获取的N个视频帧在整个视频长度内分布合集,视频的开始和结尾由于一般不含实质内容,使其获取的视频帧数量少,减少其对视频识别的影响。M个视频帧在视频长度内均匀分布,即每个固定时间间隔提取一个视频帧,时间间隔确定视频帧的数量。本领域技术人员可知,对于两个识别识别模块,视频帧的数量N和M可以相同,也可以不同,根据需要而定。
S102,对N+M个视频帧进行背景减除、滤波处理。背景减除法可以看做一种特殊的帧差法,利用当前帧与背景图像对应像素点的灰度差来识别图像中的物体。对视频帧进行滤波处理,滤除视频帧的毛刺和点噪声,该实施例采用均值滤波和中值滤波,其中,均值滤波对于平滑噪声有很好的效果,中值滤波能够保存物体的边缘。
S200,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取。参阅图4所示,为实施例二图像特征提取流程图,具体包括以下步骤:
S201,采用LBP特征提取算法提取N个视频帧的特征向量,采用HOG特征提取算法提取M个视频帧的特征向量。
LBP,局部二值模式,局部特征描述算子,具有很强的纹理特征描述能力,具有光照不变性和旋转不变性。LBP特征提取算法对每个视频帧进行处理,后得到LBP纹理特征向量。HOG特征提取算法,方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。采用HOG特征提取算法对M个视频帧进行处理得到其对应的特征向量。
S202,将上述N个视频帧的特征向量至少两个融合,得到多个第一融合特征向量,将上述M个视频帧的特征向量至少两个融合,得到多个第二融合特征向量。
特征向量的一个维度上,将两个以上特征向量进行融合,可以选择相邻的几个特征向量进行融合,或者采用随机方法选择几个特征向量进行融合。本领域技术人员可知,该实施例限定的是至少两个特征向量进行融合,因此融合的特征数量没有限制,可以是三个也可以是五个。至于如何选择要融合的特征向量没有要求。
S203,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
步骤202中得到多个融合特征向量,如果将这些融合特征向量均输入到视频识别模型中,计算速度慢。故该实施例从多个融合特征向量中选择一个作为代表,输入到视频识别模型中去。目标特征向量可以选择第一个融合特征向量,也可以选择第二个融合特征向量,或者中间的任意一个融合特征项里。还可以通过计算各融合特征向量的平方差,平方差最小的作为目标特征向量。目标特征向量的选择方式不限,可以采取各种各样的计算公式计算决定。
S300,采用第一视频识别模型对N个视频帧的图像特征进行识别,采用第二视频识别模型对M个视频帧的图像进行识别。该实施例的第一视频识别模型为Inception V3网络模型,第二视频识别模型为VGGNet网络模型。将目标特征向量输入到视频识别模型中去,视频识别模型识别出该图像。
S400,第一视频识别模型和第二视频识别模型识别结果至少一个为不良视频,则该视频为不良视频。由于该实施例采用两个视频识别模型,且两个视频识别模块采集的视频帧不同,故两个视频识别模型识别的结果可能相同,也可能不同。由于该实施例应用在广告屏上,鉴于其影响力,对于广告屏宁可少播放视频,也不能播放不良视频。因此,如果两个视频识别模型有一个识别结果为不良视频,则认定该视频为不良视频,不能播放。
该实施例二对应的系统如下:
基于双模型的视频识别系统,它包括,
视频处理模块,从视频中随机选择N个视频帧构成第一图像识别模型的输入图像,从视频中选择M个视频帧作为第二图像识别模型的输入图像,并对提供的视频帧进行预处理。
视频处理模块包括,
视频帧分布模块,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布;
视频帧预处理模块,对N+M个视频帧进行背景减除、滤波处理。
图像特征提取模块,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取。
图像特征提取模块,包括,
特征向量获取模块,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
特征向量融合模块,将上述N个第一特征向量至少两个进行融合,得到多个第一融合特征向量,将上述M个第二特征向量至少两个进行融合,得到多个第二融合特征向量;
特征向量选取模块,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
图像特征识别模块,采用第一图像识别模型对N个视频帧的图像特征进行识别,采用第二图像识别模型对M个视频帧的图像进行识别;
视频识别模块,第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频,则该视频为不良视频。
需要说明的是,该实施例的第一视频识别模型为Inception V3网络模型,第二视频识别模型为VGGNet网络模型。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (10)
1.基于双模型的视频识别方法,其特征在于:它包括以下步骤,
S100,从视频中随机选择N个视频帧构成第一图像识别模型的输入图像,从视频中选择M个视频帧作为第二图像识别模型的输入图像,并对提供的视频帧进行预处理;
S200,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取;
S300,采用第一图像识别模型对N个视频帧的图像特征进行识别,采用第二图像识别模型对M个视频帧的图像进行识别;
S400,第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频,则该视频为不良视频。
2.如权利要求1所述的基于双模型的视频识别方法,其特征在于:所述步骤S100包括以下步骤,
S101,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布;
S102,对N+M个视频帧进行背景减除、滤波处理。
3.如权利要求1所述的基于双模型的视频识别方法,其特征在于:所述步骤S200包括以下步骤,
S201,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
S202,将上述N个第一特征向量进行两两融合,得到多个第一融合特征向量,将上述M个第二特征向量进行两两融合,得到多个第二融合特征向量;
S203,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
4.如权利要求1所述的基于双模型的视频识别方法,其特征在于:所述步骤S200包括以下步骤,
S201,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
S202,将上述N个第一特征向量至少两个进行融合,得到多个第一融合特征向量,将上述M个第二特征向量至少两个融合,得到多个第二融合特征向量;
S203,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
5.如权利要求1所述的基于双模型的视频识别方法,其特征在于:所述第一视频识别模型为Inception V3网络模型,所述第二视频识别模型为VGGNet网络模型。
6.基于双模型的视频识别系统,其特征在于:它包括,
视频处理模块,从视频中随机选择N个视频帧构成第一图像识别模型的输入图像,从视频中选择M个视频帧作为第二图像识别模型的输入图像,并对提供的视频帧进行预处理;
图像特征提取模块,采用LBP特征提取算法对待识别的N个视频帧进行图像特征提取,采用HOG特征提取算法对待识别的M个视频帧进行图像特征提取;
图像特征识别模块,采用第一图像识别模型对N个视频帧的图像特征进行识别,采用第二图像识别模型对M个视频帧的图像进行识别;
视频识别模块,第一图像识别模型和第二图像识别模型的识别结果至少一个为不良视频,则该视频为不良视频。
7.如权利要求6所述的基于双模型的视频识别系统,其特征在于:所述视频处理模块包括,
视频帧分布模块,所述N个视频帧在整个视频的概率分布为正态分布,所述M个视频帧在视频中均匀分布;
视频帧预处理模块,对N+M个视频帧进行背景减除、滤波处理。
8.如权利要求6所述的基于双模型的视频识别系统,其特征在于:所述图像特征提取模块,包括,
特征向量获取模块,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
特征向量融合模块,将上述N个第一特征向量进行两两融合,得到多个第一融合特征向量,将上述M个第二特征向量进行两两融合,得到多个第二融合特征向量;
特征向量选取模块,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
9.如权利要求6所述的基于双模型的视频识别系统,其特征在于:所述图像特征提取模块包括,
特征向量获取模块,采用LBP特征提取算法提取N个视频帧的第一特征向量,采用HOG特征提取算法提取M个视频帧的第二特征向量;
特征向量融合模块,将上述N个第一特征向量至少两个进行融合,得到多个第一融合特征向量,将上述M个第二特征向量至少两个进行融合,得到多个第二融合特征向量;
特征向量选取模块,从多个第一融合特征向量中选择一个作为第一目标特征向量,从多个第二融合特征向量中选择一个作为第二目标特征向量。
10.如权利要求6所述的基于双模型的视频识别系统,其特征在于:所述第一视频识别模型为Inception V3网络模型,所述第二视频识别模型为VGGNet网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719433.5A CN110414471B (zh) | 2019-08-06 | 2019-08-06 | 基于双模型的视频识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719433.5A CN110414471B (zh) | 2019-08-06 | 2019-08-06 | 基于双模型的视频识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414471A true CN110414471A (zh) | 2019-11-05 |
CN110414471B CN110414471B (zh) | 2022-02-01 |
Family
ID=68365976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910719433.5A Active CN110414471B (zh) | 2019-08-06 | 2019-08-06 | 基于双模型的视频识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414471B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507824A (zh) * | 2020-11-27 | 2021-03-16 | 长威信息科技发展股份有限公司 | 一种视频图像特征识别的方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107197331A (zh) * | 2017-05-03 | 2017-09-22 | 北京奇艺世纪科技有限公司 | 一种实时监测直播内容的方法及装置 |
CN107491726A (zh) * | 2017-07-04 | 2017-12-19 | 重庆邮电大学 | 一种基于多通道并行卷积神经网络的实时表情识别方法 |
CN107665333A (zh) * | 2017-08-28 | 2018-02-06 | 平安科技(深圳)有限公司 | 一种基于卷积神经网络的不雅图片识别方法、终端、设备及计算机可读存储介质 |
CN108154134A (zh) * | 2018-01-11 | 2018-06-12 | 天格科技(杭州)有限公司 | 基于深度卷积神经网络的互联网直播色情图像检测方法 |
CN108197566A (zh) * | 2017-12-29 | 2018-06-22 | 成都三零凯天通信实业有限公司 | 一种基于多路神经网络的监控视频行为检测方法 |
CN108229262A (zh) * | 2016-12-22 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 一种色情视频检测方法及装置 |
US20180268208A1 (en) * | 2017-03-20 | 2018-09-20 | Microsoft Technology Licensing, Llc | Feature flow for video recognition |
CN108764128A (zh) * | 2018-05-25 | 2018-11-06 | 华中科技大学 | 一种基于稀疏时间分段网络的视频动作识别方法 |
CN108921002A (zh) * | 2018-04-23 | 2018-11-30 | 中国科学院自动化研究所 | 基于多线索融合的暴恐音视频识别方法及装置 |
CN109492129A (zh) * | 2018-10-26 | 2019-03-19 | 武汉理工大学 | 一种基于双流神经网络的相似视频搜索方法和系统 |
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
US20190205694A1 (en) * | 2017-12-28 | 2019-07-04 | Qualcomm Incorporated | Multi-resolution feature description for object recognition |
CN110059761A (zh) * | 2019-04-25 | 2019-07-26 | 成都睿沿科技有限公司 | 一种人体行为预测方法及装置 |
-
2019
- 2019-08-06 CN CN201910719433.5A patent/CN110414471B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229262A (zh) * | 2016-12-22 | 2018-06-29 | 腾讯科技(深圳)有限公司 | 一种色情视频检测方法及装置 |
US20180268208A1 (en) * | 2017-03-20 | 2018-09-20 | Microsoft Technology Licensing, Llc | Feature flow for video recognition |
CN107197331A (zh) * | 2017-05-03 | 2017-09-22 | 北京奇艺世纪科技有限公司 | 一种实时监测直播内容的方法及装置 |
CN107491726A (zh) * | 2017-07-04 | 2017-12-19 | 重庆邮电大学 | 一种基于多通道并行卷积神经网络的实时表情识别方法 |
CN107665333A (zh) * | 2017-08-28 | 2018-02-06 | 平安科技(深圳)有限公司 | 一种基于卷积神经网络的不雅图片识别方法、终端、设备及计算机可读存储介质 |
US20190205694A1 (en) * | 2017-12-28 | 2019-07-04 | Qualcomm Incorporated | Multi-resolution feature description for object recognition |
CN108197566A (zh) * | 2017-12-29 | 2018-06-22 | 成都三零凯天通信实业有限公司 | 一种基于多路神经网络的监控视频行为检测方法 |
CN108154134A (zh) * | 2018-01-11 | 2018-06-12 | 天格科技(杭州)有限公司 | 基于深度卷积神经网络的互联网直播色情图像检测方法 |
CN108921002A (zh) * | 2018-04-23 | 2018-11-30 | 中国科学院自动化研究所 | 基于多线索融合的暴恐音视频识别方法及装置 |
CN108764128A (zh) * | 2018-05-25 | 2018-11-06 | 华中科技大学 | 一种基于稀疏时间分段网络的视频动作识别方法 |
CN109492129A (zh) * | 2018-10-26 | 2019-03-19 | 武汉理工大学 | 一种基于双流神经网络的相似视频搜索方法和系统 |
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
CN110059761A (zh) * | 2019-04-25 | 2019-07-26 | 成都睿沿科技有限公司 | 一种人体行为预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
ZHIZHEN CHI ET AL: "Dual Deep Network for Visual Tracking", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
李鸣晓等: "基于片段关键帧的视频行为识别方法", 《系统仿真学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507824A (zh) * | 2020-11-27 | 2021-03-16 | 长威信息科技发展股份有限公司 | 一种视频图像特征识别的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110414471B (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Dense trajectories and motion boundary descriptors for action recognition | |
CN101420595B (zh) | 一种描述和捕获视频对象的方法及设备 | |
TWI712316B (zh) | 視訊摘要的生成方法及裝置 | |
CN103714181B (zh) | 一种层级化的特定人物检索方法 | |
CN108600865B (zh) | 一种基于超像素分割的视频摘要生成方法 | |
Gao et al. | [Retracted] AGTH‐Net: Attention‐Based Graph Convolution‐Guided Third‐Order Hourglass Network for Sports Video Classification | |
CN107180074A (zh) | 一种视频分类方法及装置 | |
Su et al. | A novel forgery detection algorithm for video foreground removal | |
Yuan et al. | Key frame extraction based on global motion statistics for team-sport videos | |
CN113989276B (zh) | 一种基于深度图像的检测方法、检测装置及摄像设备 | |
Wang et al. | An improved smart key frame extraction algorithm for vehicle target recognition | |
CN113850284B (zh) | 一种基于多尺度特征融合和多分支预测的多操作检测方法 | |
Wang et al. | Spatial-temporal frequency forgery clue for video forgery detection in VIS and NIR scenario | |
KR20160074958A (ko) | 객체의 움직임 분석을 이용한 모션 효과 생성 장치 및 방법 | |
Sun et al. | Martial arts routine difficulty action technology VR image target real-time extraction simulation | |
CN110414471A (zh) | 基于双模型的视频识别方法及系统 | |
Liu et al. | Multi-focus image fusion dataset and algorithm test in real environment | |
CN106066887A (zh) | 一种广告序列图像快速检索和分析方法 | |
Wang et al. | [Retracted] Sports Video Augmented Reality Real‐Time Image Analysis of Mobile Devices | |
Mancas et al. | Human attention modelization and data reduction | |
CN111818364B (zh) | 视频融合方法、系统、设备及介质 | |
Aktar et al. | Performance analysis of vehicle detection based on spatial saliency and local image features in H. 265 (HEVC) 4K video for developing a relationship between iou and subjective evaluation value | |
Ranjan et al. | Video Summary Based on Visual and Mid-level Semantic Features | |
Zhang et al. | Spatial HOG based TV logo detection | |
Oliaei et al. | Video motion forgery detection using motion residual and object tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230829 Address after: 350000 area C, 19th floor, international building, No. 210, Wusi Road, Gulou District, Fuzhou City, Fujian Province Patentee after: Ruishen Netan (Fujian) Information Technology Co.,Ltd. Address before: 361001 unit 28, area F, 5th floor, No.26 Zhenhai Road, Siming District, Xiamen City, Fujian Province Patentee before: Fujian Chaipu Wulian Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |