CN113158972A - 基于光流估测的视频分类张量构造方法 - Google Patents
基于光流估测的视频分类张量构造方法 Download PDFInfo
- Publication number
- CN113158972A CN113158972A CN202110515924.5A CN202110515924A CN113158972A CN 113158972 A CN113158972 A CN 113158972A CN 202110515924 A CN202110515924 A CN 202110515924A CN 113158972 A CN113158972 A CN 113158972A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- frames
- video
- flow estimation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于光流估测的视频分类张量构造方法,基于光流估测来判断帧间差异性,并保留差异性较大的帧来组成3D张量的方法,并在一定范围内随机对选定帧进行进行前后帧替换从而达到数据增广的效果,可以使有限的视频数据被充分利用。其包括以下步骤:视频片段提取图像;图像预处理;相邻帧的图像相似度评价;设定阈值过滤相似相邻帧;将保留的图像进行padding或者截取。
Description
技术领域
本发明涉及一种基于光流估测的视频分类张量构造方法,属于深度学习、图像处理及视频分类技术领域。
背景技术
当前视频分类算法中将视频段转为3D张量的方式主要是直接将连续固定帧合成一个张量。因为视频普遍是30帧每秒,这样针对一个发生极快(0.5s及以下)的动作有效,但是现实生活中很少有这种场景,如交通事故视频识别,打架斗殴识别等,事件发生的时间基本在2-4s,这样少则几十帧,多则上百帧的情况,只取其中连续16帧会导致较大的误差,可能会错过关键的时间点。
为了保证整段训练视频都可以被学习,通常还会均匀的从所有帧中进行采样,但这样导致训练集数量显著减少,一段视频只能提取出一组训练数据。
发明内容
本发明目的是提供了一种基于光流估测的视频分类张量构造方法,基于光流估测来判断帧间差异性,并保留差异性较大的帧来组成3D张量的方法,并在一定范围内随机对选定帧进行进行前后帧替换从而达到数据增广的效果,可以使有限的视频数据被充分利用。
本发明为实现上述目的,通过以下技术方案实现:
一种基于光流估测的视频分类张量构造方法,包括以下步骤:
视频片段提取图像;
图像预处理;
相邻帧的图像相似度评价;
设定阈值过滤相似相邻帧;
将保留的图像进行padding或者截取。
所述基于光流估测的视频分类张量构造方法优选方案,利用MoviePy或者opencv的python包加载视频,将视频所有帧转换为图像,并对所有图像做统一的预处理。
所述基于光流估测的视频分类张量构造方法优选方案,使用光流估测中的光流L2范数指标作为连续帧区分度的判断依据。
所述基于光流估测的视频分类张量构造方法优选方案,采用向量二范数将该向量表述为标量,进而计算单张图片所有像素的标量范数总和,即单张帧图片数据的光流L2范数。
所述基于光流估测的视频分类张量构造方法优选方案,迭代计算光流L2范数,使结果仅含固定帧数的图像,通常为16张,帧数不足时使用padding进行填充;对于挑选出的构建张量的帧的集合,通过设定一定概率进行前后某一帧替换当前选定帧的操作。
本发明的原理如下:基于帧间差异性的视频采样,使用光流估测中的光流L2范数指标作为连续帧区分度的判断依据,仅当前后两帧图像有一定区分度时,才将图像保留。得益于前后连续帧在大多数情况下基本相似,所以可以在一定范围内随机取前面的某一帧或者后面的某一帧替代当前帧,由此引入随机性,获得不同帧的组合构建3D张量,以此得到数据增广的效果。
本发明的优点在于:
基于光流估测来判断帧间差异性,并保留差异性较大的帧来组成3D张量的方法,并在一定范围内随机对选定帧进行进行前后帧替换从而达到数据增广的效果,可以使有限的视频数据被充分利用。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于光流估测的视频分类张量构造方法,实施步骤包括:视频片段提取图像,图像预处理,相邻帧的图像相似度评价,设定阈值过滤相似相邻帧,最后将保留的图像进行padding或者截取。
具体地步骤如下:
1.通过MoviePy或者opencv等python包加载视频;
2.将视频所有帧转换为图像,并对所有图像做统一的预处理;
3.通过光流估测评价当前帧与上一帧的区分度,保留光流L2范数;
4.迭代计算光流L2范数,使结果仅含固定帧数的图像,通常为16张,帧数不足时使用padding进行填充;
5.对于挑选出的构建张量的帧的集合,通过设定一定概率进行前后某一帧替换当前选定帧的操作,达到数据增广的效果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于光流估测的视频分类张量构造方法,其特征在于:包括以下步骤:
视频片段提取图像;
图像预处理;
相邻帧的图像相似度评价;
设定阈值过滤相似相邻帧;
将保留的图像进行padding或者截取。
2.根据权利要求1所述基于光流估测的视频分类张量构造方法,其特征在于:利用MoviePy或者opencv的python包加载视频,将视频所有帧转换为图像,并对所有图像做统一的预处理。
3.根据权利要求1所述基于光流估测的视频分类张量构造方法,其特征在于使用光流估测中的光流L2范数指标作为连续帧区分度的判断依据。
4.根据权利要求3所述基于光流估测的视频分类张量构造方法,其特征在于:采用向量二范数将该向量表述为标量,进而计算单张图片所有像素的标量范数总和,即单张帧图片数据的光流L2范数。
5.根据权利要求4所述基于光流估测的视频分类张量构造方法,其特征在于:迭代计算光流L2范数,使结果仅含固定帧数的图像,通常为16张,帧数不足时使用padding进行填充;对于挑选出的构建张量的帧的集合,通过设定一定概率进行前后某一帧替换当前选定帧的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515924.5A CN113158972A (zh) | 2021-05-12 | 2021-05-12 | 基于光流估测的视频分类张量构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515924.5A CN113158972A (zh) | 2021-05-12 | 2021-05-12 | 基于光流估测的视频分类张量构造方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158972A true CN113158972A (zh) | 2021-07-23 |
Family
ID=76874610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110515924.5A Pending CN113158972A (zh) | 2021-05-12 | 2021-05-12 | 基于光流估测的视频分类张量构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158972A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419524A (zh) * | 2022-03-29 | 2022-04-29 | 之江实验室 | 一种基于伪光流辅助的视频分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110139046A (zh) * | 2019-05-05 | 2019-08-16 | 西安电子科技大学 | 一种基于张量的视频帧合成方法 |
CN111915587A (zh) * | 2020-07-30 | 2020-11-10 | 北京大米科技有限公司 | 视频处理方法、装置、存储介质和电子设备 |
CN112601068A (zh) * | 2020-12-15 | 2021-04-02 | 济南浪潮高新科技投资发展有限公司 | 视频数据增广方法、装置及计算机可读介质 |
-
2021
- 2021-05-12 CN CN202110515924.5A patent/CN113158972A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110139046A (zh) * | 2019-05-05 | 2019-08-16 | 西安电子科技大学 | 一种基于张量的视频帧合成方法 |
CN111915587A (zh) * | 2020-07-30 | 2020-11-10 | 北京大米科技有限公司 | 视频处理方法、装置、存储介质和电子设备 |
CN112601068A (zh) * | 2020-12-15 | 2021-04-02 | 济南浪潮高新科技投资发展有限公司 | 视频数据增广方法、装置及计算机可读介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419524A (zh) * | 2022-03-29 | 2022-04-29 | 之江实验室 | 一种基于伪光流辅助的视频分类方法及系统 |
CN114419524B (zh) * | 2022-03-29 | 2022-08-05 | 之江实验室 | 一种基于伪光流辅助的视频分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108520219B (zh) | 一种卷积神经网络特征融合的多尺度快速人脸检测方法 | |
CN108710865B (zh) | 一种基于神经网络的司机异常行为检测方法 | |
CN103929685B (zh) | 一种视频摘要生成及索引方法 | |
CN113691733B (zh) | 视频抖动检测方法、装置、电子设备和存储介质 | |
Bayona et al. | Stationary foreground detection using background subtraction and temporal difference in video surveillance | |
CN105913002B (zh) | 视频场景下在线自适应的异常事件检测方法 | |
CN114898416B (zh) | 一种人脸识别方法、装置、电子设备及可读存储介质 | |
CN114898263B (zh) | 一种基于图像信息熵和hog_ssim的视频关键帧提取方法 | |
CN108898042B (zh) | 一种应用于atm机舱内用户异常行为的检测方法 | |
CN112990357B (zh) | 一种基于稀疏扰动的黑盒视频对抗样本生成方法 | |
CN113591674B (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN112601068B (zh) | 视频数据增广方法、装置及计算机可读介质 | |
CN110378860B (zh) | 修复视频的方法、装置、计算机设备和存储介质 | |
CN113158972A (zh) | 基于光流估测的视频分类张量构造方法 | |
CN112232205B (zh) | 移动端cpu实时多功能人脸检测方法 | |
CN111160107B (zh) | 一种基于特征匹配的动态区域检测方法 | |
CN110769262B (zh) | 一种视频图像压缩方法、系统、设备和存储介质 | |
CN109308709B (zh) | 基于图像分割的Vibe运动目标检测算法 | |
WO2010032298A1 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN111738236B (zh) | 一种自适应层级的图像切分识别方法、装置及系统 | |
CN111723735B (zh) | 一种基于卷积神经网络的伪高码率hevc视频检测方法 | |
CN110210404B (zh) | 人脸识别方法及系统 | |
CN114885071B (zh) | 基于人工智能的设备生产数据安全传输方法 | |
CN110753228A (zh) | 基于YOLOv1的目标检测算法的车库监控视频压缩方法及系统 | |
CN116579990A (zh) | 视频马赛克检测方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |