CN117671538A - 一种第一人称视角无人机视频显著性预测方法及系统 - Google Patents
一种第一人称视角无人机视频显著性预测方法及系统 Download PDFInfo
- Publication number
- CN117671538A CN117671538A CN202311735046.3A CN202311735046A CN117671538A CN 117671538 A CN117671538 A CN 117671538A CN 202311735046 A CN202311735046 A CN 202311735046A CN 117671538 A CN117671538 A CN 117671538A
- Authority
- CN
- China
- Prior art keywords
- time
- features
- module
- saliency
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000007 visual effect Effects 0.000 title claims abstract description 45
- 230000033001 locomotion Effects 0.000 claims abstract description 88
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000011084 recovery Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 16
- 238000012935 Averaging Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种第一人称视角无人机视频显著性预测方法及系统,基于相机运动信息以及第一人称视角先验信息,进行第一人称无人机视频显著性预测,实现方式包括首先基于输入的若干连续视频帧,通过运动恢复结构方式计算出每帧的旋转矩阵;同时将视频帧送入显著性基础特征提取模块,所得输出继续送入时空特征提取模块中的时间编码器和空间编码器中,将编码器输出相加并整合后,与显著性基础特征提取模块的输出相加得到时空特征提取模块的输出;将时空特征提取模块的输出与旋转矩阵作为相机运动模块的输入,并将相机运动模块的输出送入第一人称视角先验模块;将第一人称视角先验模块输出送入时序平均模块,再送入解码器中,得到显著性预测图。
Description
技术领域
本发明涉及视频显著性预测领域,特别涉及一种基于相机运动信息以及第一人称视角先验信息的第一人称视角无人机视频显著性预测技术方案。
背景技术
在观察一个场景时,人类的视觉系统会从接收到的大量信息中快速地,有选择性地识别出最吸引人注意的部分,而不是对所有区域的信息进行处理。即使在复杂的环境中,人类也能迅速将注意力集中在场景中重要的部分。这称为视觉注意力机制,场景中能够吸引人视觉系统注意力的区域称为显著性区域。理解和建模这种机制以预测视频中哪些区域更加吸引人类注意力就是视频显著性的研究内容。通过将人类视觉注意力机制应用于视频处理领域,可以协助计算机对视频中的信息进行有选择的处理。它能够使计算机将有限的计算资源优先分配给更加重要的区域,这将极大提高视频处理方法的工作效率。
在过去几十年中,无人机技术取得了快速发展,并在火灾检测、野生动物统计、环境保护和新闻报道等关键领域得到了广泛应用。因此,对于分析无人机图像和视频的计算机视觉研究需求不断增加。与传统视频相比,无人机视频具有几个明显的特点。首先,大多数无人机视频是从鸟瞰角度拍摄的,导致对象的外观、形状、大小和其他特征与传统视频有很大的差异。其次,无人机视频的背景通常复杂且场景信息丰富,涵盖多样的景观。第三,无人机视频通常涉及较少的手动编辑和场景切换,相邻帧之间的变化相对较小。这些无人机视频的特性可能会影响人类对视频中内容的注意力。
最近,一种新型无人机变得越来越受欢迎,被称为第一人称视角无人机。这些无人机配备了实时图像传输功能,使用户可以佩戴飞行眼镜(一种头戴显示设备),体验到像自己在空中飞行一样控制无人机的沉浸感。第一人称无人机视频与传统无人机视频相比呈现出明显的差异:(1)拍摄角度:与传统无人机视频的典型鸟瞰角度不同,第一人称无人机视频提供了更多样化的视角,包括平视和仰视。(2)相机运动模式:传统无人机通常提供有限的相机运动模式。相比之下,第一人称无人机视频展示了更广泛的相机运动模式,例如加速、刹车、旋转和升降。第一人称目前在电影中被广泛应用,使观众可以从演员的视角观察场景。
在过去的几十年里,视频显著性预测从传统使用手工特征的显著性预测算法到利用深度学习方法的模型,其预测准确性方面取得了明显提高。但是现有的主流视频显著性预测方法针对的都是传统视频,并且视频都是在LCD显示屏上播放的,但这与第一人称视角无人机的拍摄与观看方式是存在差异的。此外目前视频显著性预测方法中大多数采用中心先验。但对第一人称视角无人机视频的眼动追踪实验结果的分析中可以看到观看第一人称视角视频时,人们往往会倾向于观看中心偏下方的部分并且水平和竖直方向上的方差是不同的,因此中心先验无法适用。同时相机运动也会影响人们的注意力,例如当无人机向左旋转时,人们更倾向于注意画面左半部分的内容,向右旋转同理。因此,基于相机运动以及第一人称视角先验信息的视频显著性预测方法得到的预测结果将更贴合人类在真实场景下的观看第一人称视角无人机视频的状态。相比于已经成熟的传统视频显著性预测方法,针对第一人称视角无人机视频的显著性预测方法的研究方兴未艾。且相机运动信息在视频显著性任务中的运用还很少,因此,如何合理地利用相近运动进行第一人称视角无人机视频显著性预测,是当前本技术领域的一个重要挑战。
发明内容
由于人们在拍摄和观看第一人称视角无人机视频时通过佩戴VR头盔进行沉浸式观看,而目前大部分视频显著性预测方法只针对在LCD显示屏上播放的传统视频,这些方法可以较好地预测传统视频例如(电影,短视频)中感兴趣的区域,但很难预测第一人称视角无人机视频。同时,第一人称无人机视频中存在着相机运动影响人类注视区域的现象,可以使用相机运动信息帮助显著性预测,并且已有的方法往往采用中心先验,但在观看第一人称视角视频时并不适用。本发明针对这一现状,提供了一种基于相机运动以及第一人称视角先验信息的第一人称无人机视频显著性预测技术方案。
本发明提供的技术方案提供一种第一人称视角无人机视频显著性预测方法,基于相机运动信息以及第一人称视角先验信息,进行第一人称无人机视频显著性预测,实现方式包括首先基于输入的若干连续视频帧,通过运动恢复结构方式计算出每一帧的旋转矩阵;同时将视频帧送入显著性基础特征提取模块,所得到的输出继续送入时空特征提取模块中的时间编码器和空间编码器中,将两个编码器的输出相加并送入2D卷积层中整合后,与显著性基础特征提取模块的输出相加得到时空特征提取模块的输出;将时空特征提取模块的输出与运动恢复结构所计算出的旋转矩阵作为相机运动模块的输入,并将相机运动模块的输出送入第一人称视角先验模块;将第一人称视角先验模块的输出送入时序平均模块,再将结果送入解码器中,最终得到显著性预测图。
而且,第一人称无人机视频显著性预测实现过程包括如下步骤,
步骤1,将需要预测的视频帧通过运动恢复结构方式得到相机运动的四元数,并进一步处理得到每一帧旋转矩阵,对视频帧进行预处理;
步骤2,构建显著性基础特征提取模块,用于提取视频帧的基础显著性特征;
步骤3,构建时空特征提取模块,所述时空特征提取模块中,时间编码器从多个连续视频帧提取帧间的时间特征,空间编码器从视频帧中提取空间特征,并融合时间特征与空间特征,得到时空特征;
步骤4,构建相机运动模块,将步骤1通过运动恢复结构方式得到的旋转矩阵送入相机运动模块中用于提取相机运动信息,并与步骤3所得时空特征自适应融合;
步骤5,构建第一人称视角先验模块,所述第一人称视角先验模块中,通过对数据的统计,生成第一人称视角先验图,并将多尺度的先验图与基于相机运动的时空显著性特征融合;
步骤6,构建时序平均模块,使预测得到的显著图在时间维度上更加平滑;
步骤7,利用解码器将显著性特征整合成单通道显著性图;
步骤8,对由步骤2-步骤6构建的整体模型进行训练;
步骤9,利用训练好的整体模型实现视觉显著性预测。
而且,所述构建显著性基础特征提取模块的实现方式如下,
基于MobileNet-V2模型进行改进,将MobileNet-V2模型中最后的空间池化层换成带孔金字塔池化层,以获得多尺度的特征用来提取不同尺寸的显著性物体的特征,而后使用MobileNet-V2最后三个卷积层的特征进行特征融合,得到显著性基础特征Fx,x为输入视频帧序号。
而且,所述时空特征提取模块提取时空特征的实现方式如下,
当视频帧Xi经过显著性基础特征提取模块得到特征Fi后,输入空间编码器,在空间编码器中通过深度可分离卷积层来整合Fi中不同抽象层次的空间特征,得到空间显著性特征
当n个连续视频帧X1,X2,…,Xn通过n个并行的显著性基础特征提取模块,输入时间编码器后,在时间编码器中将从显著性基础特征提取模块得到的n个相应特征连接起来,首先通过一个卷积层降维,接下来采用Bi-Sub算子计算当前帧特征与前后帧特征之差,得到时序差异特征;设置最后一个卷积层用于特征升维,使得输入和输出特征维度相同,最终输出时间显著性特征X1,X2,…,Xn的时间遍码器输出共用这一个输出;
计算得到时间域特征和空间域特征/>后,采用逐元素加法进行特征融合,同时使用1×1卷积层进一步整合时空特征,并将该特征使用残差连接方式叠加到显著性基础特征Fi上得到时空显著性特征/>
而且,所述相机运动模块中,
将每一帧的旋转矩阵通过两个连续的全连接层得到相机运动特征并将时空显著性特征在空间维度上全局平均池化得到池化特征/>将相机运动特征/>与池化特征在通道维度上叠加,并使用一个全连接层和sigmoid激活函数得到各通道相对应的权重W;最后将时空显著性特征/>与权重W逐通道相乘,得到基于相机运动的时空显著性特征
而且,所述第一人称视角先验模块中,
首先对数据集中的注视点进行统计,得到注视点位置坐标在水平和竖直方向上的均值μx,μy和方差σx,σy;根据统计得到的结果生成八张均值相同但方差不同的先验图,使用两个2D卷积层对先验图进行整和,并于基于相机运动的时空显著性特征在通道维度上叠加,并使用一个2D卷积层进行特征整合得到基于相机运动与第一人称视角先验的时空显著性特征
而且,所述时序平均模块中,
将现在时刻的时空显著性特征与上一时刻时序平均模块的输出分别送入一卷积层,并将卷积层的输出相加,然后利用sigmoid激活函数得到权重W,最后将权重与现在时刻的时空显著性特征逐元素相乘,(1-W)与上时刻的时序平均模块输出逐元素相乘,再将两部分相乘结果相加得到现在时刻的时序平均模块输出。
另一方面,本发明还提供一种第一人称视角无人机视频显著性预测系统,用于实现如上所述的一种第一人称视角无人机视频显著性预测方法。
或者,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种第一人称视角无人机视频显著性预测方法。
或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种第一人称视角无人机视频显著性预测方法。
本发明所提出的基于相机运动以及第一人称视角先验信息的第一人称视角无人机视频显著性预测方案采用级联架构来提高显著性预测的准确度。为了有效提取与显著性相关的视觉时间特征、视觉空间特征并利用相机运动作为先验信息提升预测的准确度,提出了一种全新的结构,其中设置显著性特征提取模块从视频帧中提取基础的显著性特征,时空特征提取模块由两个编码器组成:时间编码器从多个连续视频帧提取帧间的时间特征,空间编码器从视频帧中提取空间特征;并设计了时序平均模块使得预测得到显著图在时间维度上更加的平滑;为了有效地利用相机运动信息提升视觉显著性预测的准确度,还提出了一个相机运动模块,利用运动恢复结构方法以及一些后处理计算出每一帧的旋转矩阵,根据旋转矩阵提取出相机运动特征并于时空显著性特征融合;为了有效地利用先验信息实现更加准确地预测,提出了一个第一人称视角先验模块,通过统计生成适用于观看第一人称视角视频的先验图并与特征融合。
本发明有益效果如下:
通过使用一种全新的生成基于相机运动生成的先验图的方式有效地建模人类视觉注意力与相机运动之间的关系。通过在模型中添加一种通过自适应的融合相机运动的相机运动模块,更有效地融合了相机运动信息和显著性特征。
附图说明
图1为本发明实施例总体框架图。
图2为本发明实施例显著性基础特征提取模块框架图。
图3为本发明实施例时序平均模块框架图。
图4为本发明实施例方法流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
本发明针对视频显著性预测,公开了一种基于相机运动以及第一人称视角先验信息的第一人称无人机视频显著性预测方法。首先通过运动恢复结构的方法获取无人机在拍摄每一视频帧时的旋转矩阵。每一视频帧分别通过显著性特征提取模块,时空特征提取模块提取视频帧空间特征,时间特征,之后通过相机运动模块,根据旋转矩阵提取相机运动特征并与时空显著性特征自适应的融合。随后通过第一人称视角先验模块,使用多尺度的先验图与显著性特征融合,帮助更加准确地预测。最后通过时序平均模块,使得生成的显著性预测图在时间维度上更加平滑,最后将特征通过解码器获得视频帧的显著性预测图。
参见图1,本发明实施例提出的整体方案是:首先基于输入的若干(n个)连续视频帧,通过运动恢复结构算法计算出每一帧的旋转矩阵。同时将视频帧送入显著性基础特征提取模块,所得到的输出继续送入时空特征提取模块中的时间编码器和空间编码器中,将两个编码器的输出相加并送入2D卷积层中整合后,与显著性基础特征提取模块的输出相加得到时空特征提取模块的输出。将时空特征提取模块的输出与运动恢复结构所计算出的旋转矩阵作为相机运动模块的输入,并将相机运动模块的输出送入第一人称视角先验模块。将第一人称视角先验模块的输出送入时序平均模块,再将结果送入解码器中,最终得到显著性预测图。具体实施时,n采用batchsize(批大小)。
如图4所示,本发明实施例提供的第一人称视角无人机视频显著性预测方法,包括步骤如下:
步骤1:获取相机运动的旋转矩阵并数据预处理。
本步骤首先将需要预测的视频帧通过运动恢复结构的方法得到相机运动的四元数,并进一步处理得到每一帧旋转矩阵。对视频帧进行预处理。
实施例的步骤1优选采用以下子步骤实现:
步骤1.1,首先对待预测的视频进行处理,按照原视频帧率将视频裁剪为视频帧;
步骤1.2,对视频进行抽帧,优选建议每三帧抽取一帧。对样本帧采用运动恢复结构方法,每一帧得到一组四元数,将四元数先转换为相对于上一采样帧的旋转矩阵;
所述运动恢复结构方法是Colmap,所述四元数包括(w,x,y,z),w表示虚部,x,y,z表示实部,转换的旋转矩阵用以表示相机的旋转。
步骤1.3,对视频帧的预处理包括:读取图片并将图片转化为RGB格式;将图片分辨率调整为W×H,将图片进行归一化操作,将数据类型转化为Tensor型,方便后续送入神经网络中进行计算;其中,W是调整后图片的宽,H是调整后图片的高,
步骤2:构建显著性基础特征提取模块。
本发明构建显著性基础特征提取模块,用于提取视频帧的基础显著性特征。
参见图2,实施例中的该模块在MobileNet-V2模型基础上进行改进,具体如下:
首先将视频帧送入若干连续的卷积块(实施例中设有5个卷积块,分别记为卷积块1-5),并将MobileNet-V2模型中最后的空间池化层换成带孔金字塔池化层,以获得多尺度的特征用来提取不同尺寸的显著性物体的特征。进一步地,该带孔金字塔池化层由K个并行的带孔卷积层(K优选取值为4,图2中分别记为带孔卷积层1-4)组成,将通过,K个带孔卷积层得到的特征连接起来作为MobileNet-V2模型最后一个卷积块(卷积块5)的输出;
第二步连接MobileNet-V2最后三个卷积块(卷积块3、4、5)的输出,包括使用2D卷积层分别对三个卷积块的输出特征进行通道维度调整,并对来自卷积块4和卷积块5的特征进行上采样,使得三个特征图大小相同,之后将三个特征按通道方向连接起来再通过一个卷积层得到视觉显著性基础特征Fx,x为输入视频帧序号。
步骤3:构建时空特征提取模块。
本发明构建的时空特征提取模块,包含两个编码器:时间编码器从多个连续视频帧提取帧间的时间特征,空间编码器从视频帧中提取空间特征,并融合时间特征与空间特征。
实施例的步骤3优选采用以下子步骤实现:
步骤3.1:构建空间编码器。当视频帧Xi经过显著性基础特征提取模块得到特征Fi后,输入空间编码器,在空间编码器中通过一个深度可分离卷积层来整合Fi中不同抽象层次的空间特征,得到空间显著性特征其中,标号i=1,2,…n。例如,batchsize为5时,n=5。
步骤3.2:构建时间编码器。当n个连续视频帧(X1,X2,…,Xn)通过n个并行的显著性基础特征提取模块,输入时间编码器后,在时间编码器中将从显著性基础特征提取模块得到的n个相应特征连接起来,首先通过一个卷积层降维,接下来采用Bi-Sub算子计算当前帧特征与前后帧特征之差,得到时序差异特征。设置最后一个卷积层用于特征升维,使得输入和输出特征维度相同。最终输出时间显著性特征X1,X2,…,Xn的时间遍码器输出共用这一个输出。
Bi-Sub算子可参见文献“K.Zhang,Z.Chen,S.Li,S.Liu,An efficient saliencyprediction model for unmanned aerial vehicle video,ISPRS Journal ofPhotogrammetry and Remote Sensing 194(2022)152-166”,本发明不予赘述:
步骤3.3:计算得到时间域特征和空间域特征/>后,采用逐元素加法进行特征融合,同时使用(1×1)卷积层进一步整合时空特征,并将该特征使用残差连接方式叠加到显著性基础特征Fi上得到时空显著性特征/>用公式表达如下,其中W表示(1×1)卷积层:
步骤4:构建相机运动模块。
将步骤1通过运动恢复结构方式得到的旋转矩阵送入相机运动模块中用于提取相机运动信息,并与步骤3所得时空特征自适应融合。
实施例的相机运动模块中,将每一帧的旋转矩阵通过两个连续的全连接层得到相机运动特征并将时空显著性特征在空间维度上全局平均池化得到池化特征/>然后将相机运动特征/>与池化特征/>在通道维度上叠加,并使用一个全连接层和sigmoid激活函数得到各通道相对应的权重W;最后将时空显著性特征/>与权重W逐通道相乘,得到基于相机运动的时空显著性特征/>
步骤5:构建第一人称视角先验模块。通过对数据的统计,生成第一人称视角先验图,并将多尺度的先验图与基于相机运动的时空显著性特征融合。
实施例的第一人称视角先验模块中,首先对数据集中的注视点进行统计,得到注视点位置坐标在水平和竖直方向上的均值μx,μy和方差σx,σy。根据统计得到的结果生成八张均值相同但方差不同的先验图,使用两个2D卷积层对多尺度的先验图进行整和,并于基于相机运动的时空显著性特征在通道维度上叠加,并使用一个2D卷积层进行特征整合得到基于相机运动与第一人称视角先验的时空显著性特征
步骤6:构建时序平均模块。
本发明通过时序平均模块,使预测得到的显著图在时间维度上更加平滑。
参见图3,实施例的时序平均模块中,将现在时刻的时空显著性特征与上一时刻时序平均模块的输出分别送入一卷积层,并将卷积层的输出相加,然后利用sigmoid激活函数得到权重W,最后将权重与现在时刻的时空显著性特征逐元素相乘,(1-W)与上时刻的时序平均模块的输出逐元素相乘,再将两部分按元素相加得到现在时刻的时序平均模块输出;
步骤7:构建解码器。利用解码器将显著性特征整合成单通道显著性图。
实施例中,得到现在时刻的基于相机运动先验的显著性特征需要将其整合成单通道显著性图。优选建议通过一个简单的解码器来生成单通道显著性图。本发明实施例采用以层卷积核大小为3×3,输出特征通道数1的卷积层将显著性特征/>整合生成单通道显著性图Si。
步骤8,对由步骤2-步骤6构成的整体模型进行训练;
实施例使用在AVS1K数据集上训练得到的权重初始化显著性特征提取模块和时空特征模块,使用UFPV200数据集进行模型整体的训练,在训练过程中,显著性特征提取模块的权重不再更新。使用随机梯度下降算法进行训练。
步骤9,利用训练好的整体模型实现视觉显著性预测。
为便于实施参考起见,提供实施例的模型训练细节:
所提出模型使用Pytorch在一个NVIDIA TITAN X GPU上实现。其中显著性基础特征提取模块以及时空特征提取模块中的参数使用在大型数据集AVS1K上训练得到的公开权重初始化。
权重初始化完成后,整个模型在UFPV200数据集上进行训练。训练过程中,显著性基础提取模块的权重不更新。使用随机梯度下降算法进行训练,初始学习率设置为10-3,动量设置为0.9,权重衰减系数设置为0.0005。批量大小设置为2,每一批次设置为5张连续的视频帧。
训练中使用损失函数如以下公式所示:
L(S,M,F)=α1Lkl(S,M)+α2Lcc(S,M)+α3Lnss(S,F)
其中S代表模型输出的单通道显著性预测图,M代表数据真实值中的显著性密度图,F代表数据真实值中的注视点图,α1、α2、α3分别表示相应权重。Lkl()、Lcc()、Lnss()分别代表KL散度、线性相关系数、标准化路径扫描显著性的计算公式,具体如下:
其中i表示第i个像素,Mi是显著性密度图中第i个像素的值,Si是显著性预测图中第i个像素的值。
其中cov(S,M)和σ(S,M)分别表示模型得到的显著性预测结果与真实的显著性密度图之间的协方差和标准差。
其中μ(S)和σ(S)分别表示显著性预测结果图的均值和方差,i表示第i个像素,N表示人眼注视点的数量,Fi是注视点图中第i个像素的值。NSS值越大说明显著性预测模型性能越好。
具体实施时,α1、α2、α3为用户预先设置的权重,可以预先通过实验设置经验值,在实施例中优选设置分别为1、-0.2、-0.1。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种第一人称视角无人机视频显著性预测系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种第一人称视角无人机视频显著性预测方法。
在一些可能的实施例中,提供一种第一人称视角无人机视频显著性预测系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种第一人称视角无人机视频显著性预测方法。
本文中所描述的具体实施仅仅是对本发明精神作举例说明,本发明所属技术领域的技术人员可对所描述的具体实施进行各种各样的修改或补充或采用类似的方式替代,但不会偏离本发明的精神或超越所附权利要求书所定义的范围。
Claims (10)
1.一种第一人称视角无人机视频显著性预测方法,其特征在于:基于相机运动信息以及第一人称视角先验信息,进行第一人称无人机视频显著性预测,实现方式包括首先基于输入的若干连续视频帧,通过运动恢复结构方式计算出每一帧的旋转矩阵;同时将视频帧送入显著性基础特征提取模块,所得到的输出继续送入时空特征提取模块中的时间编码器和空间编码器中,将两个编码器的输出相加并送入2D卷积层中整合后,与显著性基础特征提取模块的输出相加得到时空特征提取模块的输出;将时空特征提取模块的输出与运动恢复结构所计算出的旋转矩阵作为相机运动模块的输入,并将相机运动模块的输出送入第一人称视角先验模块;将第一人称视角先验模块的输出送入时序平均模块,再将结果送入解码器中,最终得到显著性预测图。
2.根据权利要求1所述的一种第一人称视角无人机视频显著性预测方法,其特征在于:第一人称无人机视频显著性预测实现过程包括如下步骤,
步骤1,将需要预测的视频帧通过运动恢复结构方式得到相机运动的四元数,并进一步处理得到每一帧旋转矩阵,对视频帧进行预处理;
步骤2,构建显著性基础特征提取模块,用于提取视频帧的基础显著性特征;
步骤3,构建时空特征提取模块,所述时空特征提取模块中,时间编码器从多个连续视频帧提取帧间的时间特征,空间编码器从视频帧中提取空间特征,并融合时间特征与空间特征,得到时空特征;
步骤4,构建相机运动模块,将步骤1通过运动恢复结构方式得到的旋转矩阵送入相机运动模块中用于提取相机运动信息,并与步骤3所得时空特征自适应融合;
步骤5,构建第一人称视角先验模块,所述第一人称视角先验模块中,通过对数据的统计,生成第一人称视角先验图,并将多尺度的先验图与基于相机运动的时空显著性特征融合;
步骤6,构建时序平均模块,使预测得到的显著图在时间维度上更加平滑;
步骤7,利用解码器将显著性特征整合成单通道显著性图;
步骤8,对由步骤2-步骤6构建的整体模型进行训练;
步骤9,利用训练好的整体模型实现视觉显著性预测。
3.根据权利要求2所述的一种第一人称视角无人机视频显著性预测方法,其特征在于:所述构建显著性基础特征提取模块的实现方式如下,
基于MobileNet-V2模型进行改进,将MobileNet-V2模型中最后的空间池化层换成带孔金字塔池化层,以获得多尺度的特征用来提取不同尺寸的显著性物体的特征,而后使用MobileNet-V2最后三个卷积层的特征进行特征融合,得到显著性基础特征Fx,x为输入视频帧序号。
4.根据权利要求2所述的一种第一人称视角无人机视频显著性预测方法,其特征在于:所述时空特征提取模块提取时空特征的实现方式如下,
当视频帧Xi经过显著性基础特征提取模块得到特征Fi后,输入空间编码器,在空间编码器中通过深度可分离卷积层来整合Fi中不同抽象层次的空间特征,得到空间显著性特征
当n个连续视频帧X1,X2,…,Xn通过n个并行的显著性基础特征提取模块,输入时间编码器后,在时间编码器中将从显著性基础特征提取模块得到的n个相应特征连接起来,首先通过一个卷积层降维,接下来采用Bi-Sub算子计算当前帧特征与前后帧特征之差,得到时序差异特征;设置最后一个卷积层用于特征升维,使得输入和输出特征维度相同,最终输出时间显著性特征X1,X2,…,Xn的时间遍码器输出共用这一个输出;
计算得到时间域特征和空间域特征/>后,采用逐元素加法进行特征融合,同时使用1×1卷积层进一步整合时空特征,并将该特征使用残差连接方式叠加到显著性基础特征Fi上得到时空显著性特征/>
5.根据权利要求2所述的一种第一人称视角无人机视频显著性预测方法,其特征在于:所述相机运动模块中,
将每一帧的旋转矩阵通过两个连续的全连接层得到相机运动特征并将时空显著性特征在空间维度上全局平均池化得到池化特征/>将相机运动特征/>与池化特征/>在通道维度上叠加,并使用一个全连接层和sigmoid激活函数得到各通道相对应的权重W;最后将时空显著性特征/>与权重W逐通道相乘,得到基于相机运动的时空显著性特征/>
6.根据权利要求2所述的一种第一人称视角无人机视频显著性预测方法,其特征在于:所述第一人称视角先验模块中,
首先对数据集中的注视点进行统计,得到注视点位置坐标在水平和竖直方向上的均值μx,μy和方差σx,σy;根据统计得到的结果生成八张均值相同但方差不同的先验图,使用两个2D卷积层对先验图进行整和,并于基于相机运动的时空显著性特征在通道维度上叠加,并使用一个2D卷积层进行特征整合得到基于相机运动与第一人称视角先验的时空显著性特征
7.根据权利要求2所述的一种第一人称视角无人机视频显著性预测方法,其特征在于:所述时序平均模块中,
将现在时刻的时空显著性特征与上一时刻时序平均模块的输出分别送入一卷积层,并将卷积层的输出相加,然后利用sigmoid激活函数得到权重W,最后将权重与现在时刻的时空显著性特征逐元素相乘,(1-W)与上时刻的时序平均模块输出逐元素相乘,再将两部分相乘结果相加得到现在时刻的时序平均模块输出。
8.一种第一人称视角无人机视频显著性预测系统,其特征在于:用于实现如权利要求1-7任一项所述的一种第一人称视角无人机视频显著性预测方法。
9.根据权利要求6所述第一人称视角无人机视频显著性预测系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-7任一项所述的一种第一人称视角无人机视频显著性预测方法。
10.根据权利要求6所述第一人称视角无人机视频显著性预测系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-7任一项所述的一种第一人称视角无人机视频显著性预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311735046.3A CN117671538A (zh) | 2023-12-18 | 2023-12-18 | 一种第一人称视角无人机视频显著性预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311735046.3A CN117671538A (zh) | 2023-12-18 | 2023-12-18 | 一种第一人称视角无人机视频显著性预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117671538A true CN117671538A (zh) | 2024-03-08 |
Family
ID=90080732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311735046.3A Pending CN117671538A (zh) | 2023-12-18 | 2023-12-18 | 一种第一人称视角无人机视频显著性预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671538A (zh) |
-
2023
- 2023-12-18 CN CN202311735046.3A patent/CN117671538A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11632533B2 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
US20240267481A1 (en) | Scene-aware selection of filters and effects for visual digital media content | |
US11776131B2 (en) | Neural network for eye image segmentation and image quality estimation | |
Monroy et al. | Salnet360: Saliency maps for omni-directional images with cnn | |
Lee et al. | Motion sickness prediction in stereoscopic videos using 3d convolutional neural networks | |
CN110799991B (zh) | 用于使用卷积图像变换执行同时定位和映射的方法和系统 | |
US10726560B2 (en) | Real-time mobile device capture and generation of art-styled AR/VR content | |
KR101840563B1 (ko) | 신경망을 이용한 3차원 얼굴 복원 방법 및 장치 | |
Niu et al. | 2D and 3D image quality assessment: A survey of metrics and challenges | |
CN107203745B (zh) | 一种基于跨域学习的跨视角动作识别方法 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
US8903139B2 (en) | Method of reconstructing three-dimensional facial shape | |
WO2023080921A1 (en) | Neural radiance field generative modeling of object classes from single two-dimensional views | |
CN112509144B (zh) | 人脸图像处理方法、装置、电子设备及存储介质 | |
US20230217001A1 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
CN116152439A (zh) | 一种基于多视角人体图像的人体三维姿态重建方法及系统 | |
CN115100707A (zh) | 模型的训练方法、视频信息生成方法、设备以及存储介质 | |
CN116996654A (zh) | 新视点图像生成方法、新视点生成模型的训练方法与装置 | |
CN112954313A (zh) | 一种对全景图像感知质量的计算方法 | |
CN111192305B (zh) | 用于生成三维图像的方法和装置 | |
Guo et al. | No-reference omnidirectional video quality assessment based on generative adversarial networks | |
Fiore et al. | Towards achieving robust video selfavatars under flexible environment conditions | |
CN117671538A (zh) | 一种第一人称视角无人机视频显著性预测方法及系统 | |
RU2757563C1 (ru) | Способ визуализации 3d портрета человека с измененным освещением и вычислительное устройство для него | |
US20240212106A1 (en) | Photo Relighting and Background Replacement Based on Machine Learning Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |