CN116993760A - 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 - Google Patents
一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116993760A CN116993760A CN202311034718.8A CN202311034718A CN116993760A CN 116993760 A CN116993760 A CN 116993760A CN 202311034718 A CN202311034718 A CN 202311034718A CN 116993760 A CN116993760 A CN 116993760A
- Authority
- CN
- China
- Prior art keywords
- matrix
- pixel
- layer
- feature matrix
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims abstract description 99
- 230000007246 mechanism Effects 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 98
- 238000005096 rolling process Methods 0.000 claims abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 282
- 238000011176 pooling Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 28
- 238000003709 image segmentation Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000011423 initialization method Methods 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 230000002354 daily effect Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质,方法包括:将含手部的RGB图像作为网络输入,预处理图像数据集,将预处理后的图像数据集划分成训练集和测试集;超像素分割RGB图像,得到RGB图像初始分割区域掩膜,将RGB图像初始分割区域掩膜输入图卷积层,结合注意力机制模型构建图卷积预训练网络,通过训练图卷积预训练网络,结合交叉熵损失函数优化网络参数,得到分类模型;系统、设备及介质,用于实现一种基于图卷积和注意力机制的手势分割方法;本发明提升了图像中手部类别的准确率,手势分割效果更加准确、边缘分割更加清楚,且本发明减小了模型参数文件大小,更便于部署到硬件设备上使用,运行效率更高。
Description
技术领域
本发明属于计算机视觉图像处理技术领域,具体涉及一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质。
背景技术
手势识别研究中,基于视觉的手势识别是应用最广的手势识别技术。手势分割是手势识别的基础和前提,其分割效果的好坏会影响到后续手势识别精确性的结果。手势分割是将手势作为前景,与背景进行分离。手势识别的传统算法用人工设计手势特征,再通过图像识别算法或者机器学习算法进行手部分割与检测。手势分割技术的实现方法主要可分为:模板检测、肤色检测、运动分析等。分割技术依据手势的高级特征值,比如指尖、手指、关节等部位的特征,其目的一是检测出是否有手,二是框选出手的范围。常见的肤色模型算法主要利用了与手部相关的肤色信息,并通过图像空间处理技术过滤背景对目标的干扰,最终获取手势轮廓及位置信息。常见的肤色模型包括椭圆肤色模型、阈值判定法、高斯模型及肤色概率分布模型等。但是传统方法易受复杂背景和环境的干扰,手势识别结果准确率较低,鲁棒性较差,并且传统方法高度依赖于专家的先验知识和人工设计的特征,数据集标注任务量巨大。
其次,依赖于深度图像的手势分割算法出现,其将采集到的图像中像素点的深度值转化为不同的灰度值,并根据灰度值的大小分割手势。虽然深度摄像头提供了更全面、更立体的三维位置信息,但是设备产品成本昂贵、技术不完备,推广较为困难。
由于深度学习在目标检测方面的优势,很快在手势分割与识别领域成为研究热点。全卷积残差网络(Fully Convolutional Networks,FCN)虽然能够达到较好的语义分割效果,但边缘细节的处理不够精细。U-Net作为语义分割领域的经典网络,采用编解码结构,达到较好的效果,在其中加入跳跃连接,更有利于恢复物体边界轮廓,但是,由于U-Net使用了深层的卷积神经网络,导致模型参数量相对较大,进而在较小数据集上容易出现过拟合问题,不仅需要较长的训练时间和更多的计算资源,而且也不便于部署到硬件设施上。
在现实的应用场景中,手势分割与识别面临着手势灵活多变、识别环境复杂、非均匀光照等诸多挑战与干扰。现实应用场景的复杂多变,类肤色背景、室内外各种各样的背景会对手势识别造成干扰。且在手势分割过程中,手势轮廓易被其他物体遮挡,影响算法对目标特征的提取,在严重遮挡的情况下还会造成手势形状提取不准确。另外,为在实际应用中更好发挥作用,手势分割算法及网络通常要部署到硬件设备上。但目前的大多数手势分割算法运行处理速度慢、网络规模大,是实际应用中难以解决的痛点。
申请公布号为CN114926898A的中国发明申请公开了一种手势识别模型训练及手势识别方法、装置、设备及介质,通过拍摄手部配戴有红色系手套的多张手势图像,对每张手势图像依次进行从RGB色彩空间转换成YCrCb空间、图像前景背景划分、二值化处理,得到手势分割图像;构建卷积神经网络结构,利用多张手势分割图像对卷积神经网络结构进行训练,得到手势识别模型。但是该发明采用的二段式处理方法无法实现端到端的处理,并且固定阈值划分方法要求使用者须佩戴红色紧身胶皮手套,该限制显著影响专利所属方法的泛用性与稳定性,即部分应用场景下受试者难以佩戴对应手套,复杂场景中同色物体对分割及分类结果影响明显、边缘分割已被干扰。另外,该模型使用经典神经网络进行手势检测与识别,由于网络的特性难以避免的忽略长程上下文关系,其网络层数多、步骤相对复杂,这将导致网络模型规模较大,不方便部署到日常使用的硬件设备中。
申请公布号为CN113673313A的中国发明申请公开了一种基于分层卷积神经网络的手势姿态识别方法,在分割部分采用以VGG19网络为基础的分割网络,并引入不同的卷积核支路并行链接,通过融合多支路结果作为最终分割结果,但这种基于U-net的多分枝分割结构势必造成计算力的冗余浪费以及模型储存空间的额外负担。
发明内容
针对上述现有技术中的缺点,本发明的目的在于提出一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质,将含有手部的RGB图像作为网络输入,利用图卷积特性关注输入图片中的长程上下文关系,可用于解决现有手势分割方法中,手部检测不准确和边缘分割不明确的技术问题;利用超像素分割与图卷积的处理,大大减小了手势分割的网络规模和参数数量,以解决现有技术中手势分割方法网络规模大,不便于迁移到硬件设备的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
一种基于图卷积和注意力机制的手势分割方法,包括以下步骤:
步骤1:将多张含手部的日常场景RGB图像和手部分割标签图像输入特征提取网络,得到RGB图像数据集和手部分割标签图像数据集;将RGB图像数据集中的RGB图像进行预处理,将预处理后的RGB图像数据集进行划分,得到训练集和测试集;
步骤2:基于SLIC算法对步骤1中得到的RGB图像数据集中的RGB图像进行超像素分割,获得RGB图像初始分割区域掩膜seg_index;
步骤3:构建图卷积层;
步骤4:构建注意力机制模型,包括空间注意力模块和通道注意力模块;
步骤5:基于步骤3构建的图卷积层和步骤4构建的注意力机制模型,构建图卷积预训练网络;
步骤6:将步骤1中的训练集输入步骤5中构建的图卷积预训练网络进行训练,再通过对交叉熵损失函数值进行反向传播来优化步骤5构建的图卷积预训练网络的网络参数,直到网络收敛,得到训练好的分类模型;
步骤7:使用步骤6得到的分类模型对步骤1中的测试集进行手势分割,得到测试集的分割结果。
所述步骤1的具体过程为:
步骤1.1:在特征提取网络中输入多张含手部的日常场景RGB图像和手部分割标签图像,得到RGB图像数据集和手部分割标签图像数据集;将RGB图像设置为一个三维矩阵,三维矩阵F∈Rc×m×n,其中R表示整个实数域,m表示输入图像的长度,n表示输入图像的宽度,c表示输入图像的通道数,得到读入的RGB图像,然后在三维矩阵F中提取RGB图像所有像素点的值作为特征值;
步骤1.2:将步骤1.1中的RGB图像的大小设置为c×1280×896;
步骤1.3:对经过步骤1.2处理的RGB图像进行归一化处理,即将步骤1.1中的特征值归一化到[0,1]之间,归一化方式如下:
其中,input指输入的单张RGB图像数据,min(input)是RGB图像中的最小像素值,max(input)是RGB图像中的最大像素值;
步骤1.4:将经过步骤1.3中处理的RGB图像数据集进行划分,选取RGB图像数据集的70%作为训练集,其余30%作为测试集。
所述步骤2中超像素分割的块数block_num为20块,紧凑度参数compactness为0.92。
所述步骤3具体过程如下:
步骤3.1:在步骤2中获得的RGB图像初始分割区域掩膜seg_index里输入RGB图像的像素级特征矩阵F,F={f11,f12,...,fhl},其中,h是像素级特征矩阵F的行数,l是像素级特征矩阵F的列数,fij是像素级特征矩阵F内第i行(i=1,2,...,h)、第j列(j=1,2,...,l)个像素包含的特征向量,n是像素级特征矩阵F内像素点的数量,即n=h×l;将像素级特征矩阵F划分成N个区域{R1,R2,...,RN},Rk指第k个区域,k=1,2,...,N;使用中心向量rk表示像素级特征矩阵F内的每个区域,中心向量rk为区域Rk内所有的像素特征的均值,计算方法为:
其中,numk表示区域Rk中像素点数量,k=1,2,...,N;
将像素级特征矩阵F中的所有区域视为构造图结构的节点,节点代表值集合用Fg={r1,r2,...,rN}表示,其中,ri是第i个节点的值,得到所有节点代表值;
步骤3.2:通过步骤3.1中节点与节点之间的连接关系构建邻接矩阵A,将构建的邻接矩阵A设置为节点全连接状态,即这个邻接矩阵中每个位置都为1,尺寸为block_num×block_num;为深入捕捉不同区域间的相互关系,设置一个尺寸为3×3的权重矩阵Wd;用马氏距离度量来表示节点之间的相似性,具体计算公式如下:
其中,(ri-rj)T是(ri-rj)的转置,M是一个对称的半正定矩阵,M的计算方法为
由节点间的马氏距离D(ri,rj)构建可训练的动态邻接矩阵的权重矩阵W,权重矩阵W的计算公式如下:
其中,γ是超参数,ri和rj表示两个节点,D(·)表示马氏距离度量;
通过权重矩阵W更新邻接矩阵A,反映当前时间步骤下的图结构,即将节点的邻接矩阵A与权重矩阵W逐元相乘,得到时间步骤t下的动态邻接矩阵At;
步骤3.3:对步骤3.2得到的动态邻接矩阵At使用像素级图节点更新PGNU策略进行图卷积操作,得到像素级特征矩阵Fnew和更新后的邻接矩阵Anew;具体来说,通过PGNU策略对步骤3.1得到的这些节点进行特征传播和更新,节点的更新方式如下:
其中,ri是第i个区域节点的特征值,ri new是第i个区域节点ri更新后的特征值,Ni为节点ri的邻居节点集合,u为节点ri邻居节点的节点,At是时间步骤t下的动态邻接矩阵,At中的参数是可训练的参数,σ是非线性激活函数;
在传播过程中,节点之间的特征信息会在图上进行聚合和传递,更新每个节点的代表值得到更新后的步骤3.1中节点代表值集合Fg;按照矩阵的列方向对步骤3.2得到的时间步骤t下的动态邻接矩阵At进行求和,并除以邻接矩阵A中的非零元素数量,得到邻接平均值;将邻接矩阵A与邻接平均值相加来更新邻接矩阵A,得到更新后的邻接矩阵Anew;通过更新后的步骤3.1中节点特征值集合Fg更新每个区域{R1,R2,...,RN}内的所有像素点特征值,更新步骤3.1中的像素级特征矩阵F,得到像素级特征矩阵Fnew,具体公式如下:
其中,和/>是属于第j个区域的输入和输出特征,A.j表示邻接矩阵A的第j行,ri表示第i个区域节点特征,D是通过反向传播梯度算法学习得到特征传播的权重矩阵。
所述步骤4具体过程为:
(1)构建空间注意力模块:在空间注意力模块里对初始输入特征矩阵X的通道维度计算平均特征值和最大特征值,分别得到尺寸均为1×h×w的平均特征矩阵X1和最大特征矩阵X2,h为输入特征矩阵的行数,w为输入特征矩阵的列数;将平均特征矩阵X1和最大特征矩阵X2进行通道拼接,得到一个通道数为2的特征矩阵Xall,将特征矩阵Xall输入到经典卷积层CNN,设置该经典卷积层的卷积核大小为5×5,卷积前需要进行边缘填充操作,填充数据为0,填充尺寸为2,得到尺寸为1×h×w的空间注意力掩膜特征图Ms;将初始输入特征矩阵X与空间注意力掩膜特征图Ms相乘,得到空间注意力增强后的特征矩阵X′,将空间注意力增强后的特征矩阵X′与初始输入特征矩阵X相加,得到空间注意力模块最终输出的特征图;
(2)构建通道注意力模块:在通道注意力模块里对初始输入特征矩阵Y进行全局池化操作,将初始输入特征矩阵Y的每个通道的特征值压缩到一个数值,得到一个c×1×1的特征矩阵,c是输入特征矩阵的通道数;将c×1×1的特征矩阵通过全连接层linear1进行降维,得到一个(c/r)×1×1的特征矩阵,其中r是降维比例参数;将(c/r)×1×1的特征矩阵通过全连接层linear2升维,得到一个升维后的c×1×1的特征矩阵;最后通过Sigmoid函数将升维后的c×1×1的特征矩阵中每个通道的值限制在[0,1]之间,得到通道注意力掩膜图Mc;将初始输入特征矩阵Y与通道注意力掩膜图Mc相乘,得到通道注意力增强后的特征矩阵Y’,将通道注意力增强后的特征矩阵Y’与初始输入特征矩阵Y相加,得到通道注意力模块最终输出的特征图。
所述步骤5具体过程为:
基于步骤3中构建的图卷积层,分别建立四层用于特征提取的图卷积层,即gcn1、gcn2、gcn3、gcn4,以及图卷积输出层gcnall,具体如下:
第一层gcn1:
将步骤2得到的图像初始分割区域掩膜seg_index和步骤1.3预处理后的RGB图像输入步骤3中构建的图卷积层gcn1,得到第一尺度图模型,第一尺度图模型中的第一层像素级特征矩阵F1,尺寸为b×c×1280×896,其中,b指每次训练时同时处理的样本数量,c为通道数量;
第二层gcn2:
对第一层像素级特征矩阵F1进行最大池化处理,即将输入的第一层像素级特征矩阵F1划分成数个3×3的区域,池化操作的滑动步长设置为2;对于每个池化区域,取该区域中的最大的特征值作为池化结果,得到池化后的像素级特征矩阵F1′,将池化后的像素级特征矩阵F1′输入步骤4构建的注意力机制模型中,即池化后的像素级特征矩阵F1′依次经过空间注意力模块和通道注意力模块处理,得到第二层的特征图输入F1″;
将步骤2得到的图像初始分割区域掩膜seg_index进行二维最近邻池化操作,即将输入的图像初始分割区域掩膜seg_index划分成数个3×3的区域,池化操作的滑动步长设置为2;对于每个池化区域,取该区域中距离池化中心最近的特征值作为池化结果,得到gcn2的图像分割区域掩膜seg_index2;
将第二层的特征图输入F1″和gcn2的图像分割区域掩膜seg_index2输入图卷积层gcn2,得到第二尺度图模型,第二尺度图模型中的第二层像素级特征矩阵F2,尺寸为b×c×640×448;对第二层像素级特征矩阵F2进行上采样处理,直至第二层像素级特征矩阵F2与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第二层像素级特征矩阵
第三层gcn3:
对第二层像素级特征矩阵F2进行最大池化和注意力机制模型处理,其参数设置与第一层中第一层像素级特征矩阵F1相同,得到尺寸为b×c×320×224的第三层的特征图输入F2″;对gcn2的图像分割区域掩膜seg_index2进行最近邻池化处理,得到gcn3的图像分割区域掩膜seg_index3;
将第三层的特征图输入F2″和gcn3的图像分割区域掩膜seg_index3输入图卷积层gcn3,得到第三尺度图模型,第三尺度图模型中的第三层像素级特征矩阵F3,尺寸为b×c×320×224;将第三层像素级特征矩阵F3进行上采样处理,直至第三层像素级特征矩阵F3与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第三层像素级特征矩阵
第四层gcn4:
对第三层像素级特征矩阵F3进行最大池化和注意力机制模型处理,其参数设置与第一层中第一层像素级特征矩阵F1相同,得到尺寸为b×c×160×112的第三层的特征图输入F3″;对gcn3的图像分割区域掩膜seg_index3进行最近邻池化处理,得到gcn4的图像分割区域掩膜seg_index4;
将第三层的特征图输入F3″和gcn4的图像分割区域掩膜seg_index4输入图卷积层gcn4,得到第四尺度图模型,第四尺度图模型中的第四层像素级特征矩阵F4,尺寸为b×c×160×112;将第四层像素级特征矩阵F4进行上采样处理,直至第三层像素级特征矩阵F3与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第四层像素级特征矩阵
图卷积输出层gcnall:
将第一层像素级特征矩阵第三层像素级特征矩阵/>第四层像素级特征矩阵/>与第一层像素级特征矩阵F1在通道维度方向上进行拼接,得到融合后的像素级总特征矩阵Fall,尺寸为b×4c×1280×896;将融合后的像素级总特征矩阵Fall输入图卷积输出层gcnall,融合分类层的输入通道数4c,输出通道数为分割类别数;融合后的像素级总特征像素级Fall的图片长和宽数值与步骤1.3预处理后的RGB图像一致,输出分类特征矩阵Fout。
所述步骤6具体过程为:
步骤6.1:将步骤5构建的图卷积预训练网络中的分类特征矩阵Fout输入Softmax分类器,Softmax分类器将输入的特征向量映射到各个类别的概率分布上,输出RGB图像数据集中尺寸为b×n×1280×896的RGB图像分类的预测概率分布矩阵,其中n为类别数,得到分类结果;
步骤6.2:使用Kaiming网络参数初始化方法初始化步骤3.2的权重矩阵Wd和步骤3的权重矩阵D;将步骤1.4中的RGB图像数据集中的训练集数据输入步骤5构建的图卷积预训练网络进行训练,训练样本数为总数据集的70%,初始学习率为0.1,训练代数为10;
步骤6.3:将步骤1.4的RGB图像训练集的RGB图像的每个像素点的特征值与步骤1.1中的读入的手部分割标签图的像素点的标签值进行标签配准,得到与RGB图像训练集对应后的手部分割标签图像数据集;
步骤6.4:将步骤6.1中的分类结果和步骤6.3中与RGB图像训练集对应后的手部分割标签图像数据集数据代入交叉熵损失函数,通过对交叉熵损失函数值进行反向传播来优化步骤5构建的图卷积预训练网络的网络参数,交叉熵损失的具体公式如下:
其中,p(x)为分类的真实概率分布(真实标签值),q(x)为分类的预测概率分布;
对图卷积预训练网络反复进行训练和优化操作,在训练过程中多次学习和更新步骤3.2的权重矩阵Wd和步骤3.3的权重矩阵D的参数;经迭代10次之后,当交叉熵损失函数值不再下降,图卷积预训练网络达到收敛,得到分类模型。
一种基于图卷积和注意力机制的手势分割系统,包括:
图像预处理模块:获取多张含手部的日常场景图像,对图像进行预处理;
图像分割模块:将图像预处理模块中的图像进行超像素分割;
图卷积层构建模块:用于构建图卷积层;
注意力机制模型构建模块:用于构建注意力机制模型;
图卷积预训练网络构建模块:用于构建图卷积预训练网络;
图卷积预训练网络训练模块:将预处理后的图像输入构建的图卷积预训练网络中进行训练,直至网络收敛,得到训练好的分类模型;
结果输出模块:将预处理后的图像输入图卷积预训练网络训练模块的分类模型中,得到图像分割结果。
一种基于图卷积和注意力机制的手势分割设备,包括:
存储器:用于存储实现一种基于图卷积和注意力机制的手势分割方法的计算机程序;
处理器:用于执行所述计算机程序时实现一种基于图卷积和注意力机制的手势分割方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现一种基于图卷积和注意力机制的手势分割方法。
本发明与现有技术相比具有以下优点:
1.本发明通过在进行图结构的构建时,首先对输入图片做超像素分割操作,以区域代表特征作为图节点构造图,与现有技术相比,大大降低了在像素级构建图结构的计算消耗,减少了网络参数,使模型更加轻量,方便移植到多种计算设备上使用。
2.与传统的图节点更新方法相比,本发明通过利用像素级图节点更新(PGNU)策略更新图像中的像素特征,再用更新后的像素特征重新进行平均来更新图节点;PGNU策略允许多尺度特征学习,而图卷积操作可以通过堆叠不同层级的节点更新来实现多尺度特征的融合,从而提高图像分割的性能,大大节约了计算成本,减轻了过平滑现象。
3.本发明通过对特征图施加一个空间注意力掩膜特征图来表达该区域与关键信息的相关程度,该权重值越大,则相关度越高,在网络训练过程中会对关键区域更加关注。除此之外,考虑到深度相机、骨骼相机等多种人机交互图像捕获设备的数据差异,还对通道方面做相似处理,与关键信息相关度高的通道被赋予更大的权重值,获得更多关注,有利于提升网络训练效果;对空间和通道的自适应选择,使得手势边缘分割更加清晰。
综上所述,本发明通过将含有手部的RGB图像作为网络输入,利用图卷积特性关注输入图片中的长程上下文关系,使得手势分割效果更加准确、边缘分割更加清楚;利用超像素分割与图卷积的处理,大大减小了手势分割的网络规模和参数数量,能够更便于部署到硬件设备上使用,运行效率更高。
附图说明
图1是本发明的实现流程图。
图2是本发明的图卷积预训练网络结构示意图。
图3是本发明在数据集上的分割结果(部分)。
具体实施方式
下面结合附图对本发明的工作原理作详细叙述。
一种基于图卷积和注意力机制的手势分割方法,包括以下步骤:
步骤1:将多张含手部的日常场景RGB图像和手部分割标签图像输入特征提取网络,得到RGB图像数据集和手部分割标签图像数据集;将RGB图像数据集中的RGB图像进行预处理,将预处理后的RGB图像数据集进行划分,得到RGB图像训练集和RGB图像测试集;
步骤1.1:在特征提取网络中输入多张含手部的日常场景RGB图像和手部分割标签图像,得到RGB图像数据集和手部分割标签图像数据集;将RGB图像设置为一个三维矩阵,三维矩阵F∈Rc×m×n,其中R表示整个实数域,m表示输入图像的长度,n表示输入图像的宽度,c表示输入图像的通道数,得到读入的RGB图像,然后在三维矩阵F中提取RGB图像所有像素点的值作为特征值;
步骤1.2:将步骤1.1中的RGB图像的大小设置为c×1280×896,以方便特征提取网络统一处理和获得良好的运行效果;
步骤1.3:对经过步骤1.2处理的RGB图像进行归一化处理,即将步骤1.1中的特征值归一化到[0,1]之间,归一化方式如下:
其中,input指输入的单张RGB图像数据,min(input)是RGB图像中的最小像素值,max(input)是RGB图像中的最大像素值;
步骤1.4:将经过步骤1.3中处理的RGB图像数据集进行划分,选取RGB图像数据集的70%作为训练集,其余30%作为测试集;
步骤2:基于SLIC算法对步骤1中得到的RGB图像数据集中的RGB图像进行超像素分割,获得RGB图像初始分割区域掩膜seg_index;
将步骤1.3中的单张RGB图像划分成20个均匀的区域,即将图像中相似纹理、颜色、亮度的相邻像素分在同一个具有视觉意义的超像素块中,规定超像素分割的块数block_num为20块,由于手的形状通常为非规则形状像素块,故紧凑度参数compactness设置为0.92,得到RGB图像初始分割区域掩膜seg_index;
步骤3:构建图卷积层(gcn)
步骤3.1:在步骤2中获得的RGB图像初始分割区域掩膜seg_index里输入RGB图像的像素级特征矩阵F,F={f11,f12,...,fhl},其中,h是像素级特征矩阵F的行数,l是像素级特征矩阵F的列数,fij是像素级特征矩阵F内第i行(i=1,2,...,h)、第j列(j=1,2,...,l)个像素包含的特征向量,n是像素级特征矩阵F内像素点的数量,即n=h×l;将像素级特征矩阵F划分成N个区域{R1,R2,...,RN},Rk指第k个区域,k=1,2,...,N;使用中心向量rk表示像素级特征矩阵F内的每个区域,中心向量rk为区域Rk内所有的像素特征的均值,计算方法为:
其中,numk表示区域Rk中像素点数量,k=1,2,...,N;
将像素级特征矩阵F中的所有区域视为构造图结构的节点,节点代表值集合,用Fg={r1,r2,...,rN}表示,其中,ri是第i个节点的值,得到所有节点代表值;
步骤3.2:通过步骤3.1中节点与节点之间的连接关系构建邻接矩阵A,将构建的邻接矩阵A设置为节点全连接状态,即这个邻接矩阵中每个位置都为1,表示所有节点两两相连,尺寸为block_num×block_num;为深入捕捉不同区域间的相互关系,设置一个尺寸为3×3的权重矩阵Wd;在本发明设计的图卷积层中,用马氏距离度量来表示节点之间的相似性,具体计算公式如下:
其中,(ri-rj)T是(ri-rj)的转置,M是一个对称的半正定矩阵,M的计算方法为
由节点间的马氏距离D(ri,rj)构建可训练的动态邻接矩阵的权重矩阵W,权重矩阵W的计算公式如下:
其中,γ是超参数,ri和rj表示两个节点,D(·)表示马氏距离度量;
通过权重矩阵W更新邻接矩阵A,反映当前时间步骤下的图结构,即将节点的邻接矩阵A与权重矩阵W逐元相乘,得到时间步骤t下的动态邻接矩阵At;
步骤3.3:对步骤3.2得到的动态邻接矩阵At使用像素级图节点更新(即Pixel-level Graph Nodes Updating,PGNU)策略进行图卷积操作,得到像素级特征矩阵Fnew和更新后的邻接矩阵Anew;具体来说,通过PGNU策略对步骤3.1得到的这些节点进行特征传播和更新,以更好的表示像素级特征,节点的更新方式如下:
其中,ri是第i个区域节点的特征值,ri new是第i个区域节点ri更新后的特征值,Ni为节点ri的邻居节点集合,u为节点ri邻居节点的节点,At是时间步骤t下的动态邻接矩阵,At中的参数是可训练的参数,σ是非线性激活函数;
在传播过程中,节点之间的特征信息会在图上进行聚合和传递,更新每个节点的代表值得到更新后的步骤3.1中节点代表值集合Fg;按照矩阵的列方向对步骤3.2得到的时间步骤t下的动态邻接矩阵At进行求和,并除以邻接矩阵A中的非零元素数量,得到邻接平均值;将邻接矩阵A与邻接平均值相加来更新邻接矩阵A,得到更新后的邻接矩阵Anew;通过更新后的步骤3.1中节点特征值集合Fg更新每个区域{R1,R2,...,RN}内的所有像素点特征值,更新步骤3.1中的像素级特征矩阵F,得到像素级特征矩阵Fnew,具体公式如下:
其中,和/>是属于第j个区域的输入和输出特征,A.j表示邻接矩阵A的第j行,ri表示第i个区域节点的特征值,D是通过反向传播梯度算法学习得到特征传播的权重矩阵。
步骤4:构建注意力机制模型,包括空间注意力模块和通道注意力模块
(1)构建空间注意力模块:在空间注意力模块里对初始输入特征矩阵X的通道维度计算平均特征值和最大特征值,分别得到尺寸均为1×h×w的平均特征矩阵X1和最大特征矩阵X2,h为输入特征矩阵的行数,w为输入特征矩阵的列数;将平均特征矩阵X1和最大特征矩阵X2进行通道拼接,得到一个通道数为2的特征矩阵Xall,将特征矩阵Xall输入到经典卷积层CNN,设置该经典卷积层的卷积核大小为5×5,卷积前需要进行边缘填充操作,填充数据为0,填充尺寸为2,得到尺寸为1×h×w的空间注意力掩膜特征图Ms;将初始输入特征矩阵X与空间注意力掩膜特征图Ms相乘,得到空间注意力增强后的特征矩阵X′,将空间注意力增强后的特征矩阵X′与初始输入特征矩阵X相加,得到空间注意力模块最终输出的特征图;
(2)构建通道注意力模块:在通道注意力模块里对初始输入特征矩阵Y进行全局池化操作,将初始输入特征矩阵Y的每个通道的特征值压缩到一个数值,得到一个c×1×1的特征矩阵,c是输入特征矩阵的通道数;将c×1×1的特征矩阵通过全连接层linear1进行降维,得到一个(c/r)×1×1的特征矩阵,其中r是降维比例参数;将(c/r)×1×1的特征矩阵通过全连接层linear2升维,得到一个升维后的c×1×1的特征矩阵;最后通过Sigmoid函数将升维后的c×1×1的特征矩阵中每个通道的值限制在[0,1]之间,得到通道注意力掩膜图Mc;将初始输入特征矩阵Y与通道注意力掩膜图Mc相乘,得到通道注意力增强后的特征矩阵Y’,将通道注意力增强后的特征矩阵Y’与初始输入特征矩阵Y相加,得到通道注意力模块最终输出的特征图;
步骤5:基于步骤3构建的图卷积层和步骤4构建的注意力机制模型,构建图卷积预训练网络;
参照网络结构示意图2所示,基于步骤3中构建的图卷积层,分别建立四层用于特征提取的图卷积层,即gcn1、gcn2、gcn3、gcn4,以及图卷积输出层gcnall,具体如下:
第一层gcn1:
将步骤2得到的图像初始分割区域掩膜seg_index和步骤1.3预处理后的RGB图像输入步骤3中构建的图卷积层gcn1,得到第一尺度图模型,第一尺度图模型中的第一层像素级特征矩阵F1,尺寸为b×c×1280×896,其中,b指每次训练时同时处理的样本数量,c为通道数量;
第二层gcn2:
对第一层像素级特征矩阵F1进行最大池化处理,即将输入的第一层像素级特征矩阵F1划分成数个3×3的区域,池化操作的滑动步长设置为2;对于每个池化区域,取该区域中的最大的特征值作为池化结果,得到池化后的像素级特征矩阵F1′,将池化后的像素级特征矩阵F1′输入步骤4构建的注意力机制模型中,即池化后的像素级特征矩阵F1′依次经过空间注意力模块和通道注意力模块处理,得到第二层的特征图输入F1″;
将步骤2得到的图像初始分割区域掩膜seg_index进行二维最近邻池化操作,即将输入的图像初始分割区域掩膜seg_index划分成数个3×3的区域,池化操作的滑动步长设置为2;对于每个池化区域,取该区域中距离池化中心最近的特征值作为池化结果,得到gcn2的图像分割区域掩膜seg_index2;值得注意的是,虽然seg_index和seg_index2的尺寸不同,但内部的区域数量相同,即第一层和第二层构造的图结构中,节点数量是相同的;
将第二层的特征图输入F1″和gcn2的图像分割区域掩膜seg_index2输入图卷积层gcn2,得到第二尺度图模型,第二尺度图模型中的第二层像素级特征矩阵F2,尺寸为b×c×640×448;对第二层像素级特征矩阵F2进行上采样处理,直至第二层像素级特征矩阵F2与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第二层像素级特征矩阵
第三层gcn3:
对第二层像素级特征矩阵F2进行最大池化和注意力机制模型处理,其参数设置与第一层中第一层像素级特征矩阵F1相同,得到尺寸为b×c×320×224的第三层的特征图输入F2″;对gcn2的图像分割区域掩膜seg_index2进行最近邻池化处理,得到gcn3的图像分割区域掩膜seg_index3;
将第三层的特征图输入F2″和gcn3的图像分割区域掩膜seg_index3输入图卷积层gcn3,得到第三尺度图模型,第三尺度图模型中的第三层像素级特征矩阵F3,尺寸为b×c×320×224;将第三层像素级特征矩阵F3进行上采样处理,直至第三层像素级特征矩阵F3与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第三层像素级特征矩阵
第四层gcn4:
对第三层像素级特征矩阵F3进行最大池化和注意力机制模型处理,其参数设置与第一层中第一层像素级特征矩阵F1相同,得到尺寸为b×c×160×112的第三层的特征图输入F3″;对gcn3的图像分割区域掩膜seg_index3进行最近邻池化处理,得到gcn4的图像分割区域掩膜seg_index4;
将第三层的特征图输入F3″和gcn4的图像分割区域掩膜seg_index4输入图卷积层gcn4,得到第四尺度图模型,第四尺度图模型中的第四层像素级特征矩阵F4,尺寸为b×c×160×112;将第四层像素级特征矩阵F4进行上采样处理,直至第三层像素级特征矩阵F3与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第四层像素级特征矩阵
图卷积输出层gcnall:
将第一层像素级特征矩阵第三层像素级特征矩阵/>第四层像素级特征矩阵/>与第一层像素级特征矩阵F1在通道维度方向上进行拼接,得到融合后的像素级总特征矩阵Fall,尺寸为b×4c×1280×896;将融合后的像素级总特征矩阵Fall输入图卷积输出层gcnall,融合分类层的输入通道数4c,输出通道数为分割类别数;融合后的像素级总特征像素级Fall的图片长和宽数值与步骤1.3预处理后的RGB图像一致,输出分类特征矩阵Fout;
步骤6:构建分类模型
步骤6.1:将步骤5构建的图卷积预训练网络中的分类特征矩阵Fout输入Softmax分类器,Softmax分类器将输入的特征向量映射到各个类别的概率分布上,输出RGB图像数据集中尺寸为b×n×1280×896的RGB图像分类的预测概率分布矩阵,其中n为类别数,得到分类结果;
步骤6.2:使用Kaiming网络参数初始化方法初始化步骤3.2的权重矩阵Wd和步骤3的权重矩阵D;将步骤1.4中的RGB图像数据集中的训练集数据输入步骤5构建的图卷积预训练网络进行训练,训练样本数为总数据集的70%,初始学习率为0.1,训练代数为10;
步骤6.3:将步骤1.4的RGB图像训练集的RGB图像的每个像素点的特征值与步骤1.1中的读入的手部分割标签图的像素点的标签值进行标签配准,得到与RGB图像训练集对应后的手部分割标签图像数据集;
步骤6.4:将步骤6.1中的分类结果和步骤6.3中与RGB图像训练集对应后的手部分割标签图像数据集数据代入交叉熵损失函数,通过对交叉熵损失函数值进行反向传播来优化步骤5构建的图卷积预训练网络的网络参数,交叉熵损失的具体公式如下:
其中,p(x)为分类的真实概率分布(真实标签值),q(x)为分类的预测概率分布;
对图卷积预训练网络反复进行训练和优化操作,在训练过程中多次学习和更新步骤3.2的权重矩阵Wd和步骤3.3的权重矩阵D的参数;经迭代10次之后,当交叉熵损失函数值不再下降,图卷积预训练网络达到收敛,得到分类模型;
步骤7:使用步骤6中分类模型对步骤1.4中RGB图像数据集中的测试集进行手势分割,得到测试集中分割结果。
一种基于图卷积和注意力机制的手势分割系统,包括:
图像预处理模块:获取多张含手部的日常场景图像,对图像进行预处理;
图像分割模块:将图像预处理模块中的图像进行超像素分割;
图卷积层构建模块:用于构建图卷积层;
注意力机制模型构建模块:用于构建注意力机制模型;
图卷积预训练网络构建模块:用于构建图卷积预训练网络;
图卷积预训练网络训练模块:将预处理后的图像输入构建的图卷积预训练网络中进行训练,直至网络收敛,得到训练好的分类模型;
结果输出模块:将预处理后的图像输入图卷积预训练网络训练模块的分类模型中,得到图像分割结果。
一种基于图卷积和注意力机制的手势分割设备,包括:
存储器:用于存储实现一种基于图卷积和注意力机制的手势分割方法的计算机程序;
处理器:用于执行所述计算机程序时实现一种基于图卷积和注意力机制的手势分割方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现一种基于图卷积和注意力机制的手势分割方法。
仿真实验如下:
硬件平台为:NVIDIA GeForce GTX 1650,8GB RAM。
软件平台为:Python,PyTorch深度学习框架(python3.8+pytorch1.8.1+cu102)。
仿真内容与结果:
本发明仿真实验的数据集是公开手部运动日常场景数据集ego_hands,数据集共4800张RGB图片,尺寸为3×1280×720。标签为手部分割标签图的像素点的值,标签信息为2类,即手部或背景。这些日常场景包括下象棋、玩纸牌等,其中大多数训练集中有不止一个手部目标出现,且背景通常有繁琐的线条和色彩作为干扰。
表1是使用经典方法全卷积网络FCN、U-Net和本发明三种方法进行测试,在设置相同训练超参数情况下,统计总体正确率、平均正确率和kappa系数以及手部和背景类别正确率。
表1本发明与经典方法的结果对比
方法 | FCN | U-Net | 本发明 |
总体正确率 | 90.7 | 88.9 | 86.6 |
平均正确率 | 88.4 | 89.7 | 89.2 |
Kappa系数 | 55.3 | 53.4 | 46.6 |
背景类别正确率 | 91.1 | 88.7 | 86.0 |
手部类别正确率 | 85.9 | 90.7 | 92.4 |
从表1中可以看出,与现有技术中的FCN和U-Net经典方法相比,通过本发明分割方法得到的手部类别的准确率有所提升,说明手势的分割效果更加准确、边缘分割更加清楚。
更为重要的是,通过对训练后保存的模型参数文件大小进行对比,结果如表2所示,发现本发明的模型参数文件大小远小于现有技术中FCN和U-Net经典方法在相同手势分割任务下的模型文件。这意味着本发明的方法能够更便于部署到硬件设备上使用,运行效率更高。
表2本发明与经典方法的模型参数文件大小对比
方法 | FCN | U-Net | 本发明 |
模型参数文件大小 | 576KB | 588KB | 13KB |
图3为本发明在数据集上的分割结果(部分),由图可知,本发明提出的手势分割方法对手部的边缘分割更为清晰,尤其对于多根手指的边缘检测的效果表现优异,甚至对于部分图片在标签中没有标注出手指间背景的情况,也在本发明的方法中被清晰分割。
Claims (10)
1.一种基于图卷积和注意力机制的手势分割方法,其特征在于,包括以下步骤:
步骤1:将多张含手部的日常场景RGB图像和手部分割标签图像输入特征提取网络,得到RGB图像数据集和手部分割标签图像数据集;将RGB图像数据集中的RGB图像进行预处理,将预处理后的RGB图像数据集进行划分,得到训练集和测试集;
步骤2:基于SLIC算法对步骤1中得到的RGB图像数据集中的RGB图像进行超像素分割,获得RGB图像初始分割区域掩膜seg_index;
步骤3:构建图卷积层;
步骤4:构建注意力机制模型,包括空间注意力模块和通道注意力模块;
步骤5:基于步骤3构建的图卷积层和步骤4构建的注意力机制模型,构建图卷积预训练网络;
步骤6:将步骤1中的训练集输入步骤5中构建的图卷积预训练网络进行训练,再通过对交叉熵损失函数值进行反向传播来优化步骤5构建的图卷积预训练网络的网络参数,直到网络收敛,得到训练好的分类模型;
步骤7:使用步骤6得到的分类模型对步骤1中的测试集进行手势分割,得到测试集的分割结果。
2.根据权利要求1所述的一种基于图卷积和注意力机制的手势分割方法,其特征在于,所述步骤1的具体过程为:
步骤1.1:在特征提取网络中输入多张含手部的日常场景RGB图像和手部分割标签图像,得到RGB图像数据集和手部分割标签图像数据集;将RGB图像设置为一个三维矩阵,三维矩阵F∈Rc×m×n,其中,R表示整个实数域,m表示输入图像的长度,n表示输入图像的宽度,c表示输入图像的通道数,得到读入的RGB图像,然后在三维矩阵F中提取RGB图像所有像素点的值作为特征值;
步骤1.2:将步骤1.1中的RGB图像的大小设置为c×1280×896;
步骤1.3:对经过步骤1.2处理的RGB图像进行归一化处理,即将步骤1.1中的特征值归一化到[0,1]之间,归一化方式如下:
其中,input指输入的单张RGB图像数据,min(input)是RGB图像中的最小像素值,max(input)是RGB图像中的最大像素值;
步骤1.4:将经过步骤1.3中处理的RGB图像数据集进行划分,选取RGB图像数据集的70%作为训练集,其余30%作为测试集。
3.根据权利要求1所述的一种基于图卷积和注意力机制的手势分割方法,其特征在于,所述步骤2中超像素分割的块数block_num为20块,紧凑度参数compactness为0.92。
4.根据权利要求1所述的一种基于图卷积和注意力机制的手势分割方法,其特征在于,所述步骤3具体过程如下:
步骤3.1:在步骤2中获得的RGB图像初始分割区域掩膜seg_index里输入RGB图像的像素级特征矩阵F,F={f11,f12,…,fhl},其中,h是像素级特征矩阵F的行数,l是像素级特征矩阵F的列数,fij是像素级特征矩阵F内第i行(i=1,2,…,h)、第j列(j=1,2,…,l)个像素包含的特征向量,n是像素级特征矩阵F内像素点的数量,即n=h×l;将像素级特征矩阵F划分成N个区域{R1,R2,…,RN},Rk指第k个区域,k=1,2,...,N;使用中心向量rk表示像素级特征矩阵F内的每个区域,中心向量rk为区域Rk内所有的像素特征的均值,计算方法为:
其中,numk表示区域Rk中像素点数量,k=1,2,...,N;
将像素级特征矩阵F中的所有区域视为构造图结构的节点,节点代表值集合,用Fg={r1,r2,...,rN}表示,其中,ri是第i个区域节点的特征值;
步骤3.2:通过步骤3.1中节点与节点之间的连接关系构建邻接矩阵A,将构建的邻接矩阵A设置为节点全连接状态,即这个邻接矩阵中每个位置都为1,尺寸为block_num×block_num;为深入捕捉不同区域间的相互关系,设置一个尺寸为3×3的权重矩阵Wd;用马氏距离度量来表示节点之间的相似性,具体计算公式如下:
其中,(ri-rj)T是(ri-rj)的转置,M是一个对称的半正定矩阵,M的计算方法为
由节点间的马氏距离D(ri,rj)构建可训练的动态邻接矩阵的权重矩阵W,权重矩阵W的计算公式如下:
其中,γ是超参数,ri和rj表示两个节点,D(·)表示马氏距离度量;
通过权重矩阵W更新邻接矩阵A,反映当前时间步骤下的图结构,即将节点的邻接矩阵A与权重矩阵W逐元相乘,得到时间步骤t下的动态邻接矩阵At;
步骤3.3:对步骤3.2得到的动态邻接矩阵At使用像素级图节点更新PGNU策略进行图卷积操作,得到像素级特征矩阵Fnew和更新后的邻接矩阵Anew;具体来说,通过PGNU策略对步骤3.1得到的这些节点进行特征传播和更新,节点的更新方式如下:
其中,ri是第i个区域节点的特征值,是第i个区域节点ri更新后的特征值,Ni为节点ri的邻居节点集合,u为节点ri邻居节点的节点,At是时间步骤t下的动态邻接矩阵,At中的参数是可训练的参数,σ是非线性激活函数;
在传播过程中,节点之间的特征信息会在图上进行聚合和传递,更新每个节点的代表值得到更新后的步骤3.1中节点代表值集合Fg;按照矩阵的列方向对步骤3.2得到的时间步骤t下的动态邻接矩阵At进行求和,并除以邻接矩阵A中的非零元素数量,得到邻接平均值;将邻接矩阵A与邻接平均值相加来更新邻接矩阵A,得到更新后的邻接矩阵Anew;通过更新后的步骤3.1中节点特征值集合Fg更新每个区域{R1,R2,…,RN}内的所有像素点特征值,更新步骤3.1中的像素级特征矩阵F,得到像素级特征矩阵Fnew,具体公式如下:
其中,和/>是属于第j个区域的输入和输出特征,A·j表示邻接矩阵A的第j行,ri表示第i个区域节点的特征值,D是通过反向传播梯度算法学习得到特征传播的权重矩阵。
5.根据权利要求1所述的一种基于图卷积和注意力机制的手势分割方法,其特征在于,所述步骤4具体过程为:
(1)构建空间注意力模块:在空间注意力模块里对初始输入特征矩阵X的通道维度计算平均特征值和最大特征值,分别得到尺寸均为1×h×w的平均特征矩阵X1和最大特征矩阵X2,h为输入特征矩阵的行数,w为输入特征矩阵的列数;将平均特征矩阵X1和最大特征矩阵X2进行通道拼接,得到一个通道数为2的特征矩阵Xall,将特征矩阵Xall输入到经典卷积层CNN,设置该经典卷积层的卷积核大小为5×5,卷积前需要进行边缘填充操作,填充数据为0,填充尺寸为2,得到尺寸为1×h×w的空间注意力掩膜特征图Ms;将初始输入特征矩阵X与空间注意力掩膜特征图Ms相乘,得到空间注意力增强后的特征矩阵X',将空间注意力增强后的特征矩阵X'与初始输入特征矩阵X相加,得到空间注意力模块最终输出的特征图;
(2)构建通道注意力模块:在通道注意力模块里对初始输入特征矩阵Y进行全局池化操作,将初始输入特征矩阵Y的每个通道的特征值压缩到一个数值,得到一个c×1×1的特征矩阵,c是输入特征矩阵的通道数;将c×1×1的特征矩阵通过全连接层linear1进行降维,得到一个(c/r)×1×1的特征矩阵,其中r是降维比例参数;将(c/r)×1×1的特征矩阵通过全连接层linear2升维,得到一个升维后的c×1×1的特征矩阵;最后通过Sigmoid函数将升维后的c×1×1的特征矩阵中每个通道的值限制在[0,1]之间,得到通道注意力掩膜图Mc;将初始输入特征矩阵Y与通道注意力掩膜图Mc相乘,得到通道注意力增强后的特征矩阵Y’,将通道注意力增强后的特征矩阵Y’与初始输入特征矩阵Y相加,得到通道注意力模块最终输出的特征图。
6.根据权利要求1所述的一种基于图卷积和注意力机制的手势分割方法,其特征在于,所述步骤5具体过程为:
基于步骤3中构建的图卷积层,分别建立四层用于特征提取的图卷积层,即gcn1、gcn2、gcn3、gcn4,以及图卷积输出层gcnall,具体如下:
第一层gcn1:
将步骤2得到的图像初始分割区域掩膜seg_index和步骤1.3预处理后的RGB图像输入步骤3中构建的图卷积层gcn1,得到第一尺度图模型,第一尺度图模型中的第一层像素级特征矩阵F1,尺寸为b×c×1280×896,其中,b指每次训练时同时处理的样本数量,c为通道数量;
第二层gcn2:
对第一层像素级特征矩阵F1进行最大池化处理,即将输入的第一层像素级特征矩阵F1划分成数个3×3的区域,池化操作的滑动步长设置为2;对于每个池化区域,取该区域中的最大的特征值作为池化结果,得到池化后的像素级特征矩阵F1',将池化后的像素级特征矩阵F1'输入步骤4构建的注意力机制模型中,即池化后的像素级特征矩阵F1'依次经过空间注意力模块和通道注意力模块处理,得到第二层的特征图输入F1”;
将步骤2得到的图像初始分割区域掩膜seg_index进行二维最近邻池化操作,即将输入的图像初始分割区域掩膜seg_index划分成数个3×3的区域,池化操作的滑动步长设置为2;对于每个池化区域,取该区域中距离池化中心最近的特征值作为池化结果,得到gcn2的图像分割区域掩膜seg_index2;
将第二层的特征图输入F1”和gcn2的图像分割区域掩膜seg_index2输入图卷积层gcn2,得到第二尺度图模型,第二尺度图模型中的第二层像素级特征矩阵F2,尺寸为b×c×640×448;对第二层像素级特征矩阵F2进行上采样处理,直至第二层像素级特征矩阵F2与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第二层像素级特征矩阵
第三层gcn3:
对第二层像素级特征矩阵F2进行最大池化和注意力机制模型处理,其参数设置与第一层中第一层像素级特征矩阵F1相同,得到尺寸为b×c×320×224的第三层的特征图输入F2”;对gcn2的图像分割区域掩膜seg_index2进行最近邻池化处理,得到gcn3的图像分割区域掩膜seg_index3;
将第三层的特征图输入F2”和gcn3的图像分割区域掩膜seg_index3输入图卷积层gcn3,得到第三尺度图模型,第三尺度图模型中的第三层像素级特征矩阵F3,尺寸为b×c×320×224;将第三层像素级特征矩阵F3进行上采样处理,直至第三层像素级特征矩阵F3与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第三层像素级特征矩阵
第四层gcn4:
对第三层像素级特征矩阵F3进行最大池化和注意力机制模型处理,其参数设置与第一层中第一层像素级特征矩阵F1相同,得到尺寸为b×c×160×112的第三层的特征图输入F3”;对gcn3的图像分割区域掩膜seg_index3进行最近邻池化处理,得到gcn4的图像分割区域掩膜seg_index4;
将第三层的特征图输入F3”和gcn4的图像分割区域掩膜seg_index4输入图卷积层gcn4,得到第四尺度图模型,第四尺度图模型中的第四层像素级特征矩阵F4,尺寸为b×c×160×112;将第四层像素级特征矩阵F4进行上采样处理,直至第三层像素级特征矩阵F3与步骤1.3预处理后的RGB图像具有相同的分辨率比例,得到第四层像素级特征矩阵
图卷积输出层gcnall:
将第一层像素级特征矩阵第三层像素级特征矩阵/>第四层像素级特征矩阵/>与第一层像素级特征矩阵F1在通道维度方向上进行拼接,得到融合后的像素级总特征矩阵Fall,尺寸为b×4c×1280×896;将融合后的像素级总特征矩阵Fall输入图卷积输出层gcnall,融合分类层的输入通道数4c,输出通道数为分割类别数;融合后的像素级总特征像素级Fall的图片长和宽数值与步骤1.3预处理后的RGB图像一致,输出分类特征矩阵Fout。
7.根据权利要求1所述的一种基于图卷积和注意力机制的手势分割方法,其特征在于,所述步骤6具体过程为:
步骤6.1:将步骤5构建的图卷积预训练网络中的分类特征矩阵Fout输入Softmax分类器,Softmax分类器将输入的特征向量映射到各个类别的概率分布上,输出RGB图像数据集中尺寸为b×n×1280×896的RGB图像分类的预测概率分布矩阵,其中n为类别数,得到分类结果;
步骤6.2:使用Kaiming网络参数初始化方法初始化步骤3.2的权重矩阵Wd和步骤3的权重矩阵D;将步骤1.4中的RGB图像数据集中的训练集数据输入步骤5构建的图卷积预训练网络进行训练,训练样本数为总数据集的70%,初始学习率为0.1,训练代数为10;
步骤6.3:将步骤1.4的RGB图像训练集的RGB图像的每个像素点的特征值与步骤1.1中的读入的手部分割标签图的像素点的标签值进行标签配准,得到与RGB图像训练集对应后的手部分割标签图像数据集;
步骤6.4:将步骤6.1中的分类结果和步骤6.3中与RGB图像训练集对应后的手部分割标签图像数据集数据代入交叉熵损失函数,通过对交叉熵损失函数值进行反向传播来优化步骤5构建的图卷积预训练网络的网络参数,交叉熵损失的具体公式如下:
其中,p(x)为分类的真实概率分布(真实标签值),q(x)为分类的预测概率分布;
对图卷积预训练网络反复进行训练和优化操作,在训练过程中多次学习和更新步骤3.2的权重矩阵Wd和步骤3.3的权重矩阵D的参数;经迭代10次之后,当交叉熵损失函数值不再下降,图卷积预训练网络达到收敛,得到分类模型。
8.一种基于图卷积和注意力机制的手势分割系统,其特征在于,包括:
图像预处理模块:获取多张含手部的日常场景图像,对图像进行预处理;
图像分割模块:将图像预处理模块中的图像进行超像素分割;
图卷积层构建模块:用于构建图卷积层;
注意力机制模型构建模块:用于构建注意力机制模型;
图卷积预训练网络构建模块:用于构建图卷积预训练网络;
图卷积预训练网络训练模块:将预处理后的图像输入构建的图卷积预训练网络中进行训练,直至网络收敛,得到训练好的分类模型;
结果输出模块:将预处理后的图像输入图卷积预训练网络训练模块的分类模型中,得到图像分割结果。
9.一种基于图卷积和注意力机制的手势分割设备,其特征在于,包括:
存储器:用于存储实现所述权利要求1-7的一种基于图卷积和注意力机制的手势分割方法的计算机程序;
处理器:用于执行所述计算机程序时实现所述权利要求1-7的一种基于图卷积和注意力机制的手势分割方法。
10.一种计算机可读存储介质,其特征在于:
所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现权利要求1-7一种基于图卷积和注意力机制的手势分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034718.8A CN116993760A (zh) | 2023-08-17 | 2023-08-17 | 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311034718.8A CN116993760A (zh) | 2023-08-17 | 2023-08-17 | 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116993760A true CN116993760A (zh) | 2023-11-03 |
Family
ID=88526541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311034718.8A Pending CN116993760A (zh) | 2023-08-17 | 2023-08-17 | 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116993760A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994820A (zh) * | 2024-04-07 | 2024-05-07 | 福建师范大学 | 基于时频数据融合的分层图卷积手势识别方法及装置 |
-
2023
- 2023-08-17 CN CN202311034718.8A patent/CN116993760A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994820A (zh) * | 2024-04-07 | 2024-05-07 | 福建师范大学 | 基于时频数据融合的分层图卷积手势识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Inter/intra-category discriminative features for aerial image classification: A quality-aware selection model | |
CN108573276B (zh) | 一种基于高分辨率遥感影像的变化检测方法 | |
CN109344736B (zh) | 一种基于联合学习的静态图像人群计数方法 | |
CN106529447B (zh) | 一种小样本人脸识别方法 | |
CN112597941B (zh) | 一种人脸识别方法、装置及电子设备 | |
CN104182772B (zh) | 一种基于深度学习的手势识别方法 | |
Venugopal | Automatic semantic segmentation with DeepLab dilated learning network for change detection in remote sensing images | |
CN109410168B (zh) | 用于确定图像中的子图块类别的卷积神经网络的建模方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
Almogdady et al. | A flower recognition system based on image processing and neural networks | |
CN110827304B (zh) | 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统 | |
CN105139004A (zh) | 基于视频序列的人脸表情识别方法 | |
Cun et al. | Image splicing localization via semi-global network and fully connected conditional random fields | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN109685045A (zh) | 一种运动目标视频跟踪方法及系统 | |
CN110991444A (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN112329818B (zh) | 基于图卷积网络嵌入表征的高光谱图像非监督分类方法 | |
Zhang et al. | High-quality face image generation based on generative adversarial networks | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
CN117557579A (zh) | 一种空洞金字塔协同注意力机制助力无监督超像素分割方法及系统 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN116434010A (zh) | 一种多视图的行人属性识别方法 | |
Salem et al. | Semantic image inpainting using self-learning encoder-decoder and adversarial loss | |
CN116993760A (zh) | 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |