CN116246305A - 一种基于混合部件变换网络的行人检索方法 - Google Patents
一种基于混合部件变换网络的行人检索方法 Download PDFInfo
- Publication number
- CN116246305A CN116246305A CN202310081039.XA CN202310081039A CN116246305A CN 116246305 A CN116246305 A CN 116246305A CN 202310081039 A CN202310081039 A CN 202310081039A CN 116246305 A CN116246305 A CN 116246305A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- component
- training
- image
- stripe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009466 transformation Effects 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 76
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000013136 deep learning model Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101100208039 Rattus norvegicus Trpv5 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于混合部件变换网络的行人检索方法。该方法包括:构建行人检索模型;对于训练行人图像进行分割,得到训练行人图像的条纹部件和序列块;将序列块输入行人检索模型中,得到训练行人图像的条纹部件特征和完整特征;计算条纹部件特征的部件掩码,并进行筛选,保留部分序列块;利用保留下来的序列块对应的条纹部件特征和完整特征计算损失值,并对行人检索模型进行优化;利用最优行人检索模型提取查询图像和行人库图像的最终特征,借助查询图像和行人库图像之间的相似度得到行人检索结果。本发明充分利用混合部件变换网络的优势,学习行人图像的完整部件信息,进一步提高了行人检索的正确率。
Description
技术领域
本发明属于计算机视觉、模式识别、人工智能领域,具体涉及一种基于混合部件变换网络的行人检索方法。
背景技术
近年来,行人检索广泛应用于人体行为分析,多目标识别等领域,因此受到了学术界和工业界的广泛关注。行人检索主要研究在多个不同摄像机下查询相同行人的方法。然而真实场景中获取的行人图像存在许多难点因素,如:姿态、衣着、光照以及摄像机角度等,这使得行人检索技术面临着巨大的挑战。
近几年,行人图像的部件信息在行人检索中被证明是有效的,然而在使用变换网络学习长距离依赖时部件之间的交互经常被忽视。He等人提出了一种纯变换网络,通过使用辅助信息嵌入和补丁块令牌重排模块去学习判别性特征。此外,一些研究者结合卷积神经网络和变换网络用于行人检索。Liao等人通过结合卷积神经网络设计了一种编码-解码变换网络,进而考虑行人图像间的注意力。Zhang等人提出了层级聚合变换网络,通过嵌入变换网络进入卷积神经网络去学习多尺度行人特征。Li等人提出部件感知变换网络,通过结合卷积神经网络从语义信息角度学习鲁棒的部件多样性特征。Wang等人首先利用卷积神经网络学习行人的姿势信息,然后通过变换网络解耦行人图像的语义信息。Wang等人提出邻域变换网络,明确建模图像间的交互从而提高行人检索的性能。
不同于上述方法,本发明提出变换网络模型和部件全局变换网络模型来学习完整的部件交互的混合部件变换网络用于行人检索。此外,本发明还提出了序列块筛选步骤,通过保留具有更多信息的序列块来提高行人特征的判别性。
发明内容
本发明的目的是要设计一种适合学习行人图像完整的部件交互的变换网络,为此,本发明提供一种基于混合部件变换网络的行人检索方法。
为了实现所述目的,本发明提出的一种基于混合部件变换网络的行人检索方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建行人检索模型,其中,所述行人检索模型包括级联的变换网络模型和部件全局变换网络模型;
步骤S2,对于训练行人图像进行分割,得到所述训练行人图像的条纹部件,以及所述条纹部件的序列块;
步骤S3,将所述训练行人图像条纹部件的序列块输入所述行人检索模型中,得到所述训练行人图像的条纹部件特征,以及所述训练行人图像的完整特征;
步骤S4,利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵的注意力权重和预设阈值计算所述条纹部件特征的部件掩码,并根据所述部件掩码对于所述序列块进行筛选,保留部分序列块;
步骤S5,构建损失计算模块,将保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征输入到所述损失计算模块中,利用得到的损失值对于所述行人检索模型进行优化,得到最优行人检索模型;
步骤S6,在测试阶段,利用所述最优行人检索模型提取查询图像和行人库图像的最终特征,并基于所述最终特征计算所述查询图像和行人库图像之间的相似度,得到行人检索结果。
可选地,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并利用所述预训练深度学习模型构建变换网络模型和部件全局变换网络模型,得到行人检索模型;
步骤S12,对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
可选地,所述步骤S2包括以下步骤:
步骤S21,对训练集中的N个训练行人图像进行预处理;
步骤S22,对于预处理后的训练行人图像进行水平分割,得到训练行人图像的条纹部件;
步骤S23,对于所述条纹部件进行序列化,得到条纹部件的多个序列块。
可选地,所述步骤S3包括以下步骤:
步骤S31,将单个训练行人图像条纹部件的序列块输入所述行人检索模型,所述变换网络模型最后一个变换层的输出即为所述训练行人图像的条纹部件特征;
步骤S32,对于所述部件全局变换网络模型最后一个部件全局变换层的输出进行最大池化聚合,得到所述训练行人图像的完整特征。
可选地,所述步骤S4包括以下步骤:
步骤S41,基于所述部件全局变换网络模型中部件全局变换层的亲和力矩阵计算得到所述训练行人图像中每个条纹部件内序列块的注意力权重;
步骤S42,利用得到的所述训练行人图像中每个条纹部件内序列块的注意力权重和预先设定的阈值,计算得到所述条纹部件特征的部件掩码;
步骤S43,保留部件掩码值为1的序列块。
可选地,所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块。
可选地,所述步骤S5包括以下步骤:
步骤S51,构建损失计算模块,并利用所述损失计算模块计算保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征的交叉熵损失和三元组损失;
步骤S52,对计算得到的损失相加求和,得到总损失值,利用所述总损失值对所述行人检索模型进行参数优化,得到最优行人检索模型。
可选地,所述步骤S6中,所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征。
可选地,所述步骤S6中,利用余弦距离计算所述查询图像和行人库图像之间的相似度。
本发明的有益效果为:本发明提出通过本发明设计的部件变换层来学习完整的部件交互的混合部件变换网络用于行人检索,充分利用混合部件变换网络的优势,学习行人图像的完整部件信息。此外,本发明还设计了序列块筛选步骤,通过保留具有更多信息的序列块来提高行人特征的判别性,从而使得本发明方案有效提高了行人检索的正确率。
需要说明的是,本发明得到了国家自然科学基金项目No.62171321,天津市自然科学基金重点项目No.20JCZDJC00180、天津市教委科研计划项目No.2022KJ011、天津市应用基础研究项目(基于深度保持的立体图像拼接技术研究)和天津师范大学研究生科研创新重点项目No.2022KYCX032Z资助。
附图说明
图1是根据本发明一实施例的一种基于混合部件变换网络的行人检索方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是根据本发明一实施例的一种基于混合部件变换网络的行人检索方法的流程图,下面以图1为例来说明本发明的一些具体实现流程,如图1所示,所述基于混合部件变换网络的行人检索方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建行人检索模型,其中,所述行人检索模型包括级联的变换网络模型和部件全局变换网络模型;
进一步地,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并利用所述预训练深度学习模型构建变换网络模型和部件全局变换网络模型,得到行人检索模型;
在本发明一实施例中,所述预训练深度学习模型可采用在数据集ImageNet-21K上预训练并在数据集ImageNet-1K上微调好的ViT,或者在数据集ImageNet-1K上预训练好的DeiT。
在本发明一实施例中,所述变换网络模型的结构与所述预训练深度学习模型的结构相同,即所述变换网络模型包含L个变换层。所述部件全局变换网络模型亦包含L个部件全局变换层。将所述变换网络模型和部件全局变换网络模型级联起来,即可得到所述行人检索模型,其中,所述变换网络模型的L个变换层依次级联,所述部件全局变换网络模型的L个部件全局变换层依次级联,另外,所述变换网络模型的L个变换层与所述部件全局变换网络模型的L个部件全局变换层还对应连接,即,所述变换网络模型的L个变换层中除第一层,每个变换层的输入均为上一变换层的输出,而所述部件全局变换网络模型的L个部件全局变换层中,除第一层部件全局变换层的输入为变换网络模型第一层变换层的输出外,后续每个部件全局变换层的输入不仅包括上一部件全局变换层的输出,还包括变换网络模型中相应变换层的输出。
步骤S12,对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
在本发明一实施例中,可利用所述预训练深度学习模型的参数对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
步骤S2,对于训练行人图像进行分割,得到所述训练行人图像的条纹部件,以及所述条纹部件的序列块;
进一步地,所述步骤S2包括以下步骤:
步骤S21,对训练集中的N个训练行人图像进行预处理;
在本发明一实施例中,对所述训练行人图像进行预处理包括:将所述训练行人图像的大小裁剪为预设大小,比如256×128,并把所述训练行人图像所有的像素值按比例缩小至预设范围内,比如0到1之间,然后将所述训练行人图像中的每个像素值减去相应训练行人图像的像素平均值,再除以所述训练行人图像的像素方差。
步骤S22,对于预处理后的训练行人图像进行水平分割,得到训练行人图像的条纹部件,其中,每个训练行人图像可得到S个条纹部件,这样N个训练行人图像就可得到(N×S)个条纹部件;
步骤S23,对于所述条纹部件进行序列化,得到条纹部件的多个序列块,其中,第p个条纹部件的第i个序列块可表示为: 其中,K×K为序列块的大小,M为每个条纹部件内序列块的数量,S是每个训练行人图像中条纹部件的数量。
在本发明一实施例中,H=128,W=256,C=3,S=2,N=64,K=16。
步骤S3,将所述训练行人图像条纹部件的序列块输入所述行人检索模型中,得到所述训练行人图像的条纹部件特征,以及所述训练行人图像的完整特征;
进一步地,所述步骤S3包括以下步骤:
步骤S31,将单个训练行人图像条纹部件的序列块输入所述行人检索模型,所述变换网络模型最后一个变换层,即第L个变换层的输出即为所述训练行人图像的条纹部件特征;
进一步地,还可在变换网络模型中每个条纹部件序列块的学习过程中均加入一个类令牌进行多头自注意力学习,其中,类令牌是一个用于学习得到条纹部件特征的特征向量,这样所述条纹部件特征就可表示为:其中,D为所述类令牌的大小。
其中,是基于多头交叉注意力(MCA)、多层感知机(MLP)和层归一化(LN)实现的函数,由所述变换网络模型的第l-1个变换层的输出聚合得到,其中,Q是单个训练行人图像中所有序列块的数量,是基于多头交叉注意力(MCA)和层归一化(LN)实现的函数,条纹部件特征 串联得到
此外,可利用下式计算所述部件全局变换网络模型第l个部件全局变换层的多头交叉注意力值(MCA):
其中,a表示Tl-1或者Yl-1,b表示Gl-1或者Cl-1,cat2表示按行串联, 表示线性投影,和分别表示三个线性投影参数,H是多头自注意力机制中头的数量,h表示H头中的第h个头,d=D/H,表示所述部件全局变换网络模型中的亲和力矩阵。
在本发明一实施例中,B=128,D=768,H=12。
步骤S4,利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵(affinity matrix)的注意力权重和预设阈值计算所述条纹部件特征的部件掩码,并根据所述部件掩码对于所述序列块进行筛选,保留部分序列块;
进一步地,所述步骤S4包括以下步骤:
其中,H是多头自注意力机制中头的数量,表示第j个部件全局变换层中第h个头的亲和力矩阵的第p行的注意力权重,M是每个条纹部件内所有序列块的数量,p=1,2,…,S,l=2,…,L,((p-1)·M+1):p·M表示从(p-1)·M+1)至p·M。
其中,i=1,2,…,M,τ是预设阈值,以保留每个条纹部件特征中信息多的序列块。
在本发明一实施例中,τ=0.3。
步骤S43,保留部件掩码值为1的序列块。
步骤S5,构建损失计算模块,将保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征输入到所述损失计算模块中,利用得到的损失值对于所述行人检索模型进行优化,得到最优行人检索模型;
进一步地,所述步骤S5包括以下步骤:
其中,所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块,其中,给定真值标签qj和预测值pj,所述交叉熵损失计算模块可利用下式计算交叉熵损失:
其中,N为j的最大取值。
给定三元组集{a,p,n},所述三元组损失计算模块可利用下式计算三元组损失:
其中,fa表示输入样本,即条纹部件特征或者完整特征,fp表示输入样本的正样本,fn表示输入样本的负样本。
步骤S52,对计算得到的损失相加求和,得到总损失值Loss,利用所述总损失值对所述行人检索模型进行参数优化,得到最优行人检索模型。
在本发明一实施例中,所述总损失函数Loss可表示为:
在本发明一实施例中,所述步骤S52中,所述行人检索模型的参数更新计算过程可表示为:
其中,θs:是行人检索模型更新后的模型参数,θs是行人检索模型更新前的模型参数,σ是学习率。
在本发明一实施例中,可采用基于随机梯度下降法(SGD)和余弦衰减策略的优化器对于所述行人检索模型进行优化,学习率σ=0.01。
步骤S6,在测试阶段,利用所述最优行人检索模型提取查询图像和行人库图像的最终特征,其中,所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征,并基于所述最终特征计算所述查询图像和行人库图像之间的相似度,得到行人检索结果。
在本发明一实施例中,基于所述最终特征,利用余弦距离计算所述查询图像和行人库图像之间的相似度,其中,所述行人库图像指的是已知行人识别结果的图像。
所述查询图像和行人库图像之间的相似度可表示为:
其中,Cqg指的是所述查询图像最终特征Iq和行人库图像最终特征Ig之间的余弦相似性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种基于混合部件变换网络的行人检索方法,其特征在于,所述方法包括以下步骤:
步骤S1,利用预训练深度学习模型构建行人检索模型,其中,所述行人检索模型包括级联的变换网络模型和部件全局变换网络模型;
步骤S2,对于训练行人图像进行分割,得到所述训练行人图像的条纹部件,以及所述条纹部件的序列块;
步骤S3,将所述训练行人图像条纹部件的序列块输入所述行人检索模型中,得到所述训练行人图像的条纹部件特征,以及所述训练行人图像的完整特征;
步骤S4,利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵的注意力权重和预设阈值计算所述条纹部件特征的部件掩码,并根据所述部件掩码对于所述序列块进行筛选,保留部分序列块;
步骤S5,构建损失计算模块,将保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征输入到所述损失计算模块中,利用得到的损失值对于所述行人检索模型进行优化,得到最优行人检索模型;
步骤S6,在测试阶段,利用所述最优行人检索模型提取查询图像和行人库图像的最终特征,并基于所述最终特征计算所述查询图像和行人库图像之间的相似度,得到行人检索结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括以下步骤:
步骤S11,确定预训练深度学习模型,并利用所述预训练深度学习模型构建变换网络模型和部件全局变换网络模型,得到行人检索模型;
步骤S12,对于所述变换网络模型和部件全局变换网络模型进行参数初始化。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2包括以下步骤:
步骤S21,对训练集中的N个训练行人图像进行预处理;
步骤S22,对于预处理后的训练行人图像进行水平分割,得到训练行人图像的条纹部件;
步骤S23,对于所述条纹部件进行序列化,得到条纹部件的多个序列块。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3包括以下步骤:
步骤S31,将单个训练行人图像条纹部件的序列块输入所述行人检索模型,所述变换网络模型最后一个变换层的输出即为所述训练行人图像的条纹部件特征;
步骤S32,对于所述部件全局变换网络模型最后一个部件全局变换层的输出进行最大池化聚合,得到所述训练行人图像的完整特征。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4包括以下步骤:
步骤S41,基于所述部件全局变换网络模型中部件全局变换层的亲和力矩阵计算得到所述训练行人图像中每个条纹部件内序列块的注意力权重;
步骤S42,利用得到的所述训练行人图像中每个条纹部件内序列块的注意力权重和预先设定的阈值,计算得到所述条纹部件特征的部件掩码;
步骤S43,保留部件掩码值为1的序列块。
7.根据权利要求1所述的方法,其特征在于,所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块。
8.根据权利要求7所述的方法,其特征在于,所述步骤S5包括以下步骤:
步骤S51,构建损失计算模块,并利用所述损失计算模块计算保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征的交叉熵损失和三元组损失;
步骤S52,对计算得到的损失相加求和,得到总损失值,利用所述总损失值对所述行人检索模型进行参数优化,得到最优行人检索模型。
9.根据权利要求1所述的方法,其特征在于,所述步骤S6中,所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征。
10.根据权利要求1所述的方法,其特征在于,所述步骤S6中,利用余弦距离计算所述查询图像和行人库图像之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081039.XA CN116246305A (zh) | 2023-01-31 | 2023-01-31 | 一种基于混合部件变换网络的行人检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081039.XA CN116246305A (zh) | 2023-01-31 | 2023-01-31 | 一种基于混合部件变换网络的行人检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116246305A true CN116246305A (zh) | 2023-06-09 |
Family
ID=86629015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310081039.XA Pending CN116246305A (zh) | 2023-01-31 | 2023-01-31 | 一种基于混合部件变换网络的行人检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246305A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805337A (zh) * | 2023-08-25 | 2023-09-26 | 天津师范大学 | 一种基于跨尺度视觉变换网络的人群定位方法 |
-
2023
- 2023-01-31 CN CN202310081039.XA patent/CN116246305A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805337A (zh) * | 2023-08-25 | 2023-09-26 | 天津师范大学 | 一种基于跨尺度视觉变换网络的人群定位方法 |
CN116805337B (zh) * | 2023-08-25 | 2023-10-27 | 天津师范大学 | 一种基于跨尺度视觉变换网络的人群定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024021394A1 (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN111310773B (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
CN111325111A (zh) | 一种融合逆注意力和多尺度深度监督的行人重识别方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN113034545A (zh) | 一种基于CenterNet多目标跟踪算法的车辆跟踪方法 | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN113591978B (zh) | 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质 | |
CN114330529A (zh) | 一种基于改进YOLOv4的遮挡行人实时检测方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN115841683B (zh) | 一种联合多级特征的轻量行人重识别方法 | |
CN113505719B (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN117011883A (zh) | 一种基于金字塔卷积和Transformer双分支的行人重识别方法 | |
CN115965819A (zh) | 一种基于Transformer结构的轻量化害虫识别方法 | |
CN116246305A (zh) | 一种基于混合部件变换网络的行人检索方法 | |
CN113033345B (zh) | 基于公共特征子空间的v2v视频人脸识别方法 | |
CN114463340A (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
CN113887536B (zh) | 一种基于高层语义引导的多阶段高效人群密度估计方法 | |
CN112348007B (zh) | 一种基于神经网络的光学字符识别方法 | |
CN115830643A (zh) | 一种姿势引导对齐的轻量行人重识别方法 | |
CN111353509B (zh) | 一种视觉slam系统的关键点提取器生成方法 | |
CN118230362B (zh) | 基于视角自适应机制的目标重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |