CN116246305A

CN116246305A - 一种基于混合部件变换网络的行人检索方法

Info

Publication number: CN116246305A
Application number: CN202310081039.XA
Authority: CN
Inventors: 张重; 贺迪; 刘爽; 范晓婷
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-06-09

Abstract

本发明公开了一种基于混合部件变换网络的行人检索方法。该方法包括：构建行人检索模型；对于训练行人图像进行分割，得到训练行人图像的条纹部件和序列块；将序列块输入行人检索模型中，得到训练行人图像的条纹部件特征和完整特征；计算条纹部件特征的部件掩码，并进行筛选，保留部分序列块；利用保留下来的序列块对应的条纹部件特征和完整特征计算损失值，并对行人检索模型进行优化；利用最优行人检索模型提取查询图像和行人库图像的最终特征，借助查询图像和行人库图像之间的相似度得到行人检索结果。本发明充分利用混合部件变换网络的优势，学习行人图像的完整部件信息，进一步提高了行人检索的正确率。

Description

一种基于混合部件变换网络的行人检索方法

技术领域

本发明属于计算机视觉、模式识别、人工智能领域，具体涉及一种基于混合部件变换网络的行人检索方法。

背景技术

近年来，行人检索广泛应用于人体行为分析，多目标识别等领域，因此受到了学术界和工业界的广泛关注。行人检索主要研究在多个不同摄像机下查询相同行人的方法。然而真实场景中获取的行人图像存在许多难点因素，如：姿态、衣着、光照以及摄像机角度等，这使得行人检索技术面临着巨大的挑战。

近几年，行人图像的部件信息在行人检索中被证明是有效的，然而在使用变换网络学习长距离依赖时部件之间的交互经常被忽视。He等人提出了一种纯变换网络，通过使用辅助信息嵌入和补丁块令牌重排模块去学习判别性特征。此外，一些研究者结合卷积神经网络和变换网络用于行人检索。Liao等人通过结合卷积神经网络设计了一种编码-解码变换网络，进而考虑行人图像间的注意力。Zhang等人提出了层级聚合变换网络，通过嵌入变换网络进入卷积神经网络去学习多尺度行人特征。Li等人提出部件感知变换网络，通过结合卷积神经网络从语义信息角度学习鲁棒的部件多样性特征。Wang等人首先利用卷积神经网络学习行人的姿势信息，然后通过变换网络解耦行人图像的语义信息。Wang等人提出邻域变换网络，明确建模图像间的交互从而提高行人检索的性能。

不同于上述方法，本发明提出变换网络模型和部件全局变换网络模型来学习完整的部件交互的混合部件变换网络用于行人检索。此外,本发明还提出了序列块筛选步骤，通过保留具有更多信息的序列块来提高行人特征的判别性。

发明内容

本发明的目的是要设计一种适合学习行人图像完整的部件交互的变换网络，为此，本发明提供一种基于混合部件变换网络的行人检索方法。

为了实现所述目的，本发明提出的一种基于混合部件变换网络的行人检索方法包括以下步骤：

步骤S1，利用预训练深度学习模型构建行人检索模型，其中，所述行人检索模型包括级联的变换网络模型和部件全局变换网络模型；

步骤S2，对于训练行人图像进行分割，得到所述训练行人图像的条纹部件，以及所述条纹部件的序列块；

步骤S3，将所述训练行人图像条纹部件的序列块输入所述行人检索模型中，得到所述训练行人图像的条纹部件特征，以及所述训练行人图像的完整特征；

步骤S4，利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵的注意力权重和预设阈值计算所述条纹部件特征的部件掩码，并根据所述部件掩码对于所述序列块进行筛选，保留部分序列块；

步骤S5，构建损失计算模块，将保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征输入到所述损失计算模块中，利用得到的损失值对于所述行人检索模型进行优化，得到最优行人检索模型；

步骤S6，在测试阶段，利用所述最优行人检索模型提取查询图像和行人库图像的最终特征，并基于所述最终特征计算所述查询图像和行人库图像之间的相似度，得到行人检索结果。

可选地，所述步骤S1包括以下步骤：

步骤S11，确定预训练深度学习模型，并利用所述预训练深度学习模型构建变换网络模型和部件全局变换网络模型，得到行人检索模型；

步骤S12，对于所述变换网络模型和部件全局变换网络模型进行参数初始化。

可选地，所述步骤S2包括以下步骤：

步骤S21，对训练集中的N个训练行人图像进行预处理；

步骤S22，对于预处理后的训练行人图像进行水平分割，得到训练行人图像的条纹部件；

步骤S23，对于所述条纹部件进行序列化，得到条纹部件的多个序列块。

可选地，所述步骤S3包括以下步骤：

步骤S31，将单个训练行人图像条纹部件的序列块输入所述行人检索模型，所述变换网络模型最后一个变换层的输出即为所述训练行人图像的条纹部件特征；

步骤S32，对于所述部件全局变换网络模型最后一个部件全局变换层的输出进行最大池化聚合，得到所述训练行人图像的完整特征。

可选地，所述步骤S31中，在变换网络模型中每个条纹部件序列块的学习过程中均加入一个类令牌

进行多头自注意力学习，其中，类令牌是一个用于学习得到条纹部件特征的特征向量。

可选地，所述步骤S4包括以下步骤：

步骤S41，基于所述部件全局变换网络模型中部件全局变换层的亲和力矩阵计算得到所述训练行人图像中每个条纹部件内序列块的注意力权重；

步骤S42，利用得到的所述训练行人图像中每个条纹部件内序列块的注意力权重和预先设定的阈值，计算得到所述条纹部件特征的部件掩码；

步骤S43，保留部件掩码值为1的序列块。

可选地，所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块。

可选地，所述步骤S5包括以下步骤：

步骤S51，构建损失计算模块，并利用所述损失计算模块计算保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征的交叉熵损失和三元组损失；

步骤S52，对计算得到的损失相加求和，得到总损失值，利用所述总损失值对所述行人检索模型进行参数优化，得到最优行人检索模型。

可选地，所述步骤S6中，所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征。

可选地，所述步骤S6中，利用余弦距离计算所述查询图像和行人库图像之间的相似度。

本发明的有益效果为：本发明提出通过本发明设计的部件变换层来学习完整的部件交互的混合部件变换网络用于行人检索，充分利用混合部件变换网络的优势，学习行人图像的完整部件信息。此外,本发明还设计了序列块筛选步骤，通过保留具有更多信息的序列块来提高行人特征的判别性，从而使得本发明方案有效提高了行人检索的正确率。

需要说明的是，本发明得到了国家自然科学基金项目No.62171321，天津市自然科学基金重点项目No.20JCZDJC00180、天津市教委科研计划项目No.2022KJ011、天津市应用基础研究项目(基于深度保持的立体图像拼接技术研究)和天津师范大学研究生科研创新重点项目No.2022KYCX032Z资助。

附图说明

图1是根据本发明一实施例的一种基于混合部件变换网络的行人检索方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例的一种基于混合部件变换网络的行人检索方法的流程图，下面以图1为例来说明本发明的一些具体实现流程，如图1所示，所述基于混合部件变换网络的行人检索方法包括以下步骤：

进一步地，所述步骤S1包括以下步骤：

在本发明一实施例中，所述预训练深度学习模型可采用在数据集ImageNet-21K上预训练并在数据集ImageNet-1K上微调好的ViT，或者在数据集ImageNet-1K上预训练好的DeiT。

在本发明一实施例中，所述变换网络模型的结构与所述预训练深度学习模型的结构相同，即所述变换网络模型包含L个变换层。所述部件全局变换网络模型亦包含L个部件全局变换层。将所述变换网络模型和部件全局变换网络模型级联起来，即可得到所述行人检索模型，其中，所述变换网络模型的L个变换层依次级联，所述部件全局变换网络模型的L个部件全局变换层依次级联，另外，所述变换网络模型的L个变换层与所述部件全局变换网络模型的L个部件全局变换层还对应连接，即，所述变换网络模型的L个变换层中除第一层，每个变换层的输入均为上一变换层的输出，而所述部件全局变换网络模型的L个部件全局变换层中，除第一层部件全局变换层的输入为变换网络模型第一层变换层的输出外，后续每个部件全局变换层的输入不仅包括上一部件全局变换层的输出，还包括变换网络模型中相应变换层的输出。

在本发明一实施例中，可利用所述预训练深度学习模型的参数对于所述变换网络模型和部件全局变换网络模型进行参数初始化。

进一步地，所述步骤S2包括以下步骤：

步骤S21，对训练集中的N个训练行人图像进行预处理；

在本发明一实施例中，对所述训练行人图像进行预处理包括：将所述训练行人图像的大小裁剪为预设大小，比如256×128，并把所述训练行人图像所有的像素值按比例缩小至预设范围内，比如0到1之间，然后将所述训练行人图像中的每个像素值减去相应训练行人图像的像素平均值，再除以所述训练行人图像的像素方差。

步骤S22，对于预处理后的训练行人图像进行水平分割，得到训练行人图像的条纹部件，其中，每个训练行人图像可得到S个条纹部件，这样N个训练行人图像就可得到(N×S)个条纹部件；

在本发明一实施例中，对每个训练行人图像

进行水平分割，即在高度方向上进行分割，其中，H、W、C分别为训练行人图像的高度、宽度和通道数量，分割得到的子图像即为所述训练行人图像的条纹部件。

步骤S23，对于所述条纹部件进行序列化，得到条纹部件的多个序列块，其中，第p个条纹部件的第i个序列块可表示为：

其中，K×K为序列块的大小，M为每个条纹部件内序列块的数量，S是每个训练行人图像中条纹部件的数量。

在本发明一实施例中，H＝128，W＝256，C＝3，S＝2，N＝64，K＝16。

进一步地，所述步骤S3包括以下步骤：

步骤S31，将单个训练行人图像条纹部件的序列块输入所述行人检索模型，所述变换网络模型最后一个变换层，即第L个变换层的输出即为所述训练行人图像的条纹部件特征；

进一步地，还可在变换网络模型中每个条纹部件序列块的学习过程中均加入一个类令牌

进行多头自注意力学习，其中，类令牌是一个用于学习得到条纹部件特征的特征向量，这样所述条纹部件特征就可表示为：

其中，D为所述类令牌的大小。

步骤S32，对于所述部件全局变换网络模型最后一个部件全局变换层，即第L个部件全局变换层的输出进行最大池化聚合，得到所述训练行人图像的完整特征，可表示为：

在本发明一实施例中，所述部件全局变换网络模型第l个部件全局变换层的输出

可利用下式来计算：

其中，

是基于多头交叉注意力(MCA)、多层感知机(MLP)和层归一化(LN)实现的函数，

由所述变换网络模型的第l-1个变换层的输出聚合得到，其中，Q是单个训练行人图像中所有序列块的数量，

是基于多头交叉注意力(MCA)和层归一化(LN)实现的函数，条纹部件特征

串联得到

此外，可利用下式计算所述部件全局变换网络模型第l个部件全局变换层的多头交叉注意力值(MCA)：

其中，a表示T^l-1或者Y^l-1，b表示G^l-1或者C^l-1，cat2表示按行串联，

表示线性投影，

和

分别表示三个线性投影参数，H是多头自注意力机制中头的数量，h表示H头中的第h个头，d＝D/H，

表示所述部件全局变换网络模型中的亲和力矩阵。

在本发明一实施例中，B＝128，D＝768，H＝12。

步骤S4，利用所述部件全局变换网络模型中部件全局变换层的亲和力矩阵(affinity matrix)的注意力权重和预设阈值计算所述条纹部件特征的部件掩码，并根据所述部件掩码对于所述序列块进行筛选，保留部分序列块；

进一步地，所述步骤S4包括以下步骤：

步骤S41，基于所述部件全局变换网络模型中部件全局变换层的亲和力矩阵计算得到所述训练行人图像中每个条纹部件内序列块的注意力权重

在本发明一实施例中，利用下式计算所述训练行人图像中每个条纹部件内序列块的注意力权重

其中，H是多头自注意力机制中头的数量，

表示第j个部件全局变换层中第h个头的亲和力矩阵的第p行的注意力权重，M是每个条纹部件内所有序列块的数量，p＝1,2,…,S，l＝2,…,L，((p-1)·M+1):p·M表示从(p-1)·M+1)至p·M。

步骤S42，利用得到的所述训练行人图像中每个条纹部件内序列块的注意力权重

和预先设定的阈值，计算得到所述条纹部件特征的部件掩码

在本发明一实施例中，可利用下式计算所述条纹部件特征的部件掩码

其中，i＝1,2,…,M，τ是预设阈值，以保留每个条纹部件特征中信息多的序列块。

在本发明一实施例中，τ＝0.3。

步骤S43，保留部件掩码值为1的序列块。

进一步地，所述步骤S5包括以下步骤：

步骤S51，构建损失计算模块，并利用所述损失计算模块计算保留下来的序列块输入至所述变换网络模型中得到的条纹部件特征和所述训练行人图像的完整特征

的交叉熵损失和三元组损失；

其中，所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块，其中，给定真值标签q_j和预测值p_j，所述交叉熵损失计算模块可利用下式计算交叉熵损失：

其中，N为j的最大取值。

给定三元组集{a,p,n}，所述三元组损失计算模块可利用下式计算三元组损失：

其中，f_a表示输入样本，即条纹部件特征或者完整特征，f_p表示输入样本的正样本，f_n表示输入样本的负样本。

步骤S52，对计算得到的损失相加求和，得到总损失值Loss，利用所述总损失值对所述行人检索模型进行参数优化，得到最优行人检索模型。

在本发明一实施例中，所述总损失函数Loss可表示为：

其中，

和

分别表示所述训练行人图像的完整特征的交叉熵损失和三元组损失，

和

分别表示所述训练行人图像的第p个条纹部件的序列块的交叉熵损失和三元组损失。

在本发明一实施例中，所述步骤S52中，所述行人检索模型的参数更新计算过程可表示为：

其中，θ_s:是行人检索模型更新后的模型参数，θ_s是行人检索模型更新前的模型参数，σ是学习率。

在本发明一实施例中，可采用基于随机梯度下降法(SGD)和余弦衰减策略的优化器对于所述行人检索模型进行优化，学习率σ＝0.01。

步骤S6，在测试阶段，利用所述最优行人检索模型提取查询图像和行人库图像的最终特征，其中，所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征，并基于所述最终特征计算所述查询图像和行人库图像之间的相似度，得到行人检索结果。

在本发明一实施例中，基于所述最终特征，利用余弦距离计算所述查询图像和行人库图像之间的相似度，其中，所述行人库图像指的是已知行人识别结果的图像。

所述查询图像和行人库图像之间的相似度可表示为：

其中，C^qg指的是所述查询图像最终特征I_q和行人库图像最终特征I_g之间的余弦相似性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于混合部件变换网络的行人检索方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述步骤S2包括以下步骤：

步骤S21，对训练集中的N个训练行人图像进行预处理；

4.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

5.根据权利要求4所述的方法，其特征在于，所述步骤S31中，在变换网络模型中每个条纹部件序列块的学习过程中均加入一个类令牌

6.根据权利要求1所述的方法，其特征在于，所述步骤S4包括以下步骤：

步骤S43，保留部件掩码值为1的序列块。

7.根据权利要求1所述的方法，其特征在于，所述损失计算模块包括交叉熵损失计算模块和三元组损失计算模块。

8.根据权利要求7所述的方法，其特征在于，所述步骤S5包括以下步骤：

9.根据权利要求1所述的方法，其特征在于，所述步骤S6中，所述最终特征为行人图像的完整特征和保留下来的序列块对应的条纹部件特征串联起来得到的特征。

10.根据权利要求1所述的方法，其特征在于，所述步骤S6中，利用余弦距离计算所述查询图像和行人库图像之间的相似度。