CN115311687A

CN115311687A - 联合令牌和特征对齐的自然语言行人检索方法及系统

Info

Publication number: CN115311687A
Application number: CN202210951558.2A
Authority: CN
Inventors: 李成龙; 李尚泽; 鹿安东; 黄岩; 王亮; 程致远
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-11-08

Abstract

本发明提供联合令牌和特征对齐的自然语言行人检索方法及系统包括：使用双流特征学习网络中的图像分支提取输入行人图像的视觉特征；使用双流特征学习网络中的文本分支提取输入行人描述的文本特征；对图像和文本分支提取到的全局特征图在特征空间内进行对齐；使用特征空间中对齐的图像全局特征生成令牌序列；在生成令牌序列和真实令牌序列之间进行令牌对齐；对图像和文本特征进行跨模态融合交互；联合令牌和特征对齐的自然语言行人检索模型训练；联合令牌和特征对齐的自然语言行人检索模型测试。本发明解决了歧义性嵌入、复杂度高、依赖预置数据以及模态距离、类内距离优化效果差的技术问题。

Description

联合令牌和特征对齐的自然语言行人检索方法及系统

技术领域

本发明涉及深度学习和刑事侦查技术领域，具体涉及联合令牌和特征对齐的自然语言行人检索方法及系统。

背景技术

在自然语言行人检索领域，现有大多数先进方法致力于挖掘两种模态的局部特征，然后进行细粒度的视觉文本匹配。因此，可以从划分局部区域方式的角度大致将这些方法分为两类：手工先验的多尺度方法和附加模型辅助的方法。

现有技术中的第一类方法使用一系列手工设计的局部区域来构建不同尺度特征之间的匹配。例如公开号为CN113221680A的现有专利申请文献《基于文本动态引导视觉特征提炼的文本行人检索方法》(西北工业大学，2021-08-06，王鹏、牛凯、高丽颖、马泽红、矫炳亮、谭同昊)提出了一种基于文本动态引导视觉特征提炼的自然语言行人检索方法。该技术使用MobileNet和Bi-LSTM分别作为图像和文本特征提取网络。为了获取细粒度图像特征表示，该技术对输入的行人图像自顶向下依次划分出k个水平区域，再将这些水平区域送入特征提取网络，获得图像局部特征。接下来，对自然语言描述中出现的视觉物体在水平区域中的位置赋予不同的权重，从而通过文本动态引导提取视觉特征，来进行自然语言行人检索。现有第一类方法虽然可以通过学习判别性局部特征表示来获得优于仅使用全局特征时的性能，但是由于两种模态中的局部特征难以准确对齐，容易出现歧义性嵌入的问题，从而限制了这些方法性能的进一步提升。

现有技术中的第二类方法尝试借助额外的模型或自然语言处理工具来进行预处理，从而划分出有价值的图像区域或文本短语。例如公开号为CN114036336A的现有专利申请文献《基于语义划分的视觉文本属性对齐的行人图像搜索方法》(上海交通大学，2022-02-11，杨华、杨新新)提出了一种基于语义划分的视觉文本属性对齐的自然语言行人检索方法，除了提取行人图像和文本描述的全局特征表述外，还对图像和文本模态的原始数据进行处理。该技术利用现有的人体分割网络对行人图像进行分割，划分出头部、上半身、下半身、鞋子和背包这些图像块；此外，借助自然语言处理工具库NLTK提取对应每个身体部位的文本短语。接下来，使用ResNet50作为图像特征提取网络，使用Bi-LSTM作为文本特征提取网络，提取图像和文本模态的全局与局部特征，再分别进行全局与局部两个尺度下的跨模态特征对齐。现有第二类方法大大增加了参数量和网络复杂度，且预处理时间开销大、步骤复杂，后续行人检索模型性能严重依赖于预处理阶段图像区域或文本短语的划分质量。

此外，这两类方法本质上仍然专注于特征级对齐。模态距离和类内距离同时基于相同的特征进行优化，显然难以获得最优结果。

综上，现有技术存在歧义性嵌入、复杂度高、依赖预置数据以及模态距离、类内距离优化效果差的技术问题。

发明内容

本发明所要解决的技术问题在于如何解决现有技术中的歧义性嵌入、复杂度高、依赖预置数据以及模态距离、类内距离优化效果差的技术问题。

本发明是采用以下技术方案解决上述技术问题的，联合令牌和特征对齐的自然语言行人检索方法包括：

S1、处理预置双流特征学习网络中的图像分支，据以利用金字塔视觉Transformer作为主干网络，据以提取输入行人图像特征；

S2、处理双流特征学习网络中的文本分支，据以利用预置卷积神经网络提取文本高层全局特征；

S3、在预置特征空间内，对从图像分支及文本分支中提取的全局特征图进行对齐，以得到对齐的全局特征，利用跨模态投影匹配损失函数CMPM学习判别性视觉文本特征，据以关联图像和文本两种模态，并减小图像与文本模态距离；

S4、根据对齐图像全局特征生成令牌序列，将图像模态与文本模态的特征转换到相同的空间中进行度量，以桥接图像与文本模态，利用串形优化新范式缩小图像与文本模态距离，据以获取模态不变性特征，以文本生成模块利用输入图像的深层语义特征生成文本描述，据以映射图像特征及文本特征至相同空间，以在特征空间的基础上增加令牌空间监督，据以减小类内距离，并拉近图像与文本模态距离；

S5、利用联合令牌和特征对齐的框架TFAF，以交叉熵损失作为重建损失函数，据以约束生成令牌序列与真实令牌序列之间的距离，以实现令牌空间对齐；

S6、跨模态融合交互图像特征与文本特征，以跨模态交互模块卷积将图像高层全局特征与生成文本特征映射到各自的特征空间，下采样并强化处理图像高层全局特征与生成文本特征，获取图像高层全局特征与生成文本特征之间的权重矩阵，归一化并加权处理权重矩阵，以获得适用注意力矩阵，利用残差连接处理适用注意力矩阵，以得到适用融合输出，将跨模态投影匹配损失函数作为交互损失函数，对适用融合输出和步骤S2中文本分支提取的文本高层全局特征进行监督，据以拉近图像与文本模态之间的距离，减少模态差异；

S7、按照前述步骤S1至S6提取图像特征和文本特征，利用Adam神经网络优化器训练自然语言行人检索模型；

S8、测试自然语言行人检索模型，据以获取行人检索结果。

本发明旨在利用令牌和特征两个空间的对齐来指导网络学习，首先，构建了一个强大的基于金字塔视觉Transformer和卷积神经网络的双流特征学习网络，仅利用全局特征进行特征空间的对齐，有效地拉近了模态距离。其次，设计了一个文本生成模块，通过跨模态文本生成的方式在令牌空间中减小类内距离。最后，提出了一个跨模态交互模块，对图像特征和生成文本特征进行聚合，进一步拉近图像和文本模态之间的距离，减少模态差异。本发明避免了使用局部特征带来的歧义性嵌入问题，也不需要额外的预处理步骤，减少了时间和资源开销。

此外，本发明通过新的联合令牌和特征对齐的框架，通过在特征和令牌空间中分别优化模态和类内距离来进行细粒度的自然语言行人检索，有效地解决了现有方法的不足。

在更具体的技术方案中，步骤S1包括：

S11、金字塔视觉Transformer包括四个阶段，每个阶段包括一个patch嵌入及一个Transformer编码器，在训练阶段，设一批训练数据为：

其中，N代表相互匹配并属于同一身份的图像-文本对的数量；

S12、给定一行人图像I，以下述逻辑表示金字塔视觉Transformer的第四阶段生成的高层全局特征图：

其中，H、W和C分别表示特征图的高度、宽度和通道数。

在更具体的技术方案中，步骤S2包括：

S21、在文本分支中，利用BERT模型将文本描述转换为令牌序列并提取词向量；

S22、设置一固定值L以控制句子长度；

S23、在将文本描述转化为令牌序列的过程中，对序列长度小于预置长度阈值L的待转化序列进行补零操作；

S24、对序列长度超过预置长度阈值L的待转化序列，取前L个令牌，据以得到固定长度令牌序列，输入固定长度令牌序列至BERT模型中，以得到词向量：

其中，D是每个词向量的维度；

S25、将词向量的维度从

扩展至

供提取行人描述的全局特征图；

S26、利用一卷积层和批范数操作转换词向量的维度D，使得词向量的维度D的数值转为图像高层全局特征图的通道数C；

S27、利用深度卷积神经网络提取每个句子描述的高层全局特征图

其中，深度卷积神经网络包括文本残差瓶颈结构。

本发明在文本分支中，采用自然语言处理中广泛应用的BERT模型将文本描述转换为令牌序列并提取词向量。本发明设置了一个固定值L来控制句子长度，以方便后续处理。

在更具体的技术方案中，步骤S3包括：

S31、给定一个批次的图像特征及文本特征，以将图像-文本对表示为：

S32、全局最大池化处理图像特征及文本特征，以得到最大池化数据

据以过滤得到重要全局上下文信息，利用图像特征

和文本特征

之间的标量投影值，以表征图像与文本特征向量相似度；

S33、获取标量投影值在一个批次中的所有特征对

中所占的比例，据以利用下述逻辑处理得到图像特征

与文本特征

的同一身份概率：

式中，

表示标准化的文本特征；

S34、利用下述逻辑，以目标函数将批处理中的每个图像特征

与其正确匹配的文本特征相关联，并优化目标函数：

式中，∈用于数值问题处理参数，q_i,j是图像特征

和文本特征

之间标准化后的正确匹配概率；

S35、在一个批次中存在不少于2个文本特征与图像特征

相匹配时，以下述逻辑表征正确匹配率

在一个批次中，以下述逻辑定义图像到文本投影损失函数：

其中，下标I2T表示图像到文本，L_I2T是图像到文本投影损失函数，L_T2I表示文本到图像投影损失函数；

以下述逻辑处理得到CMPM损失函数，据以双向拉近图像与文本模态距离：

L_CMPM＝L_I2T+L_T2I (4)

本发明针对跨模态行人检索任务中，图像和文本之间存在显著的模态距离的问题，利用跨模态投影匹配损失函数(CMPM)来学习判别性的视觉文本特征，它能够将跨模态投影合并到KL散度中以关联图像和文本两种模态。

在更具体的技术方案中，步骤S4包括：

S41、利用编码器将输入图像编码为固定维度特征向量，利用解码器转化固定维度特征向量为生成文本特征；

以图像分支中的金字塔视觉Transformer作为编码器，利用主干网络进行特征提取并利用全局最大池化层处理输入图像，以得到固定维度特征向量

以下述逻辑最大化使用固定维度特征向量

生成正确文本的概率：

其中，ω代表模型的参数，T_r代表与

具有相同身份的真实令牌序列；

S42、利用链式法则，以下述逻辑根据句子中的前一词预测当前词，据以生成文本：

其中l是这个句子描述的长度；

S43、利用长短期记忆网络LSTM建模前述逻辑，长短期记忆网络包括：输入门IG、输出门OG和遗忘门FG，用以控制信息的流动。其中，利用输入门IG及输出门OG决定是否输入或输出信息，利用遗忘门FG决定丢弃信息比例；

S44、将候选记忆单元表示为

以使用Tanh激活函数将值映射到[-1,1]区间，以确定记忆单元在当前时刻的状态，在遗忘门和输入门的控制下，处理前一时刻记忆单元和当前时刻的候选记忆单元的信息，据以确定当前时刻的记忆单元C_t；

S45、利用下述逻辑给定当前时刻t的输入

和前一时刻t-1的隐藏状态

以通过输出门决定传递至隐藏状态H_t的信息量：

式中，W_xc和W_hc是权重参数，b_c是偏置参数。

本发明尝试将图像和文本模态桥接起来，将两种模态的特征转换到相同的空间中进行度量，以串形优化的新范式缩小两种模态之间的距离，从而获得模态不变性特征。

本发明提出了一个文本生成模块，利用输入图像的深层语义特征来生成文本描述，然后使用重建损失函数来约束生成文本与真实文本之间的差异。采用这种方式，视觉和文本特征被映射到相同的空间。通过在特征空间的基础上增加额外的令牌空间的监督，在类内距离减小的同时，模态距离也被拉近。本发明采用长短期记忆网络LSTM缓解了梯度异常问题，并且更好地建模了时间序列中的长期依赖关系。

在更具体的技术方案中，步骤S5中利用交叉熵损失函数，以下述逻辑约束生成令牌序列与真实令牌序列之间的距离，以实现令牌空间对齐：

式中，p(x)是样本的真实分布，q(x)是预测分布。

本发明采用交叉熵损失函数来约束生成令牌序列与真实令牌序列之间的距离，提高长短期记忆网络中解码器将图像特征转换为文本描述的质量，使生成的描述更加真实。

本发明利用行人图像特征生成令牌序列，在令牌空间进行对齐从而进一步减少类内距离，利用跨模态文本生成来促进自然语言行人检索。

在更具体的技术方案中，步骤S6包括：

S61、卷积处理图像高层全局特征与生成文本特征，以将图像高层全局特征与生成文本特征分别映射到各自的特征空间；

S62、下采样处理图像高层全局特征与生成文本特征，利用全连接层和激活函数强化其通道信息，以对下采样后的特征进行注意力强化；

S63、通过矩阵乘法得到图像特征与生成文本特征之间的权重矩阵；

S64、利用Softmax激活函数归一化权重矩阵，加权求和归一化权重矩阵与图像特征，据以获得适用注意力矩阵；

S65、利用残差连接将适用注意力矩阵加至原始的图像特征，据以得到适用融合输出；

S66、将跨模态投影匹配损失函数作为交互损失函数，对融合输出和所述步骤S2中所述预置卷积神经网络提取的文本高层全局特征进行监督，据以拉近图像与文本模态之间的距离，减少模态差异。

本发明进行跨模态特征融合交互，利用多阶段特征融合进一步缩小图像和文本模态之间的距离。本发明将跨模态投影匹配损失函数作为交互损失函数，对该模块得到的融合输出和卷积神经网络提取的文本高层全局特征进行监督，整个模型以一种渐进的方式逐步拉近图像和文本模态之间的距离，减少模态差异，促使模型取得进一步提升。

在更具体的技术方案中，步骤S7包括：

S71、使用自然语言行人检索数据集CUHK-PEDES，提取图像特征和文本特征；

S72、利用Adam神经网络优化器，在各模块损失函数的监督下训练自然语言行人检索模型。

在更具体的技术方案中，联合令牌和特征对齐的自然语言行人检索系统包括：

行人图像特征提取模块，用以处理预置双流特征学习网络中的图像分支，据以利用金字塔视觉Transformer作为主干网络，据以提取输入行人图像特征；

行人文本特征提取模块，用以处理双流特征学习网络中的文本分支，据以利用预置卷积神经网络提取文本高层全局特征；

特征空间对齐模块，用以在预置特征空间内，对从图像分支及文本分支中提取的全局特征图进行对齐，以得到对齐的全局特征，利用跨模态投影匹配损失函数CMPM学习判别性视觉文本特征，据以关联图像和文本两种模态，并减小图像与文本模态距离，特征空间对齐模块与行人图像特征提取模块及行人文本特征提取模块连接；

文本生成模块，用以根据对齐图像全局特征生成令牌序列，将图像模态与文本模态的特征转换到相同的空间中进行度量，以桥接图像与文本模态，利用串形优化新范式缩小图像与文本模态距离，据以获取模态不变性特征，以文本生成模块利用输入图像的深层语义特征生成文本描述，据以映射图像特征及文本特征至相同空间，以在特征空间的基础上增加令牌空间监督，据以减小类内距离，并拉近图像与文本模态距离，文本生成模块与行人图像特征提取模块、行人文本特征提取模块及特征空间对齐模块连接；

令牌空间对齐模块，用以利用联合令牌和特征对齐的框架TFAF，以交叉熵损失作为重建损失函数，据以约束生成令牌序列与真实令牌序列之间的距离，以实现令牌空间对齐，令牌空间对齐模块与文本生成模块连接；

跨模态融合交互模块，用以跨模态融合交互图像特征与文本特征，以跨模态交互模块卷积将图像高层全局特征与生成文本特征映射到各自的特征空间，下采样并强化处理图像高层全局特征与生成文本特征，获取图像高层全局特征与生成文本特征之间的权重矩阵，归一化并加权处理权重矩阵，以获得适用注意力矩阵，利用残差连接处理适用注意力矩阵，以得到适用融合输出，将跨模态投影匹配损失函数作为交互损失函数，对适用融合输出和步骤S2中文本分支提取的文本高层全局特征进行监督，据以拉近图像与文本模态之间的距离，减少模态差异，跨模态融合交互模块与令牌空间对齐模块连接；

模型训练模块，用以根据图像特征和文本特征，利用Adam神经网络优化器训练自然语言行人检索模型，模型训练模块与行人图像特征提取模块、行人文本特征提取模块、特征空间对齐模块、文本生成模块、令牌空间对齐模块及跨模态融合交互模块连接；

检索结果获取模块，用以测试自然语言行人检索模型，据以获取行人检索结果，检索结果获取模块与模型训练模块连接。

本发明相比现有技术具有以下优点：本发明旨在利用令牌和特征两个空间的对齐来指导网络学习，首先，构建了一个强大的基于金字塔视觉Transformer和卷积神经网络的双流特征学习网络，仅利用全局特征进行特征空间的对齐，有效地拉近了模态距离。其次，设计了一个文本生成模块，通过跨模态文本生成的方式在令牌空间中减小类内距离。最后，提出了一个跨模态交互模块，对图像特征和生成文本特征进行聚合，进一步拉近图像和文本模态之间的距离，减少模态差异。本发明避免了使用局部特征带来的歧义性嵌入问题，也不需要额外的预处理步骤，减少了时间和资源开销。

本发明提出了一个文本生成模块，利用输入图像的深层语义特征来生成文本描述。采用这种方式，视觉和文本特征被映射到相同的空间。通过在特征空间的基础上增加额外的令牌空间的监督，在类内距离减小的同时，模态距离也被拉近。本发明采用LSTM缓解了梯度异常问题，并且更好地建模了时间序列中的长期依赖关系。

本发明进行跨模态特征融合交互，利用多阶段特征融合进一步缩小图像和文本模态之间的距离。本发明将跨模态投影匹配损失函数作为交互损失函数，对该模块得到的融合输出和卷积神经网络提取的文本高层全局特征进行监督，整个模型以一种渐进的方式逐步拉近图像和文本模态之间的距离，减少模态差异，促使模型取得进一步提升。本发明解决了现有技术中存在的歧义性嵌入、复杂度高、依赖预置数据以及模态距离、类内距离优化效果差的技术问题。

附图说明

图1为本发明实施例1的联合令牌和特征对齐的自然语言行人检索方法的整体网络框架示意图；

图2为本发明实施例1的联合令牌和特征对齐的自然语言行人检索方法基本步骤示意图

图3为本发明实施例1的跨模态交互模块具体连接示意图；

图4为本发明实施例1的生成令牌序列具体步骤示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明采用PyTorch框架，将深度学习技术应用到自然语言行人检索领域，提出了一种新的联合令牌和特征对齐的框架(TFAF)，它追求联合进行令牌和特征的对齐以减少图像和文本之间的模态距离和类内距离，如图1所示。具体来讲，本发明首先构建了一个新的双流特征学习网络，分别提取图像和文本特征，在特征空间中将两个模态的样本推近，进行特征对齐。其次，设计了一个文本生成模块，使用在特征空间中对齐的图像特征来生成令牌序列，然后在生成的令牌序列和真实令牌序列之间进行令牌对齐，从而在令牌空间中减少类内距离。最后，提出了一个跨模态交互模块，利用多阶段特征融合进一步缩小图像和文本模态之间的距离。

如图2所示，本发明提供的联合令牌和特征对齐的自然语言行人检索方法包括如下步骤：

步骤S1、使用双流特征学习网络中的图像分支提取输入行人图像的视觉特征；

本发明采用金字塔视觉Transformer作为主干网络提取图像特征图。它包含四个阶段，每个阶段由一个patch嵌入和一个Transformer编码器组成。在训练阶段，本发明假设一批训练数据为

其中N代表相互匹配并属于同一身份的图像-文本对的数量。给定一张行人图像I，本发明将金字塔视觉Transformer第四阶段生成的高层全局特征图表示为

其中H、W和C分别表示特征图的高度、宽度和通道数。

步骤S2、使用双流特征学习网络中的文本分支提取输入行人描述的文本特征；

在文本分支中，本发明采用利用自然语言处理中广泛应用的BERT模型将文本描述转换为令牌序列并提取词向量。为了方便后续处理，本发明设置了一个固定值L来控制句子长度。在将文本描述转化为令牌序列的过程中，对于长度小于L的序列，本发明进行补零操作；对于长度超过L的序列，本发明取前L个令牌。这样，就得到了固定长度的令牌序列。然后将它们输入BERT模型，得到词向量

其中D是每个词向量的维度。

为了提取行人描述的全局特征图，本发明首先将词向量的维度从

扩展至

从而可以由后续的卷积神经网络处理。接下来，使用一个卷积层和批范数操作将词向量维度D转换为与图像高层全局特征图相同的通道数C。最后，使用一个包含文本残差瓶颈结构的深度卷积神经网络来提取每个句子描述的高层全局特征图

步骤S3、对图像和文本分支提取到的全局特征图在特征空间内进行对齐；

跨模态行人检索任务的一个主要挑战是图像和文本之间存在显著的模态距离。为了减小两种模态之间的距离。本发明利用跨模态投影匹配损失函数(CMPM)来学习判别性的视觉文本特征，它能够将跨模态投影合并到KL散度中以关联图像和文本两种模态。

给定一个批次的图像和文本特征，将图像-文本对表示为

为了过滤出重要的全局上下文信息，降低网络对模态差异的敏感度，本发明首先对图像特征和文本特征应用全局最大池化，从而得到

两个特征向量之间的相似度可以通过标量投影的大小来反映，标量投影的值越大，两个特征向量之间的相似度就越大。因此，根据

和

之间标量投影值在一个批次所有特征对

中所占的比例，可以得到

和

属于同一身份的概率为：

其中，

表示标准化的文本特征。本发明需要优化将批处理中的每个图像特征

与其正确匹配的文本特征相关联的目标函数，表示为：

其中，∈用于避免数值问题，q_i,j是图像特征

和文本特征

之间标准化后的正确匹配概率，这是因为在一个批次中可能有多个文本特征与

相匹配，可以表示为

因此，在一个批次中，图像到文本投影的损失函数可以归纳为：

反之亦然，文本到图像投影的损失函数可以表示为L_T2I。为了双向拉近图像和文本模态之间的距离，CMPM损失函数可以被定义为：

L_CMPM＝L_I2T+L_T2I (4)

步骤S4、使用特征空间中对齐的图像全局特征生成令牌序列；

为了减少图像和文本之间的模态距离，许多现有的方法对图像进行分割或从句子描述中提取属性短语。通过在图像和文本之间建立多种粒度的联系，促使视觉特征与给定的文本特征相匹配。然而，这些方法引入了额外的预处理步骤，导致计算量和模型复杂度显著增加。本发明尝试将图像和文本模态桥接起来，将两种模态的特征转换到相同的空间中进行度量，以串形优化的新范式缩小两种模态之间的距离，从而获得模态不变性特征。

基于上述考虑，本发明提出了一个文本生成模块，利用输入图像的深层语义特征来生成文本描述，然后采用这种方式，视觉和文本特征被映射到相同的空间。通过在特征空间的基础上增加额外的令牌空间的监督，在类内距离减小的同时，模态距离也被拉近。

如图4所示，步骤S4还包括如下具体步骤：

步骤S41、整个框架可以视为一个编码器-解码器结构。首先使用编码器将输入图像编码为固定维度的特征向量，然后利用解码器将这些特征向量转化为生成文本。图像分支中的金字塔视觉Transformer充当编码器的角色，经过主干网络的特征提取和全局最大池化层的处理后，可以得到固定维度的特征向量

接下来的目标是最大化使用特征向量

生成正确文本的概率，如公式(5)所示，其中，ω代表模型的参数(简洁起见在后续处理中省略)，T_r代表与

具有相同身份的真实令牌序列。

步骤S42、以一个句子描述为例，为了完成文本生成任务，需要使用链式法则根据前一个词来预测当前词，该过程如公式(6)所示，其中l是这个句子描述的长度。循环神经网络(RNN)是具有循环连接的网络，它可以在不同的时刻之间传递信息，从而基于先前记忆的信息对当前时刻的状态进行预测，因此能够建模

然而，虽然循环神经网络具有一定的记忆能力，但它并不能很好地处理长期依赖问题，即当预测点与其所依赖的信息距离较远时，循环神经网络很难准确学习到相关信息。

步骤S43、为了解决上述问题，本发明采用长短期记忆网络(LSTM)。该网络引入了三种门控机制，分别是输入门(IG)、输出门(OG)和遗忘门(FG)，这三种门用于控制信息的流动。其中，前两种门用于决定是否输入或输出信息，最后一种门用于决定应该丢弃信息的比例。此外，将候选记忆单元表示为

它使用Tanh激活函数将值映射到[-1,1]区间，用于确定记忆单元在当前时刻的状态。当前时刻的记忆单元C_t由遗忘门和输入门控制下的前一时刻记忆单元和当前时刻候选记忆单元的信息确定。最终，输出门决定了传递给隐藏状态H_t的信息量。给定当前时刻t的输入

和上一时刻t-1的隐藏状态

上述过程表示为公式(7-9)。其中，W_xc和W_hc是权重参数，b_c是偏置参数。通过这种方式，长短期记忆网络缓解了梯度异常问题，并且更好地建模了时间序列中的长期依赖关系。

H_t＝OG_t⊙tanh(C_t) (9)

步骤S5、在生成令牌序列和真实令牌序列之间进行令牌对齐；

为了提高长短期记忆网络中解码器将图像特征转换为文本描述的质量，使生成的描述更加真实，本发明采用交叉熵损失函数来约束生成令牌序列与真实令牌序列之间的距离，从而实现令牌空间对齐，如公式(10)所示。其中，p(x)是样本的真实分布，q(x)是预测分布：

步骤S6、对图像和文本特征进行跨模态融合交互；

如图3所示，为了进一步减少图像和文本模态之间的距离，本发明设计了一个新的跨模态交互模块。对于金字塔视觉Transformer提取的图像高层全局特征和文本生成模块中利用该图像特征获得的生成文本特征，通过卷积操作将它们分别映射到各自的特征空间。对下采样后的特征向量进行注意力强化，即使用由全连接层和激活函数构成的模块，强化输入特征的通道信息。通过矩阵乘法得到图像和文本特征之间的权重矩阵，并利用Softmax激活函数对其做归一化，将该结果与图像特征加权求和获得最终的注意力矩阵。此外，这里还引入残差连接的思想，将该注意力矩阵加回到原始图像特征上，得到最终的融合输出。

生成文本特征是由图像高层全局特征通过文本生成模块转化而来的，本质上是图像特征的另一阶段表现形式，采用该模块进行跨模态特征融合交互，等同于对两种形式的图像特征进行多阶段聚合。接下来，将跨模态投影匹配损失函数作为交互损失函数，对该模块得到的融合输出和卷积神经网络提取的文本高层全局特征进行监督，整个模型以一种渐进的方式逐步拉近图像和文本模态之间的距离，减少模态差异。

步骤S7、联合令牌和特征对齐的自然语言行人检索模型训练；

使用自然语言行人检索数据集CUHK-PEDES，按照上述步骤提取图像和文本特征，采用Adam神经网络优化器，在各个模块损失函数的监督下对神经网络模型进行训练。

步骤S8、联合令牌和特征对齐的自然语言行人检索模型测试；

给定一句自然语言文本描述作为查询，比较从该文本描述提取到的全局特征与图像库中每张行人图像的全局特征之间的余弦相似度，相似度最高的图像为该轮行人检索的结果。

综上，本发明旨在利用令牌和特征两个空间的对齐来指导网络学习，首先，构建了一个强大的基于金字塔视觉Transformer和卷积神经网络的双流特征学习网络，仅利用全局特征进行特征空间的对齐，有效地拉近了模态距离。其次，设计了一个文本生成模块，通过跨模态文本生成的方式在令牌空间中减小类内距离。最后，提出了一个跨模态交互模块，对图像特征和生成文本特征进行聚合，进一步拉近图像和文本模态之间的距离，减少模态差异。本发明避免了使用局部特征带来的歧义性嵌入问题，也不需要额外的预处理步骤，减少了时间和资源开销。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述方法包括：

S2、处理所述双流特征学习网络中的文本分支，据以利用预置卷积神经网络提取文本高层全局特征；

S3、在预置特征空间内，对从所述图像分支及所述文本分支中提取的所述全局特征图进行对齐，以得到对齐的图像全局特征，利用跨模态投影匹配损失函数CMPM学习判别性视觉文本特征，据以关联图像和文本两种模态，并减小图像与文本模态距离；

S4、根据所述对齐图像全局特征生成所述令牌序列，将图像模态与文本模态的特征转换到相同的空间中进行度量，以桥接图像与文本模态，利用串形优化新范式缩小所述图像与文本模态距离，据以获取模态不变性特征，以文本生成模块利用输入图像的深层语义特征生成所述文本描述，据以映射所述图像特征及所述文本特征至相同空间，以在所述特征空间的基础上增加令牌空间监督，据以减小类内距离，并拉近所述图像与文本模态距离；

S6、跨模态融合交互所述图像特征与文本特征，以跨模态交互模块卷积将所述图像高层全局特征与所述生成文本特征映射到各自的所述特征空间，下采样并强化处理所述图像高层全局特征与生成文本特征，处理获取所述图像高层全局特征与所述生成文本特征之间的权重矩阵，归一化并加权处理所述权重矩阵，以获得适用注意力矩阵，利用残差连接处理所述适用注意力矩阵，以得到适用融合输出，将跨模态投影匹配损失函数作为交互损失函数，对所述适用融合输出和所述步骤S2中所述文本分支提取的所述文本高层全局特征进行监督，据以拉近图像与文本模态之间的距离，减少模态差异；

S7、按照前述步骤S1至S6提取所述图像特征和所述文本特征，利用Adam神经网络优化器训练所述自然语言行人检索模型；

S8、测试所述自然语言行人检索模型，据以获取行人检索结果。

2.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S1包括：

S11、所述金字塔视觉Transformer包括四个阶段，每个所述阶段包括一个patch嵌入及一个Transformer编码器，在训练阶段，设一批训练数据为：

S12、给定一行人图像I，以下述逻辑表示所述金字塔视觉Transformer的第四阶段生成的高层全局特征图：

其中，H、W和C分别表示特征图的高度、宽度和通道数。

3.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S2包括：

S21、在所述文本分支中，利用BERT模型将文本描述转换为令牌序列并提取词向量；

S22、设置一固定值L以控制句子长度；

S23、在将所述文本描述转化为令牌序列的过程中，对序列长度小于预置长度阈值L的待转化序列进行补零操作；

S24、对序列长度超过所述预置长度阈值L的待转化序列，取前L个令牌，据以得到固定长度令牌序列，输入所述固定长度令牌序列至所述BERT模型中，以得到词向量：

其中，D是每个词向量的维度；

S25、将所述词向量的维度从

扩展至

供提取行人描述的全局特征图；

S26、利用一卷积层和批范数操作转换所述词向量的维度D，使得所述词向量的维度D的数值转为图像高层全局特征图的通道数C；

其中，所述深度卷积神经网络包括文本残差瓶颈结构。

4.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S3包括：

S32、全局最大池化处理所述图像特征及所述文本特征，以得到最大池化数据

据以过滤得到重要全局上下文信息，利用所述图像特征f_i ^I和所述文本特征

之间的标量投影值，以表征图像与文本特征向量相似度；

S33、获取所述标量投影值在一个批次中的所有特征对

中所占的比例，据以利用下述逻辑处理得到所述图像特征f_i ^I与所述文本特征

的同一身份概率：

其中，

表示标准化的文本特征；

S34、利用下述逻辑，以目标函数将批处理中的每个所述图像特征

与其正确匹配的所述文本特征相关联，并优化所述目标函数：

式中，∈用于数值问题处理参数，q_i,j是所述图像特征f_i ^I和所述文本特征

之间标准化后的正确匹配概率；

S35、在一个批次中存在不少于2个所述文本特征与所述图像特征f_i ⁱ相匹配时，在一个批次中，以下述逻辑定义图像到文本投影损失函数：

以下述逻辑处理得到CMPM损失函数，据以双向拉近所述图像与文本模态距离：

L_CMPM＝L_I2T+L_T2I (4)

5.根据权利要求4所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S35中，以下述逻辑表征所述正确匹配率：

6.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S4包括：

S41、利用编码器将所述输入图像编码为固定维度特征向量，利用解码器转化所述固定维度特征向量为生成文本特征；

以所述图像分支中的所述金字塔视觉Transformer作为编码器，利用所述主干网络进行特征提取并利用全局最大池化层的处理所述输入图像，以得到所述固定维度特征向量f_i ^I；

以下述逻辑最大化使用所述固定维度特征向量

生成正确文本的概率：

其中，ω代表模型的参数，T_r代表与f_i ^I具有相同身份的真实令牌序列；

其中

是这个句子描述的长度；

S43、利用长短期记忆网络LSTM建模前述逻辑，所述长短期记忆网络包括：输入门IG、输出门OG和遗忘门FG，用以控制信息的流动。其中，利用所述输入门IG及所述输出门OG决定是否输入或输出信息，利用所述遗忘门FG决定丢弃信息比例；

S44、将候选记忆单元表示为

以使用Tanh激活函数将值映射到[-1,1]区间，以确定所述记忆单元在当前时刻的状态，在所述遗忘门和所述输入门的控制下，处理前一时刻记忆单元和当前时刻的所述候选记忆单元的信息，据以确定所述当前时刻的所述记忆单元C_t；

S45、利用下述逻辑给定所述当前时刻t的输入

和所述前一时刻t-1的隐藏状态

以通过所述输出门决定传递至隐藏状态H_t的信息量：

H_t＝OG_t⊙tanh(C_t) (9)

式中，W_xc和W_hc是权重参数，b_c是偏置参数。

7.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S5中利用交叉熵损失函数，以下述逻辑约束生成令牌序列与真实令牌序列之间的距离，以实现令牌空间对齐：

式中，p(x)是样本的真实分布，q(x)是预测分布。

8.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S6包括：

S61、卷积处理所述图像高层全局特征与所述生成文本特征，以将所述图像高层全局特征与所述生成文本特征分别映射到各自的所述特征空间；

S62、下采样处理所述图像高层全局特征与所述生成文本特征，利用全连接层和激活函数强化其通道信息，以对下采样后的特征进行注意力强化；

S63、通过矩阵乘法得到所述图像高层全局特征与所述生成文本特征之间的权重矩阵；

S64、利用Softmax激活函数归一化所述权重矩阵，加权求和所述归一化权重矩阵与所述图像特征，据以获得适用注意力矩阵；

S65、利用残差连接将所述适用注意力矩阵加至原始的所述图像特征，据以得到适用融合输出；

S66、将跨模态投影匹配损失函数作为交互损失函数，对融合输出和所述步骤S2中所述预置卷积神经网络提取的所述文本高层全局特征进行监督，据以拉近图像与文本模态之间的距离，减少模态差异。

9.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法，其特征在于，所述步骤S7包括：

S71、使用自然语言行人检索数据集CUHK-PEDES，根据所述图像特征和所述文本特征；

S72、利用Adam神经网络优化器，在各模块损失函数的监督下训练所述自然语言行人检索模型。

10.联合令牌和特征对齐的自然语言行人检索系统，其特征在于，所述系统包括：

特征空间对齐模块，用以在预置特征空间内，对从所述图像分支及所述文本分支中提取的所述全局特征图进行对齐，以得到对齐的全局特征，利用跨模态投影匹配损失函数CMPM学习判别性视觉文本特征，据以关联图像和文本两种模态，并减小图像与文本模态距离，所述特征空间对齐模块与所述行人图像特征提取模块及所述行人文本特征提取模块连接；

文本生成模块，用以根据所述对齐图像全局特征生成所述令牌序列，将图像模态与文本模态的特征转换到相同的空间中进行度量，以桥接图像与文本模态，利用串形优化新范式缩小所述图像与文本模态距离，据以获取模态不变性特征，以文本生成模块利用输入图像的深层语义特征生成所述文本描述，据以映射所述图像特征及所述文本特征至相同空间，以在特征空间的基础上增加令牌空间监督，据以减小类内距离，并拉近所述图像与文本模态距离，所述文本生成模块与所述行人图像特征提取模块、所述行人文本特征提取模块及所述特征空间对齐模块连接；

令牌空间对齐模块，用以利用联合令牌和特征对齐的框架TFAF，以交叉熵损失作为重建损失函数，据以约束生成令牌序列与真实令牌序列之间的距离，以实现令牌空间对齐，所述令牌空间对齐模块与所述文本生成模块连接；

跨模态融合交互模块，用以跨模态融合交互所述图像特征与文本特征，以跨模态交互模块卷积将所述图像高层全局特征与所述生成文本特征映射到各自的所述特征空间，下采样并强化处理所述图像高层全局特征与生成文本特征，处理获取所述图像高层全局特征与所述生成文本特征之间的权重矩阵，归一化并加权处理所述权重矩阵，以获得适用注意力矩阵，利用残差连接处理所述适用注意力矩阵，以得到适用融合输出，将跨模态投影匹配损失函数作为交互损失函数，对适用融合输出和步骤S2中文本分支提取的文本高层全局特征进行监督，据以拉近图像与文本模态之间的距离，减少模态差异，所述跨模态融合交互模块与所述令牌空间对齐模块连接；

模型训练模块，用以按照所述图像特征和所述文本特征，利用Adam神经网络优化器训练所述自然语言行人检索模型，所述模型训练模块与所述行人图像特征提取模块、所述行人文本特征提取模块、所述特征空间对齐模块、所述文本生成模块、所述令牌空间对齐模块及所述跨模态融合交互模块连接；

检索结果获取模块，用以测试所述自然语言行人检索模型，据以获取行人检索结果，所述检索结果获取模块与所述模型训练模块连接。