CN115827954A

CN115827954A - 动态加权的跨模态融合网络检索方法、系统、电子设备

Info

Publication number: CN115827954A
Application number: CN202310153641.XA
Authority: CN
Inventors: 王素平; 朱立谷; 石磊; 陈小强
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-03-21
Anticipated expiration: 2043-02-23
Also published as: CN115827954B

Abstract

本发明提供一种动态加权的跨模态融合网络检索方法、系统、电子设备，解决了现有多粒度特征学习的一致性损失问题，且不能多级别理解判别性信息的技术问题，实现过程包括：首先将图像样本数据和所述文本样本数据输入至通用检索模型中进行训练以形成多粒度检索模型，直至多粒度检索模型的动态赋值比达到最优，然后将其训练生成的多粒度检索模型作为跨模态融合网络模型，而后应用训练完成的跨模态融合网络模型进行检索以输出检索结果，从而不仅能够学习跨模态间的全局特征，还能够学习模态内的全局特征和局部特征，以实现对细粒度特征的上下文理解，通过动态调整图像和文本互信息的权重，抑制显著区域或单词信息被重复利用，增大潜在相关性特征被利用的概率。

Description

动态加权的跨模态融合网络检索方法、系统、电子设备

技术领域

本发明涉及深度学习技术领域，更为具体地，涉及一种动态加权的跨模态融合网络检索方法、系统、电子设备。

背景技术

随着多媒体平台的发展，互联网上的数据井喷式增长，形态各异。人们对信息的获取需求不再满足于单一模态的检索，而是想要获取不同模态的数据，因此由跨模态知识协同实现的检索成为近几年的研究热点。当前许多研究者致力于解决异构的图像文本的全局语义关联性问题，以实现更准确的跨模态检索任务，但是跨模态间全局级别的相关性匹配，缺乏对细粒度局部特征的学习，忽略了局部结构的上下文信息。

大多数先前的工作都属于全局匹配方法，其目的是学习神经网络将整个图像和整个句子在全局级别映射到一个公共语义空间，其中图像文本对之间的相似性可以直接测量。尽管这些方法在图像-文本匹配任务上取得了相当大的改进，但由于这些方法专注于图像和文本之间的交互，无法集中精力寻找共同的语义，所以该方法存在无法从图像和文本之间的细粒度交互中获益，全局对齐的整个图像和文本，阻碍挖掘图像区域或句子单词的细节的缺点。

因此，亟需一种不仅能够学习跨模态间的全局特征，还能够学习模态内的全局特征和局部特征，实现对细粒度特征的上下文理解，抑制显著区域或单词信息被重复利用，增大潜在相关性特征被利用的概率的动态加权的跨模态融合网络检索方法、系统、电子设备。

发明内容

鉴于上述问题，本发明的目的是提供一种动态加权的跨模态融合网络检索方法，以解决要么跨模态间全局级别的相关性匹配，缺乏对细粒度局部特征的学习，忽略了局部结构的上下文信息，要么存在无法从图像和文本之间的细粒度交互中获益，全局对齐的整个图像和文本，阻碍挖掘图像区域或句子单词的细节的问题。

本发明提供的一种动态加权的跨模态融合网络检索方法，其中，包括：

预采集样本数据集，所述样本数据集中包括图像样本数据和文本样本数据；

将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型；

将所述图像样本数据和所述文本样本数据输入至所述通用检索模型中进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优，然后将训练生成的多粒度检索模型作为跨模态融合网络模型；其中，进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优的步骤包括：使所述通用检索模型分别基于所述图像样本数据和所述文本样本数据进行粗粒度特征学习、中粒度特征学习和细粒度特征学习以获取粗粒度对比数据、中粒度对比数据和细粒度对比数据，按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值，则判定最后一次形成的动态赋值达到最优；

应用所述跨模态融合网络模型进行检索以输出检索结果；其中，若向所述跨模态融合网络模型输入图像数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述图像数据相匹配的文本数据检索结果；若向所述跨模态融合网络模型输入文本数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果。

优选地，将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型的步骤，包括：

将所述图像样本数据和文本样本数据输入至所述初始模型中，所述初始模型提取所述图像样本数据的粗粒度全局图像特征，提取所述文本样本数据的粗粒度全局文本特征，并对所述粗粒度全局图像特征和粗粒度全局文本特征进行特征对比以将具有相似度的图像样本数据和文本样本数据相对应获取对应信息，并将所述对应信息与已知的对应数据相对比获取基础特征损失函数；

根据所述基础特征损失函数反馈调整所述初始模型的模型参数以获取待训练基础模型；

对所述待训练基础模型进行训练以动态调整所述待训练基础模型的模型参数，直至基于所述待训练基础模型所获取的基础特征损失函数达到预设的基础训练阈值，则停止训练，并将最后一次训练形成的待训练基础模型作为通用检索模型；其中，在对所述待训练基础模型进行训练以动态调整所述待训练基础模型的模型参数的过程中，每次训练的步骤包括：将所述图像样本数据和文本样本数据输入至待训练基础模型中，所述待训练基础模型提取所述图像样本数据的粗粒度全局图像特征，提取所述文本样本数据的粗粒度全局文本特征，并对所述粗粒度全局图像特征和粗粒度全局文本特征进行特征对比以将具有相似度的图像样本数据和文本样本数据相对应获取对应信息，并将所述对应信息与已知的对应数据相对比获取基础特征损失函数；根据所述基础特征损失函数反馈调整所述待训练基础模型的模型参数以完成一次训练。

优选地，所述进行粗粒度特征学习，包括：

使所述通用检索模型中的粗粒度模块提取所述图像样本数据的粗粒度图像特征向量，提取所述文本样本数据的粗粒度文本特征向量；

对所述粗粒度图像特征向量和所述粗粒度文本特征向量进行归一化处理以形成标准化粗粒度图向量和标准化文本向量；

基于所述标准化粗粒度图向量和所述标准化文本向量将所述图像样本数据和所述文本样本数据进行对应以形成全局级图像文本对；

计算所述全局集图像文本对中每一对图像-文本的图像文本相似度和每一对文本-图像的文本图像相似度以获取相似性分数；

保留相似性分数在预设相似度阈值内的全局级图像文本对，剔除相似性分数在所述相似度阈值外的全局级图像文本对一形成粗粒度对比数据。

优选地，进行中粒度特征学习，包括：

使所述通用检索模型中的中粒度模块分别对所述图像样本数据和所述文本样本数据进行数据增强以获取多视角图像和增强文本；

将所述图像样本数据和所述多视角图像作为正图像队列；将所述增强文本和所述文本样本数据作为正文本队列；

获取所述正图像队列中各个图像的中粒度图像特征向量，基于所述中粒度图像特征向量获取所述正图像队列中各个图像之间的图像全局信息，并获取所述正图像队列中的各个图像与预设的负样本图像队列中的图像之间图像相似距离；获取所述正文本队列中各个图像的中粒度文本特征向量，基于所述中粒度文本特征向量获取所述正文本队列中各个文本之间的文本全局信息，并获取所述正文本队列中的各个文本与预设的负样本文本队列中的文本之间文本相似距离；

将所述图像全局信息、所述文本全局信息、所述图像相似距离、所述文本相似距离作为中粒度对比数据。

优选地，所述数据增强为随机变换处理。

优选地，细粒度特征学习，包括：

使所述通用检索模型中的细粒度模块对所述图像样本数据进行语义提取以获取图像语义数据；

建立所述图像语义数据和所述文本样本数据的局部上下文信息损失函数，并基于所述图像语义数据和所述文本样本数据的局部上下文求解所述局部上下文信息损失函数以获取局部上下文信息损失函数值；

将所述局部上下文损失函数值作为细粒度对比数据。

优选地，在按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值的过程中，

所述初始比例参数包括粗粒度参数、中粒度参数和细粒度参数；其中，

所述整体损失函数的值为粗粒度部分数据、中粒度部分数据、细粒度部分数据的和；其中，所述粗粒度部分数据为所述粗粒度参数和所述粗粒度对比数据的加权数据；所述中粒度部分数据为所述中粒度参数和所述中粒度对比数据的加权数据；所述细粒度部分数据为所述细粒度参数和所述细粒度对比数据的加权数据；

所述动态赋值的过程为调整所述粗粒度参数、中粒度参数和细粒度参数的过程。

本发明还提供一种动态加权的跨模态融合网络检索系统，实现如前所述的动态加权的跨模态融合网络检索方法，包括：

数据采集模块，用于预采集样本数据集，所述样本数据集中包括图像样本数据和文本样本数据；

预训练模块，用于将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型；

跨模态融合网络模型训练模块，用于将所述图像样本数据和所述文本样本数据输入至所述通用检索模型中进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优，然后将训练生成的多粒度检索模型作为跨模态融合网络模型；其中，进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优的步骤包括：使所述通用检索模型分别基于所述图像样本数据和所述文本样本数据进行粗粒度特征学习、中粒度特征学习和细粒度特征学习以获取粗粒度对比数据、中粒度对比数据和细粒度对比数据，按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值，则判定最后一次形成的动态赋值达到最优；

跨模态融合网络模型应用模块，所述跨模态融合网络模型应用模块应用所述跨模态融合网络模型进行检索以输出检索结果；其中，若向所述跨模态融合网络模型输入图像数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述图像数据相匹配的文本数据检索结果；若向所述跨模态融合网络模型输入文本数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果。

优选地，所述跨模态融合网络模型训练模块在按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值的过程中，

本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的动态加权的跨模态融合网络检索方法中的步骤。

从上面的技术方案可知，本发明提供的动态加权的跨模态融合网络检索方法，首先预采集样本数据集，将图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型，再将图像样本数据和所述文本样本数据输入至通用检索模型中进行训练以形成多粒度检索模型，直至多粒度检索模型的动态赋值比达到最优，然后将最后一次训练生成的多粒度检索模型作为跨模态融合网络模型，而后应用训练完成的跨模态融合网络模型进行检索以输出检索结果，如果向跨模态融合网络模型输入图像数据，则跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与图像数据相匹配的文本数据检索结果，如果向跨模态融合网络模型输入文本数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果，从而不仅能够学习跨模态间的全局特征，还能够学习模态内的全局特征和局部特征，以实现对细粒度特征的上下文理解，通过动态调整图像和文本互信息的权重，抑制显著区域或单词信息被重复利用，增大潜在相关性特征被利用的概率。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的动态加权的跨模态融合网络检索方法的流程图；

图2为根据本发明实施例的动态加权的跨模态融合网络检索方法的技术逻辑示意图；

图3为根据本发明实施例的动态加权的跨模态融合网络检索系统的示意图；

图4为根据本发明实施例的电子设备的示意图。

具体实施方式

大多数先前的工作都属于全局匹配方法，其目的是学习神经网络将整个图像和整个句子在全局级别映射到一个公共语义空间，其中图像文本对之间的相似性可以直接测量。尽管这些方法在图像-文本匹配任务上取得了相当大的改进，但由于这些方法专注于图像和文本之间的交互，无法集中精力寻找共同的语义，所以该方法存在无法从图像和文本之间的细粒度交互中获益，全局对齐的整个图像和文本，阻碍挖掘图像区域或句子单词细节特征的缺点。

针对上述问题，本发明提供一种动态加权的跨模态融合网络检索方法、系统，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的动态加权的跨模态融合网络检索方法、系统、电子设备，图1、图2、图3、图4对本发明实施例的进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1所示，本发明提供的本发明实施例的动态加权的跨模态融合网络检索方法，包括：

S1：预采集样本数据集，所述样本数据集中包括图像样本数据和文本样本数据；

S2：将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型；

S3：将所述图像样本数据和所述文本样本数据输入至所述通用检索模型中进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优，然后将训练生成的多粒度检索模型作为跨模态融合网络模型；其中，进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优的步骤包括：使所述通用检索模型分别基于所述图像样本数据和所述文本样本数据进行粗粒度特征学习、中粒度特征学习和细粒度特征学习以获取粗粒度对比数据、中粒度对比数据和细粒度对比数据，按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值，则判定最后一次形成的动态赋值达到最优；

S4：应用所述跨模态融合网络模型进行检索以输出检索结果；其中，若向所述跨模态融合网络模型输入图像数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述图像数据相匹配的文本数据检索结果；若向所述跨模态融合网络模型输入文本数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果。

如图1所示，步骤S1为预采集样本数据集，所述样本数据集中包括图像样本数据和文本样本数据的过程，在该过程中，该样本数据集为提前随机采集的，在本实施例中，该样本数据可以为四百万份图片和文本数据集，而后进行标准化处理，并划分为训练集、验证集和测试集，在后续的训练过程中应用训练集进行训练，而后通过验证集进行验证，验证合格后，即可进入测试阶段，即采用测试集进行测试。

步骤S2为将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型的过程，其中，将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型的步骤，包括：

S21：将所述图像样本数据和文本样本数据输入至所述初始模型中，所述初始模型提取所述图像样本数据的粗粒度全局图像特征，提取所述文本样本数据的粗粒度全局文本特征，并对所述粗粒度全局图像特征和粗粒度全局文本特征进行特征对比以将具有相似度的图像样本数据和文本样本数据相对应获取对应信息，并将所述对应信息与已知的对应数据相对比获取基础特征损失函数；

S22：根据所述基础特征损失函数反馈调整所述初始模型的模型参数以获取待训练基础模型；

S33：对所述待训练基础模型进行训练以动态调整所述待训练基础模型的模型参数，直至基于所述待训练基础模型所获取的基础特征损失函数达到预设的基础训练阈值，则停止训练，并将最后一次训练形成的待训练基础模型作为通用检索模型；其中，在对所述待训练基础模型进行训练以动态调整所述待训练基础模型的模型参数的过程中，每次训练的步骤包括：将所述图像样本数据和文本样本数据输入至待训练基础模型中，所述待训练基础模型提取所述图像样本数据的粗粒度全局图像特征，提取所述文本样本数据的粗粒度全局文本特征，并对所述粗粒度全局图像特征和粗粒度全局文本特征进行特征对比以将具有相似度的图像样本数据和文本样本数据相对应获取对应信息，并将所述对应信息与已知的对应数据相对比获取基础特征损失函数；根据所述基础特征损失函数反馈调整所述待训练基础模型的模型参数以完成一次训练。

在一个具体实施例中，预训练以获取通用检索模型的过程中采用代理任练从大规模成对的图像文本语料中学习并提取跨模态间数据的通用特征，预训练的过程涉及：图像-文本对比任务（ITC）、掩码语言模型任务（MLM）、图像-文本匹配模型任务（ITM），图像编码器和文本编码器对特征提取后的嵌入通过对比学习进行特征对比以将相似的全局特征对齐，挖掘并维护难负样本信息，提高负样本的信息识别能力，对于文本可能只包含图像部分信息，使用非强相关的成对图像文本训练出的模型更具有泛化能力，能够提高模型图文理解能力和生成能力。

图2示出了动态加权的跨模态融合网络检索方法中所应用的训练逻辑，步骤S3为将所述图像样本数据和所述文本样本数据输入至所述通用检索模型中进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优，然后将最后一次训练生成的多粒度检索模型作为跨模态融合网络模型的过程；其中，进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优的步骤包括：使所述通用检索模型分别基于所述图像样本数据和所述文本样本数据进行粗粒度特征学习、中粒度特征学习和细粒度特征学习以获取粗粒度对比数据、中粒度对比数据和细粒度对比数据，按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值，则判定最后一次形成的动态赋值达到最优。

利用图像编码器ViT提取图像特征，使用文本编码器BERT提取对应的文本特征，多模态融合编码器对图像特征和文本特征进行融合，针对图像文本融合过程中单个模态内仅利用全局特征时，局部语义信息容易被忽略的问题，步骤S3增加局部特征信息提取过程，最终使得整个自监督学习过程中，能够同时挖掘出多视角数据对的语义信息，并进行特征融合。

即使跨模态检索模型中涉及对图像和文本的跨模态及模态内的特征多粒度提取过程。因此，在本实施例中将模型对特征的学习过程分为粗粒度的跨模态对比学习、中粒度学习、细粒度单模态学习。粗粒度特征学习指的是对图像文本跨模态间的全局特征进行对比学习；细粒度特征学习过程则是对单个模态内的局部特征进行挖掘，利用局部结构的上下文信息进行互信息最大化过程，以训练出对细粒度信息的判别能力；基于粗粒度学习和细粒度学习之间，可以将单模态的全局一致性学习过程归纳为中粒度特征学习。

关于文本表征学习过程，VLP模型中文本编码器的体系结构主要遵循BERT的体系结构。BERT使用词块嵌入将输入文本转换为嵌入序列，可学习的位置嵌入被添加到输入嵌入序列中，将嵌入序列输入到模型中。在文本表征学习时，首先使用bert-base-uncased对文本序列进行tokenize标记。将特殊的[CLS]标记附加到标记文本的前面，而[SEP]标记被附加到标记文本的尾部，并将组合后的文本标记输入到文本编码器中。

对于图像表征学习过程，在本具体实施例中采用了视觉转换器(ViT)。我们首先将输入图像缩放到384*384，将图像分割成16*16的patch。将图像分割后的每个pacth进行线性投影，并添加位置嵌入。[CLS] token是整个图像的表示，将可学习的[CLS]与分割的patch向量连接。最后将拼接后的patch嵌入馈送到标准Transformer模型堆叠的视觉编码器中。视觉编码器由一个多头自我注意层(MSA)和多层感知器(MLP)组成，具体来说，MSA是自我注意(self-attention, SA)的扩展，是神经网络常用的构建块。因此，图像经过通过视觉编码器得到图像隐藏状态向量列表。

为了保证图像特征和文本特征之间进行交互，在本具体实施例中利用transformer构建多模态融合编码器，该交叉编码器将图像和文本隐藏向量融合，学习联合后的多模态嵌入。具体来说，使用线性投影层进行维度转换，保证每个文本特征和图像特征的维度一致；为了减少信息的丢失，利用多层transformer和交叉注意机制，实现跨模态特征的融合；交叉注意层使各模态能够更好地获取彼此的信息，实现跨模态信息融合。在共同注意模型的最后，将两种模式的[CLS]标记连接起来，表示两种模式的融合信息，产生最终的跨模态输出。

更为具体的，进行粗粒度特征学习，包括：

S311：使所述通用检索模型中的粗粒度模块提取所述图像样本数据的粗粒度图像特征向量，提取所述文本样本数据的粗粒度文本特征向量；

S312：对所述粗粒度图像特征向量和所述粗粒度文本特征向量进行归一化处理以形成标准化粗粒度图向量和标准化文本向量；

S313：基于所述标准化粗粒度图向量和所述标准化文本向量将所述图像样本数据和所述文本样本数据进行对应以形成全局级图像文本对；

S314：计算所述全局集图像文本对中每一对图像-文本的图像文本相似度和每一对文本-图像的文本图像相似度以获取相似性分数；

S315：保留相似性分数在预设相似度阈值内的全局级图像文本对，剔除相似性分数在所述相似度阈值外的全局级图像文本对一形成粗粒度对比数据。

在一个具体实施例中，跨模态的全局级图像-文本对齐是粗粒度对齐。它分别从单模态和多模态表示的嵌入中学习图像和文本之间的全局一致性，将成对的图像文本嵌入向量拉到一起。具体地说，对齐过程最大化正样本的相似性分数，将不成对图像文本的嵌入推开，即最小化负样本的相似性，这被证明是提高视觉和语言理解能力的有效目标。全局对齐对跨模态检索整体训练是有效的，首先全局对齐是图像和文本表示之间的粗粒度对齐，具有鲁棒性。其次，全局对齐能够在早期阶段捕获模态不变的表示，实现更快的学习。

粗粒度的全局级对齐能够最大化图像和文本之间的互信息，相似性高的图像和文本成对组合，成对的图像和文本被认为描述了相同的高级语义信息，因此互信息应尽可能最大化。面对MI最大化计算较难处理连续和高维的信息，给定一批图文对时,使用使InfoNCE损失最小化表示互信息的下界，遵循ALBEF的ITC损失，引入动量编码器来生成特征，动量编码器创建软标签作为训练目标，以解释负对中的潜在正样本，每个图像-文本对的图像-文本相似度和文本-图像相似度，经过softmax归一化用以下公式计算:

（1）

（2）

（3）

（4）

（5）

（6）

其中，I代表图像，T代表文本图-文对比学习是通过学习相似度函数

，使成对的图-文具有更高的相似度。其中

和

是线性转换，分别将图像和文本的[CLS]嵌入映射为标准化的256维表示，然后归一化到单位长度。对比损失受益于较大的批处理大小，但批处理大小受到GPU内存的限制。

函数将对应的正样本相似度计算后作指数计算，其中，

为可学习的温度参数。同理，

函数计算负样本对的相似性分数，并进行指数计算后累加操作；其中需要说明的是之所以进行指数计算，是为了后续的图像-文本与文本-图像的相似性归一化，函数

最终实现对跨模态的softmax归一化处理。

粗粒度跨模态对比任务损失定义为真实的ground和预测的Score之间的交叉熵H:

（7）

这里我们假设

和

表示ground-truth独热相似度。跨模态数据的负样本对的概率为0，正样本对的概率则为1。图像文本的对应关系不是一对一，而是多对多。因此，

和

会惩罚所有与对应图像的文本不匹配的预测。

进行中粒度特征学习，包括：

S321：使所述通用检索模型中的中粒度模块分别对所述图像样本数据和所述文本样本数据进行数据增强以获取多视角图像和增强文本；

S322：将所述图像样本数据和所述多视角图像作为正图像队列；将所述增强文本和所述文本样本数据作为正文本队列；

S323：获取所述正图像队列中各个图像的中粒度图像特征向量，基于所述中粒度图像特征向量获取所述正图像队列中各个图像之间的图像全局信息，并获取所述正图像队列中的各个图像与预设的负样本图像队列中的图像之间图像相似距离；获取所述正文本队列中各个图像的中粒度文本特征向量，基于所述中粒度文本特征向量获取所述正文本队列中各个文本之间的文本全局信息，并获取所述正文本队列中的各个文本与预设的负样本文本队列中的文本之间文本相似距离；

S324：将所述图像全局信息、所述文本全局信息、所述图像相似距离、所述文本相似距离作为中粒度对比数据。

如果近存在跨模态的全局对比学习，则会忽略每个模态内的自监督过程，跨模态对比学习仅仅捕捉到每个模态的显著区域或对象，但是容易忽略每个模态内的细节特征。为解决此问题，在本实施例中加入对比单模态内数据的特征，挖掘同一模态内的正负样本之间的语义差异性及一致性。从数据角度分析后发现，来自web的大规模数据偏差会误导模型。当模型学习的模态内的虚假相关性时，泛化能力会受到限制。因此需研究模态内正样本的对比损失，并保证正样本对互信息最大化。在本实施例中分别对图像和文本进行增强，使得原始样本具有更多的视图，即在本实施例中该数据增强为随机变换处理，随机根据图像样本数据和所述文本样本数据产生更多的多视角图像和增强文本。增强后的数据扩展原始数据的多样性，数据增强提高输入模型的数据质量,以保持图像模态和文本模态内相关的正样本对之间的语义一致性。

在本实施例中对原始图像进行随机变换预处理，增强后的样本视为正样本，与原始图像构成正图像对，此外，通过负样本队列中为该图像选择负样本，在三种图像之间对比学习，挖掘图像模态的全局一致性，缩小正样本图像之间的距离.同时，扩大负样本图像与原始图像之间的距离，实现最大化同一模态内数据的全局互信息。同理，我们对原始文本进行增强操作，为该句子生成正样本，并在负样本队列中为句子选择负样本。因此，中粒度的对比学习中，损失函数求解过程对应的公式如下：

（8）

（9）

（10）

其中，

和

代表分别为图像和文本增强后生成的正样本，而

和

是在我们维护的负样本队列中取出的负样本。对正负样本组建完成后，计算交叉熵损失，将

和

目标函数最小化，以保证实现单模态的全局对比表征学习。

细粒度特征学习，包括：

S331；使所述通用检索模型中的细粒度模块对所述图像样本数据进行语义提取以获取图像语义数据；

S332：建立所述图像语义数据和所述文本样本数据的局部上下文信息损失函数，并基于所述图像语义数据和所述文本样本数据的局部上下文求解所述局部上下文信息损失函数以获取局部上下文信息损失函数值；

S333：将所述局部上下文损失函数值作为细粒度对比数据。

单模态内样本之间的对比学习依然采用[CLS] token作为输入信息，因此，模态内的对比学习依然是最大化模态内数据的全局信息，显著局部信息可能会主导互信息，导致模型学习相关性特征的过程出现偏差。因此，除了模态内的全局对比外，本实施例同时利用局部信息辅助学习有意义的表征信息，因此结合全局和局部结构化信息，在尽量不损失通用性的情况下，使得全局表示和局部表示之间具有较高的互信息，能够对有噪声的局部信息进行抑制，阻止不相关的局部区域对互信息形成干扰，针对有语义信息局部区域，强化对其相关性的学习过程，扩大高语义区域或文本标记的互信息。在细粒度的上下文特征学习过程中，通过以下目标函数实现局部结构化上下文信息的最大化过程：

（11）

其中，

和

分别代表在相同模态的情况下，局部特征的负文本样本和负图像样本，基于局部结构上下文，

求解细粒度的局部上下文信息损失函数。

针对模态内的对比互信息、局部特征互信息，均通过最小化损失函数来完成，即定义为对InfoNCE损失的计算过程。同时，针对全局和局部特征之间的特征交叉部分，采用soften策略加权的方法。我们利用模态内局部特征上下文信息，对重复性信息进行衡量和筛选。通过过滤重复的表征信息，实现多级别理解判别性特征。

在本实施例中，在按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值的过程中，

具体地，在跨模态检索模型中，使用跨模态的对比学习、模态内的对比学习及模态内的局部上下文特征学习，将互信息的利用程度，转化为对InfoNCE损失函数的权重学习过程。增加权重后的互信息能够抑制显著区域特征重复利用，增强潜在相关性特征信息。最后，针对不同类型的特征信息间非线性依赖程度各异的问题，我们将跨模态检索模型的对比训练目标概括为对损失函数的加权学习过程。我们通过粗粒度参数α、中粒度参数β、细粒度参数γ的组合，生成含有不同粒度的整体损失函数，公式如下：

（12）

在这个公式中，我们组合多个粒度的损失函数，求解跨模态检索的整体损失函数

。本公式中，对前面提到的粗粒度损失函数

、中粒度损失函数

及细粒度损失函数

加权后求和。不同的损失函数拥有不同的权值，如：α、β、γ分别对不同损失函数进行加权。权值是对不同特征的相似性衡量。最终，我们实现对显著特征的抑制，同时增强潜在特征。

训练完成后，步骤S4为应用所述跨模态融合网络模型进行检索以输出检索结果；其中，若向所述跨模态融合网络模型输入图像数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述图像数据相匹配的文本数据检索结果；若向所述跨模态融合网络模型输入文本数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果的过程。

需要说明的是，在训练跨模态融合网络模型时，采用被广泛使用的ITM预训练任务，对视觉表征和文本表征进行融合，以实现更细粒度的融合。ITM为二分类任务，利用二元交叉熵损失，判断输入的图像文本对是否匹配。图像及其对应的标题被认为是正样本对，而批次中的其他样本被认为是负样本对，视觉编码器ViT和文本编码器BERT输出的图像和文本嵌入向量作为融合编码器的输入信息。根据图片文本对比任务中的相似度构造未配对的图片文本，对于小batch中的每个图像，根据对比相似度分布对一个负文本进行抽样，其中与图像相似度得分较高的文本有较高的机会被抽样，同样，为每个文本采样一个难图像。图像文本匹配任务的损失函数求解公式如下：

（13）

其中，目标函数

计算视觉向量和文本向量匹配概率的交叉熵损失。具体地说，

函数表示样本ground truth独热编码，即代表样本的真实标签。

为融合编码器得出的匹配概率。其中，根据[CLS] token作为输入图像-文本对的联合表示，并将其馈入一个全连接层后输出的预测概率。

函数则代表真实匹配概率向量和预测概率向量的交叉熵。由公式可知，负样本对的质量直接影响到ITM的有效性。

在跨模态融合网络模型中，在图像文本融合编码器中除使用ITM图文匹配外，沿用BERT的掩码语言建模损失，根据被屏蔽文字和成对的视觉信息，训练模型预测被屏蔽文字，MLM任务将被屏蔽的文本和对应的图像一起去噪，增强文本和图像之间的交互性，MLM任务遵循传统的配置信息，因此为了使用

代表掩码语言建模中的交叉熵损失。

最后，跨模态融合网络模型模型整体的训练目标如下：

（14）

在整体的目标函数

中，整合多种任务的损失函数，将特征对齐过程的多粒度损失

、融合编码器的图文匹配损失

及掩码语言建模损失

合并，从而实现对全部特征相似性的计算过程。

可以将整个模型构建为算法1；将整个目标函数的训练过程定义为算法2。算法1是对图像和文本进行特征提取的过程。算法2包含对各个训练任务的后续处理过程，并描述整体目标的实现。

对于算法1，包括：

要求: 视觉编码器, 文本编码器, 嵌入维度 256，队列大小 65536.

1. 编码图像，使用视觉编码器ViT嵌入图像。

2. 提取图像的全局特征，将图像映射为256维度的向量。

3. 编码文本，使用bert-base-uncased编码器，提取last_hidden_state作为文本嵌入向量。

4. 提取文本的全局特征，使用正则化处理文本向量。

5. 构建图像文本的相似性矩阵sim_targets，并按行进行归一化。

6. 动量更新：

7. 提取图像的局部特征，池化图像的局部信息。

8. 提取文本的局部特征。

9. 计算粗粒度的对比损失：L_coarse.

10. 计算中粒度的对比损失：L_medium.

11. 计算细粒度的上下文损失：L_fine-grained.

12. 多粒度损失值的合并过程：L_nulti-grained.

13. 完成图文匹配任务，联合嵌入视觉和文本的向量，并注入标签，计算匹配的损失。

14. 合并整体的目标函数L_all.

返回模型的整体L_all。

对于算法2，包括：

要求: 嵌入维度，跨模态融合网络, 数据加载器, 优化器, 训练次数, 配置项.

1. 循环:

2. 加载数据并采样图像和文本数据.

3. 调用跨模态融合网络模型并返回动态加权后的多粒度损失函数.

4. 反向传播.

5. 调用优化器.

6. 直至模型收敛.

返回最优模型及对应参数配置项。

如此，利用模态内局部特征上下文信息，多级别理解判别性特征，改进以往特征对齐方法，通过soften策略加权方法优化损失函数中的互信息，抑制显著区域或单词信息被重复利用，增强挖掘潜在相关性特征，定性定量分析的结果证明我们的加权互信息最大化方法优于已有对互信息粗暴的统一处理方法，加强对虚假相关性的特征衡量和筛选，使得跨模态检索模型更具有可解释性。

如上所述，本发明提供的动态加权的跨模态融合网络检索方法，首先预采集样本数据集，将图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型，再将图像样本数据和所述文本样本数据输入至通用检索模型中进行训练以形成多粒度检索模型，直至多粒度检索模型的动态赋值比达到最优，然后将训练生成的多粒度检索模型作为跨模态融合网络模型，而后应用训练完成的跨模态融合网络模型进行检索以输出检索结果，如果向跨模态融合网络模型输入图像数据，则跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与图像数据相匹配的文本数据检索结果，如果向跨模态融合网络模型输入文本数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果，从而不仅能够学习跨模态间的全局特征，还能够学习模态内的全局特征和局部特征，以实现对细粒度特征的上下文理解，通过动态调整图像和文本互信息的权重，抑制显著区域或单词信息被重复利用，增大潜在相关性特征被利用的概率。

如图3所示，本发明还提供一种动态加权的跨模态融合网络检索系统100，实现如前所述的动态加权的跨模态融合网络检索方法，包括：

数据采集模块101，用于预采集样本数据集，所述样本数据集中包括图像样本数据和文本样本数据；

预训练模块102，用于将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型；

跨模态融合网络模型训练模块103，用于将所述图像样本数据和所述文本样本数据输入至所述通用检索模型中进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优，然后将训练生成的多粒度检索模型作为跨模态融合网络模型；其中，进行训练以形成多粒度检索模型，直至所述多粒度检索模型的动态赋值比达到最优的步骤包括：使所述通用检索模型分别基于所述图像样本数据和所述文本样本数据进行粗粒度特征学习、中粒度特征学习和细粒度特征学习以获取粗粒度对比数据、中粒度对比数据和细粒度对比数据，按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值，则判定最后一次形成的动态赋值达到最优；

跨模态融合网络模型应用模块104，所述跨模态融合网络模型应用模块应用所述跨模态融合网络模型进行检索以输出检索结果；其中，若向所述跨模态融合网络模型输入图像数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述图像数据相匹配的文本数据检索结果；若向所述跨模态融合网络模型输入文本数据，则所述跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果。

在本实施例中，所述跨模态融合网络模型训练模块在按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值的过程中，

该所述动态加权的跨模态融合网络检索系统的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不作赘述。

本发明提供的动态加权的跨模态融合网络检索系统100，通过数据采集模块101预采集样本数据集，所述样本数据集中包括图像样本数据和文本样本数据；再通过预训练模块102将图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型；再通过跨模态融合网络模型训练模块将图像样本数据和所述文本样本数据输入至通用检索模型中进行训练以形成多粒度检索模型，直至多粒度检索模型的动态赋值比达到最优，然后将训练生成的多粒度检索模型作为跨模态融合网络模型；其中，进行训练以形成多粒度检索模型，直至多粒度检索模型的动态赋值比达到最优的步骤包括：使通用检索模型分别基于所述图像样本数据和所述文本样本数据进行粗粒度特征学习、中粒度特征学习和细粒度特征学习以获取粗粒度对比数据、中粒度对比数据和细粒度对比数据，按照预设的初始比例参数对所述粗粒度对比数据、中粒度对比数据和细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整初始比例参数，形成动态赋值，直至对比结果与训练结果之间的整体损失函数低于预设阈值，则判定最后一次形成的动态赋值达到最优；跨模态融合网络模型应用模块，跨模态融合网络模型应用模块应用跨模态融合网络模型进行检索以输出检索结果；其中，若向跨模态融合网络模型输入图像数据，则跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与图像数据相匹配的文本数据检索结果；若向跨模态融合网络模型输入文本数据，则跨模态融合网络模型输出基于粗粒度、中粒度和细粒度检索的与所述文本数据相匹配的图像数据检索结果，从而不仅能够学习跨模态间的全局特征，还能够学习模态内的全局特征和局部特征，以实现对细粒度特征的上下文理解，通过动态调整图像和文本互信息的权重，抑制显著区域或单词信息被重复利用，增大潜在相关性特征被利用的概率。

如图4所示，本发明还提供一种电子设备，该电子设备包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

该存储器存储有可被至少一个处理器执行的计算机程序，该计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的动态加权的跨模态融合网络检索方法中的步骤。

本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的动态加权的跨模态融合网络检索程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

如上参照附图以示例的方式描述了根据本发明提出的动态加权的跨模态融合网络检索方法、系统、电子设备。但是，本领域技术人员应当理解，对于上述本发明所提出的动态加权的跨模态融合网络检索方法、系统、电子设备，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种动态加权的跨模态融合网络检索方法，其特征在于，包括：

2.如权利要求1所述的动态加权的跨模态融合网络检索方法，其特征在于，将所述图像样本数据和所述文本样本数据输入至预设的初始模型中进行基于粗粒度特征对比的模型预训练以获取通用检索模型的步骤，包括：

3.如权利要求2所述的动态加权的跨模态融合网络检索方法，其特征在于，所述进行粗粒度特征学习，包括：

4.如权利要求3所述的动态加权的跨模态融合网络检索方法，其特征在于，进行中粒度特征学习，包括：

5.如权利要求4所述的动态加权的跨模态融合网络检索方法，其特征在于，

所述数据增强为随机变换处理。

6.如权利要求5所述的动态加权的跨模态融合网络检索方法，其特征在于，细粒度特征学习，包括：

将所述局部上下文损失函数值作为细粒度对比数据。

7.如权利要求6所述的动态加权的跨模态融合网络检索方法，其特征在于，在按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值的过程中，

8.一种动态加权的跨模态融合网络检索系统，实现如权利要求1-7任一所述的动态加权的跨模态融合网络检索方法，包括；

9.如权利要求8所述的动态加权的跨模态融合网络检索系统，其特征在于，所述跨模态融合网络模型训练模块在按照预设的初始比例参数对所述粗粒度对比数据、所述中粒度对比数据和所述细粒度对比数据进行表征融合以获取训练结果，并通过对比已知的对比结果与所述训练结果来反馈调整所述初始比例参数，形成动态赋值，直至所述对比结果与所述训练结果之间的整体损失函数低于预设阈值的过程中，

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，