WO2023093574A1

WO2023093574A1 - 基于多级图文语义对齐模型的新闻事件搜索方法及系统

Info

Publication number: WO2023093574A1
Application number: PCT/CN2022/131992
Authority: WO
Inventors: 范春晓; 吴岳辛; 孙娟娟; 汤艺; 郭皓洁
Original assignee: 北京邮电大学
Priority date: 2021-11-25
Filing date: 2022-11-15
Publication date: 2023-06-01
Also published as: WO2023093574A9; CN114297473B; CN114297473A

Abstract

本发明提出用于图文匹配的多级视觉-文本语义对齐模型MSAVT，并提供了基于图文匹配的多级视觉-文本语义对齐模型MSAVT的新闻事件检索方法，实现了新闻事件跨模态图文搜索，以满足当下新闻检索需求。本发明提供的跨模态检索模型的图文对齐精度更高，应用于新闻事件跨模态图文检索时在多个水平的召回率和平均准确精度等指标上有显著的提升。同时，引入预训练的BERT模型提取文本特征，提高了算法的泛化性能。模型采用公共空间特征学习方法，可以独立的获取图像和文本的向量表征，即可以预先存储检索结果的向量表示，检索耗时较短，可以应用于实际场景中。

Description

基于多级图文语义对齐模型的新闻事件搜索方法及系统

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于多级图文语义对齐模型的新闻事件搜索方法。

背景技术

跨模态检索

模态指数据的存在形式，如文本、图片、视频等。跨模态检索(cross-modal retrieval)旨在用一种模态的数据作为查询来检索另一种模态的数据。最常见的是图像文本检索(image-text retrieval),给定一段文本，检索相关的图像，或者反过来给定一张图像，检索相关的文本。跨模态检索的主要难点在于“异构鸿沟”。异构鸿沟是指由于查询输入与检索结果的表示形式不一致，两者数据处于不同的分布空间，尽管高层语义相关，却无法直接度量相似性。因此研究的重点是如何表示底层特征、如何对高层语义建模以及如何找到合适的度量方法计算模态间的关联。目前主要有以下四类研究方法。

1)子空间的方法

利用不同模态样本对的成对共生信息学习投影矩阵，通过将不同模态的特征投影到公共潜在子空间并在其中度量不同模态的相似性来实现跨模态检索。

2)主题模型的方法

通过生成式模型挖掘跨模态数据中隐含的主题空间，从而将跨模态数据的底层特征映射到隐形语义空间。

3)哈希变换的方法

利用不同模态的样本对信息，学习不同模态的哈希变换，将不同模态特征映射到一个汉明二值空间，然后在汉明空间实现快速的跨模态检索。

4)深度学习的方法

利用深度神经网络的特征抽取能力，在底层提取不同模态的单独有效表示，然后在高层建立不同模态的语义关联，利用高层网络最大化不同模态表示的相关性。与传

统跨模态检索方法相比，基于深度学习的方法在图片、文本等不同模态信息特征的提取、学习和表示方面表现出极大优越性，是近年来跨模态检索的研究热点。

跨模态检索的主要评价指标是recall@K，以正确答案是否出现在前K个返回结果为标准计算召回率。

表征学习

机器学习方法的性能很大程度上取决于数据表达(或者特征)的选择。在机器学习中，表征学习(Representation Learning)是学习一个特征的技术的集合，是用来提升原始数据表达的一种方向。表征学习的主要任务是让计算机学习如何自动提取适合、有用的数据特征并利用学习到的特征来完成目标任务。表征学习可以被分为两类：监督的和无监督的，前者使用标记过的数据作为特征，而后者将未被标记过的数据被当作特征用来学习。

随着计算机硬件计算能力的提升和神经网络结构的不断发展，采用深度架构的表征学习被广泛应用于CV和NLP领域的各项任务中。深度学习是具有多级表示的表征学习方法，用以逐级表示越来越抽象的概念或模式，且形式通常为多层神经网络。深度架构带来了两个主要优势：(1)促进了特征的重复使用；(2)深层的架构可以得到更高层的特征的抽象。例如在CV领域，对于图像输入数据，广泛采用的方法是使用预训练的深度神经网络模型(如VGG、ResNet等)提取特征信息再用于后续任务；在NLP领域，对于文本输入数据，同样使用特征提取器(如RNN、Transformer等)来获取词语和句子的向量表示。目前ResNet和BERT分别是图片和文本领域中应用最广泛的预训练模型，许多研究工作都是先用它们得到一个基线嵌入表示，然后在下游任务中重新微调得到最终的嵌入表示。

度量学习

度量学习[Bellet A,Habrard A,Sebban M.Metric learning[J].Synthesis Lectures on Artificial Intelligence and Machine Learning,2015,9(1):1-151.][Kulis B.Metric learning:A survey[J].Foundations and trends in machine learning,2012,5(4):287-364.](Metric Learning)是为不同目标学习距离函数的一类任务，研究如何在特定的任务上学习一个距离函数，使得该距离函数能够帮助基于近邻的算法取得较好的性能。深度度量学习(Deep Metric Learning)是度量学习的一种方法，目标是学习从原始特征到一个低维稠密的向量空间(称为嵌入空间，embedding space)的映射，使得正样本之间在嵌入空间的距离较近，负样本之间的距离较远。

在深度学习中，很多度量学习的方法都使用成对的样本进行损失计算，这类方法被称为基于样本对的深度度量学习(pair-based deep metric learning)。例如，在训练模型的过程中随机地选取两个样本，使用模型提取特征，并计算特征之间的距离。如果这两个样本属于同一个类别，则使它们之间的距离尽可能小，甚至为0；如果这两个样本属于不同的类别，它们之间的距离应该尽量的大，甚至是无穷大。基于这种思想构建损失函数(Loss function)，使用损失函数对样本对之间的距离进行度量，并根据生成的损失使用各种优化方法对模型进行更新。度量学习本质是对相似度的学习，损失函数可以指导神经网络参数的更新，所以度量学习的优化主要是损失函数的设计。

深度度量学习中常用的损失函数有：

1)Softmax Loss

Softmax Loss是度量学习最基本的损失函数，可以较好完成分类任务但没有考虑类间距离。公式如1-1所示：

其中，W和b为分类层参数，m为训练数据量。

2)Center Loss

Center Loss不仅考虑分类的正确性，而且要求类间有一定距离。公式如1-2所示：

其中，x _i表示全连接层之前的特征，

表示第y _i个类别的特征中心，

3)Triplet Loss

三元组损失函数[Hoffer E,Ailon N.Deep metric learning using triplet network[C].International Workshop on Similarity-Based Pattern Recognition,2015:84-92.]由目标(Anchor)、正样本(Positive)和负样本(Negative)三部分组成。Triplet loss的目的就是通过学习，让同类样本的特征表达间距尽可能小，而异类样本的特征表达间距尽可能大。公式如1-3所示。

其中，

为目标与正样本距离，

为目标与负样本距离，α为参数。通过优化目标样本与正样本的距离小于目标样本与负样本的距离，即使用梯度下降法不断缩小损失函数来实现样本的相似性计算。

与本发明相关的现有技术一

现有技术一的技术方案

目前跨模态图文检索任务多采用公共空间特征学习方法，在图像文本模型独立不交互的情况下获取高质量高语义的跨模态表示，代表方法为VSE++[Faghri F,Fleet D J,Kiros J R,et al.Vse++:Improving visual-semantic embeddings with hard negatives[J].arXiv preprint arXiv:1707.05612,2017.]。VSE++采用Ranking Loss(排序损失)使公共空间中配对的样本之间距离小，不匹配的样本间距离大，同时使用难分样本(Hard Negative)改善视觉语义联合嵌入性能。

如图1所示，模型主要包括两部分，首先通过深度神经网络对图像和文本分别进行特征提取，然后借助度量学习的方法，设计损失函数来学习得到有效的公共表示空间即联合嵌入空间。在特征提取上，VSE++模型对图像采用VGG19或者ResNet152进行特征提取，对文本采用GRU进行特征提取。

难分样本指与正样本距离较近的负样本。在相似性度量方面，VSE++提出了一个新的损失函数max hinge loss，它主张在排序过程中应该更多地关注难分样本，使模型能更好地学习到正负样本的边界。(i，c)为一个正确的图像-文本对，i′＝argmax _j≠is(j,c),c′＝argmax _d≠cs(i,c)，分别为相对于这一个正样本的最难分的图像和文本。max hinge loss的公式如1-4所示，它由负样本图像到基准文本和负样本文本到基准图像的距离约束这两个对称的部分求和得到。

L _Rank＝max _c′[α+s(i,c′)-s(i,c)] ₊+max _i′[α+s(c,i′)-s(i,c)] ₊#(1-4)

其中，[x] ₊＝max(0,x)，s(i,c)为度量图像和文本两种模态之间相似性的余弦距离函数，α为设定的超参数即裕度。

现有技术一的缺点

1)文本特征提取仍可优化

NLP任务中常用的特征提取手段是结合word2vec和RNN。目前基于Transformer的BERT模型，在超大型语料库上进行预训练，在文本特征提取这一任务上表现出了更强大的能力。

2)损失函数设计仍可优化

公式1-4只关注了模态间的关系，忽略了模态内的关系。这导致了所需调整的参数过多，排序损失难以同时优化图像和文本的表征。

3)图文对齐水平不足

文本对象中的单词和句子都是图像的有效描述，其中单词是低级的详细描述，句子则对应图像的高级概述。现有跨模态图文检索模型更多地只关注句子层面的对齐，可能会产生对图像细节预测的偏差。

与本发明相关的现有技术二

现有技术二的技术方案

另一类跨模态图文检索任务的主要思路是将图文特征进行融合，并计算跨模态相似度。

典型方法有图文匹配中的叠加注意力[Lee K H,Xi C,Gang H,et al.Stacked Cross Attention for Image-Text Matching[J].2018.](Stacked Cross Attention for Image-Text Matching，SCAN)，SCAN利用注意力机制将图像和文本的局部信息交互以得到更好的特征表示，同时构建相似度函数在常用的排序损失下进行学习。

图2为Image-Text的版本，即用图像与文本做注意力计算。

(1)用自下而上的注意力模型(bottom-up atttention)来检测和编码图像区域，获取图像特征V＝{v ₁,v ₂,...,v _k}，每一个图像特征编码了图像中的一个区域。

(2)使用双向GRU获得文本特征，一个长度为n的句子得到一组词向量E＝{e ₁,e ₂,...,e _n}。

(3)计算所有图像对之间的相似性，s _ij表示第i个图像区域与第j个单词之间的相似性。

(4)对相似性得分做归一化。

(5)用每一个图像区域和句子中的单词做注意力的计算。

为关注了第i个图像区域的句向量。

(6)计算图像区域与句向量的相似性。

(7)把i个图像区域与句子的相似度叠加得到图像I和文本T的整体相似度。

现有技术二的缺点

尽管图文特征组合后可以为模型隐层提供更多的交叉特征信息，但是无法使用顶层嵌入向量独立表示图像和文本的输入信号。相较于公共空间特征学习方法，跨模态相似性度量方法的搜索过程耗时长。具体而言，当用户输入一个文本查询q，系统需要在线计算所有图像与q的特征组合，才能获得q与每个图像的相似度分数，计算性能是巨大的瓶颈，使其无法在实际中应用。

发明内容

本发明的目的是构建多模态新闻图文数据集，填补了这类数据集的空缺，提出用于图文匹配的多级视觉-文本语义对齐模型MSAVT(Multi-level Semantic Alignments for Visual and Text)；设计并实现了一套新闻事件跨模态图文搜索系统，以满足当下新闻检索需求。

为实现本发明的发明目的，本发明提供的技术方案是：一种基于多级图文语义对齐模型的新闻事件搜索方法，包括以下步骤：

步骤1)，构建多模态新闻图文数据集；

步骤1.1)新闻事件选取；

在对新闻事件进行整理和归纳之后，得到事件名称；

步骤1.2)新闻数据获取

使用步骤1.1)中得到的事件名称为检索词，搜索得到的与之匹配的新闻报道数据，提取每一则新闻报道的配图和标题文本对作为该新闻事件的一条样例数据；

步骤1.3)数据标注；

通过算法对所得数据进行预处理，完成数据集的算法初筛工作；

步骤2)，建立用于图文匹配的多级视觉-文本语义对齐模型MSAVT；

步骤2.1)利用深度神经网络模型提取图像特征与文本特征；

步骤2.2)将提取的文本特征和图像特征映射到图像语义和文本语义的联合嵌入空间；

步骤2.3)针对提出同时建立模态内约束和模态间约束的聚类损失；

步骤2.4)针对图像特征，加入单词检测损失以关注单词层面的对齐；

步骤2.5)聚类损失和单词检测损失作为排序损失的补充，得到最终的整体损失函数；

步骤3)，实现新闻事件跨模态图文搜索；

采用以图搜文或以文搜图的方式，实现新闻事件跨模态图文搜索。

本发明提供的优选技术方案为：

所述的步骤1.3)数据标注中，所述的算法初筛具体步骤包括：

步骤1.3.1)使用预训练的RoBERTa模型提取文本特征和预训练的ResNet50模型提取图片特征；

步骤1.3.2)每个事件视作一个类，通过文本和图片特征取平均值的方式计算出该类的文本中心和图片中心；

步骤1.3.3)认定图像特征或文本特征距离其中心最近的20％的数据是高置信度的可靠数据，取它们的并集予以保留；

步骤1.3.4)其余数据通过人工补标注的形式进行判定。

本发明提供的另外的优选技术方案为：

所述的步骤2.3)中的聚类损失为：

假设数据集有K个集群且每个集群内包含N个样本对，给定集群k中的对象i，计算集群内距离为公式(2-2)，

其中，r _ik为集群k中的对象i的向量表示，μ _k为第k个集群的中心，其定义为公示2-3所示：

方差σ的定义为公式2-4所示：

集群之间的距离可通过公式2-5计算得到：

通过最小化集群内距离和最大化集群间距离，我们得到聚类损失定义为公式2-6：

所述的步骤2.4)中，单词检测损失用于评估一个新闻图文对中，图像是否包含其标题文本中含有的高频词。根据所使用的数据集设置属性字典，属性字典由多模态数据集中文本数据的1000个高频词组成，单词检测损失的的具体计算步骤为：

步骤2.4.I)使用权重矩阵W乘上图像描述符υ获得top1k单词集中每个单词出现的概率分数s，其定义如公式2-7所示：

s＝Wυ#(2-7)

步骤2.4.II)提前计算每个新闻图文对中标题文本中含有哪些属性字典中的属性(即高频词)作为分类问题的标签，利用1000个二进制分类器计算单词检测损失L _word，如公式2-8所示：

其中，s _i表示第i个单词的概率分数，t _i∈{0，1}代表第i个单词是否出现在标题文本中。

所述的数据集的训练整体步骤如下：

步骤2.4.1)使用预训练的ResNet-152模型，固定其权重作为图像特征编码器；

步骤2.4.2)根据整体损失函数，使用BP算法来更新模型除ResNet-152以外部分的参数；

步骤2.4.3)以上训练进行40轮，初始学习率为0.001，每20个epoch减少10倍；

步骤2.4.4)不再固定ResNet-152的权重，在50轮训练中端到端地微调整个架构。初始学习率为0.00001，每20个epoch下降10次。在整个训练过程中，权重λ ₁固定为1，λ ₂固定为0.1。

本发明提供的另一优选技术方案为：

所述的步骤3)中，

所述的以图搜文为用户上传新闻图片作为检索词，系统将其输入训练好的MSAVT模型进行前向传播，计算其在联合嵌入空间中的欧氏坐标，并返回距离其最近的N条新闻标题文本数据，从而实现了以图搜文；

所述的以文搜图中为用户上传新闻标题文本作为检索词，系统将其输入训练好的MSAVT模型进行前向传播，计算其在联合嵌入空间中的欧氏坐标，并返回距离其最近的N条新闻图片数据，从而实现了以文搜图。

本发明还提供了基于多级图文语义对齐模型的新闻事件搜索方法的新闻事件搜索，采用图文匹配的多级视觉-文本语义对齐模型MSAVT模型为算法核心，运用前后端编程技术设计并实现一个新闻事件跨模态图文搜索系统，利用新闻报道中标题文本和配图两种不同模态数据的关系，实现检索结果。

本发明的有益效果是：

新闻具有重要的社会意义，且其表达多为图文结合的多模态形式。传统的单模态检索形式单一，不能有效利用不同模态信息之间的关联，不能满足目前网民获取新闻的需要。而跨模态图文检索可以利用新闻报道中新闻标题文本和配图两者之间具有低特征异构、高语义相关这一特点，返回不同模态的检索效果，丰富人们对同一新闻事件的认知。因此，本发明构建多模态新闻图文数据集，填补了这类数据集的空缺；本发明提出用于图文匹配的多级视觉-文本语义对齐模型MSAVT(Multi-level Semantic Alignments for Visual and Text)；设计并实现了一套新闻事件跨模态图文搜索系统，以满足当下新闻检索需求。

在MSAVT模型中，增加了同时做模态内约束和模态间约束的聚类损失，并加入单词检测模块以关注单词层面的图文对齐，改进了传统的排序损失函数。与现有技术方案相比，该跨模态检索模型的图文对齐精度更高，应用于新闻事件跨模态图文检索时在多个水平的召回率和平均准确精度等指标上有显著的提升。同时，引入预训练的BERT模型提取文本特征，提高了算法的泛化性能。模型采用公共空间特征学习方法，可以独立的获取图像和文本的向量表征，即可以预先存储检索结果的向量表示，检索耗时较短，可以应用于实际场景中。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例通过改进增加分类解耦网络和定位解耦网络提升了二值目标检测神经网络的网络信息容量，避免了分类和定位特征信息提取不均衡的问题；通过设计改进Anchor采样和基于关联性约束的新型损失函数算法解决了二值化目标检测神经网络中Anchor采样的任务不一致性问题，并通过动态可学习权重的目标损失函数对二值化目标检测神经网络进行分类和定位任务的同步优化，能够提升检测框的质量、改善二值化目标检测网络的检测精准度和算法的鲁棒性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术跨模态图文检索采用公共空间特征学习方法的示意图；

图2为现有技术跨模态图文检索采用图像与文本做注意力计算的示意图；

图3为数据集的算法初筛工作结构示意图；

图4为使用RoBERTa提取文本特征示意图；

图5为残差学习单元示意图；

图6为ResNet模型结构示意图；

图7为ResNet中的两种残差模块示意图；

图8为ResNet-50提取图片特征示意图；

图9为本发明提出的多级视觉-文本语义对齐模型MSAVT模型的结构示意图；

图10为单词检测模块示意图；

图11为本发明使用本发明方法的系统应用示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述。

本发明提出的基于多级图文语义对齐模型的新闻事件搜索方法，包括以下步骤：

步骤1)，构建多模态新闻图文数据集

不同于传统方式，神经网络的训练需要大量样本的支持，可用且高质量的新闻图文多模态数据集是进行新闻事件跨模态搜索算法研究的第一步。目前尚无开源的新闻事件图文多模态数据集，因此要自己构建数据集。

构建多模态新闻图文数据集具体步骤如下：

步骤1.1)新闻事件选取

针对新闻这一信息文体的特殊性，选取了BBC、China Daily、Global Times、 TNW、VOA NEWS、People’s Daily、Engadget、The New York Times、The Wall Street Journal等综合类、科技类、金融类等国内外主流新闻网站，爬取了600余条新闻标题文本，涵盖了政治、科技、体育、娱乐、环境、经济和艺术等主要新闻类型。在对新闻事件进行人工的整理和归纳之后，得到250个事件名称。

步骤1.2)新闻数据获取

使用步骤1.2)中得到的事件名作为检索词，通过爬虫获取Google News搜索得到的与之匹配的新闻报道数据，提取每一则新闻报道的配图和标题文本对作为该事件的一条样例数据。

步骤1.3)数据标注

为了降低人工清洗数据的工作量，提升工作效率，通过算法对所得数据进行预处理，利用每个sample与聚类中心的差作为紧凑信息，从而完成了数据集的算法初筛工作。

如图3所示出的，所述的步骤1.3)数据标注中，所述的算法初筛具体步骤包括：

RoBERTa是BERT的改进版，通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等方法，在发布时刷新了多项NLP任务的记录。RoBERTa在训练方法上的改进主要有两点：一是删除了BERT中可能损害模型性能的下一句预测目标(Next Sentence Prediction)训练任务，二是对BERT中的静态MASK进行了改进，采用了动态MASK，即在每次输入数据的时候进行MASK，这样可以避免在每轮训练中每个序列被MASK的方式相同。

RoBERTa的模型结构与BERT完全相同，其提取文本特征的步骤如图4所示。

将新闻的标题文本直接输入预训练的中文RoBERTa模型，由于BERT模型对中文是按字切分的，模型输出每个字的字向量。将一个句子的所有字向量加起来求平均值，即得到这个句子的文本特征。

ResNet-50模型结构和使用ResNet-50提取图片特征的步骤介绍如下：

ResNet简介：

通常情况下，深度学习中网络深度的增加可以增强模型的特征提取能力，但随着深度神经网络的进一步研究，研究人员发现层数超过一定数量时反而会带来性能的退化。对此，He等人在《Deep residual learning for image recognition》一文提出深度残差网络(Deep residual network，ResNet)，解决了深度神经网络的退化问题。

残差网络的构建思路为对神经网络构造天然的恒等映射，假设神经网络非线性单元的输入和输出的维度一致，一个残差学习单元可以由如下公式表示。

其中，神经网络单元要拟合的函数为

即残差，f是ReLU激活函数，x ^(l)和x ^(l-1)分别表示的是第l个残差单元的输入和输出。如图5所示，残差学习单元一般以短路连接(shortcut connection)的形式实现。

实践证明，ResNet通过残差学习解决了深度CNN网络的退化问题，已成为计算机视觉领域问题中的基础特征提取网络。

本发明专利中涉及的ResNet-50和ResNet-152指的是不同深度的ResNet网络，如“ResNet-50”中的“50”指模型包含50个带权的卷积层。如图6描述了ResNet多个版本的具体结构。

ResNet中有两种残差模块：basic residual block和bottleneck residual block，其结构如图7所示：

图7左边为basic residual block，对应图3中的卷积子网络

图7右边为bottleneck residual block，对应图3中的卷积子网络

在ResNet-18、ResNet-34中，使用的是左边的basic residual block。在ResNet-50、ResNet-101、ResNet-152中使用的是右边的bottleneck residual block。ResNet就是用这些残差模块堆叠出的深层卷积神经网络。对于残差模块中的短路连接，当输入和输出的维度一致时，可以使用恒等映射，即直接将输入加到输出上。当输入和输出的维度不一致时则不能直接相加，一般利用1x1的卷积对输入进行升维操作，使其与残差的维度相同。

ResNet-50提取图片特征的步骤如图8所示。

将尺寸为3×224×224的新闻配图输入预训练的ResNet-50模型，输出一个2048维的向量，即为图像的特征向量。

步骤1.3.4)剩下的数据通过人工补标注的形式进行判定；

步骤2)，建立用于图文匹配的多级视觉-文本语义对齐模型MSAVT(Multi-Level Semantic Alignments for Visual and Text)；

本发明提出了多级视觉-文本语义对齐MSAVT模型(Multi-Level Semantic Alignments for Visual and Text)，用于新闻事件的图文跨模态检索。图9为本发明提出的多级视觉-文本语义对齐模型MSAVT模型的结构示意图；结合图9说明MSAVT的建立与应用具体如下：

针对现有跨模态图文检索模型对齐精度不足，即评估指标尚有较大提升空间这一问题，我们对以VSE++0为代表的经典模型做出改进，提出用于图文匹配的多级视觉-文本语义对齐模型MSAVT(Multi-level Semantic Alignments for Visual and Text)。主要做了两方面的改进，一是提出同时建立模态内约束和模态间约束的聚类损失，二是在现有模型中加入单词检测模块，提出了一个单词检测损失函数以关注单词层面的对齐。最后，我们还引入预训练的BERT模型对文本建模，提高了模型的泛化性能。下面介绍改进后的具体实施步骤。

步骤2.1)利用深度神经网络模型提取图像特征与文本特征；

对于图像特征，输入大小为224×224的原始图像I，采用随机裁剪和水平翻转等多种数据增强方法后，输入ResNet-152模型，得到一个长度为2048维的向量，作为图像输入的视觉描述符υ(I)，如公式2-1所示。

υ(I)＝f _img(I)#(2-1)

视觉描述符υ(I)在步骤2.4)中用于计算单词检测损失。

对于文本特征，将图像对应的新闻标题文本输入BERT-base模型，BERT模型可以自动对文本分词。由于BERT模型对中文是按字切分的，模型输出每个字的字向量。将一个句子的所有字向量加起来求平均值，即得到这个句子的文本特征，为一个长度为768维的向量。

对于图像特征向量，将其输入嵌入模块(一个双层的前馈神经网络)映射到1024维的嵌入空间中。对于文本特征向量，将BERT模型输出的768维的句向量，再输入一个门控循环神经网络GRU，将其映射到1024维的嵌入空间中。至此，图像特征和文本特征就映射到了一个联合嵌入空间中，可以用余弦相似度等指标度量向量的相似性。

在新闻图文数据集中，许多图像-文本对都属于一个事件。而传统的排序损失(Ranking Loss)只考虑图像和文本之间应满足的距离约束忽略了图像与图像、文本与文本之间的距离约束关系。我们从聚类的角度同时建立模态间和模态内的关系，将一个新闻事件的配图及其相关新闻的标题划分为同一个集群。假设数据集有K个集群且每个集群内包含N个样本对。给定集群k中的对象i，我们可计算集群内距离。

方差σ的定义为公式2-4所示：

集群之间的距离

可通过公式2-5计算得到：

通过最小化集群内距离和最大化集群间距离，我们得到聚类损失L _cluster定义为公式2-6所示：

聚类损失使得集群内的样本距离更近，在学习到的联合嵌入空间中，同一新闻事件的距离会更小，而不同新闻事件之间的距离会更大。与单纯的排序损失相比，聚类损失从聚类视图中构建约束。它优化了所选聚类中的所有样本而不是一次迭代中的一个图像-文本对，所以它比排序损失收敛地更快且效果更好。

目前跨模态图文检索任务多采用公共空间特征学习方法，模型框架主要包括两部分，首先通过深度神经网络对图像和文本分别进行特征提取，然后借助度量学习的方法即设计损失函数来学习得到有效的公共表示空间。尽管这类方法取得了显著的成果，仍存在图文对齐精度不足的问题。相对于传统的排序损失函数，聚类损失有助于让一个新闻事件的相关样本距离更近，单词检测模块有助于关注图像与文本在单词层面的细粒度的对齐。

步骤2.4)针对图像特征，加入单词检测模块损失以关注单词层面的对齐；

由于排序损失只在全局表示层面进行了约束，其很难指导参数量庞大的ResNet-152的参数更新的方向。在实际实验中，只使用排序损失时模型参数较难收敛。对此，我们设计了单词检测模块，在粗粒度的句子对齐的基础上增加了细粒度的单词对齐，单词检测模块设计思路如图10所示。

单词检测损失用于评估一个新闻图文对中，图像是否包含其标题文本中含有的高频词。根据本文所使用的数据集设置属性字典，属性字典由多模态数据集中文本数据的1000个高频词组成。具体来说，在多模态数据集上训练模型时，给定一个图像及其相应的标题，检查top1k单词集中的单词。对于每个属性词，使用简单的二分类器来确定图像是否包含它。通过添加单词检测模块，我们给每个图像增加了对应的1000个标签。与原来只使用排序损失的单任务相比，我们添加了1000个严格的约束任务，从而可以有效地避免模型陷入局部最优解，更好地指导ResNet-152的参数收敛方向。属性字典设置的具体做法如下。

s＝Wυ#(2-7)

其中，数据集的训练整体步骤如下：

步骤2.5)提出的聚类损失和单词检测损失可作为现有技术一中排序损失的补充，旨在提升网络收敛效率和图文匹配准确率。最终得到的整体损失函数如2-9所示：

L＝L _Ranking+λ ₁L _cluster+λ ₂L _word#(2-9)

步骤3)，实现新闻事件跨模态图文搜索系统

如图11所示，以MSAVT模型为算法核心，运用Vue、SpringBoot等前后端编程技术设计并实现了一个新闻事件跨模态图文搜索系统，有效利用了新闻报道中标题文本和配图这两种不同模态数据的关系，实现了比单模态检索系统更为丰富的检索结果。

图文互搜功能是本发明所设计并实现的系统的核心功能，是系统为用户的提供的主要价值所在，主要包括以图搜文和以文搜图两个主要实现子模块。以图搜文这一功能中，用户上传新闻图片作为检索，系统将其输入训练好的MSAVT模型进行前向传播，计算其在联合嵌入空间中的欧氏坐标，并返回距离其最近的N条新闻标题文本数据，从而实现了以图搜文这一功能。同理，以文搜图的实现过程相似，区别是输入和返回的模态与之相反。

本发明关键点：

第一，自主构建了多模态新闻图文数据集用于训练模型；

第二，使用了预训练的BERT模型提升提取文本特征能力；

第三，提出同时建立模态内约束和模态间约束的聚类损失，改进损失函数。

第四，提取图像特征时增加单词检测模块以关注图像与文本在单词层面的对齐。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

一种基于多级图文语义对齐模型的新闻事件搜索方法，其特征在于，包括以下步骤：

步骤1)，构建多模态新闻图文数据集；

步骤1.1)新闻事件选取；

在对新闻事件进行整理和归纳之后，得到事件名称；

步骤1.2)新闻数据获取

使用步骤1.1)中得到的事件名称为检索词，搜索得到的与之匹配的新闻报道数据，提取每一则新闻报道的配图和标题文本对作为该新闻事件的一条样例数据；

步骤1.3)数据标注；

通过算法对所得多模态新闻图文数据集进行预处理，完成多模态新闻图文数据集的算法初筛工作；

步骤2)，建立并训练用于图文匹配的多级视觉-文本语义对齐模型MSAVT；

步骤2.1)利用深度神经网络模型提取图像特征与文本特征；

步骤2.2)将提取的文本特征和图像特征映射到图像语义和文本语义的联合嵌入空间；

步骤2.3)针对提出同时建立模态内约束和模态间约束的聚类损失；

步骤2.4)针对图像特征，加入单词检测损失以关注单词层面的对齐；

步骤2.5)聚类损失和单词检测损失作为排序损失的补充，得到最终的整体损失函数，完成所述MSAVT模型的训练；

步骤3)，利用训练好的MSAVT模型实现新闻事件跨模态图文搜索；

采用以图搜文或以文搜图的方式，实现新闻事件跨模态图文搜索。
根据权利要求1所述的基于多级图文语义对齐模型的新闻事件搜索方法，其特征在于，

所述的步骤1.3)数据标注中，所述的算法初筛具体步骤包括：

步骤1.3.1)使用预训练的RoBERTa模型提取文本特征和预训练的ResNet50模型提取图片特征；

步骤1.3.2)每个事件视作一个类，通过文本和图片特征取平均值的方式计算出该类的文本中心和图片中心；

步骤1.3.3)认定图像特征或文本特征距离其中心最近的20％的数据是高置信度的可靠数据，取它们的并集予以保留；

步骤1.3.4)其余数据通过人工补标注的形式进行判定。
根据权利要求1所述的基于多级图文语义对齐模型的新闻事件搜索方法，其特征在于，

所述的步骤2.3)中的聚类损失为：

假设数据集有K个集群且每个集群内包含N个样本对，给定集群k中的对象i，计算集群内距离为公式(2-2)，

其中，r _ik为集群k中的对象i的向量表示，μ _k为第k个集群的中心，其定义为公示2-3所示：

方差σ的定义为公式2-4所示：

集群之间的距离可通过公式2-5计算得到：

通过最小化集群内距离和最大化集群间距离，我们得到聚类损失定义为公式2-6：
根据权利要求1所述的基于多级图文语义对齐模型的新闻事件搜索方法，其特征在于，

所述的步骤2.4)中，单词检测损失用于评估一个新闻图文对中，图像是否包含其标题文本中含有的高频词。根据所使用的数据集设置属性字典，属性字典由多模态数据集中文本数据的1000个高频词组成，单词检测损失的的具体计算步骤为：

步骤2.4.I)使用权重矩阵W乘上图像描述符υ获得top1k单词集中每个单词出现的概率分数s，其定义如公式2-7所示：

s＝Wυ#(2-7)

步骤2.4.II)提前计算每个新闻图文对中标题文本中含有高频词作为分类问题的标签，利用1000个二进制分类器计算单词检测损失L _word，如公式2-8所示：

其中，s _i表示第i个单词的概率分数，t _i∈{0，1}代表第i个单词是否出现在标题文本中。
根据权利要求4所述的基于多级图文语义对齐模型的新闻事件搜索方法，其特征在于，

所述的模型的训练整体步骤如下：

步骤2.4.1)使用预训练的ResNet-152模型，固定其权重作为图像特征编码器；

步骤2.4.2)根据整体损失函数，使用BP算法来更新模型除ResNet-152以外部分的参数；

步骤2.4.3)以上训练进行40轮，初始学习率为0.001，每20个epoch减少10倍；

步骤2.4.4)不再固定ResNet-152的权重，在50轮训练中端到端地微调整个架构。初始学习率为0.00001，每20个epoch下降10次。在整个训练过程中，权重λ ₁固定为1，λ ₂固定为0.1。
根据权利要求1所述的基于多级图文语义对齐模型的新闻事件搜索方法，其特征在于，

所述的步骤3)中，

所述的以图搜文为用户上传新闻图片作为检索词，系统将其输入训练好的MSAVT模型进行前向传播，计算其在联合嵌入空间中的欧氏坐标，并返回距离其最近的N条新闻标题文本数据，从而实现了以图搜文；

所述的以文搜图中为用户上传新闻标题文本作为检索词，系统将其输入训练好的MSAVT模型进行前向传播，计算其在联合嵌入空间中的欧氏坐标，并返回距离其最近的N条新闻图片数据，从而实现了以文搜图。
一种如权利要1-6中的任一项权利要求所述的基于多级图文语义对齐模型的新闻事件搜索方法的新闻事件搜索，其特征在于，采用图文匹配的多级视觉-文本语义对齐模型MSAVT模型为算法核心，运用前后端编程技术设计并实现一个新闻事件跨模态图文搜索系统，利用新闻报道中标题文本和配图两种不同模态数据的关系，实现检索结果。