CN117521012A

CN117521012A - 基于多模态上下文分层分步对齐的虚假信息检测方法

Info

Publication number: CN117521012A
Application number: CN202311569509.3A
Authority: CN
Inventors: 潘祯祥; 毛莺池; 熊力; 陈秉睿; 曹一凡; 戚荣志; 禹跃美; 贾璐瑶; 祖立辉; 吴波
Original assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-06

Abstract

本发明公开一种基于多模态上下文分层分步对齐的虚假信息检测方法和系统，获取社交媒体博文中的图像和文本；建立具有双向交叉模态注意的局部对齐模块，推断片段级别的匹配关系；建立全局上下文融合实体特征提取模块，利用多头自注意力机制帮助局部对象学习更多上下文语义，增强图像和文本特征的上下文表示；设计自适应权重过滤模块以进行图像‑文本实体特征对齐，根据两个模态增强特征的相似性，整合所有加权特征实现全局匹配，抑制整体语义偏差；将这两个不同级别融合实体特征的整体相似度输入二值分类器中，得出虚假信息检测的结果。本发明通过整合上下文信息，可保留文本和图像完整的语义信息，提高虚假信息检测的准确率。

Description

基于多模态上下文分层分步对齐的虚假信息检测方法

技术领域

本发明涉及一种基于多模态上下文分层分步对齐的虚假信息检测方法和系统，具体是一种检测社交媒体博文中图像和文本信息的匹配性，属于假新闻检测技术领域。

背景技术

随着社交媒体的日益重要，许多博主采取夸大其词的方式来增加其博文的传播性。然而，这种类型的博文往往充满了误导性的信息。现有技术通过使用各种算法，例如关键字检测、用户行为分析以及机器学习模型等方法来检测社交媒体中的虚假信息，但这些方法存在一定缺陷。首先，关键字检测方法可能因语境不同而产生误报或漏报；用户行为分析受限于数据获取，并且易受到隐私保护政策的限制；机器学习模型虽然在近年被证明是有效的方法，但传统机器学习方法往往不能很好地处理图像与文本信息之间的细微不一致性，这导致其在检测细粒度的欺骗性信息方面的能力有限。

例如，PHEME数据集中的一个例子，展示了一种扭曲事实信息的社交媒体博文。在该例中，图像展示了一个“抱着孩子的女人”的场景，而伴随的文本描述为“这个女人已经生了14个孩子”。可以发现这两种不同形态的信息在表述相同的主题“孩子”时存在显著的不一致性，进一步，从夸大的文本描述中，可以推断出这条博文中包含了虚假信息。因此，执行精细的图像-文本上下文匹配工作是至关重要的，这样可以确保正确的信息对齐，并因此提升识别虚假信息的精度。

发明内容

发明目的：针对现有细粒度匹配方法中存在的因文本中某些信息词汇不能严格对应于图像中的某个区域而忽略上下文信息和匹配网络过度强调细粒度对齐会被对图像的整体理解误导而忽略上下文的对齐两个问题，本发明提供了一种基于多模态上下文分层分步对齐的虚假信息检测方法和系统。首先分别独立提取社交媒体博文中图像和文本特征，图像区域特征由基于ResNet-101的Faster R-CNN网络提取，文本词汇特征由Bi-GRU网络提取。其次为了严格对应图像区域和文本词汇，利用双向交叉注意机制计算图像区域和文本区域的相似度，得到视觉区域和文本词汇之间的局部片段级匹配结果。然后为了避免匹配网络过度强调细粒度而忽略上下文的对齐，利用多头自注意力机制结合上下文信息增强图像和文本的基本特征，得到图像和文本的增强特征，通过自适应权重过滤模块，获得图像和文本的全局上下文匹配结果。最后使用带有softmax函数的全连接层，将局部和全局两个阶段的结果向量加和后分类为真实信息或虚假信息两个结果。

技术方案：一种基于多模态上下文分层分步对齐的虚假信息检测方法，包括如下步骤：

(1)图像、文本基本特征提取，利用目标检测模型和语言表征模型分别提取社交媒体博文中图像和文本的特征，分别得到视觉区域和文本词汇的基本特征向量；

(2)图像、文本加权特征提取，对于步骤(1)中提取到的图像、文本基本特征向量，利用双向交叉注意力机制对齐不同模态中的同一片段，然后以文本词汇作为基准，得到描述所述词汇的图像区域基本特征向量加权和，作为所述词汇的加权特征向量；同理，以图像区域作为基准，得到描述所述区域的文本词汇基本特征向量加权和，作为所述区域的加权特征向量；

(3)图像-文本特征局部匹配，对于步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量，利用相似度匹配，得到局部片段级匹配结果；

(4)图像、文本增强特征提取，对于步骤(1)中提取到的图像、文本基本特征向量，利用多头自注意力机制探索特征之间的上下文关系，分别得到融合了上下文信息的图像、文本增强特征向量；

(5)图像-文本增强特征匹配，对于步骤(4)中提取到的图像、文本增强特征，利用自适应权重过滤模块，得到全局相关性匹配结果；

(6)社交媒体博文检测，将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局相关性匹配结果输入到二值分类器中，利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间，并得到社交媒体博文的检测结果。

所述(1)中，定义一张图像X和一段文本Y，首先使用基于Resnet-101的Faster R-CNN提取图像区域基本特征，然后利用Bi-GRU网络提取文本词汇基本特征。

进一步的，所述(1)中，图像区域特征和文本词汇特征提取的具体步骤如下：

(1.1)图像区域基本特征提取：对于一张图像X，选取Faster R-CNN提取图像区域特征，并根据所述图像区域的得分选取前m个区域来代表X。然后采用预训练的ResNet-101为每个图像区域提取一个特征向量f_i，i∈[1,m]。最后利用全连接层将转换为1024维特征向量，最终将特征向量表示为一组区域特征{x₁,x₂,...,x_m}作为图像区域基本特征，X∈R^d ^×m。如式(1)所示：

x_i＝W_xf_i+b_x (1)

(1.2)文本词汇基本特征提取：对于一句文本Y，首先将每个词汇编码成one-hot向量g_t，t∈[1,n]，并通过参数矩阵W_g和偏置向量b_g嵌入到300维向量o_t中，如式(2)所示：

o_t＝W_gg_t+b_g (2)

接下来，使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中，然后通过平均得到最终的单词特征y_t作为文本词汇基本特征，如式(3)所示：

所述(2)中，将步骤(1.1)中提取到的图像区域基本特征向量和步骤(1.2)中提取到的文本词汇基本特征向量利用双向交叉注意力机制获得图像区域和文本词汇的多模态加权特征向量。

进一步的，所述(2)中，提取图像区域和文本词汇的加权特征向量具体步骤如下：

(2.1)计算图像区域和文本词汇的相似度矩阵：如式(4)所示：

A＝(W_xX)(W_yY)^T (4)

其中W_x和W_y是可学习的参数，X＝{x₁,x₂,...,x_m}和Y＝{y₁,y₂,...,y_n}分别为步骤(1.1)和步骤(1.2)中提取的图像区域基本特征和文本词汇基本特征，A∈R^m×n是图像区域-文本词汇的相似度矩阵，A_it表示第i个区域和第t个词汇的语义相似度。

(2.2)图像区域加权特征提取：将某个图像区域作为基准，为n个词汇分配权重，然后通过对所述n个词汇进行加权组合得到一个基于图像区域x_i的文本词汇特征y_i ^*，其过程如式(5)所示：

其中λ为softmax函数的温度参数。

(2.3)文本词汇加权特征提取：类似地，将某个文本词汇作为基准，获得一个基于文本词汇y_t对应的图像区域特征x_t ^*，其过程如式(6)所示：

所述(3)中，将步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量进行片段级匹配，并在此基础上得到对于完整图像和完整文本的片段级匹配分数。

进一步的，所述(3)中，计算片段级相似度具体步骤如下：

(3.1)计算图像区域相关的片段级匹配分数：对于图像区域x_i和(2.2)中提取的该区域对应文本词汇特征y_i ^*，计算得到相似度如式(7)所示：

(3.2)计算文本词汇相关的片段级匹配分数：类似地，对于文本词汇y_t和(2.3)中提取的该词汇对应图像区域特征x_t ^*，计算得到相似度如式(8)所示：

(3.3)计算完整图像和完整文本的片段级匹配分数S_segment(X,Y)，如式(9)所示：

其中η是一个超参数，用于平衡区域相关的片段级匹配分数S_x(x_i,y_i ^*)和词汇相关的片段级匹配分数S_y(y_t,x_t ^*)的贡献。

所述(4)中，将步骤(1)中提取到的图像、文本基本特征向量，利用多头自注意力机制探索特征之间的上下文关系，获取融合了上下文信息的图像、文本增强特征向量，具体步骤如下：

(4.1)图像增强特征提取：对于一幅图像X在步骤(1.1)提取一组区域特征X＝{x₁,x₂,...,x_m}，利用多头自注意力机制来探索区域特征之间的上下文关系。具体来说，首先定义查询Q_X、键K_X和值Val_X，如式(10)所示：

Q_X＝XW^Q,K_X＝XW^K,Val_X＝XW^Val (10)

其中W^Q,W^K,W^Val是可学习的特征映射矩阵。进一步地，通过式(11)计算值Val_X的加权和：

其中d_k是比例因子。权重矩阵Q_XK_X ^T是一个方阵，它通过内积层编码每个视觉特征与所有其他特征的关系。然后将不同对象之间的关系用式(12)进行编码：

其中j代表第j个头，中的W代表一个可学习的特征映射矩阵，上标Q_X表示这个矩阵是针对图像查询的，其中Q表示查询，x表示针对图像，下标j表示第j个头。因此，/>指的是在多头注意力机制中，专门用于处理图像输入在第j个头上的查询权重矩阵。类似的，和/>分别表示专门用于处理图像输入在第j个头上的键权重矩阵和值权重矩阵。

最后，第个i原始视觉区域特征x_i通过全局对象和局部引导对象结合的方式被转化为增强后的特征x_ip，如式(13)所示：

其中W_p是可学习权重矩阵，h为head的数量。那么对于图像来说，基于区域特征的集合X＝{x₁,x₂,...,x_m}的增强特征就可以表示为X_{reinforcement}＝{x_1p,x_2p,...,x_mp}。

(4.2)文本增强特征提取：类似地，对于一段文本Y在步骤(1.2)提取的文本特征Y＝{y₁,y₂,...,y_n}，执行步骤(4.1)中相同的过程，得到文本增强特征Y_{reinforcement}＝{y_1p,y_2p,...,y_np}。

(4.3)加权增强特征提取：同样地，对于步骤(2)中提取的加权后的文本特征X^*＝{x₁ ^*,x₂ ^*,...,x_n ^*}和图像特征Y^*＝{y₁ ^*,y₂ ^*,...,y_m ^*}进行步骤(4.1)中相同的处理，获得增强之后的加权特征，分别表示为X_{reinforcement} ^*＝{x_1p ^*,x_2p ^*,...,x_np ^*}，Y_{reinforcement} ^*＝{y_1p ^*,y_2p ^*,...,y_mp ^*}。

所述(5)中，将步骤(4)中提取到的图像、文本增强特征，利用自适应权重过滤模块，得到全局相关性匹配结果，具体步骤如下：

(5.1)计算图像到文本方向全局匹配得分：将步骤(4)获取的增强基本特征对(X_{reinforcement},Y_{reinforcement})和增强加权特征对(Y_{reinforcement} ^*,X_{reinforcement} ^*)作为输入，通过加权融合区域特征来生成全局语义，然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分s_x→y，如式(14)所示：

其中w_x＝cos(x_lp,y_lp ^*)为自适应权重，表示增强基本特征x_lp和增强加权特征y_lp ^*的重要性。

(5.2)计算文本到图像方向全局匹配得分：类似地，将增强基本特征对(X_{reinforcement},Y_{reinforcement})和增强加权特征对(Y_{reinforcement} ^*,X_{reinforcement} ^*)作为输入，通过加权融合区域特征来生成全局语义，然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分s_y→x，如式(15)所示：

与(5.1)类似，w_y＝cos(y_lp,x_lp ^*)为自适应权重，表示增强基本特征y_lp和增强加权特征x_lp ^*的重要性。

(5.3)计算完整图像和完整文本的全局匹配分数S_global(X,Y)，如式(16)所示：

S_global(X,Y)＝s_x→y+s_y→x (16)

所述(6)中，将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局匹配结果输入到二值分类器中，利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间，并得到社交媒体博文的检测结果，具体步骤如下：

(6.1)在获得局部区域-词汇匹配结果和全局匹配结果之后，利用一个带有softmax函数的全连接层将S_segment(X,Y)和S_global(X,Y)投射到只有两个类别(real或fake)的目标空间中，并得到其概率分布，如式(17)所示：

其中p＝[p₀,p₁]表示预测概率向量，p₀和p₁分别表示预测结果为0(real)和1(fake)的概率。W是权重矩阵，b是偏差项。

(6.2)对于每一篇博文，目标是最小化二进制交叉熵损失函数，以区分博文是真实信息还是虚假信息。损失函数如式(18)所示：

L_p＝-[ylnp₀+(1-y)lnp₁] (18)

其中y∈{0,1}是每篇博文的真实性标签，y＝0表示博文为真实信息，而y＝1则表示博文包含虚假信息。

一种基于多模态上下文分层分步对齐的虚假信息检测系统，包括图像区域特征提取、文本词汇特征提取、局部对齐模块、全局上下文对齐模块、社交媒体博文检测五个模块；

所述图像区域特征提取模块，首先使用Faster R-CNN检测显著区域，然后采用预训练的ResNet-101为每个图像区域提取一个特征向量，最后利用全连接层将其转换为特征向量，得到图像区域特征向量；

所述文本词汇特征提取模块，首先将每个词汇编码成one-hot向量，并通过参数矩阵和偏置向量嵌入到向量o_t中，然后使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中，得到文本词汇特征向量。

所述局部对齐模块，首先通过双向交叉注意力机制，获取片段级跨模态加权特征向量，然后计算得到与区域相关的片段级匹配分数和与词汇相关的片段级匹配分数，最后将所有基于区域的片段级匹配分数和基于词汇的片段级匹配分数取平均值，得到完整图像和文本的最终片段级匹配分数。

所述全局上下文对齐模块，首先使用多头自注意力机制来获取片段级特征之间的上下文关系，并获得融合了上下文信息的增强特征向量，然后分别计算图像到文本和文本到图像两个方向的全局匹配得分，最后将上述两个方向的全局匹配得分之和作为完整图像和文本的全局匹配分数。

所述社交媒体博文检测模块，将图像-文本之间的片段级相似度和全局相似度输入到带有softmax函数的全连接层中，得到社交媒体博文是真实信息或虚假信息的检测结果。

所述系统的实现过程与方法实现过程相同，不再赘述。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于多模态上下文分层分步对齐的虚假信息检测方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于多模态上下文分层分步对齐的虚假信息检测方法的计算机程序。

有益效果：针对利用夸张手法虚构事件的虚假信息中，模型建模多模态细粒度对应关系时忽略上下文信息的重要性和模型无法捕捉不同模态上下文的对齐问题。本发明采用两阶段策略检测虚假信息。第一阶段建立具有双向交叉模态注意的局部对齐模块，通过相加不同方向的区域-词汇相似度来推断片段级匹配关系。第二阶段建立全局上下文对齐模块，利用多头自注意力机制帮助局部对象学习更多上下文语义，增强视觉和文本的上下文表示，然后通过自适应权重过滤模块，根据两个模态增强特征的相似性，通过集成所有加权特征来实现全局匹配，抑制整体语义偏差。最后，将这两个不同级别的结果向量集成到一个带有softmax函数的全连接层的分类器中，将博文分类为真实信息或虚假信息两个结果。本发明的方法得到的虚假信息检测模型能够有效获得准确检测结果。

附图说明

图1为本发明实施例的方法框架图；

图2为本发明实施例的双向交叉注意力机制流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的基于多模态上下文分层分步对齐的虚假信息检测方法，具体包含以下步骤：

(1)图像、文本基本特征提取：定义一张图像X和一段文本Y，首先使用基于Resnet-101的Faster R-CNN提取图像区域基本特征，然后利用Bi-GRU网络提取文本词汇基本特征。图像区域特征和文本词汇特征提取的具体步骤如下：

(1.1)图像区域基本特征提取：对于一张图像X，选取Faster R-CNN提取图像区域特征，并根据它们的得分选取前m个区域来代表X。然后采用预训练的ResNet-101为每个图像区域提取一个特征向量f_i，i∈[1,m]。最后利用全连接层将转换为1024维特征向量，最终将其表示为一组区域特征{x₁,x₂,...,x_m}，X∈R^d×m。如式(1)所示：

x_i＝W_xf_i+b_x (1)

o_t＝W_gg_t+b_g (2)

接下来，使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中，然后通过平均得到最终的单词特征y_t，如式(3)所示：

(2)图像、文本加权特征提取：将步骤(1.1)中提取到的图像区域基本特征向量和步骤(1.2)中提取到的文本词汇基本特征向量利用双向交叉注意力机制获得图像区域和文本词汇的多模态加权特征向量，其中双向交叉注意力机制如图2所示。提取图像区域和文本词汇的加权特征向量具体步骤如下：

(2.1)计算图像区域和文本词汇的相似度矩阵：如式(4)所示：

A＝(W_xX)(W_yY)^T (4)

其中W_x和W_y是可学习的参数，A∈R^m×n是图像区域-文本词汇的相似度矩阵，A_it表示第i个区域和第t个词汇的语义相似度。

(2.2)图像区域加权特征提取：将某个图像区域作为基准，为n个词汇分配权重，然后通过对这n个词汇进行加权组合得到一个基于图像区域x_i的文本词汇特征y_i ^*，其过程如式(5)所示：

其中λ为softmax函数的温度参数。

(3)图像-文本特征局部匹配：将步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量进行片段级匹配，并在此基础上得到对于完整图像和完整文本的片段级匹配分数。计算片段级相似度具体步骤如下：

(4)图像、文本增强特征提取：将步骤(1)中提取到的图像、文本基本特征向量，利用多头自注意力机制探索特征之间的上下文关系，获取融合了上下文信息的图像、文本增强特征向量，具体步骤如下：

Q_X＝XW^Q,K_X＝XW^K,Val_X＝XW^Val (10)

其中j代表第j个头。最后，第个i原始视觉区域特征x_i通过全局对象和局部引导对象结合的方式被转化为增强后的特征，如x_ip式(13)所示：

x_ip＝Concat(R₁+R₂+...+R_h)W_p+x_i (13)

(4.2)文本增强特征提取：类似地，对于一段文本Y在步骤(1.2)提取的文本特征，Y＝{y₁,y₂,...,y_n}执行步骤(4.1)中相同的过程，得到文本增强特征Y_{reinforcement}＝{y_1p,y_2p,...,y_np}。

(5)图像-文本增强特征匹配：将步骤(4)中提取到的图像、文本增强特征，利用自适应权重过滤模块，得到全局相关性匹配结果，具体步骤如下：

S_global(X,Y)＝s_x→y+s_y→x (16)

(6)社交媒体博文检测：将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局匹配结果输入到二值分类器中，利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间，并得到社交媒体博文的检测结果，具体步骤如下：

(6.2)对于每一篇博文，目标是最小化二进制交叉熵损失函数，如式(18)所示：

L_p＝-[ylogp₀+(1-y)logp₁] (18)

其中y∈{0,1}表示真值。

图像区域特征提取模块，首先使用Faster R-CNN检测显著区域，然后采用预训练的ResNet-101为每个图像区域提取一个特征向量，最后利用全连接层将其转换为1024维特征向量，得到图像区域特征向量；

文本词汇特征提取模块，首先将每个词汇编码成one-hot向量，并通过参数矩阵和偏置向量嵌入到300维向量中，然后使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中，得到文本词汇特征向量。

局部对齐模块，首先通过双向交叉注意力机制，获取片段级跨模态加权特征向量，然后计算得到与区域相关的片段级匹配分数和与词汇相关的片段级匹配分数，最后将所有基于区域的片段级匹配分数和基于词汇的片段级匹配分数取平均值，得到完整图像和文本的最终片段级匹配分数。

全局上下文对齐模块，首先使用多头自注意力机制来获取片段级特征之间的上下文关系，并获得融合了上下文信息的增强特征向量，然后分别计算图像到文本和文本到图像两个方向的全局匹配得分，最后将上述两个方向的全局匹配得分之和作为完整图像和文本的全局匹配分数。

社交媒体博文检测模块，将图像-文本之间的片段级相似度和全局相似度输入到带有softmax函数的全连接层中，得到社交媒体博文是真实信息或虚假信息的检测结果。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于多模态上下文分层分步对齐的虚假信息检测方法各步骤或基于多模态上下文分层分步对齐的虚假信息检测系统各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

参数的设置和实验评价标准如下：

A参数设置：

以下为几个影响本模型的参数：迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、可学习的线性投影函数隐藏层参数η。

表1模型训练参数设置

B评价指标：

所涉及的评价指标为现有方法统一使用的指标组合，包括：Accuracy、Precision、Recall和F1-Score。

根据以上实施例可知，针对利用夸张手法虚构事件的虚假信息中，模型建模多模态细粒度对应关系时忽略上下文信息的重要性和模型无法捕捉不同模态上下文的对齐问题，本发明

提出一种两步检测策略。本发明使用局部对齐模块学习多模态之间的互补性信息，能够处理文本中某些信息不能严格对应图像区域的问题。本发明使用全局上下文对齐模块实现图像-文本的全局匹配，能够解决匹配网络被图像语义误导而忽略上下文对齐的问题，提高虚假信息检测的准确率。

Claims

1.一种基于多模态上下文分层分步对齐的虚假信息检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法，其特征在于，所述(1)中，定义一张图像X和一段文本Y，首先使用基于Resnet-101的Faster R-CNN提取图像区域基本特征，然后利用Bi-GRU网络提取文本词汇基本特征；

图像区域特征和文本词汇特征提取的具体步骤如下：

(1.1)图像区域基本特征提取：对于一张图像X，选取Faster R-CNN提取图像区域特征，并根据所述图像区域的得分选取前m个区域来代表X；然后采用预训练的ResNet-101为每个图像区域提取一个特征向量f_i，i∈[1,m]；最后利用全连接层将转换为1024维特征向量，最终将特征向量表示为一组区域特征{x₁,x₂,...,x_m}作为图像区域基本特征，X∈R^d×m，如式(1)所示：

x_i＝W_xf_i+b_x (1)

o_t＝W_gg_t+b_g (2)

3.根据权利要求2所述的基于多模态上下文分层分步对齐的虚假信息检测方法，其特征在于，所述(2)中，将图像区域基本特征向量和文本词汇基本特征向量利用双向交叉注意力机制获得图像区域和文本词汇的多模态加权特征向量；

提取图像区域和文本词汇的加权特征向量具体步骤如下：

(2.1)计算图像区域和文本词汇的相似度矩阵：如式(4)所示：

A＝(W_xX)(W_yY)^T (4)

其中W_x和W_y是可学习的参数，X＝{x₁,x₂,...,x_m}和Y＝{y₁,y₂,...,y_n}分别为步骤(1.1)和步骤(1.2)中提取的图像区域基本特征和文本词汇基本特征，A∈R^m×n是图像区域-文本词汇的相似度矩阵，A_it表示第i个区域和第t个词汇的语义相似度；

其中λ为softmax函数的温度参数；

4.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法，其特征在于，所述(3)中，将步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量进行片段级匹配，并在此基础上得到对于完整图像和完整文本的片段级匹配分数；

计算片段级相似度具体步骤如下：

(3.1)计算图像区域相关的片段级匹配分数：对于图像区域x_i和该区域对应文本词汇特征y_i ^*，计算得到相似度如式(7)所示：

(3.2)计算文本词汇相关的片段级匹配分数：对于文本词汇y_t和该词汇对应图像区域特征x_t ^*，计算得到相似度如式(8)所示：

其中η是一个超参数，用于平衡区域相关的片段级匹配分数和词汇相关的片段级匹配分数/>的贡献。

5.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法，其特征在于，所述(4)中，将步骤(1)中提取到的图像、文本基本特征向量，利用多头自注意力机制探索特征之间的上下文关系，获取融合了上下文信息的图像、文本增强特征向量，具体步骤如下：

(4.1)图像增强特征提取：对于一幅图像X的一组区域特征X＝{x₁,x₂,...,x_m}，利用多头自注意力机制来探索区域特征之间的上下文关系；首先定义查询Q_X、键K_X和值Val_X，如式(10)所示：

Q_X＝XW^Q,K_X＝XW^K,Val_X＝XW^Val (10)

其中W^Q,W^K,W^Val是可学习的特征映射矩阵；通过式(11)计算值Val_X的加权和：

其中d_k是比例因子，权重矩阵Q_XK_X ^T是一个方阵，它通过内积层编码每个视觉特征与所有其他特征的关系；然后将不同对象之间的关系用式(12)进行编码：

其中j代表第j个头，中的W代表一个可学习的特征映射矩阵，上标Q_X表示这个矩阵是针对图像查询的，其中Q表示查询，x表示针对图像，下标j表示第j个头；因此，/>指的是在多头注意力机制中，专门用于处理图像输入在第j个头上的查询权重矩阵；类似的，/>和/>分别表示专门用于处理图像输入在第j个头上的键权重矩阵和值权重矩阵。

其中W_p是可学习权重矩阵，h为head的数量；那么对于图像来说，基于区域特征的集合X＝{x₁,x₂,...,x_m}的增强特征就可以表示为X_{reinforcement}＝{x_1p,x_2p,...,x_mp}；

(4.2)文本增强特征提取：对于一段文本Y的文本特征Y＝{y₁,y₂,...,y_n}，执行步骤(4.1)中相同的过程，得到文本增强特征Y_{reinforcement}＝{y_1p,y_2p,...,y_np}；

(4.3)加权增强特征提取：对于步骤(2)中提取的加权后的文本特征X^*＝{x₁ ^*,x₂ ^*,...,x_n ^*}和图像特征Y^*＝{y₁ ^*,y₂ ^*,...,y_m ^*}进行步骤(4.1)中相同的处理，获得增强之后的加权特征，分别表示为X_{reinforcement} ^*＝{x_1p ^*,x_2p ^*,...,x_np ^*}，Y_{reinforcement} ^*＝{y_1p ^*,y_2p ^*,...,y_mp ^*}。

6.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法，其特征在于，所述(5)中，将步骤(4)中提取到的图像、文本增强特征，利用自适应权重过滤模块，得到全局相关性匹配结果，具体步骤如下：

其中w_x＝cos(x_lp,y_lp ^*)为自适应权重，表示增强基本特征x_lp和增强加权特征y_lp ^*的重要性；

(5.2)计算文本到图像方向全局匹配得分：将增强基本特征对(X_{reinforcement},Y_{reinforcement})和增强加权特征对(Y_{reinforcement} ^*,X_{reinforcement} ^*)作为输入，通过加权融合区域特征来生成全局语义，然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分s_y→x，如式(15)所示：

与(5.1)类似，w_y＝cos(y_lp,x_lp ^*)为自适应权重，表示增强基本特征y_lp和增强加权特征x_lp ^*的重要性；

S_global(X,Y)＝s_x→y+s_y→x (16)。

7.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法，其特征在于，所述(6)中，将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局匹配结果输入到二值分类器中，利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间，并得到社交媒体博文的检测结果，具体步骤如下：

(6.1)在获得局部区域-词汇匹配结果和全局匹配结果之后，利用一个带有softmax函数的全连接层将S_segment(X,Y)和S_global(X,Y)投射到只有real或fake两个类别的目标空间中，并得到其概率分布，如式(17)所示：

其中p＝[p₀,p₁]表示预测概率向量，p₀和p₁分别表示预测结果为0和1的概率，0表示real，1表示fake；W是权重矩阵，b是偏差项。

(6.2)对于每一篇博文，目标是最小化二进制交叉熵损失函数，以区分博文是真实信息还是虚假信息；损失函数如式(18)所示：

L_p＝-[ylnp₀+(1-y)lnp₁] (18)

8.一种基于多模态上下文分层分步对齐的虚假信息检测系统，其特征在于，包括图像区域特征提取、文本词汇特征提取、局部对齐模块、全局上下文对齐模块、社交媒体博文检测五个模块；

所述文本词汇特征提取模块，首先将每个词汇编码成one-hot向量，并通过参数矩阵和偏置向量嵌入到向量o_t中，然后使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中，得到文本词汇特征向量；

所述局部对齐模块，首先通过双向交叉注意力机制，获取片段级跨模态加权特征向量，然后计算得到与区域相关的片段级匹配分数和与词汇相关的片段级匹配分数，最后将所有基于区域的片段级匹配分数和基于词汇的片段级匹配分数取平均值，得到完整图像和文本的最终片段级匹配分数；

所述全局上下文对齐模块，首先使用多头自注意力机制来获取片段级特征之间的上下文关系，并获得融合了上下文信息的增强特征向量，然后分别计算图像到文本和文本到图像两个方向的全局匹配得分，最后将上述两个方向的全局匹配得分之和作为完整图像和文本的全局匹配分数；

9.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于多模态上下文分层分步对齐的虚假信息检测方法。

10.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于多模态上下文分层分步对齐的虚假信息检测方法的计算机程序。