Nothing Special   »   [go: up one dir, main page]

CN117521012A - 基于多模态上下文分层分步对齐的虚假信息检测方法 - Google Patents

基于多模态上下文分层分步对齐的虚假信息检测方法 Download PDF

Info

Publication number
CN117521012A
CN117521012A CN202311569509.3A CN202311569509A CN117521012A CN 117521012 A CN117521012 A CN 117521012A CN 202311569509 A CN202311569509 A CN 202311569509A CN 117521012 A CN117521012 A CN 117521012A
Authority
CN
China
Prior art keywords
text
image
feature
vocabulary
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311569509.3A
Other languages
English (en)
Inventor
潘祯祥
毛莺池
熊力
陈秉睿
曹一凡
戚荣志
禹跃美
贾璐瑶
祖立辉
吴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202311569509.3A priority Critical patent/CN117521012A/zh
Publication of CN117521012A publication Critical patent/CN117521012A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于多模态上下文分层分步对齐的虚假信息检测方法和系统,获取社交媒体博文中的图像和文本;建立具有双向交叉模态注意的局部对齐模块,推断片段级别的匹配关系;建立全局上下文融合实体特征提取模块,利用多头自注意力机制帮助局部对象学习更多上下文语义,增强图像和文本特征的上下文表示;设计自适应权重过滤模块以进行图像‑文本实体特征对齐,根据两个模态增强特征的相似性,整合所有加权特征实现全局匹配,抑制整体语义偏差;将这两个不同级别融合实体特征的整体相似度输入二值分类器中,得出虚假信息检测的结果。本发明通过整合上下文信息,可保留文本和图像完整的语义信息,提高虚假信息检测的准确率。

Description

基于多模态上下文分层分步对齐的虚假信息检测方法
技术领域
本发明涉及一种基于多模态上下文分层分步对齐的虚假信息检测方法和系统,具体是一种检测社交媒体博文中图像和文本信息的匹配性,属于假新闻检测技术领域。
背景技术
随着社交媒体的日益重要,许多博主采取夸大其词的方式来增加其博文的传播性。然而,这种类型的博文往往充满了误导性的信息。现有技术通过使用各种算法,例如关键字检测、用户行为分析以及机器学习模型等方法来检测社交媒体中的虚假信息,但这些方法存在一定缺陷。首先,关键字检测方法可能因语境不同而产生误报或漏报;用户行为分析受限于数据获取,并且易受到隐私保护政策的限制;机器学习模型虽然在近年被证明是有效的方法,但传统机器学习方法往往不能很好地处理图像与文本信息之间的细微不一致性,这导致其在检测细粒度的欺骗性信息方面的能力有限。
例如,PHEME数据集中的一个例子,展示了一种扭曲事实信息的社交媒体博文。在该例中,图像展示了一个“抱着孩子的女人”的场景,而伴随的文本描述为“这个女人已经生了14个孩子”。可以发现这两种不同形态的信息在表述相同的主题“孩子”时存在显著的不一致性,进一步,从夸大的文本描述中,可以推断出这条博文中包含了虚假信息。因此,执行精细的图像-文本上下文匹配工作是至关重要的,这样可以确保正确的信息对齐,并因此提升识别虚假信息的精度。
发明内容
发明目的:针对现有细粒度匹配方法中存在的因文本中某些信息词汇不能严格对应于图像中的某个区域而忽略上下文信息和匹配网络过度强调细粒度对齐会被对图像的整体理解误导而忽略上下文的对齐两个问题,本发明提供了一种基于多模态上下文分层分步对齐的虚假信息检测方法和系统。首先分别独立提取社交媒体博文中图像和文本特征,图像区域特征由基于ResNet-101的Faster R-CNN网络提取,文本词汇特征由Bi-GRU网络提取。其次为了严格对应图像区域和文本词汇,利用双向交叉注意机制计算图像区域和文本区域的相似度,得到视觉区域和文本词汇之间的局部片段级匹配结果。然后为了避免匹配网络过度强调细粒度而忽略上下文的对齐,利用多头自注意力机制结合上下文信息增强图像和文本的基本特征,得到图像和文本的增强特征,通过自适应权重过滤模块,获得图像和文本的全局上下文匹配结果。最后使用带有softmax函数的全连接层,将局部和全局两个阶段的结果向量加和后分类为真实信息或虚假信息两个结果。
技术方案:一种基于多模态上下文分层分步对齐的虚假信息检测方法,包括如下步骤:
(1)图像、文本基本特征提取,利用目标检测模型和语言表征模型分别提取社交媒体博文中图像和文本的特征,分别得到视觉区域和文本词汇的基本特征向量;
(2)图像、文本加权特征提取,对于步骤(1)中提取到的图像、文本基本特征向量,利用双向交叉注意力机制对齐不同模态中的同一片段,然后以文本词汇作为基准,得到描述所述词汇的图像区域基本特征向量加权和,作为所述词汇的加权特征向量;同理,以图像区域作为基准,得到描述所述区域的文本词汇基本特征向量加权和,作为所述区域的加权特征向量;
(3)图像-文本特征局部匹配,对于步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量,利用相似度匹配,得到局部片段级匹配结果;
(4)图像、文本增强特征提取,对于步骤(1)中提取到的图像、文本基本特征向量,利用多头自注意力机制探索特征之间的上下文关系,分别得到融合了上下文信息的图像、文本增强特征向量;
(5)图像-文本增强特征匹配,对于步骤(4)中提取到的图像、文本增强特征,利用自适应权重过滤模块,得到全局相关性匹配结果;
(6)社交媒体博文检测,将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局相关性匹配结果输入到二值分类器中,利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间,并得到社交媒体博文的检测结果。
所述(1)中,定义一张图像X和一段文本Y,首先使用基于Resnet-101的Faster R-CNN提取图像区域基本特征,然后利用Bi-GRU网络提取文本词汇基本特征。
进一步的,所述(1)中,图像区域特征和文本词汇特征提取的具体步骤如下:
(1.1)图像区域基本特征提取:对于一张图像X,选取Faster R-CNN提取图像区域特征,并根据所述图像区域的得分选取前m个区域来代表X。然后采用预训练的ResNet-101为每个图像区域提取一个特征向量fi,i∈[1,m]。最后利用全连接层将转换为1024维特征向量,最终将特征向量表示为一组区域特征{x1,x2,...,xm}作为图像区域基本特征,X∈Rd ×m。如式(1)所示:
xi=Wxfi+bx (1)
(1.2)文本词汇基本特征提取:对于一句文本Y,首先将每个词汇编码成one-hot向量gt,t∈[1,n],并通过参数矩阵Wg和偏置向量bg嵌入到300维向量ot中,如式(2)所示:
ot=Wggt+bg (2)
接下来,使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中,然后通过平均得到最终的单词特征yt作为文本词汇基本特征,如式(3)所示:
所述(2)中,将步骤(1.1)中提取到的图像区域基本特征向量和步骤(1.2)中提取到的文本词汇基本特征向量利用双向交叉注意力机制获得图像区域和文本词汇的多模态加权特征向量。
进一步的,所述(2)中,提取图像区域和文本词汇的加权特征向量具体步骤如下:
(2.1)计算图像区域和文本词汇的相似度矩阵:如式(4)所示:
A=(WxX)(WyY)T (4)
其中Wx和Wy是可学习的参数,X={x1,x2,...,xm}和Y={y1,y2,...,yn}分别为步骤(1.1)和步骤(1.2)中提取的图像区域基本特征和文本词汇基本特征,A∈Rm×n是图像区域-文本词汇的相似度矩阵,Ait表示第i个区域和第t个词汇的语义相似度。
(2.2)图像区域加权特征提取:将某个图像区域作为基准,为n个词汇分配权重,然后通过对所述n个词汇进行加权组合得到一个基于图像区域xi的文本词汇特征yi *,其过程如式(5)所示:
其中λ为softmax函数的温度参数。
(2.3)文本词汇加权特征提取:类似地,将某个文本词汇作为基准,获得一个基于文本词汇yt对应的图像区域特征xt *,其过程如式(6)所示:
所述(3)中,将步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量进行片段级匹配,并在此基础上得到对于完整图像和完整文本的片段级匹配分数。
进一步的,所述(3)中,计算片段级相似度具体步骤如下:
(3.1)计算图像区域相关的片段级匹配分数:对于图像区域xi和(2.2)中提取的该区域对应文本词汇特征yi *,计算得到相似度如式(7)所示:
(3.2)计算文本词汇相关的片段级匹配分数:类似地,对于文本词汇yt和(2.3)中提取的该词汇对应图像区域特征xt *,计算得到相似度如式(8)所示:
(3.3)计算完整图像和完整文本的片段级匹配分数Ssegment(X,Y),如式(9)所示:
其中η是一个超参数,用于平衡区域相关的片段级匹配分数Sx(xi,yi *)和词汇相关的片段级匹配分数Sy(yt,xt *)的贡献。
所述(4)中,将步骤(1)中提取到的图像、文本基本特征向量,利用多头自注意力机制探索特征之间的上下文关系,获取融合了上下文信息的图像、文本增强特征向量,具体步骤如下:
(4.1)图像增强特征提取:对于一幅图像X在步骤(1.1)提取一组区域特征X={x1,x2,...,xm},利用多头自注意力机制来探索区域特征之间的上下文关系。具体来说,首先定义查询QX、键KX和值ValX,如式(10)所示:
QX=XWQ,KX=XWK,ValX=XWVal (10)
其中WQ,WK,WVal是可学习的特征映射矩阵。进一步地,通过式(11)计算值ValX的加权和:
其中dk是比例因子。权重矩阵QXKX T是一个方阵,它通过内积层编码每个视觉特征与所有其他特征的关系。然后将不同对象之间的关系用式(12)进行编码:
其中j代表第j个头,中的W代表一个可学习的特征映射矩阵,上标QX表示这个矩阵是针对图像查询的,其中Q表示查询,x表示针对图像,下标j表示第j个头。因此,/>指的是在多头注意力机制中,专门用于处理图像输入在第j个头上的查询权重矩阵。类似的,和/>分别表示专门用于处理图像输入在第j个头上的键权重矩阵和值权重矩阵。
最后,第个i原始视觉区域特征xi通过全局对象和局部引导对象结合的方式被转化为增强后的特征xip,如式(13)所示:
其中Wp是可学习权重矩阵,h为head的数量。那么对于图像来说,基于区域特征的集合X={x1,x2,...,xm}的增强特征就可以表示为Xreinforcement={x1p,x2p,...,xmp}。
(4.2)文本增强特征提取:类似地,对于一段文本Y在步骤(1.2)提取的文本特征Y={y1,y2,...,yn},执行步骤(4.1)中相同的过程,得到文本增强特征Yreinforcement={y1p,y2p,...,ynp}。
(4.3)加权增强特征提取:同样地,对于步骤(2)中提取的加权后的文本特征X*={x1 *,x2 *,...,xn *}和图像特征Y*={y1 *,y2 *,...,ym *}进行步骤(4.1)中相同的处理,获得增强之后的加权特征,分别表示为Xreinforcement *={x1p *,x2p *,...,xnp *},Yreinforcement *={y1p *,y2p *,...,ymp *}。
所述(5)中,将步骤(4)中提取到的图像、文本增强特征,利用自适应权重过滤模块,得到全局相关性匹配结果,具体步骤如下:
(5.1)计算图像到文本方向全局匹配得分:将步骤(4)获取的增强基本特征对(Xreinforcement,Yreinforcement)和增强加权特征对(Yreinforcement *,Xreinforcement *)作为输入,通过加权融合区域特征来生成全局语义,然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分sx→y,如式(14)所示:
其中wx=cos(xlp,ylp *)为自适应权重,表示增强基本特征xlp和增强加权特征ylp *的重要性。
(5.2)计算文本到图像方向全局匹配得分:类似地,将增强基本特征对(Xreinforcement,Yreinforcement)和增强加权特征对(Yreinforcement *,Xreinforcement *)作为输入,通过加权融合区域特征来生成全局语义,然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分sy→x,如式(15)所示:
与(5.1)类似,wy=cos(ylp,xlp *)为自适应权重,表示增强基本特征ylp和增强加权特征xlp *的重要性。
(5.3)计算完整图像和完整文本的全局匹配分数Sglobal(X,Y),如式(16)所示:
Sglobal(X,Y)=sx→y+sy→x (16)
所述(6)中,将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局匹配结果输入到二值分类器中,利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间,并得到社交媒体博文的检测结果,具体步骤如下:
(6.1)在获得局部区域-词汇匹配结果和全局匹配结果之后,利用一个带有softmax函数的全连接层将Ssegment(X,Y)和Sglobal(X,Y)投射到只有两个类别(real或fake)的目标空间中,并得到其概率分布,如式(17)所示:
其中p=[p0,p1]表示预测概率向量,p0和p1分别表示预测结果为0(real)和1(fake)的概率。W是权重矩阵,b是偏差项。
(6.2)对于每一篇博文,目标是最小化二进制交叉熵损失函数,以区分博文是真实信息还是虚假信息。损失函数如式(18)所示:
Lp=-[ylnp0+(1-y)lnp1] (18)
其中y∈{0,1}是每篇博文的真实性标签,y=0表示博文为真实信息,而y=1则表示博文包含虚假信息。
一种基于多模态上下文分层分步对齐的虚假信息检测系统,包括图像区域特征提取、文本词汇特征提取、局部对齐模块、全局上下文对齐模块、社交媒体博文检测五个模块;
所述图像区域特征提取模块,首先使用Faster R-CNN检测显著区域,然后采用预训练的ResNet-101为每个图像区域提取一个特征向量,最后利用全连接层将其转换为特征向量,得到图像区域特征向量;
所述文本词汇特征提取模块,首先将每个词汇编码成one-hot向量,并通过参数矩阵和偏置向量嵌入到向量ot中,然后使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中,得到文本词汇特征向量。
所述局部对齐模块,首先通过双向交叉注意力机制,获取片段级跨模态加权特征向量,然后计算得到与区域相关的片段级匹配分数和与词汇相关的片段级匹配分数,最后将所有基于区域的片段级匹配分数和基于词汇的片段级匹配分数取平均值,得到完整图像和文本的最终片段级匹配分数。
所述全局上下文对齐模块,首先使用多头自注意力机制来获取片段级特征之间的上下文关系,并获得融合了上下文信息的增强特征向量,然后分别计算图像到文本和文本到图像两个方向的全局匹配得分,最后将上述两个方向的全局匹配得分之和作为完整图像和文本的全局匹配分数。
所述社交媒体博文检测模块,将图像-文本之间的片段级相似度和全局相似度输入到带有softmax函数的全连接层中,得到社交媒体博文是真实信息或虚假信息的检测结果。
所述系统的实现过程与方法实现过程相同,不再赘述。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于多模态上下文分层分步对齐的虚假信息检测方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于多模态上下文分层分步对齐的虚假信息检测方法的计算机程序。
有益效果:针对利用夸张手法虚构事件的虚假信息中,模型建模多模态细粒度对应关系时忽略上下文信息的重要性和模型无法捕捉不同模态上下文的对齐问题。本发明采用两阶段策略检测虚假信息。第一阶段建立具有双向交叉模态注意的局部对齐模块,通过相加不同方向的区域-词汇相似度来推断片段级匹配关系。第二阶段建立全局上下文对齐模块,利用多头自注意力机制帮助局部对象学习更多上下文语义,增强视觉和文本的上下文表示,然后通过自适应权重过滤模块,根据两个模态增强特征的相似性,通过集成所有加权特征来实现全局匹配,抑制整体语义偏差。最后,将这两个不同级别的结果向量集成到一个带有softmax函数的全连接层的分类器中,将博文分类为真实信息或虚假信息两个结果。本发明的方法得到的虚假信息检测模型能够有效获得准确检测结果。
附图说明
图1为本发明实施例的方法框架图;
图2为本发明实施例的双向交叉注意力机制流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的基于多模态上下文分层分步对齐的虚假信息检测方法,具体包含以下步骤:
(1)图像、文本基本特征提取:定义一张图像X和一段文本Y,首先使用基于Resnet-101的Faster R-CNN提取图像区域基本特征,然后利用Bi-GRU网络提取文本词汇基本特征。图像区域特征和文本词汇特征提取的具体步骤如下:
(1.1)图像区域基本特征提取:对于一张图像X,选取Faster R-CNN提取图像区域特征,并根据它们的得分选取前m个区域来代表X。然后采用预训练的ResNet-101为每个图像区域提取一个特征向量fi,i∈[1,m]。最后利用全连接层将转换为1024维特征向量,最终将其表示为一组区域特征{x1,x2,...,xm},X∈Rd×m。如式(1)所示:
xi=Wxfi+bx (1)
(1.2)文本词汇基本特征提取:对于一句文本Y,首先将每个词汇编码成one-hot向量gt,t∈[1,n],并通过参数矩阵Wg和偏置向量bg嵌入到300维向量ot中,如式(2)所示:
ot=Wggt+bg (2)
接下来,使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中,然后通过平均得到最终的单词特征yt,如式(3)所示:
(2)图像、文本加权特征提取:将步骤(1.1)中提取到的图像区域基本特征向量和步骤(1.2)中提取到的文本词汇基本特征向量利用双向交叉注意力机制获得图像区域和文本词汇的多模态加权特征向量,其中双向交叉注意力机制如图2所示。提取图像区域和文本词汇的加权特征向量具体步骤如下:
(2.1)计算图像区域和文本词汇的相似度矩阵:如式(4)所示:
A=(WxX)(WyY)T (4)
其中Wx和Wy是可学习的参数,A∈Rm×n是图像区域-文本词汇的相似度矩阵,Ait表示第i个区域和第t个词汇的语义相似度。
(2.2)图像区域加权特征提取:将某个图像区域作为基准,为n个词汇分配权重,然后通过对这n个词汇进行加权组合得到一个基于图像区域xi的文本词汇特征yi *,其过程如式(5)所示:
其中λ为softmax函数的温度参数。
(2.3)文本词汇加权特征提取:类似地,将某个文本词汇作为基准,获得一个基于文本词汇yt对应的图像区域特征xt *,其过程如式(6)所示:
(3)图像-文本特征局部匹配:将步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量进行片段级匹配,并在此基础上得到对于完整图像和完整文本的片段级匹配分数。计算片段级相似度具体步骤如下:
(3.1)计算图像区域相关的片段级匹配分数:对于图像区域xi和(2.2)中提取的该区域对应文本词汇特征yi *,计算得到相似度如式(7)所示:
(3.2)计算文本词汇相关的片段级匹配分数:类似地,对于文本词汇yt和(2.3)中提取的该词汇对应图像区域特征xt *,计算得到相似度如式(8)所示:
(3.3)计算完整图像和完整文本的片段级匹配分数Ssegment(X,Y),如式(9)所示:
其中η是一个超参数,用于平衡区域相关的片段级匹配分数Sx(xi,yi *)和词汇相关的片段级匹配分数Sy(yt,xt *)的贡献。
(4)图像、文本增强特征提取:将步骤(1)中提取到的图像、文本基本特征向量,利用多头自注意力机制探索特征之间的上下文关系,获取融合了上下文信息的图像、文本增强特征向量,具体步骤如下:
(4.1)图像增强特征提取:对于一幅图像X在步骤(1.1)提取一组区域特征X={x1,x2,...,xm},利用多头自注意力机制来探索区域特征之间的上下文关系。具体来说,首先定义查询QX、键KX和值ValX,如式(10)所示:
QX=XWQ,KX=XWK,ValX=XWVal (10)
其中WQ,WK,WVal是可学习的特征映射矩阵。进一步地,通过式(11)计算值ValX的加权和:
其中dk是比例因子。权重矩阵QXKX T是一个方阵,它通过内积层编码每个视觉特征与所有其他特征的关系。然后将不同对象之间的关系用式(12)进行编码:
其中j代表第j个头。最后,第个i原始视觉区域特征xi通过全局对象和局部引导对象结合的方式被转化为增强后的特征,如xip式(13)所示:
xip=Concat(R1+R2+...+Rh)Wp+xi (13)
其中Wp是可学习权重矩阵,h为head的数量。那么对于图像来说,基于区域特征的集合X={x1,x2,...,xm}的增强特征就可以表示为Xreinforcement={x1p,x2p,...,xmp}。
(4.2)文本增强特征提取:类似地,对于一段文本Y在步骤(1.2)提取的文本特征,Y={y1,y2,...,yn}执行步骤(4.1)中相同的过程,得到文本增强特征Yreinforcement={y1p,y2p,...,ynp}。
(4.3)加权增强特征提取:同样地,对于步骤(2)中提取的加权后的文本特征X*={x1 *,x2 *,...,xn *}和图像特征Y*={y1 *,y2 *,...,ym *}进行步骤(4.1)中相同的处理,获得增强之后的加权特征,分别表示为Xreinforcement *={x1p *,x2p *,...,xnp *},Yreinforcement *={y1p *,y2p *,...,ymp *}。
(5)图像-文本增强特征匹配:将步骤(4)中提取到的图像、文本增强特征,利用自适应权重过滤模块,得到全局相关性匹配结果,具体步骤如下:
(5.1)计算图像到文本方向全局匹配得分:将步骤(4)获取的增强基本特征对(Xreinforcement,Yreinforcement)和增强加权特征对(Yreinforcement *,Xreinforcement *)作为输入,通过加权融合区域特征来生成全局语义,然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分sx→y,如式(14)所示:
其中wx=cos(xlp,ylp *)为自适应权重,表示增强基本特征xlp和增强加权特征ylp *的重要性。
(5.2)计算文本到图像方向全局匹配得分:类似地,将增强基本特征对(Xreinforcement,Yreinforcement)和增强加权特征对(Yreinforcement *,Xreinforcement *)作为输入,通过加权融合区域特征来生成全局语义,然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分sy→x,如式(15)所示:
(5.3)计算完整图像和完整文本的全局匹配分数Sglobal(X,Y),如式(16)所示:
Sglobal(X,Y)=sx→y+sy→x (16)
(6)社交媒体博文检测:将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局匹配结果输入到二值分类器中,利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间,并得到社交媒体博文的检测结果,具体步骤如下:
(6.1)在获得局部区域-词汇匹配结果和全局匹配结果之后,利用一个带有softmax函数的全连接层将Ssegment(X,Y)和Sglobal(X,Y)投射到只有两个类别(real或fake)的目标空间中,并得到其概率分布,如式(17)所示:
其中p=[p0,p1]表示预测概率向量,p0和p1分别表示预测结果为0(real)和1(fake)的概率。W是权重矩阵,b是偏差项。
(6.2)对于每一篇博文,目标是最小化二进制交叉熵损失函数,如式(18)所示:
Lp=-[ylogp0+(1-y)logp1] (18)
其中y∈{0,1}表示真值。
一种基于多模态上下文分层分步对齐的虚假信息检测系统,包括图像区域特征提取、文本词汇特征提取、局部对齐模块、全局上下文对齐模块、社交媒体博文检测五个模块;
图像区域特征提取模块,首先使用Faster R-CNN检测显著区域,然后采用预训练的ResNet-101为每个图像区域提取一个特征向量,最后利用全连接层将其转换为1024维特征向量,得到图像区域特征向量;
文本词汇特征提取模块,首先将每个词汇编码成one-hot向量,并通过参数矩阵和偏置向量嵌入到300维向量中,然后使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中,得到文本词汇特征向量。
局部对齐模块,首先通过双向交叉注意力机制,获取片段级跨模态加权特征向量,然后计算得到与区域相关的片段级匹配分数和与词汇相关的片段级匹配分数,最后将所有基于区域的片段级匹配分数和基于词汇的片段级匹配分数取平均值,得到完整图像和文本的最终片段级匹配分数。
全局上下文对齐模块,首先使用多头自注意力机制来获取片段级特征之间的上下文关系,并获得融合了上下文信息的增强特征向量,然后分别计算图像到文本和文本到图像两个方向的全局匹配得分,最后将上述两个方向的全局匹配得分之和作为完整图像和文本的全局匹配分数。
社交媒体博文检测模块,将图像-文本之间的片段级相似度和全局相似度输入到带有softmax函数的全连接层中,得到社交媒体博文是真实信息或虚假信息的检测结果。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于多模态上下文分层分步对齐的虚假信息检测方法各步骤或基于多模态上下文分层分步对齐的虚假信息检测系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
参数的设置和实验评价标准如下:
A参数设置:
以下为几个影响本模型的参数:迭代轮次(Epoch)、批尺寸(Batch Size)、网络学习率(Learning rate)、可学习的线性投影函数隐藏层参数η。
表1模型训练参数设置
B评价指标:
所涉及的评价指标为现有方法统一使用的指标组合,包括:Accuracy、Precision、Recall和F1-Score。
根据以上实施例可知,针对利用夸张手法虚构事件的虚假信息中,模型建模多模态细粒度对应关系时忽略上下文信息的重要性和模型无法捕捉不同模态上下文的对齐问题,本发明
提出一种两步检测策略。本发明使用局部对齐模块学习多模态之间的互补性信息,能够处理文本中某些信息不能严格对应图像区域的问题。本发明使用全局上下文对齐模块实现图像-文本的全局匹配,能够解决匹配网络被图像语义误导而忽略上下文对齐的问题,提高虚假信息检测的准确率。

Claims (10)

1.一种基于多模态上下文分层分步对齐的虚假信息检测方法,其特征在于,包括如下步骤:
(1)图像、文本基本特征提取,利用目标检测模型和语言表征模型分别提取社交媒体博文中图像和文本的特征,分别得到视觉区域和文本词汇的基本特征向量;
(2)图像、文本加权特征提取,对于步骤(1)中提取到的图像、文本基本特征向量,利用双向交叉注意力机制对齐不同模态中的同一片段,然后以文本词汇作为基准,得到描述所述词汇的图像区域基本特征向量加权和,作为所述词汇的加权特征向量;同理,以图像区域作为基准,得到描述所述区域的文本词汇基本特征向量加权和,作为所述区域的加权特征向量;
(3)图像-文本特征局部匹配,对于步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量,利用相似度匹配,得到局部片段级匹配结果;
(4)图像、文本增强特征提取,对于步骤(1)中提取到的图像、文本基本特征向量,利用多头自注意力机制探索特征之间的上下文关系,分别得到融合了上下文信息的图像、文本增强特征向量;
(5)图像-文本增强特征匹配,对于步骤(4)中提取到的图像、文本增强特征,利用自适应权重过滤模块,得到全局相关性匹配结果;
(6)社交媒体博文检测,将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局相关性匹配结果输入到二值分类器中,利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间,并得到社交媒体博文的检测结果。
2.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法,其特征在于,所述(1)中,定义一张图像X和一段文本Y,首先使用基于Resnet-101的Faster R-CNN提取图像区域基本特征,然后利用Bi-GRU网络提取文本词汇基本特征;
图像区域特征和文本词汇特征提取的具体步骤如下:
(1.1)图像区域基本特征提取:对于一张图像X,选取Faster R-CNN提取图像区域特征,并根据所述图像区域的得分选取前m个区域来代表X;然后采用预训练的ResNet-101为每个图像区域提取一个特征向量fi,i∈[1,m];最后利用全连接层将转换为1024维特征向量,最终将特征向量表示为一组区域特征{x1,x2,...,xm}作为图像区域基本特征,X∈Rd×m,如式(1)所示:
xi=Wxfi+bx (1)
(1.2)文本词汇基本特征提取:对于一句文本Y,首先将每个词汇编码成one-hot向量gt,t∈[1,n],并通过参数矩阵Wg和偏置向量bg嵌入到300维向量ot中,如式(2)所示:
ot=Wggt+bg (2)
接下来,使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中,然后通过平均得到最终的单词特征yt作为文本词汇基本特征,如式(3)所示:
3.根据权利要求2所述的基于多模态上下文分层分步对齐的虚假信息检测方法,其特征在于,所述(2)中,将图像区域基本特征向量和文本词汇基本特征向量利用双向交叉注意力机制获得图像区域和文本词汇的多模态加权特征向量;
提取图像区域和文本词汇的加权特征向量具体步骤如下:
(2.1)计算图像区域和文本词汇的相似度矩阵:如式(4)所示:
A=(WxX)(WyY)T (4)
其中Wx和Wy是可学习的参数,X={x1,x2,...,xm}和Y={y1,y2,...,yn}分别为步骤(1.1)和步骤(1.2)中提取的图像区域基本特征和文本词汇基本特征,A∈Rm×n是图像区域-文本词汇的相似度矩阵,Ait表示第i个区域和第t个词汇的语义相似度;
(2.2)图像区域加权特征提取:将某个图像区域作为基准,为n个词汇分配权重,然后通过对所述n个词汇进行加权组合得到一个基于图像区域xi的文本词汇特征yi *,其过程如式(5)所示:
其中λ为softmax函数的温度参数;
(2.3)文本词汇加权特征提取:类似地,将某个文本词汇作为基准,获得一个基于文本词汇yt对应的图像区域特征xt *,其过程如式(6)所示:
4.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法,其特征在于,所述(3)中,将步骤(1)中提取到的图像、文本基本特征向量和步骤(2)中提取到的图像、文本加权特征向量进行片段级匹配,并在此基础上得到对于完整图像和完整文本的片段级匹配分数;
计算片段级相似度具体步骤如下:
(3.1)计算图像区域相关的片段级匹配分数:对于图像区域xi和该区域对应文本词汇特征yi *,计算得到相似度如式(7)所示:
(3.2)计算文本词汇相关的片段级匹配分数:对于文本词汇yt和该词汇对应图像区域特征xt *,计算得到相似度如式(8)所示:
(3.3)计算完整图像和完整文本的片段级匹配分数Ssegment(X,Y),如式(9)所示:
其中η是一个超参数,用于平衡区域相关的片段级匹配分数和词汇相关的片段级匹配分数/>的贡献。
5.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法,其特征在于,所述(4)中,将步骤(1)中提取到的图像、文本基本特征向量,利用多头自注意力机制探索特征之间的上下文关系,获取融合了上下文信息的图像、文本增强特征向量,具体步骤如下:
(4.1)图像增强特征提取:对于一幅图像X的一组区域特征X={x1,x2,...,xm},利用多头自注意力机制来探索区域特征之间的上下文关系;首先定义查询QX、键KX和值ValX,如式(10)所示:
QX=XWQ,KX=XWK,ValX=XWVal (10)
其中WQ,WK,WVal是可学习的特征映射矩阵;通过式(11)计算值ValX的加权和:
其中dk是比例因子,权重矩阵QXKX T是一个方阵,它通过内积层编码每个视觉特征与所有其他特征的关系;然后将不同对象之间的关系用式(12)进行编码:
其中j代表第j个头,中的W代表一个可学习的特征映射矩阵,上标QX表示这个矩阵是针对图像查询的,其中Q表示查询,x表示针对图像,下标j表示第j个头;因此,/>指的是在多头注意力机制中,专门用于处理图像输入在第j个头上的查询权重矩阵;类似的,/>和/>分别表示专门用于处理图像输入在第j个头上的键权重矩阵和值权重矩阵。
最后,第个i原始视觉区域特征xi通过全局对象和局部引导对象结合的方式被转化为增强后的特征xip,如式(13)所示:
其中Wp是可学习权重矩阵,h为head的数量;那么对于图像来说,基于区域特征的集合X={x1,x2,...,xm}的增强特征就可以表示为Xreinforcement={x1p,x2p,...,xmp};
(4.2)文本增强特征提取:对于一段文本Y的文本特征Y={y1,y2,...,yn},执行步骤(4.1)中相同的过程,得到文本增强特征Yreinforcement={y1p,y2p,...,ynp};
(4.3)加权增强特征提取:对于步骤(2)中提取的加权后的文本特征X*={x1 *,x2 *,...,xn *}和图像特征Y*={y1 *,y2 *,...,ym *}进行步骤(4.1)中相同的处理,获得增强之后的加权特征,分别表示为Xreinforcement *={x1p *,x2p *,...,xnp *},Yreinforcement *={y1p *,y2p *,...,ymp *}。
6.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法,其特征在于,所述(5)中,将步骤(4)中提取到的图像、文本增强特征,利用自适应权重过滤模块,得到全局相关性匹配结果,具体步骤如下:
(5.1)计算图像到文本方向全局匹配得分:将步骤(4)获取的增强基本特征对(Xreinforcement,Yreinforcement)和增强加权特征对(Yreinforcement *,Xreinforcement *)作为输入,通过加权融合区域特征来生成全局语义,然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分sx→y,如式(14)所示:
其中wx=cos(xlp,ylp *)为自适应权重,表示增强基本特征xlp和增强加权特征ylp *的重要性;
(5.2)计算文本到图像方向全局匹配得分:将增强基本特征对(Xreinforcement,Yreinforcement)和增强加权特征对(Yreinforcement *,Xreinforcement *)作为输入,通过加权融合区域特征来生成全局语义,然后通过计算两种模态之间的全局语义相似度来获得图像到文本方向全局匹配得分sy→x,如式(15)所示:
与(5.1)类似,wy=cos(ylp,xlp *)为自适应权重,表示增强基本特征ylp和增强加权特征xlp *的重要性;
(5.3)计算完整图像和完整文本的全局匹配分数Sglobal(X,Y),如式(16)所示:
Sglobal(X,Y)=sx→y+sy→x (16)。
7.根据权利要求1所述的基于多模态上下文分层分步对齐的虚假信息检测方法,其特征在于,所述(6)中,将步骤(3)中获得的局部片段级匹配结果和步骤(5)中获得的全局匹配结果输入到二值分类器中,利用二值分类器中带有softmax函数的全连接层投射两个级别的结果向量的加和向量到真实信息和虚假信息两类目标空间,并得到社交媒体博文的检测结果,具体步骤如下:
(6.1)在获得局部区域-词汇匹配结果和全局匹配结果之后,利用一个带有softmax函数的全连接层将Ssegment(X,Y)和Sglobal(X,Y)投射到只有real或fake两个类别的目标空间中,并得到其概率分布,如式(17)所示:
其中p=[p0,p1]表示预测概率向量,p0和p1分别表示预测结果为0和1的概率,0表示real,1表示fake;W是权重矩阵,b是偏差项。
(6.2)对于每一篇博文,目标是最小化二进制交叉熵损失函数,以区分博文是真实信息还是虚假信息;损失函数如式(18)所示:
Lp=-[ylnp0+(1-y)lnp1] (18)
其中y∈{0,1}是每篇博文的真实性标签,y=0表示博文为真实信息,而y=1则表示博文包含虚假信息。
8.一种基于多模态上下文分层分步对齐的虚假信息检测系统,其特征在于,包括图像区域特征提取、文本词汇特征提取、局部对齐模块、全局上下文对齐模块、社交媒体博文检测五个模块;
所述图像区域特征提取模块,首先使用Faster R-CNN检测显著区域,然后采用预训练的ResNet-101为每个图像区域提取一个特征向量,最后利用全连接层将其转换为特征向量,得到图像区域特征向量;
所述文本词汇特征提取模块,首先将每个词汇编码成one-hot向量,并通过参数矩阵和偏置向量嵌入到向量ot中,然后使用Bi-GRU通过从前后两个方向捕获句子中的上下文信息集成到文本嵌入中,得到文本词汇特征向量;
所述局部对齐模块,首先通过双向交叉注意力机制,获取片段级跨模态加权特征向量,然后计算得到与区域相关的片段级匹配分数和与词汇相关的片段级匹配分数,最后将所有基于区域的片段级匹配分数和基于词汇的片段级匹配分数取平均值,得到完整图像和文本的最终片段级匹配分数;
所述全局上下文对齐模块,首先使用多头自注意力机制来获取片段级特征之间的上下文关系,并获得融合了上下文信息的增强特征向量,然后分别计算图像到文本和文本到图像两个方向的全局匹配得分,最后将上述两个方向的全局匹配得分之和作为完整图像和文本的全局匹配分数;
所述社交媒体博文检测模块,将图像-文本之间的片段级相似度和全局相似度输入到带有softmax函数的全连接层中,得到社交媒体博文是真实信息或虚假信息的检测结果。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于多模态上下文分层分步对齐的虚假信息检测方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的基于多模态上下文分层分步对齐的虚假信息检测方法的计算机程序。
CN202311569509.3A 2023-11-23 2023-11-23 基于多模态上下文分层分步对齐的虚假信息检测方法 Pending CN117521012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311569509.3A CN117521012A (zh) 2023-11-23 2023-11-23 基于多模态上下文分层分步对齐的虚假信息检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311569509.3A CN117521012A (zh) 2023-11-23 2023-11-23 基于多模态上下文分层分步对齐的虚假信息检测方法

Publications (1)

Publication Number Publication Date
CN117521012A true CN117521012A (zh) 2024-02-06

Family

ID=89752805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311569509.3A Pending CN117521012A (zh) 2023-11-23 2023-11-23 基于多模态上下文分层分步对齐的虚假信息检测方法

Country Status (1)

Country Link
CN (1) CN117521012A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952563A (zh) * 2024-03-21 2024-04-30 武汉市特种设备监督检验所 一种电梯信息系统中快速注册及审查方法及系统
CN118379592A (zh) * 2024-06-21 2024-07-23 浙江核新同花顺网络信息股份有限公司 一种虚拟人的衣物检测方法、装置、设备及可读存储介质
CN118395209A (zh) * 2024-06-28 2024-07-26 东营科技职业学院 一种基于人工智能的假新闻识别方法及系统
CN118506107A (zh) * 2024-07-17 2024-08-16 烟台大学 一种基于多模态多任务学习的机器人分类检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN114662586A (zh) * 2022-03-18 2022-06-24 南京邮电大学 一种基于共注意的多模态融合机制检测虚假信息的方法
CN116452939A (zh) * 2023-05-11 2023-07-18 河海大学 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN114662586A (zh) * 2022-03-18 2022-06-24 南京邮电大学 一种基于共注意的多模态融合机制检测虚假信息的方法
CN116452939A (zh) * 2023-05-11 2023-07-18 河海大学 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI CUI: "Multi-view mutual learning network for multimodal fake news detection", SSRN, 6 April 2023 (2023-04-06), pages 1 - 31 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952563A (zh) * 2024-03-21 2024-04-30 武汉市特种设备监督检验所 一种电梯信息系统中快速注册及审查方法及系统
CN118379592A (zh) * 2024-06-21 2024-07-23 浙江核新同花顺网络信息股份有限公司 一种虚拟人的衣物检测方法、装置、设备及可读存储介质
CN118395209A (zh) * 2024-06-28 2024-07-26 东营科技职业学院 一种基于人工智能的假新闻识别方法及系统
CN118506107A (zh) * 2024-07-17 2024-08-16 烟台大学 一种基于多模态多任务学习的机器人分类检测方法及系统
CN118506107B (zh) * 2024-07-17 2024-09-27 烟台大学 一种基于多模态多任务学习的机器人分类检测方法及系统

Similar Documents

Publication Publication Date Title
Li et al. Zero-shot event detection via event-adaptive concept relevance mining
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
Perez-Martin et al. Improving video captioning with temporal composition of a visual-syntactic embedding
CN117521012A (zh) 基于多模态上下文分层分步对齐的虚假信息检测方法
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN112800292A (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN113934882A (zh) 细粒度的多模态虚假新闻检测方法
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN113094566A (zh) 一种深度对抗多模态数据聚类方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
Narayana et al. Huse: Hierarchical universal semantic embeddings
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
Xing et al. Ventral & dorsal stream theory based zero-shot action recognition
CN109190521A (zh) 一种基于知识提纯的人脸识别模型的构建方法及应用
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN116955730A (zh) 一种特征提取模型的训练方法、内容推荐的方法及装置
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN110659392B (zh) 检索方法及装置、存储介质
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN116722992A (zh) 一种基于多模态融合的诈骗网站识别方法及装置
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN117131923A (zh) 一种针对跨模态学习的后门攻击方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination