Nothing Special   »   [go: up one dir, main page]

CN116187349A - 一种基于场景图关系信息增强的视觉问答方法 - Google Patents

一种基于场景图关系信息增强的视觉问答方法 Download PDF

Info

Publication number
CN116187349A
CN116187349A CN202310214638.4A CN202310214638A CN116187349A CN 116187349 A CN116187349 A CN 116187349A CN 202310214638 A CN202310214638 A CN 202310214638A CN 116187349 A CN116187349 A CN 116187349A
Authority
CN
China
Prior art keywords
relation
visual
graph
scene
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310214638.4A
Other languages
English (en)
Inventor
杜友田
陈思源
张新明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202310214638.4A priority Critical patent/CN116187349A/zh
Publication of CN116187349A publication Critical patent/CN116187349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于场景图关系信息增强的视觉问答方法,首先提取输入问题的整体向量特征和分词向量特征;再检测视觉目标对象并提取视觉目标特征;然后构建关注目标关系的场景关系图;利用多层图注意力网络增强关系节点信息,设计的关系选择模块结合问题向量排除和问题无关或者错误的关系;最后利用注意力机制的多层网络融合视觉嵌入、问题嵌入、和场景图关系嵌入来推理问题的答案。该方法还在训练过程中,充分利用预训练的场景图关系解码器提供的监督信息,设计相关损失函数,提高了模型结合问题本身理解图像视觉目标之间关系的能力。本发明通过增强场景图的关系节点信息和针对性地选择问题相关的场景图关系信息,提高了视觉问答的准确性。

Description

一种基于场景图关系信息增强的视觉问答方法
技术领域
本发明属于计算机视觉技术领域和自然语言处理技术领域,涉及视觉问答的方法,特别涉及一种基于场景图关系信息增强的视觉问答方法。
背景技术
视觉问答(Visual Question Answering,VQA)的目标是根据图片上的信息,给出与图片相关的自然语言问题的答案。视觉问答模型不仅需要对图像内容、自然语言问题的语义和相关知识有一定理解,还需要理解两个模态之间的关联并做出正确的答案推理。视觉问答技术在现实生活中,也有着广泛的应用前景,比如辅助视障人士了解和认识现实或网络的图像信息,提升计算机的图像理解能力,支持更丰富的图像检索等。大多数现有的视觉问答方法主要包括图像编码器、问题编码器、特征融合和答案推理模块。这些方法会使用卷积神经网络CNN进行图像特征的提取和循环神经网络RNN学习问题表示,然后融合两个特征到同一空间进行答案的预测。在视觉问答的GQA、VQA 2.0等数据集中,大部分问题都涉及一个以上的物体。因此物体和问题之间更丰富的关系信息能起到更多的帮助。
利用更加抽象层次的图像表示形式进行视觉问答任务是最近的研究热点。利用场景图进行视觉问答除了可以获得优秀的性能,在可解释性上也有优势。但是主要存在两个缺点,首先使用现有场景图生成模型去生成的场景图信息,包含了许多与问题无关的节点和边的信息,并且这些节点和边的信息还可能会有错误的噪声;其次现有的一些模型在对图像目标关系的是使用了隐式的关系推理或者简单的空间关系,并没有充分利用场景图的监督信息。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于场景图关系信息增强的视觉问答方法,该方法通过对生成初始场景图的关系信息进行增强并结合问题进行关系选择,能够减少场景图中无关和错误的边对视觉问答答案推理的影响,从而获得视觉问答准确率的提升。
为了实现上述目的,本发明采用的技术方案是:
一种基于场景图关系信息增强的视觉问答方法,包括如下步骤:
步骤1,对文本形式的输入问题,提取其整体向量特征和分词向量特征;
步骤2,对输入图像,检测视觉目标对象,提取视觉目标特征;
步骤3,使用所述视觉目标特征构建场景关系图,并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类,获得视觉目标对象之间关系的监督信息;所述场景关系图中,以视觉目标对象之间的关系作为节点,视觉目标对象作为边;
步骤4,通过图消息传播机制的注意力网络对所述场景关系图进行增强;
步骤5,使用所述整体向量特征对场景关系图中的关系特征进行选择,获得问题相关场景图关系特征;
步骤6,融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案。
与现有技术相比,本发明的有益效果是:本发明利用图神经网络对场景图中的关系进行增强,并在问题的指引下进行关系的选择,减少场景图的无关或者错误的边的噪声,从而获得更好的性能。另外,本发明还充分地利用了预训练场景图模型的能力,使用场景图关系解码器生成的标签作为监督信息,设计两种相关损失函数,提高模型场景关系图上的增强模块的能力。
附图说明
图1为本发明基于场景图关系信息增强的视觉问答方法的整体流程图。
图2为本发明基于场景图关系信息增强的视觉问答方法的整体模型框图。
图3为本发明中多层Transformer模态融合推理网络的模型示意图。
图4为本发明视觉问答的案例结果图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
参考图1和图2的具体步骤,本发明是一种基于场景图信息增强的视觉问答方法,主要包含以下6个部分:问题嵌入、视觉目标特征提取、场景关系图构建、场景关系图增强、关系选择、模态融合和答案推理,具体按照以下步骤实施:
步骤1,对文本形式的输入问题,提取其整体向量特征和分词向量特征。
本发明通过WordPiece将问题划分为独立单词,在单词集合中添加特殊标记后利用GloVe词向量模型对输入问题中的单词进行向量化标注,在Glove单词向量的基础上,再通过预训练的BERT模型提取输入问题的整体向量特征和分词向量特征,具体步骤为:
步骤1.1:使用WordPiece的方法将输入问题划分为子词的单词数组W,即输入的问题句子转化为单词数组W,表示为:
W=[w1,w2,…,wN]
其中N为输入问题中包含的单词数,w1,w2,…,wN为N个单独的子词。
步骤1.2:添加特殊标记[CLS],[SEP]到单词数组W中,问题句子所转换的单词集合可表示为{[CLS],w1,w2,…,wN,[SEP]}。
步骤1.3:使用GloVe词向量模型获得单词向量集合H,表示为:
H=[h1,h2,…,hN]
其中,H为经过GloVe词向量模型训练后的单词向量集合,h1,h2,…,hN为N个单词向量。其中,H为经过GloVe词向量模型训练后的单词向量集合,h1,h2,…,hNq为Nq个单词向量。
步骤1.4:将各单词向量输入到预训练的BERT模型中,获得输入问题的整体向量特征
Figure BDA0004114503340000041
和分词向量特征
Figure BDA0004114503340000042
Figure BDA0004114503340000043
分别为与h1,h2,…,hNq对应的分词向量特征。
步骤2,对输入图像,检测视觉目标对象,提取视觉目标特征。
本发明中,使用Faster R-CNN模型框架进行图像视觉信息提取,有利于获取到图像中多维度的特征信息,有效地提高了后续场景关系图构建的准确性。本实例中选用X152-C4网络作为Faster R-CNN目标检测算法的骨干网络,通过该目标检测算法对输入图像进行目标检测,预测出Nv个目标对象,并得到其对象语义特征
Figure BDA0004114503340000044
区域视觉特征
Figure BDA0004114503340000045
和区域位置特征
Figure BDA0004114503340000046
结合所述对象语义特征、区域视觉特征和区域位置特征生成综合特征
Figure BDA0004114503340000047
综合特征的计算公式定义如下:其中,对于第i个候选视觉目标对象,其综合特征的计算公式定义如下:
li=σ(FCl([xi,pi,Embl(si)]))
其中,li表示第i个目标对象的综合特征,xi表示第i个目标对象的区域视觉特征,pi表示第i个目标对象的区域位置特征,si表示第i个目标对象的对象语义特征,[·]表示一个拼接操作,σ(·)表示非线性变换ReLU,Embl(·)表示基于预训练GloVe模型产生的语言词嵌入转换,FCl(x)=Wx+b表示一个全连接层。
本发明中选取置信度最大的前Kv个物体候选框作为场景图的视觉目标对象集合
Figure BDA0004114503340000048
Figure BDA0004114503340000049
表示第Kv个视觉目标对象。
经过上述综合特征的计算处理后,视觉目标对象的表示中不仅包含自身的视觉区域特征,还包含对象在图像上的空间位置信息以及抽象语义的描述特征。通过这些信息,后续模型可以更加容易地理解的所学习物体之间的语义关系和空间位置关系,从而能够更加准确地推理目标对象之间的关系,并在此基础上预测出正确答案。
步骤3:使用所述视觉目标特征构建场景关系图,并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类,获得视觉目标对象之间关系的监督信息;所述场景关系图中,以视觉目标对象之间的关系作为节点,视觉目标对象作为边。
本发明使用步骤2获得的视觉目标特征构建初始场景关系图。与通常场景图不同的是,场景关系图更强调视觉目标对象之间的关系特征,因此构建视觉目标对象之间的全连接的初始关系后,选择初始关系作为场景关系图的节点,初始关系相关的节点则作为场景关系图的边。同时,为了后续充分利用场景图的监督信息,通过预训练的场景图关系解码器对步骤1产生的视觉目标间的关系进行分类,获得目标之间的关系分类监督信息。具体步骤为:
步骤3.1:视觉目标对象间初始关系的构建。
使用视觉目标对象集合V构建视觉目标对象之间的初始关系集合E,若ek∈E,且第i个视觉目标对象vi和第j个视觉目标对象vj之间存在有向ek关系,写作<vi-ek-vj>,ek的计算公式如下:
ek=σ(FCr3([FCr1(vi),FCr2(vj)]))
其中,[·]表示一个拼接操作,σ(·)表示非线性变换ReLU,FCr1(x)、FCr2(x)和FCr3(x)均表示全连接层。
步骤3.2:场景关系图Grel的构建。
与常见的场景图表示略微不同的是,由于本发明专注于场景图关系的增强,使用目标对象之间的关系作为节点,而视觉目标对象则是场景关系图的边。V表示场景关系图的视觉目标对象vi的集合,同时也是场景关系图的边的集合;E则表示步骤3.1得到的关系ei的集合,同时也是场景关系图的节点的集合。
由于场景关系图是有向的,对于任意vk∈V,则可以表示为ei对ej存在一个有向关系,不妨写作<ei-vk-ej>。这样可以构建出新的场景关系图,以ei和vk的方向为准,将关系节点集合E的入边和出边的邻接矩阵分别表示为Ain和Aout,场景关系图定义为:
Grel={E,V,Ain,Aout}。
其中,初始关系集合E作为场景关系图Grel的节点集合,视觉目标对象集合V作为场景关系图Grel的边集合,Ain和Aout是节点集合的入边和出边的邻接矩阵。
步骤3.3:场景图关系解码器预测结果作为关系监督信息。
使用一个在Visual Genome数据集上预训练的分类网络即场景图关系解码器来预测视觉目标对象之间的关系。该关系解码器对视觉目标对象集合V中的任意两个视觉目标对象之间的关系进行预测,获取视觉目标对象之间关系的监督信息,作为关系的监督标签
Figure BDA0004114503340000061
步骤4,通过图消息传播机制的注意力网络对所述场景关系图进行增强。
本发明在步骤3获得的场景关系图Grel上,通过图消息传播机制的注意力网络来更新关系节点的信息从而实现场景关系图的增强。为了聚合邻居节点和边的信息来更好地表示视觉目标对象之间的关系信息,采用了注意力网络的方法,大大增强了关系节点的信息。
步骤4.1:通过注意力机制评估场景关系图中每个节点与其邻居节点的相关程度;节点ei与其邻居节点ej的注意权重αij的计算公式如下:
Figure BDA0004114503340000062
其中vk是连接ei和ej的有向边<ei,vk ej>,
Figure BDA0004114503340000063
是可学习的映射矩阵,dh为相关性计算中设置的隐层向量维度,de为节点的向量维度,
Figure BDA0004114503340000064
是可学习的映射矩阵,dv是边的向量维度,dir(·)是连接节点ei到节点ej的vk边方向,分为出边和入边两个方向,Ni表示节点ei的所有邻居节点集合。
步骤4.2:使用图消息传递框架更新节点的特征,使用得到的注意力权重汇集邻居节点以及节点自身的信息,从而更新每个节点,节点ei的更新公式如下:。
Figure BDA0004114503340000071
其中,
Figure BDA0004114503340000072
是节点ei增强后的表示,
Figure BDA0004114503340000073
Figure BDA0004114503340000074
是可学习的映射矩阵。
步骤4.3:通过步骤4.1和步骤4.2组成注意力网络,该网络堆叠m层;第1层的输入节点等于构建好的初始场景关系图的节点
Figure BDA0004114503340000075
经过一层注意力网络更新后得到节点
Figure BDA0004114503340000076
第m层的注意力网络更新后的关系节点表示为
Figure BDA0004114503340000077
通过m层的注意力网络增强后的关系节点集合表示为
Figure BDA0004114503340000078
nr表示边的数量。
步骤4.4:场景图关系分类的损失函数。对增强后的关系节点集合E*使用全连接层和激活函数Sigmoid来预测关系节点的分类情况yrel,表示为:
yrel=Sigmoid(FC(E*))
为了充分利用预训练的场景图关系解码器的监督信息,使用步骤3.3获得的监督信息,构建关系分类的损失函数Lcls为:
Figure BDA0004114503340000079
其中,Nrel是总共的关系数量(N在前文表示单独的子词数量),
Figure BDA00041145033400000710
是增强后关系节点预测的分类情况,
Figure BDA00041145033400000711
是关系解码器获取的监督标签。
这样模型不仅能够通过视觉问答的答案对错来监督学习,还能够学习预训练关系解码器提供的训练标签,获得场景图关系预测的能力。
步骤5,使用所述整体向量特征对场景关系图中的关系特征进行选择,获得问题相关场景图关系特征。
本步骤中,在整体向量特征的引导下,使用注意力操作筛选与问题相关的关系,从而排除无关或错误的关系对视觉问答推理的影响,其中选择关系特征的具体步骤如下:
步骤5.1:使用注意力操作计算整体向量特征
Figure BDA0004114503340000081
与增强的关系节点集合E*中的每个节点的相似度分数:
Figure BDA0004114503340000082
其中,
Figure BDA0004114503340000083
<·>为点积操作,使用Sigmoid函数限制相似度分数在(0,1),选择前Kr个节点为候选关系表示集合
Figure BDA0004114503340000084
步骤5.2:关系排序损失函数。
使用所述监督信息,预训练的场景图关系解码器判断两个视觉目标对象有关的节点作为正面关系集合
Figure BDA0004114503340000085
无关的节点作为负面关系集合
Figure BDA0004114503340000086
构建关系排序损失函数:
Figure BDA0004114503340000087
其中,m是可调阈值,Z是一个规一化因子,fp表示
Figure BDA0004114503340000088
中采样的p在步骤5.1中的相似度分数,fn表示
Figure BDA0004114503340000089
中采样的n在步骤5.1中的相似度分数。
步骤6,融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案。
本发明利用注意力机制的多层网络融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案,其中注意力机制的多层网络为多层Transformer结构的模态融合网络,通过多分类器选出概率最高的答案作为推理结果。推理输入问题的答案的具体步骤可描述如下:
步骤6.1:输入特征拼接。将步骤1中得到的问题分词向量表示Q=[q1,q2,…,qN]作为问题嵌入,步骤2中得到的视觉目标对象集合
Figure BDA00041145033400000810
作为视觉嵌入,步骤5中得到的场景图关系表示
Figure BDA00041145033400000811
作为关系嵌入,添加特殊标记[CLS],[SEP],转换后的拼接向量Oin可表示为:
Figure BDA0004114503340000091
步骤6.2:将步骤6.1中得到的拼接向量Oin输入到多层的Transformer融合网络中,在[CLS]标记输入位置处的最后输出特征作为融合特征,表示为:
OF=Transformer(Oin,Θ)
其中,Transformer(·)表示多层融合网络的训练操作,Θ表示可训练参数。
本发明中的多层Transformer融合网络架构如图3所示,主要分为3个模块:输入模块、编码模块、输出模块。
输入模块指对输入进行处理的嵌入层;编码模块由多个编码器层堆叠形成,每个编码器层由两个子层组成,第一个子层含有一个多头自注意力子层、规范化层、一个残差连接,第二个子层含有一个前馈全连接子层、规范化层、一个残差连接;输出模块包括线性化层和层归一化函数,这里采用Sigmoid函数。最终输出可表示为:
u=Sigmoid(FC(OF))
其中,Sigmoid(·)表示Sigmoid函数操作,FC(x)=Wx+b表示一个全连接层,OF表示融合特征。选择候选答案中概率最大对应的答案作为模型预测答案,如图4展示的该模型视觉问答的案例。
步骤6.3:损失函数。损失函数组成部分之一是视觉问答部分使用的标准交叉熵,本实施例使用二元交叉熵作为问答损失函数,训练分类问题,问答损失函数如公式:
Figure BDA0004114503340000092
y是模型预测答案,
Figure BDA0004114503340000093
是标注答案,Nans表示所有答案的总数;
最终总的损失函数为问答损失函数LQA、步骤4.4的分类损失函数Lcls和步骤5.3的排序损失函数Lrank之和:
Ltotal=LQA+Lcls+Lrank
本发明的模型训练和实验过程
1.数据集
本发明选择GQA数据集,它包含来自Visual Genome数据集的113,018张真实世界的图像,包含22,669,678个问题,涵盖了广泛的推理能力。
评价指标:GQA将视觉问答视为多分类问题。使用一种投票机制来计算模型的准确率。
Figure BDA0004114503340000101
其中,N为与标注者的答案保持一致的数量。因此,在数据集中,模型预测的答案至少与3个标注者保持一致,方可认为模型预测正确。
2.实验环境
本发明使用Python 3.7开发语言和Pytorch 1.5.0深度学习开发框架,实验使用8张Nvidia GTX Titan-V显卡进行,批处理大小为128个,使用Adam梯度下降算法,学习率设置为0.0001,在模型迭代12000次后,每迭代5000次对学习率乘以0.2,最终实验迭代了27000次后停止训练。
将本发明模型在GQA数据集上训练的最好结果,与其他先进模型进行比较,如表1所示;
表1本发明模型与其他模型在GQA test-dev数据集上的比较结果
Figure BDA0004114503340000111
其中MAC模型是表现良好的的隐式关系多阶段推理模型,该模型针对问题进行多个基于注意力的指导向量在视觉特征上进行推理。MCAN-large则是目前表现优异的采用自注意力和交互注意力机制的类Trasformer结构模型。表中Human表示人类在GQA数据集上的测验结果。
Ours是本发明的模型,比基准模型CNN+LSTM总体准确率提高了13.16%,与先进的BUTD模型相比准确率提升了9.97%,和先进的MCAN-large模型相比,本发明的模型在整体准确性上同样更好。
综上,本发明充分提取图像视觉目标的特征,在该视觉特征基础上初始化视觉目标之间的关系,将图像建模为关注目标关系的场景关系图,利用多层图注意力网络增强关系节点信息,再结合问题本身设计关系选择模块排除和问题无关或者错误的关系,然后利用注意力机制的多层网络融合视觉嵌入、问题嵌入和场景图关系嵌入进行推理来预测问题的答案。并且该发明在训练过程中,充分利用预训练的场景图关系解码器提供的监督信息,设计相关损失函数,提高模型结合问题本身理解图像视觉目标之间关系的能力。本发明通过增强场景图的关系节点信息和针对性地选择问题相关的场景图关系信息,提高了视觉问答的准确性。

Claims (10)

1.一种基于场景图关系信息增强的视觉问答方法,其特征在于,包括如下步骤:
步骤1,对文本形式的输入问题,提取其整体向量特征和分词向量特征;
步骤2,对输入图像,检测视觉目标对象,提取视觉目标特征;
步骤3,使用所述视觉目标特征构建场景关系图,并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类,获得视觉目标对象之间关系的监督信息;所述场景关系图中,以视觉目标对象之间的关系作为节点,视觉目标对象作为边;
步骤4,通过图消息传播机制的注意力网络对所述场景关系图进行增强;
步骤5,使用所述整体向量特征对场景关系图中的关系特征进行选择,获得问题相关场景图关系特征;
步骤6,融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案。
2.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤1,利用GloVe词向量模型,对输入问题中的单词进行向量化标注,在Glove单词向量的基础上,结合预训练的BERT模型,提取输入问题的整体向量特征和分词向量特征。
3.根据权利要求1或2所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤1,提取整体向量特征和分词向量特征的步骤如下:
步骤1.1:使用WordPiece的方法将输入问题划分为子词的单词数组W,表示为:
W=[w1,w2,…,wN]
其中N为输入问题中包含的单词数,w1,w2,…,wN为N个单独的子词;
步骤1.2:添加特殊标记[CLS]和[SEP]到单词数组W中,表示为{[CLS],w1,w2,…,wN,[SEP]};
步骤1.3:对单词数组W使用GloVe词向量模型获得单词向量集合H,表示为:
H=[h1,h2,…,hNq
其中,H为经过GloVe词向量模型训练后的单词向量集合,h1,h2,…,hNq为Nq个单词向量;
步骤1.4:将各单词向量输入到预训练的BERT模型中,获得输入问题的整体向量特征
Figure FDA0004114503330000021
和分词向量特征
Figure FDA0004114503330000022
Figure FDA0004114503330000023
分别为与h1,h2,…,hNq对应的分词向量特征。
4.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤2,使用X152-C4网络为骨干的Faster R-CNN目标检测算法对输入图像进行目标检测,对Nv个目标对象,得到对象语义特征
Figure FDA0004114503330000024
区域视觉特征
Figure FDA0004114503330000025
和区域位置特征
Figure FDA0004114503330000026
结合所述对象语义特征、区域视觉特征和区域位置特征生成综合特征
Figure FDA0004114503330000027
综合特征的计算公式定义如下:
li=σ(FCl([xi,pi,Embl(si)]))
其中,li表示第i个目标对象的综合特征,xi表示第i个目标对象的区域视觉特征,pi表示第i个目标对象的区域位置特征,si表示第i个目标对象的对象语义特征,[·]表示一个拼接操作,σ(·)表示非线性变换ReLU,Embl(·)表示基于预训练GloVe模型产生的语言词嵌入转换,FCl(x)=Wx+b表示一个全连接层,选取置信度最大的前Kv个物体候选框作为场景图的视觉目标对象集合
Figure FDA0004114503330000028
Figure FDA0004114503330000029
表示第Kv个视觉目标对象。
5.根据权利要求4所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤3,构建场景关系图,并通过分类获得监督信息的步骤如下:
步骤3.1:视觉目标对象间初始关系的构建
使用视觉目标对象集合V构建视觉目标对象之间的初始关系集合E,若ek∈E,且第i个视觉目标对象vi和第j个视觉目标对象vj之间存在有向ek关系,写作<vi-ek-vj>,ek的计算公式如下:
ek=σ(FCr3([FCr1(vi),FCr2(vj)]))
其中,FCr1(x)、FCr2(x)和FCr3(x)均表示全连接层;
步骤3.2:场景关系图Grel的构建
场景关系图定义为:Grel={E,V,Ain,Aout},初始关系集合E作为场景关系图Grel的节点集合,视觉目标对象集合V作为场景关系图Grel的边集合,Ain和Aout是节点集合的入边和出边的邻接矩阵;
步骤3.3:场景图关系解码器预测结果作为关系监督信息
使用预训练的场景图关系解码器预测视觉目标对象之间的关系,关系解码器对视觉目标对象集合V中的任意两个视觉目标对象之间的关系进行预测,获取视觉目标对象之间关系的监督信息。
6.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤4,通过图消息传播机制的注意力网络更新关系节点的信息实现场景关系图的增强,步骤如下:
步骤4.1:通过注意力机制评估场景关系图中每个节点与其邻居节点的相关程度;节点ei与其邻居节点ej的注意权重αij的计算公式如下:
Figure FDA0004114503330000031
其中vk是连接ei和ej的有向边<ei,vk ej>,
Figure FDA0004114503330000041
是可学习的映射矩阵,dh为相关性计算中设置的隐层向量维度,de为节点的向量维度,
Figure FDA0004114503330000042
是可学习的映射矩阵,dv是边的向量维度,dir(·)是连接节点ei到节点ej的vk边方向,分为出边和入边两个方向,Ni表示节点ei的所有邻居节点集合;
步骤4.2:使用图消息传递框架更新节点的特征,使用得到的注意力权重汇集邻居节点以及节点自身的信息,从而更新每个节点,节点ei的更新公式如下:
Figure FDA0004114503330000043
其中,
Figure FDA0004114503330000044
是节点ei增强后的表示,
Figure FDA0004114503330000045
Figure FDA0004114503330000046
是可学习的映射矩阵;
步骤4.3:通过步骤4.1和步骤4.2组成注意力网络,该网络堆叠m层,最后获得增强的关系节点集合
Figure FDA0004114503330000047
步骤4.4:对增强后的关系节点集合E*使用全连接层和激活函数Sigmoid来预测关系节点的分类情况yrel,表示为:
yrel=Sigmoid(FC(E*))
使用所述监督信息,构建关系分类的损失函数Lcls,表示为:
Figure FDA0004114503330000048
其中,Nrel是总共的关系数量,
Figure FDA0004114503330000049
是增强后关系节点预测的分类情况,
Figure FDA00041145033300000410
是关系解码器获取的监督标签。
7.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤5,在整体向量特征的引导下,使用注意力操作筛选与问题相关的关系,从而排除无关或错误的关系对视觉问答推理的影响。
8.根据权利要求1或7所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤5,选择关系特征的步骤如下:
步骤5.1:使用注意力操作计算整体向量特征
Figure FDA0004114503330000051
与增强的关系节点集合E*中的每个节点的相似度分数:
Figure FDA0004114503330000052
其中,
Figure FDA0004114503330000053
<·>为点积操作,使用Sigmoid函数限制相似度分数在(0,1),选择前Kr个节点为候选关系表示集合
Figure FDA0004114503330000054
步骤5.2:关系排序损失函数
使用所述监督信息,预训练的场景图关系解码器判断两个视觉目标对象有关的节点作为正面关系集合
Figure FDA0004114503330000055
无关的节点作为负面关系集合
Figure FDA0004114503330000056
构建关系排序损失函数:
Figure FDA0004114503330000057
其中,m是可调阈值,Z是一个规一化因子,fp表示
Figure FDA0004114503330000058
中采样的p在步骤5.1中的相似度分数,fn表示
Figure FDA0004114503330000059
中采样的n在步骤5.1中的相似度分数。
9.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤6,利用注意力机制的多层网络融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案;所述注意力机制的多层网络为多层Transformer结构的模态融合网络,通过多分类器选出概率最高的答案作为推理结果。
10.根据权利要求9所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤6,推理输入问题的答案的步骤如下:
步骤6.1:输入特征拼接
将分词向量特征Q作为问题嵌入,视觉目标对象集合V作为视觉嵌入,场景图关系集合R作为关系嵌入,添加特殊标记[CLS]和[SEP],按如下方式得到拼接向量Oin
Figure FDA0004114503330000061
步骤6.2,将拼接向量Oin输入到多层Transformer结构的模态融合网络中,在[CLS]标记输入位置处的最后输出特征作为融合特征,表示为:
OF=Transformer(Oin,Θ)
其中,Transformer(·)表示多层融合网络的训练操作,Θ表示可训练参数;
经过输出层的线性化层和层归一化函数,最终输出答案表示为:
y=Sigmoid(FC(OF))
其中,Sigmoid(·)表示Sigmoid函数操作,FC(x)表示一个全连接层,OF表示融合特征,选择最大概率对应的候选答案作为推理答案;
步骤6.3:损失函数
损失函数组成部分之一是视觉问答部分使用的标准交叉熵,训练分类问题,问答损失函数如公式:
Figure FDA0004114503330000062
y是模型预测答案,
Figure FDA0004114503330000063
是标注答案,Nans表示所有答案的总数;
最终总的损失函数为问答损失函数LQA、分类损失函数Lcls和排序损失函数Lrank之和:
Ltotal=LQA+Lcls+Lrank
CN202310214638.4A 2023-03-07 2023-03-07 一种基于场景图关系信息增强的视觉问答方法 Pending CN116187349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310214638.4A CN116187349A (zh) 2023-03-07 2023-03-07 一种基于场景图关系信息增强的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310214638.4A CN116187349A (zh) 2023-03-07 2023-03-07 一种基于场景图关系信息增强的视觉问答方法

Publications (1)

Publication Number Publication Date
CN116187349A true CN116187349A (zh) 2023-05-30

Family

ID=86448632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310214638.4A Pending CN116187349A (zh) 2023-03-07 2023-03-07 一种基于场景图关系信息增强的视觉问答方法

Country Status (1)

Country Link
CN (1) CN116187349A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541507A (zh) * 2023-07-06 2023-08-04 武汉工程大学 一种基于动态语义图神经网络的视觉问答方法及系统
CN117333744A (zh) * 2023-09-21 2024-01-02 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法
CN118312588A (zh) * 2024-03-01 2024-07-09 华中科技大学 基于目标检测的中间过程监督策略的视觉问答方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541507A (zh) * 2023-07-06 2023-08-04 武汉工程大学 一种基于动态语义图神经网络的视觉问答方法及系统
CN117333744A (zh) * 2023-09-21 2024-01-02 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法
CN117333744B (zh) * 2023-09-21 2024-05-28 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法
CN118312588A (zh) * 2024-03-01 2024-07-09 华中科技大学 基于目标检测的中间过程监督策略的视觉问答方法

Similar Documents

Publication Publication Date Title
JP7195365B2 (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN108733792B (zh) 一种实体关系抽取方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN112015868B (zh) 基于知识图谱补全的问答方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN110390363A (zh) 一种图像描述方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN110347831A (zh) 基于自注意力机制的情感分类方法
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN114612767B (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
Guo et al. Matching visual features to hierarchical semantic topics for image paragraph captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination