CN116187349A - 一种基于场景图关系信息增强的视觉问答方法 - Google Patents
一种基于场景图关系信息增强的视觉问答方法 Download PDFInfo
- Publication number
- CN116187349A CN116187349A CN202310214638.4A CN202310214638A CN116187349A CN 116187349 A CN116187349 A CN 116187349A CN 202310214638 A CN202310214638 A CN 202310214638A CN 116187349 A CN116187349 A CN 116187349A
- Authority
- CN
- China
- Prior art keywords
- relation
- visual
- graph
- scene
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 64
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 101100001674 Emericella variicolor andI gene Proteins 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于场景图关系信息增强的视觉问答方法,首先提取输入问题的整体向量特征和分词向量特征;再检测视觉目标对象并提取视觉目标特征;然后构建关注目标关系的场景关系图;利用多层图注意力网络增强关系节点信息,设计的关系选择模块结合问题向量排除和问题无关或者错误的关系;最后利用注意力机制的多层网络融合视觉嵌入、问题嵌入、和场景图关系嵌入来推理问题的答案。该方法还在训练过程中,充分利用预训练的场景图关系解码器提供的监督信息,设计相关损失函数,提高了模型结合问题本身理解图像视觉目标之间关系的能力。本发明通过增强场景图的关系节点信息和针对性地选择问题相关的场景图关系信息,提高了视觉问答的准确性。
Description
技术领域
本发明属于计算机视觉技术领域和自然语言处理技术领域,涉及视觉问答的方法,特别涉及一种基于场景图关系信息增强的视觉问答方法。
背景技术
视觉问答(Visual Question Answering,VQA)的目标是根据图片上的信息,给出与图片相关的自然语言问题的答案。视觉问答模型不仅需要对图像内容、自然语言问题的语义和相关知识有一定理解,还需要理解两个模态之间的关联并做出正确的答案推理。视觉问答技术在现实生活中,也有着广泛的应用前景,比如辅助视障人士了解和认识现实或网络的图像信息,提升计算机的图像理解能力,支持更丰富的图像检索等。大多数现有的视觉问答方法主要包括图像编码器、问题编码器、特征融合和答案推理模块。这些方法会使用卷积神经网络CNN进行图像特征的提取和循环神经网络RNN学习问题表示,然后融合两个特征到同一空间进行答案的预测。在视觉问答的GQA、VQA 2.0等数据集中,大部分问题都涉及一个以上的物体。因此物体和问题之间更丰富的关系信息能起到更多的帮助。
利用更加抽象层次的图像表示形式进行视觉问答任务是最近的研究热点。利用场景图进行视觉问答除了可以获得优秀的性能,在可解释性上也有优势。但是主要存在两个缺点,首先使用现有场景图生成模型去生成的场景图信息,包含了许多与问题无关的节点和边的信息,并且这些节点和边的信息还可能会有错误的噪声;其次现有的一些模型在对图像目标关系的是使用了隐式的关系推理或者简单的空间关系,并没有充分利用场景图的监督信息。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于场景图关系信息增强的视觉问答方法,该方法通过对生成初始场景图的关系信息进行增强并结合问题进行关系选择,能够减少场景图中无关和错误的边对视觉问答答案推理的影响,从而获得视觉问答准确率的提升。
为了实现上述目的,本发明采用的技术方案是:
一种基于场景图关系信息增强的视觉问答方法,包括如下步骤:
步骤1,对文本形式的输入问题,提取其整体向量特征和分词向量特征;
步骤2,对输入图像,检测视觉目标对象,提取视觉目标特征;
步骤3,使用所述视觉目标特征构建场景关系图,并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类,获得视觉目标对象之间关系的监督信息;所述场景关系图中,以视觉目标对象之间的关系作为节点,视觉目标对象作为边;
步骤4,通过图消息传播机制的注意力网络对所述场景关系图进行增强;
步骤5,使用所述整体向量特征对场景关系图中的关系特征进行选择,获得问题相关场景图关系特征;
步骤6,融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案。
与现有技术相比,本发明的有益效果是:本发明利用图神经网络对场景图中的关系进行增强,并在问题的指引下进行关系的选择,减少场景图的无关或者错误的边的噪声,从而获得更好的性能。另外,本发明还充分地利用了预训练场景图模型的能力,使用场景图关系解码器生成的标签作为监督信息,设计两种相关损失函数,提高模型场景关系图上的增强模块的能力。
附图说明
图1为本发明基于场景图关系信息增强的视觉问答方法的整体流程图。
图2为本发明基于场景图关系信息增强的视觉问答方法的整体模型框图。
图3为本发明中多层Transformer模态融合推理网络的模型示意图。
图4为本发明视觉问答的案例结果图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
参考图1和图2的具体步骤,本发明是一种基于场景图信息增强的视觉问答方法,主要包含以下6个部分:问题嵌入、视觉目标特征提取、场景关系图构建、场景关系图增强、关系选择、模态融合和答案推理,具体按照以下步骤实施:
步骤1,对文本形式的输入问题,提取其整体向量特征和分词向量特征。
本发明通过WordPiece将问题划分为独立单词,在单词集合中添加特殊标记后利用GloVe词向量模型对输入问题中的单词进行向量化标注,在Glove单词向量的基础上,再通过预训练的BERT模型提取输入问题的整体向量特征和分词向量特征,具体步骤为:
步骤1.1:使用WordPiece的方法将输入问题划分为子词的单词数组W,即输入的问题句子转化为单词数组W,表示为:
W=[w1,w2,…,wN]
其中N为输入问题中包含的单词数,w1,w2,…,wN为N个单独的子词。
步骤1.2:添加特殊标记[CLS],[SEP]到单词数组W中,问题句子所转换的单词集合可表示为{[CLS],w1,w2,…,wN,[SEP]}。
步骤1.3:使用GloVe词向量模型获得单词向量集合H,表示为:
H=[h1,h2,…,hN]
其中,H为经过GloVe词向量模型训练后的单词向量集合,h1,h2,…,hN为N个单词向量。其中,H为经过GloVe词向量模型训练后的单词向量集合,h1,h2,…,hNq为Nq个单词向量。
步骤2,对输入图像,检测视觉目标对象,提取视觉目标特征。
本发明中,使用Faster R-CNN模型框架进行图像视觉信息提取,有利于获取到图像中多维度的特征信息,有效地提高了后续场景关系图构建的准确性。本实例中选用X152-C4网络作为Faster R-CNN目标检测算法的骨干网络,通过该目标检测算法对输入图像进行目标检测,预测出Nv个目标对象,并得到其对象语义特征区域视觉特征和区域位置特征结合所述对象语义特征、区域视觉特征和区域位置特征生成综合特征综合特征的计算公式定义如下:其中,对于第i个候选视觉目标对象,其综合特征的计算公式定义如下:
li=σ(FCl([xi,pi,Embl(si)]))
其中,li表示第i个目标对象的综合特征,xi表示第i个目标对象的区域视觉特征,pi表示第i个目标对象的区域位置特征,si表示第i个目标对象的对象语义特征,[·]表示一个拼接操作,σ(·)表示非线性变换ReLU,Embl(·)表示基于预训练GloVe模型产生的语言词嵌入转换,FCl(x)=Wx+b表示一个全连接层。
经过上述综合特征的计算处理后,视觉目标对象的表示中不仅包含自身的视觉区域特征,还包含对象在图像上的空间位置信息以及抽象语义的描述特征。通过这些信息,后续模型可以更加容易地理解的所学习物体之间的语义关系和空间位置关系,从而能够更加准确地推理目标对象之间的关系,并在此基础上预测出正确答案。
步骤3:使用所述视觉目标特征构建场景关系图,并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类,获得视觉目标对象之间关系的监督信息;所述场景关系图中,以视觉目标对象之间的关系作为节点,视觉目标对象作为边。
本发明使用步骤2获得的视觉目标特征构建初始场景关系图。与通常场景图不同的是,场景关系图更强调视觉目标对象之间的关系特征,因此构建视觉目标对象之间的全连接的初始关系后,选择初始关系作为场景关系图的节点,初始关系相关的节点则作为场景关系图的边。同时,为了后续充分利用场景图的监督信息,通过预训练的场景图关系解码器对步骤1产生的视觉目标间的关系进行分类,获得目标之间的关系分类监督信息。具体步骤为:
步骤3.1:视觉目标对象间初始关系的构建。
使用视觉目标对象集合V构建视觉目标对象之间的初始关系集合E,若ek∈E,且第i个视觉目标对象vi和第j个视觉目标对象vj之间存在有向ek关系,写作<vi-ek-vj>,ek的计算公式如下:
ek=σ(FCr3([FCr1(vi),FCr2(vj)]))
其中,[·]表示一个拼接操作,σ(·)表示非线性变换ReLU,FCr1(x)、FCr2(x)和FCr3(x)均表示全连接层。
步骤3.2:场景关系图Grel的构建。
与常见的场景图表示略微不同的是,由于本发明专注于场景图关系的增强,使用目标对象之间的关系作为节点,而视觉目标对象则是场景关系图的边。V表示场景关系图的视觉目标对象vi的集合,同时也是场景关系图的边的集合;E则表示步骤3.1得到的关系ei的集合,同时也是场景关系图的节点的集合。
由于场景关系图是有向的,对于任意vk∈V,则可以表示为ei对ej存在一个有向关系,不妨写作<ei-vk-ej>。这样可以构建出新的场景关系图,以ei和vk的方向为准,将关系节点集合E的入边和出边的邻接矩阵分别表示为Ain和Aout,场景关系图定义为:
Grel={E,V,Ain,Aout}。
其中,初始关系集合E作为场景关系图Grel的节点集合,视觉目标对象集合V作为场景关系图Grel的边集合,Ain和Aout是节点集合的入边和出边的邻接矩阵。
步骤3.3:场景图关系解码器预测结果作为关系监督信息。
使用一个在Visual Genome数据集上预训练的分类网络即场景图关系解码器来预测视觉目标对象之间的关系。该关系解码器对视觉目标对象集合V中的任意两个视觉目标对象之间的关系进行预测,获取视觉目标对象之间关系的监督信息,作为关系的监督标签
步骤4,通过图消息传播机制的注意力网络对所述场景关系图进行增强。
本发明在步骤3获得的场景关系图Grel上,通过图消息传播机制的注意力网络来更新关系节点的信息从而实现场景关系图的增强。为了聚合邻居节点和边的信息来更好地表示视觉目标对象之间的关系信息,采用了注意力网络的方法,大大增强了关系节点的信息。
步骤4.1:通过注意力机制评估场景关系图中每个节点与其邻居节点的相关程度;节点ei与其邻居节点ej的注意权重αij的计算公式如下:
其中vk是连接ei和ej的有向边<ei,vk ej>,是可学习的映射矩阵,dh为相关性计算中设置的隐层向量维度,de为节点的向量维度,是可学习的映射矩阵,dv是边的向量维度,dir(·)是连接节点ei到节点ej的vk边方向,分为出边和入边两个方向,Ni表示节点ei的所有邻居节点集合。
步骤4.2:使用图消息传递框架更新节点的特征,使用得到的注意力权重汇集邻居节点以及节点自身的信息,从而更新每个节点,节点ei的更新公式如下:。
步骤4.3:通过步骤4.1和步骤4.2组成注意力网络,该网络堆叠m层;第1层的输入节点等于构建好的初始场景关系图的节点经过一层注意力网络更新后得到节点第m层的注意力网络更新后的关系节点表示为通过m层的注意力网络增强后的关系节点集合表示为nr表示边的数量。
步骤4.4:场景图关系分类的损失函数。对增强后的关系节点集合E*使用全连接层和激活函数Sigmoid来预测关系节点的分类情况yrel,表示为:
yrel=Sigmoid(FC(E*))
为了充分利用预训练的场景图关系解码器的监督信息,使用步骤3.3获得的监督信息,构建关系分类的损失函数Lcls为:
这样模型不仅能够通过视觉问答的答案对错来监督学习,还能够学习预训练关系解码器提供的训练标签,获得场景图关系预测的能力。
步骤5,使用所述整体向量特征对场景关系图中的关系特征进行选择,获得问题相关场景图关系特征。
本步骤中,在整体向量特征的引导下,使用注意力操作筛选与问题相关的关系,从而排除无关或错误的关系对视觉问答推理的影响,其中选择关系特征的具体步骤如下:
步骤5.2:关系排序损失函数。
步骤6,融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案。
本发明利用注意力机制的多层网络融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案,其中注意力机制的多层网络为多层Transformer结构的模态融合网络,通过多分类器选出概率最高的答案作为推理结果。推理输入问题的答案的具体步骤可描述如下:
步骤6.1:输入特征拼接。将步骤1中得到的问题分词向量表示Q=[q1,q2,…,qN]作为问题嵌入,步骤2中得到的视觉目标对象集合作为视觉嵌入,步骤5中得到的场景图关系表示作为关系嵌入,添加特殊标记[CLS],[SEP],转换后的拼接向量Oin可表示为:
步骤6.2:将步骤6.1中得到的拼接向量Oin输入到多层的Transformer融合网络中,在[CLS]标记输入位置处的最后输出特征作为融合特征,表示为:
OF=Transformer(Oin,Θ)
其中,Transformer(·)表示多层融合网络的训练操作,Θ表示可训练参数。
本发明中的多层Transformer融合网络架构如图3所示,主要分为3个模块:输入模块、编码模块、输出模块。
输入模块指对输入进行处理的嵌入层;编码模块由多个编码器层堆叠形成,每个编码器层由两个子层组成,第一个子层含有一个多头自注意力子层、规范化层、一个残差连接,第二个子层含有一个前馈全连接子层、规范化层、一个残差连接;输出模块包括线性化层和层归一化函数,这里采用Sigmoid函数。最终输出可表示为:
u=Sigmoid(FC(OF))
其中,Sigmoid(·)表示Sigmoid函数操作,FC(x)=Wx+b表示一个全连接层,OF表示融合特征。选择候选答案中概率最大对应的答案作为模型预测答案,如图4展示的该模型视觉问答的案例。
步骤6.3:损失函数。损失函数组成部分之一是视觉问答部分使用的标准交叉熵,本实施例使用二元交叉熵作为问答损失函数,训练分类问题,问答损失函数如公式:
最终总的损失函数为问答损失函数LQA、步骤4.4的分类损失函数Lcls和步骤5.3的排序损失函数Lrank之和:
Ltotal=LQA+Lcls+Lrank
本发明的模型训练和实验过程
1.数据集
本发明选择GQA数据集,它包含来自Visual Genome数据集的113,018张真实世界的图像,包含22,669,678个问题,涵盖了广泛的推理能力。
评价指标:GQA将视觉问答视为多分类问题。使用一种投票机制来计算模型的准确率。
其中,N为与标注者的答案保持一致的数量。因此,在数据集中,模型预测的答案至少与3个标注者保持一致,方可认为模型预测正确。
2.实验环境
本发明使用Python 3.7开发语言和Pytorch 1.5.0深度学习开发框架,实验使用8张Nvidia GTX Titan-V显卡进行,批处理大小为128个,使用Adam梯度下降算法,学习率设置为0.0001,在模型迭代12000次后,每迭代5000次对学习率乘以0.2,最终实验迭代了27000次后停止训练。
将本发明模型在GQA数据集上训练的最好结果,与其他先进模型进行比较,如表1所示;
表1本发明模型与其他模型在GQA test-dev数据集上的比较结果
其中MAC模型是表现良好的的隐式关系多阶段推理模型,该模型针对问题进行多个基于注意力的指导向量在视觉特征上进行推理。MCAN-large则是目前表现优异的采用自注意力和交互注意力机制的类Trasformer结构模型。表中Human表示人类在GQA数据集上的测验结果。
Ours是本发明的模型,比基准模型CNN+LSTM总体准确率提高了13.16%,与先进的BUTD模型相比准确率提升了9.97%,和先进的MCAN-large模型相比,本发明的模型在整体准确性上同样更好。
综上,本发明充分提取图像视觉目标的特征,在该视觉特征基础上初始化视觉目标之间的关系,将图像建模为关注目标关系的场景关系图,利用多层图注意力网络增强关系节点信息,再结合问题本身设计关系选择模块排除和问题无关或者错误的关系,然后利用注意力机制的多层网络融合视觉嵌入、问题嵌入和场景图关系嵌入进行推理来预测问题的答案。并且该发明在训练过程中,充分利用预训练的场景图关系解码器提供的监督信息,设计相关损失函数,提高模型结合问题本身理解图像视觉目标之间关系的能力。本发明通过增强场景图的关系节点信息和针对性地选择问题相关的场景图关系信息,提高了视觉问答的准确性。
Claims (10)
1.一种基于场景图关系信息增强的视觉问答方法,其特征在于,包括如下步骤:
步骤1,对文本形式的输入问题,提取其整体向量特征和分词向量特征;
步骤2,对输入图像,检测视觉目标对象,提取视觉目标特征;
步骤3,使用所述视觉目标特征构建场景关系图,并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类,获得视觉目标对象之间关系的监督信息;所述场景关系图中,以视觉目标对象之间的关系作为节点,视觉目标对象作为边;
步骤4,通过图消息传播机制的注意力网络对所述场景关系图进行增强;
步骤5,使用所述整体向量特征对场景关系图中的关系特征进行选择,获得问题相关场景图关系特征;
步骤6,融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案。
2.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤1,利用GloVe词向量模型,对输入问题中的单词进行向量化标注,在Glove单词向量的基础上,结合预训练的BERT模型,提取输入问题的整体向量特征和分词向量特征。
3.根据权利要求1或2所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤1,提取整体向量特征和分词向量特征的步骤如下:
步骤1.1:使用WordPiece的方法将输入问题划分为子词的单词数组W,表示为:
W=[w1,w2,…,wN]
其中N为输入问题中包含的单词数,w1,w2,…,wN为N个单独的子词;
步骤1.2:添加特殊标记[CLS]和[SEP]到单词数组W中,表示为{[CLS],w1,w2,…,wN,[SEP]};
步骤1.3:对单词数组W使用GloVe词向量模型获得单词向量集合H,表示为:
H=[h1,h2,…,hNq]
其中,H为经过GloVe词向量模型训练后的单词向量集合,h1,h2,…,hNq为Nq个单词向量;
4.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤2,使用X152-C4网络为骨干的Faster R-CNN目标检测算法对输入图像进行目标检测,对Nv个目标对象,得到对象语义特征区域视觉特征和区域位置特征结合所述对象语义特征、区域视觉特征和区域位置特征生成综合特征综合特征的计算公式定义如下:
li=σ(FCl([xi,pi,Embl(si)]))
5.根据权利要求4所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤3,构建场景关系图,并通过分类获得监督信息的步骤如下:
步骤3.1:视觉目标对象间初始关系的构建
使用视觉目标对象集合V构建视觉目标对象之间的初始关系集合E,若ek∈E,且第i个视觉目标对象vi和第j个视觉目标对象vj之间存在有向ek关系,写作<vi-ek-vj>,ek的计算公式如下:
ek=σ(FCr3([FCr1(vi),FCr2(vj)]))
其中,FCr1(x)、FCr2(x)和FCr3(x)均表示全连接层;
步骤3.2:场景关系图Grel的构建
场景关系图定义为:Grel={E,V,Ain,Aout},初始关系集合E作为场景关系图Grel的节点集合,视觉目标对象集合V作为场景关系图Grel的边集合,Ain和Aout是节点集合的入边和出边的邻接矩阵;
步骤3.3:场景图关系解码器预测结果作为关系监督信息
使用预训练的场景图关系解码器预测视觉目标对象之间的关系,关系解码器对视觉目标对象集合V中的任意两个视觉目标对象之间的关系进行预测,获取视觉目标对象之间关系的监督信息。
6.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤4,通过图消息传播机制的注意力网络更新关系节点的信息实现场景关系图的增强,步骤如下:
步骤4.1:通过注意力机制评估场景关系图中每个节点与其邻居节点的相关程度;节点ei与其邻居节点ej的注意权重αij的计算公式如下:
其中vk是连接ei和ej的有向边<ei,vk ej>,是可学习的映射矩阵,dh为相关性计算中设置的隐层向量维度,de为节点的向量维度,是可学习的映射矩阵,dv是边的向量维度,dir(·)是连接节点ei到节点ej的vk边方向,分为出边和入边两个方向,Ni表示节点ei的所有邻居节点集合;
步骤4.2:使用图消息传递框架更新节点的特征,使用得到的注意力权重汇集邻居节点以及节点自身的信息,从而更新每个节点,节点ei的更新公式如下:
步骤4.4:对增强后的关系节点集合E*使用全连接层和激活函数Sigmoid来预测关系节点的分类情况yrel,表示为:
yrel=Sigmoid(FC(E*))
使用所述监督信息,构建关系分类的损失函数Lcls,表示为:
7.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤5,在整体向量特征的引导下,使用注意力操作筛选与问题相关的关系,从而排除无关或错误的关系对视觉问答推理的影响。
8.根据权利要求1或7所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤5,选择关系特征的步骤如下:
步骤5.2:关系排序损失函数
9.根据权利要求1所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤6,利用注意力机制的多层网络融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案;所述注意力机制的多层网络为多层Transformer结构的模态融合网络,通过多分类器选出概率最高的答案作为推理结果。
10.根据权利要求9所述基于场景图关系信息增强的视觉问答方法,其特征在于,所述步骤6,推理输入问题的答案的步骤如下:
步骤6.1:输入特征拼接
将分词向量特征Q作为问题嵌入,视觉目标对象集合V作为视觉嵌入,场景图关系集合R作为关系嵌入,添加特殊标记[CLS]和[SEP],按如下方式得到拼接向量Oin:
步骤6.2,将拼接向量Oin输入到多层Transformer结构的模态融合网络中,在[CLS]标记输入位置处的最后输出特征作为融合特征,表示为:
OF=Transformer(Oin,Θ)
其中,Transformer(·)表示多层融合网络的训练操作,Θ表示可训练参数;
经过输出层的线性化层和层归一化函数,最终输出答案表示为:
y=Sigmoid(FC(OF))
其中,Sigmoid(·)表示Sigmoid函数操作,FC(x)表示一个全连接层,OF表示融合特征,选择最大概率对应的候选答案作为推理答案;
步骤6.3:损失函数
损失函数组成部分之一是视觉问答部分使用的标准交叉熵,训练分类问题,问答损失函数如公式:
最终总的损失函数为问答损失函数LQA、分类损失函数Lcls和排序损失函数Lrank之和:
Ltotal=LQA+Lcls+Lrank 。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310214638.4A CN116187349A (zh) | 2023-03-07 | 2023-03-07 | 一种基于场景图关系信息增强的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310214638.4A CN116187349A (zh) | 2023-03-07 | 2023-03-07 | 一种基于场景图关系信息增强的视觉问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116187349A true CN116187349A (zh) | 2023-05-30 |
Family
ID=86448632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310214638.4A Pending CN116187349A (zh) | 2023-03-07 | 2023-03-07 | 一种基于场景图关系信息增强的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116187349A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541507A (zh) * | 2023-07-06 | 2023-08-04 | 武汉工程大学 | 一种基于动态语义图神经网络的视觉问答方法及系统 |
CN117333744A (zh) * | 2023-09-21 | 2024-01-02 | 南通大学 | 一种基于空间特征融合和原型嵌入的无偏场景图生成方法 |
CN118312588A (zh) * | 2024-03-01 | 2024-07-09 | 华中科技大学 | 基于目标检测的中间过程监督策略的视觉问答方法 |
-
2023
- 2023-03-07 CN CN202310214638.4A patent/CN116187349A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541507A (zh) * | 2023-07-06 | 2023-08-04 | 武汉工程大学 | 一种基于动态语义图神经网络的视觉问答方法及系统 |
CN117333744A (zh) * | 2023-09-21 | 2024-01-02 | 南通大学 | 一种基于空间特征融合和原型嵌入的无偏场景图生成方法 |
CN117333744B (zh) * | 2023-09-21 | 2024-05-28 | 南通大学 | 一种基于空间特征融合和原型嵌入的无偏场景图生成方法 |
CN118312588A (zh) * | 2024-03-01 | 2024-07-09 | 华中科技大学 | 基于目标检测的中间过程监督策略的视觉问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7195365B2 (ja) | 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 | |
CN111554268B (zh) | 基于语言模型的语言识别方法、文本分类方法和装置 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN112561064B (zh) | 基于owkbc模型的知识库补全方法 | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
CN110347831A (zh) | 基于自注意力机制的情感分类方法 | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
CN114612767B (zh) | 一种基于场景图的图像理解与表达方法、系统与存储介质 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
Ishmam et al. | From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
Guo et al. | Matching visual features to hierarchical semantic topics for image paragraph captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |