CN116187349A

CN116187349A - 一种基于场景图关系信息增强的视觉问答方法

Info

Publication number: CN116187349A
Application number: CN202310214638.4A
Authority: CN
Inventors: 杜友田; 陈思源; 张新明
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-05-30

Abstract

一种基于场景图关系信息增强的视觉问答方法，首先提取输入问题的整体向量特征和分词向量特征；再检测视觉目标对象并提取视觉目标特征；然后构建关注目标关系的场景关系图；利用多层图注意力网络增强关系节点信息，设计的关系选择模块结合问题向量排除和问题无关或者错误的关系；最后利用注意力机制的多层网络融合视觉嵌入、问题嵌入、和场景图关系嵌入来推理问题的答案。该方法还在训练过程中，充分利用预训练的场景图关系解码器提供的监督信息，设计相关损失函数，提高了模型结合问题本身理解图像视觉目标之间关系的能力。本发明通过增强场景图的关系节点信息和针对性地选择问题相关的场景图关系信息，提高了视觉问答的准确性。

Description

一种基于场景图关系信息增强的视觉问答方法

技术领域

本发明属于计算机视觉技术领域和自然语言处理技术领域，涉及视觉问答的方法，特别涉及一种基于场景图关系信息增强的视觉问答方法。

背景技术

视觉问答(Visual Question Answering，VQA)的目标是根据图片上的信息，给出与图片相关的自然语言问题的答案。视觉问答模型不仅需要对图像内容、自然语言问题的语义和相关知识有一定理解，还需要理解两个模态之间的关联并做出正确的答案推理。视觉问答技术在现实生活中，也有着广泛的应用前景，比如辅助视障人士了解和认识现实或网络的图像信息，提升计算机的图像理解能力，支持更丰富的图像检索等。大多数现有的视觉问答方法主要包括图像编码器、问题编码器、特征融合和答案推理模块。这些方法会使用卷积神经网络CNN进行图像特征的提取和循环神经网络RNN学习问题表示，然后融合两个特征到同一空间进行答案的预测。在视觉问答的GQA、VQA 2.0等数据集中，大部分问题都涉及一个以上的物体。因此物体和问题之间更丰富的关系信息能起到更多的帮助。

利用更加抽象层次的图像表示形式进行视觉问答任务是最近的研究热点。利用场景图进行视觉问答除了可以获得优秀的性能，在可解释性上也有优势。但是主要存在两个缺点，首先使用现有场景图生成模型去生成的场景图信息，包含了许多与问题无关的节点和边的信息，并且这些节点和边的信息还可能会有错误的噪声；其次现有的一些模型在对图像目标关系的是使用了隐式的关系推理或者简单的空间关系，并没有充分利用场景图的监督信息。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于场景图关系信息增强的视觉问答方法，该方法通过对生成初始场景图的关系信息进行增强并结合问题进行关系选择，能够减少场景图中无关和错误的边对视觉问答答案推理的影响，从而获得视觉问答准确率的提升。

为了实现上述目的，本发明采用的技术方案是：

一种基于场景图关系信息增强的视觉问答方法，包括如下步骤：

步骤1，对文本形式的输入问题，提取其整体向量特征和分词向量特征；

步骤2，对输入图像，检测视觉目标对象，提取视觉目标特征；

步骤3，使用所述视觉目标特征构建场景关系图，并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类，获得视觉目标对象之间关系的监督信息；所述场景关系图中，以视觉目标对象之间的关系作为节点，视觉目标对象作为边；

步骤4，通过图消息传播机制的注意力网络对所述场景关系图进行增强；

步骤5，使用所述整体向量特征对场景关系图中的关系特征进行选择，获得问题相关场景图关系特征；

步骤6，融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案。

与现有技术相比，本发明的有益效果是：本发明利用图神经网络对场景图中的关系进行增强，并在问题的指引下进行关系的选择，减少场景图的无关或者错误的边的噪声，从而获得更好的性能。另外，本发明还充分地利用了预训练场景图模型的能力，使用场景图关系解码器生成的标签作为监督信息，设计两种相关损失函数，提高模型场景关系图上的增强模块的能力。

附图说明

图1为本发明基于场景图关系信息增强的视觉问答方法的整体流程图。

图2为本发明基于场景图关系信息增强的视觉问答方法的整体模型框图。

图3为本发明中多层Transformer模态融合推理网络的模型示意图。

图4为本发明视觉问答的案例结果图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参考图1和图2的具体步骤，本发明是一种基于场景图信息增强的视觉问答方法，主要包含以下6个部分：问题嵌入、视觉目标特征提取、场景关系图构建、场景关系图增强、关系选择、模态融合和答案推理，具体按照以下步骤实施：

步骤1，对文本形式的输入问题，提取其整体向量特征和分词向量特征。

本发明通过WordPiece将问题划分为独立单词，在单词集合中添加特殊标记后利用GloVe词向量模型对输入问题中的单词进行向量化标注，在Glove单词向量的基础上，再通过预训练的BERT模型提取输入问题的整体向量特征和分词向量特征，具体步骤为：

步骤1.1：使用WordPiece的方法将输入问题划分为子词的单词数组W，即输入的问题句子转化为单词数组W，表示为：

W＝［w₁,w₂,…,w_N]

其中N为输入问题中包含的单词数，w₁,w₂,…,w_N为N个单独的子词。

步骤1.2：添加特殊标记[CLS]，[SEP]到单词数组W中，问题句子所转换的单词集合可表示为{[CLS],w₁,w₂,…,w_N,[SEP]}。

步骤1.3：使用GloVe词向量模型获得单词向量集合H，表示为：

H＝[h₁,h₂,…,h_N]

其中，H为经过GloVe词向量模型训练后的单词向量集合，h₁,h₂,…,h_N为N个单词向量。其中，H为经过GloVe词向量模型训练后的单词向量集合，h₁,h₂,…,h_Nq为N_q个单词向量。

步骤1.4：将各单词向量输入到预训练的BERT模型中，获得输入问题的整体向量特征

和分词向量特征

分别为与h₁，h₂，…，h_Nq对应的分词向量特征。

步骤2，对输入图像，检测视觉目标对象，提取视觉目标特征。

本发明中，使用Faster R-CNN模型框架进行图像视觉信息提取，有利于获取到图像中多维度的特征信息，有效地提高了后续场景关系图构建的准确性。本实例中选用X152-C4网络作为Faster R-CNN目标检测算法的骨干网络，通过该目标检测算法对输入图像进行目标检测，预测出N_v个目标对象，并得到其对象语义特征

区域视觉特征

和区域位置特征

结合所述对象语义特征、区域视觉特征和区域位置特征生成综合特征

综合特征的计算公式定义如下：其中，对于第i个候选视觉目标对象，其综合特征的计算公式定义如下：

l_i＝σ(FC_l([x_i，p_i，Emb_l(s_i)]))

其中，l_i表示第i个目标对象的综合特征，xi表示第i个目标对象的区域视觉特征，p_i表示第i个目标对象的区域位置特征，s_i表示第i个目标对象的对象语义特征，[·]表示一个拼接操作，σ(·)表示非线性变换ReLU，Emb_l(·)表示基于预训练GloVe模型产生的语言词嵌入转换，FC_l(x)＝Wx+b表示一个全连接层。

本发明中选取置信度最大的前K_v个物体候选框作为场景图的视觉目标对象集合

表示第K_v个视觉目标对象。

经过上述综合特征的计算处理后，视觉目标对象的表示中不仅包含自身的视觉区域特征，还包含对象在图像上的空间位置信息以及抽象语义的描述特征。通过这些信息，后续模型可以更加容易地理解的所学习物体之间的语义关系和空间位置关系，从而能够更加准确地推理目标对象之间的关系，并在此基础上预测出正确答案。

步骤3：使用所述视觉目标特征构建场景关系图，并通过预训练的场景图关系解码器对视觉目标对象间的关系进行分类，获得视觉目标对象之间关系的监督信息；所述场景关系图中，以视觉目标对象之间的关系作为节点，视觉目标对象作为边。

本发明使用步骤2获得的视觉目标特征构建初始场景关系图。与通常场景图不同的是，场景关系图更强调视觉目标对象之间的关系特征，因此构建视觉目标对象之间的全连接的初始关系后，选择初始关系作为场景关系图的节点，初始关系相关的节点则作为场景关系图的边。同时，为了后续充分利用场景图的监督信息，通过预训练的场景图关系解码器对步骤1产生的视觉目标间的关系进行分类，获得目标之间的关系分类监督信息。具体步骤为：

步骤3.1：视觉目标对象间初始关系的构建。

使用视觉目标对象集合V构建视觉目标对象之间的初始关系集合E，若e_k∈E，且第i个视觉目标对象v_i和第j个视觉目标对象v_j之间存在有向e_k关系，写作<v_i-e_k-v_j>，e_k的计算公式如下：

e_k＝σ(FC_r3([FC_r1(v_i)，FC_r2(v_j)]))

其中，[·]表示一个拼接操作，σ(·)表示非线性变换ReLU，FC_r1(x)、FC_r2(x)和FC_r3(x)均表示全连接层。

步骤3.2：场景关系图G_rel的构建。

与常见的场景图表示略微不同的是，由于本发明专注于场景图关系的增强，使用目标对象之间的关系作为节点，而视觉目标对象则是场景关系图的边。V表示场景关系图的视觉目标对象v_i的集合，同时也是场景关系图的边的集合；E则表示步骤3.1得到的关系e_i的集合，同时也是场景关系图的节点的集合。

由于场景关系图是有向的，对于任意v_k∈V，则可以表示为e_i对e_j存在一个有向关系，不妨写作<e_i-v_k-e_j>。这样可以构建出新的场景关系图，以e_i和v_k的方向为准，将关系节点集合E的入边和出边的邻接矩阵分别表示为A_in和A_out，场景关系图定义为：

G_rel＝{E，V，A_in，A_out}。

其中，初始关系集合E作为场景关系图G_rel的节点集合，视觉目标对象集合V作为场景关系图G_rel的边集合，A_in和A_out是节点集合的入边和出边的邻接矩阵。

步骤3.3：场景图关系解码器预测结果作为关系监督信息。

使用一个在Visual Genome数据集上预训练的分类网络即场景图关系解码器来预测视觉目标对象之间的关系。该关系解码器对视觉目标对象集合V中的任意两个视觉目标对象之间的关系进行预测，获取视觉目标对象之间关系的监督信息，作为关系的监督标签

步骤4，通过图消息传播机制的注意力网络对所述场景关系图进行增强。

本发明在步骤3获得的场景关系图G_rel上，通过图消息传播机制的注意力网络来更新关系节点的信息从而实现场景关系图的增强。为了聚合邻居节点和边的信息来更好地表示视觉目标对象之间的关系信息，采用了注意力网络的方法，大大增强了关系节点的信息。

步骤4.1：通过注意力机制评估场景关系图中每个节点与其邻居节点的相关程度；节点e_i与其邻居节点e_j的注意权重α_ij的计算公式如下：

其中v_k是连接e_i和e_j的有向边<e_i，v_k e_j>，

是可学习的映射矩阵，d_h为相关性计算中设置的隐层向量维度，d_e为节点的向量维度，

是可学习的映射矩阵，d_v是边的向量维度，dir(·)是连接节点e_i到节点e_j的v_k边方向，分为出边和入边两个方向，N_i表示节点e_i的所有邻居节点集合。

步骤4.2：使用图消息传递框架更新节点的特征，使用得到的注意力权重汇集邻居节点以及节点自身的信息，从而更新每个节点，节点e_i的更新公式如下：。

其中，

是节点e_i增强后的表示，

和

是可学习的映射矩阵。

步骤4.3：通过步骤4.1和步骤4.2组成注意力网络，该网络堆叠m层；第1层的输入节点等于构建好的初始场景关系图的节点

经过一层注意力网络更新后得到节点

第m层的注意力网络更新后的关系节点表示为

通过m层的注意力网络增强后的关系节点集合表示为

n_r表示边的数量。

步骤4.4：场景图关系分类的损失函数。对增强后的关系节点集合E^*使用全连接层和激活函数Sigmoid来预测关系节点的分类情况y_rel，表示为：

y_rel＝Sigmoid(FC(E^*))

为了充分利用预训练的场景图关系解码器的监督信息，使用步骤3.3获得的监督信息，构建关系分类的损失函数L_cls为：

其中，N_rel是总共的关系数量(N在前文表示单独的子词数量)，

是增强后关系节点预测的分类情况，

是关系解码器获取的监督标签。

这样模型不仅能够通过视觉问答的答案对错来监督学习，还能够学习预训练关系解码器提供的训练标签，获得场景图关系预测的能力。

步骤5，使用所述整体向量特征对场景关系图中的关系特征进行选择，获得问题相关场景图关系特征。

本步骤中，在整体向量特征的引导下，使用注意力操作筛选与问题相关的关系，从而排除无关或错误的关系对视觉问答推理的影响，其中选择关系特征的具体步骤如下：

步骤5.1：使用注意力操作计算整体向量特征

与增强的关系节点集合E^*中的每个节点的相似度分数：

其中，

<·>为点积操作，使用Sigmoid函数限制相似度分数在(0，1)，选择前K_r个节点为候选关系表示集合

步骤5.2：关系排序损失函数。

使用所述监督信息，预训练的场景图关系解码器判断两个视觉目标对象有关的节点作为正面关系集合

无关的节点作为负面关系集合

构建关系排序损失函数：

其中，m是可调阈值，Z是一个规一化因子，f_p表示

中采样的p在步骤5.1中的相似度分数，f_n表示

中采样的n在步骤5.1中的相似度分数。

本发明利用注意力机制的多层网络融合分词向量特征、视觉目标特征、问题相关场景图关系特征推理输入问题的答案，其中注意力机制的多层网络为多层Transformer结构的模态融合网络，通过多分类器选出概率最高的答案作为推理结果。推理输入问题的答案的具体步骤可描述如下：

步骤6.1：输入特征拼接。将步骤1中得到的问题分词向量表示Q＝[q₁，q₂，…，q_N]作为问题嵌入，步骤2中得到的视觉目标对象集合

作为视觉嵌入，步骤5中得到的场景图关系表示

作为关系嵌入，添加特殊标记[CLS]，[SEP]，转换后的拼接向量O_in可表示为：

步骤6.2：将步骤6.1中得到的拼接向量O_in输入到多层的Transformer融合网络中，在[CLS]标记输入位置处的最后输出特征作为融合特征，表示为：

O_F＝Transformer(O_in，Θ)

其中，Transformer(·)表示多层融合网络的训练操作，Θ表示可训练参数。

本发明中的多层Transformer融合网络架构如图3所示，主要分为3个模块：输入模块、编码模块、输出模块。

输入模块指对输入进行处理的嵌入层；编码模块由多个编码器层堆叠形成，每个编码器层由两个子层组成，第一个子层含有一个多头自注意力子层、规范化层、一个残差连接，第二个子层含有一个前馈全连接子层、规范化层、一个残差连接；输出模块包括线性化层和层归一化函数，这里采用Sigmoid函数。最终输出可表示为：

u＝Sigmoid(FC(O_F))

其中，Sigmoid(·)表示Sigmoid函数操作，FC(x)＝Wx+b表示一个全连接层，O_F表示融合特征。选择候选答案中概率最大对应的答案作为模型预测答案，如图4展示的该模型视觉问答的案例。

步骤6.3：损失函数。损失函数组成部分之一是视觉问答部分使用的标准交叉熵，本实施例使用二元交叉熵作为问答损失函数，训练分类问题，问答损失函数如公式：

y是模型预测答案，

是标注答案，N_ans表示所有答案的总数；

最终总的损失函数为问答损失函数L_QA、步骤4.4的分类损失函数L_cls和步骤5.3的排序损失函数L_rank之和：

L_total＝L_QA+L_cls+L_rank

本发明的模型训练和实验过程

1.数据集

本发明选择GQA数据集，它包含来自Visual Genome数据集的113，018张真实世界的图像，包含22，669，678个问题，涵盖了广泛的推理能力。

评价指标：GQA将视觉问答视为多分类问题。使用一种投票机制来计算模型的准确率。

其中，N为与标注者的答案保持一致的数量。因此，在数据集中，模型预测的答案至少与3个标注者保持一致，方可认为模型预测正确。

2.实验环境

本发明使用Python 3.7开发语言和Pytorch 1.5.0深度学习开发框架，实验使用8张Nvidia GTX Titan-V显卡进行，批处理大小为128个，使用Adam梯度下降算法，学习率设置为0.0001，在模型迭代12000次后，每迭代5000次对学习率乘以0.2，最终实验迭代了27000次后停止训练。

将本发明模型在GQA数据集上训练的最好结果，与其他先进模型进行比较，如表1所示；

表1本发明模型与其他模型在GQA test-dev数据集上的比较结果

其中MAC模型是表现良好的的隐式关系多阶段推理模型，该模型针对问题进行多个基于注意力的指导向量在视觉特征上进行推理。MCAN-large则是目前表现优异的采用自注意力和交互注意力机制的类Trasformer结构模型。表中Human表示人类在GQA数据集上的测验结果。

Ours是本发明的模型，比基准模型CNN+LSTM总体准确率提高了13.16％，与先进的BUTD模型相比准确率提升了9.97％，和先进的MCAN-large模型相比，本发明的模型在整体准确性上同样更好。

综上，本发明充分提取图像视觉目标的特征，在该视觉特征基础上初始化视觉目标之间的关系，将图像建模为关注目标关系的场景关系图，利用多层图注意力网络增强关系节点信息，再结合问题本身设计关系选择模块排除和问题无关或者错误的关系，然后利用注意力机制的多层网络融合视觉嵌入、问题嵌入和场景图关系嵌入进行推理来预测问题的答案。并且该发明在训练过程中，充分利用预训练的场景图关系解码器提供的监督信息，设计相关损失函数，提高模型结合问题本身理解图像视觉目标之间关系的能力。本发明通过增强场景图的关系节点信息和针对性地选择问题相关的场景图关系信息，提高了视觉问答的准确性。

Claims

1.一种基于场景图关系信息增强的视觉问答方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于场景图关系信息增强的视觉问答方法，其特征在于，所述步骤1，利用GloVe词向量模型，对输入问题中的单词进行向量化标注，在Glove单词向量的基础上，结合预训练的BERT模型，提取输入问题的整体向量特征和分词向量特征。

3.根据权利要求1或2所述基于场景图关系信息增强的视觉问答方法，其特征在于，所述步骤1，提取整体向量特征和分词向量特征的步骤如下：

步骤1.1：使用WordPiece的方法将输入问题划分为子词的单词数组W，表示为：

W＝[w₁,w₂,…,w_N]

其中N为输入问题中包含的单词数，w₁,w₂,…,w_N为N个单独的子词；

步骤1.2：添加特殊标记[CLS]和[SEP]到单词数组W中，表示为{[CLS],w₁,w₂,…,w_N,[SEP]}；

步骤1.3：对单词数组W使用GloVe词向量模型获得单词向量集合H，表示为：

H＝[h₁,h₂,…,h_Nq］

其中，H为经过GloVe词向量模型训练后的单词向量集合，h₁,h₂,…,h_Nq为N_q个单词向量；

和分词向量特征

分别为与h₁,h₂,…,h_Nq对应的分词向量特征。

4.根据权利要求1所述基于场景图关系信息增强的视觉问答方法，其特征在于，所述步骤2，使用X152-C4网络为骨干的Faster R-CNN目标检测算法对输入图像进行目标检测，对N_v个目标对象，得到对象语义特征

区域视觉特征

和区域位置特征

综合特征的计算公式定义如下：

l_i＝σ(FC_l([x_i,p_i,Emb_l(s_i)]))

其中，l_i表示第i个目标对象的综合特征，x_i表示第i个目标对象的区域视觉特征，p_i表示第i个目标对象的区域位置特征，s_i表示第i个目标对象的对象语义特征，[·]表示一个拼接操作，σ(·)表示非线性变换ReLU，Emb_l(·)表示基于预训练GloVe模型产生的语言词嵌入转换，FC_l(x)＝Wx+b表示一个全连接层，选取置信度最大的前K_v个物体候选框作为场景图的视觉目标对象集合