CN110111399B

CN110111399B - 一种基于视觉注意力的图像文本生成方法

Info

Publication number: CN110111399B
Application number: CN201910334588.7A
Authority: CN
Inventors: 应捷; 吴倩; 胡文凯
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2023-06-30
Anticipated expiration: 2039-04-24
Also published as: CN110111399A

Abstract

本发明涉及一种基于视觉注意力的图像文本生成方法，包括步骤S1：输入训练样本图像，获取训练样本图像的区域特征向量和区域空间特征向量；步骤S2：对训练样本图像的标注文本进行预处理，构建词汇库，并对词汇库中的单词进行编码得到每个单词的单词向量；步骤S3：将所述的训练样本图像的区域特征向量、区域空间特征向量和单词向量输入基于双向LSTM视觉注意力网络的图像语义理解模型，得到训练图像文本；步骤S4：通过反向传播算法优化训练所述的图像语义理解模型，得到最优模型；步骤S5：将测试图像输入所述最优模型得到测试图像文本。与现有技术相比，本发明能够结合历史信息和结合未来信息，并且能够在一定程度上修正之前关注的错误区域。

Description

一种基于视觉注意力的图像文本生成方法

技术领域

本发明涉及计算机视觉与图像理解领域，尤其是涉及一种基于视觉注意力的图像文本生成方法。

背景技术

图像文本描述任务是指以图像为对象，研究图像中的背景、物体、物体属性、物体间关系，并且生成具有一定结构的语句的工作。该领域的应用前景十分广泛，可用于图像检索、智能儿童早教机、智能机器人和辅助视觉障碍者等方面。近年来，研究人员针对图像文本描述问题提出了多种解决方案。

汤鹏杰、谭云兰、李金忠在大规模场景类别数据集上训练场景分类模型中的参数。同时，在大规模物体类别数据集上训练物体分类模型中的参数。然后将两个模型的参数迁移到文本描述模型中，用于捕捉图像中的背景、物体信息，并将其送入语言模型LSTM，最终生成图像的描述句子。

汤鹏杰、王瀚漓、许恺晟、首先使用浅层LSTM进行训练，收敛之后，保留原LSTM模型中的分类层及目标函数，并添加新的LSTM层及目标函数重新对模型进行训练，对模型原有参数进行微调，使用Softmax函数得到每层对单词的预测概率分值，最后将多层的概率分值进行加权融合，得到生成的单词。

刘畅、周向东、施伯乐、提出图像语义相似性神经网络，在递归神经网络的输出层之后添加全连接网络，引入图像间的视觉相似性和文本相似性信息，从而在预测图像的文本描述时保持相似图像的有效语义信息。

申请号为201611226528.6的专利提出了一种基于深度残差网络注意力的图像理解方法，使用深度残差网络提取图像的特征，利用前一时刻LSTM的隐含层和图像特征决定当前关注的区域，并由其引导LSTM生成新的单词。

申请号为201611236901.6的专利提出了一种使用知识迁移生成图像文本描述的方法。利用现成图像分类器以及语料库中的语法结构和语料关联，通过迁移学习更加准确的描述图像的内容。

申请号为201810748973.1的专利提出了一种基于图像相似性的图像标注语句自动生成方法。首先使用卷积神经网络提取图像的全局特征和局部特征，计算目标图像与训练图像的余弦相似度，寻找多个相似度较高的图像，根据其对应的文本生成目标图像的文本描述。

随着深度学习的发展，基于注意力机制的图像文本描述方法随之产生，并且取得了较大的成效。周治平、张威首先改进LSTM结构，并基于此设计了基于图像视觉语义属性的自适应注意力机制,模型根据上一时刻信息,自动选择下一时刻模型需要处理的图像区域。此外，构建了基于残差连接的stack-LSTM结构，能够联合图像视觉特征和语义特征对图像进行描述。

张威、周治平提出了一种结合图像动态语义指导和自适应注意力机制的图像描述模型。使用图像检索方法首先检索到与目标图像相似的图像语义描述，然后将该语句作为目标图像的指导信息。改进的注意力机制使用的不是均匀分割的图像，而是基于密度的图像信息。该模型可以联合图像语义信息和注意力信息进行图像内容描述。

徐守坤、周佳、李宁首先通过卷积神经网络得到图像特征，特征区域与文本标注序列匹配；然后通过注意力机制给标注词汇加权，结合空间特征提取损失函数得到基于空间特征注意力的图像文本描述。

申请号为201611207945.6的专利提出一种基于“视觉哨兵”门的自适应注意力模型，引入了一个新的LSTM产生额外的“视觉哨兵”向量，进一步得到哨兵门，由该哨兵门决定当前时刻生成的单词是依赖于视觉信息还是依赖于语言模型，从而生成完整的图像描述。

申请号为201710560024.6的专利提出了一种基于视觉显著性与语义属性跨模态的图像文本描述方法。首先使用预训练的显著性模型回归出图像的显著性图，并对原始图像进行加权。其次建立语义属性类别词典，对图像进行语言属性检测，使用多示例学习计算语义属性，并利用语义属性对图像特征加权。最后使用LSTM解码，产生图像的文本描述。

申请号为201710632600.3的专利提出了一种新型的注意模型进行图像字幕生成的方法。由卷积神经网络提取图像特征，递归神经网络生成对应字幕，嵌入显著度预测模型提高生成字幕的质量。其中，显著度预测模型通过显著图和语义分割结果决定。

申请号为201710806029.2的专利提出了一种融合视觉注意力和语义注意力的图像语义理解方法，该方法结合了图像到文本的转换，以及文本和文本之间的转换。利用视觉注意力模型产生图像的语义信息，将该语义信息和检测出的属性信息共同输入语义模型LSTM中预测新产生的单词。

申请号为201710806115.3的专利提出一种融合视觉注意力和语义注意力的图像文本生成方法。首先使用卷积神经网络提取图像的特征，同时将对应的文本通过LSTM获得时序信息。根据图像特征和时序信息生成视觉注意力模型。根据图像特征、时序信息和前一时刻单词生成语义注意力模型。使用这两个模型的注意力矩阵生成自动平衡测略，对LSTM模型进行修正，将生成的单词组合成图像的文本描述。

申请号为201710969648.3的专利提出了一种基于聚焦机制的深度神经网络图像标注方法，注意力集中的区域不仅由语言模型隐含层状态决定，而且由前一时刻的聚焦区域决定。聚焦权重加权后的图像特征输入语言模型LSTM中获得当前产生的单词，串联每个时刻的单词生成完整的语句。

申请号为201810684426.1的专利提出了一种基于属性增强注意力模型的图像描述方法。通过对属性词之间的相关关系进行建模，使得模型不仅能够通过图像信息预测属性词，而且能通过属性词之间的关系预测图像生成的文本。

基于注意力的图像语义理解模型被证明能够较好的生成图像的文本描述，但目前现有的模型只考虑前一时刻关注的信息，而没有结合后续时刻关注的信息。某个时刻关注的区域除了与语言模型的隐含状态有关，还有可能受到前后注意区域的影响。针对这个问题，本发明提出了一种结合前后信息的视觉注意力图像文本处理方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视觉注意力的图像文本生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于视觉注意力的图像文本生成方法，该方法包括以下步骤：

步骤S1：输入训练样本图像，利用卷积神经网络获取训练样本图像的区域特征向量和区域空间特征向量；

步骤S2：输入训练样本图像的标注文本，对训练样本图像的标注文本进行预处理，构建词汇库，并对词汇库中的单词进行编码得到每个单词的单词向量；

步骤S3：将所述的训练样本图像的区域特征向量、区域空间特征向量和单词向量输入基于双向LSTM视觉注意力网络的图像语义理解模型，得到训练图像文本；

步骤S4：通过反向传播算法优化训练所述的图像语义理解模型，得到最优模型；

步骤S5：将测试图像输入所述最优模型得到测试图像文本。

步骤S1中卷积神经网络为InceptionV3，获取所述的区域特征向量和区域空间特征向量包括以下步骤：

步骤S11：输入训练样本图像，使用InceptionV3第一个全连接层前的部分得到区域特征向量；

步骤S12：将步骤S11中得到的特征向量再经过一个全连接层，得到区域空间特征向量。

步骤S2中单词向量获取步骤包括：

步骤S21：用空格替换标注文本中的标点符号；

步骤S22：用英文字符替换标注文本中的特殊字符；

步骤S23：将标注文本中的所有单词转换为小写形式；

步骤S24：设置句子的最大长度，删除长度大于最大长度的句子，对于长度小于最大长度的句子进行填充；

步骤S25：补充句子的开始和结束标签；

步骤S26：根据保留句子的全部单词构建词汇库；

步骤S27：利用独热编码和word embedding方法得到单词向量。

双向LSTM视觉注意力网络包括前向LSTM视觉注意力网络和后向LSTM视觉注意力网络，步骤S3包括：

步骤S31：将步骤S1得到的区域特征向量分别输入前向LSTM视觉注意力网络和后向LSTM视觉注意力网络，得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络的隐含层特征向量；

步骤S32：将步骤S1得到的区域空间特征向量和所述的隐含层特征向量融合，融合后的结果通过全连接层和归一化层得到每个时刻前向LSTM视觉注意力网络和后向LSTM视觉注意力网络区域关注系数；

步骤S33：假设前向LSTM视觉注意力网络参与区域关注系数生成的比例为β，计算得到上下文向量V_t；

步骤S34：建立双层LSTM神经网络，将所述的单词向量输入第一层LSTM神经网络，得到第一层每个时刻的隐含层特征向量；

步骤S35：将步骤S34得到的第一层每个时刻的隐含层特征向量和步骤S33得到的上下文向量V_t输入第二层LSTM神经网络，得到第二层每个时刻的隐含层特征向量；

步骤S36：步骤S35得到的第二层每个时刻的隐含层特征向量通过两个全连接层和softmax层，得到每个时刻对应的单词向量，根据单词向量与图像文本对应关系得到每个时刻对应的图像文本。

上下文向量V_t为：

其中，T为所述的双向LSTM视觉注意力网络单元数，L表示区域的个数，

和/>

分别为前向LSTM视觉注意力网络t时刻图像第i个区域的区域特征向量和区域关注系数，/>

和

分别为后向LSTM视觉注意力网络T-t时刻图像第i个区域的区域特征向量和区域关注系数。

步骤S4中反向传播算法的损失函数为：

其中，S₀-S_t表示0-t时刻图像I的标定图像文本，N为训练样本图像大小，

为区域关注系数的正则项，λ为1。

双向LSTM视觉注意力网络的隐含层和存储细胞状态的初始值由输入图像的平均全局特征决定。

步骤S4中反向传播算法计算梯度时，使用Adam优化算法更新网络参数。

与现有技术相比，本发明具有以下优点：

(1)运用双向LSTM视觉注意力网络，双向LSTM视觉注意力网络包括前向LSTM视觉注意力网络和后向LSTM视觉注意力网络，能够结合历史信息和结合未来信息，实现注意力区域的动态提取，能够在一定程度上修正之前关注的错误区域，使得关注区域更加准确。本发明能有效的增强局部视觉区域与文本的联系，从而生成符合图像的文本描述。

(2)步骤S34使用两层LSTM，第一层LSTM实现对语言的进行初步建模以及单词向量的特征变换，第二层LSTM结合图像上下文得到图像对应的文本。这种结构能够减少有效信息的损失，更加准确的生成图像的文本描述。

(3)使用InceptionV3模型参数，减少了较大调参的个数，实际操作中很简便。

(4)使用Adam优化算法，计算效率高，所需内存少，梯度对角缩放的不变性，适合解决含大规模数据和参数的优化问题。

(5)使用反向传播训练模型，具有快速方便、容易实现的优点。

附图说明

图1为本发明流程图；

图2为本发明整体模型框架图；

图3为本发明中InceptionV3的结构图；

图4为本发明中LSTM单元结构图；

图5为本发明生成区域关注系数的流程图；

图6(a)-6(h)为本发明测试结果，其中图6(a)为输入原始图像，图6(b)-6(h)是根据原始图像在各个时刻生成的单词以及对应的聚焦区域示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本发明提出了一种基于视觉注意力的图像文本生成方法，具体包括以下步骤：

步骤(1)：提取图像特征。获取在Imagenet数据集上预训练的InceptionV3模型参数，使用该模型的卷积层提取图像的特征向量F，F＝{F₁,F₂,F₃,...,F_l}，F_i∈R^D。即，将图像平均分为L个区域，每一个区域均是D维的向量。

步骤(2)：预处理图像对应的标注文本。删除文本中的标点符号以及特殊字符，将句子中的单词全部转换成小写形式，并且用空格分隔句子中的每个单词。另外，设置句子的最大长度是19，删除句子长度大于19的句子，对于长度小于19的句子，用<null>进行填充。在每条语句的第一个单词之前加上<start>标签，在最后一个单词后面加上<end>标签。根据保留句子中出现的全部单词以及<null>、<start>、<end>建立词汇库，将词汇库中的每个单词转换成独热编码形式，再利用word embedding降维，得到每个单词对应的单词向量。

步骤(3)：得到图像区域关注系数。将步骤(1)中得到的图像特征向量输入长度为20的双向长短期记忆网络(Long Short-Term Memory，LSTM)视觉注意力网络中，在每个LSTM单元后加上一个注意力机制获取图像L个区域分别对应的区域关注系数，并且设置前向区域关注系数与后向区域关注系数比例β。其中，注意力机制由LSTM的隐含层状态和输入的图像特征向量决定。由于图像被分为L个区域，因此每个时刻区域关注系数的维度是L，假设前向区域关注系数α_f＝{α¹,α²,α³,...,α^l}，αⁱ∈R。

步骤(4)：生成上下文向量。根据步骤(3)得到的区域关注系数和图像的特征向量F计算每个时刻的上下文向量。

步骤(5)：得到每个时刻生成的单词。建立两层LSTM模型，将单词向量输入第一层LTSM中，每个时刻的隐含层向量除了输入到当前层的下一时刻，还与前一时刻得到的上下文向量一起输入到下一层LSTM。在第二层LSTM后设置两个全连接层和一个softmax层，用于输出产生的单词向量，并根据词汇表判断当前的图像文本。

本发明的有益效果在于：

(1)能够结合历史信息和结合未来信息，实现注意力区域的动态提取，能够在一定程度上修正之前关注的错误区域，使得关注区域更加准确。本发明能有效的增强局部视觉区域与文本的联系，从而生成符合图像的文本描述。

(2)使用两层LSTM构建语言模型，第一层LSTM实现对语言的进行初步建模以及单词向量的特征变换，第二层LSTM结合图像上下文进一步构建语言模型。这种结构能够减少有效信息的损失，更加准确的生成图像的文本描述。

如图1所示，本发明实现图像语义理解整体流程为：使用卷积神经网络提取图像的特征向量，并且将这些特征输入到双向LSTM视觉注意力网络中获得区域关注系数，根据区域关注系数和图像特征向量构建上下文向量。对标注文本进行预处理，获得词汇库，根据词汇库中单词的独热编码和词嵌入技术获得每个单词的向量表达。将上述处理得到的图像信息和文本信息输入双层的语言模型LSTM，根据LSTM隐含层向量得到每个时刻生成的图像文本。

本发明的整体流程可概括为以下六个部分：

1.图像预处理。

2.文本预处理。

3.将上述处理得到的图像信息与文本信息输入图像语义理解模型。

4.通过反向传播训练该模型。

5.输入几张测试集中图片，测试训练好的模型生成的文本表述。

6.根据测试集中的标定文本和模型生成的文本计算模型评价得分。

下面将详细描述这六个部分的具体实施方式。

1.图像预处理。图像的语义理解模型常采用卷积神经网络对图像进行编码，常见的编码模型有VGG19、ResNet、google的Inception系列模型等，在本例中使用的InceptionV3模型。具体处理步骤如下：

步骤(1)：提取图像特征向量。获取在Imagenet数据集上预训练的InceptionV3模型参数，使用其第一个全连接层前的部分提取图像的特征F。

如图3所示，每张图像经过特征提取后得到的向量维数是64*2048。令图像的特征向量表示为：F＝{F₁,F₂,F₃,...,F_l}，F_i∈R^D，那么，L＝64，D＝2048。即，将图像平均分为64个区域，每一个区域均是2048维的向量。

步骤(2)：计算图像空间特征。将步骤(1)中得到的局部向量F_i经过一个全连接层，得到每个局部区域的空间特征向量F_i＝W_iF_i，W_i∈R^D那么每张图像的空间特征向量可表示为F'＝{F₁',F₂',F₃',...,F_l'}，F_i'∈R^D。

2.文本预处理。文本处理具体步骤如下：

步骤(1)：替换图像标注文本中的标点符号。比如“,”、“.”、“’”、“””、“(”、“)”、“-”等全部替换为空格“”。

步骤(2)：替换图像标注文本中的特殊字符。比如“&”替换成“and”。

步骤(3)：将图像标注文本中的所有单词都转换成小写形式。

步骤(4)：设置句子的最大长度是19，删除句子长度大于19的句子，对于长度小于19的句子，用<null>进行填充。

步骤(5)：补充开始和结束。标签在每条语句的第一个单词之前加上<start>标签，在最后一个单词后面加上<end>标签。

步骤(6)：构建词汇库。根据保留句子中出现的全部单词以及<null>、<start>、<end>建立词汇库，设定<null>标签序号为0，<start>标签序号为1，<end>标签序号为2，其他单词从3开始随机排序。本例中词汇库的大小为7224。

步骤(7)：用向量表示词汇库中的单词。将每个单词表示为7224维的独热编码形式，并且利用word embedding技术降维，得到每个单词对应的向量表达。可表示为：

其中o_i表示w_i的独热编码，o_i∈R^V，V表示词汇库的大小，即7224；使用wordembedding降维得到S_i，S_i∈R^M，M表示词嵌入向量的维度，在本例中为350。

3.将上述处理得到的图像信息与文本信息输入图像语义理解模型。经过图像预处理后得到的特征在图2中表示为Feature，经过文本预处理后得到的单词向量在图2中表示为S₀,S₁,S₂,...,S_n-1。其中S₁,S₂,...,S_n-2分别表示一个句子中每个单词对应的词向量，S₀,S_n-1分别表示<start>标签和<end>标签对应的向量。

如图2所示，生成图像的文本描述的过程包括以下两个方面：

a.根据图像预处理得到的特征向量F和空间特征向量F_i'获得每个局部区域的区域关注系数α，得到加权的图像特征，即上下文向量。

b.将上下文向量和2中得到的文本向量输入语言模型LSTM，根据LSTM隐含层得到每个时刻生成的单词。

a部分的具体实施方案如下：

步骤(1)：得到LSTM隐含层向量。建立时间长度是T，隐含层向量维数是H的双向LSTM网络，将预处理得到的图像特征向量F输入双向LSTM中，得到每个时刻的隐含层特征向量。在本例中T＝19，H＝350。

为了方便理解，将前向网络命名为LSTM_att_f，后向网络命名为LSTM_att_b。LSTM_att_f和LSTM_att_b在t时刻得到的隐含层特征分别表示为

和/>

图4是本例中隐含层向量生成结构，F表示图像的平均特征向量，C_t-1和C_t分别表示t-1时刻和t时刻的细胞状态，h_t-1和h_t表示隐含状态。σ表示sigmoid函数，f_t表示遗忘门函数，用于控制前一时刻细胞保留下来的信息；i_t表示输入门函数，用于更新当前时刻的信息；o_t表示输出门函数，控制更新后细胞状态的输出。本例中，LSTM单元可以通过如下公式来计算t时刻隐藏状态h和细胞状态C:

f_t＝σ(W_f[h_t-1,F]+b_f)

i_t＝σ(W_i[h_t-1,F]+b_i)

C_i＝tanh(W_c[h_t-1,F]+b_c)

C_t＝f_t*C_t-1+i_t*C_i

o_t＝σ(W_o[h_t-1,F]+b_o)

h_t＝o_t*tanh(C_t)

上述公式中W_f、W_i、W_o分别表示遗忘门、输入门、输出门的参数矩阵，b_f、b_i、b_o分别为对应的偏置。*表示矩阵点乘。

步骤(2)：生成区域关注系数α，具体过程如图5。

如图5所示，图中的上半部分和下半部分分别表示前向LSTM视觉注意力网络和后向LSTM视觉注意力网络中生成α的过程，图中变量分别以f和b后缀区别显示。前向LSTM视觉注意力网络中，h_att_f表示该时刻的输出隐含层状态，含有该时刻关注区域的信息，f_c(F)代表图像的空间特征向量，融合两者得到新的h_att_f。将h_att_f经过一个单元数是64的全连接层和归一化层，得到某个区域关注的系数αⁱ。

其中，w_att的维数是D*1，得到的e_f维数为L，经过归一化处理：

得到每个区域的权重α_f＝{α¹,α²,α³,...,α^l}，αⁱ∈R。

后向LSTM视觉注意力网络生成α_b与前向LSTM视觉注意力网络生成α_f的过程相同。

步骤(3)：得到加权的图像特征，即上下文向量V_t。因为双向LSTM视觉注意力网络单元数为T，假设前后向LSTM视觉注意力网络同时从0时刻开始训练，那么前向LSTM视觉注意力网络在t时刻生成的隐含状态应该与后向LSTM视觉注意力网络在T-t时刻相融合，用公式表示为：

令前向LSTM视觉注意力网络参与α生成的比例为β，那么t时刻重点关注的区域V_t为：

其中，T为所述的双向LSTM视觉注意力网络单元数，L表示将图像均分为L个区域，

和/>

分别为前向LSTM视觉注意力网络视觉注意力网络t时刻图像第i个区域的特征向量和区域关注系数，/>

和/>

分别为后向LSTM视觉注意力网络视觉注意力网络T-t时刻图像第i个区域的特征向量和区域关注系数。上述公式前半部分和后半部分分别是LSTM_att_f和LSTM_att_b产生的视觉关注区域，

其中，前后向LSTM视觉注意力网络的隐含层状态h₀和存储细胞状态c₀由输入图像的平均全局特征决定：

b部分的具体实施方案如下：

步骤(1)：计算第一层LSTM隐含层向量。建立时间长度为20，隐含层数为350的双层LSTM。将预处理文本得到的单词向量分别输入LSTM的每个时刻，根据LSTM细胞更新的公式计算得到语言模型第一个层各时间节点的隐含层向量

步骤(2)：计算第二层LSTM隐含层向量。分别连接每个时刻的

与a部分得到的上下文向量V_t，将其输入第二层LSTM，如图2，得到第二层各个时间节点的隐含层向量/>

步骤(3)：生成每个时刻对应的单词向量。在第二层LSTM隐含层向量后分别连接两个全连接层，得到每个单词的独热编码形式，根据独热编码获得词汇表中对应的单词。在本例中，第一个全连接层单元数为350，第二个全连接单元数是7224。由每个时刻的隐含层向量

生成单词Y_t的具体过程如下：

其中，在单词编码阶段，先采用独热编码得到V维向量，后采用embedding得到M维向量，因此生成Y_t需要经过两个全连接f_c1、f_c2，由f_c1得到一个M维向量r_t，f_c2得到一个V维的向量y_t，y_t经过归一化得到每个单词的概率p_t，p_t∈R^V，在词汇表中取p_t的最大值所对应单词作为最终输出Y_t。

4.通过反向传播训练该模型。针对一张图像I，训练模型的最终目的是得到模型中的最优参数θ^*：

上述公式中S表示图像I的标定描述，θ是模型中的自学习参数，训练时模型的损失函数为：

为区域关注系数α的正则项。上述公式前半部分表示交叉熵损失函数，后半部分表示注意力模型中α的正则项。当图像区域的权重预测正确，通过上下文信息能正确预测生成的文本时，损失函数会相对来说较小，当图像的关注区域定位不准确时，通过其上下文信息预测到错误的结果时，损失函数较大。本例在通过反向传播计算梯度时，更新网络参数时，使用Adam优化算法，Adam的参数设定为alpha＝0.001、beta1＝0.9、beta2＝0.999。

5.输入几张测试集中图片，测试训练好的模型生成的文本表述。测试阶段与训练阶段的过程稍有不同，训练时模型会输入图像信息和文本信息，根据预测结果与标定信息的误差训练模型。但测试模型时，只输入图像信息，根据图像的信息依次生成文本。

在测试时，语言模型输入的第一个向量是<start>标签对应的向量以及通过注意力机制得到的上下文向量V₁，根据这两个向量生成第一个单词Y₁；将Y₁对应的词嵌入向量与t＝2时刻对应的上下文向量V₂输入第二个LSTM单元，生成Y₂；以此类推，最终得到一个完整的句子表达。

如图6所示，为本发明测试结果，图6(a)为输入原始图像，图6(b)-6(h)是根据原始图像在各个时刻生成的单词以及对应聚焦区域示意图，像素值接近255的区域表示聚焦区域。图6(b)是原始图像在第一时刻生成的单词a；图6(c)是原始图像在第二个时刻生成的单词dog，并且聚焦到图像中狗的位置；图6(d)、图6(e)中的聚焦区域与图像中的物体狗相关；图6(f)-6(h)中的聚焦区域与图像背景有关。在测试集上不仅能够生成准确的描述，而且能够对描述的区域给出更高的注意力，图中高亮区域表示注意力集中的地方。

本发明中采用了BLEU和METEOR两种方法对生成的语句进行评价，MSCOCO已提供可下载的评估代码，只需要按照规定格式输入预测结果与标定结果即可。

BLEU表示候选语句与标定语句中n元组共同出现的程度，是一种基于精确度的评估方法，包括BLEU-1、BLEU-2、BLEU-3和BLEU-4。METEOR指标同时考虑了整个语料库上的准确率和召回率，其结果和人工判断的结果有较高相关性。这两种评价指标得分越高表示模型能够对图像进行更加准确的语义理解，生成的语句质量越好。

表1在Flickr8K数据集上的模型的评价得分比较

如表1所示，本发明在Flickr8k数据集上BLEU-1～BLEU-4和Meteor得分分别为：65.9、46.0、32.1、21.8、21.3。表中的对比模型均是该领域权威且正确率较高的模型，除了BLEU-1指数比hard-attention低以外，其他指数均高于其他模型。