CN114926835A

CN114926835A - 文本生成、模型训练方法和装置

Info

Publication number: CN114926835A
Application number: CN202210563383.8A
Authority: CN
Inventors: 李业豪; 潘滢炜; 姚霆; 梅涛
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-19

Abstract

本公开提出了一种文本生成、模型训练方法和装置，涉及计算机视觉技术领域。其中，文本生成方法包括：提取待处理图像的视觉特征；获取待处理图像的相关文本；对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征；根据待处理图像的视觉特征，和待处理图像的相关语义特征，生成待处理图像的描述文本。通过以上步骤，能够提高生成的图像描述文本的准确性。

Description

文本生成、模型训练方法和装置

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种文本生成、模型训练方法和装置。

背景技术

图像描述技术是计算机视觉与语言领域的基础课题之一。图像描述，是指自动为图像生成描述语句，该描述语句能囊括图像的语义内容，并且以恰当的顺序把这些语义内容描述出来。

图像描述主要采用基于编码-解码的方法。相关技术中，往往采用预训练的物体检测器或分类器作为编码器提取图像特征，采用循环神经网络(Recurrent Neural Network，RNN)或基于注意力机制的神经网络模型比如Transformer作为解码器，对提取的图像特征进行解码并生成图像描述语句。

发明内容

本公开要解决的一个技术问题是，提供一种解决方案，能够提高生成的图像描述文本的准确性。

根据本公开的第一方面，提出一种文本生成方法，包括：提取待处理图像的视觉特征；获取待处理图像的相关文本；对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征；根据待处理图像的视觉特征，和待处理图像的相关语义特征，生成待处理图像的描述文本。

在一些实施例中，所述获取所述待处理图像的相关文本包括：确定待处理图像与训练文本集中已有文本的相似度；根据所述相似度，从已有文本中选取待处理图像的相关文本。

在一些实施例中，确定所述待处理图像与已有文本的相似度包括：提取待处理图像的全局特征和已有文本的全局特征；计算待处理图像的全局特征和已有文本的全局特征的余弦相似度，并将余弦相似度作为待处理图像与已有文本的相似度。

在一些实施例中，对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征包括：根据待处理图像的相关文本，确定待处理图像的相关词序列；基于语义理解器对相关词序列进行编码，以得到待处理图像的相关语义特征，其中，语义理解器为训练后的基于注意力机制的神经网络模型。

在一些实施例中，基于语义理解器对待处理图像的相关词序列进行编码，以得到待处理图像的相关语义特征包括：将待处理图像的相关词序列与附加的记忆参数进行拼接，以得到输入词序列；基于自注意力机制对输入词序列进行上下文编码，以得到融合了上下文信息的语义特征；在待处理图像的视觉特征的辅助下，基于交叉注意力机制对融合了上下文信息的语义特征进行语义增强，以得到所述待处理图像的相关语义特征。

在一些实施例中，还包括：获取样本图像的相关词序列；根据样本图像的相关词序列，以及预设的损失函数，对基于注意力机制的神经网络模型进行训练，以得到语义理解器，其中，损失函数是以过滤掉样本图像的相关词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。

在一些实施例中，根据样本图像的相关词序列，以及预设的损失函数，对基于注意力机制的神经网络模型进行训练包括：将样本图像的相关词序列与初始化的记忆参数进行拼接，得到输入词序列；将输入词序列输入基于注意力机制的神经网络模型，以得到输出语义特征，其中，输出语义特征包括多个语义词特征；对输出语义特征进行线性层投影，以确定输出语义特征中每个语义词特征在语义词汇表上的概率分布；根据输出语义特征中每个语义词特征在语义词汇表上的概率分布，计算损失函数的值；根据损失函数的值，对基于注意力机制的神经网络模型进行优化，以得到语义理解器。

在一些实施例中，对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征还包括：确定语义理解器输出的语义特征中每个语义词特征参与的位置编码；将语义词特征和其参与的位置编码进行融合，以得到融合后的语义词特征，并将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征。

在一些实施例中，确定语义理解器输出的语义特征中每个语义词特征参与的位置编码包括：对于每个语义词特征，确定语义词特征在位置编码序列中所有位置编码的注意力分布；根据注意力分布，对所述位置编码序列中所有位置编码进行聚合，以得到语义词特征参与的位置编码。

在一些实施例中，根据待处理图像的视觉特征，和待处理图像的相关语义特征，生成待处理图像的描述文本包括：基于文本解码器对待处理图像的视觉特征，和待处理图像的相关语义特征进行处理，以得到待处理图像的描述文本，其中，文本解码器为训练后的采用注意力机制的神经网络模型。

在一些实施例中，基于文本解码器对待处理图像的视觉特征，和待处理图像的相关语义特征进行处理，以得到待处理图像的描述文本包括：基于自注意力机制对当前解码时刻输入的文本特征与已预测出的待处理图像的描述词进行特征融合，以得到第一语义特征；在待处理图像的视觉特征和待处理图像的相关语义特征的辅助下，基于交叉注意力机制对当前解码时刻输入的文本特征进行语义增强，以得到第二语义特征；对所述第一语义特征和所述第二语义特征进行融合，以得到融合后的语义特征；根据融合后的语义特征，确定当前解码时刻输入的文本特征中的各个语义词特征的概率分布；根据概率分布，确定待处理图像的下一个描述词；在得到待处理图像的所有描述词后，将所有描述词构成的有序序列作为待处理图像的描述文本。

在一些实施例中，提取待处理图像的视觉特征包括：提取待处理图像的局部特征和全局特征；根据待处理图像的局部特征和全局特征，确定待处理图像的视觉特征。

在一些实施例中，利用文本图像对比预训练模型提取待处理图像的局部特征和全局特征。

在一些实施例中，根据待处理图像的局部特征和全局特征，确定待处理图像的视觉特征包括：将待处理图像的局部特征和全局特征映射到一个新的特征空间，并对映射后的局部特征和全局特征进行拼接；基于视觉编码器对拼接后的图像特征进行编码，以得到待处理图像的视觉特征，其中，视觉编码器为训练后的堆叠了多层采用自注意力机制的编码块的神经网络模型。

在一些实施例中，基于视觉编码器对拼接后的图像特征进行编码，以得到待处理图像的视觉特征包括：基于多层自注意力机制的编码块对拼接后的图像特征进行编码，以得到多层编码后的局部特征和多层编码后的全局特征；将每一层自注意力机制的编码块输出的全局特征进行拼接、融合，以得到整体的全局特征；将整体的全局特征与多层编码后的局部特征进行拼接，以得到待处理图像的视觉特征。

根据本公开的第二方面，提出一种模型训练方法，包括：提取样本图像的视觉特征；获取样本图像的相关文本；对样本图像的相关文本进行编码，以得到样本图像的相关语义特征；根据样本图像的视觉特征，和样本图像的相关语义特征，对基于注意力机制的神经网络模型进行有监督训练，以得到文本解码器，其中，文本解码器用于生成图像描述文本。

根据本公开的第三方面，提出一种文本生成装置，包括：特征提取模块，被配置为提取待处理图像的视觉特征；文本获取模块，被配置为获取待处理图像的相关文本；文本编码模块，被配置为对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征；生成模块，被配置为根据待处理图像的视觉特征，和待处理图像的相关语义特征，生成待处理图像的描述文本。

根据本公开的第四方面，提出一种模型训练装置，包括：特征提取模块，被配置为提取样本图像的视觉特征；文本获取模块，被配置为获取样本图像的相关文本；文本编码模块，被配置为对样本图像的相关文本进行编码，以得到样本图像的相关语义特征；训练模块，被配置为根据样本图像的视觉特征，和样本图像的相关语义特征，对基于注意力机制的神经网络模型进行有监督训练，以得到文本解码器，其中，所述文本解码器用于生成图像描述文本。

根据本公开的第五方面，还提出一种文本生成装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的文本生成方法。

根据本公开的第六方面，还提出一种模型训练装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的模型训练方法。

根据本公开的第七方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的文本生成方法或模型训练方法。

与相关技术相比，本公开实施例中，通过获取待处理图像的相关文本，对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征，在待处理图像的视觉特征和待处理图像的相关语义特征的辅助下，生成待处理图像的描述文本，能够提高生成的图像描述文本的准确性和语法一致性。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为根据本公开一些实施例的文本生成方法的流程示意图。

图2a为根据本公开一些实施例的提取图像的视觉特征的流程示意图。

图2b为根据本公开一些实施例的获取图像的相关文本的流程示意图。

图2c为根据本公开一些实施例的对图像的相关文本进行编码的的流程示意图。

图3为根据本公开一些实施例的通过训练得到语义理解器的流程示意图。

图4为根据本公开另一些实施例的对图像的相关文本进行编码的流程示意图。

图5为根据本公开一些实施例的模型训练方法的流程示意图。

图6为根据本公开一些实施例的文本生成装置的结构示意图。

图7为根据本公开一些实施例的模型训练装置的结构示意图。

图8为根据本公开另一些实施例的文本生成装置或模型训练装置的结构示意图。

图9为根据本公开一些实施例的计算机系统的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

相关技术中的文本生成方法，太过依赖训练数据中的语言先验知识，导致生成的句子难以强调出图像里显著的语义信息，而且有时会出现物体幻觉现象，也就是生成一些图像里并没有出现过的语义词，从而限制了图像描述模型的性能。

图1为根据本公开一些实施例的文本生成方法的流程示意图。如图1所示，该方法包括：

步骤S110：提取待处理图像的视觉特征。

在步骤S110中，对待处理图像进行编码，以得到待处理图像的视觉特征。

其中，图像的视觉特征可采用具有固定维度的数值的有序集合来表示，比如向量。例如，某一图像的视觉特征表示为

其中，

为图像的视觉特征向量，v₁、v₂、v_n为视觉特征向量的不同维度，v₁、v₂以及v_n也可是向量。

步骤S130：获取待处理图像的相关文本。

在一些实施例中，待处理图像的相关文本为与待处理图像相关的一个或多个句子。

步骤S150：对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征。

在一些实施例中，对待处理图像的相关句子进行编码，以得到相关句子的特征。其中，相关句子的特征可采用具有固定维度的数值的有序集合来表示，比如向量。例如，某一相关句子的特征表示为

其中，

为句子特征向量，s₁、s₂、s_m为构成该句子特征向量的词向量。

步骤S170：根据待处理图像的视觉特征，和待处理图像的相关语义特征，生成待处理图像的描述文本。

在一些实施例中，基于文本解码器对待处理图像的视觉特征，和待处理图像的相关语义特征进行处理，以生成待处理图像的描述文本。其中，文本解码器为训练后的采用注意力机制的神经网络模型。例如，采用一个训练后的、堆叠了多个带掩码的基于多头注意力机制的解码模块的神经网络，作为文本解码器。

文本解码器通过整合待处理图像的视觉特征和待处理图像的相关语义特征，来生成待处理图像的描述语句。在本公开实施例中，文本解码器在待处理图像的相关语义特征和视觉特征的辅助下，能够获得正确的视觉、语义信息，减少对训练数据中的语言先验知识的依赖，提高生成的图像描述文本的准确性和语法一致性。

在一些实施例中，基于文本解码器对待处理图像的视觉特征，和待处理图像的相关语义特征进行处理，以得到待处理图像的描述文本包括：步骤S171至步骤S176。

步骤S171：基于多头自注意力机制对当前解码时刻输入的文本特征与已预测出的待处理图像的描述词进行特征融合，以得到第一语义特征。

在一些实施例中，通过如下方式得到输入的文本特征：将每个训练用样本图像I对应的句子表示为S＝{w₀,w₁,…,w_T-1},其中，w₀、w₁、w_T-1为句子中的词、T表示句子的长度，将句子S中的每个词编码成一个独热(one-hot)向量，并进一步编码以得到一个文本特征向量

其中，

为句子中的词的特征向量(简称词向量)。文本解码器将文本特征作为输入，根据待处理图像的视觉特征和待处理图像的相关语义特征依次预测待处理图像的各个描述词。

示例性地，在第t个解码时刻，第i个解码模块中的掩码多头注意力层基于对先前输出隐藏状态向量

的查询，基于自注意力机制对当前解码时刻输入的文本特征与已预测出的待处理图像的描述词的词向量进行特征融合，从而得到第一语义特征h′_t ⁱ，具体来说，可依据如下公式执行多头自注意力：

其中，h′_t ⁱ表示第一语义特征，

表示先前输出的隐藏状态向量，

表示已预测出的待处理图像的描述词的词向量，MultiHead()表示执行多头自注意力。

步骤S172：在待处理图像的视觉特征和待处理图像的相关语义特征的辅助下，基于多头交叉注意力机制对当前解码时刻输入的文本特征进行语义增强，以得到第二语义特征。

在一些实施例中，在第t个解码时刻，第i个解码模块中的多头交叉注意力层根据先前输出隐藏状态向量

分别对待处理图像的视觉特征和待处理图像的相关语义特征进行交叉注意，以得到第二语义特征

具体来说，可依据如下公式执行多头交叉注意力：

其中，

表示第二语义特征，

表示先前输出的隐藏状态向量，

表示待处理图像的视觉特征，

表示待处理图像的相关语义特征，

表示对待处理图像的视觉特征进行多头交叉注意，

表示对待处理图像的相关语义特征进行多头交叉注意。

步骤S173：对第一语义特征和第二语义特征进行融合，以得到融合后的语义特征。

在一些实施例中，在第t个解码时刻，第i个解码模块使用sigmoid门函数对第一语义特征和第二语义特征进行融合，从而得到第i个解码模块的输出

sigmoid函数也叫Logistic函数，用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0,1)的区间。

在一些实施例中，根据如下公式得到第i个解码模块的输出

其中，

表示第i个解码模块输出的隐藏状态向量，norm()表示归一化操作，

表示第二语义特征，h′_t ⁱ表示第一语义特征，

表示先前输出的隐藏状态，sigmoid()表示sigmoid门函数，W_g表示网络参数。

在第t个解码时刻，各个解码模块依次按照步骤S171至步骤S173进行处理，从而得到最后一个解码模块输出的隐藏状态向量

即融合后的语义特征。

在本公开实施例中，文本解码器通过按照步骤S171至步骤S173所示方式对待处理图像的视觉特征和语义特征进行交叉注意，特征融合，能够进一步提高生成的图像描述句子的准确性。

步骤S174：根据融合后的语义特征，确定当前解码时刻输入的文本特征中的各个语义词特征的概率分布。

在一些实施例中，基于归一化指数(softmax)函数对融合后的语义特征进行处理，以得到各个语义词特征的概率分布。

步骤S175：根据概率分布，确定待处理图像的下一个描述词。

在步骤S175中，将概率值最大的语义词作为待处理图像的下一个描述词。接下来，将预测出的待处理图像的描述词拼接到先前预测出的前序句子的后面，组成最新的前序句子。然后，循环执行步骤S171至步骤S175，直至预测出结束标记符为止。

步骤S176：在得到待处理图像的所有描述词后，将所有描述词构成的有序序列作为待处理图像的描述文本。

在本公开实施例中，通过获取待处理图像的相关文本，对待处理图像的相关文本进行编码以得到待处理图像的相关语义特征，在待处理图像的视觉特征和待处理图像的相关语义特征的辅助下，生成待处理图像的描述文本，能够减少对文本先验信息的依赖，提高生成的图像描述文本的准确性和语法一致性。

图2a为根据本公开一些实施例的提取图像的视觉特征的流程示意图。图2a所示流程是步骤S110的一种示例性实施方式。如图2a所示，本公开实施例的提取图像的视觉特征的流程包括：

步骤S111：提取待处理图像的局部特征和全局特征。

其中，图像的全局特征是指图像的整体特征，常见的全局特征如颜色特征、纹理特征和形状特征等。其中，图像的局部特征是从图像局部抽取的特征，如边缘、角点、线、区域等。

在一些实施例中，利用文本图像对比预训练(Contrastive Language-Image Pre-Training，CLIP)模型提取待处理图像的局部特征(比如格状特征)和全局特征。具体来说，使用CLIP模型中的图像编码器提取待处理图像的局部特征和全局特征。

CLIP模型是一种使用自监督算法从网络上爬取下来的超大规模图片文本对数据集上进行训练得到的模型。该模型中的图像编码器编码出的特征蕴含更加丰富的视觉信息，并且由于该模型在预训练时不需要使用预定义好的标签范围，使得视觉特征语义理解能力不会受到约束，提高了待处理图像的视觉特征提取效果，进而有助于提高最终生成的图像描述语句的准确性。

在另一些实施例中，采用与预训练好的物体检测器或分类器提取图像的局部特征和全局特征。

步骤S112：根据待处理图像的局部特征和全局特征，确定待处理图像的视觉特征。

在一些实施例中，步骤S112包括：将待处理图像的局部特征和全局特征映射到一个新的特征空间，并对映射后的局部特征和全局特征进行拼接；基于视觉编码器对拼接后的图像特征进行编码，以得到所述待处理图像的视觉特征，其中，视觉编码器为训练后的堆叠了多层采用自注意力机制的编码块的神经网络模型。

在一些实施例中，使用一个全连接层对待处理图像的局部特征和全局特征映射到一个更适合图像描述文本生成任务的特征空间，以改善最终生成的图像描述文本的效果。

在一些实施例中，基于视觉编码器对拼接后的图像特征进行编码包括：基于多层自注意力机制的编码块对拼接后的图像特征进行编码，以得到多层编码后的局部特征和多层编码后的全局特征；将每一层自注意力机制的编码块输出的全局特征进行拼接、融合，以得到整体的全局特征；将整体的全局特征与多层编码后的局部特征进行拼接，以得到所述待处理图像的视觉特征。

例如，假设拼接后的图像特征表示为

其中，

表示映射后的图像的全局特征向量，

表示映射后的图像的N_i个局部特征向量，将拼接后的图像特征

输入一个堆叠了N_v层的基于自注意力机制的编码块的视觉编码器进行特征间的相互融合操作，得到融合改善后的视觉特征

同时，间视觉编码器每一层输出的全局特征进行拼接、融合以得到整体的全局特征

最后组合成最终的视觉特征

即待处理图像的视觉特征。

注意力机制可以描述为查询(query)向量和一系列的键值对(key-value)向量映射到某个输出向量的过程，而这个输出的向量是根据语义查询(query)向量和键(key)向量计算得到的权重作用于值(value)向量上的权重和。示例性地，可通过如下矩阵运算公式计算注意力层的输出：

其中，Attention(Q,K,V)表示注意力层的输出，Q表示查询矩阵，K表示键矩阵，V表示值矩阵，

为预定义的参数。

在视觉编码器中，基于自注意力机制的编码块的查询向量、键向量和值向量都是拼接后的图像特征。

在本公开实施例中，通过提取待处理图像的全局特征和局部特征，并对图像的全局特征和局部特征进行拼接、融合，以得到待处理图像的视觉特征，能够提取更为丰富的视觉特征，有助于提高后续的生成图像描述文本的准确性。

图2b为根据本公开一些实施例的获取图像的相关文本的流程示意图。图2b所示流程是步骤S130的一种示例性实施方式。如图2b所示，本公开实施例的获取图像的相关文本的流程包括：

步骤S131：确定待处理图像与训练文本集中已有文本的相似度。

在一些实施例中，根据如下方式确定待处理图像与已有文本的相似度：提取待处理图像的全局特征和训练文本集中已有文本的全局特征；计算待处理图像的全局特征和训练文本集中已有文本的全局特征的余弦相似度，并将余弦相似度作为待处理图像与已有文本的相似度。

在一些实施例中，将训练集中的句子作为已有文本，预先基于CLIP模型提取已有文本的全局特征，并将所有已有文本的全局特征保存起来。在对待处理图像进行处理时，基于CLIP模型提取待处理图像的全局特征，然后计算待处理图像的全局特征与已有文本的全局特征的余弦相似度，并将其作为待处理图像与已有文本的相似度。

步骤S132：根据相似度，从已有文本中选取待处理图像的相关文本。

在一些实施例中，将与待处理图像的相似度最高的K个句子作为待处理图像的相关文本，其中，K为大于等于1的整数。

在另一些实施例中，将与待处理图像的相似度大于或等于预设阈值的句子作为待处理图像的相关文本。

在本公开实施例中，通过跨模态检索能够高效、准确地获得待处理图像的相关文本，进而有助于提高后续在待处理图像的相关文本辅助下生成的图像描述文本的准确性。

图2c为根据本公开一些实施例的对图像的相关文本进行编码的的流程示意图。图2c所示流程是步骤S150的一种示例性实施方式。如图2c所示，本公开实施例的对图像的相关文本进行编码的流程包括：

步骤S151：根据待处理图像的相关文本，确定待处理图像的相关词序列。

在一些实施例中，待处理图像的相关文本是一个或多个句子。对句子进行去除停用词等处理，从而得到待处理图像的相关词序列。

步骤S152：基于语义理解器对相关词序列进行编码，以得到待处理图像的相关语义特征。

其中，语义理解器为训练后的基于注意力机制的神经网络模型。例如，采用训练后的、堆叠了Ns层的基于注意力机制的transformer编码块的神经网络模型。

在一些实施例中，使用语义理解器来过滤掉相关词序列中与待处理图像不相关的语义词，同时重建更相关但缺失的语义词。在这些实施例中，步骤S152包括步骤a1至步骤a3。

步骤a1：将待处理图像的相关词序列与附加的记忆参数进行拼接，以得到输入词序列。

其中，待处理图像的相关词序列由多个相关词的特征向量构成。其中，附加的记忆参数是一组可学习的查询参数(即一组槽)，这些查询参数在模型训练开始前随机初始化，并随着模型的迭代学习进行更新。在模型训练结束后，将最终的查询参数保存下来，即作为与待处理图像的相关词序列进行拼接所用的记忆参数。

步骤a2:基于多头自注意力机制对输入词序列进行上下文编码，以得到融合了上下文信息的语义特征。

在一些实施例中，在基于多头自注意力机制对输入词序列进行上下文编码时，查询向量、键向量和值向量为待处理图像的相关词序列。

步骤a3:在待处理图像的视觉特征的辅助下，基于多头交叉注意力机制对融合了上下文信息的语义特征进行语义增强，以得到待处理图像的相关语义特征。

在一些实施例中，在基于多头交叉注意力机制对融合了上下文信息的语义特征进行语义增强时，将融合了上下文信息的语义特征作为查询向量，将待处理图像的视觉特征作为键向量和值向量。

在本公开实施例中，通过语义理解器对待处理图像的相关词序列进行编码，能够过滤掉待处理图像的相关文本中无关的语义信息，并推理出缺失的语义信息，进而在后续基于相关语义特征生成图像描述文本时，能够提高生成的图像描述文本的准确性。

图3为根据本公开一些实施例的通过训练得到语义理解器的流程示意图。如图3所示，本公开实施例的通过训练得到语义理解器的流程包括：

步骤S310：获取样本图像的相关词序列。

在一些实施例中，通过跨模态检索获取样本图像的相关文本，根据样本图像的相关文本，确定样本图像的相关词序列。

在一些实施例中，样本图像的相关文本是一个或多个句子，通过对这些相关的句子进行去除停用词等处理得到样本图像的相关词序列。

步骤S320：根据样本图像的相关词序列，以及预设的损失函数，对基于注意力机制的神经网络模型进行训练，以得到语义理解器。

其中，该损失函数是以过滤掉样本图像的相关词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。基于该损失函数对模型进行优化的过程，可被表述为单标签分类和多标签分类问题的组合。

在一些实施例中，步骤S320包括：步骤b1至步骤b5。

步骤b1:将样本图像的相关词序列与初始化的记忆参数进行拼接，得到输入词序列。

其中，样本图像的相关词序列由多个相关词的特征向量构成。其中，记忆参数是一组可学习的查询参数(即一组槽)，这些查询参数在模型训练开始前随机初始化，并随着模型的迭代学习进行更新。在模型训练结束后，将最终的查询参数保存下来。

步骤b2:将输入词序列输入基于注意力机制的神经网络模型，以得到输出语义特征。其中，输出语义特征包括多个语义词特征。

步骤b3:对输出语义特征进行线性层投影，以确定输出语义特征中每个语义词特征在语义词汇表上的概率分布。

在一些实施例中，语义词汇表由训练文本集中的所有语义词加上一个表示无关语义词的标识组成。

在该步骤中，以语义理解器最终输出的语义特征

为条件，使用线性预测器估计每个语义词特征在语义词汇表上的概率分布，从而得到语义预测。具体来说，可直接使用一个线性层将输出语义特征中的每个语义词特征分别投影到一个D维的向量，其中，D为预定义好的语义词汇表的大小，每个向量是每个语义词特征在整个语义词汇表上的概率分布

步骤b4:根据输出语义特征中每个语义词特征在语义词汇表上的概率分布，计算损失函数的值。

在一些实施例中，将过滤掉相关词序列中不相关的语义词的过程视为单标签分类任务，该单标签分类任务对应的损失函数可采用交叉熵损失函数。

在得到相关词序列中各个语义词的概率分布

之后，基于交叉熵损失函数计算第一损失值：

其中，L_x表示第一损失值，

和

分别表示y_i和

的第c个元素,c表示类别,y_i为第i个语义词的真实标签表示。

在一些实施例中，将推断缺失的相关语义词的过程视为多标签分类任务，该多标签分类任务对应的损失函数可采用不对称损失函数。

在得到记忆参数特征向量

对应的概率分布

后，基于sigmoid激活函数对概率分布

进行归一化，然后对它们进行最大池化，以得到记忆参数特征向量在语义词汇表上的整体概率分布

接下来基于不对称损失函数计算第二损失值：

其中，L_m表示第二损失值，asym表示不对称损失函数，y_m是所有缺失的相关语义词的真实标签。

在得到第一损失值和第二损失值之后，根据第一损失值和第二损失值计算总的损失函数的值。示例性，根据如下公式计算总的损失值：

L_s＝L_x+L_m

其中，L_s表示总的损失值。

步骤b5:根据损失函数的值，对基于注意力机制的神经网络模型进行优化，以得到所述语义理解器。

在本公开实施例中，通过以上步骤训练语义理解器，能够提高语义理解器的性能。

图4为根据本公开另一些实施例的对图像的相关文本进行编码的流程示意图。图4所示流程是步骤S150的另一种示例性实施方式。如图4所示，本公开实施例的对图像的相关文本进行编码的流程包括：

步骤S151；根据待处理图像的相关文本，确定待处理图像的相关词序列。

步骤S152：基于语义理解器对相关词序列进行编码，以输出语义特征。

步骤S153：基于语义排序器对语义理解器输出的语义特征与位置编码特征进行融合，以得到待处理图像的相关语义特征。

在一些实施例中，步骤S153包括：步骤c1和步骤c2。

步骤c1:基于语义排序器确定语义理解器输出的语义特征中每个语义词特征参与的位置编码。

在一些实施例中，对于每个语义词特征，确定语义词特征在位置编码序列中所有位置编码的注意力分布；根据注意力分布，对位置编码序列中所有位置编码进行聚合，以得到所述语义词特征参与的位置编码。例如，通过如下公式计算每个语义词参与的位置编码：

其中，P_i表示语义词参与的位置编码，p_i可以解释为对语义特征中每个语义词特征

的语言顺序的“软”估计。

步骤c2:将语义词特征和其参与的位置编码进行融合，以得到融合后的语义词特征，并将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征。

例如，通过如下公式得到融合后的语义词特征：

其中，

表示融合后的语义词特征，

表示语义词特征，p_i表示语义词参与的位置编码。

将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征即

用以呈现有序语义词的序列。

在本公开实施例中，通过语义理解器、语义排序器的上述处理得到了位置感知的更相关的语义特征。进一步，将位置感知的更相关的语义特征作为附加的语言先验，能够在提高生成的图像描述语句的准确性的同时，鼓励生成相关和连贯的描述，从而有助于提高生成的图像描述语句的语法一致性。

图5为根据本公开一些实施例的模型训练方法的流程示意图。如图5所示，本公开实施例的模型训练方法包括：

步骤S510：提取样本图像的视觉特征。

训练用数据集包括样本图像、样本图像对应的文本。在一些实施例中，每个样本图像I对应的文本为句子，其可表示为S＝{w₀,w₁,…,w_T-1},T表示句子的长度。

在一些实施例中，步骤S510包括：提取样本图像的局部特征和全局特征；根据样本图像的局部特征和全局特征，确定样本图像的视觉特征。

在一些实施例中，利用文本图像对比预训练(Contrastive Language-Image Pre-Training，CLIP)模型提取样本图像的局部特征(比如格状特征)和全局特征。具体来说，使用CLIP模型中的图像编码器提取样本图像的局部特征和全局特征。

在另一些实施例中，采用与预训练好的物体检测器或分类器提取样本图像的局部特征和全局特征。

在一些实施例中，根据样本图像的局部特征和全局特征，确定样本图像的视觉特征包括：将样本图像的局部特征和全局特征映射到一个新的特征空间，并对映射后的局部特征和全局特征进行拼接；基于视觉编码器对拼接后的图像特征进行编码，以得到样本图像的视觉特征，其中，视觉编码器为训练后的堆叠了多层采用自注意力机制的编码块的神经网络模型。

步骤S530：获取样本图像的相关文本。

在一些实施例中，确定样本图像与训练用数据集中的文本的相似度；根据相似度，从训练用数据集的文本中选取样本图像的相关文本。

步骤S550：对样本图像的相关文本进行编码，以得到样本图像的相关语义特征。

在一些实施例中，根据样本图像的相关文本，确定样本图像的相关词序列；基于语义理解器对相关词序列进行编码，以得到样本图像的相关语义特征，其中，语义理解器为训练后的基于注意力机制的神经网络模型。

在另一些实施例中，根据样本图像的相关文本，确定样本图像的相关词序列；基于语义理解器对相关词序列进行编码，基于语义排序器对语义理解器输出的语义特征与位置编码特征进行融合，以得到样本图像的相关语义特征。

步骤S570：根据样本图像的视觉特征，和样本图像的相关语义特征，对基于注意力机制的神经网络模型进行有监督训练，以得到文本解码器。其中，文本解码器用于生成图像描述文本。

在一些实施例中，步骤S570包括：基于自注意力机制对当前解码时刻输入的文本特征与已预测出的样本图像的描述词进行特征融合，以得到第一语义特征；在样本图像的视觉特征和样本图像的相关语义特征的辅助下，基于交叉注意力机制对当前解码时刻输入的文本特征进行语义增强，以得到第二语义特征；对所述第一语义特征和所述第二语义特征进行融合，以得到融合后的语义特征；根据融合后的语义特征，确定当前解码时刻输入的文本特征中的各个语义词特征的概率分布；根据概率分布，确定损失函数的值；根据损失函数的值，对模型进行训练，以得到文本解码器。

在本公开实施例中，通过以上步骤能够改善生成的文本解码器的性能，提高基于该文本解码器生成的图像描述文本的准确性和语法一致性。

图6为根据本公开一些实施例的文本生成装置的结构示意图。如图6所示，本公开实施例的文本生成装置包括：特征提取模块610、文本获取模块620、文本编码模块630、生成模块640。

特征提取模块610，被配置为提取待处理图像的视觉特征。

特征提取模块610对待处理图像进行编码，以得到待处理图像的视觉特征。

其中，

文本获取模块620，被配置为获取待处理图像的相关文本。

文本编码模块630，被配置为对待处理图像的相关文本进行编码，以得到待处理图像的相关语义特征。

在一些实施例中，文本编码模块630对待处理图像的相关句子进行编码，以得到相关句子的特征。其中，相关句子的特征可采用具有固定维度的数值的有序集合来表示，比如向量。例如，某一相关句子的特征表示为

其中，

生成模块640，被配置为根据待处理图像的视觉特征，和待处理图像的相关语义特征，生成所述待处理图像的描述文本。

在本公开实施例中，在待处理图像的相关语义特征和视觉特征的辅助下，能够在生成图像描述文本时，减少对训练数据中的语言先验知识的依赖，提高生成的图像描述文本的准确性和语法一致性。

图7为根据本公开一些实施例的模型训练装置的结构示意图。图7为根据本公开一些实施例的模型训练装置的结构示意图。如图7所示，本公开实施例的模型训练装置包括：特征提取模块710、文本获取模块720、文本编码模块730、训练模块740。

特征提取模块710，被配置为提取样本图像的视觉特征。

在一些实施例中，特征提取模块710提取样本图像的局部特征和全局特征；特征提取模块710根据样本图像的局部特征和全局特征，确定样本图像的视觉特征。

在一些实施例中，特征提取模块710利用文本图像对比预训练(ContrastiveLanguage-Image Pre-Training，CLIP)模型提取样本图像的局部特征(比如格状特征)和全局特征。具体来说，使用CLIP模型中的图像编码器提取样本图像的局部特征和全局特征。

在另一些实施例中，特征提取模块710采用与预训练好的物体检测器或分类器提取样本图像的局部特征和全局特征。

在一些实施例中，特征提取模块710根据样本图像的局部特征和全局特征，确定样本图像的视觉特征包括：将样本图像的局部特征和全局特征映射到一个新的特征空间，并对映射后的局部特征和全局特征进行拼接；基于视觉编码器对拼接后的图像特征进行编码，以得到样本图像的视觉特征，其中，视觉编码器为训练后的堆叠了多层采用自注意力机制的编码块的神经网络模型。

文本获取模块720，被配置为获取所述样本图像的相关文本。

在一些实施例中，文本获取模块720确定样本图像与训练用数据集中的文本的相似度；文本获取模块720根据相似度，从训练用数据集的文本中选取样本图像的相关文本。

文本编码模块730，被配置为对所述样本图像的相关文本进行编码，以得到所述样本图像的相关语义特征。

在一些实施例中，文本编码模块730根据样本图像的相关文本，确定样本图像的相关词序列；文本编码模块730基于语义理解器对相关词序列进行编码，以得到样本图像的相关语义特征，其中，语义理解器为训练后的基于注意力机制的神经网络模型。

在另一些实施例中，文本编码模块730根据样本图像的相关文本，确定样本图像的相关词序列；文本编码模块730基于语义理解器对相关词序列进行编码；文本编码模块730基于语义排序器对语义理解器输出的语义特征与位置编码特征进行融合，以得到样本图像的相关语义特征。

训练模块740，被配置为根据所述样本图像的视觉特征，和所述样本图像的相关语义特征，对基于注意力机制的神经网络模型进行有监督训练，以得到文本解码器。其中，所述文本解码器用于生成图像描述文本。

在本公开实施例中，通过以上装置能够改善生成的文本解码器的性能，提高基于该文本解码器生成的图像描述文本的准确性和语法一致性。

图8是示出根据本公开另一些实施例的文本生成装置或模型训练装置的框图。

如图8所示，文本生成装置800或模型训练装置800包括存储器810；以及耦接至该存储器810的处理器820。存储器810用于存储执行文本生成方法对应实施例的指令。处理器820被配置为基于存储在存储器810中的指令，执行本公开中任意一些实施例中的文本生成方法或模型训练方法。

图9是示出用于实现本公开一些实施例的计算机系统的框图。

如图9所示，计算机系统900可以通用计算设备的形式表现。计算机系统900包括存储器910、处理器920和连接不同系统组件的总线930。

存储器910例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行文本生成方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器920可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如构建模块、偏差补偿模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线930可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统900这些接口940、950、960以及存储器910和处理器920之间可以通过总线930连接。输入输出接口940可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口950为各种联网设备提供连接接口。存储接口960为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的文本生成、模型训练方法和装置，能够提高生成的图像描述文本的准确性。

至此，已经详细描述了根据本公开的文本生成、模型训练方法和装置。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种文本生成方法，包括：

提取待处理图像的视觉特征；

获取所述待处理图像的相关文本；

对所述待处理图像的相关文本进行编码，以得到所述待处理图像的相关语义特征；

根据所述待处理图像的视觉特征，和所述待处理图像的相关语义特征，生成所述待处理图像的描述文本。

2.根据权利要求1所述的文本生成方法，其中，所述获取所述待处理图像的相关文本包括：

确定所述待处理图像与训练文本集中已有文本的相似度；

根据所述相似度，从所述已有文本中选取所述待处理图像的相关文本。

3.根据权利要求2所述的文本生成方法，其中，所述确定所述待处理图像与已有文本的相似度包括：

提取所述待处理图像的全局特征和所述已有文本的全局特征；

计算所述待处理图像的全局特征和所述已有文本的全局特征的余弦相似度，并将所述余弦相似度作为所述待处理图像与已有文本的相似度。

4.根据权利要求1所述的文本生成方法，其中，所述对所述待处理图像的相关文本进行编码，以得到所述待处理图像的相关语义特征包括：

根据所述待处理图像的相关文本，确定所述待处理图像的相关词序列；

基于语义理解器对所述相关词序列进行编码，以得到所述待处理图像的相关语义特征，其中，所述语义理解器为训练后的基于注意力机制的神经网络模型。

5.根据权利要求4所述的文本生成方法，其中，所述基于语义理解器对所述待处理图像的相关词序列进行编码，以得到所述待处理图像的相关语义特征包括：

将所述待处理图像的相关词序列与附加的记忆参数进行拼接，以得到输入词序列；

基于自注意力机制对所述输入词序列进行上下文编码，以得到融合了上下文信息的语义特征；

在所述待处理图像的视觉特征的辅助下，基于交叉注意力机制对所述融合了上下文信息的语义特征进行语义增强，以得到所述待处理图像的相关语义特征。

6.根据权利要求4所述的文本生成方法，还包括：

获取样本图像的相关词序列；

根据所述样本图像的相关词序列，以及预设的损失函数，对基于注意力机制的神经网络模型进行训练，以得到所述语义理解器，其中，所述损失函数是以过滤掉样本图像的相关词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。

7.根据权利要求6所述的文本生成方法，其中，根据所述样本图像的相关词序列，以及预设的损失函数，对基于注意力机制的神经网络模型进行训练包括：

将所述样本图像的相关词序列与初始化的记忆参数进行拼接，得到输入词序列；

将所述输入词序列输入基于注意力机制的神经网络模型，以得到输出语义特征，其中，所述输出语义特征包括多个语义词特征；

对所述输出语义特征进行线性层投影，以确定所述输出语义特征中每个语义词特征在语义词汇表上的概率分布；

根据所述输出语义特征中每个语义词特征在语义词汇表上的概率分布，计算损失函数的值；

根据所述损失函数的值，对基于注意力机制的神经网络模型进行优化，以得到所述语义理解器。

8.根据权利要求4所述的文本生成方法，其中，所述对所述待处理图像的相关文本进行编码，以得到所述待处理图像的相关语义特征还包括：

确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码；

将所述语义词特征和其参与的位置编码进行融合，以得到融合后的语义词特征，并将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征。

9.根据权利要求8所述的文本生成方法，其中，确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码包括：

对于每个语义词特征，确定所述语义词特征在位置编码序列中所有位置编码的注意力分布；

根据所述注意力分布，对所述位置编码序列中所有位置编码进行聚合，以得到所述语义词特征参与的位置编码。

10.根据权利要求1所述的文本生成方法，其中，根据所述待处理图像的视觉特征，和所述待处理图像的相关语义特征，生成所述待处理图像的描述文本包括：

基于文本解码器对所述待处理图像的视觉特征，和所述待处理图像的相关语义特征进行处理，以得到所述待处理图像的描述文本，其中，所述文本解码器为训练后的采用注意力机制的神经网络模型。

11.根据权利要求10所述的文本生成方法，其中，基于文本解码器对所述待处理图像的视觉特征，和所述待处理图像的相关语义特征进行处理，以得到所述待处理图像的描述文本包括：

基于自注意力机制对当前解码时刻输入的文本特征与已预测出的所述待处理图像的描述词进行特征融合，以得到第一语义特征；

在所述待处理图像的视觉特征和所述待处理图像的相关语义特征的辅助下，基于交叉注意力机制对当前解码时刻输入的文本特征进行语义增强，以得到第二语义特征；

对所述第一语义特征和所述第二语义特征进行融合，以得到融合后的语义特征；

根据所述融合后的语义特征，确定所述当前解码时刻输入的文本特征中的各个语义词特征的概率分布；

根据所述概率分布，确定所述待处理图像的下一个描述词；

在得到所述待处理图像的所有描述词后，将所有描述词构成的有序序列作为所述待处理图像的描述文本。

12.根据权利要求8所述的文本生成方法，其中，所述提取待处理图像的视觉特征包括：

提取待处理图像的局部特征和全局特征；

根据所述待处理图像的局部特征和全局特征，确定所述待处理图像的视觉特征。

13.根据权利要求12所述的文本生成方法，其中，利用文本图像对比预训练模型提取待处理图像的局部特征和全局特征。

14.根据权利要求12所述的文本生成方法，根据所述待处理图像的局部特征和全局特征，确定所述待处理图像的视觉特征包括：

将所述待处理图像的局部特征和全局特征映射到一个新的特征空间，并对映射后的局部特征和全局特征进行拼接；

基于视觉编码器对拼接后的图像特征进行编码，以得到所述待处理图像的视觉特征，其中，所述视觉编码器为训练后的堆叠了多层采用自注意力机制的编码块的神经网络模型。

15.根据权利要求13所述的文本生成方法，其中，基于视觉编码器对拼接后的图像特征进行编码，以得到所述待处理图像的视觉特征包括：

基于多层自注意力机制的编码块对拼接后的图像特征进行编码，以得到多层编码后的局部特征和多层编码后的全局特征；

将每一层自注意力机制的编码块输出的全局特征进行拼接、融合，以得到整体的全局特征；

将所述整体的全局特征与所述多层编码后的局部特征进行拼接，以得到所述待处理图像的视觉特征。

16.一种模型训练方法，包括：

提取样本图像的视觉特征；

获取所述样本图像的相关文本；

对所述样本图像的相关文本进行编码，以得到所述样本图像的相关语义特征；

根据所述样本图像的视觉特征，和所述样本图像的相关语义特征，对基于注意力机制的神经网络模型进行有监督训练，以得到文本解码器，其中，所述文本解码器用于生成图像描述文本。

17.一种文本生成装置，包括：

特征提取模块，被配置为提取待处理图像的视觉特征；

文本获取模块，被配置为获取所述待处理图像的相关文本；

文本编码模块，被配置为对所述待处理图像的相关文本进行编码，以得到所述待处理图像的相关语义特征；

生成模块，被配置为根据所述待处理图像的视觉特征，和所述待处理图像的相关语义特征，生成所述待处理图像的描述文本。

18.一种模型训练装置，包括：

特征提取模块，被配置为提取样本图像的视觉特征；

文本获取模块，被配置为获取所述样本图像的相关文本；

文本编码模块，被配置为对所述样本图像的相关文本进行编码，以得到所述样本图像的相关语义特征；

训练模块，被配置为根据所述样本图像的视觉特征，和所述样本图像的相关语义特征，对基于注意力机制的神经网络模型进行有监督训练，以得到文本解码器，其中，所述文本解码器用于生成图像描述文本。

19.一种文本生成装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至15任一项所述的文本生成方法。

20.一种模型训练装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求16所述的模型训练方法。

21.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至15任一项所述的文本生成方法，或权利要求16所述的模型训练方法。