CN110688861B

CN110688861B - 一种多特征融合的句子级译文质量估计方法

Info

Publication number: CN110688861B
Application number: CN201910914342.7A
Authority: CN
Inventors: 叶娜; 王远远; 蔡东风
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-12-27
Anticipated expiration: 2039-09-26
Also published as: CN110688861A

Abstract

本发明公开一种多特征融合的句子级译文质量估计方法，包括以下步骤：1)并行提取词预测特征、语境化词嵌入特征、依存句法特征以及基线特征；2)上述特征提取后，分别对各特征进行进一步整合，针对特征向量采用将各特征由Bi‑LSTM层编码后的最后一个隐状态直接相加的方式和将各个向量按指定维度拼接的方式进行融合；3)通过上述两种融合方式得到两种高维向量，利用sigmoid函数进行最终的HTER值即译文质量分数预测。本发明采用更有效的上下文敏感的语言表示模型进行建模，提出一种融入语境化词嵌入特征的方法，将其与词预测特征相结合，并显性地融入了依存句法特征和17个基线特征，构建了一个多特征融合的译文质量估计模型。

Description

一种多特征融合的句子级译文质量估计方法

技术领域

本发明涉及一种译文质量估计技术，具体为一种多特征融合的句子级译文质量估计方法。

背景技术

机器翻译通过机器学习方法实现不同语言对之间的转换，近年来取得了巨大的进步，尤其随着深度学习的出现与发展，神经机器翻译因其译文质量较高的优点逐步占据主流地位，而机器译文质量通常根据参考译文计算BLEU值进行评价，参考译文则是由预先提供，且在多数情况下是不易获取的，因此在实际应用中，BLEU值的评价指标显得不够现实。译文质量估计技术(Quality Estimation，QE)便是在无参考译文的情况下对机器译文的质量进行评价。

目前主流的基于深度学习的译文质量估计方法通常采用直接将双语句对输入到神经网络模型的词嵌入层中学习其词序列的向量表示，再进行双语句对之间的深层特征提取的做法，但是由于译文质量估计语料较为匮乏，导致训练过程中容易产生过拟合现象。因此为解决因数据稀少所带来的模型训练问题，研究人员提出引入预训练的词向量的方法，该方法能够减少模型中训练参数个数，有效缓解过拟合现象的发生，但是由于训练词向量所采用的语言模型限制，使得该词向量无法携带较为全面的上下文信息。且由于基于深度学习的译文质量估计模型需要额外的特定于句法分析任务的训练机制来学习双语句对中的隐藏句法，使得当前译文质量估计中的特征学习机制对句法特征的学习不够充分。因此如何更好的学习双语上下文知识以及句法信息在句子级译文质量估计研究中显得尤为重要。

发明内容

针对现有技术中基于神经网络的译文质量估计任务所采用的预训练的词嵌入无法有效利用上下文信息使得语义和句法信息的学习不够充分等不足，本发明要解决的问题是提供一种显性地融入依存句法特征、语境化词嵌入特征、词预测特征和多个基线特征的多特征融合的句子级译文质量估计方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种多特征融合的句子级译文质量估计方法，包括以下步骤：

1)并行提取词预测特征、语境化词嵌入特征、依存句法特征以及基线特征；

2)上述特征提取后，分别对各特征进行进一步整合，针对特征向量采用将各特征由Bi-LSTM层编码后的最后一个隐状态直接相加的方式和将各个向量按指定维度拼接的方式进行融合；

3)通过上述两种融合方式得到两种高维向量，利用sigmoid函数进行最终的HTER值即译文质量分数预测。

步骤1)中，提取语境化词嵌入特征为：

采用基于上下文的语言表示模型BERT作为特征提取器，其使用双向transformer作为编码器，编码器中的self-attention操作将句子中每个词的位置信息进行编码融入，同时引入遮蔽机制利用输入语言的上下文信息，将其用作词嵌入模型以提取源语言和机器译文的语境化的词嵌入特征；

同时对源语言和机器输出译文进行编码，得到双语词嵌入并将其进行拼接作为一种特征。

步骤1)中提取依存句法特征为：

分别将源语言(x₁,x₂,…,x_n)和机器译文(y₁,y₂,…,y_m)输入到句法分析工具Stanford Parser中；

采用句法分析工具Stanford Parser对输入句子分别进行句法分析后，得到各个词与其中心词之间的依存元组(x_i，

relation)，(y_i，

relation)，其中x_i表示源语言当前词，

表示源语言当前词对应的中心词，y_i表示机器译文当前词，

表示机器译文当前词对应的中心词，relation表示其依存关系；

从依存元组中将中心词提取出来，并将两个句子的中心词信息进行拼接得到依存句法特征序列

其中

代表源语言每个词所对应的中心词，

表示机器译文中的每个词对应的中心词。

步骤2)中对各特征进行融合，是将各个特征分别输入到以LSTM为结点的双向循环神经网络中进一步学习后，再整合各个最终得到的隐藏状态作为最终双语信息表征向量，进而用于译文质量估计分数的计算；模型的构建以RNN为基础，采用RNN的变体—长短时记忆网络作为基本的网络单元编码各个特征序列内部之间的联系，具体为：

分别输入提取的双语特征向量序列，经Bi-LSTM编码后，保留最后一个隐状态向量作为输出；

针对特征向量提出两种不同的融合方式，第一种是将各特征由Bi-LSTM层编码后的最后一个隐状态直接相加的方式，将向量空间约束在一定范围内，采用对该向量取均值，即算术平均的策略，该策略默认每一个特征的重要程度都相同，即给每一个特征设置固定权重，公式如下：

H₁＝(H_B+H_s+H_w)/3

其中，H₁是采用第一种融合方式得到的融合向量，H_B、H_S、H_W分别表示语境化词嵌入特征隐状态、依存句法特征隐状态和词预测特征隐状态。

步骤2)中，针对特征向量提出两种不同的融合方式，第二种是将各个向量按指定维度拼接的方式，从最终得到的融合后的特征向量分析，该方式未修改各个特征的任何维度内容，使得每一个特征所携带的信息得到充分表达，公式如下：

H₂＝[H_B；H_s；H_w]。

其中，H₂是采用第二种融合方式得到的融合向量。

步骤2)中，最后分别将两种方式所得到的特征融合向量与基线特征H_o进行拼接，作为最终的特征融合向量，拼接方式如下所示：

H＝[H_i；H_o] (i＝1,2)

H表示最终融合向量。

本发明具有以下有益效果及优点：

1.本发明句子级译文质量估计任务中，从增强双语信息的语义及结构表征入手，采用更有效的上下文敏感的语言表示模型进行建模，提出一种融入语境化词嵌入特征的方法，将其与词预测特征相结合，并显性地融入了依存句法特征和17个基线特征，构建了一个多特征融合的译文质量估计模型。

2.本发明提出的多特征融合的方法能够更好的对双语信息进行表征，且进一步提高了句子级译文质量估计任务中机器自动评分与人工评分之间的相关性。

附图说明

图1为本发明方法中的词预测特征提取过程示意图；

图2为本发明方法中的语境化词嵌入特征提取过程示意图；

图3为本发明方法中的特征融合模型整体架构示意图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明一种多特征融合的句子级译文质量估计方法按照“特征抽取-特征融合-质量估计”进行译文质量估计功能的实现，整体框架如图3，包括以下步骤：

本发明从特征方面入手，在句子级译文质量估计研究中融合多种特征，提出加入预训练的语境化词嵌入作为一种深层特征来代替传统词嵌入，利用该特征强大的表义能力，改进过去采用传统词嵌入而导致的上下文信息携带不足问题；为了更好的学习双语句对句法之间的相关联系，显性的引入了依存句法特征；通过不同的特征融合方式将这两种特征与其他模型所提取的深度学习特征以及基线特征进行融合，以达到语义与句法结构信息增强表示的效果，进而提高译文质量估计的准确性。

步骤1)中，提取词预测特征是基于循环神经网络(Recurrent Neural Network，RNN)，在已知源语言和目标语言的情况下，随机选择目标语言中的一个词对其进行遮蔽，并根据源语言和目标语言上下文对该词进行恢复。模型基于注意力机制的双向RNN的编码器-解码器框架。在编码器模块将源语言信息通过双向RNN进行编码，得到基于注意力机制的源语言句向量信息c_j。解码器在编码器-解码器框架基础上引入反向RNN解码结构，用来进一步学习目标词的下文信息。基于RNN的词预测模型以源语言信息x和目标词上下文y_-j，定义目标词y_j的预测概率如下所示：

其中，g是一个非线性函数，利用

[y_j-1；y_j+1]和c_j来预测目标词y_j的概率，

是

和

的拼接，

和

是前向RNN和后向RNN在目标句中的隐含状态，y_j是目标词的one-hot向量，K_y是目标语言词汇表大小，w_o是权重矩阵，y_k为目标语言词汇表中第k个词的one-hot向量，k为目标词表中中词的索引，t_j作为中间表示，可由以下公式表示：

其中，S_o，V_o，U_o分别是权重矩阵，

是目标词的词嵌入向量，t_j是中间输出向量维数。

由于该数值中包含了关于目标词是否正确地从源语句中翻译过来的质量信息，因此将该部分质量信息以质量向量的形式提取出来作为双语特征。

质量向量由如下计算得出：

q_j＝[(y_j ^ТW_o)⊙t_j ^Т]^Т

其中⊙表示逐元素相乘。具体提取过程如图1所示。

步骤1)中，提取语境化词嵌入特征采用基于上下文的语言表示模型BERT(Bidirectional Encoder Representations from Transformers)。BERT作为一种双向语言模型结构，使用双向transformer作为编码器，其中的self-attention操作将句子中每个词的位置信息进行编码融入，同时引入了遮蔽(mask)机制从而利用了输入语言的上下文信息。本发明将其用作词嵌入模型以提取源语言和机器译文的语境化的词嵌入特征。由于BERT允许将多个文本同时输入，因此同时对源语言和机器输出译文进行编码，得到双语词嵌入并将其进行拼接作为一种特征。

图2给出了语境化词嵌入特征的提取过程，其中x_i、y_i分别表示源语言和机器译文的每个词，将其拼接输入到开源模型Pre-trained BERT model(https://github.com/google-research/bert)中进行语境化词嵌入抽取，输出词嵌入向量v_i。

步骤1)中，提取依存句法特征，首先分别将源语言(x₁,x₂,…,x_n)和机器译文(y₁,y₂,…,y_m)作为输入。

然后采用广泛使用的句法分析工具Stanford Parser(https://nlp.stanford.edu/software/lex-parser.shtml)对输入句子分别进行句法分析后，得到各个词与其中心词之间的依存元组(x_i，

relation)，(y_i，

relation)，其中x_i表示源语言当前词，

表示源语言当前词对应的中心词，y_i表示机器译文当前词，

表示机器译文当前词对应的中心词，relation表示其依存关系。

本发明将中心词从依存元组中提取出来，并将两个句子的中心词信息进行拼接得到依存句法特征序列

这里

代表源语言每个词所对应的中心词，

表示机器译文中的每个词对应的中心词。

步骤1)中的提取基线特征：

除了由神经网络提取的连续稠密的向量特征以外，WMT官方提供了由人工抽取的17个双语特征，这些特征虽然仅涉及双语句对的表层特征，但是相比于由神经网络抽取的高维向量特征更为直观且解释性更强，因此将这些人工特征与其他深度学习特征结合，一同对双语信息进行更深入更全面的表示，这些特征主要为语言学特征(https://www.quest.dcs.shef.ac.uk/wmt18_files_qe/features_de_en.tar.gz)。

步骤2)中对各特征进行融合：

由于本发明所采用的特征提取模型及方法不同，使得各个特征在向量维度上存在较大差异，为了不使特征信息因维度转换、变形等策略而缺失或修改，因此与传统的将特征在前期就进行向量化拼接融合再用于后续模型计算的方式不同，本发明采用后期融合的方法将各个特征分别输入到基于双向循环神经网络的译文质量估计模型中进一步学习后，再融合各个最终得到的隐藏状态作为最终双语信息表征向量，进而用于译文质量估计分数的计算。

在该部分的网络选择方面，模型的构建以RNN为基础，RNN因其能够将当前时刻之前的信息进行记忆并用于当前时刻计算的特点在处理序列问题方面具有较强的优越性。同时由于BERT特征和句法特征是将源语言和目标语言序列同时输入到各特征提取模块得到的，导致部分特征序列较长，因此为了更好的编码学习长序列特征的内部信息，在本发明中采用RNN的变体—长短时记忆网络(Long Short-Term Memory，LSTM)作为基本的网络单元编码各个特征序列内部之间的联系，具体如下：

首先分别输入步骤1)中提取的双语特征向量序列，经Bi-LSTM编码后，保留最后一个隐状态向量作为输出。

其次，分别对所提取的向量特征进一步整合学习后进行特征融合，在特征融合阶段，针对特征向量提出了两种不同的融合方式：

第一种是将各特征由Bi-LSTM层编码后的最后一个隐状态直接相加(Add)的方式，但是为了避免相加后的融合向量的模过大，需将向量空间约束在一定范围内，因此我们采用对该向量取均值，即算术平均的策略，该策略默认每一个特征的重要程度都相同，即给每一个特征设置固定权重，公式如下：

H₁＝(H_B+H_s+H_w)/3

其中H_B、H_S、H_W分别表示语境化词嵌入特征隐状态、依存句法特征隐状态和词预测特征隐状态。

第二种是将各个向量按指定维度拼接(Concatenate)的方式，从最终得到的融合后的特征向量分析，该方式未修改各个特征的任何维度内容，使得每一个特征所携带的信息得到充分表达。公式如下：

H₂＝[H_B；H_s；H_w]

在以上两种融合方式中我们未添加新的网络层，而是采用直接将各个特征进行融合的方法，均没有增加模型参数，因此未对模型的训练速度造成影响。

最后分别将两种方式所得到的特征融合向量与基线特征H_o进行拼接，作为最终的特征融合向量，由于该部分基线特征是由各双语句对所抽取出的17个浮点数，因此拼接融合方式未对训练负担造成影响。拼接方式如下所示：

H＝[H_i；H_o] (i＝1,2)

H表示最终融合向量。

句子级译文质量估计任务在句子层面上对整体翻译质量进行评价，即为机器译文整体质量进行评分，其本质是计算机器译文与经人工编辑后的后编辑译文之间的最小编辑距离即HTER值，该值越小则说明该机器译文翻译质量越高。其工作流程如图3，即输入源语言和机器译文，通过上述方法提取特征，经由图3中Bi-LSTM层进行学习后输出译文评价分数HTER。

如下实例：

源语言：NeoSpect ist ein radioaktives Arzneimittel für diagnostischeZwecke.

机器译文：NeoSpect is a radioactive medicinal products for diagnosticuse.

系统输出HTER：0.000032

下面以德-英译文质量估计任务为例，即对英文机器译文的质量进行估计。实验所使用的语料包括两部分，一部分是训练词预测模型的大规模双语句对，该语料来源于WMT机器翻译任务发布的平行语料库，语料包括Europarl v7、Common Crawl corpus、NewsCommentary v11等。为了提高实验性能，对语料进行了过滤，剔除过长与过短句对，以及双语句长比值超过一定阈值的句对；另一部分QE数据来自WMT’2017QE任务。表1给出了关于实验所采用语料的具体数量信息。

表1双语数据集和QE数据集

为了评价译文质量估计系统的性能，一般使用皮尔逊相关系数(Pearson)、斯皮尔曼相关系数(Spearman)、平均绝对误差(Mean Absolute Error，MAE)和均方误差(RootMean Squared Error，RMSE)等四个评价指标，为了比较单个特征以及不同的特征组合对译文质量估计效果的影响，本实施例在控制变量的条件下进行了多组对比实验。

表2算术求和融合策略各系统性能

其中“W-P”和“BERT”分别表示仅使用词预测特征的系统和仅使用基于BERT的语境化词嵌入特征的系统；“W-P+SYNTAX”表示词预测特征与句法特征融合系统；“W-P+BERT”表示词预测特征与基于BERT的语境化词嵌入特征融合系统；“W-P+BERT+others”表示将词预测特征与语境化词嵌入特征和其他17个基线特征进行融合；“W-P+BERT+SYNTAX+others”表示将所有特征进行融合；“POSTECH(single)”表示公开数据中仅采用预测器-估计器单模型系统所得实验结果，将其与本实施例的实验结果进行对比。

同时，为了对比两种不同融合策略对多特征融合的译文质量估计系统性能的影响，本发明在融合上述所有特征的系统上做了一组对比实验，表3所示是该特征组合下采用两种特征融合方式的实验结果。且通过对比分析，发现拼接方式的融合策略效果略低于(是本发明方案的优点)算数求和方式。

表3不同融合策略的特征融合系统性能

由表2可以看出，多特征融合的句子级译文质量估计方法的最佳系统相比于POSTECH(single)基线系统提升了0.31个百分点。因此上述实验证明了本发明即多特征融合的句子级译文质量估计方法的有效性。

Claims

1.一种多特征融合的句子级译文质量估计方法，其特征在于包括以下步骤：

3)通过上述两种融合方式得到两种高维向量，分别将两种方式所得到的特征融合向量与基线特征H_o进行拼接，作为最终的特征融合向量，利用sigmoid函数进行最终的HTER值即译文质量分数预测；

步骤1)中，提取语境化词嵌入特征为：

同时对源语言和机器输出译文进行编码，得到双语词嵌入并将其进行拼接作为一种特征；。

步骤1)中提取依存句法特征为：

分别将源语言(x₁，x₂，...，x_n)和机器译文(y₁，y₂，...，y_m)输入到句法分析工具Stanford Parser中；

采用句法分析工具Stanford Parser对输入句子分别进行句法分析后，得到各个词与其中心词之间的依存元组

其中x_i表示源语言当前词，

表示源语言当前词对应的中心词，y_i表示机器译文当前词，

其中

代表源语言每个词所对应的中心词，

表示机器译文中的每个词对应的中心词；

2.根据权利要求1所述的多特征融合的句子级译文质量估计方法，其特征在于步骤2)中对各特征进行融合，是将各个特征分别输入到以LSTM为结点的双向循环神经网络中进一步学习后，再整合各个最终得到的隐藏状态作为最终双语信息表征向量，进而用于译文质量估计分数的计算；模型的构建以RNN为基础，采用RNN的变体-长短时记忆网络作为基本的网络单元编码各个特征序列内部之间的联系，具体为：

H₁＝(H_B+H_s+H_w)/3

3.根据权利要求1所述的多特征融合的句子级译文质量估计方法，其特征在于步骤2)中，针对特征向量提出两种不同的融合方式，第二种是将各个向量按指定维度拼接的方式，从最终得到的融合后的特征向量分析，该方式未修改各个特征的任何维度内容，使得每一个特征所携带的信息得到充分表达，公式如下：

H₂＝[H_B；H_s；H_w]

其中，H₂是采用第二种融合方式得到的融合向量。

4.根据权利要求1所述的多特征融合的句子级译文质量估计方法，其特征在于步骤3)中，拼接方式如下所示：

H＝[H_i；H_o](i＝1，2)

H表示最终融合向量。