CN112464673B

CN112464673B - 融合义原信息的语言含义理解方法

Info

Publication number: CN112464673B
Application number: CN202011431776.0A
Authority: CN
Inventors: 王念滨; 汪先慈; 张耘; 周连科; 王红滨; 张毅; 崔琎
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2023-05-26
Anticipated expiration: 2040-12-09
Also published as: CN112464673A

Abstract

融合义原信息的语言含义理解方法，属于语言信息处理技术领域。为了解决现有的语言建模方法存在复杂度较高的问题和不能兼顾效果的问题。本发明所述方法首先将语言以每个单词为单位，按照两条路径进行处理；左路径：单词编码器+RNN+单词解码器，左路径输出记为w^l；右路径：义原编码器+RNN+义原解码器+词语解码器+sigmoid，右路径输出记为w^r；然后将两个路径的输出进行融合。主要用于语言含义理解。

Description

融合义原信息的语言含义理解方法

技术领域

本发明涉及一种语言含义理解方法，属于语言信息处理技术领域。

背景技术

语言建模(LM)是自然语言处理(NLP)和语言理解的核心任务。语言建模的目的是显示一个词序列的概率分布。LMs在文本生成任务中扮演了关键角色，比如机器翻译，文档摘要。

模型总是根据上下文预测单词。在一个简单的N-gram语言模型中，它假设：每个单词只相对于前面的N-1个单词。近年来，越来越多的神经网络模型被建立起来。他们得到了最先进的表演，而且还在取得进展。经典的神经网络语言模型由编码器和解码器组成。在编码器中，NN接收一个语言序列，然后将每个单词的左上下文编码成一个向量。在译码器中，神经网络从编码器中获取向量并尝试预测单词。本发明称单词左边的所有单词为“leftcontext”。

这些LMs依赖于递归神经网络(RNNs)或其他现代神经网络来学习单词的上下文。然后，利用一个相似的译码器得到单词的概率分布。随着计算能力的增加，许多人致力于创建一个可以更好地了解上下文的复杂结构。这些努力起到了作用，但应该在如何利用语境方面投入更多的精力。

一些由专家注释的数据有助于上下文建模和增加上下文的可解释性。HowNet是一个注释数据，它用一个或多个相关的义原对汉语中的每个概念进行注释，揭示了义原之间的关系。义原是语言学家定义的人类语言不可分割的语义单位。HowNet包含了一个词的定义、情感和例子等，但只有定义总是在填充。下层是基于上层的更精确的定义。除第一层外，每个义原都只有一个上义原。本发明认为HowNet可以融合到神经网络中，带来明显的提升。

近年来，一些人在知网上做了很多工作，如情感分析和词相似性计算。本发明已经看到一些工作取得了较好的效果，如义原驱动的语言模型(SDLM)和表征学习。这些作品对本发明很有启发性。他们将义原信息用于语言建模、注意力和义原预测。但是，与知网的质量和成本相比，其先进性不足，方法复杂，难以推广。

发明内容

本发明是为了解决现有的语言建模方法存在复杂度较高的问题和不能兼顾效果的问题。

融合义原信息的语言含义理解方法，包括以下步骤：

将语言以每个单词为单位，按照两条路径进行处理；左路径：单词编码器+RNN+单词解码器，左路径输出记为w^l；右路径：义原编码器+RNN+义原解码器+词语解码器+sigmoid，右路径输出记为w^r；然后将两个路径的输出进行融合；

所述义原编码器的处理过程包括以下步骤：

创建一个具有N行的可训练矩阵，其中N是单词数，i表示单词的序号，对应可训练矩阵的第i行，将每个义原作为一个向量：

s＝select(w，M)

emb＝∑s_j*EMB(j)

其中，M是关于单词包含义原权重的常量矩阵，

H1,H2表示单词的个数和义原的个数；Select是一个从M中提取单词w所表示义原权重向量的函数，s是一个s_j组成的义原权重向量，表示此单词所包含的所有义原的概率分布；

代表一个单词所包含义原的权重，EMB是一个可训练的嵌入层，它将每个义原都转换为对应的向量；

所述词语解码器的处理过程包括以下步骤：

根据基于义原解码器，将义原概率需要转换成单词：

w＝sM^T

其中M^T为M的转置；

所述将两个路径的输出进行融合的过程包括以下步骤：

根据左路径的输出w^l和右路径的输出w^r得到融合后的输出：

p(w|g)＝softmax(w^lw^r)

其中p(w|g)表示单词w关于上下文的概率；

进一步地，所述一个单词所包含义原的权重

其中单词w在义原树中第h层有l_h个义原，j表示其中的一个；

进一步地，当义原树中层数大于等于2时，

g′义原树的总层数；

进一步地，所述义原解码器的处理过程包括以下步骤：

首先对右侧路径中RNN的输出进行如下处理：

q＝σ(g^TV+b)

其中V和b是可训练参数，σ表示激活函数，g为RNN的输出；

然后以隐状态q为输入，计算义原得分；对于向量s中的义原k，将义原得分为：

s_k＝q^TU_k

其中，U_k为转换矩阵；

进一步地，所述的转换矩阵U_k如下：

其中

α_k,r>0是可训练参数，并且

进一步地，所述右侧路径中的sigmoid处理过程包括以下步骤：

首先针对词语解码器的输出，利用Sigmoid函数处理得到w^r

然后利用如下公式对w^r进行更新：

w^r＝w^r×(1-X)+X

其中X确定偏移的常量参数。

有益效果：

本发明提出了一种新的数据扩充方法，它是以义原作为附加输入来实现的。因此，对于一个词的输入，有两种类型的输入，一种是原始词，另一种是义原。这两种类型的输入通过相同的中间层模型，在模型的最后一层，这两种路径的输出被融合在一起。这是一种将义原知识与神经网络相融合的简单生成方法。本发明将这种方法称为基于义原的数据增强(SBDE)。这样，SBDE作为模型集成可以使模型具有更强的鲁棒性。语言建模实验和标题生成的下游应用实验证明了SBDE的有效性。

附图说明

图1为单词与义原关系示意图；

图2为义原生成模型图；

图3为本发明语言模型示意图；

图4为义原嵌入层示例图。

具体实施方式

具体实施方式一：

义原是在HowNet(知网)是独有的概念，其设计目的是利用固定的一部分词表示基本语义信息，让任何其他的词都可以被这些义原所表示。这些表示是由HowNet的作者所定义，词汇众多、结构丰富，包含大量的人类经验信息。但是作为一个由人定义的数据库，受限于专家水平和知识总量的增长，不可避免的存在一些主观性和时效性相关的问题。这些问题导致的误差虽然可能对于目前的深度学习方法来说并不明显，但是将其与深度学习方法融合能互相取长补短，结合不同方法的优势。

这里所说的义原是由董振东、董强父子二人设计和构建的，其以英语和汉语的词语(Word)所代表的概念(Sense)为描述对象，以解释概念与概念之间以及概念所具有的属性之间的关系为基本内容的尝试知识库。其思想主要来自还原论，即任意的词语的含义都可以由一个或者多个语义单元组成，这种单元在知网中被称作义原(Sememe)。所以此处的义原就是最小的不可分割的语义单元，当然其不只是说明了概念所包含的义原，也存在这些义原之间的关系和结构，这些结构整体上呈现树形。树的节点表示义原，而树的边表示义原之间的关系，比如修饰，组成等。

义原在早年受到了各种传统方法研究者的追捧，但是随着传统统计方法的没落，义原在论文中出现的次数也越来越少。在当前这个深度学习模型泛滥的时代，研究者大多对数据量和参数量的追求远大于对于专家精细标注数据的追求。在本发明中，希望将这种数据与神经网络模型融合。由于义原信息繁杂多样，难以形成在神经网络中常用的矩阵形式，所以在本发明中为了降低模型复杂度，只提取HowNet中的义原和义原的层次关系，对于义原之间的修饰则不予记录。且由于在书面语言中，不同的语义的词可能包含相同的义原，此时本发明选择只取树中最高的一个义原。

如图1所示，一个词可能包含多种语义，对于每种语义，其都按照其语义设计了不同的义原之间的关系图。对于这些关系呈现出树状，更深的层次表示的语义往往更加细分。

语言模型是各种NLP任务的基础。现代语言模型通常是在给定的语境下分析词的概率分布。当提出统计语言模型时，模型将概率分配给具有N个单词的序列S，如下面公式所示：

P(s)＝P(w₁w₂…w_N)＝P(w₁w₂…w_N-1)P(w_N|w₁w₂…w_N-1)＝P(w₁)P(w₂|w₁)…P(w_N|w₁w₂…w_N-1

其中w_i表示序列s中的第i个单词，这N个单词的联合概率可以分解为N-1个单词的联合概率和第N个单词的条件概率的乘积。

随着神经网络的普及，Mikolov等人首次提出将RNN应用于语言模型。它们依靠递归结构捕捉较长的上下文信息，并通过时间的反向传播进行训练。虽然RNN理论上可以拟合任何函数，但它很难学习非常长的依赖关系。一些原因是梯度爆炸或消失问题。为了解决这一问题，人们开发了一种模型，并引入了许多正则化和优化方法。AWD-LSTM是一种杰出的模型，它在宾夕法尼亚州树库(PTB)和WikiText-2数据集上达到了最先进水平。

但是在最近，预训练语言模型的效果表现惊人，引起了人们的研究兴趣。这些预训练模型往往包含许多参数，然后在一个巨大的语料库上训练。

随着深度学习的发展，人们希望用大规模的语料库来训练网络。近年来，专家手册注释知识库的重要性越来越受到人们的重视，也出现了一些关于义原预测的研究成果。Niu等人利用词的义原信息来提高词嵌入的质量，并在特定的语境中准确地捕捉词的意义。Ruobin Xie利用预训练词嵌入和矩阵分解来预测词的义原，Jin等在此基础上进一步考虑了汉字及其位置信息。

在这之前也存在义原和语言模型结合的尝试，其模型名为SDLM(SememeDriveLanguage Model)，SDLM是将义原信息融合到神经网络中的一次有价值的尝试，证明了它对语言模型是有益的。这些输入和编码器与通常的语言模型相同，只是改变了解码器。如图2所示，SDLM使用两条路径生成语义向量，并通过语义的常量矩阵计算。尽管取得了成功，SDLM的编码器接收一个单词作为输入，但是解码器需要产生一个义原上下文。因此，编码器不仅要捕获词的上下文，而且要捕获义原的上下文。但此处存在一个问题：编码器无法直接获取义原的信息。为了弥补编码器和解码器之间的鸿沟，本发明尝试通过接下来的方法解决这个问题，并在这个领域中展示不同的研究视角。

本实施方式所述的融合义原信息的语言含义理解方法，包括以下步骤：

基于义原的语言生成：

在这一部分，本发明提出了一个简单的方法，利用义原信息来改进NLP模型的结果。有些词的义原离上下文太远就不是候选词。在本发明后续的实验和例子将详细描述这一方法。在一般的语言模型中，一个输入序列被送入神经网络并通过其前面的单词来预测下一个单词。作为知网的描述，每个词都可以定义为一种结构化义原。基于此理论，本发明可以将上下文的义原作为输入，进而预测当前词所包含义原的概率。

事实上，知网的主要效率是提供一个更简单的模式，这有助于模型轻松地学习它。由于义原空间比词小得多，不同的词可能表示相同的义原。有两个句子：“苹果很好吃”和“橘子很好吃”。显然，学习“水果好吃”比分别学习“苹果好吃”和“橘子好吃”容易得多，因此神经网络可以从义原的特定信息中获益。

本发明提出的方法是建立一条从输入到输出的并行路径。如果忽略编码器和解码器的细节，则并行路径与另一路径相同。在编码器Embedding中将单词转换成义原，并从中得到一个编码向量。在解码器中，有一个新的路径来判断当前单词中哪个义原不存在。本发明的语言模型如图3所示，本发明包括两条路径，左路径：单词编码器(embedding，简记emb)+RNN+单词解码器(word decoder)，左路径输出记为w^l；右路径：义原编码器(sememeembedding，简记sememe emb)+RNN+义原解码器(sememe decoder)+词语解码器(sememe toword)+sigmoid，右路径输出记为w^r；然后将两个路径的输出进行融合(MUL)。

Embedding部分：

在原始LM(语言模型)中，嵌入是将单词作为向量的一个步骤。因为向量比单个数字能获取更多的信息。在左路径中，NLP区域的大多数模型都会设计一个嵌入组件。嵌入的实现是创建一个具有N行的可训练矩阵，其中N是单词数，i表示单词的序号，对应可训练矩阵的第i行，与原始LM一样，本发明模型的右路径将每个义原作为一个向量。具体如下：

s＝select(w，M)

emb＝∑s_j*EMB(j)

其中，M是关于单词包含义原权重的常量矩阵，

H1,H2表示单词的个数和义原的个数。Select是一个从M中提取单词w所表示义原权重向量的函数，s是一个s_j组成的义原权重向量，表示此单词所包含的所有义原的概率分布，其中每个s_j表示义原的权重。

代表一个单词所包含义原的权重，EMB是一个可训练的嵌入层，它将每个义原都转换为对应的向量。

显然，这些词的义原在上下文中起着不同的作用，有的重要，有的不重要。因此，如果w这个词在义原树中第h层有l_h个义原，j是其中的一个，使用

来区分这些不同层义原之间的不同。但是，由于义原大多位于第一层和第二层，所以本发明把所有h＞2的义原看做h＝2。换言之，当层数大于等于2时，公式为

g′义原树的总层数。以上公式也可以表示为图4，根据以上公式可以得到每个词的义原和层次信息。

对于每一个义原，本发明可以做一个与单词embedding相同的义原embedding操作。

RNN部分：

在右路径中，本发明在编码器和解码器之间使用与左路径相同的中间层(RNN)。本发明的右路径完全独立于左路径，使得原网络的性能不受影响。

Decoder部分：

解码器的功能是将隐藏表示转换为字概率。知网这种结构中没有包含一些人类专家不知道或写不出来的隐含规则。但这种规则包含了词与词之间的内在联系，可以用来消除词的不确定性。

1)义原解码器

本发明将义原解码器设计为两个步骤，第一步是解码中间层的输出，第二步是为每个义原k选择一个参数化的矩阵。

第一步：设计一个线性解码器，具有激活函数：

q＝σ(g^TV+b)

其中V和b是可训练参数，σ表示激活函数，g为RNN的输出。

第二步：以隐状态q为输入，计算义原得分。本发明用一个唯一的线性函数来描述每个义原的概率。对于向量s中的义原k，义原得分为：

s_k＝q^TU_k

其中，U_k为转换矩阵；

本发明把每个义原看作专家，根据上下文预测概率分布，这些概率反映了所有其他词的义原对当前词的义原概率的预测结果。义原解码器部分计算了该词的义原概率。

2)词语解码器

语言模型的最终输出是单词概率。因此，义原概率需要转换成单词：

w＝sM^T

其中，s是义原的概率，每一个义原都与多个词有关。M^T为中的

的转置，并表示了一个词的义原概率分布。如上所述，M^T有H2行，每行都有H1个数字，表示由HowNet定义的概率。当本发明同时得到义原概率和义原与词的关系矩阵后，就可以用s来计算词语概率分布的和。

融合：

尽管知网是一个优秀的词语数据集，它对单词的大部分意义进行了注释，但有些信息可能会丢失或过期所以本发明尝试提出一种融合方法来避免上述问题。本发明融合原始神经网络(左路径)和附加路径(右路径)。本发明选择乘法并做一些修正。

由于以上原因，本发明将语言模型视为一个多标签分类任务。因此，本发明在右路径中的词语译码器的输出上使用一个sigmoid函数，并将其输出称作w^r。同时，在知网的基础上，可以利用w^r对一些可能性很低的词进行剪枝。

左路径中，w^l是通过标准单词解码器的全连接部分得到的；右路径中，w^r是从最后的sigmoid函数得到，最后用w^r乘w^l就可以起到对左路径结果剪枝的作用。

因此，整体上模型输出原理为p(w|g)，即单词w关于上下文g的概率分布，可以从左右路径的结果得到：

p(w|g)＝softmax(w^lw^r)

额外的细节：

Sigmoid：由于Sigmoid函数的范围是(0，1)。在给定上下文中，不相关的词语总会比相关的词语多，这些词语让w^lw^r成为w^l0。因此在很多时候，左路径很难获得反向传播的梯度，也就很难随着模型被训练得更好。在此处本发明使用sigmoid函数，并对sigmoid的输出进行修改(整体可以视作一个修改的sigmoid函数)，将其范围修改为(X，1)；最终公式为w^r×(1-X)+X，其中X确定偏移的常量参数。

基础矩阵：给每个义原k设置一个转换矩阵U_k的空间消耗极高，所以在此处设计了一个技巧来实现。使用R个矩阵和他们的带权和来模拟U_k，公式如下：

其中

α_k,r>0是可训练参数，并且

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。