CN111199154B

CN111199154B - 基于容错粗糙集的多义词词表示方法、系统及介质

Info

Publication number: CN111199154B
Application number: CN201911326404.9A
Authority: CN
Inventors: 邱东; 江海欢
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-12-27
Anticipated expiration: 2039-12-20
Also published as: CN111199154A

Abstract

本发明请求保护一种基于容错粗糙集的多义词词表示方法、系统及介质，包括：101、计算机获取语料库，并对语料库进行预处理操作；102、计算机确定语料库的基词集合；103、计算机获取每个基词的不确定性函数(容错类)；104、对于每个基词的不确定性函数集合，进行模糊聚类，计算每个基词的词义数量；105、构建连续词袋模型(CBOW)，训练词向量。本发明主要是通过应用容错粗糙集模型，获取每个词语的词义数量，建立相应的连续词袋模型训练词向量，获取多义词的词表示，切实结合当下的技术发展需求。

Description

基于容错粗糙集的多义词词表示方法、系统及介质

技术领域

本发明属于深度学习、人工智能技术、自然语言处理领域，是自然语言处理中的词表示方法。

背景技术

单词作为语言的基本单元，其表示学习一直是自然语言处理的的核心基础问题。传统上，自然语言处理系统把词编码成字符串。这种方式是随意确定的，且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是自然语言处理领域的一个替代方案。它把词或短语映射成实数向量，把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。例如，让我们看看四个词：“woman”(女人)、“man”(男人)、“queen”(女王)和“king”(国王)。我们把它们都向量化，再使用简单的代数运算来发现它们之间的语义相似度。计算向量间的相似度可以采用诸如余弦相似度的方法。当我们把词“woman”的向量减去词“man”后，这个差值的余弦相似度应该和词“queen”的向量减去“king”的向量的差值比较接近^[43,44]：

e("woman")-e("man")≈e("queen")-e("king")

Google在2013年推出开源工具包word2vec就是通过训练好的词向量，制定一个词看看有返回和它余弦距离最近的词并排序，即我们可以利用词表示去找同义词。同时可以把词表示结果作为神经网络的输入层，通过前馈网络和卷积网络应用于词性标注和语义角色标注任务。

词表示算法是自然语言处理的基础，以Word2Vec为代表的现有的词表示研究模型，已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但是，词的表示研究依然面临着诸多挑战。在现有的常用词表示算法中，每个词语对应一个向量，但是在实际情况下，词语中存在着大量的一词多义现象。根据“上下文相似，其语义也相似”的分布式假说，对于和每个词语经常共同出现在同一个上下文中的词语，其意思也是相近的，而由于每个词语的词义不同，出现的上下文的内容也是有区别的。通过利用容错粗糙集模型，根据每个词语的实际情况，分别获取和每个词语出现的共现度大于某个阈值的词语集合(称为容错类)，再对其容错类进行聚类，那么不同的类别则对应词语不同的语义。通过模糊聚类确定每个词语的词义数量，对于每个词语的容错类的类别数即为每个词语的词义数量。克服了其他研究中需要借鉴外部先验知识和人为定义词语的词义数量的缺点。再通过连续词袋模型CBOW，训练词向量，对于每个词语，如果有n个词义，则每个词语由n个向量进行表示，每个向量分别代表每个词义的词向量。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于容错粗糙集的多义词词表示方法、系统及介质，具体方法如下：

一种基于容错粗糙集的多义词词表示方法，其包括以下步骤：

101、计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作；

102、计算机对预处理后的语料库确定基词集合，基词表示需要训练词向量的词语；

103、计算机获取每个基词的不确定性函数即容错类；

104、计算机对于每个基词的不确定性函数集合，采用模糊聚类算法进行聚类，计算每个基词的词义数量，对于每个词语的容错类的类别数即为每个词语的词义数量；

105、计算机构建连续词袋模型CBOW，训练词向量，对于每个词语，如果有n个词义，则每个词语由n个向量进行表示，每个向量分别代表每个词义的词向量。

进一步的，所述步骤101读取语料库，并对语料库进行预处理操作，具体包括：

1)删除文档的页眉页脚，只取实际内容部分；

2)去除标点符号和数字；

3)将词语中的大写转换为小写。

进一步的，所述步骤102确定语料库的基词集合，主要操作如下：

1)统计语料库中出现的所有词语；

2)将所有词语作为基词即需要训练词向量的词语，基词集合为

W＝{w₁,w₂,...,w_n}，

其中n表示基词的数量，w_n表示基词中的第n个词语。

进一步的，所述步骤103获取每个基词的不确定性函数即容错类，包括步骤：

1)设语料库由集合D＝{d₁,d₂,...,d_v}组成，其中d_i表示第i个文档；

2)计算每个基词的不确定性函数

I_θ(w_i)＝{w_j|f_D(w_i,w_j)≥θ}∪{w_i}＝c_i，

其中I_θ(w_i)表示词语w_i的容错类，f_D(w_i,w_j)表示D中同时包含词语w_i和w_j的文档的数量，θ是词语共现度阈值。在后面的内容中，用c_i表示词语w_i的容错类。

进一步的，所述步骤104计算每个词语的词义数量具体包括：

1)由容错粗糙集计算出的词语w_i不确定性函数集合c_i，向量表示为集合中所有词语向量的平均值

其中，v_context(c_i)表示c_i的向量表示，v(c)表示词语c的词向量，c表示词语w_i的容错类c_i中的某个词语。

2)确定词语的词义数量

其中，

sim(v_i,v_j)表示向量v_i与v_j之间的余弦相似度：

μ(w_i,k)是词语w_i的第k个类别的类别中心；k(w_i)是词语w_i的上下文类别数量，即w_i的词义数量；λ表示相似度阈值；

3)单词的词义预测为其距离最近的上下文表示的类别的类别中心：

进一步的，所述步骤105构建连续词袋模型CBOW，训练词向量，具体步骤如下：

1)给定词语w_i的上下文单词集合con_i＝{w_i-R,...,w_i-1,w_i+1,...,w_i+R}，出现单词w_i的概率为

其中，w_i-R和w_i+R分别为w_i的第R个上下文单词、v(con_i)表示con_i的向量表示。

出现单词不为w_i的概率为

P(D＝0|v(w_i),v(con_i))＝1-P(D＝1|v(w_i),v(con_i))

其中，

2)对于一序列词语W＝{w₁,w₂,...,w_n}，目标函数为

其中，w_i'是随机采样的词语，给定上下文con_i出现的噪声词语；D⁺是在语料库中出现的词语-上下文对(w_i,con_i)；D^—是词语-上下文对(w_i',con_i)。

3)采用随机梯度上升优化算法进行参数更新，随机梯度上升优化算法算法具体包括：

①计算当前目标函数的梯度：

②计算当前位置的上升距离：

其中，α为步长。

③进行参数更新：

若θ小于某个阈值ε，则停止迭代，算法终止。

一种介质，该介质内部存储计算机程序，所述计算机程序被处理器读取时，执行上述任一项的方法。

一种基于容错粗糙集的多义词词表示系统，其包括：

预处理模块：用于计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作；

语料库基词集合确定模块：计算机对预处理后的语料库确定基词集合；

词语的词义数量确定模块：计算机对于每个基词的不确定性函数集合，进行聚类，计算每个基词的词义数量；

多义词词向量训练模块：计算机构建连续词袋模型，采用随机梯度上升优化算法，进行多义词向量的训练。

9、进一步的，所述采用随机梯度上升算法进行多义词向量的训练进行优化，具体包括：

①计算当前目标函数的梯度：

②计算当前位置的上升距离：

其中，α为步长。

③进行参数更新：

若θ小于某个阈值ε，则停止迭代，算法终止。

本发明的优点及有益效果如下：

词表示算法是自然语言处理的基础，以Word2Vec为代表的现有的词表示研究模型，已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但是，词的表示研究依然面临着诸多挑战。在现有的常用词表示算法中，每个词语对应一个向量，但是在实际情况下，词语中存在着大量的一词多义现象。简单地将所有不同语义编码在一个向量中，则会给后续应用带来诸多问题。如由于距离的三角不等式的存在，两个自身语义不相似，但是都与另外一个多义词不同语义相似的单词，在表示空间中会被不恰当的拉的更近。而在现有的多义词词表示研究中，大多是在词语词向量表示的基础上，利用外部知识库，根据多义词语在文本语料集中的上下文环境，使用聚类算法对上下文窗口表示聚类，将聚类结果标记到文本语料集中，在标记的文本语料集上训练获得多义词向量表示。对于多义词的词义数量，大多是运用的k-means聚类算法，人为指定词语的词义数量，而在实际应用中，每个词语的词义数量是不同的。

根据“上下文相似，其语义也相似”的分布式假说，对于和每个词语经常共同出现在同一个上下文中的词语，其意思也是相近的，而由于每个词语的词义不同，出现的上下文的内容也是有区别的。通过利用容错粗糙集模型，根据每个词语的实际情况，分别获取和每个词语出现的共现度大于某个阈值的词语集合(称为容错类)，再对其容错类进行聚类，那么不同的类别则对应词语不同的语义。通过模糊聚类确定每个词语的词义数量，对于每个词语的容错类的类别数即为每个词语的词义数量。克服了其他研究中需要借鉴外部先验知识和人为定义词语的词义数量的缺点。再通过连续词袋模型CBOW，训练词向量，对于每个词语，如果有n个词义，则每个词语由n个向量进行表示，每个向量分别代表每个词义的词向量。

附图说明

图1是本发明提供优选实施例一种基于容错粗糙集的多义词词表示方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

参考图1，本发明旨在解决多义词词表示技术的问题。提出了一种能解决其他研究中需要借鉴外部先验知识问题，并且通过对结合容错粗糙集模型，结合聚类算法，能够获取每个词语的词义数量，解决了其他研究中需要认为定义词语词义数量的问题。本发明的技术方案如下：

1.读取语料库，并对语料库进行预处理操作，具体包括：

1)删除文档的页眉页脚，只取实际内容部分；

2)去除标点符号；

3)将词语中的大写转换为小写。

2.确定语料库的基词集合，主要操作如下：

1)统计语料库中出现的所有词语；

W＝{w₁,w₂,...,w_n}，

其中n表示基词的数量，w_n表示基词中的第n个词语。

3.获取每个基词的不确定性函数即容错类，包括步骤：

2)计算每个基词的不确定性函数

I_θ(w_i)＝{w_j|f_D(w_i,w_j)≥θ}∪{w_i}＝c_i，

其中I_θ(w_i)表示词语w_i的容错类，f_D(w_i,w_j)表示D中同时包含词语w_i和w_j的文档的数量，θ是词语共现度阈值，在后面的内容中，用c_i表示词语w_i的容错类。

4.计算每个词语的词义数量具体包括：

2)确定词语的词义数量

其中，

sim(v_i,v_j)表示向量v_i与v_j之间的余弦相似度：

5.构建连续词袋模型(CBOW)，训练词向量，具体步骤如下：

出现单词不为w_i的概率为

P(D＝0|v(w_i),v(con_i))＝1-P(D＝1|v(w_i),v(con_i))

其中，

2)对于一序列词语W＝{w₁,w₂,...,w_n}，目标函数为

其中，w′_i是随机采样的词语，给定上下文con_i出现的噪声词语；D⁺是在语料库中出现的词语-上下文对(w_i,con_i)；D^—是词语-上下文对(w_i',con_i)。

①计算当前目标函数的梯度：

②计算当前位置的上升距离：

其中，α为步长。

③进行参数更新：

若θ小于某个阈值ε，则停止迭代，算法终止。

一种介质，该介质内部存储计算机程序，其所述计算机程序被处理器读取时，执行上述任一项的方法。

一种基于容错粗糙集的多义词表示系统，其特征在于，包括：

一种基于容错粗糙集的多义词词表示系统，其特征在于，包括：

多义词词向量训练模块：计算机构建连续词袋模型(CBOW)，采用随机梯度上升优化算法，进行多义词向量的训练。

需要指出的是，以上步骤101计算机获取语料库，并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作；102计算机对预处理后的语料库确定基词集合，基词表示需要训练词向量的词语；103计算机获取每个基词的不确定性函数即容错类；104计算机对于每个基词的不确定性函数集合，采用模糊聚类算法进行聚类，计算每个基词的词义数量，对于每个词语的容错类的类别数即为每个词语的词义数量；105计算机构建连续词袋模型CBOW，训练词向量，对于每个词语，如果有n个词义，则每个词语由n个向量进行表示，每个向量分别代表每个词义的词向量等步骤均是计算机来执行完成的，其是具备工业运用或者产业运用的方法，并不是需要人全程参与的步骤，其是利用了自然规律来完成的技术方案，对现有的计算机信息处理过程中的文景转换中的耗时以及不准确的缺陷进行的技术改变，因此属于技术方案，因此其并不属于专利法第二条第二款规定的情形，也不属于专利法25条第一款智力活动规则的范畴。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。