CN106372061B

CN106372061B - 基于语义的短文本相似度计算方法

Info

Publication number: CN106372061B
Application number: CN201610817910.8A
Authority: CN
Inventors: 费高雷; 胡馨月; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2020-11-24
Anticipated expiration: 2036-09-12
Also published as: CN106372061A

Abstract

本发明公开了一种基于语义的短文本相似度计算方法。其包括语料库数据预处理并建立词语Embedding，构建词语语义树，计算短文本中词语之间的语义相似度，计算短文本之间的语义相似度。本发明以深度学习的词语Embedding为基础，结合分层聚类方法创建词语语义树，计算短文本中词语之间的相似度，并且在此基础上结合短文本的多种特征，计算短文本之间的语义相似度，有效解决了现有技术中词语语义树不能刻画新鲜词语与已知词语语义关系的缺点。

Description

基于语义的短文本相似度计算方法

技术领域

本发明属于短文本相似度计算技术领域，尤其涉及一种基于语义的短文本相似度计算方法。

背景技术

短文本间的语义相似度计算在人工智能、自然语言处理、认知学、语义学、心理学、生物信息学等领域里都具有理论的研究价值和应用背景。利用短文本相似度能很好地克服语料库中的信息冗余。目前，许多研究都表明短文本相似度计算能促进许多自然语言处理任务，如事件检测，信息检索，文本正规化，自动文本摘要，文本分类和聚类等。短文本相似度计算的应用领域非常广泛，一个好的语义相似度计算方法能在很大程度上改进现有很多系统的性能。

目前，短文本相似度的计算方法有很多，主要可以分为如下几类：基于语义词典的方法、基于语料库的方法、基于特征的方法、借助互联网资源的方法。基于语义词典的方法是指通过语义词典，如WordNet[],PPDB,FrameNet等，计算词与词之间的语义相似度，最后将词语语义相似度综合起来得到文本语义相似度的方法。基于语料库的方法是指对大规模文本集进行统计分析，典型的方法有LSA(Latent Semantic Analysis)[]和HAL(Hyperspace Analogues to Language)[]。基于特征的方法[]试图用一些事先定义好的特征来表示短文本，然后通过分类器来获取短文本的语义相似度。借助互联网资源的方法[]大多数都利用搜索引擎的返回结果来丰富短文本的上下文信息或者计算词或实体的相似度从而计算短文本的语义相似度。

基于语义词典的方法非常依赖于所查询的语义词典的完备性，因为短文本中可能会包含词典中不存在的词，从而造成无法计算该短文本与其他短文本的语义相似度。其次，词典中词的一词多义也会影响语义相似度计算的准确性。基于特征的方法的难点在于如何定义有效的特征并自动获取这些特征的值。另外，特征的定义对于具体的概念比较容易，对于抽象概念比较困难。借助互联网资源的方法对于搜索引擎的返回结果非常敏感，不能得到稳定的语义相似度。此外，搜索引擎返回结果中的共现信息只能在一定程度上反应两个词的关系，并且自动从摘要中提取语法模板的精度很难保证。HAL的缺点在于其构造的词-词矩阵不能很好地捕获整个文本的意义。LSA可能不能处理短文本中出现的新词，其次LSA的短文本向量表示非常稀疏，会影响相似度计算的精度，并且也不能表示短文本中的一些语法信息。

随着神经网络和深度学习的兴起，传统的词语向量空间可以转变到词语Embedding层向量空间，弥补了短文本在词向量空间中稀疏、噪音大等特点，并且能够将无监督学习与监督学习过程无缝结合，为短文本语义相似度的计算开辟了新的方向，成为未来的发展趋势。

短文本与常见的新闻、杂志等长文本不同，它长度较短导致个别噪音词语对解析整个短文本语义的干扰非常严重。因此使用常规处理正规文本的模型以及方法对于短文本语义相似度计算未必行之有效。

发明内容

本发明的发明目的是：为了解决现有技术无法有效解决短文本长度较短导致个别噪音词语对解析整个短文本语义的干扰非常严重的问题，本发明提出了一种基于语义的短文本相似度计算方法。

本发明的技术方案是：一种基于语义的短文本相似度计算方法，包括以下步骤：

A、对语料库数据进行预处理，根据word2vec超参数建立词语Embedding；

B、采用分层聚类方法构建语料库的词语语义树；

C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度；

D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。

进一步地，所述步骤A中对语料库数据进行预处理，具体为：将语料库中的所有词语都转换为小写，并进行分词；同时选择语料库中出现次数大于N的词语建立语料库对应的词汇表，其中N为预设出现次数阈值。

进一步地，所述步骤A中根据word2vec超参数建立词语Embedding，具体为：采用不同超参数训练word2vec的CBoW和SG模型，利用余弦距离作为词语Embedding的语义相似度，筛选前三个相似度最高的词语作为同义词，采用WordNet作为同义词知识库，通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数，从而建立词语Embedding；其中，准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例，召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例，F1分数表示为

进一步地，所述步骤B采用分层聚类方法构建语料库的词语语义树，具体为：利用SimLex-999数据集确定距离度量和连接度量，采用分层聚类方法根据确定的距离度量和连接度量构建语料库的词语语义树。

进一步地，所述步骤C计算短文本中词语之间的语义相似度的计算公式具体为：

其中，w₁和w₂均表示词语，link表示两个词语的最小公共祖先节点，inconsistent(Tree)_threshold表示该分层聚类树中连接的不一致率阈值，inconsistent表示连接的不一致率。

进一步地，所述步骤D根据短文本中词语之间的语义相似度计算短文本之间的语义相似度包括以下分步骤：

D1、对短文本T₁和T₂进行预处理，去掉短文本中的标点符号及特殊符号，并将短文本中每个词语都转换为小写；

D2、分别计算短文本T₁中词语w_i和短文本T₂中词语w_j的语义相似度s_ij；

D3、计算短文本T₁和T₂的语义相似度，计算公式具体为：

其中，Sum(rows)表示短文本T₁和T₂的语义相似矩阵S中的每行元素不全为零的行的最大值求和，Sum(columns)表示短文本T₁和T₂的语义相似矩阵S中的每列元素不全为零的列的最大值求和，||S_row≠0||表示短文本T₁和T₂的语义相似矩阵S中非零行的总数，||S_column≠0||表示短文本T₁和T₂的语义相似矩阵S中非零列的总数。

本发明局以下有益效果：

1、本发明的词语语义树是对基于深度神经网络的词语Embedding进行合理地分层聚类得来的，相比现有的词语语义树更易于扩展；并且针对不同的语料库，可以快速构建对应的词语语义树，包含的词汇量更多，解决了WordNet、同义词词林等的词语语义树不能刻画新鲜词语与已知词语语义关系的缺点；

2、本发明提出的词语语义相似度计算方法采用人工标注的同义词数据集来确定分层聚类词语语义树的连接不一致率阈值，从而减小了连接不一致率极值造成语义相似度的判别比例失调，提高了词语语义相似度计算的精度；

3、本发明提出的基于词语语义相似度计算短文本语义相似度的方法，简单有效，通过调整训练语料库能够处理任何短文本数据集，并且能够识别相似词的不同词性，从而不用考虑词语的词性匹配问题，更加简洁的对句式变化多样的相似短文本进行识别。

附图说明

图1是本发明的基于语义的短文本相似度计算方法流程示意图。

图2是本发明实施例中分层聚类词汇语义树结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明的基于语义的短文本相似度计算方法流程示意图。一种基于语义的短文本相似度计算方法，包括以下步骤：

B、采用分层聚类方法构建语料库的词语语义树；

在步骤A中，首先需要对语料库数据进行预处理，具体为：将语料库中的所有词语都转换为小写，并进行分词；为了保证词语Embedding的质量，本发明选择语料库中出现次数大于N的词语建立语料库对应的词汇表，其中N为预设出现次数阈值；优选的，本发明设定N为10，即选择语料库中出现次数大于10的词语建立语料库对应的词汇表。

本发明采用word2vec工具训练词语Embedding，根据word2vec超参数建立词语Embedding，具体为：采用不同超参数训练word2vec的CBoW和SG模型，这里的超参数为上下文窗口大小、维度大小等，再利用余弦距离作为词语Embedding的语义相似度，筛选前三个相似度最高的词语作为同义词，采用WordNet作为同义词知识库，通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数，从而建立词语Embedding；其中，准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例，召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例，F1分数表示为

优选的，本发明确定的word2vec超参数为维度大小为300，上下文窗口大小为32，迭代为5次，负采样率为5。

在步骤B中，如图2所示，为本发明实施例中分层聚类词汇语义树结构示意图。本发明采用分层聚类方法动态地构建语料库的词语语义树，使语义相近的词语在词语语义树中邻近。凝聚的分层聚类方法使用自底向上的策略，典型地，它从令每个对象形成自己的簇开始，并且迭代地把簇合并成越来越大的簇，直到所有的对象都在一个簇中，或者满足某个终止条件。该单个簇成为层次结构的根。在合并步骤，根据某种相似性度量，它找出两个最接近的簇，并且合并它们形成一个簇。因为每次迭代合并两个簇，其中每个簇至少包含一个对象，因此凝聚方法最多需要n次迭代。

构建语料库的词语语义树时需要确定词语Embedding之间距离的度量，这里本发明考虑欧拉距离、余弦距离和曼哈顿距离；同样，凝聚方法中簇间距离的度量即连接度量，这里本发明针对不同的词语向量距离度量，分析均值距离、中心距离、最大距离、平均距离等连接度量对凝聚层次聚类树质量的影响。本发明使用SimLex-999数据集来评估不同距离度量和连接度量生成的凝聚层次聚类树的质量，以此构建高质量的词语语义树。SimLex-999数据集包含999对英语单词，这些英语单词之间的同义相似度和语义相关度由人工标注。基于该数据集，本发明根据Spearman等级相关系数分析结果来确定合适的距离度量和连接度量，以构建高质量的分层聚类树。

本发明的词语语义树是对基于深度神经网络的词语Embedding进行合理地分层聚类得来的，相比现有的词语语义树更易于扩展；并且针对不同的语料库，可以快速构建对应的词语语义树，包含的词汇量更多，解决了WordNet、同义词词林等的词语语义树不能刻画新鲜词语与已知词语语义关系的缺点。

在步骤C中，本发明利用分层聚类方法构建的语义树，设计了一种新的词语语义相似度计算方法。在分层聚类词语语义树中，叶节点代表词语，父节点和根节点表示一个连接，每个连接通过不一致率来指示该连接中成员之间的一致性程度。本发明根据分层聚类树中每个连接的不一致率来计算词语之间的语义相似度，计算公式具体为：

其中，w₁和w₂均表示词语，link表示两个词语的最小公共祖先节点，inconsistent(Tree)_threshold表示该分层聚类树中连接的不一致率阈值，inconsistent表示连接的不一致率，若不一致率超过设定阈值则等于阈值。为了提高语义相似度的精度，本发明设定当两个词的连接的不一致率高于某个值时，则认为该两个词完全不相干，因此我们设定了不一致率阈值。因为不一致率的最大值可能会很大，因此该截断将有效地提高词语语义相似度的精度。WS-353数据集包含353对英语单词，这些英语单词之间的语义相似度由人工标注。基于该数据集，本发明根据Spearman等级相关系数分析结果来确定分层聚类树的不一致率阈值。

本发明的词语语义相似度计算方法采用人工标注的同义词数据集来确定分层聚类词语语义树的连接不一致率阈值，从而减小了连接不一致率极值造成语义相似度的判别比例失调，提高了词语语义相似度计算的精度。

在步骤D中，本发明记两条短文本分别为T1和T2，根据步骤C计算短文本中词语之间的语义相似度，再计算短文本之间的语义相似度包括以下分步骤：

D3、计算短文本T₁和T₂的语义相似度，计算公式具体为：

在步骤D1中，本发明针对短文本T₁和T₂进行说明，两个短文本具体为：

Text 1:My phone is annoying me with these amber alerts.

Text 2:That amber alert was getting annoying.

对短文本T₁和T₂进行预处理，即去掉短文本中的标点符号及特殊符号，并将短文本中每个词语都转换为小写形式。

在步骤D2中，本发明对于短文本T₁中的每个词语w_i，在短文本T₂中选择与其最大语义相似度的词语w_j；再对于短文本T₂中的每个词语w_j，在短文本T₁中选择与其最大语义相似度的词语w_i；从而得到短文本T₁和T₂的语义相似矩阵S，如表1所示，为短文本T₁和T₂的语义相似矩阵。

表1短文本T₁和T₂的语义相似矩阵

在步骤D3中，本发明对步骤D2中计算得到的词语语义相似度计算进行求和平均，得到短文本之间的语义相似度，根据计算公式计算短文本T₁和T₂的语义相似度为0.855。

本发明的基于词语语义相似度计算短文本语义相似度的方法，简单有效，通过调整训练语料库能够处理任何短文本数据集，并且能够识别相似词的不同词性，从而不用考虑词语的词性匹配问题，更加简洁的对句式变化多样的相似短文本进行识别。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于语义的短文本相似度计算方法，其特征在于，包括以下步骤：

B、采用分层聚类方法构建语料库的词语语义树；

C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度；计算短文本中词语之间的语义相似度的计算公式具体为：

其中，w₁和w₂均表示词语，link表示两个词语的最小公共祖先节点，inconsistent(Tree)_threshold表示分层聚类树中连接的不一致率阈值，inconsistent表示连接的不一致率；

D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度；根据短文本中词语之间的语义相似度计算短文本之间的语义相似度包括以下分步骤：

D3、计算短文本T₁和T₂的语义相似度，计算公式具体为：

2.如权利要求1所述的基于语义的短文本相似度计算方法，其特征在于，所述步骤A中对语料库数据进行预处理，具体为：将语料库中的所有词语都转换为小写，并进行分词；同时选择语料库中出现次数大于N的词语建立语料库对应的词汇表，其中N为预设出现次数阈值。

3.如权利要求2所述的基于语义的短文本相似度计算方法，其特征在于，所述步骤A中根据word2vec超参数建立词语Embedding，具体为：采用不同超参数训练word2vec的CBoW和SG模型，利用余弦距离作为词语Embedding的语义相似度，筛选前三个相似度最高的词语作为同义词，采用WordNet作为同义词知识库，通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数，从而建立词语Embedding；其中，准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例，召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例，F1分数表示为

4.如权利要求3所述的基于语义的短文本相似度计算方法，其特征在于，所述步骤B采用分层聚类方法构建语料库的词语语义树，具体为：利用SimLex-999数据集确定距离度量和连接度量，采用分层聚类方法根据确定的距离度量和连接度量构建语料库的词语语义树。