CN106372061B - 基于语义的短文本相似度计算方法 - Google Patents
基于语义的短文本相似度计算方法 Download PDFInfo
- Publication number
- CN106372061B CN106372061B CN201610817910.8A CN201610817910A CN106372061B CN 106372061 B CN106372061 B CN 106372061B CN 201610817910 A CN201610817910 A CN 201610817910A CN 106372061 B CN106372061 B CN 106372061B
- Authority
- CN
- China
- Prior art keywords
- semantic
- short text
- word
- words
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义的短文本相似度计算方法。其包括语料库数据预处理并建立词语Embedding,构建词语语义树,计算短文本中词语之间的语义相似度,计算短文本之间的语义相似度。本发明以深度学习的词语Embedding为基础,结合分层聚类方法创建词语语义树,计算短文本中词语之间的相似度,并且在此基础上结合短文本的多种特征,计算短文本之间的语义相似度,有效解决了现有技术中词语语义树不能刻画新鲜词语与已知词语语义关系的缺点。
Description
技术领域
本发明属于短文本相似度计算技术领域,尤其涉及一种基于语义的短文本相似度计算方法。
背景技术
短文本间的语义相似度计算在人工智能、自然语言处理、认知学、语义学、心理学、生物信息学等领域里都具有理论的研究价值和应用背景。利用短文本相似度能很好地克服语料库中的信息冗余。目前,许多研究都表明短文本相似度计算能促进许多自然语言处理任务,如事件检测,信息检索,文本正规化,自动文本摘要,文本分类和聚类等。短文本相似度计算的应用领域非常广泛,一个好的语义相似度计算方法能在很大程度上改进现有很多系统的性能。
目前,短文本相似度的计算方法有很多,主要可以分为如下几类:基于语义词典的方法、基于语料库的方法、基于特征的方法、借助互联网资源的方法。基于语义词典的方法是指通过语义词典,如WordNet[],PPDB,FrameNet等,计算词与词之间的语义相似度,最后将词语语义相似度综合起来得到文本语义相似度的方法。基于语料库的方法是指对大规模文本集进行统计分析,典型的方法有LSA(Latent Semantic Analysis)[]和HAL(Hyperspace Analogues to Language)[]。基于特征的方法[]试图用一些事先定义好的特征来表示短文本,然后通过分类器来获取短文本的语义相似度。借助互联网资源的方法[]大多数都利用搜索引擎的返回结果来丰富短文本的上下文信息或者计算词或实体的相似度从而计算短文本的语义相似度。
基于语义词典的方法非常依赖于所查询的语义词典的完备性,因为短文本中可能会包含词典中不存在的词,从而造成无法计算该短文本与其他短文本的语义相似度。其次,词典中词的一词多义也会影响语义相似度计算的准确性。基于特征的方法的难点在于如何定义有效的特征并自动获取这些特征的值。另外,特征的定义对于具体的概念比较容易,对于抽象概念比较困难。借助互联网资源的方法对于搜索引擎的返回结果非常敏感,不能得到稳定的语义相似度。此外,搜索引擎返回结果中的共现信息只能在一定程度上反应两个词的关系,并且自动从摘要中提取语法模板的精度很难保证。HAL的缺点在于其构造的词-词矩阵不能很好地捕获整个文本的意义。LSA可能不能处理短文本中出现的新词,其次LSA的短文本向量表示非常稀疏,会影响相似度计算的精度,并且也不能表示短文本中的一些语法信息。
随着神经网络和深度学习的兴起,传统的词语向量空间可以转变到词语Embedding层向量空间,弥补了短文本在词向量空间中稀疏、噪音大等特点,并且能够将无监督学习与监督学习过程无缝结合,为短文本语义相似度的计算开辟了新的方向,成为未来的发展趋势。
短文本与常见的新闻、杂志等长文本不同,它长度较短导致个别噪音词语对解析整个短文本语义的干扰非常严重。因此使用常规处理正规文本的模型以及方法对于短文本语义相似度计算未必行之有效。
发明内容
本发明的发明目的是:为了解决现有技术无法有效解决短文本长度较短导致个别噪音词语对解析整个短文本语义的干扰非常严重的问题,本发明提出了一种基于语义的短文本相似度计算方法。
本发明的技术方案是:一种基于语义的短文本相似度计算方法,包括以下步骤:
A、对语料库数据进行预处理,根据word2vec超参数建立词语Embedding;
B、采用分层聚类方法构建语料库的词语语义树;
C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度;
D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。
进一步地,所述步骤A中对语料库数据进行预处理,具体为:将语料库中的所有词语都转换为小写,并进行分词;同时选择语料库中出现次数大于N的词语建立语料库对应的词汇表,其中N为预设出现次数阈值。
进一步地,所述步骤A中根据word2vec超参数建立词语Embedding,具体为:采用不同超参数训练word2vec的CBoW和SG模型,利用余弦距离作为词语Embedding的语义相似度,筛选前三个相似度最高的词语作为同义词,采用WordNet作为同义词知识库,通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数,从而建立词语Embedding;其中,准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例,召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例,F1分数表示为
进一步地,所述步骤B采用分层聚类方法构建语料库的词语语义树,具体为:利用SimLex-999数据集确定距离度量和连接度量,采用分层聚类方法根据确定的距离度量和连接度量构建语料库的词语语义树。
进一步地,所述步骤C计算短文本中词语之间的语义相似度的计算公式具体为:
其中,w1和w2均表示词语,link表示两个词语的最小公共祖先节点,inconsistent(Tree)threshold表示该分层聚类树中连接的不一致率阈值,inconsistent表示连接的不一致率。
进一步地,所述步骤D根据短文本中词语之间的语义相似度计算短文本之间的语义相似度包括以下分步骤:
D1、对短文本T1和T2进行预处理,去掉短文本中的标点符号及特殊符号,并将短文本中每个词语都转换为小写;
D2、分别计算短文本T1中词语wi和短文本T2中词语wj的语义相似度sij;
D3、计算短文本T1和T2的语义相似度,计算公式具体为:
其中,Sum(rows)表示短文本T1和T2的语义相似矩阵S中的每行元素不全为零的行的最大值求和,Sum(columns)表示短文本T1和T2的语义相似矩阵S中的每列元素不全为零的列的最大值求和,||Srow≠0||表示短文本T1和T2的语义相似矩阵S中非零行的总数,||Scolumn≠0||表示短文本T1和T2的语义相似矩阵S中非零列的总数。
本发明局以下有益效果:
1、本发明的词语语义树是对基于深度神经网络的词语Embedding进行合理地分层聚类得来的,相比现有的词语语义树更易于扩展;并且针对不同的语料库,可以快速构建对应的词语语义树,包含的词汇量更多,解决了WordNet、同义词词林等的词语语义树不能刻画新鲜词语与已知词语语义关系的缺点;
2、本发明提出的词语语义相似度计算方法采用人工标注的同义词数据集来确定分层聚类词语语义树的连接不一致率阈值,从而减小了连接不一致率极值造成语义相似度的判别比例失调,提高了词语语义相似度计算的精度;
3、本发明提出的基于词语语义相似度计算短文本语义相似度的方法,简单有效,通过调整训练语料库能够处理任何短文本数据集,并且能够识别相似词的不同词性,从而不用考虑词语的词性匹配问题,更加简洁的对句式变化多样的相似短文本进行识别。
附图说明
图1是本发明的基于语义的短文本相似度计算方法流程示意图。
图2是本发明实施例中分层聚类词汇语义树结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明的基于语义的短文本相似度计算方法流程示意图。一种基于语义的短文本相似度计算方法,包括以下步骤:
A、对语料库数据进行预处理,根据word2vec超参数建立词语Embedding;
B、采用分层聚类方法构建语料库的词语语义树;
C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度;
D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度。
在步骤A中,首先需要对语料库数据进行预处理,具体为:将语料库中的所有词语都转换为小写,并进行分词;为了保证词语Embedding的质量,本发明选择语料库中出现次数大于N的词语建立语料库对应的词汇表,其中N为预设出现次数阈值;优选的,本发明设定N为10,即选择语料库中出现次数大于10的词语建立语料库对应的词汇表。
本发明采用word2vec工具训练词语Embedding,根据word2vec超参数建立词语Embedding,具体为:采用不同超参数训练word2vec的CBoW和SG模型,这里的超参数为上下文窗口大小、维度大小等,再利用余弦距离作为词语Embedding的语义相似度,筛选前三个相似度最高的词语作为同义词,采用WordNet作为同义词知识库,通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数,从而建立词语Embedding;其中,准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例,召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例,F1分数表示为优选的,本发明确定的word2vec超参数为维度大小为300,上下文窗口大小为32,迭代为5次,负采样率为5。
在步骤B中,如图2所示,为本发明实施例中分层聚类词汇语义树结构示意图。本发明采用分层聚类方法动态地构建语料库的词语语义树,使语义相近的词语在词语语义树中邻近。凝聚的分层聚类方法使用自底向上的策略,典型地,它从令每个对象形成自己的簇开始,并且迭代地把簇合并成越来越大的簇,直到所有的对象都在一个簇中,或者满足某个终止条件。该单个簇成为层次结构的根。在合并步骤,根据某种相似性度量,它找出两个最接近的簇,并且合并它们形成一个簇。因为每次迭代合并两个簇,其中每个簇至少包含一个对象,因此凝聚方法最多需要n次迭代。
构建语料库的词语语义树时需要确定词语Embedding之间距离的度量,这里本发明考虑欧拉距离、余弦距离和曼哈顿距离;同样,凝聚方法中簇间距离的度量即连接度量,这里本发明针对不同的词语向量距离度量,分析均值距离、中心距离、最大距离、平均距离等连接度量对凝聚层次聚类树质量的影响。本发明使用SimLex-999数据集来评估不同距离度量和连接度量生成的凝聚层次聚类树的质量,以此构建高质量的词语语义树。SimLex-999数据集包含999对英语单词,这些英语单词之间的同义相似度和语义相关度由人工标注。基于该数据集,本发明根据Spearman等级相关系数分析结果来确定合适的距离度量和连接度量,以构建高质量的分层聚类树。
本发明的词语语义树是对基于深度神经网络的词语Embedding进行合理地分层聚类得来的,相比现有的词语语义树更易于扩展;并且针对不同的语料库,可以快速构建对应的词语语义树,包含的词汇量更多,解决了WordNet、同义词词林等的词语语义树不能刻画新鲜词语与已知词语语义关系的缺点。
在步骤C中,本发明利用分层聚类方法构建的语义树,设计了一种新的词语语义相似度计算方法。在分层聚类词语语义树中,叶节点代表词语,父节点和根节点表示一个连接,每个连接通过不一致率来指示该连接中成员之间的一致性程度。本发明根据分层聚类树中每个连接的不一致率来计算词语之间的语义相似度,计算公式具体为:
其中,w1和w2均表示词语,link表示两个词语的最小公共祖先节点,inconsistent(Tree)threshold表示该分层聚类树中连接的不一致率阈值,inconsistent表示连接的不一致率,若不一致率超过设定阈值则等于阈值。为了提高语义相似度的精度,本发明设定当两个词的连接的不一致率高于某个值时,则认为该两个词完全不相干,因此我们设定了不一致率阈值。因为不一致率的最大值可能会很大,因此该截断将有效地提高词语语义相似度的精度。WS-353数据集包含353对英语单词,这些英语单词之间的语义相似度由人工标注。基于该数据集,本发明根据Spearman等级相关系数分析结果来确定分层聚类树的不一致率阈值。
本发明的词语语义相似度计算方法采用人工标注的同义词数据集来确定分层聚类词语语义树的连接不一致率阈值,从而减小了连接不一致率极值造成语义相似度的判别比例失调,提高了词语语义相似度计算的精度。
在步骤D中,本发明记两条短文本分别为T1和T2,根据步骤C计算短文本中词语之间的语义相似度,再计算短文本之间的语义相似度包括以下分步骤:
D1、对短文本T1和T2进行预处理,去掉短文本中的标点符号及特殊符号,并将短文本中每个词语都转换为小写;
D2、分别计算短文本T1中词语wi和短文本T2中词语wj的语义相似度sij;
D3、计算短文本T1和T2的语义相似度,计算公式具体为:
其中,Sum(rows)表示短文本T1和T2的语义相似矩阵S中的每行元素不全为零的行的最大值求和,Sum(columns)表示短文本T1和T2的语义相似矩阵S中的每列元素不全为零的列的最大值求和,||Srow≠0||表示短文本T1和T2的语义相似矩阵S中非零行的总数,||Scolumn≠0||表示短文本T1和T2的语义相似矩阵S中非零列的总数。
在步骤D1中,本发明针对短文本T1和T2进行说明,两个短文本具体为:
Text 1:My phone is annoying me with these amber alerts.
Text 2:That amber alert was getting annoying.
对短文本T1和T2进行预处理,即去掉短文本中的标点符号及特殊符号,并将短文本中每个词语都转换为小写形式。
在步骤D2中,本发明对于短文本T1中的每个词语wi,在短文本T2中选择与其最大语义相似度的词语wj;再对于短文本T2中的每个词语wj,在短文本T1中选择与其最大语义相似度的词语wi;从而得到短文本T1和T2的语义相似矩阵S,如表1所示,为短文本T1和T2的语义相似矩阵。
表1短文本T1和T2的语义相似矩阵
在步骤D3中,本发明对步骤D2中计算得到的词语语义相似度计算进行求和平均,得到短文本之间的语义相似度,根据计算公式计算短文本T1和T2的语义相似度为0.855。
本发明的基于词语语义相似度计算短文本语义相似度的方法,简单有效,通过调整训练语料库能够处理任何短文本数据集,并且能够识别相似词的不同词性,从而不用考虑词语的词性匹配问题,更加简洁的对句式变化多样的相似短文本进行识别。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (4)
1.一种基于语义的短文本相似度计算方法,其特征在于,包括以下步骤:
A、对语料库数据进行预处理,根据word2vec超参数建立词语Embedding;
B、采用分层聚类方法构建语料库的词语语义树;
C、根据步骤B的词语语义树中每个连接的不一致率计算短文本中词语之间的语义相似度;计算短文本中词语之间的语义相似度的计算公式具体为:
其中,w1和w2均表示词语,link表示两个词语的最小公共祖先节点,inconsistent(Tree)threshold表示分层聚类树中连接的不一致率阈值,inconsistent表示连接的不一致率;
D、根据步骤C短文本中词语之间的语义相似度计算短文本之间的语义相似度;根据短文本中词语之间的语义相似度计算短文本之间的语义相似度包括以下分步骤:
D1、对短文本T1和T2进行预处理,去掉短文本中的标点符号及特殊符号,并将短文本中每个词语都转换为小写;
D2、分别计算短文本T1中词语wi和短文本T2中词语wj的语义相似度sij;
D3、计算短文本T1和T2的语义相似度,计算公式具体为:
其中,Sum(rows)表示短文本T1和T2的语义相似矩阵S中的每行元素不全为零的行的最大值求和,Sum(columns)表示短文本T1和T2的语义相似矩阵S中的每列元素不全为零的列的最大值求和,||Srow≠0||表示短文本T1和T2的语义相似矩阵S中非零行的总数,||Scolumn≠0||表示短文本T1和T2的语义相似矩阵S中非零列的总数。
2.如权利要求1所述的基于语义的短文本相似度计算方法,其特征在于,所述步骤A中对语料库数据进行预处理,具体为:将语料库中的所有词语都转换为小写,并进行分词;同时选择语料库中出现次数大于N的词语建立语料库对应的词汇表,其中N为预设出现次数阈值。
3.如权利要求2所述的基于语义的短文本相似度计算方法,其特征在于,所述步骤A中根据word2vec超参数建立词语Embedding,具体为:采用不同超参数训练word2vec的CBoW和SG模型,利用余弦距离作为词语Embedding的语义相似度,筛选前三个相似度最高的词语作为同义词,采用WordNet作为同义词知识库,通过准确率、召回率和F1分数确定模拟该语料库词语语义的word2vec超参数,从而建立词语Embedding;其中,准确率P表示词语Embedding正确预测的同义词对数量与总预测数量的比例,召回率R表示词语Embedding正确预测的同义词对数量与WordNet中出现的同义词对数量的比例,F1分数表示为
4.如权利要求3所述的基于语义的短文本相似度计算方法,其特征在于,所述步骤B采用分层聚类方法构建语料库的词语语义树,具体为:利用SimLex-999数据集确定距离度量和连接度量,采用分层聚类方法根据确定的距离度量和连接度量构建语料库的词语语义树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817910.8A CN106372061B (zh) | 2016-09-12 | 2016-09-12 | 基于语义的短文本相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817910.8A CN106372061B (zh) | 2016-09-12 | 2016-09-12 | 基于语义的短文本相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106372061A CN106372061A (zh) | 2017-02-01 |
CN106372061B true CN106372061B (zh) | 2020-11-24 |
Family
ID=57896767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610817910.8A Active CN106372061B (zh) | 2016-09-12 | 2016-09-12 | 基于语义的短文本相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106372061B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509410B (zh) * | 2017-02-27 | 2022-08-05 | 阿里巴巴(中国)有限公司 | 文本语义相似度计算方法、装置及用户终端 |
CN108509407B (zh) * | 2017-02-27 | 2022-03-18 | 阿里巴巴(中国)有限公司 | 文本语义相似度计算方法、装置及用户终端 |
CN107463705A (zh) * | 2017-08-17 | 2017-12-12 | 陕西优百信息技术有限公司 | 一种数据清洗方法 |
CN110019832B (zh) * | 2017-09-29 | 2023-02-24 | 阿里巴巴集团控股有限公司 | 语言模型的获取方法和装置 |
US11334608B2 (en) | 2017-11-23 | 2022-05-17 | Infosys Limited | Method and system for key phrase extraction and generation from text |
CN107958061A (zh) * | 2017-12-01 | 2018-04-24 | 厦门快商通信息技术有限公司 | 一种文本相似度的计算方法及计算机可读存储介质 |
CN109086756B (zh) * | 2018-06-15 | 2021-08-03 | 众安信息技术服务有限公司 | 一种基于深度神经网络的文本检测分析方法、装置及设备 |
CN109472019B (zh) * | 2018-10-11 | 2023-02-10 | 厦门快商通信息技术有限公司 | 一种基于同义词典的短文本相似度匹配方法及系统 |
CN109657210B (zh) * | 2018-11-13 | 2023-10-10 | 平安科技(深圳)有限公司 | 基于语义解析的文本准确率计算方法、装置、计算机设备 |
CN110413986B (zh) * | 2019-04-12 | 2023-08-29 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN110348007B (zh) * | 2019-06-14 | 2023-04-07 | 北京奇艺世纪科技有限公司 | 一种文本相似度确定方法及装置 |
CN110263347B (zh) * | 2019-06-26 | 2024-08-20 | 腾讯科技(深圳)有限公司 | 一种同义词的构建方法及相关装置 |
CN110442863B (zh) * | 2019-07-16 | 2023-05-05 | 深圳供电局有限公司 | 一种短文本语义相似度计算方法及其系统、介质 |
CN111199154B (zh) * | 2019-12-20 | 2022-12-27 | 重庆邮电大学 | 基于容错粗糙集的多义词词表示方法、系统及介质 |
CN112131341A (zh) * | 2020-08-24 | 2020-12-25 | 博锐尚格科技股份有限公司 | 文本相似度计算方法、装置、电子设备和存储介质 |
CN112784046B (zh) * | 2021-01-20 | 2024-05-28 | 北京百度网讯科技有限公司 | 文本聚簇的方法、装置、设备及存储介质 |
CN113590763A (zh) * | 2021-09-27 | 2021-11-02 | 湖南大学 | 一种基于深度学习的相似文本检索方法、装置及存储介质 |
CN114169651B (zh) * | 2022-02-14 | 2022-04-19 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种基于应用相似性的超级计算机作业失败主动预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011078186A1 (ja) * | 2009-12-22 | 2011-06-30 | 日本電気株式会社 | 文書クラスタリングシステム、文書クラスタリング方法および記録媒体 |
CN103177125A (zh) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类系统及方法 |
-
2016
- 2016-09-12 CN CN201610817910.8A patent/CN106372061B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011078186A1 (ja) * | 2009-12-22 | 2011-06-30 | 日本電気株式会社 | 文書クラスタリングシステム、文書クラスタリング方法および記録媒体 |
CN103377239A (zh) * | 2012-04-26 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 计算文本间相似度的方法和装置 |
CN103177125A (zh) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类系统及方法 |
Non-Patent Citations (1)
Title |
---|
一种基于语义内积空间模型的文本聚类算法;彭京、杨冬青、唐世渭、付艳、蒋汉奎;《计算机学报》;20070831;第30卷(第8期);第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106372061A (zh) | 2017-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
Newman et al. | Bayesian text segmentation for index term identification and keyphrase extraction | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN109783806B (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN102197393A (zh) | 基于图像的语义距离 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
US20240111956A1 (en) | Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Yan-Yan et al. | Integrating intra-and inter-document evidences for improving sentence sentiment classification | |
CN115935194A (zh) | 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
Thielmann et al. | Coherence based document clustering | |
CN118170899A (zh) | 基于aigc的媒体新闻稿件生成方法以及相关装置 | |
Ramaprabha et al. | Survey on sentence similarity evaluation using deep learning | |
Tian et al. | An efficient refining image annotation technique by combining probabilistic latent semantic analysis and random walk model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |