CN107273426B - 一种基于深度语义路径搜索的短文本聚类方法 - Google Patents
一种基于深度语义路径搜索的短文本聚类方法 Download PDFInfo
- Publication number
- CN107273426B CN107273426B CN201710352292.9A CN201710352292A CN107273426B CN 107273426 B CN107273426 B CN 107273426B CN 201710352292 A CN201710352292 A CN 201710352292A CN 107273426 B CN107273426 B CN 107273426B
- Authority
- CN
- China
- Prior art keywords
- short text
- word
- follows
- lstm
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于文本特征向量化表示领域,公开了一种基于深度语义路径搜索的短文本聚类方法。对通用语料库进行预处理,得到所述语料库对应的词汇表;建立所述词汇表中各词语的实数向量;对短文本进行预处理,利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果;采用本发明可以有效的解决个别噪音词对解析整个短文本语义的干扰问题。
Description
技术领域
本发明涉及文本特征向量化表示领域,特别是一种基于深度语义路径搜索的短文本聚类方法。
背景技术
目前,随着社交媒体的广泛流行,聊天机器人的兴起,从短文本中发现有价值信息是十分重要的渠道。而短文本聚类其中重要的任务。它的主要挑战是文本表示的稀疏性。为了克服这个困难,一些研究者尝试通过维基百科或本体库对短文本数据进行丰富和扩展。可是这种扩展都是基于“词”维度上的语义扩展。而实际是在“句子”层面的计算;很有可能导致一个簇里面出现下面两种句子,它们的意思是相反的:我喜欢吃苹果与我不喜欢吃苹果。
这是由语法结构带来的句子表达不一致,这在中文这种句法结构复杂的语言中,带来的反效果十分明显。一些研究人员为解决这种问题,会采用通过“词”聚类的方式,自建语义树;这种语义树的精准度十分有限,如果要达到工业级别可用的高精准度,则需要大量人力参与。
深度神经网络(deep neural networks,DNNs)及其学习算法,作为成功的大数据分析方法,已为学术界和工业界所熟知.与传统方法相比,深度学习方法以数据驱动、能自动地从数据中提取特征(知识),对于分析非结构化、模式不明多变、跨领域的大数据具有显著优势。近几年,词向量化表示方法大大改善了神经网络模型的性能,如递归神经网络(RecNN)和循环神经网络(RNN)。近日,循环神经网络已经在很多自然语言处理领域取得多项突破性进展。但目前大多数工作都致力于利用循环神经网络做有监督任务学习,如主题分类、关系分类等。
通过词语的Embedding来构建语义树,由于Embedding是由无监督模型word2vec学习出来的,它的精准度有一定瓶颈,语义树的构建不精准,会直接导致后续的聚类效果产生较大偏差,很难达到工业级别的应用要求;
如果考虑人工干预,人工专家的成本也非常大;在模型完成优化后,如果要迁移到其他领域,也需要花费此类人工专家干预成本。
现有技术在研究领域有不错的效果,但应用到工业领域,应当多变的情况的时,效果就体现不出来。
发明内容
基于以上技术问题,本发明提供了一种基于深度语义路径搜索的短文本聚类方法,旨在解决个别噪音词语对解析整个短文本语义干扰非常严重的问题。
本发明采用的技术方案如下:
一种基于深度语义路径搜索的短文本聚类方法,包括以下步骤:
步骤1:对通用语料库进行预处理,得到所述语料库对应的词汇表;
步骤2:建立所述词汇表中各词语的实数向量;
步骤3:对短文本进行预处理;
步骤4:利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;
步骤5:搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;
步骤6:利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;
步骤7:将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果。
进一步的,所述步骤1中,预处理的方法为:将所述语料库中的句子进行大小写转换和分词处理;选出所述语料库中出现次数大于N次的词语;将所述词语作为语料库对应的词汇表;其中N表示词语出现频次的阈值。
进一步的,所述步骤2中,利用word2vec的超参数建立词语的实数向量(Embedding)的方法为:
步骤S301:将词语映射为K维实数向量,将所述词语周围的M个词语作为该词语的上下文;
步骤S302:根据所述上下文利用逻辑回归函数预测所述词语的概率;
步骤S303:通过使所述概率最大化,经过反馈迭代改变所述K维实数向量;
步骤S304:当所述逻辑回归函数的损失函数值小于预设阈值后,停止迭代,所得的K维实数向量即为该词语的实数向量;
其中K表示实数向量的长度,M表示词语框的大小。
进一步的,所述步骤3中,对短文本进行预处理的方法为:将所述短文本中的句子进行大小写转换和分词处理。
进一步的,所述步骤4中,LSTM序列化模型的训练过程为:
步骤S501:将所述短文本的中的各词语映射为one hot向量;
步骤S502:将第i个词语的one hot向量xi和位置i-1的隐藏状态Si-1作为位置i的输入,利用非线性函数F计算出位置i的隐藏状态Si;
步骤S503:改变所述短文本中词语的序列,得出位置i的隐藏状态Si′,利用隐藏状态残差Si-Si′对LSTM序列化模型进行误差反向传播;
步骤S504:多次改变所述短文本中词语的序列,使第i个词语的one hot向量xi和所述非线性函数F得到优化。
进一步的,所述非线性函数F为:
Si=tanh(Uxi+WSi-1),
其中,i为短文本中词语的序号,U和W为转化参数矩阵,由LSTM序列化模型训练优化得出。
进一步的,所述步骤5中,所述子序列组合的概率的计算方法为:利用训练后的LSTM序列化模型,将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算;再利用S函数计算出每个词语在该短文本序列中出现的概率Oi;
所述S函数为:
Oi=softmax(VSi);
选择所述最优语义路径的方法为:利用该短文本中所有词按顺序出现的概率的平均值作为语义路径的择优判断。
进一步的,所述步骤6中,短文本间相似度的计算方法为:
步骤S801:将所述短文本语义路径中的每个词语映射为实数向量;
步骤S802:将词语的实数向量与该词语出现的概率Oi记为PE;
步骤S803:将每个词语计算出的PE相加得到所述短文本的实数向量,并记为ALL_PE;
步骤S804:通过余弦相似度计算短文本间ALL_PE的夹角,得到短文本间的相似度。
进一步的,所述步骤7中,所述聚类的方法采用K均值聚类算法。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
使用深度神经网络模型LSTM学习短文本词序列组合概率,并根据这种概率选择出最优的短文本子序列组合为语义路径,以此减少短文本中噪音词对聚类效果所带来的干扰;
使用词语的实数向量乘以该词语在LSTM序列模型中出现概率的方式来优化相似度计算,比直接使用词语的实数向量计算相似度效果要更优。
利用本发明可有效的提高正确聚类的短文本数占总短文本数的比例,使在不需要人工专家干预数据的情况下,也能达到较高的聚类准确率。
附图说明
图1是本发明的流程图。
具体实施方式
本说明书中公开的所有特征,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合附图对本发明作详细说明。
一种基于深度语义路径搜索的短文本聚类方法,包括以下步骤:
步骤1:对通用语料库进行预处理,得到所述语料库对应的词汇表;
预处理的方法为:将所述语料库中的句子进行大小写转换和分词处理;选出所述语料库中出现次数大于N次的词语;将所述词语作为语料库对应的词汇表;其中N表示词语出现频次的阈值。
步骤2:利用word2vec的超参数建立词语的实数向量(Embedding)的方法为:
步骤S301:将词语映射为K维实数向量,将所述词语周围的M个词语作为该词语的上下文;
步骤S302:根据所述上下文利用逻辑回归函数预测所述词语的概率;
步骤S303:通过使所述概率最大化,经过反馈迭代改变所述K维实数向量;
步骤S304:当所述逻辑回归函数的损失函数值小于预设阈值后,停止迭代,所得的K维实数向量即为该词语的实数向量;
其中K表示实数向量的长度,M表示词语框的大小。
步骤3:对短文本进行预处理;
对短文本进行预处理的方法为:将所述短文本中的句子进行大小写转换和分词处理。
步骤4:利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;
LSTM序列化模型的训练过程为:
步骤S501:将所述短文本的中的各词语映射为one hot向量;
步骤S502:将第i个词语的one hot向量xi和位置i-1的隐藏状态Si-1作为位置i的输入,利用非线性函数F计算出位置i的隐藏状态Si;
步骤S503:改变所述短文本中词语的序列,得出位置i的隐藏状态Si′,利用隐藏状态残差Si-Si′对LSTM序列化模型进行误差反向传播;
步骤S504:多次改变所述短文本中词语的序列,使第i个词语的one hot向量xi和所述非线性函数F得到优化。
所述非线性函数F为:
Si=tanh(Uxi+WSi-1),
其中,i为短文本中词语的序号,U和W为转化参数矩阵,由LSTM序列化模型训练优化得出。
步骤5:搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;
所述子序列组合的概率的计算方法为:利用训练后的LSTM序列化模型,将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算;再利用S函数计算出每个词语在该短文本序列中出现的概率Oi;
所述S函数为:
Oi=softmax(VSi);
选择所述最优语义路径的方法为:利用该短文本中所有词按顺序出现的概率的平均值作为语义路径的择优判断。
步骤6:利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;
短文本间相似度的计算方法为:
步骤S801:将所述短文本语义路径中的每个词语映射为实数向量;
步骤S802:将词语的实数向量与该词语出现的概率Oi记为PE;
步骤S803:将每个词语计算出的PE相加得到所述短文本的实数向量,并记为ALL_PE;
步骤S804:通过余弦相似度计算短文本间ALL_PE的夹角,得到短文本间的相似度。
步骤7:将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果,所述聚类的方法采用K均值聚类算法,也可采用普聚类或层次聚类方法。
如上所述即为本发明的实施例。本发明不局限于上述实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
Claims (7)
1.一种基于深度语义路径搜索的短文本聚类方法,其特征在于:包括以下步骤:
步骤1:对通用语料库进行预处理,得到所述语料库对应的词汇表;
步骤2:建立所述词汇表中各词语的实数向量;
步骤3:对短文本进行预处理;
步骤4:利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;
步骤5:搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;
步骤6:利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;
步骤7:将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果;
所述步骤4中,LSTM序列化模型的训练过程为:
步骤S501:将所述短文本的中的各词语映射为one hot向量;
步骤S502:将第i个词语的one hot向量xi和位置i-1的隐藏状态Si-1作为位置i的输入,利用非线性函数F计算出位置i的隐藏状态Si;
步骤S503:改变所述短文本中词语的序列,得出位置i的隐藏状态Si′,利用隐藏状态残差Si-Si′对LSTM序列化模型进行误差反向传播;
步骤S504:多次改变所述短文本中词语的序列,使第i个词语的one hot向量xi和所述非线性函数F得到优化;
所述步骤5中,所述子序列组合的概率的计算方法为:利用训练后的LSTM序列化模型,将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算;
再利用S函数计算出每个词语在该短文本序列中出现的概率Oi;
所述S函数为:
Oi=softmax(VSi);
选择所述最优语义路径的方法为:利用该短文本中所有词按顺序出现的概率的平均值作为语义路径的择优判断。
2.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤1中,预处理的方法为:将所述语料库中的句子进行大小写转换和分词处理;选出所述语料库中出现次数大于N次的词语;将所述词语作为语料库对应的词汇表;其中N表示词语出现频次的阈值。
3.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤2中,利用word2vec的超参数建立词语的实数向量的方法为:
步骤S301:将词语映射为K维实数向量,将所述词语周围的M个词语作为该词语的上下文;
步骤S302:根据所述上下文利用逻辑回归函数预测所述词语的概率;
步骤S303:通过使所述概率最大化,经过反馈迭代改变所述K维实数向量;
步骤S304:当所述逻辑回归函数的损失函数值小于预设阈值后,停止迭代,所得的K维实数向量即为该词语的实数向量;
其中K表示实数向量的长度,M表示词语框的大小。
4.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤3中,对短文本进行预处理的方法为:将所述短文本中的句子进行大小写转换和分词处理。
5.根据权利要求4所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:非线性函数F为:
Si=tanh(Uxi+WSi-1)
其中,i为短文本中词语的序号,U和W为转化参数矩阵,由LSTM序列化模型训练优化得出。
6.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤6中,短文本间相似度的计算方法为:
步骤S801:将所述短文本语义路径中的每个词语映射为实数向量;
步骤S802:将词语的实数向量与该词语出现的概率Oi记为PE;
步骤S803:将每个词语计算出的PE相加得到所述短文本的实数向量,并记为ALL_PE;
步骤S804:通过余弦相似度计算短文本间ALL_PE的夹角,得到短文本间的相似度。
7.根据权利要求1所述的一种基于深度语义路径搜索的短文本聚类方法,其特征在于:所述步骤7中,所述聚类的方法采用K均值聚类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710352292.9A CN107273426B (zh) | 2017-05-18 | 2017-05-18 | 一种基于深度语义路径搜索的短文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710352292.9A CN107273426B (zh) | 2017-05-18 | 2017-05-18 | 一种基于深度语义路径搜索的短文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273426A CN107273426A (zh) | 2017-10-20 |
CN107273426B true CN107273426B (zh) | 2019-07-16 |
Family
ID=60064084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710352292.9A Active CN107273426B (zh) | 2017-05-18 | 2017-05-18 | 一种基于深度语义路径搜索的短文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273426B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399163B (zh) * | 2018-03-21 | 2021-01-12 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
CN109299270B (zh) * | 2018-10-30 | 2021-09-28 | 云南电网有限责任公司信息中心 | 一种基于卷积神经网络的文本数据无监督聚类方法 |
CN109584006B (zh) * | 2018-11-27 | 2020-12-01 | 中国人民大学 | 一种基于深度匹配模型的跨平台商品匹配方法 |
CN110298005A (zh) * | 2019-06-26 | 2019-10-01 | 上海观安信息技术股份有限公司 | 一种对url进行归一化的方法 |
CN110956033A (zh) * | 2019-12-04 | 2020-04-03 | 北京中电普华信息技术有限公司 | 一种文本相似度计算方法及装置 |
CN111401055B (zh) * | 2020-04-07 | 2023-04-18 | 宁波深擎信息科技有限公司 | 从金融资讯提取脉络信息的方法和装置 |
CN113743096A (zh) * | 2020-05-27 | 2021-12-03 | 南京大学 | 一种基于自然语言处理的众包测试报告相似度检测的方法 |
CN112131453B (zh) * | 2020-08-26 | 2024-10-11 | 江汉大学 | 一种基于bert的网络不良短文本检测方法、装置及存储介质 |
CN112668611B (zh) * | 2020-12-08 | 2024-02-02 | 湖南工业大学 | 一种基于Kmeans和CEEMD-PE-LSTM的短期光伏发电功率预测方法 |
CN113590767B (zh) * | 2021-09-28 | 2022-01-07 | 西安热工研究院有限公司 | 多语种告警信息类别判定方法、系统、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170053201A1 (en) * | 2015-08-11 | 2017-02-23 | Georges Harik | Memory element for a neural network |
-
2017
- 2017-05-18 CN CN201710352292.9A patent/CN107273426B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649853A (zh) * | 2016-12-30 | 2017-05-10 | 儒安科技有限公司 | 一种基于深度学习的短文本聚类方法 |
Non-Patent Citations (2)
Title |
---|
《基于深度学习的问题分类方法研究》;李超;《计算机科学》;20161231(第12期);全文 |
hort Text Clustering via Convolutional Neural Networks;Jiaming Xu 等;《NAACL-HLT 2015》;20151231;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN107273426A (zh) | 2017-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273426B (zh) | 一种基于深度语义路径搜索的短文本聚类方法 | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN109034205A (zh) | 基于直推式半监督深度学习的图像分类方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
Singha et al. | Effect of variation in gesticulation pattern in dynamic hand gesture recognition system | |
CN109684449B (zh) | 一种基于注意力机制的自然语言语义表征方法 | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN110059191A (zh) | 一种文本情感分类方法及装置 | |
CN111522956A (zh) | 基于双通道和层次化注意力网络的文本情感分类方法 | |
CN109213997B (zh) | 一种基于双向长短时记忆网络模型的中文分词方法 | |
CN111125367A (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
Rasool et al. | WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model | |
CN107229945A (zh) | 一种基于竞争学习的深度聚类方法 | |
Chen et al. | Capsule network-based text sentiment classification | |
CN116775812A (zh) | 一种基于自然语音处理的中医药专利分析与挖掘工具 | |
Sadr et al. | Improving the performance of text sentiment analysis using deep convolutional neural network integrated with hierarchical attention layer | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
CN111191461A (zh) | 一种基于课程学习的远程监督关系抽取方法 | |
CN115545005A (zh) | 一种融合知识和约束图的远程监督关系抽取方法 | |
CN110413781A (zh) | 一种基于LD和ANN-SoftMax Regressor的中医药短文本多分类方法 | |
CN110059192A (zh) | 基于五笔码的字符级文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |