Nothing Special   »   [go: up one dir, main page]

CN111199154B - 基于容错粗糙集的多义词词表示方法、系统及介质 - Google Patents

基于容错粗糙集的多义词词表示方法、系统及介质 Download PDF

Info

Publication number
CN111199154B
CN111199154B CN201911326404.9A CN201911326404A CN111199154B CN 111199154 B CN111199154 B CN 111199154B CN 201911326404 A CN201911326404 A CN 201911326404A CN 111199154 B CN111199154 B CN 111199154B
Authority
CN
China
Prior art keywords
word
words
base
corpus
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911326404.9A
Other languages
English (en)
Other versions
CN111199154A (zh
Inventor
邱东
江海欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911326404.9A priority Critical patent/CN111199154B/zh
Publication of CN111199154A publication Critical patent/CN111199154A/zh
Application granted granted Critical
Publication of CN111199154B publication Critical patent/CN111199154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于容错粗糙集的多义词词表示方法、系统及介质,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类);104、对于每个基词的不确定性函数集合,进行模糊聚类,计算每个基词的词义数量;105、构建连续词袋模型(CBOW),训练词向量。本发明主要是通过应用容错粗糙集模型,获取每个词语的词义数量,建立相应的连续词袋模型训练词向量,获取多义词的词表示,切实结合当下的技术发展需求。

Description

基于容错粗糙集的多义词词表示方法、系统及介质
技术领域
本发明属于深度学习、人工智能技术、自然语言处理领域,是自然语言处理中的词表示方法。
背景技术
单词作为语言的基本单元,其表示学习一直是自然语言处理的的核心基础问题。传统上,自然语言处理系统把词编码成字符串。这种方式是随意确定的,且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是自然语言处理领域的一个替代方案。它把词或短语映射成实数向量,把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。例如,让我们看看四个词:“woman”(女人)、“man”(男人)、“queen”(女王)和“king”(国王)。我们把它们都向量化,再使用简单的代数运算来发现它们之间的语义相似度。计算向量间的相似度可以采用诸如余弦相似度的方法。当我们把词“woman”的向量减去词“man”后,这个差值的余弦相似度应该和词“queen”的向量减去“king”的向量的差值比较接近[43,44]
e("woman")-e("man")≈e("queen")-e("king")
Google在2013年推出开源工具包word2vec就是通过训练好的词向量,制定一个词看看有返回和它余弦距离最近的词并排序,即我们可以利用词表示去找同义词。同时可以把词表示结果作为神经网络的输入层,通过前馈网络和卷积网络应用于词性标注和语义角色标注任务。
词表示算法是自然语言处理的基础,以Word2Vec为代表的现有的词表示研究模型,已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但是,词的表示研究依然面临着诸多挑战。在现有的常用词表示算法中,每个词语对应一个向量,但是在实际情况下,词语中存在着大量的一词多义现象。根据“上下文相似,其语义也相似”的分布式假说,对于和每个词语经常共同出现在同一个上下文中的词语,其意思也是相近的,而由于每个词语的词义不同,出现的上下文的内容也是有区别的。通过利用容错粗糙集模型,根据每个词语的实际情况,分别获取和每个词语出现的共现度大于某个阈值的词语集合(称为容错类),再对其容错类进行聚类,那么不同的类别则对应词语不同的语义。通过模糊聚类确定每个词语的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量。克服了其他研究中需要借鉴外部先验知识和人为定义词语的词义数量的缺点。再通过连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于容错粗糙集的多义词词表示方法、系统及介质,具体方法如下:
一种基于容错粗糙集的多义词词表示方法,其包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;
103、计算机获取每个基词的不确定性函数即容错类;
104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;
105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
进一步的,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写。
进一步的,所述步骤102确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为
W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。
进一步的,所述步骤103获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci
其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值。在后面的内容中,用ci表示词语wi的容错类。
进一步的,所述步骤104计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值
Figure BDA0002328500200000031
其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量
Figure BDA0002328500200000041
其中,
Figure BDA0002328500200000042
sim(vi,vj)表示向量vi与vj之间的余弦相似度:
Figure BDA0002328500200000043
μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;
3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:
Figure BDA0002328500200000044
进一步的,所述步骤105构建连续词袋模型CBOW,训练词向量,具体步骤如下:
1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为
Figure BDA0002328500200000045
其中,wi-R和wi+R分别为wi的第R个上下文单词、v(coni)表示coni的向量表示。
出现单词不为wi的概率为
P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))
其中,
Figure BDA0002328500200000046
2)对于一序列词语W={w1,w2,...,wn},目标函数为
Figure BDA0002328500200000047
其中,wi'是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D是词语-上下文对(wi',coni)。
3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:
①计算当前目标函数的梯度:
Figure BDA0002328500200000051
②计算当前位置的上升距离:
Figure BDA0002328500200000052
其中,α为步长。
③进行参数更新:
Figure BDA0002328500200000053
若θ小于某个阈值ε,则停止迭代,算法终止。
一种介质,该介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述任一项的方法。
一种基于容错粗糙集的多义词词表示系统,其包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练。
9、进一步的,所述采用随机梯度上升算法进行多义词向量的训练进行优化,具体包括:
①计算当前目标函数的梯度:
Figure BDA0002328500200000061
②计算当前位置的上升距离:
Figure BDA0002328500200000062
其中,α为步长。
③进行参数更新:
Figure BDA0002328500200000063
若θ小于某个阈值ε,则停止迭代,算法终止。
本发明的优点及有益效果如下:
词表示算法是自然语言处理的基础,以Word2Vec为代表的现有的词表示研究模型,已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但是,词的表示研究依然面临着诸多挑战。在现有的常用词表示算法中,每个词语对应一个向量,但是在实际情况下,词语中存在着大量的一词多义现象。简单地将所有不同语义编码在一个向量中,则会给后续应用带来诸多问题。如由于距离的三角不等式的存在,两个自身语义不相似,但是都与另外一个多义词不同语义相似的单词,在表示空间中会被不恰当的拉的更近。而在现有的多义词词表示研究中,大多是在词语词向量表示的基础上,利用外部知识库,根据多义词语在文本语料集中的上下文环境,使用聚类算法对上下文窗口表示聚类,将聚类结果标记到文本语料集中,在标记的文本语料集上训练获得多义词向量表示。对于多义词的词义数量,大多是运用的k-means聚类算法,人为指定词语的词义数量,而在实际应用中,每个词语的词义数量是不同的。
根据“上下文相似,其语义也相似”的分布式假说,对于和每个词语经常共同出现在同一个上下文中的词语,其意思也是相近的,而由于每个词语的词义不同,出现的上下文的内容也是有区别的。通过利用容错粗糙集模型,根据每个词语的实际情况,分别获取和每个词语出现的共现度大于某个阈值的词语集合(称为容错类),再对其容错类进行聚类,那么不同的类别则对应词语不同的语义。通过模糊聚类确定每个词语的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量。克服了其他研究中需要借鉴外部先验知识和人为定义词语的词义数量的缺点。再通过连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
附图说明
图1是本发明提供优选实施例一种基于容错粗糙集的多义词词表示方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
参考图1,本发明旨在解决多义词词表示技术的问题。提出了一种能解决其他研究中需要借鉴外部先验知识问题,并且通过对结合容错粗糙集模型,结合聚类算法,能够获取每个词语的词义数量,解决了其他研究中需要认为定义词语词义数量的问题。本发明的技术方案如下:
一种基于容错粗糙集的多义词词表示方法,其包括以下步骤:
1.读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号;
3)将词语中的大写转换为小写。
2.确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为
W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。
3.获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci
其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值,在后面的内容中,用ci表示词语wi的容错类。
4.计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值
Figure BDA0002328500200000081
其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量
Figure BDA0002328500200000082
其中,
Figure BDA0002328500200000083
sim(vi,vj)表示向量vi与vj之间的余弦相似度:
Figure BDA0002328500200000091
μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;
3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:
Figure BDA0002328500200000092
5.构建连续词袋模型(CBOW),训练词向量,具体步骤如下:
1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为
Figure BDA0002328500200000093
其中,wi-R和wi+R分别为wi的第R个上下文单词、v(coni)表示coni的向量表示。
出现单词不为wi的概率为
P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))
其中,
Figure BDA0002328500200000094
2)对于一序列词语W={w1,w2,...,wn},目标函数为
Figure BDA0002328500200000095
其中,w′i是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D是词语-上下文对(wi',coni)。
3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:
①计算当前目标函数的梯度:
Figure BDA0002328500200000096
②计算当前位置的上升距离:
Figure BDA0002328500200000101
其中,α为步长。
③进行参数更新:
Figure BDA0002328500200000102
若θ小于某个阈值ε,则停止迭代,算法终止。
一种介质,该介质内部存储计算机程序,其所述计算机程序被处理器读取时,执行上述任一项的方法。
一种基于容错粗糙集的多义词表示系统,其特征在于,包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练。
一种介质,该介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述任一项的方法。
一种基于容错粗糙集的多义词词表示系统,其特征在于,包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型(CBOW),采用随机梯度上升优化算法,进行多义词向量的训练。
需要指出的是,以上步骤101计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;102计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;103计算机获取每个基词的不确定性函数即容错类;104计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;105计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量等步骤均是计算机来执行完成的,其是具备工业运用或者产业运用的方法,并不是需要人全程参与的步骤,其是利用了自然规律来完成的技术方案,对现有的计算机信息处理过程中的文景转换中的耗时以及不准确的缺陷进行的技术改变,因此属于技术方案,因此其并不属于专利法第二条第二款规定的情形,也不属于专利法25条第一款智力活动规则的范畴。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于容错粗糙集的多义词词表示方法,其特征在于,包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;
103、计算机获取每个基词的不确定性函数即容错类;
104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;
105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量;
所述步骤104计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值
Figure FDA0003790018850000011
其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量
Figure FDA0003790018850000012
其中,
Figure FDA0003790018850000013
sim(vi,vj)表示向量vi与vj之间的余弦相似度:
Figure FDA0003790018850000021
μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;
3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:
Figure FDA0003790018850000022
2.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写。
3.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤102确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为
W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。
4.根据权利要求3所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤103获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci
其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值,在后面的内容中,用ci表示词语wi的容错类。
5.根据权利要求4所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤105构建连续词袋模型CBOW,训练词向量,具体步骤如下:
1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为
Figure FDA0003790018850000031
其中,wi-R和wi+R分别为wi的第R个上下文单词,v(coni)表示coni的向量表示。出现单词不为wi的概率为
P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))
其中,
Figure FDA0003790018850000032
2)对于一序列词语W={w1,w2,...,wn},目标函数为
Figure FDA0003790018850000033
其中,w′i是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D是词语-上下文对(w′i,coni)。
3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:
①计算当前目标函数的梯度:
Figure FDA0003790018850000034
②计算当前位置的上升距离:
Figure FDA0003790018850000035
其中,α为步长。
③进行参数更新:
Figure FDA0003790018850000041
若θ小于某个阈值ε,则停止迭代,算法终止。
6.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~5任一项的方法。
7.一种基于容错粗糙集的多义词词表示系统,其特征在于,包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练;
所述采用随机梯度上升算法进行多义词向量的训练进行优化,具体包括:
①计算当前目标函数的梯度:
Figure FDA0003790018850000042
②计算当前位置的上升距离:
Figure FDA0003790018850000043
其中,α为步长。
③进行参数更新:
Figure FDA0003790018850000044
若θ小于某个阈值ε,则停止迭代,算法终止。
CN201911326404.9A 2019-12-20 2019-12-20 基于容错粗糙集的多义词词表示方法、系统及介质 Active CN111199154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911326404.9A CN111199154B (zh) 2019-12-20 2019-12-20 基于容错粗糙集的多义词词表示方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911326404.9A CN111199154B (zh) 2019-12-20 2019-12-20 基于容错粗糙集的多义词词表示方法、系统及介质

Publications (2)

Publication Number Publication Date
CN111199154A CN111199154A (zh) 2020-05-26
CN111199154B true CN111199154B (zh) 2022-12-27

Family

ID=70746312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911326404.9A Active CN111199154B (zh) 2019-12-20 2019-12-20 基于容错粗糙集的多义词词表示方法、系统及介质

Country Status (1)

Country Link
CN (1) CN111199154B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997278B (zh) * 2022-05-09 2023-04-07 浙江大学 基于计算机算法模型的工程数字化信息分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833577A (zh) * 2010-04-30 2010-09-15 天津大学 一种基于粗糙集的地名信息检索方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104794222A (zh) * 2015-04-29 2015-07-22 北京交通大学 网络表格语义恢复方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN107436862A (zh) * 2017-06-26 2017-12-05 天津大学 一种基于基尼指数的区间值模糊粗糙集属性选择方法
CN109829149A (zh) * 2017-11-23 2019-05-31 中国移动通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法
CN111104508A (zh) * 2019-10-25 2020-05-05 重庆邮电大学 基于容错粗糙集的词袋模型文本表示方法、系统及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833577A (zh) * 2010-04-30 2010-09-15 天津大学 一种基于粗糙集的地名信息检索方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN104794222A (zh) * 2015-04-29 2015-07-22 北京交通大学 网络表格语义恢复方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法
CN107436862A (zh) * 2017-06-26 2017-12-05 天津大学 一种基于基尼指数的区间值模糊粗糙集属性选择方法
CN109829149A (zh) * 2017-11-23 2019-05-31 中国移动通信有限公司研究院 一种词向量模型的生成方法及装置、设备、存储介质
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法
CN111104508A (zh) * 2019-10-25 2020-05-05 重庆邮电大学 基于容错粗糙集的词袋模型文本表示方法、系统及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于表示学习的中文分词算法探索";来斯惟 等;《中文信息学报》;20130930;第27卷(第5期);8-14 *
基于句子级最大频繁单词集的Web文档聚类研究;袁莉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090515;I138-1265 *
基于神经网络的文本向量表示与建模研究;牛力强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20161015;I138-535 *

Also Published As

Publication number Publication date
CN111199154A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
US20230016365A1 (en) Method and apparatus for training text classification model
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN108875051B (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110309267A (zh) 基于预训练模型的语义检索方法和系统
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
US11003950B2 (en) System and method to identify entity of data
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN111222330B (zh) 一种中文事件的检测方法和系统
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
CN112711652A (zh) 术语标准化方法及装置
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN114997288A (zh) 一种设计资源关联方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
CN114969341A (zh) 一种针对餐饮行业评论的细粒度情感分析方法及装置
CN111199154B (zh) 基于容错粗糙集的多义词词表示方法、系统及介质
CN117891958B (zh) 一种基于知识图谱的标准数据处理方法
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN111737467B (zh) 一种基于分段卷积神经网络的对象级情感分类方法
CN111104508B (zh) 基于容错粗糙集的词袋模型文本表示方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant