CN111199154B - 基于容错粗糙集的多义词词表示方法、系统及介质 - Google Patents
基于容错粗糙集的多义词词表示方法、系统及介质 Download PDFInfo
- Publication number
- CN111199154B CN111199154B CN201911326404.9A CN201911326404A CN111199154B CN 111199154 B CN111199154 B CN 111199154B CN 201911326404 A CN201911326404 A CN 201911326404A CN 111199154 B CN111199154 B CN 111199154B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- base
- corpus
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明请求保护一种基于容错粗糙集的多义词词表示方法、系统及介质,包括:101、计算机获取语料库,并对语料库进行预处理操作;102、计算机确定语料库的基词集合;103、计算机获取每个基词的不确定性函数(容错类);104、对于每个基词的不确定性函数集合,进行模糊聚类,计算每个基词的词义数量;105、构建连续词袋模型(CBOW),训练词向量。本发明主要是通过应用容错粗糙集模型,获取每个词语的词义数量,建立相应的连续词袋模型训练词向量,获取多义词的词表示,切实结合当下的技术发展需求。
Description
技术领域
本发明属于深度学习、人工智能技术、自然语言处理领域,是自然语言处理中的词表示方法。
背景技术
单词作为语言的基本单元,其表示学习一直是自然语言处理的的核心基础问题。传统上,自然语言处理系统把词编码成字符串。这种方式是随意确定的,且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是自然语言处理领域的一个替代方案。它把词或短语映射成实数向量,把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。例如,让我们看看四个词:“woman”(女人)、“man”(男人)、“queen”(女王)和“king”(国王)。我们把它们都向量化,再使用简单的代数运算来发现它们之间的语义相似度。计算向量间的相似度可以采用诸如余弦相似度的方法。当我们把词“woman”的向量减去词“man”后,这个差值的余弦相似度应该和词“queen”的向量减去“king”的向量的差值比较接近[43,44]:
e("woman")-e("man")≈e("queen")-e("king")
Google在2013年推出开源工具包word2vec就是通过训练好的词向量,制定一个词看看有返回和它余弦距离最近的词并排序,即我们可以利用词表示去找同义词。同时可以把词表示结果作为神经网络的输入层,通过前馈网络和卷积网络应用于词性标注和语义角色标注任务。
词表示算法是自然语言处理的基础,以Word2Vec为代表的现有的词表示研究模型,已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但是,词的表示研究依然面临着诸多挑战。在现有的常用词表示算法中,每个词语对应一个向量,但是在实际情况下,词语中存在着大量的一词多义现象。根据“上下文相似,其语义也相似”的分布式假说,对于和每个词语经常共同出现在同一个上下文中的词语,其意思也是相近的,而由于每个词语的词义不同,出现的上下文的内容也是有区别的。通过利用容错粗糙集模型,根据每个词语的实际情况,分别获取和每个词语出现的共现度大于某个阈值的词语集合(称为容错类),再对其容错类进行聚类,那么不同的类别则对应词语不同的语义。通过模糊聚类确定每个词语的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量。克服了其他研究中需要借鉴外部先验知识和人为定义词语的词义数量的缺点。再通过连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于容错粗糙集的多义词词表示方法、系统及介质,具体方法如下:
一种基于容错粗糙集的多义词词表示方法,其包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;
103、计算机获取每个基词的不确定性函数即容错类;
104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;
105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
进一步的,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写。
进一步的,所述步骤102确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为
W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。
进一步的,所述步骤103获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci,
其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值。在后面的内容中,用ci表示词语wi的容错类。
进一步的,所述步骤104计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值
其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量
其中,
sim(vi,vj)表示向量vi与vj之间的余弦相似度:
μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;
3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:
进一步的,所述步骤105构建连续词袋模型CBOW,训练词向量,具体步骤如下:
1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为
其中,wi-R和wi+R分别为wi的第R个上下文单词、v(coni)表示coni的向量表示。
出现单词不为wi的概率为
P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))
2)对于一序列词语W={w1,w2,...,wn},目标函数为
其中,wi'是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D—是词语-上下文对(wi',coni)。
3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:
①计算当前目标函数的梯度:
②计算当前位置的上升距离:
其中,α为步长。
③进行参数更新:
若θ小于某个阈值ε,则停止迭代,算法终止。
一种介质,该介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述任一项的方法。
一种基于容错粗糙集的多义词词表示系统,其包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练。
9、进一步的,所述采用随机梯度上升算法进行多义词向量的训练进行优化,具体包括:
①计算当前目标函数的梯度:
②计算当前位置的上升距离:
其中,α为步长。
③进行参数更新:
若θ小于某个阈值ε,则停止迭代,算法终止。
本发明的优点及有益效果如下:
词表示算法是自然语言处理的基础,以Word2Vec为代表的现有的词表示研究模型,已经在情感分析、信息检索、文本分类等任务中取得了瞩目的成果。但是,词的表示研究依然面临着诸多挑战。在现有的常用词表示算法中,每个词语对应一个向量,但是在实际情况下,词语中存在着大量的一词多义现象。简单地将所有不同语义编码在一个向量中,则会给后续应用带来诸多问题。如由于距离的三角不等式的存在,两个自身语义不相似,但是都与另外一个多义词不同语义相似的单词,在表示空间中会被不恰当的拉的更近。而在现有的多义词词表示研究中,大多是在词语词向量表示的基础上,利用外部知识库,根据多义词语在文本语料集中的上下文环境,使用聚类算法对上下文窗口表示聚类,将聚类结果标记到文本语料集中,在标记的文本语料集上训练获得多义词向量表示。对于多义词的词义数量,大多是运用的k-means聚类算法,人为指定词语的词义数量,而在实际应用中,每个词语的词义数量是不同的。
根据“上下文相似,其语义也相似”的分布式假说,对于和每个词语经常共同出现在同一个上下文中的词语,其意思也是相近的,而由于每个词语的词义不同,出现的上下文的内容也是有区别的。通过利用容错粗糙集模型,根据每个词语的实际情况,分别获取和每个词语出现的共现度大于某个阈值的词语集合(称为容错类),再对其容错类进行聚类,那么不同的类别则对应词语不同的语义。通过模糊聚类确定每个词语的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量。克服了其他研究中需要借鉴外部先验知识和人为定义词语的词义数量的缺点。再通过连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量。
附图说明
图1是本发明提供优选实施例一种基于容错粗糙集的多义词词表示方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
参考图1,本发明旨在解决多义词词表示技术的问题。提出了一种能解决其他研究中需要借鉴外部先验知识问题,并且通过对结合容错粗糙集模型,结合聚类算法,能够获取每个词语的词义数量,解决了其他研究中需要认为定义词语词义数量的问题。本发明的技术方案如下:
一种基于容错粗糙集的多义词词表示方法,其包括以下步骤:
1.读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号;
3)将词语中的大写转换为小写。
2.确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为
W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。
3.获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci,
其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值,在后面的内容中,用ci表示词语wi的容错类。
4.计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值
其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量
其中,
sim(vi,vj)表示向量vi与vj之间的余弦相似度:
μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;
3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:
5.构建连续词袋模型(CBOW),训练词向量,具体步骤如下:
1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为
其中,wi-R和wi+R分别为wi的第R个上下文单词、v(coni)表示coni的向量表示。
出现单词不为wi的概率为
P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))
2)对于一序列词语W={w1,w2,...,wn},目标函数为
其中,w′i是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D—是词语-上下文对(wi',coni)。
3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:
①计算当前目标函数的梯度:
②计算当前位置的上升距离:
其中,α为步长。
③进行参数更新:
若θ小于某个阈值ε,则停止迭代,算法终止。
一种介质,该介质内部存储计算机程序,其所述计算机程序被处理器读取时,执行上述任一项的方法。
一种基于容错粗糙集的多义词表示系统,其特征在于,包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练。
一种介质,该介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述任一项的方法。
一种基于容错粗糙集的多义词词表示系统,其特征在于,包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型(CBOW),采用随机梯度上升优化算法,进行多义词向量的训练。
需要指出的是,以上步骤101计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;102计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;103计算机获取每个基词的不确定性函数即容错类;104计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;105计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量等步骤均是计算机来执行完成的,其是具备工业运用或者产业运用的方法,并不是需要人全程参与的步骤,其是利用了自然规律来完成的技术方案,对现有的计算机信息处理过程中的文景转换中的耗时以及不准确的缺陷进行的技术改变,因此属于技术方案,因此其并不属于专利法第二条第二款规定的情形,也不属于专利法25条第一款智力活动规则的范畴。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种基于容错粗糙集的多义词词表示方法,其特征在于,包括以下步骤:
101、计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
102、计算机对预处理后的语料库确定基词集合,基词表示需要训练词向量的词语;
103、计算机获取每个基词的不确定性函数即容错类;
104、计算机对于每个基词的不确定性函数集合,采用模糊聚类算法进行聚类,计算每个基词的词义数量,对于每个词语的容错类的类别数即为每个词语的词义数量;
105、计算机构建连续词袋模型CBOW,训练词向量,对于每个词语,如果有n个词义,则每个词语由n个向量进行表示,每个向量分别代表每个词义的词向量;
所述步骤104计算每个词语的词义数量具体包括:
1)由容错粗糙集计算出的词语wi不确定性函数集合ci,向量表示为集合中所有词语向量的平均值
其中,vcontext(ci)表示ci的向量表示,v(c)表示词语c的词向量,c表示词语wi的容错类ci中的某个词语。
2)确定词语的词义数量
其中,
sim(vi,vj)表示向量vi与vj之间的余弦相似度:
μ(wi,k)是词语wi的第k个类别的类别中心;k(wi)是词语wi的上下文类别数量,即wi的词义数量;λ表示相似度阈值;
3)单词的词义预测为其距离最近的上下文表示的类别的类别中心:
2.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤101读取语料库,并对语料库进行预处理操作,具体包括:
1)删除文档的页眉页脚,只取实际内容部分;
2)去除标点符号和数字;
3)将词语中的大写转换为小写。
3.根据权利要求1所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤102确定语料库的基词集合,主要操作如下:
1)统计语料库中出现的所有词语;
2)将所有词语作为基词即需要训练词向量的词语,基词集合为
W={w1,w2,...,wn},
其中n表示基词的数量,wn表示基词中的第n个词语。
4.根据权利要求3所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤103获取每个基词的不确定性函数即容错类,包括步骤:
1)设语料库由集合D={d1,d2,...,dv}组成,其中di表示第i个文档;
2)计算每个基词的不确定性函数
Iθ(wi)={wj|fD(wi,wj)≥θ}∪{wi}=ci,
其中Iθ(wi)表示词语wi的容错类,fD(wi,wj)表示D中同时包含词语wi和wj的文档的数量,θ是词语共现度阈值,在后面的内容中,用ci表示词语wi的容错类。
5.根据权利要求4所述的一种基于容错粗糙集的多义词词表示方法,其特征在于,所述步骤105构建连续词袋模型CBOW,训练词向量,具体步骤如下:
1)给定词语wi的上下文单词集合coni={wi-R,...,wi-1,wi+1,...,wi+R},出现单词wi的概率为
其中,wi-R和wi+R分别为wi的第R个上下文单词,v(coni)表示coni的向量表示。出现单词不为wi的概率为
P(D=0|v(wi),v(coni))=1-P(D=1|v(wi),v(coni))
2)对于一序列词语W={w1,w2,...,wn},目标函数为
其中,w′i是随机采样的词语,给定上下文coni出现的噪声词语;D+是在语料库中出现的词语-上下文对(wi,coni);D—是词语-上下文对(w′i,coni)。
3)采用随机梯度上升优化算法进行参数更新,随机梯度上升优化算法算法具体包括:
①计算当前目标函数的梯度:
②计算当前位置的上升距离:
其中,α为步长。
③进行参数更新:
若θ小于某个阈值ε,则停止迭代,算法终止。
6.一种介质,该介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~5任一项的方法。
7.一种基于容错粗糙集的多义词词表示系统,其特征在于,包括:
预处理模块:用于计算机获取语料库,并对语料库进行包括去页眉页脚、去标点符号和数字、大写转小写在内的预处理操作;
语料库基词集合确定模块:计算机对预处理后的语料库确定基词集合;
词语的词义数量确定模块:计算机对于每个基词的不确定性函数集合,进行聚类,计算每个基词的词义数量;
多义词词向量训练模块:计算机构建连续词袋模型,采用随机梯度上升优化算法,进行多义词向量的训练;
所述采用随机梯度上升算法进行多义词向量的训练进行优化,具体包括:
①计算当前目标函数的梯度:
②计算当前位置的上升距离:
其中,α为步长。
③进行参数更新:
若θ小于某个阈值ε,则停止迭代,算法终止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911326404.9A CN111199154B (zh) | 2019-12-20 | 2019-12-20 | 基于容错粗糙集的多义词词表示方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911326404.9A CN111199154B (zh) | 2019-12-20 | 2019-12-20 | 基于容错粗糙集的多义词词表示方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111199154A CN111199154A (zh) | 2020-05-26 |
CN111199154B true CN111199154B (zh) | 2022-12-27 |
Family
ID=70746312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911326404.9A Active CN111199154B (zh) | 2019-12-20 | 2019-12-20 | 基于容错粗糙集的多义词词表示方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111199154B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997278B (zh) * | 2022-05-09 | 2023-04-07 | 浙江大学 | 基于计算机算法模型的工程数字化信息分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833577A (zh) * | 2010-04-30 | 2010-09-15 | 天津大学 | 一种基于粗糙集的地名信息检索方法 |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN104794222A (zh) * | 2015-04-29 | 2015-07-22 | 北京交通大学 | 网络表格语义恢复方法 |
CN106372061A (zh) * | 2016-09-12 | 2017-02-01 | 电子科技大学 | 基于语义的短文本相似度计算方法 |
CN107436862A (zh) * | 2017-06-26 | 2017-12-05 | 天津大学 | 一种基于基尼指数的区间值模糊粗糙集属性选择方法 |
CN109829149A (zh) * | 2017-11-23 | 2019-05-31 | 中国移动通信有限公司研究院 | 一种词向量模型的生成方法及装置、设备、存储介质 |
CN109960786A (zh) * | 2019-03-27 | 2019-07-02 | 北京信息科技大学 | 基于融合策略的中文词语相似度计算方法 |
CN111104508A (zh) * | 2019-10-25 | 2020-05-05 | 重庆邮电大学 | 基于容错粗糙集的词袋模型文本表示方法、系统及介质 |
-
2019
- 2019-12-20 CN CN201911326404.9A patent/CN111199154B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833577A (zh) * | 2010-04-30 | 2010-09-15 | 天津大学 | 一种基于粗糙集的地名信息检索方法 |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
CN104794222A (zh) * | 2015-04-29 | 2015-07-22 | 北京交通大学 | 网络表格语义恢复方法 |
CN106372061A (zh) * | 2016-09-12 | 2017-02-01 | 电子科技大学 | 基于语义的短文本相似度计算方法 |
CN107436862A (zh) * | 2017-06-26 | 2017-12-05 | 天津大学 | 一种基于基尼指数的区间值模糊粗糙集属性选择方法 |
CN109829149A (zh) * | 2017-11-23 | 2019-05-31 | 中国移动通信有限公司研究院 | 一种词向量模型的生成方法及装置、设备、存储介质 |
CN109960786A (zh) * | 2019-03-27 | 2019-07-02 | 北京信息科技大学 | 基于融合策略的中文词语相似度计算方法 |
CN111104508A (zh) * | 2019-10-25 | 2020-05-05 | 重庆邮电大学 | 基于容错粗糙集的词袋模型文本表示方法、系统及介质 |
Non-Patent Citations (3)
Title |
---|
"基于表示学习的中文分词算法探索";来斯惟 等;《中文信息学报》;20130930;第27卷(第5期);8-14 * |
基于句子级最大频繁单词集的Web文档聚类研究;袁莉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090515;I138-1265 * |
基于神经网络的文本向量表示与建模研究;牛力强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20161015;I138-535 * |
Also Published As
Publication number | Publication date |
---|---|
CN111199154A (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230016365A1 (en) | Method and apparatus for training text classification model | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN108875051B (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110309267A (zh) | 基于预训练模型的语义检索方法和系统 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
WO2017193685A1 (zh) | 社交网络中数据的处理方法和装置 | |
US11003950B2 (en) | System and method to identify entity of data | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN112711652A (zh) | 术语标准化方法及装置 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN114969341A (zh) | 一种针对餐饮行业评论的细粒度情感分析方法及装置 | |
CN111199154B (zh) | 基于容错粗糙集的多义词词表示方法、系统及介质 | |
CN117891958B (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN111639189B (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN111737467B (zh) | 一种基于分段卷积神经网络的对象级情感分类方法 | |
CN111104508B (zh) | 基于容错粗糙集的词袋模型文本表示方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |