Nothing Special   »   [go: up one dir, main page]

CN103530316B - 一种基于多视图学习的科学主题提取方法 - Google Patents

一种基于多视图学习的科学主题提取方法 Download PDF

Info

Publication number
CN103530316B
CN103530316B CN201310416384.0A CN201310416384A CN103530316B CN 103530316 B CN103530316 B CN 103530316B CN 201310416384 A CN201310416384 A CN 201310416384A CN 103530316 B CN103530316 B CN 103530316B
Authority
CN
China
Prior art keywords
view
data information
documents
data
destination document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310416384.0A
Other languages
English (en)
Other versions
CN103530316A (zh
Inventor
王灿
王哲
卜佳俊
陈纯
于智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310416384.0A priority Critical patent/CN103530316B/zh
Publication of CN103530316A publication Critical patent/CN103530316A/zh
Application granted granted Critical
Publication of CN103530316B publication Critical patent/CN103530316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多视图学习的科学主题提取方法,从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;对每个视图的数据信息进行简单的数据预处理并针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;利用多视图学习的方法,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;对于每一类目标文档,分别提取它们的科学主题,并以多个关键词的形式表示出来。本方法的优点在于,弥补了传统方法只考虑单一方面数据信息的不足,更好的利用多方面的数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的科学主题提取效果。

Description

一种基于多视图学习的科学主题提取方法
技术领域
本发明涉及文本聚类和科学主题提取等技术领域,特别是基于多视图学习的文本聚类方法和主题提取工作。
背景技术
每一篇文章都有自己特定的主题,学术论文更是如此,所有学者和研究人员在进行科学研究和撰写论文之前,都需要对现有的科学主题进行调研,而普通读者在查找资料的时候,也希望首先知道文章的主题。经验丰富的研究人员对自己所在领域的科学主题往往都有很清楚的认识,他们能够很好的发现与自己研究领域相关的论文,理清论文之间的关系,预测某些科学主题的流行程度和发展趋势,而且这些信息对于学者的研究工作以至整个研究领域的发展都起着至关重要的作用。随着互联网的高速发展,信息开始爆棚,凭借经验进行简单的人为处理和分析已经不能解决大数据时代带来的挑战。为了方便普通读者能够更加容易的了解新兴的研究领域,帮助经验不足的研究人员快速掌握各个研究领域的研究成果和代表人物,科学主题的提取工作显得尤为重要。
现有的科学主题提取工作基本上只考虑到论文数据中的单方面数据信息,而忽略了其他可以利用的潜在数据。学术论文主要包括正文,标题,摘要,关键字,共同作者以及参考文献等内容,传统的科学主题提取工作主要依据正文或者摘要等单一方面信息进行处理,很少考虑到多方面数据信息的相互影响和内在联系。因此我们提出了一种基于多视图学习的科学主题提取方法,弥补了传统方法的不足,更好的利用多方面的数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的主题提取效果。
发明内容
为了克服现有的科学主题提取方法只考虑到论文数据中的单方面数据信息,而忽略了其他可以利用的潜在数据的缺点,本发明提出了一种基于多视图学习的科学主题提取方法,以方便普通读者能够更加容易的了解新兴的研究领域,帮助经验不足的研究人员快速掌握各个研究领域的研究成果和代表人物。
本发明所述的一种基于多视图学习的科学主题提取方法:
1、该方法包括以下步骤:
1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;
2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;
3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;
4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;
5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;
6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示。
2、步骤2)中所述的多个视图的数据信息,其特征在于:
1)根据应用的实际需求和目标文档所包含数据信息的实际情况,选取t个不同视图的数据信息,论文数据主要包括文章的正文,标题,摘要,关键字,共同作者以及参考文献等多方面的数据信息,当选取其中的四种:标题,摘要,关键字,共同作者这四个视图的数据信息时,t=4。
3、步骤3)中所述的根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理,其特征在于:
1)对于论文数据的正文、标题、摘要,去掉所有停止词(a,the,or等使用频率很多但没有特定意义或明显区分价值的字或词,常为冠词、介词、副词或连词等),将单词词干化,即去掉ed,ing等分词形式或ment等词缀,只保留词干形式;
2)对于论文数据的关键字、共同作者和参考文献不需要进行上述操作。
4、步骤4)中所述的针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量,其特征在于:
1)共同作者视图、关键字视图和参考文献视图处理方式相同,以共同作者视图为例,遍历所有目标文档的作者部分,统计所有不同的作者姓名,将每一个目标文档的共同作者视图用向量的形式表示,定义向量j表示第j个目标文档,m为所有文档的共同作者部分中不同作者的个数,取值0或1,如果第i个作者是第j个目标文档的作者之一,取值为1,否则取值为0;
2)论文正文视图、标题视图和摘要视图处理方式相同,以摘要视图为例,遍历所有目标文档的摘要部分,统计所有不同的单词,将每一个目标文档的摘要视图用向量的形式表示,定义向量j表示第j个目标文档,m为所有文档的摘要部分中不同单词的个数,表示第i个单词在向量vj中的权重,用它的TF-IDF值表示,即 d i j = num j ( i ) t o t a l ( w o r d s ) · l o g ( t o t a l ( d o c u m e n t s ) d o c u m e n t s ( i ) ) , 其中numj(i)为在目标文档j的摘要部分中,第i个单词出现的个数,total(words)为目标文档j的摘要部分包含的单词总数,total(documents)为文档总数,documents(i)为摘要部分中含有第i个单词的文档的数目;
3)针对每一个视图,将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵,定义视图i对应的数据矩阵为W(i)(i≤t,t为视图个数),W(i)的每一个行向量就是该视图下每一个目标文档j的表示向量 v j = [ d 1 j , d 2 j , .. , d m j ] .
5、步骤(5)中所述的利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题,其特征在于:
1)假定我们有t个不同的视图,用W(1),W(2),……W(t)表示,定义下述公式
min F ∈ R n * k , μ ∈ R k t r ( F T ( Σ i = 1 t μ i L s y m ( i ) ) F ) + γ | | μ | | 2
s . t . F T F = I k , Σ i = 1 t μ i = 1 , μ i ≥ 0 , i = 1 , ... , t
其中k为聚类个数(根据实际情况人为设定),D(i)是对角矩阵L(i)=D(i)-W(i)并且tr()是矩阵的迹,运算符号||·||2是求向量模的平方,γ≥0是可调参数,μ是t维行向量,μi(i≤t)代表计算过程中第i个视图在t个视图中的权重,F是一个n*k维的向量,n为所有文档的总数,求解上述公式得到最优解F,F为综合考虑多个视图的内在联系,求得的所有文档在低维空间下的矩阵表示;
2)使用K-means算法对F进行聚类,将所有文档划分到k个不同的类,其中k为聚类个数,K-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
6、步骤6)中所述的对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示,其特征在于:
1)对于每一类目标文档,选取该类文档的某一个视图或多个视图,分别统计所有该类文档在该视图中不重复的单词,作为科学主题关键词的备选词库,如果选取的是参考文献视图,则以某一篇被引用的论文作为关键词,而不是一个简单的词,如果选取的是共同作者视图则以作者姓名作为关键词;
2)对备选词库中的关键词进行排序,如果选取的论文的正文、摘要、标题视图,则按照TF-IDF值进行降序排序,如果选取的是论文的共同作者、参考文献视图则按照出现次数进行降序排序,其中TF-IDF值的计算方法与步骤4中步骤2)所说明的方法相同;
3)在备选词库中针对不同视图,分别选取前N个关键词(根据实际情况人为设定)来代表这一类论文所属的科学主题,因此描述一类科学主题的关键词可以是一些具有代表性的领域名词、比较有影响力的论文作者,也可以一些经典的引用率较高的核心论文。
本发明提出了一种基于多视图学习的科学主题提取方法:其优点在于:克服了传统科学主题提取工作中只考虑论文数据中单一方面信息的不足,更好的利用多方面数据信息,借助它们的互补关系和潜在主题的一致性辅助聚类,得到更好的主题提取效果。
附图说明
图1是本发明的方法流程图。
具体实施方式
参照附图,进一步说明本发明:
一种基于多视图学习的科学主题提取方法:
1、该方法包括以下步骤:
1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;
2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;
3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;
4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;
5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;
6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示。
2、步骤2)中所述的多个视图的数据信息,其特征在于:
1)根据应用的实际需求和目标文档所包含数据信息的实际情况,选取t个不同视图的数据信息,论文数据主要包括文章的正文,标题,摘要,关键字,共同作者以及参考文献等多方面的数据信息,当选取其中的四种:标题,摘要,关键字,共同作者这四个视图的数据信息时,t=4。
3、步骤3)中所述的根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理,其特征在于:
1)对于论文数据的正文、标题、摘要,去掉所有停止词(a,the,or等使用频率很多但没有特定意义或明显区分价值的字或词,常为冠词、介词、副词或连词等),将单词词干化,即去掉ed,ing等分词形式或ment等词缀,只保留词干形式;
2)对于论文数据的关键字、共同作者和参考文献不需要进行上述操作。
4、步骤4)中所述的针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量,其特征在于:
1)共同作者视图、关键字视图和参考文献视图处理方式相同,以共同作者视图为例,遍历所有目标文档的作者部分,统计所有不同的作者姓名,将每一个目标文档的共同作者视图用向量的形式表示,定义向量j表示第j个目标文档,m为所有文档的共同作者部分中不同作者的个数,取值0或1,如果第i个作者是第j个目标文档的作者之一,取值为1,否则取值为0;
2)论文正文视图、标题视图和摘要视图处理方式相同,以摘要视图为例,遍历所有目标文档的摘要部分,统计所有不同的单词,将每一个目标文档的摘要视图用向量的形式表示,定义向量j表示第j个目标文档,m为所有文档的摘要部分中不同单词的个数,表示第i个单词在向量vj中的权重,用它的TF-IDF值表示,即 d i j = num j ( i ) t o t a l ( w o r d s ) · l o g ( t o t a l ( d o c u m e n t s ) d o c u m e n t s ( i ) ) , 其中numj(i)为在目标文档j的摘要部分中,第i个单词出现的个数,total(words)为目标文档j的摘要部分包含的单词总数,total(documents)为文档总数,documents(i)为摘要部分中含有第i个单词的文档的数目;
3)针对每一个视图,将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵,定义视图i对应的数据矩阵为W(i)(i≤t,t为视图个数),W(i)的每一个行向量就是该视图下每一个目标文档j的表示向量 v j = [ d 1 j , d 2 j , .. , d m j ] .
5、步骤5)中所述的利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题,其特征在于:
1)假定我们有t个不同的视图,用W(1),W(2),……W(t)表示,定义下述公式
min F ∈ R n * k , μ ∈ R k t r ( F T ( Σ i = 1 t μ i L s y m ( i ) ) F ) + γ | | μ | | 2
s . t . F T F = I k , Σ i = 1 t μ i = 1 , μ i ≥ 0 , i = 1 , ... , t
其中k为聚类个数(根据实际情况人为设定),D(i)是对角矩阵L(i)=D(i)-W(i)并且tr()是矩阵的迹,运算符号||·||2是求向量模的平方,γ≥0是可调参数,μ是t维行向量,μi(i≤t)代表计算过程中第i个视图在t个视图中的权重,F是一个n*k维的向量,n为所有文档的总数,求解上述公式得到最优解F,F为综合考虑多个视图的内在联系,求得的所有文档在低维空间下的矩阵表示;
2)使用K-means算法对F进行聚类,将所有文档划分到k个不同的类,其中k为聚类个数,K-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
6、步骤6)中所述的对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示,其特征在于:
1)对于每一类目标文档,选取该类文档的某一个视图或多个视图,分别统计所有该类文档在该视图中不重复的单词,作为科学主题关键词的备选词库,如果选取的是参考文献视图,则以某一篇被引用的论文作为关键词,而不是一个简单的词,如果选取的是共同作者视图则以作者姓名作为关键词;
2)对备选词库中的关键词进行排序,如果选取的论文的正文、摘要、标题视图,则按照TF-IDF值进行降序排序,如果选取的是论文的共同作者、参考文献视图则按照出现次数进行降序排序,其中TF-IDF值的计算方法与步骤4中步骤2)所说明的方法相同;
3)在备选词库中针对不同视图,分别选取前N个关键词(根据实际情况人为设定)来代表这一类论文所属的科学主题,因此描述一类科学主题的关键词可以是一些具有代表性的领域名词、比较有影响力的论文作者,也可以一些经典的引用率较高的核心论文。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于多视图学习的科学主题提取方法,该方法的特征在于:
1)从论文数据库中获取论文数据,作为即将进行科学主题提取的目标文档;
2)针对每个目标文档,提取该文档中的多个视图的数据信息,作为科学主题提取的依据;
3)根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理;
4)针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量;
5)利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题;
6)对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示;
步骤2)中所述的多个视图的数据信息,包括:
21)根据应用的实际需求和目标文档所包含数据信息的实际情况,选取t个不同视图的数据信息,论文数据包括文章的正文,标题,摘要,关键字,共同作者以及参考文献多方面的数据信息,当选取其中的四种:标题,摘要,关键字,共同作者这四个视图的数据信息时,t=4;
步骤3)中所述的根据不同视图数据信息的内容特点不同,对每个视图的数据信息进行简单的数据预处理,包括:
31)对于论文数据的正文、标题、摘要,去掉所有停止词将单词词干化,即去掉ed,ing分词形式或ment词缀,只保留词干形式;
32)对于论文数据的关键字、共同作者和参考文献不需要进行步骤31)中的操作;
步骤4)中所述的针对每一个视图,将所有目标文档的数据信息表示成一个数据矩阵,每一个目标文档的数据信息是其中的一个行向量,包括:
41)共同作者视图的处理方式为:遍历所有目标文档的作者部分,统计所有不同的作者姓名,将每一个目标文档的共同作者视图用向量的形式表示,定义向量j表示第j个目标文档,m为所有文档的共同作者部分中不同作者的个数,取值0或1,i≤m,如果第i个作者是第j个目标文档的作者之一,取值为1,否则取值为0;共同作者视图、关键字视图和参考文献视图处理方式相同;
42)摘要视图的处理方式为:遍历所有目标文档的摘要部分,统计所有不同的单词,将每一个目标文档的摘要视图用向量的形式表示,定义向量j表示第j个目标文档,m为所有文档的摘要部分中不同单词的个数,表示第i个单词在向量vj中的权重,i≤m,用它的TF-IDF值表示,即其中numj(i)为在目标文档j的摘要部分中,第i个单词出现的个数,total(words)为目标文档j的摘要部分包含的单词总数,total(documents)为文档总数,documents(i)为摘要部分中含有第i个单词的文档的数目,论文正文视图、标题视图和摘要视图处理方式相同;
43)针对每一个视图,将每一个目标文档在该视图下对应的向量拼接起来构成一个数据矩阵,定义视图i对应的数据矩阵为W(i),i≤t,t为视图个数,W(i)的每一个行向量就是该视图下每一个目标文档j的表示向量
步骤5)中所述的利用多视图学习的方法,借助多个视图的数据信息,对目标文档进行聚类,属于同一类的目标文档对应相同的科学主题,包括:
51)假定我们有t个不同的视图,用W(1),W(2),……,W(t)表示,定义下述公式
min F ∈ R n * k , μ ∈ R k t r ( F T ( Σ i = 1 t μ i L s y m ( i ) ) F ) + γ || μ || 2
s . t . F T F = I k , Σ i = 1 t μ i = 1 , μ i ≥ 0 , i = 1 , ... , t
其中k为聚类个数,根据实际情况人为设定;D(i)是对角矩阵L(i)=D(i)-W(i)并且tr()是矩阵的迹,运算符号||·||2是求向量模的平方,γ≥0是可调参数,μ是t维行向量,μi代表计算过程中第i个视图在t个视图中的权重,i≤t,F是一个n*k维的向量,n为所有文档的总数,求解上述公式得到最优解F,F为综合考虑多个视图的内在联系,求得的所有文档在低维空间下的矩阵表示;
52)使用K-means算法对F进行聚类,将所有文档划分到k个不同的类,其中k为聚类个数,K-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到聚类结果;
步骤6)中所述的对于每一类目标文档,分别提取它们的科学主题,科学主题以多个关键词的形式表示,包括:
61)对于每一类目标文档,选取该类文档的某一个视图或多个视图,分别统计所有该类文档在该视图中不重复的单词,作为科学主题关键词的备选词库,如果选取的是参考文献视图,则以某一篇被引用的论文作为关键词,而不是一个简单的词,如果选取的是共同作者视图则以作者姓名作为关键词;
62)对备选词库中的关键词进行排序,如果选取的论文的正文、摘要、标题视图,则按照所述TF-IDF值进行降序排序,如果选取的是论文的共同作者、参考文献视图则按照出现次数进行降序排序;
63)在备选词库中针对不同视图,根据实际情况分别选取前N个关键词,来代表这一类论文所属的科学主题。
CN201310416384.0A 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法 Active CN103530316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310416384.0A CN103530316B (zh) 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310416384.0A CN103530316B (zh) 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法

Publications (2)

Publication Number Publication Date
CN103530316A CN103530316A (zh) 2014-01-22
CN103530316B true CN103530316B (zh) 2016-06-01

Family

ID=49932327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310416384.0A Active CN103530316B (zh) 2013-09-12 2013-09-12 一种基于多视图学习的科学主题提取方法

Country Status (1)

Country Link
CN (1) CN103530316B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346446A (zh) * 2014-10-27 2015-02-11 百度在线网络技术(北京)有限公司 一种基于知识图谱的论文关联信息推荐方法及装置
CN105138537B (zh) * 2015-07-08 2018-12-07 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105046286B (zh) * 2015-08-31 2018-11-02 哈尔滨工业大学 基于自动视图生成和联合l1,2范数最小化的监督多视图特征选择方法
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
CN111183442A (zh) * 2017-10-06 2020-05-19 爱思唯尔有限公司 用于提供学术和研究实体推荐的系统和方法
CN109255122B (zh) * 2018-08-06 2023-07-11 浙江工业大学 一种对论文引用关系分类标记的方法
CN112580352B (zh) * 2021-03-01 2021-06-04 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059395A1 (en) * 2000-07-19 2002-05-16 Shih-Ping Liou User interface for online product configuration and exploration
CN101694659B (zh) * 2009-10-20 2012-03-21 浙江大学 基于多主题追踪的个性化网络新闻推送方法
CN102831119B (zh) * 2011-06-15 2016-08-17 日电(中国)有限公司 短文本聚类设备及方法
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统

Also Published As

Publication number Publication date
CN103530316A (zh) 2014-01-22

Similar Documents

Publication Publication Date Title
CN103530316B (zh) 一种基于多视图学习的科学主题提取方法
Yuan et al. Enhancing naive bayes with various smoothing methods for short text classification
CN103617157B (zh) 基于语义的文本相似度计算方法
CN104573046B (zh) 一种基于词向量的评论分析方法及系统
CN103823848B (zh) 一种基于lda和vsm的中草药相似文献的推荐方法
Li et al. Multi-label maximum entropy model for social emotion classification over short text
CN103559191B (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
CN105893485B (zh) 一种基于图书目录的专题自动生成方法
CN104050302B (zh) 一种基于图谱模型的话题探测系统
Wang et al. Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN108537240A (zh) 基于领域本体的商品图像语义标注方法
CN105205096A (zh) 一种跨文本模态和图像模态的数据检索方法
CN103559193B (zh) 一种基于选择单元的主题建模方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN103020167B (zh) 一种计算机中文文本分类方法
CN107808008A (zh) 一种考虑用户特征信息的主题‑情感联合建模方法
CN105631018A (zh) 基于主题模型的文章特征抽取方法
CN106777957A (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN102841940B (zh) 一种基于数据重构的文档摘要提取方法
CN104536951B (zh) 一种微博文本规范化及分词和词性标注的方法及系统
CN104537280B (zh) 基于文本关系相似性的蛋白质交互关系识别方法
Al-Anzi et al. A micro-word based approach for arabic sentiment analysis
CN105573985A (zh) 基于汉语句义结构模型和主题模型的句子表示方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant