CN108363694B - 关键词提取方法及装置 - Google Patents
关键词提取方法及装置 Download PDFInfo
- Publication number
- CN108363694B CN108363694B CN201810155685.5A CN201810155685A CN108363694B CN 108363694 B CN108363694 B CN 108363694B CN 201810155685 A CN201810155685 A CN 201810155685A CN 108363694 B CN108363694 B CN 108363694B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- chinese
- corpus
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种关键词提取方法及装置,该方法包括:步骤S1:获取中文语料库和外文语料库;步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;步骤S3:对该若干个词语进行分类,形成中文词汇组和外文词汇组;步骤S4:计算该中文词汇组中每一个词语在该待提取关键词的文章中的tf值以及在该中文语料库中的idf值,计算该外文词汇组中每一个词语在该待提取关键词的文章中的tf值以及在该外文语料库中的idf值,对于该若干个词语中每一个词语,根据其tf值以及idf值计算其权重;步骤S5:对该若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。本发明可以提高关键词提取的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种关键词提取方法及装置。
背景技术
tf-idf(term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。
tf-idf算法是创建在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取tf词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,tf-idf法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度idf的概念,以tf和idf的乘积作为特征空间坐标系的取值测度,并用它完成对权值tf的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上idf是一种试图抑制噪声的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。idf的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以tf-idf法的精度并不是很高,如针对专业领域,采用tf-idf法会有如下情况出现:
(1)当以普通语料做词库时,某个专业词汇经常出现,令tf-idf值偏高,实际上该词汇在该领域经常出现,并无关键信息;
(2)当以专业语料做词库时,某些常用词的idf会偏高,使最终结果较差;
(3)专业领域文章中,外文的词汇一般会是专业词汇,会出现tf值和idf都高的情况,如果不额外处理,会使最终结果大部分是外文词汇;
(4)关键词和生僻词需要分开计算;
(5)而且生僻词的算法容易将分词引擎分词错误的词汇找出。
发明内容
本发明的目的在于提供一种关键词提取方法及装置,可以提高关键词提取的准确度。
为实现上述目的,本发明的技术方案提供了一种关键词提取方法,包括:
步骤S1:获取中文语料库和外文语料库;
步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;
步骤S3:对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
步骤S4:计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
步骤S5:对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
进一步地,步骤S1包括:
收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
进一步地,步骤S2包括:
依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
进一步地,在步骤S4中,采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,步骤S5中所选出的关键词中生僻词的比例越高。
进一步地,步骤S5包括:
设置用于过滤预设过滤词语的过滤器;
按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
为实现上述目的,本发明的技术方案还提供了一种关键词提取装置,包括:
语料库模块,用于获取中文语料库和外文语料库;
第一处理模块,用于对待提取关键词的文章进行预处理,得到若干个词语;
分类模块,用于对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
计算模块,用于计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
第二处理模块,用于对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
进一步地,所述语料库模块包括:
收集单元,用于收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
分词清洗单元,用于对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
进一步地,所述第一处理模块依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
进一步地,所述计算模块采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,第二处理模块所选出的关键词中生僻词的比例越高。
进一步地,所述第二处理模块包括:
设置单元,用于设置用于过滤预设过滤词语的过滤器;
处理单元,用于按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
本发明提供的关键词提取方法,通过将从待提取关键词的文章获取的词语进行分类,形成中文词汇组和英文词汇组,中文词汇组中的词语采用中文语料库确定权值,外文词汇组中的词语采用相应的外文语料库确定权值,从而可以提高关键词提取的准确度,此外还能够实现同时提取关键词和生僻词,关键词和生僻词不需要分开计算,并且避免在提取生僻词时将分词引擎分词错误的词汇找出。
附图说明
图1是本发明实施方式提供的一种关键词提取方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1,图1是本发明实施方式提供的一种关键词提取方法的流程图,该方法包括步骤S1-S5:
步骤S1:获取中文语料库和外文语料库,该步骤可以包括步骤S11-S12;
步骤S11:收集多个中文语料和多个外文语料(例如,可以为英文语料);
其中,每一个语料可以为一篇文章,收集的多个中文语料由新闻类型语料和专业类型语料组成,且新闻类型语料的比例大于专业类型语料的比例,其比例数值可以根据具体情况确定,新闻类型语料包括不同种类的新闻类型语料(种类越多越佳),例如可以包括娱乐新闻类型、国际新闻类型、财经新闻类型等,专业类型语料的专业领域与待提取关键词的文章的专业领域相同;
收集的多个外文语料为由专业类型语料组成,其专业领域与待提取关键词的文章的专业领域相同;
步骤S11:对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库;
例如,对于每一个语料,可先进行分词(如使用pullword在线分词引擎),分词后对语料进行清洗处理,以去除标点符号、日期、纯数字等无用词汇;
步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;
例如,可以依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语,具体地,可以先使用pullword在线分词引擎进行分词,分词后进行清洗,以去除标点符号、日期、纯数字等无用词汇;
步骤S3:对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
例如,可进行中英文分类,形成中文词汇组和英文词汇组;
步骤S4:计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
例如,可以采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1。
其中,对于上述方式,K为预设的生僻词系数,其值可调,可根据所需进行设置,K的值越大,步骤S5中所选出的关键词中生僻词的比例越高。
步骤S5:对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词,例如,该步骤可以包括步骤S51-S52:
步骤S51:设置用于过滤预设过滤词语的过滤器;
过滤器可通过正规则表达式匹配和/或停用词库的方式进行过滤,例如,通过正规则表达式匹配方式,可以将中文词汇组和外文词汇组中的人名、机构名、期刊名等非关键词的命名实体进行过滤,停用词库中可以包含汉语常用8000词语;
步骤S52:按照权重从大到小对所述若干个词语(即中文词汇组和英文词汇组合并)进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
本发明实施方式提供的关键词提取方法,通过将从待提取关键词的文章获取的词语进行分类,形成中文词汇组和英文词汇组,中文词汇组中的词语采用中文语料库确定权值,外文词汇组中的词语采用相应的外文语料库确定权值,从而可以提高关键词提取的准确度。
在现有技术中,关键词和生僻词需要分开计算,且生僻词的算法容易将分词引擎分词错误的词汇找出,而本发明可以通过调整K的值调整关键词中生僻词的比例,当K的值越大时,所选出的关键词中生僻词的比例越高,能够实现同时提取关键词和生僻词,关键词和生僻词不需要分开计算,还可以避免在提取生僻词时将分词引擎分词错误的词汇找出。
此外,本发明实施方式还提供了一种关键词提取装置,包括:
语料库模块,用于获取中文语料库和外文语料库;
第一处理模块,用于对待提取关键词的文章进行预处理,得到若干个词语;
分类模块,用于对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
计算模块,用于计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
第二处理模块,用于对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
其中,在本发明实施方式中,所述语料库模块包括:
收集单元,用于收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
分词清洗单元,用于对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
其中,在本发明实施方式中,所述第一处理模块依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
其中,在本发明实施方式中,所述计算模块采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,第二处理模块所选出的关键词中生僻词的比例越高。
其中,在本发明实施方式中,所述第二处理模块包括:
设置单元,用于设置用于过滤预设过滤词语的过滤器;
处理单元,用于按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (8)
1.一种关键词提取方法,其特征在于,包括:
步骤S1:获取中文语料库和外文语料库;
步骤S2:对待提取关键词的文章进行预处理,得到若干个词语;
步骤S3:对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
步骤S4:计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
在步骤S4中,采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,步骤S5中所选出的关键词中生僻词的比例越高;
步骤S5:对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
2.根据权利要求1所述的关键词提取方法,其特征在于,步骤S1包括:
收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
3.根据权利要求1所述的关键词提取方法,其特征在于,步骤S2包括:
依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
4.根据权利要求1所述的关键词提取方法,其特征在于,步骤S5包括:
设置用于过滤预设过滤词语的过滤器;
按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
5.一种关键词提取装置,其特征在于,包括:
语料库模块,用于获取中文语料库和外文语料库;
第一处理模块,用于对待提取关键词的文章进行预处理,得到若干个词语;
分类模块,用于对所述若干个词语进行分类,形成中文词汇组和外文词汇组;
计算模块,用于计算所述中文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述中文语料库中的idf值,计算所述外文词汇组中每一个词语在所述待提取关键词的文章中的tf值以及在所述外文语料库中的idf值,对于所述若干个词语中每一个词语,根据其tf值以及idf值计算其权重;
所述计算模块采用以下方式计算每一个词语的权重:
Q=I*lg(T*K+1);
其中,Q为词语的权重,T为词语的tf值,I为词语的idf值,K为预设的生僻词系数,且K≥1,K的值越大,第二处理模块所选出的关键词中生僻词的比例越高;
第二处理模块,用于对所述若干个词语进行过滤处理后从其中选出预设个数权重最大的词语作为关键词。
6.根据权利要求5所述的关键词提取装置,其特征在于,所述语料库模块包括:
收集单元,用于收集多个中文语料和多个外文语料,所述多个中文语料包括新闻类型语料和专业类型语料,所述多个外文语料包括专业类型语料;
分词清洗单元,用于对每一个所述中文语料进行分词处理和清洗处理,得到所述中文语料库,对每一个所述外文语料进行分词处理和清洗处理,得到所述外文语料库。
7.根据权利要求5所述的关键词提取装置,其特征在于,所述第一处理模块依次对所述待提取关键词的文章进行分词处理和清洗处理,得到所述若干个词语。
8.根据权利要求5所述的关键词提取装置,其特征在于,所述第二处理模块包括:
设置单元,用于设置用于过滤预设过滤词语的过滤器;
处理单元,用于按照权重从大到小对所述若干个词语进行排序,利用所述过滤器将所述预设过滤词语从排序结果中过滤掉后从排序结果中选取前预设个数的词语作为关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810155685.5A CN108363694B (zh) | 2018-02-23 | 2018-02-23 | 关键词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810155685.5A CN108363694B (zh) | 2018-02-23 | 2018-02-23 | 关键词提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363694A CN108363694A (zh) | 2018-08-03 |
CN108363694B true CN108363694B (zh) | 2021-08-24 |
Family
ID=63002315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810155685.5A Active CN108363694B (zh) | 2018-02-23 | 2018-02-23 | 关键词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363694B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492225A (zh) * | 2018-11-08 | 2019-03-19 | 大连瀚闻资讯有限公司 | 一种小语种国家的舆情信息文本处理方法 |
CN109710944A (zh) * | 2018-12-29 | 2019-05-03 | 新华网股份有限公司 | 热词提取方法、装置、电子设备及计算机可读存储介质 |
CN111368539A (zh) * | 2020-03-02 | 2020-07-03 | 贵州电网有限责任公司 | 一种热点分析建模方法 |
CN111651553A (zh) * | 2020-04-17 | 2020-09-11 | 世纪保众(北京)网络科技有限公司 | 一种在保险指南文章内查看文中保险产品的方法 |
CN114756643A (zh) * | 2021-12-24 | 2022-07-15 | 中国银联股份有限公司 | 用于构建词库的方法、系统、装置和存储介质 |
CN114492401B (zh) * | 2022-01-24 | 2022-11-15 | 重庆工业职业技术学院 | 基于大数据提取英语词汇的工作方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130058840A (ko) * | 2011-11-28 | 2013-06-05 | 윤창훈 | 외국어 학습방법 |
CN103186845A (zh) * | 2011-12-29 | 2013-07-03 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN106021288A (zh) * | 2016-04-27 | 2016-10-12 | 南京慕测信息科技有限公司 | 一种基于自然语言分析的随堂测试答案快速自动分类方法 |
CN107193883A (zh) * | 2017-04-27 | 2017-09-22 | 北京拓尔思信息技术股份有限公司 | 一种数据处理方法和系统 |
-
2018
- 2018-02-23 CN CN201810155685.5A patent/CN108363694B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130058840A (ko) * | 2011-11-28 | 2013-06-05 | 윤창훈 | 외국어 학습방법 |
CN103186845A (zh) * | 2011-12-29 | 2013-07-03 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN106021288A (zh) * | 2016-04-27 | 2016-10-12 | 南京慕测信息科技有限公司 | 一种基于自然语言分析的随堂测试答案快速自动分类方法 |
CN107193883A (zh) * | 2017-04-27 | 2017-09-22 | 北京拓尔思信息技术股份有限公司 | 一种数据处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108363694A (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363694B (zh) | 关键词提取方法及装置 | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
CN107577671B (zh) | 一种基于多特征融合的主题词提取方法 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN104615593A (zh) | 微博热点话题自动检测方法及装置 | |
Sabuna et al. | Summarizing Indonesian text automatically by using sentence scoring and decision tree | |
Al-Omari et al. | Arabic light stemmer (ARS) | |
CN101887415B (zh) | 一种文本文档主题词义的自动提取方法 | |
CN109815401A (zh) | 一种应用于Web人物搜索的人名消歧方法 | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
Rathod | Extractive text summarization of Marathi news articles | |
CN117236324A (zh) | 基于tf-idf的关键词提取方法 | |
Froud et al. | Stemming and similarity measures for Arabic Documents Clustering | |
Fodil et al. | Theme classification of Arabic text: A statistical approach | |
Najadat et al. | Automatic keyphrase extractor from arabic documents | |
CN117112811B (zh) | 一种基于相似度的专利检索方法、检索系统及存储介质 | |
CN106776724B (zh) | 一种题目分类方法及系统 | |
Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
US20180005300A1 (en) | Information presentation device, information presentation method, and computer program product | |
CN116805148A (zh) | 一种法考客观题上下文检索方法和系统 | |
Ahmed et al. | K-means based algorithm for islamic document clustering | |
Williams | Results of classifying documents with multiple discriminant functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |