Nothing Special   »   [go: up one dir, main page]

CN101067808B - 文本关键词的提取方法 - Google Patents

文本关键词的提取方法 Download PDF

Info

Publication number
CN101067808B
CN101067808B CN2007100411507A CN200710041150A CN101067808B CN 101067808 B CN101067808 B CN 101067808B CN 2007100411507 A CN2007100411507 A CN 2007100411507A CN 200710041150 A CN200710041150 A CN 200710041150A CN 101067808 B CN101067808 B CN 101067808B
Authority
CN
China
Prior art keywords
word
text
keyword
notional
word frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100411507A
Other languages
English (en)
Other versions
CN101067808A (zh
Inventor
方宁
刘洁
骆祥峰
徐炜民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN2007100411507A priority Critical patent/CN101067808B/zh
Publication of CN101067808A publication Critical patent/CN101067808A/zh
Application granted granted Critical
Publication of CN101067808B publication Critical patent/CN101067808B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本关键词的提取方法,它是改进TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法,提取同类文本集合中共同的领域关键词。本发明的方法有效地提高单篇文本的关键词提取精度,能够提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。

Description

文本关键词的提取方法
技术领域:
本发明涉及一种计算机自动提取文本关键词的方法,更具体地说,涉及对TF-IDF公式提取文本关键词的若干改进方法。
背景技术:
文本知识获取与表示的基本单元之一是文本的关键词。文本关键词自动获取的精度直接影响到文本知识获取的性能与文本本体建立的质量。
属于一个领域的多个文本所共现的类关键词呈现该领域文本的最低层知识,是该领域文本知识表示与获取的基本单元之一。文本领域关键词的自动获取的精度直接影响到文本领域知识获取的性能与领域知识本体建立的效果,从而影响网络资源服务的质量与效果。
单篇文本关键词与多篇文本领域关键词在文本自动分类、聚类、资源智能服务等方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是语义网格与知识网格中语义表示、知识获取与本体建设的最基本元素之一。
目前尚未见对领域关键词的研究论文,而目前主要运用于单个文本关键词提取研究的主要方法有:TF-IDF方法、互信息方法、朴素贝叶斯分类法,最大熵模型法、最大似然性和前缀树等方法等。TF-IDF方法提取关键词的精度还不够高。
发明内容:
本发明的目的在于针对已有技术存在的不足,提供一种改进的文本关键词提取方法,能提高从单篇文本中提取关键词的精度,并能提取同类文本集合中共同领域关键词。
为了达到上述的目的,本发明的构思如下:
本发明就是从分析TF-IDF公式提取关键词的基础上,提出通过篇频修正法提高单篇文本关键词获取精度,通过词频修正法和对比选择法提取同类文本集中共同的领域关键词。
TF-IDF公式的本质就是通过比较,在提取文本中如果一个词的词频越高,而在无关文本中的出现次数越低的话,那么它越有可能成为提取文本中的关键词。但是在 TF-IDF公式中,无论一个关键词在一篇无关文本中出现几次,只要出现了,篇频就要加1,例如“grid”一词在被提取的文本中出现30次,但在10篇无关文本中,每篇只出现了一次,但是此时系统得到的篇频是10,而另一个词“service”也在被提取的文本中出现了30次,但在10篇无关文本中,每篇却出现了20次,此时的篇频也是10。我们可以直观地看到“grid”应该比“service”更像关键词,但是在系统计算的时候两者的值是一样的。为了解决以上问题,本发明提出在导入无关文本时,先对每篇无关文本求词频,把词频为1的词删去,即统计篇频时,只考虑关键词出现次数大于等于2的文本数。
领域关键词是多篇同类单篇文本关键词的交集,传统的TF-IDF关键词提取公式虽然可以取得不错的效果,但是在求文本领域关键词时,可能把属于单篇文章的关键词错认为是领域关键词,例如“SARS”一词是某篇描述网格运用于“SARS”研究方面的文章的关键词,因此在这篇文本中“SARS”一词有很高的词频,而且在无关文本中“SARS”出现的频率很低,在进行文本领域(类)关键词提取时,利用TF-IDF公式计算相对词频时,“SARS”一词就会拥有比较高的权重,系统就会认为它是领域关键词。但是事实上“SARS”的确属于该篇文本的关键词,但是它不可能属于网格这类文本的关键词。所以本发明在进行TF-IDF公式提取领域关键词前,先对词频进行修正。
传统的TF-IDF公式提取领域关键词时,是先把每类中的所有文章合并成一篇文章,在统一计算各词的词频,这样的话就引起了上面的错误,因为只要在一篇文本中一个词的绝对词频偏高的话,那么在这个领域中这个词的绝对词频也就偏高,可能导致最后求得的相对词频也偏高。所谓的词频修正法就是在求文本领域关键词的词频时,先在每篇文本求词频,然后再求出每个词在所有文章中的平均词频,最后把该词在每篇文本中的词频逐一与平均词频进行比较,把大于或小于平均词频一定比例的词频出去,再求该词词频的总和,获得一个最终的词频进行TF-IDF公式的计算。
本发明提出用对比选择法提取领域关键词,所谓的对比选择法就是从文本领域关键词的定义出发,先对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词。共同拥有率指的是在领域关键词提取时,某一单词为单篇文本关键词的次数与所有属于该领域的文本数之比。
根据上述的发明构思,本发明采用下述技术方案:
一种文本关键词提取方法,其特征在于在TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词。
上述的篇频修正法就是去除无关文本集中所有出现频率为1的词,获得一个最终的篇频进行TF-IDF公式提取单篇文本中的关键词;其具体步骤如下:
(1)打开训练文本集中的每一篇无关文档;
(2)对所述无关文档分词、词性标注;
(3)通过“废词”表,提取有意义的实词;所述“废词”表包括一些常用的动词、副词和形容词;
(4)统计所述无关文档中所有实词出现的绝对频率;
(5)删除所述无关文档中绝对词频为1的实词;
(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词。
上述的词频修正法就是在求领域关键词的词频时,先对每篇文本求词频,然后在求出每个词在所有文档中的平均词频,最后把该词在每篇文档中的词频逐一与平均词频进行比较,一定比例地除去大于或小于平均词频的词频,再求该词词频的总和,获得一个最终的词频,对同类文本集合运用TF-IDF公式提取领域关键词;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)统计每一个实词在每篇文档中出现的平均词频;
(5)统计每一个实词在所有文档中的平均词频;
(6)删除超过平均词频一定范围的所在文本中的词频;
(7)求和剩余词频;
(8)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领域关键词。
上述的对比选择法就是提取同类文本集合中共同的领域关键词的方法,先对每篇文本运用TF-IDF公式,求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词,共同拥有率是指:在领域关键词提取时,某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比;其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)预处理(分词、词性标注);
(3)通过“废词”表,提取有意义的实词;
(4)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关键词;
(5)统计所有实词的共同拥有率,所述共同拥有率是指:在领域关键词提取时,某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比;
(6)选择共同拥有率高于设定阈值的关键词为领域关键词。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和优点:本发明在TF-IDF方法提取关键词的基础上,通过篇频修正法、词频修正法和对比选择法提高从单篇文本提取关键词的精度,或提取同类文本集合中共同的领域关键词。本发明的特征在于能有效地避免在无关文档中仅出现一次的关键词被统计到篇频中;通过以一个关键词在所有文档中的平均词频为阈值,去除出现该关键词过大或过小的文档后,得到的绝对词频之和作为修正后的词频,用于提取领域关键词,从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词;通过对每篇文本求出单篇文本的关键词,再通过对比,选出共同拥有率比较高的词,作为领域关键词,从而避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词。该方法可以有效地提高单篇文本的关键词提取精度,或提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。
附图说明:
图1是篇频修正法提取关键词程序流程图。
图2是词频修正法提取关键词程序流程图。
图3是对比选择法提取关键词程序流程图。
具体实施方式:
本发明的一个优选实施例结合附图详述如下:
现有的关键词提取方法是通过TF-IDF公式计算单篇文本中有意义的实词(动词,名词)在文本中的权重,通过降序排列权重筛选单篇文本的关键词。
在TF-IDF公式中,绝对词频,即词在文本中出现的频率。相对词频为归一化的词频(即词的权重),其计算方法是TF-IDF公式,即
W ( t , d → ) = tf ( t , d → ) × log ( N / n t + 0.01 ) Σ t ∈ d → [ tf ( t , d → ) × log ( N / n t + 0.01 ) ] 2
其中 为词t在文本 
Figure DEST_PATH_G200710041150701D00023
中的权重,而 
Figure DEST_PATH_G200710041150701D00024
为词t在文本 
Figure DEST_PATH_G200710041150701D00025
中的绝对词频,N为训练文本的总数,即为无关文本的总数,nt为训练文本集中出现t的文本数,即篇频,分母为归一化因子。
为了提高提取关键词的精度,预先设定了一个“废词”文本,其中包含一些常用的动词、副词和形容词(如:this,that,is等),这些词都不可能是所需的关键词,对于关键词而言,它们都是些“废词”。
对于提取单篇文本的关键词,本实施例的篇频修正法具体流程如图1所示,步骤如下:
S1打开训练文本集中的每一篇无关文档;
S2分词、词性标注;
S3通过“废词”表,提取有意义的实词;
S4统计所有实词出现的绝对频率;
S5删除绝对词频为1的实词;
S6用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词。
对于提取同类文本集共同的领域关键词,本实施例的词频修正法具体流程如图2所示,步骤如下:
S1打开同类文本集中的所有文档;
S2分词、词性标注;
S3通过“废词”表,提取有意义的实词;
S4统计每一个实词出现的平均词频;
S5删除超过平均词频一定范围的所在文本中的词频;
S6求和剩余词频;
S7用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领域关键词。
例如词A在同一类的四篇文章中的词频分别四40,5,10,5,它的平均词频就是15。定义比例为0.8,那么系统就会对词频在15±15*0.8范围内的词频进行求和,那么40将被舍去,最终词A的绝对词频就是20,用这个值来计算最后的相对词频, 提取关键词。
对于提取同类文本集共同的领域关键词,本实施例的对比选择法具体流程如图3所示,步骤如下:
S1打开同类文本集中的所有文档;
S2预处理(分词、词性标注);
S3通过“废词”表,提取有意义的实词;
S4用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关键词;
S5统计所有实词的共同拥有率;
S6选择共同拥有率高于设定阈值的关键词为领域关键词。
例如,一个领域中有10篇文本,关键词A是其中6篇文本的关键词,那么类共同拥有率就是6/10=0.6。

Claims (1)

1.一种文本关键词提取方法,其特征在于在TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词;所述的篇频修正法的具体步骤如下:
(1)打开训练文本集中的每一篇无关文档;
(2)对所述无关文档分词、词性标注;
(3)通过“废词”表,提取有意义的实词;所述“废词”表包括一些常用的动词、副词和形容词;
(4)统计所述无关文档中所有实词出现的绝对频率;
(5)删除所述无关文档中绝对词频为1的实词;
(6)用TF-IDF公式计算单篇文本中的所有实词的权重,从中提取一定比例的关键词;
所述的词频修正法的具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)统计每一个实词在每篇文档中出现的词频;
(5)统计每一个实词在所有文档中的平均词频;
(6)删除超过平均词频一定范围的所在文本中的词频;
(7)求和剩余词频;
(8)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的领域关键词;
所述的对比选择法的其具体步骤如下:
(1)打开同类文本集中的所有文档;
(2)预处理分词、词性标注;
(3)通过“废词”表,提取有意义的实词;
(4)用TF-IDF公式计算同类文本集中的所有实词的权重,从中提取一定比例的关键词;
(5)统计所有实词的共同拥有率,所述共同拥有率是指:在领域关键词提取时,某一关键词在同类文本集合中出现的文本数与该文本集合的文本数之比;
(6)选择共同拥有率高于设定阈值的关键词为领域关键词。
CN2007100411507A 2007-05-24 2007-05-24 文本关键词的提取方法 Expired - Fee Related CN101067808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100411507A CN101067808B (zh) 2007-05-24 2007-05-24 文本关键词的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100411507A CN101067808B (zh) 2007-05-24 2007-05-24 文本关键词的提取方法

Publications (2)

Publication Number Publication Date
CN101067808A CN101067808A (zh) 2007-11-07
CN101067808B true CN101067808B (zh) 2010-12-15

Family

ID=38880371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100411507A Expired - Fee Related CN101067808B (zh) 2007-05-24 2007-05-24 文本关键词的提取方法

Country Status (1)

Country Link
CN (1) CN101067808B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4439562B2 (ja) 2008-02-26 2010-03-24 シャープ株式会社 電子データ検索装置
CN101404036B (zh) * 2008-11-07 2012-09-05 西安交通大学 PowerPoint电子演示文稿的关键词抽取方法
CN101645083B (zh) * 2009-01-16 2012-07-04 中国科学院声学研究所 一种基于概念符号的文本领域的获取系统及方法
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
CN103064838B (zh) * 2011-10-19 2016-03-30 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN102682049B (zh) * 2011-10-31 2014-04-23 天脉聚源(北京)传媒科技有限公司 一种文本的候选关键词的提取方法
CN102629266A (zh) * 2012-03-08 2012-08-08 上海大学 一种基于调和级数的文本图结构表示模型
CN103514213B (zh) * 2012-06-28 2016-12-21 华为技术有限公司 词语提取方法及装置
CN103226546A (zh) * 2013-04-15 2013-07-31 北京邮电大学 一种基于分词和词性分析的后缀树聚类方法
CN103336765B (zh) * 2013-06-20 2016-04-27 上海大学 一种文本关键词的马尔可夫矩阵离线修正方法
CN103530344A (zh) * 2013-10-09 2014-01-22 上海大学 一种基于改进的tf-idf方法的检索词实时修正方法
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN104750704B (zh) * 2013-12-26 2018-06-26 中国移动通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN103744837B (zh) * 2014-01-23 2017-01-04 北京优捷信达信息科技有限公司 基于关键词抽取的多文本对照方法
CN104951430B (zh) * 2014-03-27 2019-03-12 上海携程商务有限公司 产品特征标签的提取方法及装置
CN104298746A (zh) * 2014-10-10 2015-01-21 北京大学 一种基于短语网络图排序的领域文献关键词提取方法
CN105159998A (zh) * 2015-09-08 2015-12-16 海南大学 一种基于文档聚类关键词计算方法
CN105224521B (zh) * 2015-09-28 2018-05-25 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182B (zh) * 2015-09-28 2018-06-26 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN105956031A (zh) * 2016-04-25 2016-09-21 深圳市永兴元科技有限公司 文本分类方法和装置
CN108427686A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 文本数据查询方法及装置
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN109062895B (zh) * 2018-07-23 2022-06-24 挖财网络技术有限公司 一种智能语义处理方法
CN109241525B (zh) * 2018-08-20 2022-05-06 深圳追一科技有限公司 关键词的提取方法、装置和系统
CN109145307B (zh) * 2018-09-12 2022-09-13 广州视源电子科技股份有限公司 用户画像识别方法、推送方法、装置、设备和存储介质
CN110222174B (zh) * 2019-05-20 2020-08-11 北京语言大学 一种基于词条作品热度构建分类分级词表的方法及系统
CN110147433B (zh) * 2019-05-21 2021-01-29 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110968666A (zh) * 2019-11-22 2020-04-07 掌阅科技股份有限公司 基于相似度的标题生成模型的训练方法及计算设备
CN111161819B (zh) * 2019-12-31 2023-06-30 重庆亚德科技股份有限公司 一种中医病历数据处理系统及方法
CN111737553A (zh) * 2020-06-16 2020-10-02 苏州朗动网络科技有限公司 企业关联词的选取方法、设备和存储介质
CN112491649A (zh) * 2020-11-17 2021-03-12 中国平安财产保险股份有限公司 接口联调测试方法、装置、电子设备及存储介质
CN116978384B (zh) * 2023-09-25 2024-01-02 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2844071A1 (fr) * 2002-09-04 2004-03-05 France Telecom Systeme de gestion d'informations en fonction de donnees specifiees dans un agenda electronique
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置
CN1245696C (zh) * 2003-06-13 2006-03-15 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2844071A1 (fr) * 2002-09-04 2004-03-05 France Telecom Systeme de gestion d'informations en fonction de donnees specifiees dans un agenda electronique
CN1245696C (zh) * 2003-06-13 2006-03-15 北京大学计算机科学技术研究所 融合关键词学习的支持向量机文本分类增量训练学习方法
CN1719436A (zh) * 2004-07-09 2006-01-11 中国科学院自动化研究所 一种新的面向文本分类的特征向量权重的方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
卢娇丽,郑家恒.基于成对比较的关键词权重计算与主题词抽取.山西大学学报(自然科学版) 1.2005,(1),29-31.
卢娇丽,郑家恒.基于成对比较的关键词权重计算与主题词抽取.山西大学学报(自然科学版) 1.2005,(1),29-31. *
罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式.计算机应用25 9.2005,25(9),2031-2033.
罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式.计算机应用25 9.2005,25(9),2031-2033. *

Also Published As

Publication number Publication date
CN101067808A (zh) 2007-11-07

Similar Documents

Publication Publication Date Title
CN101067808B (zh) 文本关键词的提取方法
Tixier et al. A graph degeneracy-based approach to keyword extraction
CN103970729B (zh) 一种基于语义类的多主题提取方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN106570144A (zh) 推荐信息的方法和装置
CN103617157A (zh) 基于语义的文本相似度计算方法
CN103885934A (zh) 一种专利文献关键短语自动提取方法
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN101408883A (zh) 一种网络舆情观点收集方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN101609450A (zh) 基于训练集的网页分类方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN102081601B (zh) 一种领域词识别方法和装置
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
US8090720B2 (en) Method for merging document clusters
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN102541910A (zh) 提取关键字的方法
CN105224604A (zh) 一种基于堆优化的微博突发事件检测方法及其检测装置
CN105893380A (zh) 一种改良的文本分类特征选择方法
CN109815499A (zh) 信息关联方法和系统
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
CN103914551A (zh) 一种微博语义信息扩充和特征选取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101215

Termination date: 20150524

EXPY Termination of patent right or utility model