CN109766408A - 综合词位置因素和词频因素的文本关键词权重计算方法 - Google Patents
综合词位置因素和词频因素的文本关键词权重计算方法 Download PDFInfo
- Publication number
- CN109766408A CN109766408A CN201811471124.2A CN201811471124A CN109766408A CN 109766408 A CN109766408 A CN 109766408A CN 201811471124 A CN201811471124 A CN 201811471124A CN 109766408 A CN109766408 A CN 109766408A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- weight
- factor
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000005303 weighing Methods 0.000 title abstract 2
- 239000011159 matrix material Substances 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,该方法具体步骤如下:(1)打开单篇文本,将其段落进行重新组合形成新文本;(2)对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;(3)利用调和级数综合词位置因素和词频因素计算每个候选关键词的权重;(4)输出每个候选关键词对应的权重。该方法充分利用文本结构信息,即融合文本中词位置因素和词频因素,能够在不依赖领域文本集的前提下只针对单篇文本对关键词的权重进行计算;该方法比TFIDF和TEXTRANK简便易操作,效果好,并且能够兼具TFIDF和TEXTRANK的功能。
Description
技术领域
本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法,具体是涉及采用调和级数综合词位置因素和词频因素对词的权重进行计算,提高标题及首尾两段的词的权重,并且使得每个词随着词频增加,该词出现位置处的权重减小。
背景技术
目前应用最广的关键词提取算法是向量空间模型。向量空间模型将文本表示成一个权值向量,向量中的每一项均由一个词组成,而每个词的权重由TFIDF方法确定。其中TFIDF方法用词权重公式计算一个词对于文集中的单篇文本的重要程度。TFIDF方法的词权重就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF具体公式如下:TFIDFi=TFi×IDFi=TFi×log(N/ni),其中,TFi为词i的词频,即词i在文本中出现的次数;IDFi为词i的逆文档频率,它由log(N/ni)计算;N为文本集的文本总数;ni为文本集中包含词i的文本数。但是使用向量空间模型结合TFIDF方法对文本进行表示时,存在以下不足:
(1)向量空间模型把文本看成词的集合,把词与词之间的关系看成是独立的,这样就损失了文本段落结构体现出的信息。
(2)TFIDF方法在计算词频时,没有考虑它们所处位置因素对其权重的影响,而单独考虑出现次数或共现次数,并不足以表达其实际权重。
(3)TFIDF方法在计算词的逆文档频率时,需要依赖领域文本集,无法针对单篇的文本,而领域文集的质量和规模对于词权重计算及关键词抽取产生巨大影响。
发明内容
本发明的目的在于针对现有的向量空间模型、TFIDF方法及TEXTRANK的不足,提供一种文本的关键词权重计算方法。该方法利用调和级数综合词位置因素和词频因素对词的权重进行综合计算,并且只针对单篇文本,无需文本的领域知识或领域文本集作为辅助,也无需迭代收敛过程。
为了达到上述的目的,本发明的构思如下:文本中每个词的权重是每次该词出现处的位置权重累加和。处于文本不同位置的同一个词的在每个位置处的权重不同,由该词出现的位置和该词已出现的次数共同决定。比如在标题中出现的词的权重最高,并且在文本中首尾两段总结概括性的句子中出现的词的权重应高于中间段落出现的词。因此本发明采用调和级数综合词位置因素和词频因素对词的权重进行计算,提高标题及首尾两段的词的权重,并且使得每个词随着词频增加,该词出现位置处的权重减小。
根据上述的发明思想,本发明采用下述技术方案:
一种综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于该方法的具体步骤如下:
a.将带计算的文本的段落进行重新组合形成新文本;
b.对步骤a所得新文本进行预处理,即进行分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;
c.利用调和级数综合词位置因素和词频因素计算步骤b所得的每个候选关键词的权重;
d.输出每个候选关键词对应的权重。
上述步骤a的具体步骤为:原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段,因此新文本共有4段。
上述步骤b的具体步骤为:将构建候选关键词矩阵记为A[i][j],记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段;j∈[1,n],j表示每个候选关键词,n为候选关键词的总数。
上述步骤c的具体步骤为:利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重,其计算公式如下:
其中,表示候选关键词j在前三段的权重,表示候选关键词j在第4段的权重。
本发明的文本关键词权重计算方法与现有的技术相比较,具有如下突出优点:在没有领域文本集,无法确定关键词在文本集中的区分能力的情况下,能够通过扫描单篇文本,用关键词的出现次数与出现位置来确定关键词的权重;使用出现次数和位置对关键词权重进行计算,简单且效果好;由于调和级数法中的对数是可扩展的数量级,因此能够兼具TFIDF的功能,而且比TFIDF更加简便。
附图说明
图1是本发明的一种文本的关键词权重计算方法的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
本实施例以IEEE Transactions on Parallel and Distributed Systems期刊的文章《HRing:A Structured P2P Overlay Based on Harmonic Series》为例。如图1所示,一种文本的表示模型,其步骤如下:
S1.打开单篇文本,将其段落进行重新组合形成新文本。原文本的题目作为新文本的第一段;原文本的首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段。因此新文本共有4段。
S2.对新文本进行预处理,包括分词和去除停用词,余下词作为候选关键词,构建候选关键词矩阵A[i][j]记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段。j∈[1,n]表示第j个候选关键词,n为候选关键词的总数。
S3.利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重为
其中,表示候选关键词j在前三段的权重,
表示候选关键词j在第4段的权重。
S4.输出每个候选关键词对应的权重B[j],j∈[1,n]表示第j个候选关键词,n为候选关键词的总数。
Claims (4)
1.一种综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于该方法的具体步骤如下:
a.将带计算的文本的段落进行重新组合形成新文本;
b.对步骤a所得新文本进行预处理,即进行分词和去除停用词,余下词作为候选关键词构建候选关键词矩阵;
c.利用调和级数综合词位置因素和词频因素计算步骤b所得的每个候选关键词的权重;
d.输出每个候选关键词对应的权重。
2.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于所述步骤a的具体步骤为:原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他按照原顺序合并成一段,因此新文本共有4段。
3.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于所述步骤b的具体步骤为:将构建候选关键词矩阵记为A[i][j],记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段;j∈[1,n],j表示每个候选关键词,n为候选关键词的总数。
4.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法,其特征在于所述步骤c的具体步骤为:利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重,其计算公式如下:
其中,表示候选关键词j在前三段的权重,表示候选关键词j在第4段的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811471124.2A CN109766408A (zh) | 2018-12-04 | 2018-12-04 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811471124.2A CN109766408A (zh) | 2018-12-04 | 2018-12-04 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766408A true CN109766408A (zh) | 2019-05-17 |
Family
ID=66451227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811471124.2A Pending CN109766408A (zh) | 2018-12-04 | 2018-12-04 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766408A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457708A (zh) * | 2019-08-16 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 |
CN111104793A (zh) * | 2019-12-19 | 2020-05-05 | 浙江工商大学 | 一种短文本主题确定方法 |
CN111611342A (zh) * | 2020-04-09 | 2020-09-01 | 中南大学 | 一种获取词项段落关联权重的方法和装置 |
CN112256843A (zh) * | 2020-12-22 | 2021-01-22 | 华东交通大学 | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
CN103559310A (zh) * | 2013-11-18 | 2014-02-05 | 广东利为网络科技有限公司 | 一种从文章中提取关键词的方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
-
2018
- 2018-12-04 CN CN201811471124.2A patent/CN109766408A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
CN103559310A (zh) * | 2013-11-18 | 2014-02-05 | 广东利为网络科技有限公司 | 一种从文章中提取关键词的方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
Non-Patent Citations (2)
Title |
---|
陈雪: "A Text Representation Method Based on Harmonic Series", 《2012 IEEE 11TH INTERNATIONAL CONFERENCE ON TRUST,SECURITY AND PRIVACY IN COMPUTING AND COMMUNICATIONS》 * |
高英虎: "面向学术搜索系统的用户需求发现模型", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457708A (zh) * | 2019-08-16 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 |
CN110457708B (zh) * | 2019-08-16 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 |
CN111104793A (zh) * | 2019-12-19 | 2020-05-05 | 浙江工商大学 | 一种短文本主题确定方法 |
CN111611342A (zh) * | 2020-04-09 | 2020-09-01 | 中南大学 | 一种获取词项段落关联权重的方法和装置 |
CN111611342B (zh) * | 2020-04-09 | 2023-04-18 | 中南大学 | 一种获取词项段落关联权重的方法和装置 |
CN112256843A (zh) * | 2020-12-22 | 2021-01-22 | 华东交通大学 | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN102622338B (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN109766408A (zh) | 综合词位置因素和词频因素的文本关键词权重计算方法 | |
CN108710611B (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
KR101717230B1 (ko) | 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN110442726B (zh) | 基于实体约束的社交媒体短文本在线聚类方法 | |
CN108647322A (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
Odeh et al. | Arabic text categorization algorithm using vector evaluation method | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN110597986A (zh) | 一种基于微调特征的文本聚类系统及方法 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN109710762B (zh) | 一种融合多种特征权重的短文本聚类方法 | |
Guo et al. | Multifeature fusion keyword extraction algorithm based on TextRank | |
Wang | Research on the art value and application of art creation based on the emotion analysis of art | |
CN106599304B (zh) | 一种针对中小型网站的模块化用户检索意图建模方法 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
Zhang et al. | Improving entity linking in Chinese domain by sense embedding based on graph clustering | |
CN103678355B (zh) | 文本挖掘方法和文本挖掘装置 | |
Rubtsova | Automatic term extraction for sentiment classification of dynamically updated text collections into three classes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |
|
RJ01 | Rejection of invention patent application after publication |