CN113901804B - 一种文章关键词提取方法 - Google Patents
一种文章关键词提取方法 Download PDFInfo
- Publication number
- CN113901804B CN113901804B CN202111181033.7A CN202111181033A CN113901804B CN 113901804 B CN113901804 B CN 113901804B CN 202111181033 A CN202111181033 A CN 202111181033A CN 113901804 B CN113901804 B CN 113901804B
- Authority
- CN
- China
- Prior art keywords
- keyword
- weight
- candidate
- length
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明要解决的技术问题是:单纯的使用关键词算法,得到的权重是统计意义上的关键词重要程度,忽略了文章结构中可以获得的信息。为了解决上述技术问题,本发明的技术方案是提供了一种文章关键词提取方法。本发明可根据具体文章的长度以及所具体采用的现有的关键词提取算法得到的关键词权重分布,动态地决策截断位置,从而兼容不同长度、不同主题多样性的文章,对于任何类型的文章进行词的截取时可以确保无遗漏地剔除低权重的词,能够对是否是关键词做出更为准确的判断。本发明在结合文章结构的基础上,利用标题提升核心关键词权重,更精确地提取关键词,得到的关键词结果更接近文章主题。
Description
技术领域
本发明涉及一种关键词提取方法,属于文本处理技术领域。
背景技术
现有的关键词提取算法先计算对词的权重,随后将词按权重进行排序并进行截取后得到关键词结果。权重的数值范围可以是0到正无穷,进行截取时只取权重最大的几个词作为关键词进行使用,而非全部具有权重的词。常用的截取方案有以下几种:第一种)截取前N个;第二种)截取权重大于一定值的词;第三种)按分位数截取。例如在2020年03月10日公开的、公开号为CN 110874530A的发明专利申请中,其基于词频指数利用预设排序区间来获得关键词集合。
通过关键词算法得到的权重数值没有物理意义,仅可作为在单篇文章中的相对值使用。上述截取方式主要存在以下问题:
为实现上述第一种及第二种截取方式,都需要设定一个固定大小的阈值。对于上述第一种截取方式,需要设定一个固定大小的数量阈值,对于上述第一种截取方式,需要设定一个固定大小的权重阈值。但难以使用同一个阈值设置来兼容不同长度、不同主题丰富度的文本。例如对于一篇股票价格异动的资讯,仅需提取股票名称、股票代码、异动名称(快速上涨、快速下跌等)。但由于此类资讯文本长度极短,目标关键词重复次数少,关键词提取算法计算出的权重最大值通常较低。若为了保证此类资讯可以输出关键词而设置较低的权重阈值,则会导致其他长文本、多主题的文本(如两个行业龙头的对比分析)提取出过多的关键词。同理,若权重阈值太高,则会导致短文本关键词提取无效。
对于上述第三种截取方式,也存在固定分位数配置难以兼容多种文章的问题。例如主题单一的文章可以按90%分位数截取,多主题的文章则需要按70%分位数截取才能不遗漏,而主题丰富度需要借助关键词进行判断。
发明内容
本发明要解决的技术问题是:单纯的使用关键词算法,得到的权重是统计意义上的关键词重要程度,忽略了文章结构中可以获得的信息。
为了解决上述技术问题,本发明的技术方案是提供了一种文章关键词提取方法,其特征在于,包括以下步骤:
步骤1、对文章标题进行分词,去除停用词后,获得各标题候选关键词其对应的权重;
步骤2、对文章正文进行分词,去除停用词后,获得各正文候选关键词其对应的权重;
步骤3、遍历正文候选关键词:若当前正文候选关键词在文章标题中出现过,则提升当前正文候选关键词的权重后,再将当前正文候选关键词及更新后的权重记录到关键词列表;若当前正文候选关键词未在文章标题中出现过,则将当前正文候选关键词及其权重直接记录到关键词列表;
步骤4、遍历标题候选关键词:若当前标题候选关键词已经记录在关键词列表中,则跳过;若当前标题候选关键词未记录在关键词列表中,则调整当前标题候选关键词的权重后,将当前标题候选关键词及其更新后的权重记录到关键词列表;
步骤5、将关键词列表中所记录的所有候选关键词按照权重由大至小进行排序,将每两个相邻的候选关键词作为一对候选关键词,计算每对候选关键词的权重差值;
步骤6、若连续k对候选关键词的权重差值均小于阈值θ,则将关键词列表中第k对候选关键词中最后一个候选关键词所在位置记录为权重截断位置,获得关键词列表从第一个候选关键词开始至权重截断位置的所有候选关键词组成的权重截断关键词集合;
步骤7、依据关键词列表的长度L计算得到截断长度L1,将关键词列表中候选关键词所在位置与截断长度L1相对应的位置定义为长度截断位置,获得关键词列表从第一个候选关键词开始至长度截断位置的所有候选关键词组成的长度截断关键词集合;
步骤8、若权重截断关键词集合的长度小于长度截断关键词集合的长度,则将权重截断关键词集合作为最终的关键词集合;
若长度截断关键词集合的长度小于权重截断关键词集合的长度,则将长度截断关键词集合作为最终的关键词集合;
若权重截断关键词集合的长度等于长度截断关键词集合的长度,则将权重截断关键词集合及长度截断关键词集合中的任意一个集合作为最终的关键词集合。
优选地,步骤3中,采用以下公式提升当前正文候选关键词的权重:
W1=F×λ×(Wc+Wt×α)
式中,W1为提升后的当前正文候选关键词的权重,F为当前正文候选关键词在文章标题及正文中出现的次数,λ为大于0小于1的平滑参数,Wc为未提升前的当前正文候选关键词的权重,Wt为当前正文候选关键词作为标题候选关键词的权重,α为大于1的加权倍数。
优选地,步骤4中,采用以下公式调整当前标题候选关键词的权重:
W2=Wt×β
式中,W2为调整后的当前标题候选关键词的权重,Wt为调整前的当前标题候选关键词的权重,β为大于1的加权倍数。
优选地,步骤7中,所述截断长度L1采用下式计算得到:
式中,表示向下取整,γ为预设的调节参数。
与现有技术相比,本发明具有如下优点:
1)本发明可根据具体文章的长度以及所具体采用的现有的关键词提取算法得到的关键词权重分布,动态地决策截断位置,从而兼容不同长度、不同主题多样性的文章,对于任何类型的文章进行词的截取时可以确保无遗漏地剔除低权重的词,能够对是否是关键词做出更为准确的判断。
2)标题通常是文章主题的高度概括,本发明在结合文章结构的基础上,利用标题提升核心关键词权重,更精确地提取关键词,得到的关键词结果更接近文章主题。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
若有以下短文
标题:“良品铺子:首次回购667万元股份”
正文:“良品铺子公告,公司于7月22日实施了首次回购股份,首次回购股份数量为19.13万股,占公司总股本的比0.05%,成交均价34.89元/股,成交的最高价为35元/股,成交的最低价为34.71元/股,支付的总金额为667.43万元。”
则本实施例公开的一种文章关键词提取方法采用以下步骤提取得到关键词:
步骤1、对短文标题进行分词,得到的各标题候选关键词为“良品铺子/:/首次/回购/667万元/股份”。
利用已有的关键词提取算法计算得到各标题候选关键词的权重如下:
良品铺子:3.9849;回购:3.9849;股份:1.6123。
步骤2、对短文正文进行分词,得到的各正文候选关键词为“良品铺子/公告/,/公司/于/7月/22日/实施/了/首次/回购股份/,/首次/回购股份/数量/为/19.13万股/,/占/公司/总股本/的/比/0.05%/,/成交均价/34.89元///股/,/成交/的/最高价/为/35元///股/,/成交/的/最低价/为/34.71元///股/,/支付/的/总金额/为/667.43万元”。
利用已有的关键词提取算法计算得到各正文候选关键词的权重如下:
成交:1.4943;回购股份:1.4943;金额:0.7472;实施:0.7472;公告:0.7472;良品铺子:0.7472;最高价:0.7472;成交均价:0.7472;最低价:0.5665;公司:0.4379;股本:0.4177;支付:0.3874;数量:0.3308。
步骤3、遍历各正文候选关键词:若当前正文候选关键词在标题中出现过,则依据当前正文候选关键词的词频,提升当前正文候选关键词的权重后,再将当前正文候选关键词及更新后的权重记录到关键词列表;若当前正文候选关键词未在标题中出现过,则将当前正文候选关键词及其权重直接记录到关键词列表。
如“良品铺子”在标题中出现过,其词频为2,则“良品铺子”提升后的权重为26.6989,将“良品铺子”及其权重“26.6989”记录到关键词列表。
如“金额”未在标题中出现过,则直接将“金额”及其权重“0.7472”记录到关键词列表。
步骤4、遍历各标题候选关键词:若当前标题候选关键词已经记录在关键词列表中,则跳过,若当前标题候选关键词未记录在关键词列表中,则调整当前标题候选关键词的权重后,将当前标题候选关键词及其权重记录到关键词列表。
如“良品铺子”已经记录在关键词列表中,则跳过。
如“股份”未记录在关键词列表中,则调整“股份”的权重之后记录到关键词列表。
步骤5、获得的关键词列表内容如下:
良品铺子:26.6989;回购:7.9698;股份:3.2247;回购股份:2.3910;成交:1.4943;最高价:0.7402;金额:0.7472;实施:0.7472;公告:0.7472;成交均价:0.7472;最低价:0.5665;公司:0.4379;股本:0.4177;支付:0.3874;数量:0.3308。
步骤6、假设k=3以及θ=1。成交-最高价、最高价-金额、金额-实施,连续3个权重差值小于1,故以“实施”作为最后一个关键词,此位置记为“权重截断位置”,截取到的关键词数量为8个。
步骤7、关键词列表长度L=15,带入公式计算得到L1=7,即以“实施”作为最后一个关键词,记为“长度截断位置”,截取到的关键词数量为8个。
由于“长度截断位置”与“权重截断位置”的关键词相等,最终以“实施”作为最后一个关键词,输出结果为:
良品铺子:26.6989;回购:7.9698;股份:3.2247;回购股份:2.3910;成交:1.4943;最高价:0.7402;金额:0.7472。
Claims (4)
1.一种文章关键词提取方法,其特征在于,包括以下步骤:
步骤1、对文章标题进行分词,去除停用词后,获得各标题候选关键词其对应的权重;
步骤2、对文章正文进行分词,去除停用词后,获得各正文候选关键词其对应的权重;
步骤3、遍历正文候选关键词:若当前正文候选关键词在文章标题中出现过,则提升当前正文候选关键词的权重后,再将当前正文候选关键词及更新后的权重记录到关键词列表;若当前正文候选关键词未在文章标题中出现过,则将当前正文候选关键词及其权重直接记录到关键词列表;
步骤4、遍历标题候选关键词:若当前标题候选关键词已经记录在关键词列表中,则跳过;若当前标题候选关键词未记录在关键词列表中,则调整当前标题候选关键词的权重后,将当前标题候选关键词及其更新后的权重记录到关键词列表;
步骤5、将关键词列表中所记录的所有候选关键词按照权重由大至小进行排序,将每两个相邻的候选关键词作为一对候选关键词,计算每对候选关键词的权重差值;
步骤6、若连续k对候选关键词的权重差值均小于阈值θ,则将关键词列表中第k对候选关键词中最后一个候选关键词所在位置记录为权重截断位置,获得关键词列表从第一个候选关键词开始至权重截断位置的所有候选关键词组成的权重截断关键词集合;
步骤7、依据关键词列表的长度L计算得到截断长度L1,将关键词列表中候选关键词所在位置与截断长度L1相对应的位置定义为长度截断位置,获得关键词列表从第一个候选关键词开始至长度截断位置的所有候选关键词组成的长度截断关键词集合;
步骤8、若权重截断关键词集合的长度小于长度截断关键词集合的长度,则将权重截断关键词集合作为最终的关键词集合;
若长度截断关键词集合的长度小于权重截断关键词集合的长度,则将长度截断关键词集合作为最终的关键词集合;
若权重截断关键词集合的长度等于长度截断关键词集合的长度,则将权重截断关键词集合及长度截断关键词集合中的任意一个集合作为最终的关键词集合。
2.如权利要求1所述的一种文章关键词提取方法,其特征在于,步骤3中,采用以下公式提升当前正文候选关键词的权重:
W1=F×λ×(Wc+Wt×α)
式中,W1为提升后的当前正文候选关键词的权重,F为当前正文候选关键词在文章标题及正文中出现的次数,λ为大于0小于1的平滑参数,Wc为未提升前的当前正文候选关键词的权重,Wt为当前正文候选关键词作为标题候选关键词的权重,α为大于1的加权倍数。
3.如权利要求1所述的一种文章关键词提取方法,其特征在于,步骤4中,采用以下公式调整当前标题候选关键词的权重:
W2=Wt×β
式中,W2为调整后的当前标题候选关键词的权重,Wt为调整前的当前标题候选关键词的权重,β为大于1的加权倍数。
4.如权利要求1所述的一种文章关键词提取方法,其特征在于,步骤7中,所述截断长度L1采用下式计算得到:
式中,表示向下取整,γ为预设的调节参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111181033.7A CN113901804B (zh) | 2021-10-11 | 2021-10-11 | 一种文章关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111181033.7A CN113901804B (zh) | 2021-10-11 | 2021-10-11 | 一种文章关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113901804A CN113901804A (zh) | 2022-01-07 |
CN113901804B true CN113901804B (zh) | 2024-08-30 |
Family
ID=79191242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111181033.7A Active CN113901804B (zh) | 2021-10-11 | 2021-10-11 | 一种文章关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901804B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577671A (zh) * | 2017-09-19 | 2018-01-12 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667940B (zh) * | 2020-10-15 | 2022-02-18 | 广东电子工业研究院有限公司 | 基于深度学习的网页正文抽取方法 |
-
2021
- 2021-10-11 CN CN202111181033.7A patent/CN113901804B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577671A (zh) * | 2017-09-19 | 2018-01-12 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113901804A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106846041A (zh) | 优惠券的发放方法及系统 | |
CN102542474A (zh) | 查询结果排序方法及装置 | |
CN106776660A (zh) | 一种信息推荐方法及装置 | |
CN107180093A (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
JP4888038B2 (ja) | 時間種特性生成システム、時間種特性生成方法および時間種特性生成プログラム | |
CN103309894B (zh) | 基于用户属性的搜索实现方法及系统 | |
CN103390027A (zh) | 一种互联网广告反作弊方法和系统 | |
CN109936857B (zh) | 一种无线感知度智能识别方法 | |
CN113901804B (zh) | 一种文章关键词提取方法 | |
CN109993380A (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
CN112101807A (zh) | 一种电信行业集团客户价值综合评估的方法及相关装置 | |
CN107133818B (zh) | 一种互联网中在线广告的结算方法及结算系统 | |
CN106484671B (zh) | 一种时效性查询内容的识别方法 | |
CN115935061A (zh) | 一种基于大数据分析的专利评估系统及评估方法 | |
CN1388947A (zh) | 字符识别系统 | |
CN113133035A (zh) | 一种lte高负荷小区甄别方法及系统 | |
CN117541322B (zh) | 一种基于大数据分析的广告内容智能生成方法及系统 | |
CN101625693A (zh) | 一种网文统计的方法及系统 | |
CN105677813A (zh) | 一种信息展示方法及装置 | |
AU2019101198A4 (en) | A statistical analysis method of mobile telecom data driven user loss prediction | |
US20110173079A1 (en) | Bidding management method and system using bidding attribute information | |
CN112365333B (zh) | 实时动态流量分配方法、系统、电子设备及存储介质 | |
CN111080448B (zh) | 一种基于会话的意图分析方法 | |
CN114140170A (zh) | 一种基于用户偏好的智能推荐系统 | |
CN103107936B (zh) | 一种发送信息的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |