CN113901804B

CN113901804B - 一种文章关键词提取方法

Info

Publication number: CN113901804B
Application number: CN202111181033.7A
Authority: CN
Inventors: 梁浩晨
Original assignee: Oriental Fortune Information Co ltd
Current assignee: Oriental Fortune Information Co ltd
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2024-08-30
Anticipated expiration: 2041-10-11
Also published as: CN113901804A

Abstract

本发明要解决的技术问题是：单纯的使用关键词算法，得到的权重是统计意义上的关键词重要程度，忽略了文章结构中可以获得的信息。为了解决上述技术问题，本发明的技术方案是提供了一种文章关键词提取方法。本发明可根据具体文章的长度以及所具体采用的现有的关键词提取算法得到的关键词权重分布，动态地决策截断位置，从而兼容不同长度、不同主题多样性的文章，对于任何类型的文章进行词的截取时可以确保无遗漏地剔除低权重的词，能够对是否是关键词做出更为准确的判断。本发明在结合文章结构的基础上，利用标题提升核心关键词权重，更精确地提取关键词，得到的关键词结果更接近文章主题。

Description

一种文章关键词提取方法

技术领域

本发明涉及一种关键词提取方法，属于文本处理技术领域。

背景技术

现有的关键词提取算法先计算对词的权重，随后将词按权重进行排序并进行截取后得到关键词结果。权重的数值范围可以是0到正无穷，进行截取时只取权重最大的几个词作为关键词进行使用，而非全部具有权重的词。常用的截取方案有以下几种：第一种)截取前N个；第二种)截取权重大于一定值的词；第三种)按分位数截取。例如在2020年03月10日公开的、公开号为CN 110874530A的发明专利申请中，其基于词频指数利用预设排序区间来获得关键词集合。

通过关键词算法得到的权重数值没有物理意义，仅可作为在单篇文章中的相对值使用。上述截取方式主要存在以下问题：

为实现上述第一种及第二种截取方式，都需要设定一个固定大小的阈值。对于上述第一种截取方式，需要设定一个固定大小的数量阈值，对于上述第一种截取方式，需要设定一个固定大小的权重阈值。但难以使用同一个阈值设置来兼容不同长度、不同主题丰富度的文本。例如对于一篇股票价格异动的资讯，仅需提取股票名称、股票代码、异动名称(快速上涨、快速下跌等)。但由于此类资讯文本长度极短，目标关键词重复次数少，关键词提取算法计算出的权重最大值通常较低。若为了保证此类资讯可以输出关键词而设置较低的权重阈值，则会导致其他长文本、多主题的文本(如两个行业龙头的对比分析)提取出过多的关键词。同理，若权重阈值太高，则会导致短文本关键词提取无效。

对于上述第三种截取方式，也存在固定分位数配置难以兼容多种文章的问题。例如主题单一的文章可以按90％分位数截取，多主题的文章则需要按70％分位数截取才能不遗漏，而主题丰富度需要借助关键词进行判断。

发明内容

本发明要解决的技术问题是：单纯的使用关键词算法，得到的权重是统计意义上的关键词重要程度，忽略了文章结构中可以获得的信息。

为了解决上述技术问题，本发明的技术方案是提供了一种文章关键词提取方法，其特征在于，包括以下步骤：

步骤1、对文章标题进行分词，去除停用词后，获得各标题候选关键词其对应的权重；

步骤2、对文章正文进行分词，去除停用词后，获得各正文候选关键词其对应的权重；

步骤3、遍历正文候选关键词：若当前正文候选关键词在文章标题中出现过，则提升当前正文候选关键词的权重后，再将当前正文候选关键词及更新后的权重记录到关键词列表；若当前正文候选关键词未在文章标题中出现过，则将当前正文候选关键词及其权重直接记录到关键词列表；

步骤4、遍历标题候选关键词：若当前标题候选关键词已经记录在关键词列表中，则跳过；若当前标题候选关键词未记录在关键词列表中，则调整当前标题候选关键词的权重后，将当前标题候选关键词及其更新后的权重记录到关键词列表；

步骤5、将关键词列表中所记录的所有候选关键词按照权重由大至小进行排序，将每两个相邻的候选关键词作为一对候选关键词，计算每对候选关键词的权重差值；

步骤6、若连续k对候选关键词的权重差值均小于阈值θ，则将关键词列表中第k对候选关键词中最后一个候选关键词所在位置记录为权重截断位置，获得关键词列表从第一个候选关键词开始至权重截断位置的所有候选关键词组成的权重截断关键词集合；

步骤7、依据关键词列表的长度L计算得到截断长度L₁，将关键词列表中候选关键词所在位置与截断长度L₁相对应的位置定义为长度截断位置，获得关键词列表从第一个候选关键词开始至长度截断位置的所有候选关键词组成的长度截断关键词集合；

步骤8、若权重截断关键词集合的长度小于长度截断关键词集合的长度，则将权重截断关键词集合作为最终的关键词集合；

若长度截断关键词集合的长度小于权重截断关键词集合的长度，则将长度截断关键词集合作为最终的关键词集合；

若权重截断关键词集合的长度等于长度截断关键词集合的长度，则将权重截断关键词集合及长度截断关键词集合中的任意一个集合作为最终的关键词集合。

优选地，步骤3中，采用以下公式提升当前正文候选关键词的权重：

W₁＝F×λ×(W_c+W_t×α)

式中，W₁为提升后的当前正文候选关键词的权重，F为当前正文候选关键词在文章标题及正文中出现的次数，λ为大于0小于1的平滑参数，W_c为未提升前的当前正文候选关键词的权重，W_t为当前正文候选关键词作为标题候选关键词的权重，α为大于1的加权倍数。

优选地，步骤4中，采用以下公式调整当前标题候选关键词的权重：

W₂＝W_t×β

式中，W₂为调整后的当前标题候选关键词的权重，W_t为调整前的当前标题候选关键词的权重，β为大于1的加权倍数。

优选地，步骤7中，所述截断长度L₁采用下式计算得到：

式中，表示向下取整，γ为预设的调节参数。

与现有技术相比，本发明具有如下优点：

1)本发明可根据具体文章的长度以及所具体采用的现有的关键词提取算法得到的关键词权重分布，动态地决策截断位置，从而兼容不同长度、不同主题多样性的文章，对于任何类型的文章进行词的截取时可以确保无遗漏地剔除低权重的词，能够对是否是关键词做出更为准确的判断。

2)标题通常是文章主题的高度概括，本发明在结合文章结构的基础上，利用标题提升核心关键词权重，更精确地提取关键词，得到的关键词结果更接近文章主题。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

若有以下短文

标题：“良品铺子：首次回购667万元股份”

正文：“良品铺子公告，公司于7月22日实施了首次回购股份，首次回购股份数量为19.13万股，占公司总股本的比0.05％，成交均价34.89元/股，成交的最高价为35元/股，成交的最低价为34.71元/股，支付的总金额为667.43万元。”

则本实施例公开的一种文章关键词提取方法采用以下步骤提取得到关键词：

步骤1、对短文标题进行分词，得到的各标题候选关键词为“良品铺子/：/首次/回购/667万元/股份”。

利用已有的关键词提取算法计算得到各标题候选关键词的权重如下：

良品铺子:3.9849；回购:3.9849；股份:1.6123。

步骤2、对短文正文进行分词，得到的各正文候选关键词为“良品铺子/公告/，/公司/于/7月/22日/实施/了/首次/回购股份/，/首次/回购股份/数量/为/19.13万股/，/占/公司/总股本/的/比/0.05％/，/成交均价/34.89元///股/，/成交/的/最高价/为/35元///股/，/成交/的/最低价/为/34.71元///股/，/支付/的/总金额/为/667.43万元”。

利用已有的关键词提取算法计算得到各正文候选关键词的权重如下：

成交:1.4943；回购股份:1.4943；金额:0.7472；实施:0.7472；公告:0.7472；良品铺子:0.7472；最高价:0.7472；成交均价:0.7472；最低价:0.5665；公司:0.4379；股本:0.4177；支付:0.3874；数量:0.3308。

步骤3、遍历各正文候选关键词：若当前正文候选关键词在标题中出现过，则依据当前正文候选关键词的词频，提升当前正文候选关键词的权重后，再将当前正文候选关键词及更新后的权重记录到关键词列表；若当前正文候选关键词未在标题中出现过，则将当前正文候选关键词及其权重直接记录到关键词列表。

如“良品铺子”在标题中出现过，其词频为2，则“良品铺子”提升后的权重为26.6989，将“良品铺子”及其权重“26.6989”记录到关键词列表。

如“金额”未在标题中出现过，则直接将“金额”及其权重“0.7472”记录到关键词列表。

步骤4、遍历各标题候选关键词：若当前标题候选关键词已经记录在关键词列表中，则跳过，若当前标题候选关键词未记录在关键词列表中，则调整当前标题候选关键词的权重后，将当前标题候选关键词及其权重记录到关键词列表。

如“良品铺子”已经记录在关键词列表中，则跳过。

如“股份”未记录在关键词列表中，则调整“股份”的权重之后记录到关键词列表。

步骤5、获得的关键词列表内容如下：

良品铺子:26.6989；回购:7.9698；股份:3.2247；回购股份:2.3910；成交:1.4943；最高价:0.7402；金额:0.7472；实施:0.7472；公告:0.7472；成交均价:0.7472；最低价:0.5665；公司:0.4379；股本:0.4177；支付:0.3874；数量:0.3308。

步骤6、假设k＝3以及θ＝1。成交-最高价、最高价-金额、金额-实施，连续3个权重差值小于1，故以“实施”作为最后一个关键词，此位置记为“权重截断位置”，截取到的关键词数量为8个。

步骤7、关键词列表长度L＝15，带入公式计算得到L1＝7，即以“实施”作为最后一个关键词，记为“长度截断位置”，截取到的关键词数量为8个。

由于“长度截断位置”与“权重截断位置”的关键词相等，最终以“实施”作为最后一个关键词，输出结果为：

良品铺子:26.6989；回购:7.9698；股份:3.2247；回购股份:2.3910；成交:1.4943；最高价:0.7402；金额:0.7472。

Claims

1.一种文章关键词提取方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种文章关键词提取方法，其特征在于，步骤3中，采用以下公式提升当前正文候选关键词的权重：

W₁＝F×λ×(W_c+W_t×α)

3.如权利要求1所述的一种文章关键词提取方法，其特征在于，步骤4中，采用以下公式调整当前标题候选关键词的权重：

W₂＝W_t×β

4.如权利要求1所述的一种文章关键词提取方法，其特征在于，步骤7中，所述截断长度L₁采用下式计算得到：

式中，表示向下取整，γ为预设的调节参数。