CN109766408A

CN109766408A - 综合词位置因素和词频因素的文本关键词权重计算方法

Info

Publication number: CN109766408A
Application number: CN201811471124.2A
Authority: CN
Inventors: 骆祥峰; 陈雪; 陈光勇; 王鹏; 张惠然; 王小飞; 魏晓
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-05-17

Abstract

本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法，该方法具体步骤如下：(1)打开单篇文本，将其段落进行重新组合形成新文本；(2)对新文本进行预处理，包括分词和去除停用词，余下词作为候选关键词构建候选关键词矩阵；(3)利用调和级数综合词位置因素和词频因素计算每个候选关键词的权重；(4)输出每个候选关键词对应的权重。该方法充分利用文本结构信息，即融合文本中词位置因素和词频因素，能够在不依赖领域文本集的前提下只针对单篇文本对关键词的权重进行计算；该方法比TFIDF和TEXTRANK简便易操作，效果好，并且能够兼具TFIDF和TEXTRANK的功能。

Description

综合词位置因素和词频因素的文本关键词权重计算方法

技术领域

本发明涉及一种综合词位置因素和词频因素的文本关键词权重计算方法，具体是涉及采用调和级数综合词位置因素和词频因素对词的权重进行计算，提高标题及首尾两段的词的权重，并且使得每个词随着词频增加，该词出现位置处的权重减小。

背景技术

目前应用最广的关键词提取算法是向量空间模型。向量空间模型将文本表示成一个权值向量，向量中的每一项均由一个词组成，而每个词的权重由TFIDF方法确定。其中TFIDF方法用词权重公式计算一个词对于文集中的单篇文本的重要程度。TFIDF方法的词权重就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF具体公式如下：TFIDF_i＝TF_i×IDF_i＝TF_i×log(N/n_i)，其中，TF_i为词i的词频，即词i在文本中出现的次数；IDF_i为词i的逆文档频率，它由log(N/n_i)计算；N为文本集的文本总数；n_i为文本集中包含词i的文本数。但是使用向量空间模型结合TFIDF方法对文本进行表示时，存在以下不足：

(1)向量空间模型把文本看成词的集合，把词与词之间的关系看成是独立的，这样就损失了文本段落结构体现出的信息。

(2)TFIDF方法在计算词频时，没有考虑它们所处位置因素对其权重的影响，而单独考虑出现次数或共现次数，并不足以表达其实际权重。

(3)TFIDF方法在计算词的逆文档频率时，需要依赖领域文本集，无法针对单篇的文本，而领域文集的质量和规模对于词权重计算及关键词抽取产生巨大影响。

发明内容

本发明的目的在于针对现有的向量空间模型、TFIDF方法及TEXTRANK的不足，提供一种文本的关键词权重计算方法。该方法利用调和级数综合词位置因素和词频因素对词的权重进行综合计算，并且只针对单篇文本，无需文本的领域知识或领域文本集作为辅助，也无需迭代收敛过程。

为了达到上述的目的，本发明的构思如下：文本中每个词的权重是每次该词出现处的位置权重累加和。处于文本不同位置的同一个词的在每个位置处的权重不同，由该词出现的位置和该词已出现的次数共同决定。比如在标题中出现的词的权重最高，并且在文本中首尾两段总结概括性的句子中出现的词的权重应高于中间段落出现的词。因此本发明采用调和级数综合词位置因素和词频因素对词的权重进行计算，提高标题及首尾两段的词的权重，并且使得每个词随着词频增加，该词出现位置处的权重减小。

根据上述的发明思想，本发明采用下述技术方案：

一种综合词位置因素和词频因素的文本关键词权重计算方法，其特征在于该方法的具体步骤如下：

a.将带计算的文本的段落进行重新组合形成新文本；

b.对步骤a所得新文本进行预处理，即进行分词和去除停用词，余下词作为候选关键词构建候选关键词矩阵；

c.利用调和级数综合词位置因素和词频因素计算步骤b所得的每个候选关键词的权重；

d.输出每个候选关键词对应的权重。

上述步骤a的具体步骤为：原文本的题目作为新文本的第一段；原文本首尾两段分别作为新文本的第二段和第三段；原文本的其他按照原顺序合并成一段，因此新文本共有4段。

上述步骤b的具体步骤为：将构建候选关键词矩阵记为A[i][j]，记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段；j∈[1,n]，j表示每个候选关键词，n为候选关键词的总数。

上述步骤c的具体步骤为：利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重，其计算公式如下：

其中，表示候选关键词j在前三段的权重，表示候选关键词j在第4段的权重。

本发明的文本关键词权重计算方法与现有的技术相比较，具有如下突出优点：在没有领域文本集，无法确定关键词在文本集中的区分能力的情况下，能够通过扫描单篇文本，用关键词的出现次数与出现位置来确定关键词的权重；使用出现次数和位置对关键词权重进行计算，简单且效果好；由于调和级数法中的对数是可扩展的数量级，因此能够兼具TFIDF的功能，而且比TFIDF更加简便。

附图说明

图1是本发明的一种文本的关键词权重计算方法的流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

本实施例以IEEE Transactions on Parallel and Distributed Systems期刊的文章《HRing:A Structured P2P Overlay Based on Harmonic Series》为例。如图1所示，一种文本的表示模型，其步骤如下：

S1.打开单篇文本，将其段落进行重新组合形成新文本。原文本的题目作为新文本的第一段；原文本的首尾两段分别作为新文本的第二段和第三段；原文本的其他按照原顺序合并成一段。因此新文本共有4段。

S2.对新文本进行预处理，包括分词和去除停用词，余下词作为候选关键词，构建候选关键词矩阵A[i][j]记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段。j∈[1,n]表示第j个候选关键词，n为候选关键词的总数。

S3.利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重为

其中，表示候选关键词j在前三段的权重，

表示候选关键词j在第4段的权重。

S4.输出每个候选关键词对应的权重B[j],j∈[1,n]表示第j个候选关键词，n为候选关键词的总数。

Claims

1.一种综合词位置因素和词频因素的文本关键词权重计算方法，其特征在于该方法的具体步骤如下：

a.将带计算的文本的段落进行重新组合形成新文本；

d.输出每个候选关键词对应的权重。

2.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法，其特征在于所述步骤a的具体步骤为：原文本的题目作为新文本的第一段；原文本首尾两段分别作为新文本的第二段和第三段；原文本的其他按照原顺序合并成一段，因此新文本共有4段。

3.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法，其特征在于所述步骤b的具体步骤为：将构建候选关键词矩阵记为A[i][j]，记录每个词出现的在每一段的次数,i∈[0,3],i对应表示新文本的1到4段；j∈[1,n]，j表示每个候选关键词，n为候选关键词的总数。

4.根据权利要求1所述的综合词位置因素和词频因素的文本关键词权重计算方法，其特征在于所述步骤c的具体步骤为：利用调和级数综合词位置因素和词频因素计算每个候选关键词j的权重，其计算公式如下：