CN102629266A - 一种基于调和级数的文本图结构表示模型 - Google Patents
一种基于调和级数的文本图结构表示模型 Download PDFInfo
- Publication number
- CN102629266A CN102629266A CN2012100594049A CN201210059404A CN102629266A CN 102629266 A CN102629266 A CN 102629266A CN 2012100594049 A CN2012100594049 A CN 2012100594049A CN 201210059404 A CN201210059404 A CN 201210059404A CN 102629266 A CN102629266 A CN 102629266A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text
- harmonic progression
- keywords
- graph structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于调和级数的文本图结构表示模型。该方法具体步骤如下:(1)打开领域文集中的单篇文本;(2)将文本内容按照重要性程度由大到小重新排列;(3)对文本进行分词并保留标点符号;(4)统计关键词和关键词对的出现次数;(5)以关键词为图的节点,将共现次数不为0的关键词对进行连接;(6)使用调和级数法对关键词和关键词对的权重进行计算。该方法避免文本结构信息的缺失,并同时能够针对单篇文本的结构信息对关键词和关键词对的权重进行计算;该方法简便易操作,效果好,并且能够兼具TFIDF的功能。
Description
技术领域
本发明涉及一种文本的表示模型,具体是涉及采用图结构对文本进行表示,使用调和级数对关键词和关键词对进行权重计算的模型,是一种基于调和级数的文本图结构表示模型。
背景技术
人类善于处理非结构化文本,因为非结构化文本符合人类语言表达习惯,更重要的是人类具有很强的逻辑推理能力。而机器则善于处理结构化文本,例如图和表。人机交互时,必然需要将人类可理解的非结构化文本转化为机器可理解的结构化文本,这就需要文本表示模型。
目前应用最广的文本表示模型是向量空间模型。向量空间模型将文本表示成一个权值向量,向量中的每一项均由词项组成,而每个词项的权重由TFIDF方法确定。其中TFIDF方法用词项权重公式计算一个词项对于文集中的单篇文本的重要程度。TFIDF方法的词项权重就是词频TF(Term Frequency)与逆文档频率IDF(Inverse Document Frequency)的乘积。TFIDF具体公式如下:
其中,TFi为词项i的词频,即词项i在文本中出现的次数;IDFi为词项i的逆文档频率,它由log(N/ni)计算;N为文本集的文本总数;ni为文本集中包含词项i的文本数。
但是使用向量空间模型结合TFIDF方法对文本进行表示时,存在以下不足:
(1)向量空间模型把文本看成词项的集合,把词项与词项之间的关系看成是独立的,这样就损失了大量的文本结构信息。
(2)TFIDF方法在计算词项的词频时,没有考虑它们所处位置因素对它们权重的影响,而单独考虑出现次数或共现次数,并不足以表达其实际权重。
(3)TFIDF方法在计算词项的逆文档频率时,需要基于领域的文本集,而无法针对单篇的文本。
发明内容
本发明的目的在于针对向量空间模型与TFIDF方法的不足,提供一种基于调和级数的文本图结构表示模型,该模型能够避免文本结构信息的缺失,并同时能够针对单篇文本的结构信息对关键词和关键词对的权重进行计算。
为了达到上述的目的,本发明的构思如下:采用图结构模型对单篇文本进行表示,避免文本结构信息的缺失,并同时能够针对单篇文本的结构信息对关键词和关键词对的权重进行计算;所述的图结构模型是:使用图结构对文本的关键词及其之间的关系进行组织,再通过调和级数法进行权重的计算。
根据上述的发明思想,本发明采用下述技术方案:
一种基于调和级数的文本图结构表示模型,其特征在于,其具体步骤如下:
(1)打开领域文集中的单篇文本;
(2)将文本内容按照重要性程度由大到小重新排列;
(3)对文本进行分词并保留标点符号;
(4)统计关键词和关键词对的出现次数;
(5)以关键词为图的节点,将共现次数不为0的关键词对进行连接;
(6)使用调和级数法对关键词和关键词对的权重进行计算.
所述的调和级数法,记为HP,其关键词和关键词对权重计算式如下:
本发明的一种基于调和级数的文本图结构表示模型与现有的技术相比较,具有如下突出特点和优点:在没有领域文本集,无法确定关键词在文本集中的区分能力的情况下,能够通过扫描单篇文本,用关键词的出现次数与出现位置来确定关键词的权重;虽然只使用出现次数对权重进行评价,但是简便易操作,而且效果好;由于调和级数法中的对数是可扩展的数量级,因此能够兼具TFIDF的功能,而且更加简便。
附图说明
图1是本发明的一种基于调和级数的文本图结构表示模型的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
实施例一:参见图1,本基于调和级数的文本图结构表示模型,其特征在于:采用图结构模型对单篇文本进行表示,其中使用调和级数法对关键词和关键词对的权重进行计算;
所述的图结构模型就是将文本的关键词根据关键词对在同一个句子中的共现关系建立连接关系;
所述的调和级数法,其关键词和关键词对权重计算式如下:
实施例二:本基于调和级数的文本图结构表示模型,从TKDE的2011年到2012年的70篇论文进行文本的表示。如图1所示,本实施例的一种基于调和级数的文本图结构表示模型,其步骤如下:
S1. 打开领域文集中的单篇文本,例如,打开2011年24卷第1期中的单篇论文;
S2. 将文本内容按照重要性程度由大到小重新排列,例如,按照标题、摘要、引言和总结顺序进行重新排列;
S3. 对文本进行分词并保留标点符号,例如,保留句点。
S4. 统计关键词和关键词对的出现次数,记为n。
S5. 以关键词为图的节点,将共现次数不为0的关键词对进行连接。
S6. 使用调和级数法对关键词和关键词对的权重进行计算;调和级数法公式,记为HP,其关键词和关键词对权重计算式如下:
Claims (2)
1.一种基于调和级数的文本图结构表示模型,其特征在于:采用图结构模型对单篇文本进行表示,其中使用调和级数法对关键词和关键词对的权重进行计算;所述的图结构模型就是将文本的关键词根据关键词对在同一个句子中的共现关系建立连接关系;其具体步骤如下:
打开领域文集中的单篇文本;
将文本内容按照重要性程度由大到小重新排列;
对文本进行分词并保留标点符号;
统计关键词和关键词对的出现次数;
以关键词为图的节点,将共现次数不为0的关键词对进行连接;
使用调和级数法对关键词和关键词对的权重进行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100594049A CN102629266A (zh) | 2012-03-08 | 2012-03-08 | 一种基于调和级数的文本图结构表示模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100594049A CN102629266A (zh) | 2012-03-08 | 2012-03-08 | 一种基于调和级数的文本图结构表示模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102629266A true CN102629266A (zh) | 2012-08-08 |
Family
ID=46587526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012100594049A Pending CN102629266A (zh) | 2012-03-08 | 2012-03-08 | 一种基于调和级数的文本图结构表示模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102629266A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN109766408A (zh) * | 2018-12-04 | 2019-05-17 | 上海大学 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
CN114328900A (zh) * | 2022-03-14 | 2022-04-12 | 深圳格隆汇信息科技有限公司 | 一种基于关键词的资讯摘要提取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020111941A1 (en) * | 2000-12-19 | 2002-08-15 | Xerox Corporation | Apparatus and method for information retrieval |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
-
2012
- 2012-03-08 CN CN2012100594049A patent/CN102629266A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020111941A1 (en) * | 2000-12-19 | 2002-08-15 | Xerox Corporation | Apparatus and method for information retrieval |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
Non-Patent Citations (1)
Title |
---|
刘巧凤: "基于图结构的中文文本聚类方法研究", 《万方硕士学位论文》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744835A (zh) * | 2014-01-02 | 2014-04-23 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN103744835B (zh) * | 2014-01-02 | 2016-12-07 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
CN109766408A (zh) * | 2018-12-04 | 2019-05-17 | 上海大学 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
CN114328900A (zh) * | 2022-03-14 | 2022-04-12 | 深圳格隆汇信息科技有限公司 | 一种基于关键词的资讯摘要提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101067808B (zh) | 文本关键词的提取方法 | |
Rychlý | A Lexicographer-Friendly Association Score. | |
CN103207905B (zh) | 一种基于目标文本的计算文本相似度的方法 | |
CN109471933A (zh) | 一种文本摘要的生成方法、存储介质和服务器 | |
CN103514213B (zh) | 词语提取方法及装置 | |
CN104199846B (zh) | 基于维基百科的评论主题词聚类方法 | |
CN102955857A (zh) | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 | |
CN109376352A (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN102096703A (zh) | 短消息的过滤方法和设备 | |
CN102411564A (zh) | 一种电子作业抄袭检测方法 | |
CN102693279A (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN103530316B (zh) | 一种基于多视图学习的科学主题提取方法 | |
Lalji et al. | Twitter sentiment analysis using hybrid approach | |
CN102629266A (zh) | 一种基于调和级数的文本图结构表示模型 | |
CN104572736A (zh) | 基于社交网络的关键词提取方法及装置 | |
Pande et al. | Application of natural language processing tools in stemming | |
CN104951430A (zh) | 产品特征标签的提取方法及装置 | |
CN102779119A (zh) | 一种抽取关键词的方法及装置 | |
CN109766408A (zh) | 综合词位置因素和词频因素的文本关键词权重计算方法 | |
CN102591976A (zh) | 基于句子级别的文本特征提取方法和文档拷贝检测系统 | |
Gupta et al. | Improving unsupervised stemming by using partial lemmatization coupled with data-based heuristics for Hindi | |
CN104035969A (zh) | 社交网络中的特征词库构建方法和系统 | |
JP5364010B2 (ja) | 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法 | |
Rouces et al. | Defining a Gold Standard for a Swedish Sentiment Lexicon: Towards Higher-Yield Text Mining in the Digital Humanities. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120808 |