CN107992633A - 基于关键词特征的电子文档自动分类方法及系统 - Google Patents
基于关键词特征的电子文档自动分类方法及系统 Download PDFInfo
- Publication number
- CN107992633A CN107992633A CN201810017865.7A CN201810017865A CN107992633A CN 107992633 A CN107992633 A CN 107992633A CN 201810017865 A CN201810017865 A CN 201810017865A CN 107992633 A CN107992633 A CN 107992633A
- Authority
- CN
- China
- Prior art keywords
- document
- vocabulary
- classification
- grader
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims description 21
- 239000000463 material Substances 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 7
- 239000000203 mixture Substances 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词特征的电子文档自动分类方法及系统,该方法提出通过构建企业的领域词汇表,采用企业级搜索引擎对分类语料库进行逐个词汇搜索,计算词汇与文档的相关度,将所有文档特征化为相关度最大的前100个关键词的相关度组成的特征向量,基于训练集文档的特征向量利用不同的机器学习算法构建分类器,利用测试集文档对构建的分类器进行评估,最终选择最优的分类器进行部署应用,调用最优分类器的接口对新增的文档进行自动分类。本发明结合企业电子文档特点,采用关键词为特征,能够显著减少生成的特征向量中的无关信息,大大减少了特征向量的维度,提升了特征抽取阶段对文档重要语义的保留,提升了企业电子文档的自动分类效果。
Description
技术领域
本发明涉及信息技术领域,具体涉及一种基于关键词特征的电子文档自动分类方法及系统。
背景技术
文档自动分类主流技术有两种。一种是“知识工程”方法(或者称为“规则法”),是指由专业人员为每个类别定义大量的推理规则,如果一篇文档能满足某个推理规则,则可以判定为该文档属于对应的类别。知识工程方法有比较明显的缺点,包括:分类的质量依赖于规则的好坏,而规则需要大量的专业人员进行规则的制定,人工投入大且质量不稳定;不同的领域需要构建完全不同的分类系统,重复工作较多,不具备可推广。所以在企业中,这种文档自动分类方法较少被大规模应用。第二种是 “机器学习”方法。机器学习技术以统计理论为基础,利用算法对事先准备好分类语料(包括多个人工设定的类别,每一个类别都关联了多份属于该类别的典型文档)做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类。由于机器学习方法在文本分类领域有着良好的实际表现,已经成为了该领域的主流。
机器学习算法需要对文档进行特征提取,通常将“词”选择为文档的特征。利用“中文分词”技术,将文档表示为一系列词。将语料库中的所有文档分词组成一个“词典”;针对特定的文档构建向量的过程如下:从字典的第一个词开始判断,如果文档中包含词典该位置对应的分词,则在向量的相关位置标记为1,否则标记为0,那么一个文档就可以表示为维度等于“字典总词数”、并用0和1两个数字构成的特征向量,如图1所示。在将文档内容转换为一系列分词及特征向量表示后,丢失了“大量的语义信息”。为了提升后续的算法预测质量,可以采用一系列称为“特征优化”的方法,具体的算法较多,有期望交叉熵方法、信息增益方法等。比较典型且常用的方法是TF-IDF算法,即TF方法(词频法)和IDF方法(逆文档频次法),经过TF-IDF处理后,特征向量就不再是以0和1两个数字构成,而是体现每个词权重的、在0到1之间的任何实数,如图2所示。
上述方法将文档转换为数学向量时,存在较多的语义信息丢失——把连续的文档变成上下文无关的一系列“分词”,并且仅依靠“词频”等要素对分词权重进行一定的调整。这在通用的文档分类中是可取的,因为“通用”意味着很难利用文档的个性化特点进行更优的 “特征提取”。传统的自动化文档关键词提取方法,主要着眼于文档内容本身,利用候选关键词的统计性质,如TF-IDF算法等,根据“词频”和“逆文档概率”,在分词的基础上,选择本文档中出现最频繁、且在其它文档中出现较少的分词作为关键词,但在后续的分类应用上效果往往不好。一方面是因为在主流的机器学习分类方法的特征提取阶段,也可以采用TF-IDF等算法调整分词权重达到类似效果,另一方面,有一些对主题有很强相关的关键词在文档中并没有明确提及(如以不同形式对该词进行了表述),这导致基于分词的关键词提取在相关性上存在天然不足。
发明内容
针对现有技术的不足,本发明提出一种基于关键词特征的电子文档自动分类方法及系统,基于企业文档的特点对文档特征提取进行优化,显著减少最终生成的特征向量中的无关信息,提升企业电子文档的自动分类效果。
为实现上述目的,本发明的技术方案是:一种基于关键词特征的电子文档自动分类方法,包括:
步骤S1:准备分类语料库即企业电子文档目标分类体系和对应类别的文档集合,将语料库分成训练集和测试集;
步骤S2:构建本企业的领域词汇表;
步骤S3:采用企业级搜索引擎,将领域词汇表中的词汇作为搜索词,对整个语料库进行逐个搜索词搜索;
步骤S4:将与文档相关度最高的前100个词汇作为文档的关键词;
步骤S5:所有文档特征化为由100个关键词的相关度组成的特征向量;
步骤S6:基于训练集文档的特征向量利用不同的机器学习算法构建分类器;
步骤S7:利用测试集文档对构建的分类器进行评估,根据分类器的正确率和召回率选择最优的分类器;
步骤S8:将最优的分类器在生产系统中部署,调用最优分类器的接口对新增的文档进行自动分类。
进一步地,随机选取语料库的80%文档作为训练集,20%文档作为训练集。
进一步地,从企业的正规文档素材中,包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档,通过分词技术发现海量词汇,对发现的海量词汇进行优先删除业务特色不明显的词汇,最终形成一个领域词汇表。
进一步地,所述企业级搜索引擎采用基于开源的ElasticSearch全文检索工具。
进一步地,所述步骤S4具体包括:
步骤S41:对领域词汇表中的每一个词汇执行搜索,获得文档在搜索结果中的排名:
步骤S42:计算词汇与该文档的相关度R:
R=1-n/m,其中,n为该文档在搜索结果中的排名,m为总文档数;
步骤S43:根据相关度从高到低排名,获得文档最相关的前100个词汇作为该文档的关键词。
进一步地,所述机器学习算法包括:朴素贝叶斯算法、决策树算法、KNN最近邻算法、中心向量算法和支持向量机算法。
进一步地,所述正确率和召回率采用以下公式计算:
p = a / (a + b) * 100%
r = a / (a + c) * 100%
其中,a表示将输入的测试集文档正确分类到某个类别的个数,b表示分类器将输入的测试集文档错误分类到某个类别的个数,c表示分类器将输入的测试集文档错误地排除在某个类别之外的个数;d表示分类器将输入的测试集文档正确地排除在某个类别之外的个数。
一种基于关键词特征的电子文档自动分类系统,包括:数据存储模块、领域词汇管理模块、文档预处理模块、搜索引擎模块、特征提取模块、文档分类模块和分类优选模块;
所述数据存储模块,用于存储文档数据库、关系数据库;文档数据库是根据企业电子文档特点准备的分类语料库,包括训练集和测试集;
所述领域词汇管理模块,用于从企业的正规文档素材中,包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档,通过分词技术发现海量词汇,对发现的海量词汇进行优先删除业务特色不明显的词汇,构建本企业的领域词汇表;
所述文档预处理模块,用于从文档数据库的不同格式文档中抽取文本;
所述搜索引擎模块,用于将领域词汇表中的词汇作为搜索词,对整个文档数据库中的文档进行逐个搜索词搜索;
所述特征提取模块,用于获取与文档相关度最高的前100个词汇作为文档的关键词,将所有文档特征化为由100个关键词的相关度组成的特征向量;
所述文档分类模块,用于提供不同的机器学习算法,基于训练集文档的特征向量构建分类器;
所述分类优选模块,用于利用测试集文档对构建的分类器进行评估,根据分类器的正确率和召回率选择最优的分类器。
进一步地,所述特征提取模块,根据搜索引擎模块的搜索结果计算词汇与文档的相关度R:
R=1-n/m,其中,n为文档在搜索结果中的排名,m为总文档数。
进一步地,所述搜索引擎模块采用基于开源的ElasticSearch全文检索工具。
与现有技术相比,本发明具有有益效果:采用文档关键词作为文档特征,大大减少了特征向量的维度,并且关键词能涵盖到文本的主要语义信息,大大减少在分类模型构建阶段对算法的“干扰”,从而提高分类性能。
附图说明
图1是现有技术中基于文档分词的特征化表示;
图2是现有技术中经过特征优化的文档特征向量;
图3是本发明基于关键词特征的电子文档自动分类方法示意图;
图4是本发明一实施例获取文档关键词的流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
企业电子文档,泛指在企业中常用的各类文书(请示、通知、函、报告、会议纪要)、报告、方案,等。当前,企业中流程越来越多地运行在线上,大量的业务运行信息以电子文档的形式存在。不同于互联网中由各类用户产生的“文档”(如论坛帖子、博客、微博,等),由于企业电子文档通常承载着具体的业务信息,通常具有主题突出、文风朴实、结构紧凑等特点。特别是企业电子文档所具备的以下两个特点,可以在自动分类过程中加以应用,提升自动分类效果:
1)文章主题性强。通篇公文通常都围绕一个显著的主题进行内容阐述。如一份“新闻稿”通常围绕某个事件进行过程和总结性说明;一份“运维案例”,则讲述的通常是针对某个特定故障及其解决过程的总结。
2)文档中有更多的领域语言。领域语言是指只在某个特定的业务领域广泛使用的词组和表达方式,包括术语、专业词汇、习惯性表达等。
如图3所示,一种基于关键词特征的电子文档自动分类方法,包括:
步骤S1:准备分类语料库即企业电子文档目标分类体系和对应类别的文档集合,将语料库分成训练集和测试集;
步骤S2:构建本企业的领域词汇表;
步骤S3:采用企业级搜索引擎,将领域词汇表中的词汇作为搜索词,对整个语料库进行逐个搜索词搜索;
步骤S4:将与文档相关度最高的前100个词汇作为文档的关键词;
步骤S5:所有文档特征化为由100个关键词的相关度组成的特征向量;
步骤S6:基于训练集文档的特征向量利用不同的机器学习算法构建分类器;
步骤S7:利用测试集文档对构建的分类器进行评估,根据分类器的正确率和召回率选择最优的分类器;
步骤S8:将最优的分类器在生产系统中部署,调用最优分类器的接口对新增的文档进行自动分类。
在本实施例中,随机选取语料库的80%文档作为训练集,20%文档作为训练集。
关键词要能涵盖文档的主要语义,主要有两方面的要求:
1)相关性(relevance)。既关键词必须与文档主题相关。例如,一份运维工单“ERP系统网络服务中断故障排查及解决”文档,其中可能只顺带提到“变电站维修”这个短语,这时就不希望这个短语被选取作为文档关键词,因为可能对后续的文档分类照成很大干扰。
2)覆盖度(coverage)。关键词要能够对文档的主题有较好的覆盖,不能只集中在文档某个主题而忽略了文档其他主题。
在本实施例中,从企业的正规文档素材中,包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档,通过分词技术发现海量词汇,对发现的海量词汇进行优先删除业务特色不明显的词汇,最终形成一个领域词汇表,一般是10万规模级别。
在本实施例中,所述企业级搜索引擎采用基于开源的ElasticSearch全文检索工具。
如图4所示,所述步骤S4具体包括:
步骤S41:对领域词汇表中的每一个词汇执行搜索,获得文档在搜索结果中的排名:
步骤S42:计算词汇与该文档的相关度R:
R=1-n/m,其中,n为该文档在搜索结果中的排名,m为总文档数;
步骤S43:根据相关度从高到低排名,获得文档最相关的前100个词汇作为该文档的关键词。
在本实施例中,所述机器学习算法包括:朴素贝叶斯算法、决策树算法、KNN最近邻算法、中心向量算法和支持向量机算法。
在本实施例中,分类的效果评估基于两个指标,分别是正确率和召回率,采用以下公式计算:
p = a / (a + b) * 100%
r = a / (a + c) * 100%
其中,a表示将输入的测试集文档正确分类到某个类别的个数,b表示分类器将输入的测试集文档错误分类到某个类别的个数,c表示分类器将输入的测试集文档错误地排除在某个类别之外的个数;d表示分类器将输入的测试集文档正确地排除在某个类别之外的个数。
正确率是评价分类器找到的属于某个分类的文档是否正确的指标,而召回率是评价分类器在发现属于该分类文档过程中是否存在“遗漏”的指标。两个指标值均为越高越好,特别是当正确率和召回率都为100%时,表示该分类器发现了所有属于特定分类的文档(没有遗漏),并且发现的文档全部都是属于该分类(全部正确);故,在实际过程中,可以结合业务目标基于上述两个数值对分类器效果进行评价。例如:业务要求分类器尽可能找到所有该分类的文档,并可以接受找到的文档有部分是不属于该分类的(宁可错杀,绝不放过),则可以加大“召回率”指标的评价权重。
构建分类器、分类效果评估是一个迭代的过程,直到找到符合指标要求的分类器为止。
在某电力公司运维案例的自动化分类实验中,基于本发明方法构建的分类器效果得到了较大提升,企业电子文档自动分类模型运行效果具体如表1所示:
表1
特征类型 | 准确率(%) | 召回率(%) |
文档分词(现有技术) | 82.4% | 77.3% |
文档关键词(本发明) | 85.1% | 86.9% |
一种基于关键词特征的电子文档自动分类系统,包括:数据存储模块、领域词汇管理模块、文档预处理模块、搜索引擎模块、特征提取模块、文档分类模块和分类优选模块;
所述数据存储模块,用于存储文档数据库、关系数据库;文档数据库是根据企业电子文档特点准备的分类语料库,包括训练集和测试集;
所述领域词汇管理模块,用于从企业的正规文档素材中,包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档,通过分词技术发现海量词汇,对发现的海量词汇进行优先删除业务特色不明显的词汇,构建本企业的领域词汇表;
所述文档预处理模块,用于从文档数据库的不同格式文档中抽取文本;
所述搜索引擎模块,用于将领域词汇表中的词汇作为搜索词,对整个文档数据库中的文档进行逐个搜索词搜索;
所述特征提取模块,用于获取与文档相关度最高的前100个词汇作为文档的关键词,将所有文档特征化为由100个关键词的相关度组成的特征向量;
所述文档分类模块,用于提供不同的机器学习算法,基于训练集文档的特征向量构建分类器;
所述分类优选模块,用于利用测试集文档对构建的分类器进行评估,根据分类器的正确率和召回率选择最优的分类器。
在本实施例中,所述特征提取模块,根据搜索引擎模块的搜索结果计算词汇与文档的相关度R:
R=1-n/m,其中,n为文档在搜索结果中的排名,m为总文档数。
在本实施例中,所述搜索引擎模块采用基于开源的ElasticSearch全文检索工具。
在实际应用中,系统可分为三个层次,1)基础设施层
主要包括数据存储(关系数据库、文档数据库)及用于关键词与文档相关性计算的全文检索引擎(采用开源软件ElasticSearch);
2)服务层
是系统的核心层次,实现了电子文档分类系统的核心服务。包括文档预处理模块:提供从不同格式文档中抽取文本的“文档流抽取”功能、“分词提取”功能和本发明提出的“关键词提取”功能;文档分类模块:提供各类机器学习分类算法库,分类效果的评估功能,以及将分类模型持久化存储并最终部署应用的模型部署功能;辅助工具模块:提供自动化与人工结合的语料标注工具,以及领域词汇标记工具;
3)界面层。
提供各类系统用户使用的交互界面。包括几个主要界面模块,分别是:语料管理、词汇管理、文档分类管理,以及系统管理。
以上所述的具体实施例,对本发明的目的、技术方案和成果进行了详尽说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于关键词特征的电子文档自动分类方法,其特征在于,包括:
步骤S1:准备分类语料库即企业电子文档目标分类体系和对应类别的文档集合,将语料库分成训练集和测试集;
步骤S2:构建企业的领域词汇表;
步骤S3:采用企业级搜索引擎,将领域词汇表中的词汇作为搜索词,对整个语料库进行逐个搜索词搜索;
步骤S4:将与文档相关度最高的前100个词汇作为文档的关键词;
步骤S5:所有文档特征化为由100个关键词的相关度组成的特征向量;
步骤S6:基于训练集文档的特征向量利用不同的机器学习算法构建分类器;
步骤S7:利用测试集文档对构建的分类器进行评估,根据分类器的正确率和召回率选择最优的分类器;
步骤S8:将最优的分类器在生产系统中部署,调用最优分类器的接口对新增的文档进行自动分类。
2.根据权利要求1所述的基于关键词特征的电子文档自动分类方法,其特征在于,随机选取语料库的80%文档作为训练集,20%文档作为训练集。
3.根据权利要求1所述的基于关键词特征的电子文档自动分类方法,其特征在于,所述步骤S2具体为:从企业的正规文档素材中,包括企业的已有知识库、相关标准文档、业务术语文档、业务规范文档,通过分词技术发现海量词汇,对发现的海量词汇进行优先删除业务特色不明显的词汇,最终形成一个领域词汇表。
4.根据权利要求1所述的基于关键词特征的电子文档自动分类方法,其特征在于,所述企业级搜索引擎采用基于开源的ElasticSearch全文检索工具。
5.根据权利要求1所述的基于关键词特征的电子文档自动分类方法,其特征在于,所述步骤S4具体包括:
步骤S41:对领域词汇表中的每一个词汇执行搜索,获得文档在搜索结果中的排名:
步骤S42:计算词汇与该文档的相关度R:
R=1-n/m,其中,n为该文档在搜索结果中的排名,m为总文档数;
步骤S43:根据相关度从高到低排名,获得文档最相关的前100个词汇作为该文档的关键词。
6.根据权利要求1所述的基于关键词特征的电子文档自动分类方法,其特征在于,所述机器学习算法包括:朴素贝叶斯算法、决策树算法、KNN最近邻算法、中心向量算法和支持向量机算法。
7.根据权利要求1所述的基于关键词特征的电子文档自动分类方法,其特征在于,所述正确率和召回率采用以下公式计算:
p = a / (a + b) * 100%
r = a / (a + c) * 100%
其中,a表示将输入的测试集文档正确分类到某个类别的个数,b表示分类器将输入的测试集文档错误分类到某个类别的个数,c表示分类器将输入的测试集文档错误地排除在某个类别之外的个数;d表示分类器将输入的测试集文档正确地排除在某个类别之外的个数。
8.一种基于关键词特征的电子文档自动分类系统,其特征在于,包括:数据存储模块、领域词汇管理模块、文档预处理模块、搜索引擎模块、特征提取模块、文档分类模块和分类优选模块;
所述数据存储模块,用于存储文档数据库、关系数据库;文档数据库是根据企业电子文档特点准备的分类语料库,包括训练集和测试集;
所述领域词汇管理模块,用于构建本企业的领域词汇表;
所述文档预处理模块,用于从文档数据库的不同格式文档中抽取文本;
所述搜索引擎模块,用于将领域词汇表中的词汇作为搜索词,对整个文档数据库中的文档进行逐个搜索词搜索;
所述特征提取模块,用于获取与文档相关度最高的前100个词汇作为文档的关键词,将所有文档特征化为由100个关键词的相关度组成的特征向量;
所述文档分类模块,用于提供不同的机器学习算法,基于训练集文档的特征向量构建分类器;
所述分类优选模块,用于利用测试集文档对构建的分类器进行评估,根据分类器的正确率和召回率选择最优的分类器。
9.根据权利要求8所述的基于关键词特征的电子文档自动分类系统,其特征在于,所述特征提取模块,根据搜索引擎模块的搜索结果计算词汇与文档的相关度R:
R=1-n/m,其中,n为文档在搜索结果中的排名,m为总文档数。
10.根据权利要求8所述的基于关键词特征的电子文档自动分类系统,其特征在于,所述搜索引擎模块采用基于开源的ElasticSearch全文检索工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810017865.7A CN107992633B (zh) | 2018-01-09 | 2018-01-09 | 基于关键词特征的电子文档自动分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810017865.7A CN107992633B (zh) | 2018-01-09 | 2018-01-09 | 基于关键词特征的电子文档自动分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107992633A true CN107992633A (zh) | 2018-05-04 |
CN107992633B CN107992633B (zh) | 2021-07-27 |
Family
ID=62040726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810017865.7A Active CN107992633B (zh) | 2018-01-09 | 2018-01-09 | 基于关键词特征的电子文档自动分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992633B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711074A (zh) * | 2018-05-21 | 2018-10-26 | 阿里巴巴集团控股有限公司 | 业务分类方法、装置、服务器及可读存储介质 |
CN108959568A (zh) * | 2018-07-04 | 2018-12-07 | 重庆华龙网海数科技有限公司 | 文档智能分发系统及分发方法 |
CN109190001A (zh) * | 2018-09-19 | 2019-01-11 | 广东电网有限责任公司 | 办公文件管理方法 |
CN109271523A (zh) * | 2018-11-23 | 2019-01-25 | 中电科大数据研究院有限公司 | 一种基于信息检索的政府公文主题分类方法 |
CN109597890A (zh) * | 2018-11-23 | 2019-04-09 | 福建榕基软件股份有限公司 | 一种数据感知自动分发的方法及存储装置 |
CN109741190A (zh) * | 2018-12-27 | 2019-05-10 | 清华大学 | 一种个股公告分类的方法、系统及设备 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN110335114A (zh) * | 2019-06-28 | 2019-10-15 | 香港乐蜜有限公司 | 产品的分类方法、装置及设备 |
CN111259155A (zh) * | 2020-02-18 | 2020-06-09 | 中国地质大学(武汉) | 一种基于特异性的词频加权方法及文本分类方法 |
CN111949770A (zh) * | 2020-08-24 | 2020-11-17 | 国网浙江省电力有限公司信息通信分公司 | 一种文档分类方法及装置 |
CN112132214A (zh) * | 2020-09-22 | 2020-12-25 | 刘秀萍 | 兼容多种语言的文档信息精准提取系统 |
CN112507111A (zh) * | 2020-10-20 | 2021-03-16 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN113254634A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于相空间的档案分类方法及系统 |
CN113360658A (zh) * | 2021-07-14 | 2021-09-07 | 福建亿榕信息技术有限公司 | 一种用于审计业务的文本自动分类方法 |
CN113505594A (zh) * | 2021-05-19 | 2021-10-15 | 国家电网有限公司大数据中心 | 电力行业术语库建设方法与系统 |
CN113536783A (zh) * | 2021-07-14 | 2021-10-22 | 福建亿榕信息技术有限公司 | 一种基于模型的新词发现方法 |
CN115292498A (zh) * | 2022-08-19 | 2022-11-04 | 北京华宇九品科技有限公司 | 一种文档分类方法、系统、计算机设备及存储介质 |
CN115422125A (zh) * | 2022-09-29 | 2022-12-02 | 浙江星汉信息技术股份有限公司 | 一种基于智能算法的电子文档自动归档方法与系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1873642A (zh) * | 2006-04-29 | 2006-12-06 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN103020213A (zh) * | 2012-12-07 | 2013-04-03 | 福建亿榕信息技术有限公司 | 具有明显类别划分的非结构化电子文档的检索方法和系统 |
CN103049568A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 对海量文档库的文档分类的方法 |
CN103810293A (zh) * | 2014-02-28 | 2014-05-21 | 广州云宏信息科技有限公司 | 基于Hadoop的文本分类方法及装置 |
US20170295072A1 (en) * | 2016-04-08 | 2017-10-12 | Pearson Education, Inc. | Systems and methods of event-based content provisioning |
CN107301171A (zh) * | 2017-08-18 | 2017-10-27 | 武汉红茶数据技术有限公司 | 一种基于情感词典学习的文本情感分析方法和系统 |
-
2018
- 2018-01-09 CN CN201810017865.7A patent/CN107992633B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1873642A (zh) * | 2006-04-29 | 2006-12-06 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN103020213A (zh) * | 2012-12-07 | 2013-04-03 | 福建亿榕信息技术有限公司 | 具有明显类别划分的非结构化电子文档的检索方法和系统 |
CN103049568A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 对海量文档库的文档分类的方法 |
CN103810293A (zh) * | 2014-02-28 | 2014-05-21 | 广州云宏信息科技有限公司 | 基于Hadoop的文本分类方法及装置 |
US20170295072A1 (en) * | 2016-04-08 | 2017-10-12 | Pearson Education, Inc. | Systems and methods of event-based content provisioning |
CN107301171A (zh) * | 2017-08-18 | 2017-10-27 | 武汉红茶数据技术有限公司 | 一种基于情感词典学习的文本情感分析方法和系统 |
Non-Patent Citations (2)
Title |
---|
ONAN,AYTUG等: "Ensemble of keyword extraction methods and classifiers in text classification", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
黄娟娟: "基于KNN的文本分类特征选择与分类算法的研究与改进", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711074B (zh) * | 2018-05-21 | 2021-08-24 | 创新先进技术有限公司 | 业务分类方法、装置、服务器及可读存储介质 |
CN108711074A (zh) * | 2018-05-21 | 2018-10-26 | 阿里巴巴集团控股有限公司 | 业务分类方法、装置、服务器及可读存储介质 |
CN108959568A (zh) * | 2018-07-04 | 2018-12-07 | 重庆华龙网海数科技有限公司 | 文档智能分发系统及分发方法 |
CN109190001A (zh) * | 2018-09-19 | 2019-01-11 | 广东电网有限责任公司 | 办公文件管理方法 |
CN109190001B (zh) * | 2018-09-19 | 2022-02-11 | 广东电网有限责任公司 | 办公文件管理方法 |
CN109271523A (zh) * | 2018-11-23 | 2019-01-25 | 中电科大数据研究院有限公司 | 一种基于信息检索的政府公文主题分类方法 |
CN109597890A (zh) * | 2018-11-23 | 2019-04-09 | 福建榕基软件股份有限公司 | 一种数据感知自动分发的方法及存储装置 |
CN109597890B (zh) * | 2018-11-23 | 2022-09-09 | 福建榕基软件股份有限公司 | 一种数据感知自动分发的方法及存储装置 |
CN109741190A (zh) * | 2018-12-27 | 2019-05-10 | 清华大学 | 一种个股公告分类的方法、系统及设备 |
CN110298032B (zh) * | 2019-05-29 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN110335114A (zh) * | 2019-06-28 | 2019-10-15 | 香港乐蜜有限公司 | 产品的分类方法、装置及设备 |
CN111259155A (zh) * | 2020-02-18 | 2020-06-09 | 中国地质大学(武汉) | 一种基于特异性的词频加权方法及文本分类方法 |
CN111259155B (zh) * | 2020-02-18 | 2023-04-07 | 中国地质大学(武汉) | 一种基于特异性的词频加权方法及文本分类方法 |
CN111949770A (zh) * | 2020-08-24 | 2020-11-17 | 国网浙江省电力有限公司信息通信分公司 | 一种文档分类方法及装置 |
CN112132214A (zh) * | 2020-09-22 | 2020-12-25 | 刘秀萍 | 兼容多种语言的文档信息精准提取系统 |
CN112507111A (zh) * | 2020-10-20 | 2021-03-16 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN112507111B (zh) * | 2020-10-20 | 2024-02-06 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN113254634A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于相空间的档案分类方法及系统 |
CN113505594A (zh) * | 2021-05-19 | 2021-10-15 | 国家电网有限公司大数据中心 | 电力行业术语库建设方法与系统 |
CN113536783A (zh) * | 2021-07-14 | 2021-10-22 | 福建亿榕信息技术有限公司 | 一种基于模型的新词发现方法 |
CN113360658A (zh) * | 2021-07-14 | 2021-09-07 | 福建亿榕信息技术有限公司 | 一种用于审计业务的文本自动分类方法 |
CN115292498A (zh) * | 2022-08-19 | 2022-11-04 | 北京华宇九品科技有限公司 | 一种文档分类方法、系统、计算机设备及存储介质 |
CN115422125A (zh) * | 2022-09-29 | 2022-12-02 | 浙江星汉信息技术股份有限公司 | 一种基于智能算法的电子文档自动归档方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107992633B (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
US20180300315A1 (en) | Systems and methods for document processing using machine learning | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
EP1323078A1 (en) | A document categorisation system | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
WO2009017464A1 (en) | Relation extraction system | |
CN112633012B (zh) | 一种基于实体类型匹配的未登录词替换方法 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
Rothfels et al. | Unsupervised sentiment classification of English movie reviews using automatic selection of positive and negative sentiment items | |
CN106503153B (zh) | 一种计算机文本分类体系 | |
Perez-Tellez et al. | On the difficulty of clustering microblog texts for online reputation management | |
CN115618014A (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
Hamdi et al. | Machine learning vs deterministic rule-based system for document stream segmentation | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、系统及问答方法和系统 | |
Gelbukh et al. | A method of describing document contents through topic selection | |
Xuanjing et al. | Language-independent Text Categorization | |
Dhanjal et al. | Gravity based Punjabi question answering system | |
BAZRFKAN et al. | Using machine learning methods to summarize persian texts | |
Nagaraj et al. | A novel semantic level text classification by combining NLP and Thesaurus concepts | |
Lesher et al. | A web-based system for autonomous text corpus generation | |
Feldman et al. | Self-supervised relation extraction from the web | |
El Idrissi et al. | HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information | |
CN112346711A (zh) | 用于语义识别的编程规范知识图谱构建系统及方法 | |
Wong et al. | iSentenizer: An incremental sentence boundary classifier | |
Wang et al. | An Automated Fact Checking System Using Deep Learning Through Word Embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |