CN111767403A

CN111767403A - 一种文本分类方法和装置

Info

Publication number: CN111767403A
Application number: CN202010644879.9A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-13
Anticipated expiration: 2040-07-07
Also published as: CN111767403B

Abstract

本申请实施例公开了一种文本分类方法和装置；本申请实施例与大数据领域以及人工智能的自然语言处理领域相关；本申请实施例获取待分类文本以及用于文本分类的词库；对待分类文本进行分词，得到若干文本词、以及文本词的词序信息；根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词；基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词相关联的目标文本词；基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果；整合每一目标类别关键词的分类结果，得到待分类文本的类别；该方案可以提高文本分类的分类结果准确率。

Description

一种文本分类方法和装置

技术领域

本申请涉及数据处理领域，具体涉及一种文本分类方法和装置。

背景技术

得益于技术的发展，在互联网上可获取的信息越来越广泛，数据量相应地也愈发庞大，为了更加高效快捷的获取实际所需的目标数据，需要对海量的数据进行处理，比如，可以对文本数据进行分类，现有技术可以对文本数据进行关键词搜索来实现文本数据分类，最终能够剔除文本数据中不恰当的部分。在对现有技术的研究和实践过程中，本申请的发明人发现，通过现有技术得到的分类结果准确率较低。

发明内容

本申请实施例提供一种文本分类方法和装置，可以提高文本分类的分类结果准确率。

本申请实施例提供一种文本分类方法，包括：

获取待分类文本以及用于文本分类的词库，所述词库包括预设类别对应的类别关键词、正向特征词和负向特征词；

对所述待分类文本进行分词，得到若干文本词、以及文本词的词序信息；

根据所述文本词和所述类别关键词，确定所述待分类文本中存在的目标类别关键词；

基于所述文本词的词序信息以及目标类别关键词，从所述待分类文本中确定与目标类别关键词相关联的目标文本词；

基于所述正向特征词和所述负向特征词，在所述预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果；

整合每一目标类别关键词的分类结果，得到所述待分类文本的类别。

相应地，本申请实施例提供一种文本分类装置，包括：

获取模块，用于获取待分类文本以及用于文本分类的词库，所述词库包括预设类别对应的类别关键词、正向特征词和负向特征词；

分词模块，用于对所述待分类文本进行分词，得到若干文本词、以及文本词的词序信息；

第一确定模块，用于根据所述文本词和所述类别关键词，确定所述待分类文本中存在的目标类别关键词；

第二确定模块，用于基于所述文本词的词序信息以及目标类别关键词，从所述待分类文本中确定与目标类别关键词相关联的目标文本词；

分类模块，用于基于所述正向特征词和所述负向特征词，在所述预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果；

整合模块，用于整合每一目标类别关键词的分类结果，得到所述待分类文本的类别。

在本申请的一些实施例中，分类模块包括分类子模块和整合子模块，其中，

分类子模块，用于基于所述正向特征词和所述负向特征词，在所述预设类别上对目标类别关键词对应的每一目标文本词进行分类，得到每一目标文本词的分类结果；

整合子模块，用于整合所述目标类别关键词对应的每一目标文本词的分类结果，得到所述目标类别关键词的分类结果。

在本申请的一些实施例中，分类子模块包括统计单元和计算单元，其中，

统计单元，用于分别统计所述正向特征词和所述负向特征词在所有文本词中的出现频率，得到目标类别关键词在所述预设类别上的正向词频和负向词频；

计算单元，用于基于所述正向词频和所述负向词频，对所述目标类别关键词对应的每一目标文本词进行分类计算，得到每一目标文本词的分类结果。

在本申请的一些实施例中，整合子模块包括计数单元和确定单元，其中，

计数单元，用于对分类结果为正向类别和负向类别的目标文本词进行分别计数，得到正向数量和负向数量；

确定单元，用于基于所述正向数量和所述负向数量，确定所述目标类别关键词的分类结果。

在本申请的一些实施例中，确定单元具体用于：

当所述正向数量大于所述负向数量时，确定所述目标类别关键词的分类结果为正向类别；

当所述正向数量小于所述负向数量时，确定所述目标类别关键词的分类结果为负向类别。

在本申请的一些实施例中，文本分类装置还包括：

数据获取模块，用于获取预设类别的类别基准词以及样本数据；

扩展模块，用于对所述类别基准词进行近义扩展，得到所述预设类别的类别关键词；

处理模块，用于基于所述类别关键词，对所述样本数据进行处理，确定所述预设类别的正向特征词和负向特征词，得到词库，所述词库包括所述预设类别对应的类别关键词、正向特征词和负向特征词。

在本申请的一些实施例中，处理模块具体用于:

基于所述类别关键词，对所述样本数据进行划分，得到正样本数据和负样本数据；

基于预设阈值和所述类别关键词，分别对所述正样本数据和所述负样本数据进行特征词挖掘，确定所述预设类别的正向特征词和负向特征词。

在本申请的一些实施例中，所述词库包括多个预设类别对应的类别关键词、正向特征词、负向特征词，分类模块具体用于：

基于每一个预设类别的正向关键词和负向关键词，在每一个预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词在每一个预设类别上的分类结果；

此时，整合模块包括整合子模块，其中，

整合子模块，用于整合每一目标类别关键词在每一个预设类别上的分类结果，确定所述待分类文本的类别。

在本申请的一些实施例中，每一个预设类别包括正向子类别和负向子类别，整合子模块具体用于：

根据每一目标类别关键词在每一个预设类别上的子类别，确定所述待分类文本在每一个预设类别上的子类别；

整合所述待分类文本在所有预设类别上的子类别，得到所述待分类文本的类别。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种文本分类方法。

相应的，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请实施例提供的任一种文本分类方法。

本申请的方案可以通过词库中预设类别的类别关键词，确定待分类文本中的目标类别关键词，并通过对待分类文本分词后得到的文本词的词序信息，确定与目标类别关键词在待分类文本中相关联的目标文本词，接着对目标文本词进行分类，再通过目标类别关键词的每一目标文本词的分类结果确定此目标类别关键词的分类结果，最后基于待分类文本的每一目标类别关键词的分类结果，确定此待分类文本的类别，本方案在确定待分类文本中的目标类别关键词后，通过目标类别关键词对应的目标文本词确定该目标类别关键词的分类结果，可以显著提高文本分类的分类结果准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本分类装置的场景示意图；

图2是本申请实施例提供的文本分类方法的流程示意图；

图3是本申请实施例提供的应用文本分类方法之前的应用场景效果示意图；

图4是本申请实施例提供的应用了文本分类方法的应用场景效果示意图；

图5是本申请实施例提供的文本分类方法的另一流程示意图；

图6是本申请实施例提供的垃圾文本分类方法的流程示意图；

图7是本申请实施例提供的文本分类装置的结构示意图；

图8是本申请实施例提供的文本分类装置的另一结构示意图；

图9是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，本申请所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的文本分类方法涉及到人工智能领域，具体涉及到人工智能领域的机器学习领域。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例中的近义扩展、分词等过程涉及人工智能领域的自然语言处理等技术，通过人工智能的自然语言处理数可以完成近义扩展、分词等过程，具体内容将通过实施例进行说明。

本申请实施例提供一种文本分类方法和装置。具体地，本申请实施例可以集成在文本分类装置，文本分类装置可以集成在文本分类计算机设备，该文本分类计算机设备可以是终端等电子设备，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此；该文本分类计算机设备还可以是服务器等电子设备，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

如图1所示，图1为本申请实施例所提供的文本分类装置的场景示意图。其中，终端可以获取待分类文本以及用于文本分类的词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词；对待分类文本进行分词，得到若干文本词、以及文本词的词序信息；根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词；基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词相关联的目标文本词；基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果；整合每一目标类别关键词的分类结果，得到待分类文本的类别。

本申请实施例还可以通过终端与服务器共同协作来完成文本分类的过程，比如，终端可以向服务器传输用户输入的待分类文本，服务器可以接收终端传输的待分类文本，并获取用于文本分类的词库，然后，服务器可以通过本申请的文本分类方法完成对待分类文本进行分类的过程，得到待分类文本的类别，并基于此类别，触发终端以及服务器的进一步操作。

需要说明的是，图1所示的文本分类装置的场景示意图仅仅是一个示例，本申请实施例描述的文本分类装置以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着文本分类装置的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。

在本实施例中，将从文本分类装置的角度进行描述，该文本分类装置具体可以集成在终端中，比如，相机、摄像机、智能手机、平板电脑、笔记本电脑、个人计算机以及穿戴式智能设备等具备储存单元、安装有微处理器的终端。

如图2所示，图2是本申请一实施例提供的文本分类方法的流程示意图。该文本分类方法可以包括：

101、获取待分类文本以及用于文本分类的词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词。

其中，待分类文本可以包括需要进行分类的文本数据，文本数据可以是用户编辑，如，在应用程序客户端的编辑框内，用户可以手动输入包括文本数据在内的数据信息；文本数据也可以是特定系统基于特定功能自动生成，如，可以基于特定主题自动生成预设字数的文本生成系统(如营销号生成器、废话生成器等)，等。待分类文本可以是成句或成段落的文本，待分类文本可以包括标点符号、运算字符、数字、字母以及词语(如汉语、英语等不同语言的词语)等基本元素。

其中，预设类别可以包括对具有相似文本数据内容所作的总结信息，常见的预设类别可以包括多种，如评价类(如影视评价、食物评价等)、非法类(如赌博、色情、毒品信息等)、广告类等，比如，广告类文本的类别关键词可以包括大酬宾、跳楼价、假证等；食物评价类文本的类别关键词可以包括美味、水果、红烧等。

其中，类别关键词可以包括多数人在描述预设类别的内容时使用频率大于预设阈值的词语或词语的组合，类别关键词是实现高效准确地文本分类的重要内容，在确定类别关键词的过程中，可以有多种方式，比如，可以对若干预设类别的文本数据样本进行分词，并将分词得到的所有词语进行词频统计，然后确定其中大于预设词频的词语为此预设类别的类别关键词。

又比如，类别关键词可以由开发人员或用户手动确定，手动确定的时机可以是开始进行文本分类前，也可以是文本分类过程中，包括开发人员或用户等在内的相关人员可以根据实际需求对类别关键词进行增加或删除等操作，可调整的类别关键词使得本方案更加灵活，可以在不同场景下及时转换，进而保证了分类结果的高准确率。

类别关键词可以作为描述预设类别的高频词语，但并不能代表包含类别关键词的文本数据即属于此预设类别，为了保证文本分类的高准确率，需要将文本数据中，除类别关键词以外的常见特征词集合起来，并作为预设类别的特征词，其中，特征词可以包括正向特征词和负向特征词，正向特征词和负向特征词可以分别代表属于预设类别和不属于此预设类别的常见特征词，正向特征词和负向特征词与类别关键词类似，可以是词语、表征特定含义的字符(包括字母、文字、数字、符号等)组合，如a货、杨树林、+V等。

正向特征词和负向特征词可以通过预设类别的文本数据样本确定，其中，确定的方式可以有多种，比如，可以由相关人员手动确定，此方式可以适用于文本数据样本数量较少、或通过其他方式无法取得优质准确的特征词时使用；可以通过训练好的神经网络模型进行特征词的确定；也可以通过算法对文本数据样本进行特征词挖掘，等等。确定特征词的方式可以根据文本数据样本的特点和实际需求灵活选择，在此不做赘述。

比如，预设类别可以是广告类，待识别文本可以是“一比一复刻高仿品牌齐全卫星扣扣同号78666”，词库中包括广告类的类别关键词可以是“高仿、复刻、验货、原厂、尾单、微信、卫星、V信”，广告类的正向特征词可以是“原厂、实拍、咨询、细节、莆田、毒、识货、虎扑”，广告类的负向特征词可以是“抵制、交易、非法、违法、猖獗、打击、工商、严打、侵权”。

在本申请的一些实施例中，文本识别方法还可以包括步骤：

获取预设类别的类别基准词以及样本数据；对类别基准词进行近义扩展，得到预设类别的类别关键词；基于类别关键词，对样本数据进行处理，确定预设类别的正向特征词和负向特征词，得到词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词。

其中，类别基准词可以是在描述预设类别的内容时使用频率大于预设阈值的基本词语，如“微信”是一个类别基准词，接着，可以对类别基准词进行近义扩展，如“微信”可以扩展为“卫星、V信、联系方式、+V”等，进行近义扩展采用的方式可以有多种，可以通过词典(如同义词林)、神经网络模型(如词向量模型)，也可以由相关人员(如开发人员、用户等)进行扩展，等。完成近义扩展后，可以将类别基准词和对类别基准词进行近义扩展后得到的词作为预设类别的类别关键词，如，广告类的类别关键词可以包括“微信、卫星、V信、联系方式、+V”。

其中，样本数据即文本数据样本，样本数据可以与设定类别相关的文本，基于类别关键词对样本数据进行处理，得到正向特征词和负向特征词是实现文本分类的关键步骤，正向特征词和负向特征词是文本分类方法所需的关键参照信息，处理的过程可以根据实际情况灵活选择，在此不做赘述。

比如，获取广告类的类别基准词“高仿”，通过同义词林对其进行近义扩展，可以得到“精仿、a货、厂货、原厂”，则“高仿、精仿、a货、厂货、原厂”可以作为广告类的类别关键词，接着，可以通过类别关键词对获取到的样本数据进行处理，样本数据可以是“制假售假猖獗，工商部门重拳出击，大力打击所谓原厂球鞋”和“潮鞋一折购各大品牌应有尽有卫星号1234”，得到广告类的正向特征词和负向特征词，得到的正向特征词可以是“猖獗、打击”，得到的负向特征词可以是“一折购、品牌”。

在本申请的一些实施例中，步骤“基于类别关键词，对样本数据进行处理，确定预设类别的正向特征词和负向特征词”，可以包括：

基于类别关键词，对样本数据进行划分，得到正样本数据和负样本数据；基于预设阈值和类别关键词，分别对正样本数据和负样本数据进行特征词挖掘，确定预设类别的正向特征词和负向特征词。

具体地，可以对预设类别相关的样本数据进行划分，若该样本数据属于此预设类别，则此样本数据为正样本数据，若该样本数据不属于此预设类别，则此样本数据为负样本数据。划分可以通过人工划分(人工标注)，也可以通过算法或训练好的神经网络模型自动划分等。

对样本数据进行划分后，可以基于正样本数据确定预设类别的正向特征词，基于负样本数据确定预设类别的负向特征词，具体地，可以对对正/负样本数据进行特征词挖掘，比如，可以通过前缀投影的模式挖掘(prefixspan，Prefix-Projected PatternGrowth)算法进行正向特征词和负向特征词的挖掘。

比如，首先，可以对正/负样本数据进行预处理，预处理可以将正/负样本数据中的标点符号、数字等不相干信息过滤掉(如正则过滤)，然后将正/负样本数据中存在的类别关键词筛除掉，得到筛除后的正/负样本数据，对筛除后的正/负样本数据进行分词处理，得到若干样本词，分词的过程可以通过分词工具(如结巴分词)进行。

然后，可以对样本数据进行特征词挖掘，挖掘的过程可以包括：

1、找出单位长度为1的词序列前缀和对应投影数据集；

2、统计词序列前缀的出现频率并将出现频率高于最小支持度阈值的词序列前缀添加到数据集，即可得到i＝1频繁词序列；

3、对所有长度为i且满足最小支持度要求的词序列前缀进行递归挖掘：

1)、挖掘词序列前缀的投影数据集，如果投影数据为空集合，则返回递归；2)、统计对应投影数据集中各单项的最小支持度，将满足最小支持度的各单项与当前前缀合并，得到新前缀，不满足最小支持度要求则递归返回；3)、令i＝i+1，词序列前缀为合并后的各个新前缀，分别递归执行第3步；

4、返回该词序列数据集中所有的频繁词序列。

其中，频繁词序列即为特征词，通过上述方式分别对正样本数据和负样本数据进行特征词挖掘，即可得到正向特征词和负向特征词。

其中，最小支持度可以基于最小支持率确定，最小支持率可以根据实践过程中，样本数据的预设类别、数量等因素灵活调整，最小支持度的计算方法可以为：

min_sup＝a×n

其中，min_sup为最小支持度，a为最小支持率，n为样本数据的数量。

102、对待分类文本进行分词，得到若干文本词、以及文本词的词序信息。

文本词可以包括组成待分类文本的若干词语，文本词的词序信息可以是文本词在待分类文本中的顺序信息，

句子由若干词语组成，句子中词语出现的先后顺序不同可以组成不同的句子，传达不同的含义，对于计算机设备来说，将句子拆分为正确的词语即为分词，基于句子中词语的顺序的重要作用，分词得到的还包括文本词的词序信息。

实际操作过程中，分词可以通过分词工具进行，分词工具的常见原理可以包括基于词典，基于机器学习等，常见的分词工具可以包括庖丁解牛、结巴分词、斯坦福分词器等等。

为了得到准确度更高的分词结果，可以在分词之前，对待分类文本进行预处理，比如筛除无用的字符，等。

本申请可以对待分类文本中的部分词语进行分类检测，进而确定待分类文本的类别，而对待分类文本进行分词得到若干文本词，是实现对部分词语进行分类检测的基础。

比如，对“一比一复刻高仿品牌齐全卫星扣扣同号78666”进行分词，可以先进行预处理，筛除其中的数字，得到“一比一复刻高仿品牌齐全卫星扣扣同号”，然后进行分词可以得到文本词以及文本词的词序信息包括：“一比一”(1)、“复刻”(2)、“高仿”(3)、“品牌”(4)、“齐全”(5)、“卫星”(6)、“扣扣”(7)、“同号”(8)。

103、根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词。

目标类比关键词可以是待分类文本中存在的类别关键词，具体地，可以在待分类文本的文本词中搜索，是否存在与类别关键词相同的文本词，若存在，则为目标类别关键词。

比如，类别关键词可以包括“高仿、复刻、验货、原厂、尾单、微信、卫星、V信”，在待分类文本的文本词中，对每一类别关键词进行搜索，最终可以确定，待分类文本的目标类别关键词有“复刻”、“高仿”、“卫星”。

104、基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词相关联的目标文本词。

目标文本词可以包括在待分类文本中，与目标类别关键词相关联的文本词，具体地，位置关联可以是目标类别关键词的上下文中相邻的文本词，相邻文本词的数量可以根据实际需求进行灵活确定，如可以设置为2或3等，计算机设备在可以根据文本词的词序信息，确定待分类文本中目标类别关键词的位置，并确定其上下文设定数量的文本词的词序信息，并根据此词序信息，得到此目标类别关键词对应的目标文本词。

比如，对于“一比一复刻高仿品牌齐全卫星扣扣同号78666”中的目标类别关键词“卫星”，其对应的目标文本词可以是“品牌”、“齐全”、“扣扣”、“同号”。

105、基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果。

对目标类别关键词对应的目标文本词进行分类，进而确定此目标关键词的分类结果，此处，目标类别关键词的分类结果和目标文本词的分类结果可以为两种，即属于此预设类别(正向类别)和不属于此预设类别(负向类别)。

比如，广告类的正向特征词可以包括“原厂、实拍、咨询、细节、莆田、毒、识货、虎扑”，广告类的负向特征词可以包括“抵制、交易、非法、违法、猖獗、打击、工商、严打、侵权”，对待分类文本“一比一复刻高仿品牌齐全卫星扣扣同号78666”的目标类别关键词“卫星”对应的目标文本词“品牌”、“齐全”、“扣扣”、“同号”进行分类，进而可以确定该待分类文本的目标类别关键词“卫星”的分类结果为正向类别。

在本申请的一些实施例中，步骤“基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果”，可以包括：

基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的每一目标文本词进行分类，得到每一目标文本词的分类结果；整合目标类别关键词对应的每一目标文本词的分类结果，得到目标类别关键词的分类结果。

一个目标类别关键词的目标文本词可以有多个，因此在对目标类别关键词对应的目标文本词分类后，可以得到多个分类结果，而目标类别关键词的分类结果即可为整合了多个分类结果后得到。其中，整合的方式可以是对分类结果进行加权计算，每一分类结果的权重可以灵活设置，如，可以基于目标文本词相对于目标类别关键词的词序信息，等。

比如，对目标文本词“品牌”、“齐全”、“扣扣”、“同号”进行分类，得到分类结果依次为“正向类别”、“正向类别”、“正向类别”、“负向类别”，然后，可以对这些分类结果进行整合，得到这些目标文本词对应的目标类别关键词“卫星”的分类结果“正向类别”。

分别统计正向特征词和负向特征词在所有文本词中的出现频率，得到目标类别关键词在预设类别上的正向词频和负向词频；基于正向词频和负向词频，对目标类别关键词对应的每一目标文本词进行分类计算，得到每一目标文本词的分类结果。

对待分类文本进行文本分类时，一批待分类文本的数量可以为至少一个，在对每一目标文本词进行分类之前，可以在所有待分类文本中，统计所有正向特征词和所有负向特征词的出现概率，目标文本词的出现频率，以及每一目标文本词与每一正/负向特征词同时出现的概率，然后，可以通过算法进行计算，得到目标文本词的计算结果，进而确定目标文本词的分类结果。

比如，对待分类文本中的一目标类别关键词“卫星”对应的目标文本词进行分类计算，可以通过情感倾向点互信息算法(PMI，Pointwise Mutual Information)进行，

将目标文本词与所有特征词计算互信息完成后，可以得到此目标文本词的词的情感倾向互信息SO_PMI:

其中，P_set为包含预设类别的正向特征词的集合，pw为正向特征词，N_set为包含预设类别的负向特征词的集合，nw为负向特征词。

互信息PMI的计算公式可以是：

其中，w₁是目标文本词，w₂是特征词。

具体地，“卫星”的目标文本词可以包括“品牌”、“齐全”、“扣扣”、“同号”，正向特征词可以是“原厂、咨询”，负向特征词可以是“抵制、打击”。比如，确定目标文本词“品牌”的分类结果前，可以在所有待分类文本中，确定P(原厂)、P(咨询)、P(抵制)、P(打击)、P(品牌)以及P(品牌，原厂)(即品牌和原厂同时出现的概率)、P(品牌，咨询)、P(品牌，抵制)、P(品牌，打击)，并基于这些概率值得到目标文本词“品牌”的相关计算结果，进而确定目标文本词的分类结果，计算公式可以如：

SO_PMI(品牌)＝PMI(品牌，原厂)+PMI(品牌，咨询)-PMI(品牌，抵制)-PMI(品牌，打击)

其中PMI(品牌，原厂)的计算公式可以如：

当SO_PMI(品牌)的结果大于0时，可以确定目标文本词“品牌”的分类结果为正向类别，当SO_PMI(品牌)的结果小于0时，可以确定目标文本词“品牌”的分类结果为负向类别。

对目标文本词“品牌”、“齐全”、“扣扣”、“同号”依次完成分类计算后，可以得到分类结果“正向类别”、“正向类别”、“正向类别”、“负向类别”。

在本申请的一些实施例中，分类结果包括正向类别和负向类别，步骤“整合目标类别关键词对应的每一目标文本词的分类结果，得到目标类别关键词的分类结果”，可以包括：

对分类结果为正向类别和负向类别的目标文本词分别计数，得到正向数量和负向数量；基于正向数量和负向数量，确定目标类别关键词的分类结果。

比如，计数结果可以是，正向数量为3，负向数量为1，即可基于此确定目标类别关键词“卫星”的分类结果为正向类别。

在本申请的一些实施例中，步骤“基于正向数量和负向数量，确定目标类别关键词的分类结果”，可以包括：

当正向数量大于负向数量时，确定目标类别关键词的分类结果为正向类别；当正向数量小于负向数量时，确定目标类别关键词的分类结果为负向类别。

此外，当正向数量与负向数量相等时，目标类别关键词的分类结果可以为正向类别，也可以为负向类别，可以操作时根据实际需求灵活设置。

比如，正向数量3大于负向数量1，则可以确定目标类别关键词的分类结果为正向类别。

106、整合每一目标类别关键词的分类结果，得到待分类文本的类别。

待分类文本的类别可以包括正向类别和负向类别，待分类文本的目标类别关键词可以包括多个，整合每一目标类别关键词的分类结果，即可确定待分类文本的类别。

比如，可以对每一目标类别关键词的分类结果进行计数，数量最多的即为待分类文本的类别。

在本申请的一些实施例中，词库包括多个预设类别对应的类别关键词、正向特征词和负向特征词步骤“基于正向特征词和负向特征词，在预设类别上对目标文本词进行分类，得到目标类别关键词的分类结果”，可以包括：

基于每一个预设类别的正向关键词和负向关键词，在每一个预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词在每一个预设类别上的分类结果。

此时，步骤“整合每一目标类别关键词的分类结果，得到待分类文本的类别”，可以包括：

整合每一目标类别关键词在每一个预设类别上的分类结果，确定待分类文本的类别。

在实际应用场景中，文本分类可以针对多个类别，比如，可以将广告、非法、低俗用语等文本类别统称为垃圾类，因此，在对待分类文本进行文本分类时，需要判断其是否属于多个类别，进而确定待分类文本的类别(垃圾类或非垃圾类)。

因此，在确定待分类文本中的目标类别关键词后，需要基于每一个预设类别的正向特征词和负向特征词，在每一个预设类别上对目标类别关键词对应的目标文本词分别进行分类，得到目标类别关键词在每一个预设类别上的分类结果。并对待分类文本的目标关键词在每一个预设类别上的分类结果进行整合，以确定待分类文本的类别。

在本申请的一些实施例中，每一个预设类别包括正向子类别和负向子类别，步骤“整合每一目标类别关键词在每一个预设类别上的分类结果，确定待分类文本的类别”，可以包括：

根据每一目标类别关键词在每一个预设类别上的子类别，确定待分类文本在每一个预设类别上的子类别；整合待分类文本在所有预设类别上的子类别，得到待分类文本的类别。

在每一个预设类别上，本申请的分类识别方式最终确定待分类文本是否属于每一预设类别，即每一预设类别包括正向子类别(属于此预设类别)和负向子类别(不属于此预设类别)，确定待分类文本在每一个预设类别上的子类别后，即可根据所有预设类别上的子类别，确定待分类文本的类别，比如，待分类文本在广告类、低俗用语类的识别结果为负向子类别，在非法类的识别结果为正向子类别，则可以确定待识别文本为垃圾类，具体地为垃圾类中的非法类；又比如，待分类文本在广告类、低俗用语类和非法类的识别结果为负向子类别，则可以整合所有子类别，确定待分类文本为非垃圾类。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

本申请在实际应用场景中，可能存在大量数据，如大批待分类文本、海量特征词和类别关键词等，可以基于大数据相关技术完成文本分类方法中的相关步骤，以便得准确率更高的分类结果。

本申请实施例可以首先获取待分类文本以及用于文本分类的词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词，接着对待分类文本进行分词，得到若干文本词、以及文本词的词序信息，再根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词，然后基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词的位置相关联的目标文本词，再基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果，最后整合每一目标类别关键词的分类结果，得到待分类文本的类别。

本申请的方案可以通过词库中预设类别的类别关键词，确定待分类文本中的目标类别关键词，并通过对待分类文本分词后得到的文本词的词序信息，确定与目标类别关键词在待分类文本中位置相关联的目标文本词，接着对目标文本词进行分类，再通过目标类别关键词的每一目标文本词的分类结果确定此目标类别关键词的分类结果，最后基于待分类文本的每一目标类别关键词的分类结果，确定此待分类文本的类别，本方案在确定待分类文本中的目标类别关键词后，通过目标类别关键词对应的目标文本词确定该目标类别关键词的分类结果，可以显著提高文本分类的分类结果准确率。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本实施例将以垃圾文本分类为例进行介绍，垃圾文本可以是一类文本，垃圾文本可以包括多个预设类别，如广告类、非法信息类、低俗用语类等,本实施例的文本分类方法可以广泛应用于需要进行垃圾文本识别的场景，比如，垃圾邮件、垃圾弹幕、垃圾短信等，可以参见图3，在播放视频过程中，弹幕上会包含如“高仿球鞋品牌齐+V78666”、“杨树林雕牌热门色40起微信1111”等垃圾弹幕，而使用了本方法后，可以对弹幕内容进行分类，在弹幕显示前将此类垃圾弹幕筛除掉，大大提升了用户的观看体验，参见图4，弹幕内容是与播放内容相关的正常评论信息。

本实施例将以服务器进行垃圾文本分类为例，对文本分类方法进行介绍，本实施例的流程图可以参见图5，其中：

201、服务器接收待分类文本，并加载用于文本分类的词库，词库包含多个预设类别的类别关键词、正向特征词以及负向特征词。

比如，预设类别包括色情类、广告推销类、低俗用语类。

202、服务器对待分类文本进行分词，得到待分类文本对应的文本词以及文本词的词序信息。

203、服务器确定待分类文本中的目标类别关键词，目标类别关键词为待分类文本中与类别关键词相同的文本词。

比如，可以确定待分类文本中色情类的目标类别关键词为：词1，词2；广告推销类的目标类别关键词为词3、词4；低俗用语类的目标类别关键词为词5、词6。

204、服务器根据文本词的词序信息，确定待分类文本中与目标类别关键词相关联的目标文本词。

比如，词1(目标类别关键词)对应的目标文本词为：词7、词8、词9、词10。

205、服务器根据每一预设类别的正向特征词和负向特征词，分别对目标类别关键词的每一目标文本词进行分类，得到每一目标文本词在每一预设类别上的分类结果。

其中，分类结果可以包括正向类别和负向类别，比如，广告推销类的分类结果可以包括正向类别(代表此词或文本为广告推销类)和负向类别(代表此词或文本为非广告推销类)。

比如，词1(目标类别关键词)对应的词7(目标文本词)在色情类、广告推销类、低俗用语类的分类结果分别为正向类别、负向类别、负向类别。

206、服务器整合目标类别关键词的所有目标文本词的每一预设类别上的分类结果，得到目标类别关键词在每一预设类别上的分类结果。

比如，整合词1(目标类别关键词)的所有目标文本词，确定词1在色情类、广告推销类、低俗用语类的分类结果分别为正向类别、正向类别、负向类别。

207、服务器整合待分类文本的所有目标类别关键词在每一预设类别上的分类结果，得到待分类文本在每一预设类别上的分类结果。

比如，整合待分类文本的所有目标类别关键词(词1、词2、词3、词4、词5、词6)在色情类、广告推销类、低俗用语类的分类结果，确定待分类文本在色情类、广告推销类、低俗用语类上的分类结果分别为正向类别、负向类别、负向类别。

208、服务器基于待分类文本在每一预设类别上的分类结果，确定待分类文本的类别。

比如，由待分类文本在色情类、广告推销类、低俗用语类上的分类结果可确定，待分类文本为色情类垃圾文本。

参见图6，本申请可以先构建垃圾文本基准词(即类别关键词)，并获取分类训练集的正负样本(即预设类别的正样本数据和负样本数据)，接着通过频繁序列模式挖掘垃圾词正负向上下文特征词(即正向特征词和负向特征词)，然后对待分类文本进行文本分类，具体地，匹配垃圾词(目标类别关键词)以N-gram窗口作为上下文特征词(目标文本词)，并利用SO-PMI计算窗口词(即目标文本词)的垃圾分类极性(即分类结果)，最后综合特征词分类极性(即目标类别关键词的分类结果)获取文本分类类别(即待识别文本的类别)。

本实施例可以在确定待分类文本中的目标类别关键词后，确定与其位置关联的目标文本词，并基于多个目标文本词的分类结果，确定目标类别关键词的分类结果，而非简单的通过目标类别关键词本身确定分类结果，进而确定待分类文本的类别，本方案可有效提高文本分类的准确率，此外，本实施例在多个预设类别上(通过每一预设类别的正向特征词和负向特征词)对目标文本词进行分类，进而可以获得目标类别关键词在多个预设类别上的分类结果，使得本实施例可以对待分类文本是否属于多个预设类别进行判断，文本分类的范围更广，本方案的可应用范围更大。

为便于更好的实施本申请实施例提供的文本分类方法，本申请实施例还提供一种基于上述文本分类方法的装置。其中名词的含义与上述文本分类方法中相同，具体实现细节可以参考方法实施例中的说明。

如图7所示，图7为本申请一实施例提供的文本分类装置的结构示意图，其中该文本分类装置可以包括获取模块301、分词模块302、第一确定模块303、第二确定模块304、分类模块305以及整合模块306，其中，

获取模块301，用于获取待分类文本以及用于文本分类的词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词；

分词模块302，用于对待分类文本进行分词，得到若干文本词、以及文本词的词序信息；

第一确定模块303，用于根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词；

第二确定模块304，用于基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词相关联的目标文本词；

分类模块305，用于基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果；

整合模块306，用于整合每一目标类别关键词的分类结果，得到待分类文本的类别。

在本申请的一些实施例中，参见图8，分类模块305包括分类子模块3051和整合子模块3052，其中，

分类子模块3051，用于基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的每一目标文本词进行分类，得到每一目标文本词的分类结果；

整合子模块3052，用于整合目标类别关键词对应的每一目标文本词的分类结果，得到目标类别关键词的分类结果。

统计单元，用于分别统计正向特征词和负向特征词在所有文本词中的出现频率，得到目标类别关键词在预设类别上的正向词频和负向词频；

计算单元，用于基于正向词频和负向词频，对目标类别关键词对应的每一目标文本词进行分类计算，得到每一目标文本词的分类结果。

确定单元，用于基于正向数量和负向数量，确定目标类别关键词的分类结果。

在本申请的一些实施例中，确定单元具体用于：

在本申请的一些实施例中，文本分类装置还包括：

扩展模块，用于对类别基准词进行近义扩展，得到预设类别的类别关键词；

处理模块，用于基于类别关键词，对样本数据进行处理，确定预设类别的正向特征词和负向特征词，得到词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词。

在本申请的一些实施例中，处理模块具体用于:

基于类别关键词，对样本数据进行划分，得到正样本数据和负样本数据；

基于预设阈值和类别关键词，分别对正样本数据和负样本数据进行特征词挖掘，确定预设类别的正向特征词和负向特征词。

在本申请的一些实施例中，词库包括多个预设类别对应的类别关键词、正向特征词、负向特征词，分类模块具体用于：

此时，整合模块包括整合子模块，其中，

整合子模块，用于整合每一目标类别关键词在每一个预设类别上的分类结果，确定待分类文本的类别。

根据每一目标类别关键词在每一个预设类别上的子类别，确定待分类文本在每一个预设类别上的子类别；

整合待分类文本在所有预设类别上的子类别，得到待分类文本的类别。

本实施例中，获取模块301可以首先获取待分类文本以及用于文本分类的词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词，接着分词模块302可以对待分类文本进行分词，得到若干文本词、以及文本词的词序信息，第一确定模块303再根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词，然后第二确定模块304基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词的位置相关联的目标文本词，分类模块305再基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果，最后整合模块306可以整合每一目标类别关键词的分类结果，得到待分类文本的类别。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图9所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图9中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待分类文本以及用于文本分类的词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词；对待分类文本进行分词，得到若干文本词、以及文本词的词序信息；根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词；基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词相关联的目标文本词；基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果；整合每一目标类别关键词的分类结果，得到待分类文本的类别。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种文本分类方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取待分类文本以及用于文本分类的词库，词库包括预设类别对应的类别关键词、正向特征词和负向特征词；对待分类文本进行分词，得到若干文本词、以及文本词的词序信息；根据文本词和类别关键词，确定待分类文本中存在的目标类别关键词；基于文本词的词序信息以及目标类别关键词，从待分类文本中确定与目标类别关键词的位置相关联的目标文本词；基于正向特征词和负向特征词，在预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果；整合每一目标类别关键词的分类结果，得到待分类文本的类别。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种文本分类方法中的步骤，因此，可以实现本申请实施例所提供的任一种文本分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种文本分类方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述正向特征词和所述负向特征词，在所述预设类别上对目标类别关键词对应的目标文本词进行分类，得到目标类别关键词的分类结果，包括：

基于所述正向特征词和所述负向特征词，在所述预设类别上对目标类别关键词对应的每一目标文本词进行分类，得到每一目标文本词的分类结果；

整合所述目标类别关键词对应的每一目标文本词的分类结果，得到所述目标类别关键词的分类结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述正向特征词和所述负向特征词，在所述预设类别上对目标类别关键词对应的每一目标文本词进行分类，得到每一目标文本词的分类结果，包括：

分别统计所述正向特征词和所述负向特征词在所有文本词中的出现频率，得到目标类别关键词在所述预设类别上的正向词频和负向词频；

基于所述正向词频和所述负向词频，对所述目标类别关键词对应的每一目标文本词进行分类计算，得到每一目标文本词的分类结果。

4.根据权利要求2所述的方法，其特征在于，所述分类结果包括正向类别和负向类别，所述整合所述目标类别关键词对应的每一目标文本词的分类结果，得到所述目标类别关键词的分类结果，包括：

对分类结果为正向类别和负向类别的目标文本词分别计数，得到正向数量和负向数量；

基于所述正向数量和所述负向数量，确定所述目标类别关键词的分类结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述正向数量和所述负向数量，确定所述目标类别关键词的分类结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预设类别的类别基准词以及样本数据；

对所述类别基准词进行近义扩展，得到所述预设类别的类别关键词；

基于所述类别关键词，对所述样本数据进行处理，确定所述预设类别的正向特征词和负向特征词，得到词库，所述词库包括所述预设类别对应的类别关键词、正向特征词和负向特征词。

7.根据权利要求6所述的方法，其特征在于，所述基于所述类别关键词，对所述样本数据进行处理，确定所述预设类别的正向特征词和负向特征词，包括：

8.根据权利要求1所述的方法，其特征在于，所述词库包括多个预设类别对应的类别关键词、正向特征词和负向特征词，所述基于所述正向特征词和所述负向特征词，在所述预设类别上对目标文本词进行分类，得到目标类别关键词的分类结果，包括：

所述整合每一目标类别关键词的分类结果，得到所述待分类文本的类别，包括：

整合每一目标类别关键词在每一个预设类别上的分类结果，确定所述待分类文本的类别。

9.根据权利要求8所述的方法，其特征在于，每一个预设类别包括正向子类别和负向子类别，所述整合每一目标类别关键词在每一个预设类别上的分类结果，确定所述待分类文本的类别，包括：

10.一种文本分类装置，其特征在于，包括：