CN109918497A

CN109918497A - 一种基于改进textCNN模型的文本分类方法、装置及存储介质

Info

Publication number: CN109918497A
Application number: CN201811572759.1A
Authority: CN
Inventors: 马涛; 栾江霞; 章正道; 俞碧洪; 徐晓文
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-06-21

Abstract

本发明提供了一种基于改进textCNN模型的文本分类方法、装置及存储介质。该方法包括：训练步骤，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型；文本分类步骤，使用训练后的改进textCNN模型对待分类的文本进行分类。本发明通过对传统的textCNN模型进行改进得到改进textCNN模型的文本分类算法，由于预训练了词嵌入层，使得训练阶段的训练时间和计算量大大减少；由于加深了卷积层的深度以及增加了批归一化层，使得分类准确率较大提高，更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景，如互联网舆情的文本分类等等。

Description

一种基于改进textCNN模型的文本分类方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，特别是一种基于改进textCNN模型的文本分类方法、装置及存储介质。

背景技术

爆发式增长的网络数据对数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术，通过相应的技术和方法对文本的语义内容进行抽取，进而对文本进行分类聚类等一系列操作，主要用于商品推荐，舆情分析，文本搜索等领域。

在舆情分析中，需要对网络中舆情在不同的主题下进行整理和分析，例如对采集到的文本进行文本分类，自动识别出用户感兴趣的文本，过滤掉用户不感兴趣的垃圾文本。为此，对于采集到的文本进行文本自动分类是舆情分析中一个相对重要的环节。

基于传统的向量空间模型的文本分类算法，无法对词的语序进行时序建模，也无法对不同的词之间进行语义建模，因此得到的分类效果并不理想。基于深度学习的文本分类算法，由于不必过多的进行繁琐的特征工程环节，也能很好的对语序和语义进行建模，取得的分类效果远超基于向量空间模型，因此现在基于深度学习的文本分类算法成为主流。但是，在舆情分析领域，分类的类别和样本都具有很强的时效性，类别会根据舆情需求频繁变化，样本会随着时间推移产生新的舆情热点，因此需要较为频繁的更新与迭代模型。基于RNN的文本分类算法由于计算量巨大导致训练和预测时间变长，在舆情场景下，频繁的更新和迭代模型会造成计算资源的巨大浪费。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种基于改进textCNN模型的文本分类方法，该方法包括：

训练步骤，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型；

文本分类步骤，使用训练后的改进textCNN模型对待分类的文本进行分类。

更进一步地，所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层，所述词嵌入层的输入与所述输入层的输出连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理，输入都与所述词嵌入层的输出相连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接，所述Concat层的输出与所述Dropout层相连接，所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接，所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。

更进一步地，所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层；所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层；所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层；所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。

更进一步地，所述训练步骤的操作包括：

对已标注的样本文本进行预处理，结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合，统计样本文本中每篇文本的长度，结合平均长度及经验确定一个文本的统一长度，对于过长的文本做截断，对于过短的文本做补齐；

对词向量训练语料进行分词、去停用词预处理，并运用word2vec中的skip-gram模型训练，得到训练好的维度为256的词向量；

将已预处理好的样本文本与训练好的词向量结合，得到文本的特征矩阵，并将其按照一定比例划分为训练集与测试集；

将训练集输入到初始权重的改进textCNN模型中，采用多元交叉熵定义为损失函数，使用RMSProp优化器自适应改变学习率，训练得到训练好的改进textCNN模型；

将测试集输入到训练好的改进textCNN模型，得到测试集的分类结果，与测试集标签对比计算出预测的准确率，并通过反复调节超参数、优化预处理过程，使改进textCNN分类模型预测准确率达到最优，此时的改进textCNN分类为训练后的改进textCNN分类。

更进一步地，所述文本分类步骤的操作包括：

将待分类的文本进行预处理，结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合；

加载已经训练好的词向量模型文件得到词向量，运用词向量将预处理后的文本表示成为文本特征向量矩阵；

加载已经训练后的改进textCNN模型，将文本特征向量输入所述改进textCNN模型，进行预测得到该文本的分类结果。

本发明还提出了一种基于改进textCNN模型的文本分类装置，该装置包括：

训练单元，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型；

文本分类单元，使用训练后的改进textCNN模型对待分类的文本进行分类。

更进一步地，所述训练单元执行的操作包括：

更进一步地，所述文本分类单元执行的操作包括：

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果为：本发明通过对传统的textCNN模型进行改进得到改进textCNN模型的文本分类算法，由于预训练了词嵌入层，使得训练阶段的训练时间和计算量大大减少；由于加深了卷积层的深度以及增加了批归一化层，使得分类准确率较大提高，更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景，如互联网舆情的文本分类等等。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于改进textCNN模型的文本分类方法的流程图。

图2是根据本发明的实施例的改进textCNN模型的结构图。

图3是根据本发明的实施例的改进textCNN模型进行训练的流程图。

图4是根据本发明的实施例的改进textCNN模型进行文本分类的流程图。

图5是根据本发明的实施例的一种基于改进textCNN模型的文本分类装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种基于改进textCNN模型的文本分类方法，该方法包括：

训练步骤S101，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型。

文本分类步骤S101，使用训练后的改进textCNN模型对待分类的文本进行分类。

本发明的重要一步就是构建改进的textCNN模型，即通过训练获得该改进textCNN模型，即该改进textCNN模型的结构是本发明的重要发明点。

如图2所示，所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层，所述词嵌入层的输入与所述输入层的输出连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理，输入都与所述词嵌入层的输出相连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接，所述Concat层的输出与所述Dropout层相连接，所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接，所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。

本发明中，将预处理后的文本输入至改进textCNN模型的词嵌入层(Embedding)，Embedding层中的权重是通过大量未标注数据，运用word2vec中的skip-gram模型预训练好的，在训练分类模型中不更新此层的权重，此层的参数个数为词库数乘以词向量的维度(256)，达千万级别参数，使用预训练好的词向量可以大大的减少训练时间。

本发明中采用第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块四个模块进行并行处理，且每个模块中卷积核的步长均不相同，用于分别捕捉不同步长的局部特征使用不同步长的一维卷积核，例如，本方法是选用4,5,6,7四种，来分别捕捉不同步长的局部特征，特别地，本方法在每个卷积层下面接了批归一化层(BatchNorm)，对数据进行标准化处理，防止梯度弥散问题，使模型收敛得更快。在BatchNorm层下面使用了RELU激活函数。每个卷积模块中的卷积层等均为两次，比传统的textCNN模型更加深，使模型表达能力更强，从而提高模型预测精度。当然，本领域技术人员可容易的想到可以将网络深度更为深，如5层、6层等，也可以采用多个卷积模块进行并行处理，而不仅限于四个，如6、8个等等。

如图2所示，所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层；所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层；所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层；所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。

四个不同步长的卷积模块输出通过max-pool层，通过下采样压缩输出维度，通过Concat层将上一层的四个输出拼接，得到一个一维向量，通过Dropout层(dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。)dropout的值为0.5，用于防止过拟合。通过带RELU激活的全连接层(fc)，将一维向量映射成128维的一维向量。通过分类器层，将其映射到类别向量，对应的值为所属类别的概率值，本发明的分类器层一般采用softmax函数。

如图3所示，所述训练步骤的操作包括：

对已标注的样本文本进行预处理，结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合，统计样本文本中每篇文本的长度，结合平均长度及经验确定一个文本的统一长度，对于过长的文本做截断，对于过短的文本做补齐。

对词向量训练语料进行分词、去停用词预处理，并运用word2vec中的skip-gram模型训练，得到训练好的维度为256的词向量。

将已预处理好的样本文本与训练好的词向量结合，得到文本的特征矩阵，并将其按照一定比例划分为训练集与测试集。

将训练集输入到初始权重的改进textCNN模型中，采用多元交叉熵定义为损失函数，使用RMSProp优化器自适应改变学习率，训练得到训练好的改进textCNN模型。RMSprop优化器的原理类似于动量梯度下降算法，RMSprop优化器限制了垂直方向上的振荡，使我们的算法可以在水平方向上采取更大的步，进行更快地收敛。

如图4所示，所述文本分类步骤的操作包括：

将待分类的文本进行预处理，结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合。这个步骤是与模型训练中的对已标注的样本文本进行预处理步骤是相同的。

加载已经训练好的词向量模型文件得到词向量，运用词向量将预处理后的文本表示成为文本特征向量矩阵。

进一步参考图5，作为对上述图1所示方法的实现，本申请提供了种基于改进textCNN模型的文本分类装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以包含于各种电子设备中。

图5示出了本发明的一种基于改进textCNN模型的文本分类装置，该装置包括：

训练单元501，使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型。

文本分类单元501，使用训练后的改进textCNN模型对待分类的文本进行分类。

本发明中采用第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块四个模块进行并行处理，且每个模块中卷积核的步长均不相同，用于分别捕捉不同步长的局部特征使用不同步长的一维卷积核，例如，本装置是选用4,5,6,7四种，来分别捕捉不同步长的局部特征，特别地，本装置在每个卷积层下面接了批归一化层(BatchNorm)，对数据进行标准化处理，防止梯度弥散问题，使模型收敛得更快。在BatchNorm层下面使用了RELU激活函数。每个卷积模块中的卷积层等均为两次，比传统的textCNN模型更加深，使模型表达能力更强，从而提高模型预测精度。当然，本领域技术人员可容易的想到可以将网络深度更为深，如5层、6层等，也可以采用多个卷积模块进行并行处理，而不仅限于四个，如6、8个等等。

如图3所示，所述训练单元执行的操作包括：

如图4所示，所述文本分类单元执行的操作包括：

本发明获得了如下的技术效果：通过对传统的textCNN模型进行改进得到改进textCNN模型的文本分类算法，由于其增加了嵌入层、批归一化层和RELU激活函数，使得训练时间和计算量大大减少，且分类准确率大大提高，更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景，如互联网舆情中的文本分类等等。且在文本预处理后，加载已经训练好的词向量模型文件得到词向量，运用词向量将预处理后的文本表示成为文本特征向量矩阵进行后续的处理，提高了分类速度及准确率。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于改进textCNN模型的文本分类方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层，所述词嵌入层的输入与所述输入层的输出连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理，输入都与所述词嵌入层的输出相连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接，所述Concat层的输出与所述Dropout层相连接，所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接，所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。

3.根据权利要求2所述的方法，其特征在于，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块中卷积核的步长均不相同，用于分别捕捉不同步长的局部特征；所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层；所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层；所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层；所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。

4.根据权利要求1所述的方法，其特征在于，所述训练步骤的操作包括：

5.根据权利要求4所述的方法，其特征在于，所述文本分类步骤的操作包括：

6.一种基于改进textCNN模型的文本分类装置，其特征在于，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层，所述词嵌入层的输入与所述输入层的输出连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理，输入都与所述词嵌入层的输出相连接，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接，所述Concat层的输出与所述Dropout层相连接，所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接，所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。

8.根据权利要求7所述的装置，其特征在于，所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块中卷积核的步长均不相同，用于分别捕捉不同步长的局部特征；所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层；所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层；所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层；所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。

9.根据权利要求6所述的装置，其特征在于，所述训练单元执行的操作包括：

10.根据权利要求9所述的装置，其特征在于，所述文本分类单元执行的操作包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。