Nothing Special   »   [go: up one dir, main page]

CN109918497A - 一种基于改进textCNN模型的文本分类方法、装置及存储介质 - Google Patents

一种基于改进textCNN模型的文本分类方法、装置及存储介质 Download PDF

Info

Publication number
CN109918497A
CN109918497A CN201811572759.1A CN201811572759A CN109918497A CN 109918497 A CN109918497 A CN 109918497A CN 201811572759 A CN201811572759 A CN 201811572759A CN 109918497 A CN109918497 A CN 109918497A
Authority
CN
China
Prior art keywords
text
layer
volume
improvement
textcnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811572759.1A
Other languages
English (en)
Inventor
马涛
栾江霞
章正道
俞碧洪
徐晓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201811572759.1A priority Critical patent/CN109918497A/zh
Publication of CN109918497A publication Critical patent/CN109918497A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于改进textCNN模型的文本分类方法、装置及存储介质。该方法包括:训练步骤,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;文本分类步骤,使用训练后的改进textCNN模型对待分类的文本进行分类。本发明通过对传统的textCNN模型进行改进得到改进textCNN模型的文本分类算法,由于预训练了词嵌入层,使得训练阶段的训练时间和计算量大大减少;由于加深了卷积层的深度以及增加了批归一化层,使得分类准确率较大提高,更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景,如互联网舆情的文本分类等等。

Description

一种基于改进textCNN模型的文本分类方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,特别是一种基于改进textCNN模型的文本分类方法、装置及存储介质。
背景技术
爆发式增长的网络数据对数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术,通过相应的技术和方法对文本的语义内容进行抽取,进而对文本进行分类聚类等一系列操作,主要用于商品推荐,舆情分析,文本搜索等领域。
在舆情分析中,需要对网络中舆情在不同的主题下进行整理和分析,例如对采集到的文本进行文本分类,自动识别出用户感兴趣的文本,过滤掉用户不感兴趣的垃圾文本。为此,对于采集到的文本进行文本自动分类是舆情分析中一个相对重要的环节。
基于传统的向量空间模型的文本分类算法,无法对词的语序进行时序建模,也无法对不同的词之间进行语义建模,因此得到的分类效果并不理想。基于深度学习的文本分类算法,由于不必过多的进行繁琐的特征工程环节,也能很好的对语序和语义进行建模,取得的分类效果远超基于向量空间模型,因此现在基于深度学习的文本分类算法成为主流。但是,在舆情分析领域,分类的类别和样本都具有很强的时效性,类别会根据舆情需求频繁变化,样本会随着时间推移产生新的舆情热点,因此需要较为频繁的更新与迭代模型。基于RNN的文本分类算法由于计算量巨大导致训练和预测时间变长,在舆情场景下,频繁的更新和迭代模型会造成计算资源的巨大浪费。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种基于改进textCNN模型的文本分类方法,该方法包括:
训练步骤,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;
文本分类步骤,使用训练后的改进textCNN模型对待分类的文本进行分类。
更进一步地,所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层,所述词嵌入层的输入与所述输入层的输出连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理,输入都与所述词嵌入层的输出相连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接,所述Concat层的输出与所述Dropout层相连接,所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接,所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。
更进一步地,所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层;所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层;所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层;所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。
更进一步地,所述训练步骤的操作包括:
对已标注的样本文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合,统计样本文本中每篇文本的长度,结合平均长度及经验确定一个文本的统一长度,对于过长的文本做截断,对于过短的文本做补齐;
对词向量训练语料进行分词、去停用词预处理,并运用word2vec中的skip-gram模型训练,得到训练好的维度为256的词向量;
将已预处理好的样本文本与训练好的词向量结合,得到文本的特征矩阵,并将其按照一定比例划分为训练集与测试集;
将训练集输入到初始权重的改进textCNN模型中,采用多元交叉熵定义为损失函数,使用RMSProp优化器自适应改变学习率,训练得到训练好的改进textCNN模型;
将测试集输入到训练好的改进textCNN模型,得到测试集的分类结果,与测试集标签对比计算出预测的准确率,并通过反复调节超参数、优化预处理过程,使改进textCNN分类模型预测准确率达到最优,此时的改进textCNN分类为训练后的改进textCNN分类。
更进一步地,所述文本分类步骤的操作包括:
将待分类的文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合;
加载已经训练好的词向量模型文件得到词向量,运用词向量将预处理后的文本表示成为文本特征向量矩阵;
加载已经训练后的改进textCNN模型,将文本特征向量输入所述改进textCNN模型,进行预测得到该文本的分类结果。
本发明还提出了一种基于改进textCNN模型的文本分类装置,该装置包括:
训练单元,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;
文本分类单元,使用训练后的改进textCNN模型对待分类的文本进行分类。
更进一步地,所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层,所述词嵌入层的输入与所述输入层的输出连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理,输入都与所述词嵌入层的输出相连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接,所述Concat层的输出与所述Dropout层相连接,所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接,所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。
更进一步地,所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层;所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层;所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层;所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。
更进一步地,所述训练单元执行的操作包括:
对已标注的样本文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合,统计样本文本中每篇文本的长度,结合平均长度及经验确定一个文本的统一长度,对于过长的文本做截断,对于过短的文本做补齐;
对词向量训练语料进行分词、去停用词预处理,并运用word2vec中的skip-gram模型训练,得到训练好的维度为256的词向量;
将已预处理好的样本文本与训练好的词向量结合,得到文本的特征矩阵,并将其按照一定比例划分为训练集与测试集;
将训练集输入到初始权重的改进textCNN模型中,采用多元交叉熵定义为损失函数,使用RMSProp优化器自适应改变学习率,训练得到训练好的改进textCNN模型;
将测试集输入到训练好的改进textCNN模型,得到测试集的分类结果,与测试集标签对比计算出预测的准确率,并通过反复调节超参数、优化预处理过程,使改进textCNN分类模型预测准确率达到最优,此时的改进textCNN分类为训练后的改进textCNN分类。
更进一步地,所述文本分类单元执行的操作包括:
将待分类的文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合;
加载已经训练好的词向量模型文件得到词向量,运用词向量将预处理后的文本表示成为文本特征向量矩阵;
加载已经训练后的改进textCNN模型,将文本特征向量输入所述改进textCNN模型,进行预测得到该文本的分类结果。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果为:本发明通过对传统的textCNN模型进行改进得到改进textCNN模型的文本分类算法,由于预训练了词嵌入层,使得训练阶段的训练时间和计算量大大减少;由于加深了卷积层的深度以及增加了批归一化层,使得分类准确率较大提高,更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景,如互联网舆情的文本分类等等。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于改进textCNN模型的文本分类方法的流程图。
图2是根据本发明的实施例的改进textCNN模型的结构图。
图3是根据本发明的实施例的改进textCNN模型进行训练的流程图。
图4是根据本发明的实施例的改进textCNN模型进行文本分类的流程图。
图5是根据本发明的实施例的一种基于改进textCNN模型的文本分类装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种基于改进textCNN模型的文本分类方法,该方法包括:
训练步骤S101,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型。
文本分类步骤S101,使用训练后的改进textCNN模型对待分类的文本进行分类。
本发明的重要一步就是构建改进的textCNN模型,即通过训练获得该改进textCNN模型,即该改进textCNN模型的结构是本发明的重要发明点。
如图2所示,所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层,所述词嵌入层的输入与所述输入层的输出连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理,输入都与所述词嵌入层的输出相连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接,所述Concat层的输出与所述Dropout层相连接,所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接,所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。
本发明中,将预处理后的文本输入至改进textCNN模型的词嵌入层(Embedding),Embedding层中的权重是通过大量未标注数据,运用word2vec中的skip-gram模型预训练好的,在训练分类模型中不更新此层的权重,此层的参数个数为词库数乘以词向量的维度(256),达千万级别参数,使用预训练好的词向量可以大大的减少训练时间。
本发明中采用第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块四个模块进行并行处理,且每个模块中卷积核的步长均不相同,用于分别捕捉不同步长的局部特征使用不同步长的一维卷积核,例如,本方法是选用4,5,6,7四种,来分别捕捉不同步长的局部特征,特别地,本方法在每个卷积层下面接了批归一化层(BatchNorm),对数据进行标准化处理,防止梯度弥散问题,使模型收敛得更快。在BatchNorm层下面使用了RELU激活函数。每个卷积模块中的卷积层等均为两次,比传统的textCNN模型更加深,使模型表达能力更强,从而提高模型预测精度。当然,本领域技术人员可容易的想到可以将网络深度更为深,如5层、6层等,也可以采用多个卷积模块进行并行处理,而不仅限于四个,如6、8个等等。
如图2所示,所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层;所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层;所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层;所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。
四个不同步长的卷积模块输出通过max-pool层,通过下采样压缩输出维度,通过Concat层将上一层的四个输出拼接,得到一个一维向量,通过Dropout层(dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。)dropout的值为0.5,用于防止过拟合。通过带RELU激活的全连接层(fc),将一维向量映射成128维的一维向量。通过分类器层,将其映射到类别向量,对应的值为所属类别的概率值,本发明的分类器层一般采用softmax函数。
如图3所示,所述训练步骤的操作包括:
对已标注的样本文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合,统计样本文本中每篇文本的长度,结合平均长度及经验确定一个文本的统一长度,对于过长的文本做截断,对于过短的文本做补齐。
对词向量训练语料进行分词、去停用词预处理,并运用word2vec中的skip-gram模型训练,得到训练好的维度为256的词向量。
将已预处理好的样本文本与训练好的词向量结合,得到文本的特征矩阵,并将其按照一定比例划分为训练集与测试集。
将训练集输入到初始权重的改进textCNN模型中,采用多元交叉熵定义为损失函数,使用RMSProp优化器自适应改变学习率,训练得到训练好的改进textCNN模型。RMSprop优化器的原理类似于动量梯度下降算法,RMSprop优化器限制了垂直方向上的振荡,使我们的算法可以在水平方向上采取更大的步,进行更快地收敛。
将测试集输入到训练好的改进textCNN模型,得到测试集的分类结果,与测试集标签对比计算出预测的准确率,并通过反复调节超参数、优化预处理过程,使改进textCNN分类模型预测准确率达到最优,此时的改进textCNN分类为训练后的改进textCNN分类。
如图4所示,所述文本分类步骤的操作包括:
将待分类的文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合。这个步骤是与模型训练中的对已标注的样本文本进行预处理步骤是相同的。
加载已经训练好的词向量模型文件得到词向量,运用词向量将预处理后的文本表示成为文本特征向量矩阵。
加载已经训练后的改进textCNN模型,将文本特征向量输入所述改进textCNN模型,进行预测得到该文本的分类结果。
进一步参考图5,作为对上述图1所示方法的实现,本申请提供了种基于改进textCNN模型的文本分类装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以包含于各种电子设备中。
图5示出了本发明的一种基于改进textCNN模型的文本分类装置,该装置包括:
训练单元501,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型。
文本分类单元501,使用训练后的改进textCNN模型对待分类的文本进行分类。
本发明的重要一步就是构建改进的textCNN模型,即通过训练获得该改进textCNN模型,即该改进textCNN模型的结构是本发明的重要发明点。
如图2所示,所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层,所述词嵌入层的输入与所述输入层的输出连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理,输入都与所述词嵌入层的输出相连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接,所述Concat层的输出与所述Dropout层相连接,所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接,所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。
本发明中,将预处理后的文本输入至改进textCNN模型的词嵌入层(Embedding),Embedding层中的权重是通过大量未标注数据,运用word2vec中的skip-gram模型预训练好的,在训练分类模型中不更新此层的权重,此层的参数个数为词库数乘以词向量的维度(256),达千万级别参数,使用预训练好的词向量可以大大的减少训练时间。
本发明中采用第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块四个模块进行并行处理,且每个模块中卷积核的步长均不相同,用于分别捕捉不同步长的局部特征使用不同步长的一维卷积核,例如,本装置是选用4,5,6,7四种,来分别捕捉不同步长的局部特征,特别地,本装置在每个卷积层下面接了批归一化层(BatchNorm),对数据进行标准化处理,防止梯度弥散问题,使模型收敛得更快。在BatchNorm层下面使用了RELU激活函数。每个卷积模块中的卷积层等均为两次,比传统的textCNN模型更加深,使模型表达能力更强,从而提高模型预测精度。当然,本领域技术人员可容易的想到可以将网络深度更为深,如5层、6层等,也可以采用多个卷积模块进行并行处理,而不仅限于四个,如6、8个等等。
如图2所示,所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层;所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层;所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层;所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。
四个不同步长的卷积模块输出通过max-pool层,通过下采样压缩输出维度,通过Concat层将上一层的四个输出拼接,得到一个一维向量,通过Dropout层(dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。)dropout的值为0.5,用于防止过拟合。通过带RELU激活的全连接层(fc),将一维向量映射成128维的一维向量。通过分类器层,将其映射到类别向量,对应的值为所属类别的概率值,本发明的分类器层一般采用softmax函数。
如图3所示,所述训练单元执行的操作包括:
对已标注的样本文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合,统计样本文本中每篇文本的长度,结合平均长度及经验确定一个文本的统一长度,对于过长的文本做截断,对于过短的文本做补齐。
对词向量训练语料进行分词、去停用词预处理,并运用word2vec中的skip-gram模型训练,得到训练好的维度为256的词向量。
将已预处理好的样本文本与训练好的词向量结合,得到文本的特征矩阵,并将其按照一定比例划分为训练集与测试集。
将训练集输入到初始权重的改进textCNN模型中,采用多元交叉熵定义为损失函数,使用RMSProp优化器自适应改变学习率,训练得到训练好的改进textCNN模型。RMSprop优化器的原理类似于动量梯度下降算法,RMSprop优化器限制了垂直方向上的振荡,使我们的算法可以在水平方向上采取更大的步,进行更快地收敛。
将测试集输入到训练好的改进textCNN模型,得到测试集的分类结果,与测试集标签对比计算出预测的准确率,并通过反复调节超参数、优化预处理过程,使改进textCNN分类模型预测准确率达到最优,此时的改进textCNN分类为训练后的改进textCNN分类。
如图4所示,所述文本分类单元执行的操作包括:
将待分类的文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合。这个步骤是与模型训练中的对已标注的样本文本进行预处理步骤是相同的。
加载已经训练好的词向量模型文件得到词向量,运用词向量将预处理后的文本表示成为文本特征向量矩阵。
加载已经训练后的改进textCNN模型,将文本特征向量输入所述改进textCNN模型,进行预测得到该文本的分类结果。
本发明获得了如下的技术效果:通过对传统的textCNN模型进行改进得到改进textCNN模型的文本分类算法,由于其增加了嵌入层、批归一化层和RELU激活函数,使得训练时间和计算量大大减少,且分类准确率大大提高,更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景,如互联网舆情中的文本分类等等。且在文本预处理后,加载已经训练好的词向量模型文件得到词向量,运用词向量将预处理后的文本表示成为文本特征向量矩阵进行后续的处理,提高了分类速度及准确率。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1.一种基于改进textCNN模型的文本分类方法,其特征在于,该方法包括:
训练步骤,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;
文本分类步骤,使用训练后的改进textCNN模型对待分类的文本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层,所述词嵌入层的输入与所述输入层的输出连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理,输入都与所述词嵌入层的输出相连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接,所述Concat层的输出与所述Dropout层相连接,所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接,所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。
3.根据权利要求2所述的方法,其特征在于,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块中卷积核的步长均不相同,用于分别捕捉不同步长的局部特征;所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层;所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层;所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层;所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。
4.根据权利要求1所述的方法,其特征在于,所述训练步骤的操作包括:
对已标注的样本文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合,统计样本文本中每篇文本的长度,结合平均长度及经验确定一个文本的统一长度,对于过长的文本做截断,对于过短的文本做补齐;
对词向量训练语料进行分词、去停用词预处理,并运用word2vec中的skip-gram模型训练,得到训练好的维度为256的词向量;
将已预处理好的样本文本与训练好的词向量结合,得到文本的特征矩阵,并将其按照一定比例划分为训练集与测试集;
将训练集输入到初始权重的改进textCNN模型中,采用多元交叉熵定义为损失函数,使用RMSProp优化器自适应改变学习率,训练得到训练好的改进textCNN模型;
将测试集输入到训练好的改进textCNN模型,得到测试集的分类结果,与测试集标签对比计算出预测的准确率,并通过反复调节超参数、优化预处理过程,使改进textCNN分类模型预测准确率达到最优,此时的改进textCNN分类为训练后的改进textCNN分类。
5.根据权利要求4所述的方法,其特征在于,所述文本分类步骤的操作包括:
将待分类的文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合;
加载已经训练好的词向量模型文件得到词向量,运用词向量将预处理后的文本表示成为文本特征向量矩阵;
加载已经训练后的改进textCNN模型,将文本特征向量输入所述改进textCNN模型,进行预测得到该文本的分类结果。
6.一种基于改进textCNN模型的文本分类装置,其特征在于,该装置包括:
训练单元,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;
文本分类单元,使用训练后的改进textCNN模型对待分类的文本进行分类。
7.根据权利要求6所述的装置,其特征在于,所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层,所述词嵌入层的输入与所述输入层的输出连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理,输入都与所述词嵌入层的输出相连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接,所述Concat层的输出与所述Dropout层相连接,所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接,所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。
8.根据权利要求7所述的装置,其特征在于,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块中卷积核的步长均不相同,用于分别捕捉不同步长的局部特征;所述第一卷积模块包括依次连接的第一卷积层、第一批归一化层、第一RELU激活函数、第二卷积层、第二批归一化层、第二RELU激活函数和第一最大池化层;所述第二卷积模块包括依次连接的第三卷积层、第三批归一化层、第三RELU激活函数、第四卷积层、第四批归一化层、第四RELU激活函数和第二最大池化层;所述第三卷积模块包括依次连接的第五卷积层、第五批归一化层、第五RELU激活函数、第六卷积层、第六批归一化层、第六RELU激活函数和第三最大池化层;所述第四卷积模块包括依次连接的第七卷积层、第七批归一化层、第七RELU激活函数、第八卷积层、第八批归一化层、第八RELU激活函数和第四最大池化层。
9.根据权利要求6所述的装置,其特征在于,所述训练单元执行的操作包括:
对已标注的样本文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合,统计样本文本中每篇文本的长度,结合平均长度及经验确定一个文本的统一长度,对于过长的文本做截断,对于过短的文本做补齐;
对词向量训练语料进行分词、去停用词预处理,并运用word2vec中的skip-gram模型训练,得到训练好的维度为256的词向量;
将已预处理好的样本文本与训练好的词向量结合,得到文本的特征矩阵,并将其按照一定比例划分为训练集与测试集;
将训练集输入到初始权重的改进textCNN模型中,采用多元交叉熵定义为损失函数,使用RMSProp优化器自适应改变学习率,训练得到训练好的改进textCNN模型;
将测试集输入到训练好的改进textCNN模型,得到测试集的分类结果,与测试集标签对比计算出预测的准确率,并通过反复调节超参数、优化预处理过程,使改进textCNN分类模型预测准确率达到最优,此时的改进textCNN分类为训练后的改进textCNN分类。
10.根据权利要求9所述的装置,其特征在于,所述文本分类单元执行的操作包括:
将待分类的文本进行预处理,结合正则表达式去掉垃圾字符、分词、去停用词得到每个样本文本的词一级的集合;
加载已经训练好的词向量模型文件得到词向量,运用词向量将预处理后的文本表示成为文本特征向量矩阵;
加载已经训练后的改进textCNN模型,将文本特征向量输入所述改进textCNN模型,进行预测得到该文本的分类结果。
11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的方法。
CN201811572759.1A 2018-12-21 2018-12-21 一种基于改进textCNN模型的文本分类方法、装置及存储介质 Pending CN109918497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811572759.1A CN109918497A (zh) 2018-12-21 2018-12-21 一种基于改进textCNN模型的文本分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811572759.1A CN109918497A (zh) 2018-12-21 2018-12-21 一种基于改进textCNN模型的文本分类方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN109918497A true CN109918497A (zh) 2019-06-21

Family

ID=66959953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811572759.1A Pending CN109918497A (zh) 2018-12-21 2018-12-21 一种基于改进textCNN模型的文本分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109918497A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543629A (zh) * 2019-08-01 2019-12-06 淮阴工学院 一种基于w-att-cnn算法的化工装备文本分类方法
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111143551A (zh) * 2019-12-04 2020-05-12 支付宝(杭州)信息技术有限公司 文本预处理方法、分类方法、装置及设备
CN111930938A (zh) * 2020-07-06 2020-11-13 武汉卓尔数字传媒科技有限公司 文本分类方法、装置、电子设备及存储介质
CN112242185A (zh) * 2020-09-09 2021-01-19 山东大学 基于深度学习的医学图像报告自动生成方法及系统
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法
WO2021051586A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 面试回答文本的分类方法及装置、电子设备、存储介质
CN114207605A (zh) * 2019-10-31 2022-03-18 深圳市欢太科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN114416213A (zh) * 2022-03-29 2022-04-29 北京沃丰时代数据科技有限公司 词向量文件加载方法、装置及存储介质
CN114564942A (zh) * 2021-09-06 2022-05-31 北京数美时代科技有限公司 一种用于监管领域的文本纠错方法、存储介质和装置
CN115936094A (zh) * 2022-12-27 2023-04-07 北京百度网讯科技有限公司 文本处理模型的训练方法、装置、电子设备和存储介质
CN118503362A (zh) * 2024-07-15 2024-08-16 北京航空航天大学 维修活动文本分类及维修保障任务引导方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN108108351A (zh) * 2017-12-05 2018-06-01 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108399230A (zh) * 2018-02-13 2018-08-14 上海大学 一种基于卷积神经网络的中文财经新闻文本分类方法
AU2018101513A4 (en) * 2018-10-11 2018-11-15 Hui, Bo Mr Comprehensive Stock Prediction GRU Model: Emotional Index and Volatility Based

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310825A (zh) * 1998-06-23 2001-08-29 微软公司 用于分类文本以及构造文本分类器的方法和装置
CN108108351A (zh) * 2017-12-05 2018-06-01 华南理工大学 一种基于深度学习组合模型的文本情感分类方法
CN108399230A (zh) * 2018-02-13 2018-08-14 上海大学 一种基于卷积神经网络的中文财经新闻文本分类方法
AU2018101513A4 (en) * 2018-10-11 2018-11-15 Hui, Bo Mr Comprehensive Stock Prediction GRU Model: Emotional Index and Volatility Based

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
小简铺子: "《卷积神经网络(TextCNN)在句子分类上的实现》", 《卷积神经网络(TEXTCNN)在句子分类上的实现》 *
流川枫AI: "《吾爱NLP(4)—基于Text-CNN模型的中文文本分类实战 - 简书》", 《吾爱NLP(4)—基于TEXT-CNN模型的中文文本分类实战 - 简书》 *
谷宇: "《多模态3D卷积神经网络脑补胶质瘤分割方法》", 《科学技术与工程》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543629A (zh) * 2019-08-01 2019-12-06 淮阴工学院 一种基于w-att-cnn算法的化工装备文本分类方法
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN110717039B (zh) * 2019-09-17 2023-10-13 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
WO2021051586A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 面试回答文本的分类方法及装置、电子设备、存储介质
CN114207605A (zh) * 2019-10-31 2022-03-18 深圳市欢太科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN111143551A (zh) * 2019-12-04 2020-05-12 支付宝(杭州)信息技术有限公司 文本预处理方法、分类方法、装置及设备
CN111930938A (zh) * 2020-07-06 2020-11-13 武汉卓尔数字传媒科技有限公司 文本分类方法、装置、电子设备及存储介质
CN112242185A (zh) * 2020-09-09 2021-01-19 山东大学 基于深度学习的医学图像报告自动生成方法及系统
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法
CN114564942A (zh) * 2021-09-06 2022-05-31 北京数美时代科技有限公司 一种用于监管领域的文本纠错方法、存储介质和装置
CN114416213A (zh) * 2022-03-29 2022-04-29 北京沃丰时代数据科技有限公司 词向量文件加载方法、装置及存储介质
CN115936094A (zh) * 2022-12-27 2023-04-07 北京百度网讯科技有限公司 文本处理模型的训练方法、装置、电子设备和存储介质
CN118503362A (zh) * 2024-07-15 2024-08-16 北京航空航天大学 维修活动文本分类及维修保障任务引导方法、系统及介质
CN118503362B (zh) * 2024-07-15 2024-09-27 北京航空航天大学 维修活动文本分类及维修保障任务引导方法、系统及介质

Similar Documents

Publication Publication Date Title
CN109918497A (zh) 一种基于改进textCNN模型的文本分类方法、装置及存储介质
CN108334605B (zh) 文本分类方法、装置、计算机设备及存储介质
CN108170736B (zh) 一种基于循环注意力机制的文档快速扫描定性方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN110413786B (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN106528528A (zh) 文本情感分析的方法及装置
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN114238577B (zh) 融合多头注意力机制的多任务学习情感分类方法
CN112925904A (zh) 一种基于Tucker分解的轻量级文本分类方法
CN112507114A (zh) 一种基于词注意力机制的多输入lstm_cnn文本分类方法及系统
CN110502747A (zh) 一种主题分类方法和装置
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Sajeevan et al. An enhanced approach for movie review analysis using deep learning techniques
CN110019796A (zh) 一种用户文本信息分析方法及装置
CN113806538B (zh) 标签提取模型训练方法、装置、设备与存储介质
US20230063686A1 (en) Fine-grained stochastic neural architecture search
WO2021159099A1 (en) Searching for normalization-activation layer architectures
Ram et al. Supervised sentiment classification with cnns for diverse se datasets
Swami et al. Resume classifier and summarizer
CN116186506A (zh) 基于bert预训练模型的可访问性问题报告的自动识别方法
CN113297376A (zh) 基于元学习的法律案件风险点识别方法及系统
CN114049522A (zh) 一种基于深度学习的垃圾分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190621

RJ01 Rejection of invention patent application after publication