CN115168579A

CN115168579A - 一种基于多头注意力机制和二维卷积操作的文本分类方法

Info

Publication number: CN115168579A
Application number: CN202210800916.XA
Authority: CN
Inventors: 孙源佑; 邓木清; 蔡洁标; 张贵有; 江嘉宁
Original assignee: Smart Traditional Chinese Medicine Technology Guangdong Co ltd
Current assignee: Smart Traditional Chinese Medicine Technology Guangdong Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-10-11

Abstract

本发明提出一种基于多头注意力机制和二维卷积操作的文本分类方法，涉及自然语言处理的技术领域，首先进行预处理操作，然后构建神经网络，将预处理操作后的文本输入神经网络，得到字粒度级别的字向量，体现了不同汉字字符在文本中的重要程度，接着形成多头注意力机制层，采用一种预训练字向量与多头注意力机制融合作为语义表示的配合方式，得到文本表示张量，然后进行二维卷积操作，提取文本特征，融合不同的多头注意力机制的专注点，利用卷积操作特征向量对神经网络进行文本分类训练，并调整多注意力机制层的权重，得到训练好的神经网络，最后测试得到分类结果，可以在较小的数据集上取得良好的分类效果和泛化能力，且拟合较快。

Description

一种基于多头注意力机制和二维卷积操作的文本分类方法

技术领域

本发明涉及自然语言处理的技术领域，更具体地，涉及一种基于多头注意力机制和二维卷积操作的文本分类方法。

背景技术

自然语言处理，是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理是一门融合语言学、计算机科学及数学于一体的科学，具有极为广泛的应用，如智能语音问答系统、诈骗短信识别、网络评论情感识别等。

在医学领域，临床医学信息大量以非结构化(或半结构化)的文本形式存储于信息系统中，自然语言处理则是从医疗文本中提取有用信息的关键技术。通过自然语言处理，这些非结构化的医疗文本被转化为包含重要医学信息的结构化数据，科研人员才可以从这些结构化的数据中发现有用医学信息，从而提高医疗系统的运行质量，减少运行成本。其中，文本分类是自然语言处理中最重要的课题之一，在医学领域的自然语言处理中也不例外，因为在这个互联网技术飞速发展的时代，医学界面临的不再是信息获取问题，而是如何在海量信息资源中快速准确地获取有价值的信息，医学文本信息产生方式多样且丰富，巨大的数据量使得人工难以区分与整理，因此，如何进行有效地文本分类变得至关重要。

目前，常用的文本分类方法有支持向量机、卷积神经网络、循环神经网络及BERT等，BERT和RNN可以实现优秀的分类效果，但是其模型较大，训练困难，难以在小型主机上进行应用；TextGCN通过图卷积技术实现了在较小的模型上达到良好的分类效果，但是对于没有见过的节点，TextGCN无法进行分类，且应用在文本上的卷积神经网络则只是一维的，若是输入文本的文本维度高，使用一维的卷积神经网络会导致语义信息丢失。现有技术中公开了一种基于BERT的自适应文本分类方法及装置，首先对待分类语料样本数据进行预处理，构建预设网络模型，然后将预处理后的样本数据输入预设的网络模型，并使用预设的损失函数进行监督训练，得到分类模型，设置所述分类模型的输出阈值，得到设置后的分类模型用于文本分类，在分类模型上设置输出阈值控制分类结果的提前输出，能在不损失精度的情况下，缩短模型推理时间，但BERT使用了12层串联的transformer，并且引入了循环神经网络机制，神经网络模型参数多，训练集需求大，训练时间长，会大量消耗计算机的算力，本身医学自然语言处理就很复杂，因此，如何快速、计算量小地进行文本分类成为一个亟待解决的问题。

发明内容

为解决现有医学文本分类采用的传统文本分类模型具有训练时间长、计算量大的问题，本发明提出一种基于多头注意力机制和二维卷积操作的文本分类方法，计算量小、训练速度快，还兼顾了好的文本分类效果。

为了达到上述技术效果，本发明的技术方案如下：

一种基于多头注意力机制和二维卷积操作的文本分类方法，所述方法包括以下步骤：

S1.确定文本数据集，将文本数据集划分为训练集和测试集；

S2.对训练集中的文本进行预处理操作；

S3.构建神经网络，神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层；

S4.将预处理操作后的文本输入神经网络的嵌入层，得到字向量；

S5.基于字向量形成字向量矩阵，将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射，得到多头注意力机制层后输出的文本增强语义表示，利用文本增强语义表示对多头注意力机制层进行文本分类的预训练；

S6.将文本增强语义表示融合，得到文本融合语义表示，对文本融合语义表示进行二维卷积操作，输出卷积操作特征向量；

S7.利用卷积操作特征向量对神经网络进行文本分类训练，并调整多注意力机制层的权重，得到训练好的神经网络；

S8.对测试集中的文本进行预处理，输入训练好的神经网络，得到分类结果。

优选地，在步骤S2中，对训练集中的文本进行的预处理操作包括：

S21.将训练集中的文本所有标点符号和空格建立停用词表；

S22.依次读取文本中的每一个字符，将每一个字符与停用词表中的字符进行对比，若读取中的字符为停用词表中的字符，则自动跳过；

S23.将已去除标点和空格的文本再进行逐个字符的录入，读取所有文本中的所有字，为每一个字建立一个one-hot向量。

优选地，在步骤S3中，构建的神经网络的嵌入层以文本中逐个字符级别的one-hot向量嵌入作为语义表示，嵌入层共三层，每一层的权重矩阵分别为：W₁、W₂、W₃，各层的激活函数均为sigmoid，各层之间依次相连，对训练集中的文本进行预处理操作后，得到所有文本中的每个字对应的one-hot向量，将每个字的one-hot向量输入神经网络，得到字向量，在每一层进行的计算分别为：

x₁＝sigmoid(W₁x₀+b)

x₂＝sigmoid(W₂x₁+b)

x＝sigmoid(W₃x₂+b)

其中，x₀表示字的one-hot向量，x₁表示x₀经第一层激活后的中间值，x₂表示x₁经第二层激活后的中间值，x表示x₂经第三层激活后得到的最终字向量，b表示偏置向量。

优选地，多个自注意力机制串联形成一个多头注意力机制层，自注意力机制的输入由query、维度为d_k的key和维度为d_v的value组成，为获取value的权重，将一组query视作矩阵Q，key及value分别视作矩阵K和矩阵V，基于softmax函数和注意力attention函数，得到：

Q、K、V的计算方法为：

Q＝XW^Q

K＝XW^K

V＝XW^V

其中，W^Q、W^K、W^V表示自注意力机制三个输入query、key和value的权重矩阵。

优选地，将S4得到的每个字的自向量组成字向量矩阵表示为X＝[x₁，x₂，...，x_n]，将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射，设共R个多头注意力机制层，则得到与X大小相同的R文本增强语义表示X₁，X₂，...，X_R，在多头注意力机制层中的计算公式为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W⁰

其中，

i表示R个多头注意力机制层中多头注意力机制层的次序，i＝1，2，...，R；对X₁，X₂，...，X_R进行flatten操作之后输入一个全连接层即进行文本分类的预训练。

优选地，在步骤S6中，将文本增强语义表示X₁，X₂，...，X_R融合，通过拼接操作实现，得到文本融合语义表示，表征为：X_s＝Concatenate(X₁，X₂，...，X_R)，X_s为一个三维的张量，对文本融合语义表示进行二维卷积操作时，对于卷积层中，X₁，X₂，...，X_R作为输入的R个通道，设置卷积核大小以及卷积核数量，卷积核在第一维度上的大小与词向量的长度相等；对于卷积核C和文本融合语义X_s，卷积结果矩阵的元素计算公式为：

其中，X_s(i，j，k)为输入X_s中的元素，r(p，q)为卷积结果矩阵中的元素，C(i，j-p+1，k-q+1)为卷积核中的元素。

将卷积结果矩阵输入池化层进行最大池化操作，仅保留卷积结果矩阵中最大的元素，每个卷积核对应的输出为：

最终输出卷积操作特征向量，避免了语义信息的丢失。

优选地，利用卷积操作特征向量对神经网络进行文本分类训练时，在全连接层中，通过反向传播算法调整多注意力机制层的权重，利用tensorflow包将预训练好的多头注意力机制层加入新的模型类。

本发明还提出一种计算机设备，包括处理器、存储器及存储在存储器上的计算机程序，所述处理器执行存储在存储器上的计算机程序，以实现权利要求1～7任意一项所述的基于多头注意力机制和二维卷积操作的文本分类方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，该指令被处理器执行时，实现所述的方法的步骤。

本发明还提出一种基于多头注意力机制和二维卷积操作的文本分类系统，所述系统包括：

文本数据集划分模块，用于确定文本数据集，将文本数据集划分为训练集和测试集；

预处理模块，对训练集中的文本进行预处理操作；

神经网络构建模块，用于构建神经网络，神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层；

字向量获取模块，将预处理操作后的文本输入神经网络的嵌入层，得到字向量；

预训练模块，基于字向量形成字向量矩阵，将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射，得到多头注意力机制层后输出的文本增强语义表示，利用文本增强语义表示对多头注意力机制层进行文本分类的预训练；

二维卷积操作模块，将文本增强语义表示融合，得到文本融合语义表示，对文本融合语义表示进行二维卷积操作，输出卷积操作特征向量；

训练模块，利用卷积操作特征向量对神经网络进行文本分类训练，并调整多注意力机制层的权重，得到训练好的神经网络；

测试模块，对测试集中的文本进行预处理，输入训练好的神经网络，得到分类结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于多头注意力机制和二维卷积操作的文本分类方法，首先采集待分类的文本数据集，并划分为训练集和测试集，对训练集中的文本进行预处理操作，然后构建神经网络，将预处理操作后的文本输入神经网络，得到字粒度级别的字向量，体现了不同汉字字符在文本中的重要程度，接着形成多头注意力机制层，基于字向量形成字向量矩阵，将字向量矩阵输入至多头注意力机制层后得到多维的文本张量，即采用一种预训练字向量与多头注意力机制融合作为语义表示的配合方式，得到文本表示张量，然后进行二维卷积操作，提取文本特征，融合不同的多头注意力机制的专注点；引入全连接层，利用卷积操作特征向量对神经网络进行文本分类训练，并调整多注意力机制层的权重，得到训练好的神经网络，对测试集中的文本进行预处理，输入训练好的神经网络，得到分类结果。本发明可以在较小的数据集上取得良好的分类效果和泛化能力，且拟合较快，模型参数少，实现了模型的精简，降低了系统的开销，有效避免了大模型数据需求量大、训练时间长、对电脑算力要求高的问题。

附图说明

图1表示本发明实施例1中提出的基于多头注意力机制和二维卷积操作的文本分类方法的流程示意图；

图2表示本发明实施例1中提出的对训练集中的文本进行的预处理操作的流程示意图；

图3表示本发明实施例1中构建的神经网络的结构图；

图4表示本发明实施例2中提出的单个自注意力机制的结构图；

图5表示本发明实施例2中提出的多头注意力机制层的结构图；

图6表示本发明实施例5中提出的基于多头注意力机制和二维卷积操作的文本分类系统的结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

实施例1

如图1所示，本实施例提出一种基于多头注意力机制和二维卷积操作的文本分类方法，所述方法包括以下步骤：

S1.确定文本数据集，将文本数据集划分为训练集和测试集；

S2.对训练集中的文本进行预处理操作；

参见图2，对训练集中的文本进行的预处理操作包括：

S21.将训练集中的文本所有标点符号和空格建立停用词表；

本实施例采用python语言进行编程，使用的数据集为CMID数据集，这是一个医疗领域的文本分类数据集，其中，包含一万两千九百条文本和16种分类类型。本实施例将90％的文本用作训练集，将10％的文本用作测试集，将所有标点符号和空格建立为停用词表储存在.json格式的文件中，每当程序读取到一个字符的时候会自动与停用词表当中的字符进行比对，若为停用词表中的字符，则自动跳过，最终将文本以汉字的形式逐字分开，即将已经去除标点符号和空格的文本再进行逐个字符的录入，储存于一个list的python数据类型中；然后，首先，读取所有文本中的中所有字，并为其建立一个one-hot向量，并存入数据库中。one-hot向量的维度为数据库中所有字的个数，这个向量只有一个维度上的数值为1，其他维度都是0。每个字都有自己唯一的one-hot向量。

S3.构建神经网络，神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层，构建的神经网络的结构图如图3所示；

构建的神经网络的嵌入层以文本中逐个字符级别的one-hot向量嵌入作为语义表示，嵌入层共三层，各层对应的神经元个数分别为：3076、1024、768，每一层的权重矩阵分别为：W₁、W₂、W₃，各层的激活函数均为sigmoid，sigmoid函数的公式如下：

各层之间依次相连，对训练集中的文本进行预处理操作后，得到所有文本中的每个字对应的one-hot向量，将每个字的one-hot向量输入神经网络，得到字向量，在每一层进行的计算分别为：

x₁＝sigmoid(W₁x₀+b)

x₂＝sigmoid(W₂x₁+b)

x＝sigmoid(W₃x₂+b)

其中，x₀表示字的one-hot向量，x₁表示x₀经第一层激活后的中间值，x₂表示x₁经第二层激活后的中间值，x表示x₂经第三层激活后得到的最终字向量，b表示偏置向量，最终，对应输出一个768维的字向量。

表1为采用本实施例提出的方法与其它现有方式在相同文本数据集上的训练效果对比，可以看出在较少的训练时间内达到不逊于大部分模型的分类效果。

表1

实施例2

本实施例对于多头注意力机制层进行说明，单个自注意力机制的结构图如图4所示，多个自注意力机制串联形成一个多头注意力机制层，多头注意力机制层如图5所示，本实施例使用三个多头注意力机制层的head个数分别为3、6、9，自注意力机制的输入由query、维度为d_k的key和维度为d_v的value组成，为获取value的权重，将一组query视作矩阵Q，key及value分别视作矩阵K和矩阵V，基于softmax函数和注意力attention函数，得到：

Q、K、V的计算方法为：

Q＝XW^Q

K＝XW^K

V＝XW^V

将S4得到的每个字的自向量组成字向量矩阵表示为X＝[x₁，x₂，...，x_n]，将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射，设共R个多头注意力机制层，则得到与X大小相同的R文本增强语义表示X₁，X₂，...，X_R，在多头注意力机制层中的计算公式为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W⁰

其中，

将文本增强语义表示X₁，X₂，...，X_R融合，通过拼接操作实现，得到文本融合语义表示，表征为：X_s＝Concatenate(X₁，X₂，...，X_R)，X_s为一个三维的张量，对文本融合语义表示进行二维卷积操作时，对于卷积层中，X₁，X₂，...，X_R作为输入的R个通道，设置卷积核大小以及卷积核数量，对于卷积核C和文本融合语义X_s，假设输入三个多头注意力机制后的输出分别为：X₁、X₂、X₃，则称X＝[X₁，X₂，X₃]为文本的融合语义表示。X是一个三维的张量，形状为：(3，30，768)。对文本的融合语义表示进行二维卷积操作，X₁、X₂、X₃作为输入的三个通道，卷积核的大小设置为：(2，3)，卷积核的数量为32，卷积核在第一维度上的大小与词向量的长度相等，卷积结果矩阵的元素计算公式为：

其中，X_s(i，j，k)为输入X_s中的元素，Y(p，q)为卷积结果矩阵中的元素，C(i，j-p+1，k-q+1)为卷积核中的元素。

最终输出一个32为的卷积操作特征向量，避免了语义信息的丢失。利用卷积操作特征向量对神经网络进行文本分类训练时，在全连接层中，通过反向传播算法调整多注意力机制层的权重，利用tensorflow包将预训练好的多头注意力机制层加入新的模型类。

实施例3

本实施例提出一种计算机设备，包括处理器、存储器及存储在存储器上的计算机程序，所述处理器执行存储在存储器上的计算机程序，以实现所述的基于多头注意力机制和二维卷积操作的文本分类方法。

存储器可以是磁盘、闪存或其它任何非易失性存储介质，处理器与存储器连接，可以作为一个或多个集成电路来实施，具体的可以为微处理器或微控制器，在执行存储在存储器上的计算机程序时，对于全局模型，实现基于多头注意力机制和二维卷积操作的文本分类方法。

实施例4

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，该指令被处理器执行时，实现所述的方法的步骤。

实施例5

如图6所示，本实施例提出一种基于多头注意力机制和二维卷积操作的文本分类系统，所述系统包括：

预处理模块，对训练集中的文本进行预处理操作；

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多头注意力机制和二维卷积操作的文本分类方法，其特征在于，所述方法包括以下步骤：

S1.确定文本数据集，将文本数据集划分为训练集和测试集；

S2.对训练集中的文本进行预处理操作；

2.根据权利要求1所述的基于多头注意力机制和二维卷积操作的文本分类方法，其特征在于，在步骤S2中，对训练集中的文本进行的预处理操作包括：

S21.将训练集中的文本所有标点符号和空格建立停用词表；

3.根据权利要求2所述的基于多头注意力机制和二维卷积操作的文本分类方法，其特征在于，在步骤S3中，构建的神经网络的嵌入层以文本中逐个字符级别的one-hot向量嵌入作为语义表示，嵌入层共三层，每一层的权重矩阵分别为：W₁、W₂、W₃，各层的激活函数均为sigmoid，各层之间依次相连，对训练集中的文本进行预处理操作后，得到所有文本中的每个字对应的one-hot向量，将每个字的one-hot向量输入神经网络，得到字向量，在每一层进行的计算分别为：

x₁＝sigmoid(W₁x₀+b)

x₂＝sigmoid(W₂x₁+b)

x＝sigmoid(W₃x₂+b)

4.根据权利要求3所述的基于多头注意力机制和二维卷积操作的文本分类方法，其特征在于，多个自注意力机制串联形成一个多头注意力机制层，自注意力机制的输入由query、维度为d_k的key和维度为d_v的value组成，为获取value的权重，将一组query视作矩阵Q，key及value分别视作矩阵K和矩阵V，基于softmax函数和注意力attention函数，得到：

Q、K、V的计算方法为：

Q＝XW^Q

K＝XW^K

V＝XW^V

5.根据权利要求4所述的基于多头注意力机制和二维卷积操作的文本分类方法，其特征在于，将S4得到的每个字的自向量组成字向量矩阵表示为X＝[x₁,x₂,…,x_n]，将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射，设共R个多头注意力机制层，则得到与X大小相同的R文本增强语义表示X₁，X₂，…，X_R，在多头注意力机制层中的计算公式为：

MulriHead(Q,K,V)＝Concat(head₁,…,head_h)W⁰

其中，head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)，i表示R个多头注意力机制层中多头注意力机制层的次序，i＝1，2，…，R；对X₁，X₂，…，X_R进行flatten操作之后输入一个全连接层即进行文本分类的预训练。

6.根据权利要求5所述的基于多头注意力机制和二维卷积操作的文本分类方法，其特征在于，在步骤S6中，将文本增强语义表示X₁，X₂，…，X_R融合，通过拼接操作实现，得到文本融合语义表示，表征为：X_s＝Concatenate(X₁，X₂，…，X_R)，X_s为一个三维的张量，对文本融合语义表示进行二维卷积操作时，对于卷积层中，X_s作为输入，设置卷积核大小以及卷积核数量，卷积核在第一维度上的大小与词向量的长度相等；对于大小为[768,vec2,vec3]的卷积核C和文本融合语义X_s，卷积结果矩阵的元素计算公式为：

其中，X_s(i,j,k)为输入X_s中的元素，Y(p,q)为卷积结果矩阵中的元素，C(i,j-p+1,k-q+1)为卷积核中的元素。

最终输出卷积操作特征向量。

7.根据权利要求6所述的基于多头注意力机制和二维卷积操作的文本分类方法，其特征在于，利用卷积操作特征向量对神经网络进行文本分类训练时，在全连接层中，通过反向传播算法调整多注意力机制层的权重，利用tensorflow包将预训练好的多头注意力机制层加入新的模型类。

8.一种计算机设备，其特征在于，包括处理器、存储器及存储在存储器上的计算机程序，所述处理器执行存储在存储器上的计算机程序，以实现权利要求1～7任意一项所述的基于多头注意力机制和二维卷积操作的文本分类方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，该指令被处理器执行时，实现权利要求1～7任意一项所述的方法的步骤。

10.一种基于多头注意力机制和二维卷积操作的文本分类系统，其特征在于，所述系统包括：

预处理模块，对训练集中的文本进行预处理操作；