CN115168579A - 一种基于多头注意力机制和二维卷积操作的文本分类方法 - Google Patents
一种基于多头注意力机制和二维卷积操作的文本分类方法 Download PDFInfo
- Publication number
- CN115168579A CN115168579A CN202210800916.XA CN202210800916A CN115168579A CN 115168579 A CN115168579 A CN 115168579A CN 202210800916 A CN202210800916 A CN 202210800916A CN 115168579 A CN115168579 A CN 115168579A
- Authority
- CN
- China
- Prior art keywords
- text
- layer
- neural network
- attention mechanism
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 89
- 238000013528 artificial neural network Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000007781 pre-processing Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于多头注意力机制和二维卷积操作的文本分类方法,涉及自然语言处理的技术领域,首先进行预处理操作,然后构建神经网络,将预处理操作后的文本输入神经网络,得到字粒度级别的字向量,体现了不同汉字字符在文本中的重要程度,接着形成多头注意力机制层,采用一种预训练字向量与多头注意力机制融合作为语义表示的配合方式,得到文本表示张量,然后进行二维卷积操作,提取文本特征,融合不同的多头注意力机制的专注点,利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络,最后测试得到分类结果,可以在较小的数据集上取得良好的分类效果和泛化能力,且拟合较快。
Description
技术领域
本发明涉及自然语言处理的技术领域,更具体地,涉及一种基于多头注意力机制和二维卷积操作的文本分类方法。
背景技术
自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理是一门融合语言学、计算机科学及数学于一体的科学,具有极为广泛的应用,如智能语音问答系统、诈骗短信识别、网络评论情感识别等。
在医学领域,临床医学信息大量以非结构化(或半结构化)的文本形式存储于信息系统中,自然语言处理则是从医疗文本中提取有用信息的关键技术。通过自然语言处理,这些非结构化的医疗文本被转化为包含重要医学信息的结构化数据,科研人员才可以从这些结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。其中,文本分类是自然语言处理中最重要的课题之一,在医学领域的自然语言处理中也不例外,因为在这个互联网技术飞速发展的时代,医学界面临的不再是信息获取问题,而是如何在海量信息资源中快速准确地获取有价值的信息,医学文本信息产生方式多样且丰富,巨大的数据量使得人工难以区分与整理,因此,如何进行有效地文本分类变得至关重要。
目前,常用的文本分类方法有支持向量机、卷积神经网络、循环神经网络及BERT等,BERT和RNN可以实现优秀的分类效果,但是其模型较大,训练困难,难以在小型主机上进行应用;TextGCN通过图卷积技术实现了在较小的模型上达到良好的分类效果,但是对于没有见过的节点,TextGCN无法进行分类,且应用在文本上的卷积神经网络则只是一维的,若是输入文本的文本维度高,使用一维的卷积神经网络会导致语义信息丢失。现有技术中公开了一种基于BERT的自适应文本分类方法及装置,首先对待分类语料样本数据进行预处理,构建预设网络模型,然后将预处理后的样本数据输入预设的网络模型,并使用预设的损失函数进行监督训练,得到分类模型,设置所述分类模型的输出阈值,得到设置后的分类模型用于文本分类,在分类模型上设置输出阈值控制分类结果的提前输出,能在不损失精度的情况下,缩短模型推理时间,但BERT使用了12层串联的transformer,并且引入了循环神经网络机制,神经网络模型参数多,训练集需求大,训练时间长,会大量消耗计算机的算力,本身医学自然语言处理就很复杂,因此,如何快速、计算量小地进行文本分类成为一个亟待解决的问题。
发明内容
为解决现有医学文本分类采用的传统文本分类模型具有训练时间长、计算量大的问题,本发明提出一种基于多头注意力机制和二维卷积操作的文本分类方法,计算量小、训练速度快,还兼顾了好的文本分类效果。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多头注意力机制和二维卷积操作的文本分类方法,所述方法包括以下步骤:
S1.确定文本数据集,将文本数据集划分为训练集和测试集;
S2.对训练集中的文本进行预处理操作;
S3.构建神经网络,神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层;
S4.将预处理操作后的文本输入神经网络的嵌入层,得到字向量;
S5.基于字向量形成字向量矩阵,将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,得到多头注意力机制层后输出的文本增强语义表示,利用文本增强语义表示对多头注意力机制层进行文本分类的预训练;
S6.将文本增强语义表示融合,得到文本融合语义表示,对文本融合语义表示进行二维卷积操作,输出卷积操作特征向量;
S7.利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络;
S8.对测试集中的文本进行预处理,输入训练好的神经网络,得到分类结果。
优选地,在步骤S2中,对训练集中的文本进行的预处理操作包括:
S21.将训练集中的文本所有标点符号和空格建立停用词表;
S22.依次读取文本中的每一个字符,将每一个字符与停用词表中的字符进行对比,若读取中的字符为停用词表中的字符,则自动跳过;
S23.将已去除标点和空格的文本再进行逐个字符的录入,读取所有文本中的所有字,为每一个字建立一个one-hot向量。
优选地,在步骤S3中,构建的神经网络的嵌入层以文本中逐个字符级别的one-hot向量嵌入作为语义表示,嵌入层共三层,每一层的权重矩阵分别为:W1、W2、W3,各层的激活函数均为sigmoid,各层之间依次相连,对训练集中的文本进行预处理操作后,得到所有文本中的每个字对应的one-hot向量,将每个字的one-hot向量输入神经网络,得到字向量,在每一层进行的计算分别为:
x1=sigmoid(W1x0+b)
x2=sigmoid(W2x1+b)
x=sigmoid(W3x2+b)
其中,x0表示字的one-hot向量,x1表示x0经第一层激活后的中间值,x2表示x1经第二层激活后的中间值,x表示x2经第三层激活后得到的最终字向量,b表示偏置向量。
优选地,多个自注意力机制串联形成一个多头注意力机制层,自注意力机制的输入由query、维度为dk的key和维度为dv的value组成,为获取value的权重,将一组query视作矩阵Q,key及value分别视作矩阵K和矩阵V,基于softmax函数和注意力attention函数,得到:
Q、K、V的计算方法为:
Q=XWQ
K=XWK
V=XWV
其中,WQ、WK、WV表示自注意力机制三个输入query、key和value的权重矩阵。
优选地,将S4得到的每个字的自向量组成字向量矩阵表示为X=[x1,x2,...,xn],将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,设共R个多头注意力机制层,则得到与X大小相同的R文本增强语义表示X1,X2,...,XR,在多头注意力机制层中的计算公式为:
MultiHead(Q,K,V)=Concat(head1,...,headh)W0
优选地,在步骤S6中,将文本增强语义表示X1,X2,...,XR融合,通过拼接操作实现,得到文本融合语义表示,表征为:Xs=Concatenate(X1,X2,...,XR),Xs为一个三维的张量,对文本融合语义表示进行二维卷积操作时,对于卷积层中,X1,X2,...,XR作为输入的R个通道,设置卷积核大小以及卷积核数量,卷积核在第一维度上的大小与词向量的长度相等;对于卷积核C和文本融合语义Xs,卷积结果矩阵的元素计算公式为:
其中,Xs(i,j,k)为输入Xs中的元素,r(p,q)为卷积结果矩阵中的元素,C(i,j-p+1,k-q+1)为卷积核中的元素。
将卷积结果矩阵输入池化层进行最大池化操作,仅保留卷积结果矩阵中最大的元素,每个卷积核对应的输出为:
最终输出卷积操作特征向量,避免了语义信息的丢失。
优选地,利用卷积操作特征向量对神经网络进行文本分类训练时,在全连接层中,通过反向传播算法调整多注意力机制层的权重,利用tensorflow包将预训练好的多头注意力机制层加入新的模型类。
本发明还提出一种计算机设备,包括处理器、存储器及存储在存储器上的计算机程序,所述处理器执行存储在存储器上的计算机程序,以实现权利要求1~7任意一项所述的基于多头注意力机制和二维卷积操作的文本分类方法。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,该指令被处理器执行时,实现所述的方法的步骤。
本发明还提出一种基于多头注意力机制和二维卷积操作的文本分类系统,所述系统包括:
文本数据集划分模块,用于确定文本数据集,将文本数据集划分为训练集和测试集;
预处理模块,对训练集中的文本进行预处理操作;
神经网络构建模块,用于构建神经网络,神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层;
字向量获取模块,将预处理操作后的文本输入神经网络的嵌入层,得到字向量;
预训练模块,基于字向量形成字向量矩阵,将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,得到多头注意力机制层后输出的文本增强语义表示,利用文本增强语义表示对多头注意力机制层进行文本分类的预训练;
二维卷积操作模块,将文本增强语义表示融合,得到文本融合语义表示,对文本融合语义表示进行二维卷积操作,输出卷积操作特征向量;
训练模块,利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络;
测试模块,对测试集中的文本进行预处理,输入训练好的神经网络,得到分类结果。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于多头注意力机制和二维卷积操作的文本分类方法,首先采集待分类的文本数据集,并划分为训练集和测试集,对训练集中的文本进行预处理操作,然后构建神经网络,将预处理操作后的文本输入神经网络,得到字粒度级别的字向量,体现了不同汉字字符在文本中的重要程度,接着形成多头注意力机制层,基于字向量形成字向量矩阵,将字向量矩阵输入至多头注意力机制层后得到多维的文本张量,即采用一种预训练字向量与多头注意力机制融合作为语义表示的配合方式,得到文本表示张量,然后进行二维卷积操作,提取文本特征,融合不同的多头注意力机制的专注点;引入全连接层,利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络,对测试集中的文本进行预处理,输入训练好的神经网络,得到分类结果。本发明可以在较小的数据集上取得良好的分类效果和泛化能力,且拟合较快,模型参数少,实现了模型的精简,降低了系统的开销,有效避免了大模型数据需求量大、训练时间长、对电脑算力要求高的问题。
附图说明
图1表示本发明实施例1中提出的基于多头注意力机制和二维卷积操作的文本分类方法的流程示意图;
图2表示本发明实施例1中提出的对训练集中的文本进行的预处理操作的流程示意图;
图3表示本发明实施例1中构建的神经网络的结构图;
图4表示本发明实施例2中提出的单个自注意力机制的结构图;
图5表示本发明实施例2中提出的多头注意力机制层的结构图;
图6表示本发明实施例5中提出的基于多头注意力机制和二维卷积操作的文本分类系统的结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
如图1所示,本实施例提出一种基于多头注意力机制和二维卷积操作的文本分类方法,所述方法包括以下步骤:
S1.确定文本数据集,将文本数据集划分为训练集和测试集;
S2.对训练集中的文本进行预处理操作;
参见图2,对训练集中的文本进行的预处理操作包括:
S21.将训练集中的文本所有标点符号和空格建立停用词表;
S22.依次读取文本中的每一个字符,将每一个字符与停用词表中的字符进行对比,若读取中的字符为停用词表中的字符,则自动跳过;
S23.将已去除标点和空格的文本再进行逐个字符的录入,读取所有文本中的所有字,为每一个字建立一个one-hot向量。
本实施例采用python语言进行编程,使用的数据集为CMID数据集,这是一个医疗领域的文本分类数据集,其中,包含一万两千九百条文本和16种分类类型。本实施例将90%的文本用作训练集,将10%的文本用作测试集,将所有标点符号和空格建立为停用词表储存在.json格式的文件中,每当程序读取到一个字符的时候会自动与停用词表当中的字符进行比对,若为停用词表中的字符,则自动跳过,最终将文本以汉字的形式逐字分开,即将已经去除标点符号和空格的文本再进行逐个字符的录入,储存于一个list的python数据类型中;然后,首先,读取所有文本中的中所有字,并为其建立一个one-hot向量,并存入数据库中。one-hot向量的维度为数据库中所有字的个数,这个向量只有一个维度上的数值为1,其他维度都是0。每个字都有自己唯一的one-hot向量。
S3.构建神经网络,神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层,构建的神经网络的结构图如图3所示;
S4.将预处理操作后的文本输入神经网络的嵌入层,得到字向量;
构建的神经网络的嵌入层以文本中逐个字符级别的one-hot向量嵌入作为语义表示,嵌入层共三层,各层对应的神经元个数分别为:3076、1024、768,每一层的权重矩阵分别为:W1、W2、W3,各层的激活函数均为sigmoid,sigmoid函数的公式如下:
各层之间依次相连,对训练集中的文本进行预处理操作后,得到所有文本中的每个字对应的one-hot向量,将每个字的one-hot向量输入神经网络,得到字向量,在每一层进行的计算分别为:
x1=sigmoid(W1x0+b)
x2=sigmoid(W2x1+b)
x=sigmoid(W3x2+b)
其中,x0表示字的one-hot向量,x1表示x0经第一层激活后的中间值,x2表示x1经第二层激活后的中间值,x表示x2经第三层激活后得到的最终字向量,b表示偏置向量,最终,对应输出一个768维的字向量。
S5.基于字向量形成字向量矩阵,将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,得到多头注意力机制层后输出的文本增强语义表示,利用文本增强语义表示对多头注意力机制层进行文本分类的预训练;
S6.将文本增强语义表示融合,得到文本融合语义表示,对文本融合语义表示进行二维卷积操作,输出卷积操作特征向量;
S7.利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络;
S8.对测试集中的文本进行预处理,输入训练好的神经网络,得到分类结果。
表1为采用本实施例提出的方法与其它现有方式在相同文本数据集上的训练效果对比,可以看出在较少的训练时间内达到不逊于大部分模型的分类效果。
表1
实施例2
本实施例对于多头注意力机制层进行说明,单个自注意力机制的结构图如图4所示,多个自注意力机制串联形成一个多头注意力机制层,多头注意力机制层如图5所示,本实施例使用三个多头注意力机制层的head个数分别为3、6、9,自注意力机制的输入由query、维度为dk的key和维度为dv的value组成,为获取value的权重,将一组query视作矩阵Q,key及value分别视作矩阵K和矩阵V,基于softmax函数和注意力attention函数,得到:
Q、K、V的计算方法为:
Q=XWQ
K=XWK
V=XWV
其中,WQ、WK、WV表示自注意力机制三个输入query、key和value的权重矩阵。
将S4得到的每个字的自向量组成字向量矩阵表示为X=[x1,x2,...,xn],将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,设共R个多头注意力机制层,则得到与X大小相同的R文本增强语义表示X1,X2,...,XR,在多头注意力机制层中的计算公式为:
MultiHead(Q,K,V)=Concat(head1,...,headh)W0
将文本增强语义表示X1,X2,...,XR融合,通过拼接操作实现,得到文本融合语义表示,表征为:Xs=Concatenate(X1,X2,...,XR),Xs为一个三维的张量,对文本融合语义表示进行二维卷积操作时,对于卷积层中,X1,X2,...,XR作为输入的R个通道,设置卷积核大小以及卷积核数量,对于卷积核C和文本融合语义Xs,假设输入三个多头注意力机制后的输出分别为:X1、X2、X3,则称X=[X1,X2,X3]为文本的融合语义表示。X是一个三维的张量,形状为:(3,30,768)。对文本的融合语义表示进行二维卷积操作,X1、X2、X3作为输入的三个通道,卷积核的大小设置为:(2,3),卷积核的数量为32,卷积核在第一维度上的大小与词向量的长度相等,卷积结果矩阵的元素计算公式为:
其中,Xs(i,j,k)为输入Xs中的元素,Y(p,q)为卷积结果矩阵中的元素,C(i,j-p+1,k-q+1)为卷积核中的元素。
将卷积结果矩阵输入池化层进行最大池化操作,仅保留卷积结果矩阵中最大的元素,每个卷积核对应的输出为:
最终输出一个32为的卷积操作特征向量,避免了语义信息的丢失。利用卷积操作特征向量对神经网络进行文本分类训练时,在全连接层中,通过反向传播算法调整多注意力机制层的权重,利用tensorflow包将预训练好的多头注意力机制层加入新的模型类。
实施例3
本实施例提出一种计算机设备,包括处理器、存储器及存储在存储器上的计算机程序,所述处理器执行存储在存储器上的计算机程序,以实现所述的基于多头注意力机制和二维卷积操作的文本分类方法。
存储器可以是磁盘、闪存或其它任何非易失性存储介质,处理器与存储器连接,可以作为一个或多个集成电路来实施,具体的可以为微处理器或微控制器,在执行存储在存储器上的计算机程序时,对于全局模型,实现基于多头注意力机制和二维卷积操作的文本分类方法。
实施例4
本实施例提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,该指令被处理器执行时,实现所述的方法的步骤。
实施例5
如图6所示,本实施例提出一种基于多头注意力机制和二维卷积操作的文本分类系统,所述系统包括:
文本数据集划分模块,用于确定文本数据集,将文本数据集划分为训练集和测试集;
预处理模块,对训练集中的文本进行预处理操作;
神经网络构建模块,用于构建神经网络,神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层;
字向量获取模块,将预处理操作后的文本输入神经网络的嵌入层,得到字向量;
预训练模块,基于字向量形成字向量矩阵,将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,得到多头注意力机制层后输出的文本增强语义表示,利用文本增强语义表示对多头注意力机制层进行文本分类的预训练;
二维卷积操作模块,将文本增强语义表示融合,得到文本融合语义表示,对文本融合语义表示进行二维卷积操作,输出卷积操作特征向量;
训练模块,利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络;
测试模块,对测试集中的文本进行预处理,输入训练好的神经网络,得到分类结果。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于多头注意力机制和二维卷积操作的文本分类方法,其特征在于,所述方法包括以下步骤:
S1.确定文本数据集,将文本数据集划分为训练集和测试集;
S2.对训练集中的文本进行预处理操作;
S3.构建神经网络,神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层;
S4.将预处理操作后的文本输入神经网络的嵌入层,得到字向量;
S5.基于字向量形成字向量矩阵,将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,得到多头注意力机制层后输出的文本增强语义表示,利用文本增强语义表示对多头注意力机制层进行文本分类的预训练;
S6.将文本增强语义表示融合,得到文本融合语义表示,对文本融合语义表示进行二维卷积操作,输出卷积操作特征向量;
S7.利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络;
S8.对测试集中的文本进行预处理,输入训练好的神经网络,得到分类结果。
2.根据权利要求1所述的基于多头注意力机制和二维卷积操作的文本分类方法,其特征在于,在步骤S2中,对训练集中的文本进行的预处理操作包括:
S21.将训练集中的文本所有标点符号和空格建立停用词表;
S22.依次读取文本中的每一个字符,将每一个字符与停用词表中的字符进行对比,若读取中的字符为停用词表中的字符,则自动跳过;
S23.将已去除标点和空格的文本再进行逐个字符的录入,读取所有文本中的所有字,为每一个字建立一个one-hot向量。
3.根据权利要求2所述的基于多头注意力机制和二维卷积操作的文本分类方法,其特征在于,在步骤S3中,构建的神经网络的嵌入层以文本中逐个字符级别的one-hot向量嵌入作为语义表示,嵌入层共三层,每一层的权重矩阵分别为:W1、W2、W3,各层的激活函数均为sigmoid,各层之间依次相连,对训练集中的文本进行预处理操作后,得到所有文本中的每个字对应的one-hot向量,将每个字的one-hot向量输入神经网络,得到字向量,在每一层进行的计算分别为:
x1=sigmoid(W1x0+b)
x2=sigmoid(W2x1+b)
x=sigmoid(W3x2+b)
其中,x0表示字的one-hot向量,x1表示x0经第一层激活后的中间值,x2表示x1经第二层激活后的中间值,x表示x2经第三层激活后得到的最终字向量,b表示偏置向量。
5.根据权利要求4所述的基于多头注意力机制和二维卷积操作的文本分类方法,其特征在于,将S4得到的每个字的自向量组成字向量矩阵表示为X=[x1,x2,…,xn],将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,设共R个多头注意力机制层,则得到与X大小相同的R文本增强语义表示X1,X2,…,XR,在多头注意力机制层中的计算公式为:
MulriHead(Q,K,V)=Concat(head1,…,headh)W0
其中,headi=Attention(QWi Q,KWi K,VWi V),i表示R个多头注意力机制层中多头注意力机制层的次序,i=1,2,…,R;对X1,X2,…,XR进行flatten操作之后输入一个全连接层即进行文本分类的预训练。
6.根据权利要求5所述的基于多头注意力机制和二维卷积操作的文本分类方法,其特征在于,在步骤S6中,将文本增强语义表示X1,X2,…,XR融合,通过拼接操作实现,得到文本融合语义表示,表征为:Xs=Concatenate(X1,X2,…,XR),Xs为一个三维的张量,对文本融合语义表示进行二维卷积操作时,对于卷积层中,Xs作为输入,设置卷积核大小以及卷积核数量,卷积核在第一维度上的大小与词向量的长度相等;对于大小为[768,vec2,vec3]的卷积核C和文本融合语义Xs,卷积结果矩阵的元素计算公式为:
其中,Xs(i,j,k)为输入Xs中的元素,Y(p,q)为卷积结果矩阵中的元素,C(i,j-p+1,k-q+1)为卷积核中的元素。
将卷积结果矩阵输入池化层进行最大池化操作,仅保留卷积结果矩阵中最大的元素,每个卷积核对应的输出为:
最终输出卷积操作特征向量。
7.根据权利要求6所述的基于多头注意力机制和二维卷积操作的文本分类方法,其特征在于,利用卷积操作特征向量对神经网络进行文本分类训练时,在全连接层中,通过反向传播算法调整多注意力机制层的权重,利用tensorflow包将预训练好的多头注意力机制层加入新的模型类。
8.一种计算机设备,其特征在于,包括处理器、存储器及存储在存储器上的计算机程序,所述处理器执行存储在存储器上的计算机程序,以实现权利要求1~7任意一项所述的基于多头注意力机制和二维卷积操作的文本分类方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,该指令被处理器执行时,实现权利要求1~7任意一项所述的方法的步骤。
10.一种基于多头注意力机制和二维卷积操作的文本分类系统,其特征在于,所述系统包括:
文本数据集划分模块,用于确定文本数据集,将文本数据集划分为训练集和测试集;
预处理模块,对训练集中的文本进行预处理操作;
神经网络构建模块,用于构建神经网络,神经网络包括依次连接的嵌入层、多头注意力机制层、卷积层、池化层及全连接层;
字向量获取模块,将预处理操作后的文本输入神经网络的嵌入层,得到字向量;
预训练模块,基于字向量形成字向量矩阵,将字向量矩阵输入至多头注意力机制层并行执行注意力函数后拼接映射,得到多头注意力机制层后输出的文本增强语义表示,利用文本增强语义表示对多头注意力机制层进行文本分类的预训练;
二维卷积操作模块,将文本增强语义表示融合,得到文本融合语义表示,对文本融合语义表示进行二维卷积操作,输出卷积操作特征向量;
训练模块,利用卷积操作特征向量对神经网络进行文本分类训练,并调整多注意力机制层的权重,得到训练好的神经网络;
测试模块,对测试集中的文本进行预处理,输入训练好的神经网络,得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800916.XA CN115168579A (zh) | 2022-07-08 | 2022-07-08 | 一种基于多头注意力机制和二维卷积操作的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210800916.XA CN115168579A (zh) | 2022-07-08 | 2022-07-08 | 一种基于多头注意力机制和二维卷积操作的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115168579A true CN115168579A (zh) | 2022-10-11 |
Family
ID=83492736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210800916.XA Pending CN115168579A (zh) | 2022-07-08 | 2022-07-08 | 一种基于多头注意力机制和二维卷积操作的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168579A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562284A (zh) * | 2023-04-14 | 2023-08-08 | 湖北经济学院 | 一种政务文本自动分拨模型训练方法及装置 |
CN116660992A (zh) * | 2023-06-05 | 2023-08-29 | 北京石油化工学院 | 一种基于多特征融合的地震信号处理方法 |
CN117573869A (zh) * | 2023-11-20 | 2024-02-20 | 中国电子科技集团公司第十五研究所 | 一种网络引接资源关键要素提取方法 |
CN118277538A (zh) * | 2024-06-04 | 2024-07-02 | 杭州昊清科技有限公司 | 一种基于检索增强语言模型的法律智能问答方法 |
-
2022
- 2022-07-08 CN CN202210800916.XA patent/CN115168579A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562284A (zh) * | 2023-04-14 | 2023-08-08 | 湖北经济学院 | 一种政务文本自动分拨模型训练方法及装置 |
CN116562284B (zh) * | 2023-04-14 | 2024-01-26 | 湖北经济学院 | 一种政务文本自动分拨模型训练方法及装置 |
CN116660992A (zh) * | 2023-06-05 | 2023-08-29 | 北京石油化工学院 | 一种基于多特征融合的地震信号处理方法 |
CN116660992B (zh) * | 2023-06-05 | 2024-03-05 | 北京石油化工学院 | 一种基于多特征融合的地震信号处理方法 |
CN117573869A (zh) * | 2023-11-20 | 2024-02-20 | 中国电子科技集团公司第十五研究所 | 一种网络引接资源关键要素提取方法 |
CN118277538A (zh) * | 2024-06-04 | 2024-07-02 | 杭州昊清科技有限公司 | 一种基于检索增强语言模型的法律智能问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Diallo et al. | Deep embedding clustering based on contractive autoencoder | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110147457B (zh) | 图文匹配方法、装置、存储介质及设备 | |
CN112711953B (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN115168579A (zh) | 一种基于多头注意力机制和二维卷积操作的文本分类方法 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
Lin et al. | Deep structured scene parsing by learning with image descriptions | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN114528898A (zh) | 基于自然语言命令的场景图修改 | |
Puscasiu et al. | Automated image captioning | |
Wei et al. | Sequential transformer via an outside-in attention for image captioning | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CN117171393A (zh) | 一种面向多模态检索的自适应半配对询问哈希方法 | |
CN118411572A (zh) | 基于多模态多层次特征聚合的小样本图像分类方法及系统 | |
Tiwari et al. | Learning semantic image attributes using image recognition and knowledge graph embeddings | |
Mohammadi et al. | A comprehensive survey on multi-hop machine reading comprehension approaches | |
Gong et al. | Document-Level Joint Biomedical Event Extraction Model Using Hypergraph Convolutional Networks | |
Habib et al. | GAC-Text-to-Image Synthesis with Generative Models using Attention Mechanisms with Contrastive Learning | |
Borkar et al. | An application of generative adversarial network in natural language generation | |
CN111259650A (zh) | 基于类标序列生成式对抗模型的文本自动生成方法 | |
Yang et al. | Network Configuration Entity Extraction Method Based on Transformer with Multi-Head Attention Mechanism. | |
CN117556275B (zh) | 相关度模型数据处理方法、装置、计算机设备和存储介质 | |
CN117972484B (zh) | 一种可解释性的多模态自然语言情感分析方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |