CN113806547A - 一种基于图模型的深度学习多标签文本分类方法 - Google Patents
一种基于图模型的深度学习多标签文本分类方法 Download PDFInfo
- Publication number
- CN113806547A CN113806547A CN202111201995.4A CN202111201995A CN113806547A CN 113806547 A CN113806547 A CN 113806547A CN 202111201995 A CN202111201995 A CN 202111201995A CN 113806547 A CN113806547 A CN 113806547A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- word
- graph
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005034 decoration Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于图模型的深度学习多标签文本分类方法,本发明分析了现有的CNN网络和RNN网络在文本信息提取上的弱点,以及多标签文本分类任务中使用标签信息的不足,提出了一种基于图模型的深度学习多标签文本分类方法。该方法借助图结构的灵活性,构造文本、单词和标签的异构图,通过GCN网络学习相关表示,为了有效利用标签信息,利用注意力机制将文本中的单词特征和标签特征进行融合,学习与标签相关的文本特征,最终通过注意力机制将与标签相关的文本特征和图中学习到的文本特征进行融合,作为模型最终提取的文本特征。通过对比实验,发现该方法在多标签文本分类的多个指标上有所提升。
Description
技术领域
本发明属于文本信息处理领域,尤其涉及一种基于图模型的深度学习多标签文本分类方法。
背景技术
随着互联网时代的到来,日常生活中的信息呈爆炸的趋势增长,其中文本作为一种基础的信息载体,包含的海量信息。人们需要对文本信息进行有效的整理分类,进而高效的获取文本信息。文本分类具有广泛的现实应用场景,如垃圾邮件过滤,论文归档,新闻舆情分析等。然而现实生活中文本分类往往涉及多标签文本分类,即一个文本可以对应多个标签,如新闻和论文中可同时包含多个主题标签,这使得文本信息更加丰富,文本和标签的对应关系也更加复杂,已有的方法难以适用,这使得多标签文本分类成为自然语言处理领域的一个研究热点。
现有的多标签文本分类问题的解决思路主要有两种,其一是将多标签文本分类转化为普通的文本分类问题,利用现有的文本分类方法解决问题;另一种是利用深度学习优秀的信息提取能力,融合包括标签信息、文本句法信息、文本语义信息在内的多种信息,解决多标签文本分类问题。但是这些方法在性能上仍有所欠缺,究其原因,存在下面几个问题:
首先,文本特征的获取,依赖常用的神经网络,卷积神经网络(ConvolutionalNeural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。这些网络往往关注于局部的文本信息,而忽略的信息的全局关联,在文本信息不足时,无法捕捉到合理的文本特征。而可以捕捉全局信息的图卷积神经网络(Graph Convolutional Network,GCN),因为文本构图等难题,则未收到广泛重视。
其次,现有工作忽略了对多标签文本分类任务有着重要作用的标签信息。普通的文本分类中文本只对应一个标签,而多标签文本分类任务中文本可对应多个标签。经过观察不难发现,多标签文本分类任务中,属于同一文本的标签往往具有一定的关联,如论文的多个主题标签往往是实际相关的。合理利用标签关联可辅助多标签文本分类任务。而部分工作虽然注意到标签信息,但往往只利用了标签的文本信息和标签的共现信息中的一者。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于图模型的深度学习多标签文本分类方法,
本发明提出了一种基于图模型的深度学习多标签文本分类方法。该方法利用图结构的灵活性,构造文本中的信息关联,文本图中包括文本、单词和标签节点,节点间的边可以反映节点的语义和共现信息;基于GCN网络捕捉全局的文本、单词和标签特征;然后,利用注意力集合融合文本和标签的信息;最终,融合与标签相关的文本特征和图中的文本特征,用于多标签文本分类。实验表明,在多标签文本分类任务中,该方法在性能上有所提升,且具有良好的可解释性。
为实现上述目的,本发明采用如下技术方案:
一种基于图模型的深度学习多标签文本分类方法,包括以下步骤:
步骤1,数据预处理;
步骤2,构建文本图;
步骤3,构建模型输入;
步骤4,构建深度学习多标签文本分类模型;
步骤5,训练模型;
步骤6,根据步骤5训练的模型得到文本分类结果。
步骤1包括:
步骤1-1,利用开源工具NLTK进行分词、去除停止词、英文大写转小写;
步骤1-2,统计数据集D中的文本中的单词频率,删除出现次数小于X1(一般取值为5)的单词:
word_frequence={word1:count1,word2:count2,…,wordε:countε}
其中wordε:countε表示统计得到的第ε个单词wordε及其出现频率countε,ε=|vocabulary|,vocabulary为数据集中文本的词汇量,ε表示单词总数;数据集D经过预处理后,表示为其中,xi表示预处理后的第i个文本,yi∈{0,1}L表示xi对应的标签,L为数据集标签总数;
将数据集按比例随机划分为训练集、测试集和验证集,划分由随机抽样决定,分别用于模型训练,模型性能测试和训练过程中模型验证,具体划分情况如图3。
步骤2包括:
对于数据集D’,构造文本图G=(V,E,A);
其中,V(|V|=Z)是图中节点集,图中的节点为文本、单词和标签,Z=N+L+|vocabulary|为数据集中文本数量、词汇量和标签数量的和,E是图中的边集,A∈RZ×Z表示图的邻接矩阵,RZ×Z代表二维实数矩阵,两个维度的大小分别为Z、Z,A表示为:
其中,PMI(i,j)为i,j的互信息;TF-IDF是一种常用来统计文本和单词相关性的统计方法,TF-IDFij即表示文本和单词相关性(符号-是连词符号),TF是词频(TermFrequency),IDF是逆文本频率指数(Inverse Document Frequency),这里用来统计文本-单词、文本-标签的全局关联;
其中,当i,j都是单词时,Aij表示单词之间的互信息(PMI),计算方式如下:
其中,函数#W()统计了数据集中出现单词i、单词j以及两个单词共同出现的滑动窗口数量,#W为滑动窗口总数,互信息PMI(i,j)为负数时用0代替,p(i)是单词i基于滑动窗口的统计概率,p(i,j)为单词i和单词j基于滑动窗口共同出现的概率,p(j)是单词j基于滑动窗口的统计概率;
当i,j都是标签时,Aij表示标签之间互信息,计算方式如下:
其中,函数#()统计了目标标签在数据集的训练集中的出现次数,training_sample为训练样本,PMI(i,j)为负数时用0代替;
当i,j分别为文本和单词时,Aij表示文本和单词的相关性,计算方式如下:
TF-IDFij=TF*IDFij
其中,X2表示一个单词在训练集文本中出现的次数,X3表示文本总词数,X4表示语料中文本数,X5表示包含所述单词的文本数;
当i,j为文本和标签时,Aij表示文本和标签的相关性,计算方式如下:
TF-IDFij=TF*IDFij
其中,X6表示一个标签在训练集文本中出现次数,X7表示文本标签总数,X8表示训练集文本数,X9表示包含所述标签的训练集文本数;
当i=j时,Aij设置为默认值1;
其它情况下,Aij为0。
步骤3包括:
对于数据集D’中任意一个待分析样本(x,y),将其表示为:
x=[1,0,0,0,…,0]
y=[1,0,0,1,…,0]
其中,x∈RZ为表示序号的独热向量(one-hot)向量,y∈RL表示x对应的标签集的one-hot表示,L表示标签总数;
初始输入矩阵X∈RZ×Z,包含了所有图中节点的one-hot向量。
步骤4包括:
建立深度学习多标签文本分类模型,深度学习多标签文本分类模型基于图卷积神经网络GCN的提取文本图中文本、标签和单词的全局特征,基于注意力机制融合标签特征和单词特征学习和标签相关的文本特征,将与标签相关的文本特征和文本图中的文本特征根据自适应权重进行融合,作为最终的文本特征,最终融合了标签特征的文本特征经过分类器得到文本对于标签的预测概率;每种标签都会对应一个基于全连接层的特征二分类器;文本对所有标签都学习一个融合了标签特征的文本特征,为每一种标签相关的特征训练一种分类器,分类器由多层感知机实现(多层感知机,Multilayer Perceptron,一种现有技术),经过特定标签的分类器,最终得到所有标签的分类结果其中为第p个位置上的标签预测概率;
步骤4还包括:在基于图卷积神经网络GCN的全局信息提取阶段,包括以下内容:
全局特征提取阶段输入为初始输入矩阵X;
全局特征提取采用了两层GCN网络,每一层图卷积使得节点与其邻居节点进行信息交换,输出图中所有节点的表示;
每一层拥有独立的参数矩阵Wi,输出的特征维度与参数相关;
前一层的节点特征矩阵,作为下一层输入,取第二层的输出特征,作为文本图中节点的特征;
基于GCN网络的每一层间的信息迭代如下:
Li∈RZ×k为第i层输出,Z为图中节点总数,k为节点特征维度,由参数Wi控制,ρ()为激活函数,前一层的输出特征作为下一层的输入特征;第一层的输入特征为初始输入矩阵X,取第二层的输出作为文本图中的结点特征;为步骤2中文本图的邻接矩阵A经过对称归一化后的矩阵,计算方式如下:
Dii=∑jAij
其中Dii为邻接矩阵A的度矩阵。
步骤4还包括:基于注意力机制的标签相关文本特征提取,包括以下内容:
基于GCN提取出文本图中文本、标签和单词节点的全局特征:基于注意力机制,对于长度为m的文本k和标签i,利用文本中的单词特征和标签特征,学习与标签相关的文本特征dik,计算方式如下:
其中va,Wa,Ua为参数,eij为计算的中间结果,exp()是以自然常数e为底的指数函数,wj和li分别为GCN网络提取的文本中的单词特征和标签特征,αij为标签对文本单词的权重,根据权重参数融合文本中的单词特征,最终得到与标签相关的文本特征dik。
步骤4还包括:获取最终文本分类特征,并进行分类,包括以下内容:
将与标签相关的文本特征和文本图中的文本特征进行自适应融合,得到最终的文本特征dik-fusion,计算方式如下:
dik-fusion=βkdk+(1-βk)dik
其中为参数,sigmoid()为激活函数,与标签相关的文本特征dik和文本图中的文本特征dk经过全连接层获得信息融合的权重参数βk,根据信息融合权重,融合dik和dk,得到最终的文本特征dik-fusion,经过多层感知机构成的分类器得到最终的结果。
步骤5包括:
将训练集数据输入深度学习多标签文本分类模型,提取文本特征后,经过多层线性感知机得到标签预测概率,采用交叉熵损失函数,使用Adam优化器进行训练,多标签文本分类的交叉熵损失函数l如下:
步骤6包括:
将测试集数据输入训练好的深度学习多标签文本分类模型,最终输出多标签文本分类结果,评估指标包括微观F1(Micro-F1)和汉明损失(HL),计算方式如下:
其中,Micro-F1表示微观F1,Micro-F1需统计预测结果的样本信息,tpi为第i个标签的真阳性样本数量,fni为第i个标签的假阴性样本数量,fpi为第i个标签的假阳性样本数量;为单个样本的汉明损失,y为样本的实际标签概率,为样本的标签预测概率,yi、分别为样本在第p个标签上的实际概率和预测概率,函数为指示函数。
本发明充分利用了注意力机制、GCN网络,提出了并实现了一种基于图模型的深度学习多标签文本分类方法。此方法能够有效的提高多标签文本分类任务的性能,并具有良好的可解释性。
有益效果:本发明利用了相对新颖的图结构,构造了文本信息关联,具有很好的灵活性;本发明基于图卷神经网络提取特征,可以获取信息的全局关联,缓解了局部信息不足的问题;本发明中通过图模型,获取更加丰富的标签特征(标签共现特征和文本特征);本发明基于注意力机制学习与标签相关文本特征,使得标签与文本之间的关联,具有良好的可解释性;本发明融合了标签特征和文本特征进行多标签文本分类,最终提出的模型,在主要性能上,相较于传统方法有所提升。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的方法流程图;
图2是基于图模型的深度学习多标签文本分类模型结构示意图。
图3是实施例使用的两个多标签文本数据集示意图。
图4是学习文本对应特定标签的表示时,文本信息的关注情况示意图。
具体实施方式
如图1所示,本发明提供了一种基于图模型的深度学习多标签文本分类方法,包括如下步骤:
步骤1,数据预处理:
1)分词、参考NLTK库中的停止词表去除停止词、英文大写转小写;
2)统计数据集文本中的单词频率,删除出现次数小于5的单词
word_frequence={word1:count1,word2:count2,…,wordε:countε}
其中,ε=|vocabulary|,表示单词总数。
步骤2,构建文本图:
对于数据集D’,构造文本图G=(V,E,A),如图2中虚线框中所示。
其中,V(|V|=z)是图中节点集,图中的节点包括文本节点(如图2中d1,d2)、单词节点(如图2中w1,w2,w3,w4,w5)、标签节点(如图2中l1,l2),Z=N+L+|vocabulary|为数据集中文本数量、词汇量和标签数量的和,E是图中的边集,反映了图中节点之间的关联,如图2中所示,有文本-单词、文本-标签、标签-标签和单词-单词四种边,A∈RZ×Z表示图的邻接矩阵,A的行和列表示两个节点,A中的元素表示节点之间的边,其具体含义如下:
其中,当i,j都是单词时,Aij表示单词之间的PMI,计算方式如下:
基于滑动窗口对数据进行取样,滑动窗口大小为20,函数#W(),统计了数据集出现该内容的滑动窗口数量,#W为滑动窗口总数,PMI为负数时用0代替;
当i,j都是标签时,Aij表示标签之间PMI,只利用训练集中标签关联,计算方式如下:
#()统计了目标标签在训练集中的出现次数,|training_sample|为训练集样本数,PMI为负数时用0代替;
当i,j为文本和单词时,Aij表示文本和单词的TF-IDF值,计算方式如下:
TF-IDF=TF*IDF
当i,j为文本和标签时,Aij表示文本和标签的TF-IDF值,只利用训练集中的文本和标签关联,计算方式如下:
TF-IDF=TF*IDF
当i=j时,Aij设置为默认值1;
其它情况下,Aij为0。
步骤3,构建模型输入:
对于数据集D’中任意一个待分析样本(x,y),将其进一步细化表示为:
x=[1,0,0,0,…,0]
y=[1,0,0,1,…,0]
其中,x∈RZ为表示序号的one-hot向量,Z表示数据集中文本数量、词汇量和标签数量的和,y∈RL对应的标签集的one-hot表示,L表示标签总数。
初始输入矩阵X∈RZ×Z,包含了所有图中节点的one-hot向量。
步骤4,构建深度学习多标签文本分类模型:
深度学习多标签文本分类模型基于GCN网络的提取文本图中文本、标签和单词的全局特征,基于注意力机制融合标签特征和单词特征学习和标签相关的文本特征,将与标签相关的文本特征和文本图中的文本特征根据自适应权重进行融合,作为最终的文本特征,最终融合了标签特征的文本特征经过分类器得到文本对于该标签的预测概率。每种标签都会对应一个基于全连接层的特征二分类器。文本对所有标签都学习一个融合了标签特征的文本特征,经过特定标签的特征分类器,最终得到所有标签的分类结果其中为第p个位置上的标签预测概率,L为标签总数。
所述基于GCN网络的全局信息提取阶段,图2中两个虚线框之间的隐层(HiddenLayers),包括以下内容:
全局特征提取阶段输入为步骤(3)中的初始输入矩阵X;
全局特征提取采用了两层GCN网络,每一层图卷积使得节点与其邻居节点进行信息交换,输出图中所有节点的表示;
每一层拥有独立的参数,输出的特征维度与参数相关,设置两层的输出特征维度为200;
前一层输出的节点特征矩阵,作为下一层输入,取第二层的输出特征,作为文本图中节点的特征。
所述基于注意力机制的标签相关文本特征提取,图2中生成标签相关的文本特征的神经网络隐层(Hidden Layers),包括以下内容:
基于GCN提取出文本图中文本、标签和单词节点的全局特征。基于注意力机制,对于长度为m的文本k和标签i,利用文本中的单词特征和标签特征,学习与标签相关的文本特征dik,计算方式如下:
其中va,Wa,Ua为参数,wj和li为GCN网络提取的,文本中的单词特征和标签特征,αij为标签对文本单词的权重,根据权重参数融合文本中的单词特征,最终得到与标签相关的文本特征dik。图2中为方便表示,将与标签相关的文本特征同一表示为el(d1),el(d2);图2中文本图中的文本特征表示为e(d1),e(d2)。
所述学习最终文本特征,并进行分类,如图2中生成最终标签结果的HiddenLayers,包括以下内容:
将与标签相关的文本特征和文本图中的文本特征进行自适应融合,得到最终的文本特征dik-fusion,计算方式如下:
dik-fusion=βkdk+(1-βk)dik
图2中生成最终标签结果的Hidden Layers,还包括多层感知机构成的分类器。最终的文本特征dik-fusion,经过多层感知机构成的分类器得到最终的结果。图2中最终结果l1,l2,取值0/1,表示该文本是否与改标签相关(1表示相关,0表示无关)。
步骤5,训练模型:将训练数据输入多标签文本分类模型,提取文本特征后,经过多层感知机得到标签预测概率,采用交叉熵损失函数,使用Adam优化器进行训练,优化目标为交叉熵损失函数。训练时,初始学习率为0.02,dropout参数为0.5,采用了早停机制,当最近loss不低于最近10个epoch的loss均值时,停止训练。
步骤6,分析模型:将测试集数据输入训练完成的模型,最终输出多标签文本分类结果,主要评估指标为Micro-F1和Hamming loss。
所述的训练数据为经过预处理之后的数据。
所述的基于GCN网络的每一层间的信息迭代如下:
Li∈RZ×k为第i层输出,Z为图中节点总数,k为节点特征维度,由参数Wi控制,ρ()为激活函数,前一层的输出特征作为下一层的输入特征。第一层的输入特征为初始输入矩阵X,取第二层的输出作为文本图中的结点特征。为步骤(2)中文本图的邻接矩阵A经过对称归一化得到,计算方式如下:
Dii=∑jAij,
实施例
测试阶段,利用测试集数据,在训练好的模型上验证模型性能,主要评估指标为微观F1(F1)和汉明损失(HL),微观召回率(R)和微观精确率(P)作为参考,(+)表示该指标越大越好,(-)表示该指标越小越好,本发明方法为基于图模型的多标签文本分类模型(Graph-basesd Multi-Label Text Classification Model,GMLTCM)。两个数据集上的实验结果如下表1、表2所示:
表1
RCV1-V2数据集上实验结果
表2
AAPD数据集上实验结果
其中二元关联(Binary Relevance,BR),分类器链(Classififier Chains,CC)和标签动力集方法(Label Powerset,LP)为将多标签文本分类转换为文本多分类的方法;卷积神经网络(Convolutional Neural Networks,CNN)为深度学习方法,卷积神经网络-循环神经网络(CNN-RNN)、序列到序列模型(Seq2seq)和序列生成模型(SGM)为基于序列化生成模型的深度学习方法,编码器端为CNN网络或RNN网络,解码器端采用RNN序列化生成标签,本发明方法为GMLTCM。
通过实验的对比性分析可见,相较现有方法,本发明方法在多标签文本分类的主要指标上有明显提高,说明了本发明提出的方法可以有效的提取文本和标签的全局信息,说明了该方法的有效性。
不同标签对文本信息的关注是不同的,在此展示了学习文本对应特定标签的表示时,文本信息的关注情况,如图4所示。AAPD数据集样本,标签’AI’对应文本注意力分布,仅展示3个注意力权重梯度,颜色越浅到深,注意力下降。这展示了本发明方法在融合标签特征和文本特征时的可解释性。
本发明提供了一种基于图模型的深度学习多标签文本分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种基于图模型的深度学习多标签文本分类方法,其特征在于,包括如下步骤:
步骤1,数据预处理;
步骤2,构建文本图;
步骤3,构建模型输入;
步骤4,构建深度学习多标签文本分类模型;
步骤5,训练模型;
步骤6,根据步骤5训练的模型得到文本分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,进行分词、去除停止词、英文大写转小写;
步骤1-2,统计数据集D中的文本中的单词频率word_frequence,删除出现次数小于X1的单词:
word_frequence={word1:count1,word2:count2,…,wordε:countε}
其中,wordε:countε表示统计得到的第ε个单词wordε及其出现频率countε,ε=|vocabulary|,vocabulary为数据集中文本的词汇量,ε表示单词总数;数据集D经过预处理后,表示为其中,xi表示预处理后的第i个文本,yi∈{0,1}L表示xi对应的标签,L为数据集标签总数;
将数据集按比例划分为训练集、测试集和验证集,分别用于模型训练,模型性能测试和训练过程中模型验证。
3.根据权利要求2所述的方法,其特征在于,步骤2包括:
对于数据集D’,构造文本图G=(V,E,A);
其中,V(|V|=Z)是图中节点集,图中的节点为文本、单词和标签,Z=N+L+|vocabulary|为数据集中文本数量、词汇量和标签数量的和,E是图中的边集,A∈RZ×Z表示图的邻接矩阵,RZ×Z代表二维实数矩阵,两个维度的大小分别为Z、Z,A表示为:
其中,PMI(i,j)为i,j的互信息;TF-IDFij表示文本和单词相关性,TF是词频;IDF是逆文本频率指数;
其中,当i,j都是单词时,Aij表示单词之间的互信息,计算方式如下:
其中,函数#W()统计了数据集中出现单词i、单词j以及两个单词共同出现的滑动窗口数量,#W为滑动窗口总数,互信息PMI(i,j)为负数时用0代替,p(i)是单词i基于滑动窗口的统计概率,p(i,j)为单词i和单词j基于滑动窗口共同出现的概率,p(j)是单词j基于滑动窗口的统计概率;
当i,j都是标签时,Aij表示标签之间互信息,计算方式如下:
其中,函数#()统计了目标标签在数据集的训练集中的出现次数,training_sample为训练样本,PMI(i,j)为负数时用0代替;
当i,j分别为文本和单词时,Aij表示文本和单词的相关性,计算方式如下:
TF-IDFij=TF*IDFij
其中,X2表示一个单词在训练集文本中出现的次数,X3表示文本总词数,X4表示语料中文本数,X5表示包含所述单词的文本数;
当i,j为文本和标签时,Aij表示文本和标签的相关性,计算方式如下:
TF-IDFij=TF*IDFij
其中,X6表示一个标签在训练集文本中出现次数,X7表示文本标签总数,X8表示训练集文本数,X9表示包含所述标签的训练集文本数;
当i=j时,Aij设置为默认值1;
其它情况下,Aij为0。
4.根据权利要求3所述的方法,其特征在于,步骤3包括:
对于数据集D’中任意一个待分析样本(x,y),将其表示为:
x=[1,0,0,0,…,0]
y=[1,0,0,1,…,0]
其中,x∈RZ为表示序号的独热编码向量,y∈RL表示x对应的标签集的one-hot表示,L表示标签总数;
初始输入矩阵X∈RZ×Z,包含了所有图中节点的one-hot向量。
5.根据权利要求4所述的方法,其特征在于,步骤4包括:
6.根据权利要求5所述的方法,其特征在于,步骤4还包括:在基于图卷积神经网络GCN的全局信息提取阶段,包括以下内容:
全局特征提取阶段输入为初始输入矩阵X;
全局特征提取采用了两层GCN网络,每一层图卷积使得节点与其邻居节点进行信息交换,输出图中所有节点的表示;
每一层拥有独立的参数矩阵Wi,输出的特征维度与参数相关;
前一层的节点特征矩阵,作为下一层输入,取第二层的输出特征,作为文本图中节点的特征;
基于GCN网络的每一层间的信息迭代如下:
Li∈RZ×k为第i层输出,Z为图中节点总数,k为节点特征维度,由参数Wi控制,ρ()为激活函数,前一层的输出特征作为下一层的输入特征;第一层的输入特征为初始输入矩阵X,取第二层的输出作为文本图中的结点特征;为步骤2中文本图的邻接矩阵A经过对称归一化后的矩阵,计算方式如下:
Dii=∑jAij
其中Dii为邻接矩阵A的度矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111201995.4A CN113806547B (zh) | 2021-10-15 | 2021-10-15 | 一种基于图模型的深度学习多标签文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111201995.4A CN113806547B (zh) | 2021-10-15 | 2021-10-15 | 一种基于图模型的深度学习多标签文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806547A true CN113806547A (zh) | 2021-12-17 |
CN113806547B CN113806547B (zh) | 2023-08-11 |
Family
ID=78937708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111201995.4A Active CN113806547B (zh) | 2021-10-15 | 2021-10-15 | 一种基于图模型的深度学习多标签文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806547B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722896A (zh) * | 2022-03-05 | 2022-07-08 | 昆明理工大学 | 融合近邻标题图的新闻话题发现方法 |
CN114882279A (zh) * | 2022-05-10 | 2022-08-09 | 西安理工大学 | 基于直推式半监督深度学习的多标签图像分类方法 |
CN114925205A (zh) * | 2022-06-09 | 2022-08-19 | 西北工业大学 | 基于对比学习的gcn-gru文本分类方法 |
CN115080689A (zh) * | 2022-06-15 | 2022-09-20 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN118228035A (zh) * | 2024-05-22 | 2024-06-21 | 腾讯科技(深圳)有限公司 | 内容标签的确定方法以及相关设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101537A (zh) * | 2018-06-27 | 2018-12-28 | 北京慧闻科技发展有限公司 | 基于深度学习的多轮对话数据分类方法、装置和电子设备 |
CN109816009A (zh) * | 2019-01-18 | 2019-05-28 | 南京旷云科技有限公司 | 基于图卷积的多标签图像分类方法、装置及设备 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
US20200250139A1 (en) * | 2018-12-31 | 2020-08-06 | Dathena Science Pte Ltd | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction |
CN111563533A (zh) * | 2020-04-08 | 2020-08-21 | 华南理工大学 | 基于图卷积神经网络融合多种人脑图谱的受试者分类方法 |
CN111914907A (zh) * | 2020-07-13 | 2020-11-10 | 河海大学 | 一种基于深度学习空谱联合网络的高光谱图像分类方法 |
CN112231527A (zh) * | 2020-12-17 | 2021-01-15 | 北京百度网讯科技有限公司 | 图节点标签信息的预测方法、装置及电子设备 |
CN112256866A (zh) * | 2020-09-25 | 2021-01-22 | 东北大学 | 一种基于深度学习的文本细粒度情感分析方法 |
CN112381108A (zh) * | 2020-04-27 | 2021-02-19 | 昆明理工大学 | 一种基于图卷积神经网络深度学习的枪弹痕迹相似度识别方法和系统 |
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN112711953A (zh) * | 2021-01-19 | 2021-04-27 | 湖南大学 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
US20210150747A1 (en) * | 2019-11-14 | 2021-05-20 | Samsung Electronics Co., Ltd. | Depth image generation method and device |
CN112926696A (zh) * | 2021-04-20 | 2021-06-08 | 江苏大学 | 一种基于注意力图的可解释局部迁移互学习方法 |
CN112966743A (zh) * | 2021-03-08 | 2021-06-15 | 携程计算机技术(上海)有限公司 | 基于多维度注意力的图片分类方法、系统、设备及介质 |
-
2021
- 2021-10-15 CN CN202111201995.4A patent/CN113806547B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101537A (zh) * | 2018-06-27 | 2018-12-28 | 北京慧闻科技发展有限公司 | 基于深度学习的多轮对话数据分类方法、装置和电子设备 |
US20200250139A1 (en) * | 2018-12-31 | 2020-08-06 | Dathena Science Pte Ltd | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction |
CN109816009A (zh) * | 2019-01-18 | 2019-05-28 | 南京旷云科技有限公司 | 基于图卷积的多标签图像分类方法、装置及设备 |
US20210150747A1 (en) * | 2019-11-14 | 2021-05-20 | Samsung Electronics Co., Ltd. | Depth image generation method and device |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111563533A (zh) * | 2020-04-08 | 2020-08-21 | 华南理工大学 | 基于图卷积神经网络融合多种人脑图谱的受试者分类方法 |
CN112381108A (zh) * | 2020-04-27 | 2021-02-19 | 昆明理工大学 | 一种基于图卷积神经网络深度学习的枪弹痕迹相似度识别方法和系统 |
CN111914907A (zh) * | 2020-07-13 | 2020-11-10 | 河海大学 | 一种基于深度学习空谱联合网络的高光谱图像分类方法 |
CN112256866A (zh) * | 2020-09-25 | 2021-01-22 | 东北大学 | 一种基于深度学习的文本细粒度情感分析方法 |
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN112231527A (zh) * | 2020-12-17 | 2021-01-15 | 北京百度网讯科技有限公司 | 图节点标签信息的预测方法、装置及电子设备 |
CN112711953A (zh) * | 2021-01-19 | 2021-04-27 | 湖南大学 | 一种基于注意力机制和gcn的文本多标签分类方法和系统 |
CN112966743A (zh) * | 2021-03-08 | 2021-06-15 | 携程计算机技术(上海)有限公司 | 基于多维度注意力的图片分类方法、系统、设备及介质 |
CN112926696A (zh) * | 2021-04-20 | 2021-06-08 | 江苏大学 | 一种基于注意力图的可解释局部迁移互学习方法 |
Non-Patent Citations (2)
Title |
---|
田萱等: "基于深度学习的图像语义分割方法综述", 《软件学报》, pages 440 - 468 * |
高磊等: "基于特征选择和点互信息剪枝的产品属性提取方法", 《模式识别与人工智能》, pages 187 - 192 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722896A (zh) * | 2022-03-05 | 2022-07-08 | 昆明理工大学 | 融合近邻标题图的新闻话题发现方法 |
CN114882279A (zh) * | 2022-05-10 | 2022-08-09 | 西安理工大学 | 基于直推式半监督深度学习的多标签图像分类方法 |
CN114882279B (zh) * | 2022-05-10 | 2024-03-19 | 西安理工大学 | 基于直推式半监督深度学习的多标签图像分类方法 |
CN114925205A (zh) * | 2022-06-09 | 2022-08-19 | 西北工业大学 | 基于对比学习的gcn-gru文本分类方法 |
CN114925205B (zh) * | 2022-06-09 | 2024-03-05 | 西北工业大学 | 基于对比学习的gcn-gru文本分类方法 |
CN115080689A (zh) * | 2022-06-15 | 2022-09-20 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN115080689B (zh) * | 2022-06-15 | 2024-05-07 | 昆明理工大学 | 融合标签关联的隐空间数据增强多标签文本分类方法 |
CN118228035A (zh) * | 2024-05-22 | 2024-06-21 | 腾讯科技(深圳)有限公司 | 内容标签的确定方法以及相关设备 |
CN118228035B (zh) * | 2024-05-22 | 2024-07-23 | 腾讯科技(深圳)有限公司 | 内容标签的确定方法以及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113806547B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN111914087B (zh) | 一种舆情分析方法 | |
JPH07295989A (ja) | データを解析するためのインタプリタを形成する装置 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN111581967A (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
Shahade et al. | Multi-lingual opinion mining for social media discourses: An approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer | |
CN113343690A (zh) | 一种文本可读性自动评估方法及装置 | |
Kshirsagar et al. | A Review on Application of Deep Learning in Natural Language Processing | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN115759104A (zh) | 基于实体识别的金融领域舆情分析方法与系统 | |
Yan et al. | Law article prediction based on deep learning | |
CN116910238A (zh) | 一种基于孪生网络的知识感知虚假新闻检测方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN115392254A (zh) | 一种基于目标任务可解释性认知预测与判别方法及其系统 | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、系统、设备及介质 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
Jasim et al. | Analyzing Social Media Sentiment: Twitter as a Case Study | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |