CN113806547A

CN113806547A - 一种基于图模型的深度学习多标签文本分类方法

Info

Publication number: CN113806547A
Application number: CN202111201995.4A
Authority: CN
Inventors: 戴新宇; 刘盾
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2021-12-17
Anticipated expiration: 2041-10-15
Also published as: CN113806547B

Abstract

本发明提供了一种基于图模型的深度学习多标签文本分类方法，本发明分析了现有的CNN网络和RNN网络在文本信息提取上的弱点，以及多标签文本分类任务中使用标签信息的不足，提出了一种基于图模型的深度学习多标签文本分类方法。该方法借助图结构的灵活性，构造文本、单词和标签的异构图，通过GCN网络学习相关表示，为了有效利用标签信息，利用注意力机制将文本中的单词特征和标签特征进行融合，学习与标签相关的文本特征，最终通过注意力机制将与标签相关的文本特征和图中学习到的文本特征进行融合，作为模型最终提取的文本特征。通过对比实验，发现该方法在多标签文本分类的多个指标上有所提升。

Description

一种基于图模型的深度学习多标签文本分类方法

技术领域

本发明属于文本信息处理领域，尤其涉及一种基于图模型的深度学习多标签文本分类方法。

背景技术

随着互联网时代的到来，日常生活中的信息呈爆炸的趋势增长，其中文本作为一种基础的信息载体，包含的海量信息。人们需要对文本信息进行有效的整理分类，进而高效的获取文本信息。文本分类具有广泛的现实应用场景，如垃圾邮件过滤，论文归档，新闻舆情分析等。然而现实生活中文本分类往往涉及多标签文本分类，即一个文本可以对应多个标签，如新闻和论文中可同时包含多个主题标签，这使得文本信息更加丰富，文本和标签的对应关系也更加复杂，已有的方法难以适用，这使得多标签文本分类成为自然语言处理领域的一个研究热点。

现有的多标签文本分类问题的解决思路主要有两种，其一是将多标签文本分类转化为普通的文本分类问题，利用现有的文本分类方法解决问题；另一种是利用深度学习优秀的信息提取能力，融合包括标签信息、文本句法信息、文本语义信息在内的多种信息，解决多标签文本分类问题。但是这些方法在性能上仍有所欠缺，究其原因，存在下面几个问题：

首先，文本特征的获取，依赖常用的神经网络，卷积神经网络(ConvolutionalNeural Network，CNN)和循环神经网络(Recurrent Neural Network，RNN)。这些网络往往关注于局部的文本信息，而忽略的信息的全局关联，在文本信息不足时，无法捕捉到合理的文本特征。而可以捕捉全局信息的图卷积神经网络(Graph Convolutional Network，GCN)，因为文本构图等难题，则未收到广泛重视。

其次，现有工作忽略了对多标签文本分类任务有着重要作用的标签信息。普通的文本分类中文本只对应一个标签，而多标签文本分类任务中文本可对应多个标签。经过观察不难发现，多标签文本分类任务中，属于同一文本的标签往往具有一定的关联，如论文的多个主题标签往往是实际相关的。合理利用标签关联可辅助多标签文本分类任务。而部分工作虽然注意到标签信息，但往往只利用了标签的文本信息和标签的共现信息中的一者。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于图模型的深度学习多标签文本分类方法，

本发明提出了一种基于图模型的深度学习多标签文本分类方法。该方法利用图结构的灵活性，构造文本中的信息关联，文本图中包括文本、单词和标签节点，节点间的边可以反映节点的语义和共现信息；基于GCN网络捕捉全局的文本、单词和标签特征；然后，利用注意力集合融合文本和标签的信息；最终，融合与标签相关的文本特征和图中的文本特征，用于多标签文本分类。实验表明，在多标签文本分类任务中，该方法在性能上有所提升，且具有良好的可解释性。

为实现上述目的，本发明采用如下技术方案：

一种基于图模型的深度学习多标签文本分类方法，包括以下步骤：

步骤1，数据预处理；

步骤2，构建文本图；

步骤3，构建模型输入；

步骤4，构建深度学习多标签文本分类模型；

步骤5，训练模型；

步骤6，根据步骤5训练的模型得到文本分类结果。

步骤1包括：

设初始多标签数据为：

其中，text_i表示第i个文本，label-set_i表示text_i对应的标签，N表示数据集D中样本个数，对数据集D中样本进行数据预处理，具体包括如下步骤：

步骤1-1，利用开源工具NLTK进行分词、去除停止词、英文大写转小写；

步骤1-2，统计数据集D中的文本中的单词频率，删除出现次数小于X₁(一般取值为5)的单词：

word_frequence＝{word₁：count₁，word₂：count₂，…，word_ε：count_ε}

其中word_ε：count_ε表示统计得到的第ε个单词word_ε及其出现频率count_ε，ε＝|vocabulary|，vocabulary为数据集中文本的词汇量，ε表示单词总数；数据集D经过预处理后，表示为

其中，x_i表示预处理后的第i个文本，y_i∈{0，1}^L表示x_i对应的标签，L为数据集标签总数；

将数据集按比例随机划分为训练集、测试集和验证集，划分由随机抽样决定，分别用于模型训练，模型性能测试和训练过程中模型验证，具体划分情况如图3。

步骤2包括：

对于数据集D’，构造文本图G＝(V，E，A)；

其中，V(|V|＝Z)是图中节点集，图中的节点为文本、单词和标签，Z＝N+L+|vocabulary|为数据集中文本数量、词汇量和标签数量的和，E是图中的边集，A∈R^Z×Z表示图的邻接矩阵，R^Z×Z代表二维实数矩阵，两个维度的大小分别为Z、Z，A表示为：

其中，PMI(i，j)为i，j的互信息；TF-IDF是一种常用来统计文本和单词相关性的统计方法，TF-IDF_ij即表示文本和单词相关性(符号-是连词符号)，TF是词频(TermFrequency)，IDF是逆文本频率指数(Inverse Document Frequency)，这里用来统计文本-单词、文本-标签的全局关联；

其中，当i，j都是单词时，A_ij表示单词之间的互信息(PMI)，计算方式如下：

其中，函数#W()统计了数据集中出现单词i、单词j以及两个单词共同出现的滑动窗口数量，#W为滑动窗口总数，互信息PMI(i，j)为负数时用0代替，p(i)是单词i基于滑动窗口的统计概率，p(i，j)为单词i和单词j基于滑动窗口共同出现的概率，p(j)是单词j基于滑动窗口的统计概率；

当i，j都是标签时，A_ij表示标签之间互信息，计算方式如下：

其中，函数#()统计了目标标签在数据集的训练集中的出现次数，training_sample为训练样本，PMI(i，j)为负数时用0代替；

当i，j分别为文本和单词时，A_ij表示文本和单词的相关性，计算方式如下：

TF-IDF_ij＝TF*IDF_ij

其中，X₂表示一个单词在训练集文本中出现的次数，X₃表示文本总词数，X₄表示语料中文本数，X₅表示包含所述单词的文本数；

当i，j为文本和标签时，A_ij表示文本和标签的相关性，计算方式如下：

TF-IDF_ij＝TF*IDF_ij

其中，X₆表示一个标签在训练集文本中出现次数，X₇表示文本标签总数，X₈表示训练集文本数，X₉表示包含所述标签的训练集文本数；

当i＝j时，A_ij设置为默认值1；

其它情况下，A_ij为0。

步骤3包括：

对于数据集D’中任意一个待分析样本(x，y)，将其表示为：

x＝[1，0，0，0，…，0]

y＝[1，0，0，1，…，0]

其中，x∈R^Z为表示序号的独热向量(one-hot)向量，y∈R^L表示x对应的标签集的one-hot表示，L表示标签总数；

初始输入矩阵X∈R^Z×Z，包含了所有图中节点的one-hot向量。

步骤4包括：

建立深度学习多标签文本分类模型，深度学习多标签文本分类模型基于图卷积神经网络GCN的提取文本图中文本、标签和单词的全局特征，基于注意力机制融合标签特征和单词特征学习和标签相关的文本特征，将与标签相关的文本特征和文本图中的文本特征根据自适应权重进行融合，作为最终的文本特征，最终融合了标签特征的文本特征经过分类器得到文本对于标签的预测概率；每种标签都会对应一个基于全连接层的特征二分类器；文本对所有标签都学习一个融合了标签特征的文本特征，为每一种标签相关的特征训练一种分类器，分类器由多层感知机实现(多层感知机，Multilayer Perceptron，一种现有技术)，经过特定标签的分类器，最终得到所有标签的分类结果

其中

为第p个位置上的标签预测概率；

步骤4还包括：在基于图卷积神经网络GCN的全局信息提取阶段，包括以下内容：

全局特征提取阶段输入为初始输入矩阵X；

全局特征提取采用了两层GCN网络，每一层图卷积使得节点与其邻居节点进行信息交换，输出图中所有节点的表示；

每一层拥有独立的参数矩阵W_i，输出的特征维度与参数相关；

前一层的节点特征矩阵，作为下一层输入，取第二层的输出特征，作为文本图中节点的特征；

基于GCN网络的每一层间的信息迭代如下：

Lⁱ∈R^Z×k为第i层输出，Z为图中节点总数，k为节点特征维度，由参数W_i控制，ρ()为激活函数，前一层的输出特征作为下一层的输入特征；第一层的输入特征为初始输入矩阵X，取第二层的输出作为文本图中的结点特征；

为步骤2中文本图的邻接矩阵A经过对称归一化后的矩阵，计算方式如下：

D_ii＝∑_jA_ij

其中D_ii为邻接矩阵A的度矩阵。

步骤4还包括：基于注意力机制的标签相关文本特征提取，包括以下内容：

基于GCN提取出文本图中文本、标签和单词节点的全局特征：基于注意力机制，对于长度为m的文本k和标签i，利用文本中的单词特征和标签特征，学习与标签相关的文本特征d_ik，计算方式如下：

其中v_a，W_a，U_a为参数，e_ij为计算的中间结果，exp()是以自然常数e为底的指数函数，w_j和l_i分别为GCN网络提取的文本中的单词特征和标签特征，α_ij为标签对文本单词的权重，根据权重参数融合文本中的单词特征，最终得到与标签相关的文本特征d_ik。

步骤4还包括：获取最终文本分类特征，并进行分类，包括以下内容：

将与标签相关的文本特征和文本图中的文本特征进行自适应融合，得到最终的文本特征d_ik-fusion，计算方式如下：

d_ik-fusion＝β_kd_k+(1-β_k)d_ik

其中

为参数，sigmoid()为激活函数，与标签相关的文本特征d_ik和文本图中的文本特征d_k经过全连接层获得信息融合的权重参数β_k，根据信息融合权重，融合d_ik和d_k，得到最终的文本特征d_ik-fusion，经过多层感知机构成的分类器得到最终的结果。

步骤5包括：

将训练集数据输入深度学习多标签文本分类模型，提取文本特征后，经过多层线性感知机得到标签预测概率，采用交叉熵损失函数，使用Adam优化器进行训练，多标签文本分类的交叉熵损失函数l如下：

其中，y_ij为第i个样本对于第j个标签的实际概率，

为第i个样本对于第j个标签的预测概率，最终得到训练好的深度学习多标签文本分类模型。

步骤6包括：

将测试集数据输入训练好的深度学习多标签文本分类模型，最终输出多标签文本分类结果，评估指标包括微观F1(Micro-F1)和汉明损失(HL)，计算方式如下：

其中，Micro-F1表示微观F1，Micro-F1需统计预测结果的样本信息，tp_i为第i个标签的真阳性样本数量，fn_i为第i个标签的假阴性样本数量，fp_i为第i个标签的假阳性样本数量；

为单个样本的汉明损失，y为样本的实际标签概率，

为样本的标签预测概率，y_i、

分别为样本在第p个标签上的实际概率和预测概率，函数

为指示函数。

本发明充分利用了注意力机制、GCN网络，提出了并实现了一种基于图模型的深度学习多标签文本分类方法。此方法能够有效的提高多标签文本分类任务的性能，并具有良好的可解释性。

有益效果：本发明利用了相对新颖的图结构，构造了文本信息关联，具有很好的灵活性；本发明基于图卷神经网络提取特征，可以获取信息的全局关联，缓解了局部信息不足的问题；本发明中通过图模型，获取更加丰富的标签特征(标签共现特征和文本特征)；本发明基于注意力机制学习与标签相关文本特征，使得标签与文本之间的关联，具有良好的可解释性；本发明融合了标签特征和文本特征进行多标签文本分类，最终提出的模型，在主要性能上，相较于传统方法有所提升。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的方法流程图；

图2是基于图模型的深度学习多标签文本分类模型结构示意图。

图3是实施例使用的两个多标签文本数据集示意图。

图4是学习文本对应特定标签的表示时，文本信息的关注情况示意图。

具体实施方式

如图1所示，本发明提供了一种基于图模型的深度学习多标签文本分类方法，包括如下步骤：

步骤1，数据预处理：

多标签文本分类数据集表示为：

其中，text_i表示第i个文本，label_set_i表示对应的多个标签，N表示数据集D中样本个数，对D中样本进行数据预处理：

1)分词、参考NLTK库中的停止词表去除停止词、英文大写转小写；

2)统计数据集文本中的单词频率，删除出现次数小于5的单词

其中，ε＝|vocabulary|，表示单词总数。

数据D经预处理后，表示为

其中，x_i表示处理后的第i个文本，y_i∈{0，1}^L表示对应的多个标签，L为数据集标签总数，N为数据集样本总数。本实施例使用了两个多标签文本数据集，详情如图3所示：

步骤2，构建文本图：

对于数据集D’，构造文本图G＝(V，E，A)，如图2中虚线框中所示。

其中，V(|V|＝z)是图中节点集，图中的节点包括文本节点(如图2中d₁，d₂)、单词节点(如图2中w₁，w₂，w₃，w₄，w₅)、标签节点(如图2中l₁，l₂)，Z＝N+L+|vocabulary|为数据集中文本数量、词汇量和标签数量的和，E是图中的边集，反映了图中节点之间的关联，如图2中所示，有文本-单词、文本-标签、标签-标签和单词-单词四种边，A∈R^Z×Z表示图的邻接矩阵，A的行和列表示两个节点，A中的元素表示节点之间的边，其具体含义如下：

其中，当i，j都是单词时，A_ij表示单词之间的PMI，计算方式如下：

基于滑动窗口对数据进行取样，滑动窗口大小为20，函数#W()，统计了数据集出现该内容的滑动窗口数量，#W为滑动窗口总数，PMI为负数时用0代替；

当i，j都是标签时，A_ij表示标签之间PMI，只利用训练集中标签关联，计算方式如下：

#()统计了目标标签在训练集中的出现次数，|training_sample|为训练集样本数，PMI为负数时用0代替；

当i，j为文本和单词时，A_ij表示文本和单词的TF-IDF值，计算方式如下：

TF-IDF＝TF*IDF

当i，j为文本和标签时，A_ij表示文本和标签的TF-IDF值，只利用训练集中的文本和标签关联，计算方式如下：

TF-IDF＝TF*IDF

当i＝j时，A_ij设置为默认值1；

其它情况下，A_ij为0。

步骤3，构建模型输入：

对于数据集D’中任意一个待分析样本(x，y)，将其进一步细化表示为：

x＝[1，0，0，0，…，0]

y＝[1，0，0，1，…，0]

其中，x∈R^Z为表示序号的one-hot向量，Z表示数据集中文本数量、词汇量和标签数量的和，y∈R^L对应的标签集的one-hot表示，L表示标签总数。

初始输入矩阵X∈R^Z×Z，包含了所有图中节点的one-hot向量。

步骤4，构建深度学习多标签文本分类模型：

深度学习多标签文本分类模型基于GCN网络的提取文本图中文本、标签和单词的全局特征，基于注意力机制融合标签特征和单词特征学习和标签相关的文本特征，将与标签相关的文本特征和文本图中的文本特征根据自适应权重进行融合，作为最终的文本特征，最终融合了标签特征的文本特征经过分类器得到文本对于该标签的预测概率。每种标签都会对应一个基于全连接层的特征二分类器。文本对所有标签都学习一个融合了标签特征的文本特征，经过特定标签的特征分类器，最终得到所有标签的分类结果

其中

为第p个位置上的标签预测概率，L为标签总数。

所述基于GCN网络的全局信息提取阶段，图2中两个虚线框之间的隐层(HiddenLayers)，包括以下内容：

全局特征提取阶段输入为步骤(3)中的初始输入矩阵X；

每一层拥有独立的参数，输出的特征维度与参数相关，设置两层的输出特征维度为200；

前一层输出的节点特征矩阵，作为下一层输入，取第二层的输出特征，作为文本图中节点的特征。

所述基于注意力机制的标签相关文本特征提取，图2中生成标签相关的文本特征的神经网络隐层(Hidden Layers)，包括以下内容：

基于GCN提取出文本图中文本、标签和单词节点的全局特征。基于注意力机制，对于长度为m的文本k和标签i，利用文本中的单词特征和标签特征，学习与标签相关的文本特征d_ik，计算方式如下：

其中v_a，W_a，U_a为参数，w_j和l_i为GCN网络提取的，文本中的单词特征和标签特征，α_ij为标签对文本单词的权重，根据权重参数融合文本中的单词特征，最终得到与标签相关的文本特征d_ik。图2中为方便表示，将与标签相关的文本特征同一表示为e_l(d₁)，e_l(d₂)；图2中文本图中的文本特征表示为e(d₁)，e(d₂)。

所述学习最终文本特征，并进行分类，如图2中生成最终标签结果的HiddenLayers，包括以下内容：

d_ik-fusion＝β_kd_k+(1-β_k)d_ik

其中

为参数，与标签相关的文本特征d_ik和文本图中的文本特征d_k经过全连接层获得信息融合的权重参数β_k，根据信息融合权重，融合d_ik和d_k，得到最终的文本特征d_ik-fusion。

图2中生成最终标签结果的Hidden Layers，还包括多层感知机构成的分类器。最终的文本特征d_ik-fusion，经过多层感知机构成的分类器得到最终的结果。图2中最终结果l₁，l₂，取值0/1，表示该文本是否与改标签相关(1表示相关，0表示无关)。

步骤5，训练模型：将训练数据输入多标签文本分类模型，提取文本特征后，经过多层感知机得到标签预测概率，采用交叉熵损失函数，使用Adam优化器进行训练，优化目标为交叉熵损失函数。训练时，初始学习率为0.02，dropout参数为0.5，采用了早停机制，当最近loss不低于最近10个epoch的loss均值时，停止训练。

步骤6，分析模型：将测试集数据输入训练完成的模型，最终输出多标签文本分类结果，主要评估指标为Micro-F1和Hamming loss。

所述的训练数据为经过预处理之后的数据。

所述的基于GCN网络的每一层间的信息迭代如下：

Lⁱ∈R^Z×k为第i层输出，Z为图中节点总数，k为节点特征维度，由参数W_i控制，ρ()为激活函数，前一层的输出特征作为下一层的输入特征。第一层的输入特征为初始输入矩阵X，取第二层的输出作为文本图中的结点特征。

为步骤(2)中文本图的邻接矩阵A经过对称归一化得到，计算方式如下：

D_ii＝∑_jA_ij，

实施例

测试阶段，利用测试集数据，在训练好的模型上验证模型性能，主要评估指标为微观F1(F1)和汉明损失(HL)，微观召回率(R)和微观精确率(P)作为参考，(+)表示该指标越大越好，(-)表示该指标越小越好，本发明方法为基于图模型的多标签文本分类模型(Graph-basesd Multi-Label Text Classification Model，GMLTCM)。两个数据集上的实验结果如下表1、表2所示：

表1

RCV1-V2数据集上实验结果

表2

AAPD数据集上实验结果

其中二元关联(Binary Relevance，BR)，分类器链(Classififier Chains，CC)和标签动力集方法(Label Powerset，LP)为将多标签文本分类转换为文本多分类的方法；卷积神经网络(Convolutional Neural Networks，CNN)为深度学习方法，卷积神经网络-循环神经网络(CNN-RNN)、序列到序列模型(Seq2seq)和序列生成模型(SGM)为基于序列化生成模型的深度学习方法，编码器端为CNN网络或RNN网络，解码器端采用RNN序列化生成标签，本发明方法为GMLTCM。

通过实验的对比性分析可见，相较现有方法，本发明方法在多标签文本分类的主要指标上有明显提高，说明了本发明提出的方法可以有效的提取文本和标签的全局信息，说明了该方法的有效性。

不同标签对文本信息的关注是不同的，在此展示了学习文本对应特定标签的表示时，文本信息的关注情况，如图4所示。AAPD数据集样本，标签’AI’对应文本注意力分布，仅展示3个注意力权重梯度，颜色越浅到深，注意力下降。这展示了本发明方法在融合标签特征和文本特征时的可解释性。

本发明提供了一种基于图模型的深度学习多标签文本分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于图模型的深度学习多标签文本分类方法，其特征在于，包括如下步骤：

步骤1，数据预处理；

步骤2，构建文本图；

步骤3，构建模型输入；

步骤4，构建深度学习多标签文本分类模型；

步骤5，训练模型；

步骤6，根据步骤5训练的模型得到文本分类结果。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

设初始多标签数据为：

其中，text_i表示第i个文本，label_set_i表示text_i对应的标签，N表示数据集D中样本个数，对数据集D中样本进行数据预处理，具体包括如下步骤：

步骤1-1，进行分词、去除停止词、英文大写转小写；

步骤1-2，统计数据集D中的文本中的单词频率word_frequence，删除出现次数小于X₁的单词：

其中，word_ε：count_ε表示统计得到的第ε个单词word_ε及其出现频率count_ε，ε＝|vocabulary|，vocabulary为数据集中文本的词汇量，ε表示单词总数；数据集D经过预处理后，表示为

将数据集按比例划分为训练集、测试集和验证集，分别用于模型训练，模型性能测试和训练过程中模型验证。

3.根据权利要求2所述的方法，其特征在于，步骤2包括：

对于数据集D’，构造文本图G＝(V，E，A)；

其中，PMI(i，j)为i，j的互信息；TF-IDF_ij表示文本和单词相关性，TF是词频；IDF是逆文本频率指数；

其中，当i，j都是单词时，A_ij表示单词之间的互信息，计算方式如下：

TF-IDF_ij＝TF*IDF_ij

TF-IDF_ij＝TF*IDF_ij

当i＝j时，A_ij设置为默认值1；

其它情况下，A_ij为0。

4.根据权利要求3所述的方法，其特征在于，步骤3包括：

对于数据集D’中任意一个待分析样本(x，y)，将其表示为：

x＝[1，0，0，0，…，0]

y＝[1，0，0，1，…，0]

其中，x∈R^Z为表示序号的独热编码向量，y∈R^L表示x对应的标签集的one-hot表示，L表示标签总数；

初始输入矩阵X∈R^Z×Z，包含了所有图中节点的one-hot向量。

5.根据权利要求4所述的方法，其特征在于，步骤4包括：

建立深度学习多标签文本分类模型，深度学习多标签文本分类模型基于图卷积神经网络GCN的提取文本图中文本、标签和单词的全局特征，基于注意力机制融合标签特征和单词特征学习和标签相关的文本特征，将与标签相关的文本特征和文本图中的文本特征根据自适应权重进行融合，作为最终的文本特征，最终融合了标签特征的文本特征经过分类器得到文本对于标签的预测概率；每种标签都会对应一个基于全连接层的特征二分类器；文本对所有标签都学习一个融合了标签特征的文本特征，为每一种标签相关的特征训练一种分类器，分类器由多层感知机实现，经过特定标签的分类器，最终得到所有标签的分类结果