CN115658906A

CN115658906A - 基于标签自适应文本表征的大规模多标签文本分类方法

Info

Publication number: CN115658906A
Application number: CN202211395781.XA
Authority: CN
Inventors: 陈珂; 彭程; 寿黎但; 骆歆远; 陈刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-31

Abstract

本发明公开了一种基于标签自适应文本表征的大规模多标签文本分类方法。本发明首先探索文本的标签自适应表征，来同时有效地处理在大规模多标签分类下的头标签与尾标签的分类性能；利用预训练的语言模型为文本学习一个表征池，从而使得不同的标签可以关注不同的表征完成相关性判别。同时考虑到深度模型和长文本的特性，提出了文本表征增强，保证池中表征的差异性和全面性。因此，本发明能够给大规模标签提供有效的判别性文本特征来提升预测性能。与目前的大规模多标签算法相比，本发明一方面可以保证大规模多标签的整体分类性能，另一方面也保证尾标签能更好地关注细节文本特征，其性能优于当前最先进的大规模多标签算法。

Description

基于标签自适应文本表征的大规模多标签文本分类方法

技术领域

本发明涉及一种大规模多标签文本分类技术，尤其涉及一种基于标签自适应文本表征的大规模多标签文本分类方法(Label Adaptive Representation based Large-Scale Multi-Label Text Classification,LAR-LMTC)。

背景技术

大规模多标签文本分类(Large-Scale Multi-Label Text Classification,LMTC)的目的是从大规模标签池中为每个文本分配最相关的标签子集。如今，大规模多标签文本分类因其广泛的应用范围，出现在生产与生活中的方方面面,如电子商务动态搜索推荐、法律判决和医疗诊断等，同时在学术界受到了广泛的关注。

由于数据的分布特性，LMTC中的标签往往表现出很高的稀疏性、多样性和偏倚性，严重影响了分类性能。为了解决这个问题，大量的研究已经提出通过引入新的优化目标或利用标签层次结构来解决这些问题。然而，对于如何学习LMTC中有效的文本表示却鲜有人关注。现有的文本表示学习方法主要有以下两种:(1)一种简单的方法是学习整体文本表征(Holistic Text Representation，HTR)，即为全标签学习一个共享的文本表征。然而，头部标签(数据集中普遍存在的标签)很容易主导学习过程，从而使尾部标签(具有稀疏样本的标签)的学习受到抑制，并损害预测性能。(2)另一种方法是基于注意力网络将文本分解为多个标签特定的文本表征(Label-Specific Representation，LSR)。然而由于标签稀疏，尾部标签的学习容易过拟合。此外，对尾部标签的过度关注也会影响头部标签的预测性能。因此，现有的研究并没有对LMTC中的表示学习进行足够的研究，尤其是尾部标签的表示学习。

发明内容

针对现有技术的不足，本发明的目的在于提供一种基于标签自适应表征算法的大规模多标签文本分类方法。

本发明所采用的技术方案如下：一种基于标签自适应文本表征的大规模多标签文本分类方法，包括如下步骤：

(1)对于数据集中的每一个原始文本x_i，利用预训练的Transformer-based语言模型作为特征编码器E(·)，将原始文本x_i处理成标记化的文本序列并截取最大长度为L_ent的序列q_ent，下标ent表示整体文本；分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征；

(2)利用本文基特征构造文本表征池，在构造表征池时使表征为标签不可知；

(3)实现大规模标签与文本表征池间的自适应匹配：在构建文本表征池M^l与M^f后，为每个标签匹配池中最相关的表征并预测其相关性得分；:让每个标签同时在两个表征池中匹配表征；(4)利用学习到的模型获，预测输入文本x与相关标签。

本发明具有的有益效果是：

1、通过两方面特征增强生成的文本表征池可以更好的涵盖文本中的判别行信息；

2、标签可以通过自适应性匹配到与自身最相关的文本表征，因此每个表征不必再关注于全部标签的学习，同时也更利于尾标签关联到细节性文本特征。大量实验证明本发明提出的LAR-LMTC的预测性能优于当前最先进的LMTC算法，可以有效地处理LMTC任务。

具体实施方式

现结合具体实施例对本发明的技术方案作进一步说明。

给定训练数据集

其中，x为输入文本，y为L维multi-hot标签向量，N表示数据集样本数量。对于每个标签l，标记y_l＝1表示标签l与文本x相关，y_l＝0则表示不相关。LMTC任务的目标是学习一个分数函数f:

来度量输入文本x与标签l的相关性。一种简单且直接的方法是学习一对多(One-vs-All)模型：

其中，w_l表示标签l分类器的参数，Φ_l(.)表示针对标签l的文本d维向量化编码的特征嵌入过程。在得到所有标签的预测分数后，将排名前k的标签作为最终的相关标签。

本发明具体实施例及其实施过程如下：

步骤一：对于数据集中的每一个原始文本x_i，利用预训练的Transformer-based语言模型(如BERT模型)作为特征编码器E(·)，应用两个方面的特征增强生成文本基特征。

首先将原始文本x_i处理成标记化的文本序列(Tokenized Text Sequence)并截取最大长度为L_ent的序列q_ent，下标ent表示整体文本(Entire Text)；

然后，分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征。

方面一：模型深度方面的特征增强。使用预训练语言模型的多层特征来获取更多文本语义信息。实际上，LMTC并不是一种标准的平面多标签分类，大规模标签通常隐藏着标签层次，这将促使标签关注不同的语义。

将长为L_ent的文本序列q_ent输入预训练语言模型(Transformer-based模型)并利用模型最后多层的特征向量生成多层次本文基特征

其中d为特征的维度，n_l表示选取模型特征的层数。

方面二：文本粒度方面的特征增强。由于Transformer-based模型利用自注意机制(Self-Attention Mechanism)在长文本内保持长距离依赖，特征的学习始终处于全局感受域下，削弱了大量局部信息的表达。由于尾部标签倾向于关注细节信息，单一的全局特征将失去大量的鉴别信息。利用碎片文本序列来补充细粒度的文本特征。首先，将长度为L_ent的原始文本序列，均匀地分割为长为L_frag且不重叠的n_frag个等长的分段文本序列

下标frag表示分段文本(FragmentedText)。

随后，将原始序列q_ent连同分段文本序列Q^frag作为预训练语言模型的输入

获得多粒度文本基特征

其中，

表示整个序列的全局特征，其他为对应不同片段序列的局部特征。

步骤二：利用两方面的本文基特征构造文本表征池，欲使大规模标签可自适应匹配池中表征，在构造表征池时使表征为标签不可知的(Label-Agnostic)。为文本学习一个表征池有两方面好处：一方面，多个表征可以描述文本的不同方面，即不同的表征强调文本的不同判别性特征，允许标签自适应匹配其相关表征。另一方面，表征池降低了获取错误文本表达的风险，使所有表征能够协同完成全标签分类任务。

分别利用文本基特征H^l与H^f，生成它们各自的表征池，以避免过拟合。以使用文本基特征H^l为例，具体的：

将H^l输入多注意力网络MA^l(·)，计算H^l间的多个线性组合来获得个注意力表示

其中，P^l表示文本表征池的大小，也即注意力映射的数量。M^l中第j个表示

可以通过以下获得：

其中，w_j是第j个注意力单元的参数，α_ij是

的归一化系数。值得注意的是，标签和表示之间没有施加任何约束来限制相关性，所以构造所有的表示共同发现所有标签的批判性信息。

同理，利用文本基特征H^f可同样获得文本表征池

步骤三：实现大规模标签与文本表征池间的自适应匹配。在构建文本表征池M^l与M^f后，为每个标签匹配池中最相关的表征并预测其相关性得分。为避免过拟合，依旧分类处理M^l与M^f，让每个标签同时在两个表征池中匹配表征。以使用表征池M^l为例，具体的：

对于每一个注意力表征

将其输入全连接层并经过Sigmoid函数激活FS^l(·)，获得该表征与全标签的相关性分数

其中

b_cls∈R^L为全连接层参数并在所有表示之间共享，以减小模型规模同时避免过拟合。

随后，整合所有注意力标注与全标签的相关性分数，获得矩阵

将

通过最大池化层MP^l(·)为每个标签k选择最大值以表示其最终的相关性分数

从而，对每一个文本，在M^l上其最终全标签预测分数为

最后，利用二元交叉熵损失(Binary Cross-Entropy Loss,BCE Loss)作为目标函数计算损失，如下：

同理，利用表征池M^f可同样获得相应的全标签预测分数

并计算损失：

通过多任务学习模式结合以上两个损失可获得最终损失

其中γ是平衡权重系数。利用随机梯度下降法更新模型参数。

步骤四：利用学习到的模型获，预测输入文本x与相关标签。首先，获得序列化的输入q_ent与Q^f；随后计算基于两方面特征增强的相关性分数：

结合二者获得最终的分数

其中γ是平衡权重系数。该分数是每个标签分别从两方面发现最相关的表征，进而获得的一个稳健的预测分数。

最后，得到

的top-k标签作为文本x预测标签。