Nothing Special   »   [go: up one dir, main page]

CN115658906A - 基于标签自适应文本表征的大规模多标签文本分类方法 - Google Patents

基于标签自适应文本表征的大规模多标签文本分类方法 Download PDF

Info

Publication number
CN115658906A
CN115658906A CN202211395781.XA CN202211395781A CN115658906A CN 115658906 A CN115658906 A CN 115658906A CN 202211395781 A CN202211395781 A CN 202211395781A CN 115658906 A CN115658906 A CN 115658906A
Authority
CN
China
Prior art keywords
text
label
pool
representation
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211395781.XA
Other languages
English (en)
Inventor
陈珂
彭程
寿黎但
骆歆远
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211395781.XA priority Critical patent/CN115658906A/zh
Publication of CN115658906A publication Critical patent/CN115658906A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标签自适应文本表征的大规模多标签文本分类方法。本发明首先探索文本的标签自适应表征,来同时有效地处理在大规模多标签分类下的头标签与尾标签的分类性能;利用预训练的语言模型为文本学习一个表征池,从而使得不同的标签可以关注不同的表征完成相关性判别。同时考虑到深度模型和长文本的特性,提出了文本表征增强,保证池中表征的差异性和全面性。因此,本发明能够给大规模标签提供有效的判别性文本特征来提升预测性能。与目前的大规模多标签算法相比,本发明一方面可以保证大规模多标签的整体分类性能,另一方面也保证尾标签能更好地关注细节文本特征,其性能优于当前最先进的大规模多标签算法。

Description

基于标签自适应文本表征的大规模多标签文本分类方法
技术领域
本发明涉及一种大规模多标签文本分类技术,尤其涉及一种基于标签自适应文本表征的大规模多标签文本分类方法(Label Adaptive Representation based Large-Scale Multi-Label Text Classification,LAR-LMTC)。
背景技术
大规模多标签文本分类(Large-Scale Multi-Label Text Classification,LMTC)的目的是从大规模标签池中为每个文本分配最相关的标签子集。如今,大规模多标签文本分类因其广泛的应用范围,出现在生产与生活中的方方面面,如电子商务动态搜索推荐、法律判决和医疗诊断等,同时在学术界受到了广泛的关注。
由于数据的分布特性,LMTC中的标签往往表现出很高的稀疏性、多样性和偏倚性,严重影响了分类性能。为了解决这个问题,大量的研究已经提出通过引入新的优化目标或利用标签层次结构来解决这些问题。然而,对于如何学习LMTC中有效的文本表示却鲜有人关注。现有的文本表示学习方法主要有以下两种:(1)一种简单的方法是学习整体文本表征(Holistic Text Representation,HTR),即为全标签学习一个共享的文本表征。然而,头部标签(数据集中普遍存在的标签)很容易主导学习过程,从而使尾部标签(具有稀疏样本的标签)的学习受到抑制,并损害预测性能。(2)另一种方法是基于注意力网络将文本分解为多个标签特定的文本表征(Label-Specific Representation,LSR)。然而由于标签稀疏,尾部标签的学习容易过拟合。此外,对尾部标签的过度关注也会影响头部标签的预测性能。因此,现有的研究并没有对LMTC中的表示学习进行足够的研究,尤其是尾部标签的表示学习。
发明内容
针对现有技术的不足,本发明的目的在于提供一种基于标签自适应表征算法的大规模多标签文本分类方法。
本发明所采用的技术方案如下:一种基于标签自适应文本表征的大规模多标签文本分类方法,包括如下步骤:
(1)对于数据集中的每一个原始文本xi,利用预训练的Transformer-based语言模型作为特征编码器E(·),将原始文本xi处理成标记化的文本序列并截取最大长度为Lent的序列qent,下标ent表示整体文本;分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征;
(2)利用本文基特征构造文本表征池,在构造表征池时使表征为标签不可知;
(3)实现大规模标签与文本表征池间的自适应匹配:在构建文本表征池Ml与Mf后,为每个标签匹配池中最相关的表征并预测其相关性得分;:让每个标签同时在两个表征池中匹配表征;(4)利用学习到的模型获,预测输入文本x与相关标签。
本发明具有的有益效果是:
1、通过两方面特征增强生成的文本表征池可以更好的涵盖文本中的判别行信息;
2、标签可以通过自适应性匹配到与自身最相关的文本表征,因此每个表征不必再关注于全部标签的学习,同时也更利于尾标签关联到细节性文本特征。大量实验证明本发明提出的LAR-LMTC的预测性能优于当前最先进的LMTC算法,可以有效地处理LMTC任务。
具体实施方式
现结合具体实施例对本发明的技术方案作进一步说明。
给定训练数据集
Figure BDA0003932090070000021
其中,x为输入文本,y为L维multi-hot标签向量,N表示数据集样本数量。对于每个标签l,标记yl=1表示标签l与文本x相关,yl=0则表示不相关。LMTC任务的目标是学习一个分数函数f:
Figure BDA0003932090070000022
来度量输入文本x与标签l的相关性。一种简单且直接的方法是学习一对多(One-vs-All)模型:
Figure BDA0003932090070000023
其中,wl表示标签l分类器的参数,Φl(.)表示针对标签l的文本d维向量化编码的特征嵌入过程。在得到所有标签的预测分数后,将排名前k的标签作为最终的相关标签。
本发明具体实施例及其实施过程如下:
步骤一:对于数据集中的每一个原始文本xi,利用预训练的Transformer-based语言模型(如BERT模型)作为特征编码器E(·),应用两个方面的特征增强生成文本基特征。
首先将原始文本xi处理成标记化的文本序列(Tokenized Text Sequence)并截取最大长度为Lent的序列qent,下标ent表示整体文本(Entire Text);
然后,分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征。
方面一:模型深度方面的特征增强。使用预训练语言模型的多层特征来获取更多文本语义信息。实际上,LMTC并不是一种标准的平面多标签分类,大规模标签通常隐藏着标签层次,这将促使标签关注不同的语义。
将长为Lent的文本序列qent输入预训练语言模型(Transformer-based模型)并利用模型最后多层的特征向量生成多层次本文基特征
Figure BDA0003932090070000024
其中d为特征的维度,nl表示选取模型特征的层数。
方面二:文本粒度方面的特征增强。由于Transformer-based模型利用自注意机制(Self-Attention Mechanism)在长文本内保持长距离依赖,特征的学习始终处于全局感受域下,削弱了大量局部信息的表达。由于尾部标签倾向于关注细节信息,单一的全局特征将失去大量的鉴别信息。利用碎片文本序列来补充细粒度的文本特征。首先,将长度为Lent的原始文本序列,均匀地分割为长为Lfrag且不重叠的nfrag个等长的分段文本序列
Figure BDA0003932090070000031
Figure BDA0003932090070000032
下标frag表示分段文本(FragmentedText)。
随后,将原始序列qent连同分段文本序列Qfrag作为预训练语言模型的输入
Figure BDA0003932090070000033
Figure BDA0003932090070000034
获得多粒度文本基特征
Figure BDA0003932090070000035
Figure BDA0003932090070000036
其中,
Figure BDA0003932090070000037
表示整个序列的全局特征,其他为对应不同片段序列的局部特征。
步骤二:利用两方面的本文基特征构造文本表征池,欲使大规模标签可自适应匹配池中表征,在构造表征池时使表征为标签不可知的(Label-Agnostic)。为文本学习一个表征池有两方面好处:一方面,多个表征可以描述文本的不同方面,即不同的表征强调文本的不同判别性特征,允许标签自适应匹配其相关表征。另一方面,表征池降低了获取错误文本表达的风险,使所有表征能够协同完成全标签分类任务。
分别利用文本基特征Hl与Hf,生成它们各自的表征池,以避免过拟合。以使用文本基特征Hl为例,具体的:
将Hl输入多注意力网络MAl(·),计算Hl间的多个线性组合来获得个注意力表示
Figure BDA0003932090070000038
其中,Pl表示文本表征池的大小,也即注意力映射的数量。Ml中第j个表示
Figure BDA0003932090070000039
可以通过以下获得:
Figure BDA00039320900700000310
其中,wj是第j个注意力单元的参数,αij
Figure BDA00039320900700000311
的归一化系数。值得注意的是,标签和表示之间没有施加任何约束来限制相关性,所以构造所有的表示共同发现所有标签的批判性信息。
同理,利用文本基特征Hf可同样获得文本表征池
Figure BDA00039320900700000312
步骤三:实现大规模标签与文本表征池间的自适应匹配。在构建文本表征池Ml与Mf后,为每个标签匹配池中最相关的表征并预测其相关性得分。为避免过拟合,依旧分类处理Ml与Mf,让每个标签同时在两个表征池中匹配表征。以使用表征池Ml为例,具体的:
对于每一个注意力表征
Figure BDA0003932090070000041
将其输入全连接层并经过Sigmoid函数激活FSl(·),获得该表征与全标签的相关性分数
Figure BDA0003932090070000042
其中
Figure BDA0003932090070000043
bcls∈RL为全连接层参数并在所有表示之间共享,以减小模型规模同时避免过拟合。
随后,整合所有注意力标注与全标签的相关性分数,获得矩阵
Figure BDA0003932090070000044
Figure BDA0003932090070000045
通过最大池化层MPl(·)为每个标签k选择最大值以表示其最终的相关性分数
Figure BDA0003932090070000046
从而,对每一个文本,在Ml上其最终全标签预测分数为
Figure BDA0003932090070000047
最后,利用二元交叉熵损失(Binary Cross-Entropy Loss,BCE Loss)作为目标函数计算损失,如下:
Figure BDA0003932090070000048
同理,利用表征池Mf可同样获得相应的全标签预测分数
Figure BDA0003932090070000049
并计算损失:
Figure BDA00039320900700000410
通过多任务学习模式结合以上两个损失可获得最终损失
Figure BDA00039320900700000411
其中γ是平衡权重系数。利用随机梯度下降法更新模型参数。
步骤四:利用学习到的模型获,预测输入文本x与相关标签。首先,获得序列化的输入qent与Qf;随后计算基于两方面特征增强的相关性分数:
Figure BDA00039320900700000412
Figure BDA00039320900700000413
结合二者获得最终的分数
Figure BDA00039320900700000414
其中γ是平衡权重系数。该分数是每个标签分别从两方面发现最相关的表征,进而获得的一个稳健的预测分数。
最后,得到
Figure BDA00039320900700000415
的top-k标签作为文本x预测标签。

Claims (5)

1.一种基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,包括如下步骤:
(1)对于数据集中的每一个原始文本xi,利用预训练的Transformer-based语言模型作为特征编码器E(·),将原始文本xi处理成标记化的文本序列并截取最大长度为Lent的序列qent,下标ent表示整体文本;分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征;
(2)利用本文基特征构造文本表征池,在构造表征池时使表征为标签不可知;
(3)实现大规模标签与文本表征池间的自适应匹配:在构建文本表征池Ml与Mf后,为每个标签匹配池中最相关的表征并预测其相关性得分;:让每个标签同时在两个表征池中匹配表征;
(4)利用学习到的模型获,预测输入文本x与相关标签。
2.根据权利要求1所述基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,所述步骤(1)中,所述从特征深度和文本粒度两方面进行特征增强来生成文本基特征具体为:
(1.1)模型深度方面的特征增强:使用预训练语言模型的多层特征来获取更多文本语义信息;将长为Lent的文本序列qent输入预训练的Transformer-based语言模型并利用模型最后多层的特征向量生成多层次本文基特征
Figure FDA0003932090060000011
其中d为特征的维度,nl表示选取模型特征的层数;
(1.2)文本粒度方面的特征增强:首先,将长度为Lent的原始文本序列,均匀地分割为长为Lfrag且不重叠的nfrag个等长的分段文本序列
Figure FDA0003932090060000012
下标frag表示分段文本(Fragmented Text);随后,将原始序列qent连同分段文本序列Qfrag作为预训练语言模型的输入
Figure FDA0003932090060000013
获得多粒度文本基特征
Figure FDA0003932090060000014
其中,
Figure FDA0003932090060000015
表示整个序列的全局特征,其他为对应不同片段序列的局部特征。
3.根据权利要求2所述基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,所述步骤(2)中,将多层次本文基特征Hl输入多注意力网络MAl(·),计算多层次本文基特征Hl间的多个线性组合来获得注意力表示
Figure FDA0003932090060000016
其中,Pl表示文本表征池的大小,即注意力映射的数量;Ml中第j个表示
Figure FDA0003932090060000017
通过下式获得:
Figure FDA0003932090060000018
其中,wj是第j个注意力单元的参数,αij
Figure FDA00039320900600000217
的归一化系数;
利用文本基特征Hf获得文本表征池
Figure FDA0003932090060000021
4.根据权利要求3所述基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,所述步骤(3)中,对于每一个注意力表征
Figure FDA0003932090060000022
将其输入全连接层并经过Sigmoid函数激活FSl(·),获得该表征与全标签的相关性分数
Figure FDA0003932090060000023
其中
Figure FDA0003932090060000024
bcls∈RL为全连接层参数并在所有表示之间共享,
随后,整合所有注意力标注与全标签的相关性分数,获得矩阵
Figure FDA0003932090060000025
Figure FDA0003932090060000026
通过最大池化层MPl(·)为每个标签k选择最大值以表示其最终的相关性分数
Figure FDA0003932090060000027
从而,对每一个文本,在Ml上其最终全标签预测分数为
Figure FDA0003932090060000028
最后,利用二元交叉熵损失(Binary Cross-Entropy Loss,BCE Loss)作为目标函数计算损失,如下:
Figure FDA0003932090060000029
利用表征池Mf获得相应的全标签预测分数
Figure FDA00039320900600000210
并计算损失:
Figure FDA00039320900600000211
通过多任务学习模式结合以上两个损失可获得最终损失
Figure FDA00039320900600000212
其中γ是平衡权重系数;利用随机梯度下降法更新模型参数。
5.根据权利要求3所述基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,所述步骤(4)中,首先,获得序列化的输入qent与Qf;随后计算基于两方面特征增强的相关性分数:
Figure FDA00039320900600000213
Figure FDA00039320900600000214
结合二者获得最终的分数
Figure FDA00039320900600000215
其中γ是平衡权重系数;最后,得到
Figure FDA00039320900600000216
的top-k标签作为文本x预测标签。
CN202211395781.XA 2022-11-08 2022-11-08 基于标签自适应文本表征的大规模多标签文本分类方法 Pending CN115658906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211395781.XA CN115658906A (zh) 2022-11-08 2022-11-08 基于标签自适应文本表征的大规模多标签文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211395781.XA CN115658906A (zh) 2022-11-08 2022-11-08 基于标签自适应文本表征的大规模多标签文本分类方法

Publications (1)

Publication Number Publication Date
CN115658906A true CN115658906A (zh) 2023-01-31

Family

ID=85016911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211395781.XA Pending CN115658906A (zh) 2022-11-08 2022-11-08 基于标签自适应文本表征的大规模多标签文本分类方法

Country Status (1)

Country Link
CN (1) CN115658906A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910279A (zh) * 2023-09-13 2023-10-20 深圳市智慧城市科技发展集团有限公司 标签提取方法、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910279A (zh) * 2023-09-13 2023-10-20 深圳市智慧城市科技发展集团有限公司 标签提取方法、设备及计算机可读存储介质
CN116910279B (zh) * 2023-09-13 2024-01-05 深圳市智慧城市科技发展集团有限公司 标签提取方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN114239585B (zh) 一种生物医学嵌套命名实体识别方法
Zhang et al. Relation classification via BiLSTM-CNN
CN113673254A (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
Al Omari et al. Hybrid CNNs-LSTM deep analyzer for arabic opinion mining
CN114398488A (zh) 一种基于注意力机制的bilstm多标签文本分类方法
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN116958677A (zh) 一种基于多模态大数据的互联网短视频分类方法
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
CN115658906A (zh) 基于标签自适应文本表征的大规模多标签文本分类方法
CN113076758B (zh) 一种面向任务型对话的多域请求式意图识别方法
CN114626926A (zh) 商品搜索类目识别方法及其装置、设备、介质、产品
CN114201583A (zh) 一种基于图注意力网络的中文金融事件自动抽取方法及系统
CN116431788B (zh) 面向跨模态数据的语义检索方法
CN118227790A (zh) 基于多标签关联的文本分类方法、系统、设备及介质
CN117371452A (zh) 一种基于演示和标签增强的网格标记细粒度概念方法
CN117371481A (zh) 一种基于元学习的神经网络模型检索方法
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination