CN115658906A - 基于标签自适应文本表征的大规模多标签文本分类方法 - Google Patents
基于标签自适应文本表征的大规模多标签文本分类方法 Download PDFInfo
- Publication number
- CN115658906A CN115658906A CN202211395781.XA CN202211395781A CN115658906A CN 115658906 A CN115658906 A CN 115658906A CN 202211395781 A CN202211395781 A CN 202211395781A CN 115658906 A CN115658906 A CN 115658906A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- pool
- representation
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012512 characterization method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于标签自适应文本表征的大规模多标签文本分类方法。本发明首先探索文本的标签自适应表征,来同时有效地处理在大规模多标签分类下的头标签与尾标签的分类性能;利用预训练的语言模型为文本学习一个表征池,从而使得不同的标签可以关注不同的表征完成相关性判别。同时考虑到深度模型和长文本的特性,提出了文本表征增强,保证池中表征的差异性和全面性。因此,本发明能够给大规模标签提供有效的判别性文本特征来提升预测性能。与目前的大规模多标签算法相比,本发明一方面可以保证大规模多标签的整体分类性能,另一方面也保证尾标签能更好地关注细节文本特征,其性能优于当前最先进的大规模多标签算法。
Description
技术领域
本发明涉及一种大规模多标签文本分类技术,尤其涉及一种基于标签自适应文本表征的大规模多标签文本分类方法(Label Adaptive Representation based Large-Scale Multi-Label Text Classification,LAR-LMTC)。
背景技术
大规模多标签文本分类(Large-Scale Multi-Label Text Classification,LMTC)的目的是从大规模标签池中为每个文本分配最相关的标签子集。如今,大规模多标签文本分类因其广泛的应用范围,出现在生产与生活中的方方面面,如电子商务动态搜索推荐、法律判决和医疗诊断等,同时在学术界受到了广泛的关注。
由于数据的分布特性,LMTC中的标签往往表现出很高的稀疏性、多样性和偏倚性,严重影响了分类性能。为了解决这个问题,大量的研究已经提出通过引入新的优化目标或利用标签层次结构来解决这些问题。然而,对于如何学习LMTC中有效的文本表示却鲜有人关注。现有的文本表示学习方法主要有以下两种:(1)一种简单的方法是学习整体文本表征(Holistic Text Representation,HTR),即为全标签学习一个共享的文本表征。然而,头部标签(数据集中普遍存在的标签)很容易主导学习过程,从而使尾部标签(具有稀疏样本的标签)的学习受到抑制,并损害预测性能。(2)另一种方法是基于注意力网络将文本分解为多个标签特定的文本表征(Label-Specific Representation,LSR)。然而由于标签稀疏,尾部标签的学习容易过拟合。此外,对尾部标签的过度关注也会影响头部标签的预测性能。因此,现有的研究并没有对LMTC中的表示学习进行足够的研究,尤其是尾部标签的表示学习。
发明内容
针对现有技术的不足,本发明的目的在于提供一种基于标签自适应表征算法的大规模多标签文本分类方法。
本发明所采用的技术方案如下:一种基于标签自适应文本表征的大规模多标签文本分类方法,包括如下步骤:
(1)对于数据集中的每一个原始文本xi,利用预训练的Transformer-based语言模型作为特征编码器E(·),将原始文本xi处理成标记化的文本序列并截取最大长度为Lent的序列qent,下标ent表示整体文本;分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征;
(2)利用本文基特征构造文本表征池,在构造表征池时使表征为标签不可知;
(3)实现大规模标签与文本表征池间的自适应匹配:在构建文本表征池Ml与Mf后,为每个标签匹配池中最相关的表征并预测其相关性得分;:让每个标签同时在两个表征池中匹配表征;(4)利用学习到的模型获,预测输入文本x与相关标签。
本发明具有的有益效果是:
1、通过两方面特征增强生成的文本表征池可以更好的涵盖文本中的判别行信息;
2、标签可以通过自适应性匹配到与自身最相关的文本表征,因此每个表征不必再关注于全部标签的学习,同时也更利于尾标签关联到细节性文本特征。大量实验证明本发明提出的LAR-LMTC的预测性能优于当前最先进的LMTC算法,可以有效地处理LMTC任务。
具体实施方式
现结合具体实施例对本发明的技术方案作进一步说明。
给定训练数据集其中,x为输入文本,y为L维multi-hot标签向量,N表示数据集样本数量。对于每个标签l,标记yl=1表示标签l与文本x相关,yl=0则表示不相关。LMTC任务的目标是学习一个分数函数f:来度量输入文本x与标签l的相关性。一种简单且直接的方法是学习一对多(One-vs-All)模型:其中,wl表示标签l分类器的参数,Φl(.)表示针对标签l的文本d维向量化编码的特征嵌入过程。在得到所有标签的预测分数后,将排名前k的标签作为最终的相关标签。
本发明具体实施例及其实施过程如下:
步骤一:对于数据集中的每一个原始文本xi,利用预训练的Transformer-based语言模型(如BERT模型)作为特征编码器E(·),应用两个方面的特征增强生成文本基特征。
首先将原始文本xi处理成标记化的文本序列(Tokenized Text Sequence)并截取最大长度为Lent的序列qent,下标ent表示整体文本(Entire Text);
然后,分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征。
方面一:模型深度方面的特征增强。使用预训练语言模型的多层特征来获取更多文本语义信息。实际上,LMTC并不是一种标准的平面多标签分类,大规模标签通常隐藏着标签层次,这将促使标签关注不同的语义。
方面二:文本粒度方面的特征增强。由于Transformer-based模型利用自注意机制(Self-Attention Mechanism)在长文本内保持长距离依赖,特征的学习始终处于全局感受域下,削弱了大量局部信息的表达。由于尾部标签倾向于关注细节信息,单一的全局特征将失去大量的鉴别信息。利用碎片文本序列来补充细粒度的文本特征。首先,将长度为Lent的原始文本序列,均匀地分割为长为Lfrag且不重叠的nfrag个等长的分段文本序列 下标frag表示分段文本(FragmentedText)。
步骤二:利用两方面的本文基特征构造文本表征池,欲使大规模标签可自适应匹配池中表征,在构造表征池时使表征为标签不可知的(Label-Agnostic)。为文本学习一个表征池有两方面好处:一方面,多个表征可以描述文本的不同方面,即不同的表征强调文本的不同判别性特征,允许标签自适应匹配其相关表征。另一方面,表征池降低了获取错误文本表达的风险,使所有表征能够协同完成全标签分类任务。
分别利用文本基特征Hl与Hf,生成它们各自的表征池,以避免过拟合。以使用文本基特征Hl为例,具体的:
步骤三:实现大规模标签与文本表征池间的自适应匹配。在构建文本表征池Ml与Mf后,为每个标签匹配池中最相关的表征并预测其相关性得分。为避免过拟合,依旧分类处理Ml与Mf,让每个标签同时在两个表征池中匹配表征。以使用表征池Ml为例,具体的:
最后,利用二元交叉熵损失(Binary Cross-Entropy Loss,BCE Loss)作为目标函数计算损失,如下:
步骤四:利用学习到的模型获,预测输入文本x与相关标签。首先,获得序列化的输入qent与Qf;随后计算基于两方面特征增强的相关性分数:
Claims (5)
1.一种基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,包括如下步骤:
(1)对于数据集中的每一个原始文本xi,利用预训练的Transformer-based语言模型作为特征编码器E(·),将原始文本xi处理成标记化的文本序列并截取最大长度为Lent的序列qent,下标ent表示整体文本;分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征;
(2)利用本文基特征构造文本表征池,在构造表征池时使表征为标签不可知;
(3)实现大规模标签与文本表征池间的自适应匹配:在构建文本表征池Ml与Mf后,为每个标签匹配池中最相关的表征并预测其相关性得分;:让每个标签同时在两个表征池中匹配表征;
(4)利用学习到的模型获,预测输入文本x与相关标签。
2.根据权利要求1所述基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,所述步骤(1)中,所述从特征深度和文本粒度两方面进行特征增强来生成文本基特征具体为:
(1.1)模型深度方面的特征增强:使用预训练语言模型的多层特征来获取更多文本语义信息;将长为Lent的文本序列qent输入预训练的Transformer-based语言模型并利用模型最后多层的特征向量生成多层次本文基特征其中d为特征的维度,nl表示选取模型特征的层数;
4.根据权利要求3所述基于标签自适应文本表征的大规模多标签文本分类方法,其特征在于,所述步骤(3)中,对于每一个注意力表征将其输入全连接层并经过Sigmoid函数激活FSl(·),获得该表征与全标签的相关性分数其中bcls∈RL为全连接层参数并在所有表示之间共享,
最后,利用二元交叉熵损失(Binary Cross-Entropy Loss,BCE Loss)作为目标函数计算损失,如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395781.XA CN115658906A (zh) | 2022-11-08 | 2022-11-08 | 基于标签自适应文本表征的大规模多标签文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395781.XA CN115658906A (zh) | 2022-11-08 | 2022-11-08 | 基于标签自适应文本表征的大规模多标签文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115658906A true CN115658906A (zh) | 2023-01-31 |
Family
ID=85016911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211395781.XA Pending CN115658906A (zh) | 2022-11-08 | 2022-11-08 | 基于标签自适应文本表征的大规模多标签文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115658906A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910279A (zh) * | 2023-09-13 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 标签提取方法、设备及计算机可读存储介质 |
-
2022
- 2022-11-08 CN CN202211395781.XA patent/CN115658906A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910279A (zh) * | 2023-09-13 | 2023-10-20 | 深圳市智慧城市科技发展集团有限公司 | 标签提取方法、设备及计算机可读存储介质 |
CN116910279B (zh) * | 2023-09-13 | 2024-01-05 | 深圳市智慧城市科技发展集团有限公司 | 标签提取方法、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN110020438B (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114239585B (zh) | 一种生物医学嵌套命名实体识别方法 | |
Zhang et al. | Relation classification via BiLSTM-CNN | |
CN113673254A (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
Al Omari et al. | Hybrid CNNs-LSTM deep analyzer for arabic opinion mining | |
CN114398488A (zh) | 一种基于注意力机制的bilstm多标签文本分类方法 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
CN116958677A (zh) | 一种基于多模态大数据的互联网短视频分类方法 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN115658906A (zh) | 基于标签自适应文本表征的大规模多标签文本分类方法 | |
CN113076758B (zh) | 一种面向任务型对话的多域请求式意图识别方法 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN114201583A (zh) | 一种基于图注意力网络的中文金融事件自动抽取方法及系统 | |
CN116431788B (zh) | 面向跨模态数据的语义检索方法 | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN117371452A (zh) | 一种基于演示和标签增强的网格标记细粒度概念方法 | |
CN117371481A (zh) | 一种基于元学习的神经网络模型检索方法 | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |