CN118227790A - 基于多标签关联的文本分类方法、系统、设备及介质 - Google Patents
基于多标签关联的文本分类方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN118227790A CN118227790A CN202410335568.2A CN202410335568A CN118227790A CN 118227790 A CN118227790 A CN 118227790A CN 202410335568 A CN202410335568 A CN 202410335568A CN 118227790 A CN118227790 A CN 118227790A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- model
- training
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000013145 classification model Methods 0.000 claims abstract description 75
- 238000012360 testing method Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims description 92
- 239000011159 matrix material Substances 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010012374 Depressed mood Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于多标签关联的文本分类方法、系统、设备及介质,其中方法包括:获取已知标签类别的多个文本,构建训练集和测试集;所述训练集和测试集,包括:多个文本和多个标签类别,其中,每个文本的已知标签类别为多个;将训练集分为两部分:第一训练子集和第二训练子集;将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型;将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,得到最终训练后的文本分类模型;根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类。
Description
技术领域
本发明涉及机器学习和自然语言处理技术领域,特别是涉及基于多标签关联的文本分类方法、系统、设备及介质。
背景技术
在互联网和社交媒体的快速发展背景下,导致了大量非规范文本数据的产生,这些文本数据往往包含大量非正式语言、网络新词、特殊符号以及表情符号,反映了丰富的社会信息和个人情感。文本的非规范性不仅表现在语言的使用上,还体现在其结构和语义的复杂性上,这使理解和处理这些文本数据成为一项艰巨任务。
非规范文本的主要挑战之一在于其语言的非正式性,虽然为语言的丰富性和表达的多样性提供了空间,却也给传统的文本分类方法带来了前所未有的挑战。文本广泛使用网络新词和缩写,这在传统的字典或语言模型中往往难以找到对应项,另外,表情符号和特殊字符的频繁使用也进一步增加了文本的解读难度。
非规范文本数据的另一个显著特点是单一文本可能同时涉及多个主题或情感,也就是说,一个文本可能与多个标签相关,同时,这些标签之间存在着一定的关联性,标签关联性的存在,既是一个挑战,也是一个机遇,如果能够有效识别和利用标签之间的关联性,不仅可以提高分类的准确性,还可以帮助加深对文本内容和结构的理解。然而,传统的文本分类方法往往忽视标签之间的这种复杂关系,导致无法充分利用这一信息来优化分类结果。
发明内容
为了解决现有技术的不足,本发明提供了基于多标签关联的文本分类方法、系统、设备及介质;旨在优化社交媒体等平台上非规范文本的多标签分类问题,核心在于深入挖掘并利用标签之间的复杂关系,通过整合先进的深度学习技术和标签关联性分析,实现对文本数据的精确分类。
一方面,提供了基于多标签关联的文本分类方法;
基于多标签关联的文本分类方法,包括:
获取已知标签类别的多个文本,构建训练集和测试集;所述训练集和测试集,包括:多个文本和多个标签类别,其中,每个文本的已知标签类别为多个;将训练集分为两部分:第一训练子集和第二训练子集;
将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型;
将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,基于条件概率构建标签关联矩阵,基于标签关联矩阵构建关联损失函数,基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,在第二损失函数的损失值不小于预设阈值时,根据第二损失函数的损失值对初步训练后的文本分类模型的参数进行二次更新,利用二次更新后的文本分类模型获得每个文本的标签类别预测概率,直至计算出第二损失函数的损失值小于预设阈值,得到最终训练后的文本分类模型;
根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类。
另一方面,提供了基于多标签关联的文本分类系统;
基于多标签关联的文本分类系统,包括:
获取模块,其被配置为:获取已知标签类别的多个文本,构建训练集和测试集;所述训练集和测试集,包括:多个文本和多个标签类别,其中,每个文本的已知标签类别为多个;将训练集分为两部分:第一训练子集和第二训练子集;
一次训练模块,其被配置为:将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型;
二次训练模块,其被配置为:将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,基于条件概率构建标签关联矩阵,基于标签关联矩阵构建关联损失函数,基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,在第二损失函数的损失值不小于预设阈值时,根据第二损失函数的损失值对初步训练后的文本分类模型的参数进行二次更新,利用二次更新后的文本分类模型获得每个文本的标签类别预测概率,直至计算出第二损失函数的损失值小于预设阈值,得到最终训练后的文本分类模型;
测试模块,其被配置为:根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类。
再一方面,还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
再一方面,还提供了一种存储介质,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
再一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
上述技术方案具有如下优点或有益效果:
本发明采用多标签间的关联性分析技术和模型算法,能够更准确地捕捉非规范文本数据的语义信息,从而有效提高非规范文本的分类效率和准确性。
本发明采用关联损失函数融合正则化技术,有效地防止了模型过拟合,使模型在面对新未见数据时也能够保持良好的分类性能,增强了模型泛化能力。
本发明还采集模型性能的评估反馈信息,再次输入模型进行迭代,持续调整和优化模型参数,使模型具有更强的适应性,能够更好地满足实际应用场景和用户需求。
总之,本发明不仅在技术性能上取得了突破,也在实际应用的广泛性和深度上展现出巨大潜力。对于推动多标签分类技术的进步和广泛应用具有重要的促进作用。本技术方案的实施将构建一个高效、准确并且用户友好的多标签分类系统的产生,该系统不仅能够提供精确的标签预测服务,还能够处理和理解社交媒体等平台上常见的非规范文本数据,满足用户在不同领域内对于复杂文本分类的需求。总体而言,本发明的实施将极大地丰富多标签分类技术的应用范围,并提高其在实际应用中的性能和用户体验。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
本实施例提供了基于多标签关联的文本分类方法;
如图1所示,基于多标签关联的文本分类方法,包括:
S101:获取已知标签类别的多个文本,构建训练集和测试集;所述训练集和测试集,包括:多个文本和多个标签类别,其中,每个文本的已知标签类别为多个;将训练集分为两部分:第一训练子集和第二训练子集;
S102:将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型;
S103:将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,基于条件概率构建标签关联矩阵,基于标签关联矩阵构建关联损失函数,基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,在第二损失函数的损失值不小于预设阈值时,根据第二损失函数的损失值对初步训练后的文本分类模型的参数进行二次更新,利用二次更新后的文本分类模型获得每个文本的标签类别预测概率,直至计算出第二损失函数的损失值小于预设阈值,得到最终训练后的文本分类模型;
S104:根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类。
进一步地,所述S101:获取已知标签类别的多个文本,构建训练集和测试集,具体包括:
对获取的文本进行文本清洗、文本规范化、特殊符号处理和表情符号处理。
所述文本清洗,包括:去除空格或标点符号;
所述文本规范化,包括:对文本中的缩写词进行扩展,扩展成完整单词;
所述特殊符号,包括:对特殊符号进行删除,特殊符号是指&、¥;
所述表情符号处理,包括:将表情符号,替换为单词。
应理解地,对输入文本执行一系列预处理步骤,包括文本清洗、文本规范化、特殊符号和表情符号处理,将原始文本转换成更标准化、更干净的形式,以便模型能更好地理解和处理数据。
示例性地,首先,对文本进行基础的清洗工作,移除无关信息如多余的空格、标点符号误用等。接着,对文本中的非正式表达、缩写词进行扩展和标准化,例如,网络用语“lol”将其转换为全称“laughing out loud”(大声笑)。然后,针对文本中常见的特殊符号和表情符号,本发明采用一种特殊的映射策略,具体来说,是将特殊符号和表情符号映射到具有明确语义表示的预定义标签或词汇上,例如,表情符号“:)”被映射为词汇“happy”。
进一步地,所述S101:将训练集分为两部分:第一训练子集和第二训练子集,是按照设定比例进行的划分。
进一步地,所述S102:文本分类模型,包括:依次连接的transformer模型、全连接层和激活函数层;所述transformer模型,包括:BERT或RoBERTa模型;
其中,transformer模型,用于对输入的文本进行语义特征提取;
其中,全连接层,用于对所提取的特征进行映射,得到映射向量;
其中,激活函数层,用于输出每个标签的存在概率。
应理解地,利用预训练的Transformer Encoder,如BERT或RoBERTa,对文本序列进行编码,以提取文本的深层语义特征,通过先进的编码技术确保模型能够有效处理非规范文本中的新词、未知词及非标准用语,使模型能够充分理解文本上下文含义,为后续标签预测提供坚实的基础。
应理解地,通过全连接层和sigmoid激活函数,将语义表征映射到与总标签数目相等长度的向量,并输出每个标签的存在概率。这一步骤为确定每个标签是否属于当前文本提供了初始判断。
示例性地,利用预训练的transformer模型,如BERT或RoBERTa,对输入的文本序列进行编码。这一步骤中,使用基于子词的编码方式,同时采用动态子词拆分策略,将不在模型词汇表中的词汇(比如新词或专有名词)拆分成更小的单位(子词)进行处理。
所述基于子词的编码方式包括:先是词汇表构建:从大量文本数据中学习并构建一个词汇表,词汇表包括常见的单词、词根、前缀、后缀以及单个字符等子词单元。然后文本输入文本分类模型之前,使用构建的词汇表将待分类文本中的每个单词分解为一个或多个子词单元,如果待分类文本中的单词直接存在于词汇表中,直接使用;如果待分类文本中的单词不存在于词汇表中,则将其分解为更小的子词单元,直到所有的单词都能用词汇表中的子词单元表示。之后每个子词单元对应一个唯一的数字ID。文本中的单词经过子词拆分后,被转换成一系列数字ID用于模型的输入。
所述动态子词拆分策略,是指如果待分类文本中不在词汇表中的单词,则将待分类文本拆分成更小的单位(子词)。整个拆分的过程是动态的,根据词汇表中的信息尽可能地将单词分解成有意义的子单元。
假设一个词汇表有单词"happy"和子词单元"un"、"ness"等。如果遇见编码单词"unhappiness",检查这个单词是否直接在词汇表中,如果不在,可以分解为"un"、"happy"、"ness"这样的子词单元序列,然后将这些子词单元转换为对应的数字ID。
此外,模型根据上下文信息调整子词嵌入表示和增强语义表示,处理后输出维度为768维或1024维的隐藏状态向量,这些向量捕捉子词级别的丰富语义信息,为后续的标签预测提供丰富的上下文表征,为模型理解文本的语义信息奠定基础。例如,BERT或RoBERTa这样的预训练Transformer模型,使用预训练Transformer模型的自注意力层(Self-Attention layer)内部的自注意力机制可以帮助模型学会如何根据上下文调整词嵌入表示以及如何增强语义表示。
示例性地,将文本语义表征通过一个全连接层传递,使之映射到一个维度与标签总数相等的向量。之后,使用sigmoid激活函数输出每个标签的存在概率,举例而言,如果总共有10个标签,那么网络将输出一个10维的概率向量,每个维度代表一个标签的预测概率。
进一步地,所述S102:根据每个文本的标签类别预测结果与每个文本的已知标签类别,计算文本分类模型第一损失函数的损失值,所述第一损失函数,采用交叉熵损失函数来实现。
应理解地,设定阈值并根据预测概率进行初步分类,为后续的关联性分析和模型训练提供初始标签分配情况。
示例性地,阈值判定与初步分类:设定一个阈值(例如0.5),用于将sigmoid函数输出的概率与该阈值比较,通过这一比较,从而确定每个标签是否应该被分配给当前文本。这一步骤实现了初步的分类决策,但未考虑标签之间的相关性。
进一步地,所述S102:将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型,具体包括:
训练的过程中,根据每个文本的标签类别预测结果与每个文本的已知标签类别,计算文本分类模型第一损失函数的损失值,在第一损失函数的损失值不小于预设阈值时,根据第一损失函数的损失值更新文本分类模型的参数,利用更新后的文本分类模型获得每个文本的标签类别预测结果,直至计算出文本分类模型的第一损失函数的损失值小于预设阈值,得到初步训练后的文本分类模型。
进一步地,所述S103:将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,具体条件概率表示为:
其中,P(i)表示对于文本X,模型预测文本X属于标签i的概率。P(i∩j)表示文本X属于标签i同时属于标签j的概率。
应理解地,计算标签之间的条件概率,条件概率表示在已经出现一个标签的情况下,另一个标签出现的概率,之后使用条件概率构建标签关联矩阵,深入分析标签间的共现和依赖关系。这一步是本发明的核心,它揭示了标签之间的复杂联系,为模型训练提供重要的关联性信息。
标签关联性分析:利用统计方法计算标签对之间的条件概率,构建标签关联矩阵。对于标签i和标签j,计算P(j∣i)和P(i∣j),即在标签i存在的情况下标签j存在的概率以及在标签j存在的情况下标签i存在的概率。
这些条件概率反映了标签之间的依赖性和共现关系,将这些条件概率组成一个矩阵,其中每个元素代表了对应标签对之间的关联程度。该关联矩阵在后续模型训练中被用于关联损失函数的计算。
进一步地,所述S103:基于条件概率构建标签关联矩阵,其中标签关联矩阵A是一个n×n的矩阵,每个元素Aij表示在标签i出现的条件下,标签j出现的条件概率Aij,公式表示为:
Aij=P(j∣i);
这意味着矩阵的第i行第j列的元素表示在给定标签i的情况下,标签j出现的概率。
进一步地,所述S103:基于标签关联矩阵构建关联损失函数,关联损失函数用于衡量模型预测的标签关联度与实际标签关联矩阵之间的差异,具体关联损失函数表示如下:
其中,n表示标签的总数,Aij是标签关联矩阵中的元素,表示标签i出现的条件下,标签j出现的概率,pi表示模型预测实例属于标签i的概率,pj表示模型预测实例属于标签j的概率。|pi*pj-Aij|表示绝对误差项,衡量模型预测的标签i和标签j同时出现的概率与标签关联矩阵中对应元素Aii之间的差异。
进一步地,所述S103:基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,其中,第二损失函数L,包括:
L=LCE+γLassoc
其中,LCE表示交叉熵损失函数,Lassoc表示关联损失函数,γ为平衡参数,是一个正实数,用于调节交叉熵损失函数和关联损失函数在总损失函数中的相对重要性。
应理解地,模型训练阶段,除了传统的交叉熵损失函数用于衡量分类准确度,额外还引入了一个关联损失函数,关联损失函数基于标签关联矩阵,目的是惩罚模型预测过程中不符合已知标签之间关联性的情况,交叉熵损失函数和关联损失函数形成最终的第二损失函数,增强了模型对标签关联性的捕捉能力,采用梯度下降和正则化技术防止过拟合,确保模型具有良好的泛化能力。
同时,使用Adam优化器进行梯度下降,Adam优化器具有自适应学习率调整的特性,能够根据梯度的不同情况自动调整学习率,有助于提高模型的训练效率和收敛速度。
此外,设置学习率衰减机制,这有助于在训练过程中逐渐降低学习率,使模型在接近最优解时更加稳定。为了进一步防止过拟合,在损失函数中加入L2正则化项。最后,超参数的选择上通过网格搜索结合交叉验证来确定超参数最佳取值。
进一步地,所述S104:根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类,其中,测试通过的标准是,计算的精确率、召回率和F1分数指标均大于设定阈值。
应理解地,模型评估阶段,采用多种评估指标来衡量模型性能,在不同领域的数据集上测试模型的泛化能力,同时测试模型针对不同类型标签的分类效果。在模型训练完成后,对测试集进行预测,并计算精确率、召回率和F1分数等指标来评估模型性能。为了评估模型泛化能力,在独立数据集上进一步测试。此外,对不同类型标签(如高频、低频、中等频率标签)的分类性能分别进行评估,以全面了解模型的表现。
应理解地,应用范围与扩展研究,不断探索标签关联性分析在多个领域内的应用潜力,此外,尝试针对更复杂的标签结构,如层次标签体系,通过算法优化和模型迭代,提升处理复杂标签关系的能力。迭代改进与应用实践:根据评估结果对模型进行迭代优化,考虑实际应用场景,进一步调整模型参数和结构,以提高用户体验和满足特定需求。
扩展研究与跨领域应用:探索标签关联性在其他领域,如生物信息学、场景识别等的应用潜力,尝试开发新的算法处理更复杂的标签结构,此外,尝试将此方法扩展到其他数据类型,如图像和音频数据的分类标注。
场景1:在一个新闻分类系统中,每篇新闻文章需要被分配一个或多个标签,如“国际”、“政治”、“经济”、“体育”等。这些标签之间存在潜在的关联性,例如“国际”和“政治”经常一起出现。
实施步骤:
1.数据准备:收集了一个包含10,000篇新闻文章的数据集,每篇文章平均有3个相关标签。进行文本清洗和预处理,包括去除停用词、特殊字符等。
2.模型训练:
使用BERT作为编码器,对文章进行编码,获取每篇文章的语义表征。设置BERT的最大序列长度为512,批次大小为16。
设计全连接层和sigmoid函数,输出每个标签的存在概率。该全连接层的输出维度为50(本例中的独特标签总数)。
计算所有标签对之间的条件概率,构建标签关联矩阵。
在模型训练中加入基于标签关联矩阵的损失项,并使用Adam优化器进行梯度下降。设置初始学习率为1e-5,每10,000步衰减为原来的0.96。应用L2正则化以防止过拟合,超参数通过网格搜索和交叉验证选择。
3.模型评估:
在独立的测试集(包含2,000篇新闻文章)上进行测试,模型达到了85%的精确率、80%的召回率和82%的F1分数。
分析不同类型标签的分类性能,发现模型在识别高频标签(如“体育”)时的精确率可达到90%,而在识别低频标签(如“政治”)时的精确率为75%。
在一个全新的新闻数据集上测试模型,该数据集包含500篇新闻文章,模型在该数据集上保持了相近的性能指标。
4.迭代改进:根据模型评估反馈结果,发现模型在区分“国际”和“政治”标签时存在困难。为此,调整这两个标签在关联矩阵中的权重,重新训练模型。
5.部署与应用:将训练好的模型部署到实际的新闻分类系统中。
通过这个实施案例,新闻分类系统能够更准确地为文章打上合适的标签,结合对标签关联性的分析提高了分类质量。
场景2:一个社交媒体平台需要对用户生成的内容进行分类,以便推荐给感兴趣的其他用户或进行内容审查。常见的内容标签包括“旅行”、“美食”、“科技”、“娱乐”等。这些标签通常存在一定相关性,例如“美食”和“旅行”经常被同时标注。
实施步骤:
1.数据准备:收集了50,000条带标签的社交媒体帖子作为训练数据集,每条帖子平均标注有2个相关标签。对其执行文本清洗、文本规范化以及特殊符号和表情符号处理。
2.模型训练:
使用BERT模型作为编码器,设置批次大小为32,对帖子内容进行编码。
构建全连接层输出层映射到20个可能的标签(本例中的独特标签总数),并使用sigmoid函数预测每个标签的概率。
基于训练数据计算标签关联矩阵,用于指导模型学习标签共现的模式。
结合交叉熵损失和关联损失函数对模型进行训练,采用Adam优化器,初始学习率设为3e-5,每5,000次迭代后衰减0.95。
为了防止过拟合,在模型训练中加入了权重衰减(L2正则化)。
3.模型评估:
在包含10,000条帖子的独立测试集上评估模型性能,得到精确率为82%,召回率为79%,F1分数为80%。
对于特定标签如“旅行”和“娱乐”,模型展示了高于平均水平的性能,精确率分别达到了85%和84%。
使用新的数据集运行模型,发现模型能够在不同类型的内容上维持稳定的分类能力,精确率保持在81%-83%之间。
4.迭代改进:根据反馈发现模型在区分“科技”和“娱乐”时存在一定的混淆。于是调整标签关联矩阵,重新训练模型以提高区分度。经过调整后的模型在“科技”和“娱乐”标签上的精确率分别提升到了80%和86%。
5.部署与应用:将优化后的模型部署到社交媒体平台的系统中,能够为帖子打上相关标签,帮助内容运营团队更有效地管理和审查内容。
在此实施案例中,通过对标签关联性的深入挖掘和应用,社交媒体平台的内容分类系统提高了分类的准确性,增强了运营团队的内容管理效率。
这种方法能够有效处理非正式语言、特殊符号和表情符号,同时能够识别和利用标签之间的关联性来提升分类的准确性和效率。此外,考虑到社交媒体内容和语言使用趋势的快速演变,这种系统还具备良好的适应性和灵活性,能够随着时间的推进不断自我优化,以应对不断变化的文本特点和分类需求。
通过引入和深化标签关联性分析,本发明显著提升了非规范文本数据中多标签分类的精度和效率。该方法和系统不仅在当前的社交媒体内容分类中展现出卓越性能,其灵活性和适应性设计也为未来的发展和应用提供了坚实的基础,对于解决复杂标签关系下多标签文本分类任务展现出广泛应用潜力。
本发明专为提升文本数据多标签分类任务的准确性和效率而设计。首先,本方法对输入文本执行一系列预处理步骤,随后,采用深度学习模型进行编码以捕获深层次语义信息,然后,通过一个映射机制将编码后的文本转换为与所有可能标签相对应的预测概率,接着,本方法引入了一个创新的标签关联性分析步骤,该步骤通过定量地计算标签之间的条件概率来构建标签关联矩阵,从而揭示标签间的依赖和共现关系。在模型训练阶段,结合这些关联性信息,调整并优化模型参数,使得模型能更好地处理和预测具有相关性的标签集合。此外,本发明包括了一整套评估流程,用于衡量经过优化的模型性能,并根据评估结果进行迭代优化。为了增强模型的实用性和灵活性,本发明还深入探索了如何将面向非规范文本数据的多标签关联分类方法和系统应用于具体场景,并展望了其在不同领域的广泛应用前景。整体而言,本发明通过结合先进的深度学习技术和细致的标签关联性分析,不仅在理论上展现了创新性,而且在实践中证明了其高度的实用价值,有效促进了自然语言处理和机器学习技术的进步。
实施例二
本实施例提供了基于多标签关联的文本分类系统;
基于多标签关联的文本分类系统,包括:
获取模块,其被配置为:获取已知标签类别的多个文本,构建训练集和测试集;所述训练集和测试集,包括:多个文本和多个标签类别,其中,每个文本的已知标签类别为多个;将训练集分为两部分:第一训练子集和第二训练子集;
一次训练模块,其被配置为:将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型;
二次训练模块,其被配置为:将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,基于条件概率构建标签关联矩阵,基于标签关联矩阵构建关联损失函数,基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,在第二损失函数的损失值不小于预设阈值时,根据第二损失函数的损失值对初步训练后的文本分类模型的参数进行二次更新,利用二次更新后的文本分类模型获得每个文本的标签类别预测概率,直至计算出第二损失函数的损失值小于预设阈值,得到最终训练后的文本分类模型;
测试模块,其被配置为:根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类。
此处需要说明的是,上述获取模块、一次训练模块、二次训练模块和测试模块对应于实施例一中的步骤S101至步骤S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于多标签关联的文本分类方法,其特征是,包括:
获取已知标签类别的多个文本,构建训练集和测试集;所述训练集和测试集,包括:多个文本和多个标签类别,其中,每个文本的已知标签类别为多个;将训练集分为两部分:第一训练子集和第二训练子集;
将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型;
将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,基于条件概率构建标签关联矩阵,基于标签关联矩阵构建关联损失函数,基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,在第二损失函数的损失值不小于预设阈值时,根据第二损失函数的损失值对初步训练后的文本分类模型的参数进行二次更新,利用二次更新后的文本分类模型获得每个文本的标签类别预测概率,直至计算出第二损失函数的损失值小于预设阈值,得到最终训练后的文本分类模型;
根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类。
2.如权利要求1所述的基于多标签关联的文本分类方法,其特征是,将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型,具体包括:
训练的过程中,根据每个文本的标签类别预测结果与每个文本的已知标签类别,计算文本分类模型第一损失函数的损失值,在第一损失函数的损失值不小于预设阈值时,根据第一损失函数的损失值更新文本分类模型的参数,利用更新后的文本分类模型获得每个文本的标签类别预测结果,直至计算出文本分类模型的第一损失函数的损失值小于预设阈值,得到初步训练后的文本分类模型。
3.如权利要求1所述的基于多标签关联的文本分类方法,其特征是,将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,具体条件概率表示为:
其中,P(i)表示对于文本X,模型预测文本X属于标签i的概率,P(i∩j)表示文本X属于标签i同时属于标签j的概率。
4.如权利要求1所述的基于多标签关联的文本分类方法,其特征是,基于条件概率构建标签关联矩阵,其中标签关联矩阵A是一个n×n的矩阵,其中每个元素Aij表示在标签i出现的条件下,标签j出现的条件概率Aij,公式表示为:
Aij=P(j|i);
矩阵的第i行第j列的元素Aij表示在给定标签i的情况下,标签j出现的条件概率P(j|i)。
5.如权利要求1所述的基于多标签关联的文本分类方法,其特征是,基于标签关联矩阵构建关联损失函数,关联损失函数用于衡量模型预测的标签关联度与实际标签关联矩阵之间的差异,具体关联损失函数表示如下:
其中,n表示标签的总数,Aij是标签关联矩阵中的元素,表示标签i出现的条件下,标签j出现的概率,表示模型预测实例属于标签i的概率,pj表示模型预测实例属于标签j的概率,|pi*pj-Aij|表示绝对误差项,衡量模型预测的标签i和标签j同时出现的概率与标签关联矩阵中对应元素Aij之间的差异。
6.如权利要求1所述的基于多标签关联的文本分类方法,其特征是,基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,其中,第二损失函数L包括:
L=LCE+γLassoc;
其中,LCE表示交叉熵损失函数,Lassoc表示关联损失函数,γ为平衡参数。
7.基于多标签关联的文本分类系统,其特征是,包括:
获取模块,其被配置为:获取已知标签类别的多个文本,构建训练集和测试集;所述训练集和测试集,包括:多个文本和多个标签类别,其中,每个文本的已知标签类别为多个;将训练集分为两部分:第一训练子集和第二训练子集;
一次训练模块,其被配置为:将第一训练子集中的每个文本和多个标签类别,输入到文本分类模型中,对模型进行训练,得到初步训练后的文本分类模型;
二次训练模块,其被配置为:将第二训练子集中的每个文本和多个标签类别,输入到初步训练后的文本分类模型,对模型进行训练,训练的过程中,根据每个文本的标签类别预测概率,计算出标签与标签之间的条件概率,基于条件概率构建标签关联矩阵,基于标签关联矩阵构建关联损失函数,基于关联损失函数和交叉熵损失函数,构建文本分类模型第二损失函数,在第二损失函数的损失值不小于预设阈值时,根据第二损失函数的损失值对初步训练后的文本分类模型的参数进行二次更新,利用二次更新后的文本分类模型获得每个文本的标签类别预测概率,直至计算出第二损失函数的损失值小于预设阈值,得到最终训练后的文本分类模型;
测试模块,其被配置为:根据测试集,对最终训练后的文本分类模型进行测试,利用通过测试的网络模型对待分类文本进行分类。
8.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-6任一项所述的方法。
9.一种存储介质,其特征是,非暂时性存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-6任一项所述方法的指令。
10.一种计算机程序产品,其特征是,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410335568.2A CN118227790A (zh) | 2024-03-22 | 2024-03-22 | 基于多标签关联的文本分类方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410335568.2A CN118227790A (zh) | 2024-03-22 | 2024-03-22 | 基于多标签关联的文本分类方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118227790A true CN118227790A (zh) | 2024-06-21 |
Family
ID=91501946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410335568.2A Pending CN118227790A (zh) | 2024-03-22 | 2024-03-22 | 基于多标签关联的文本分类方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118227790A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118673152A (zh) * | 2024-08-22 | 2024-09-20 | 山东省齐鲁大数据研究院 | 一种基于自适应奖励机制的文本分类方法、系统、终端及介质 |
-
2024
- 2024-03-22 CN CN202410335568.2A patent/CN118227790A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118673152A (zh) * | 2024-08-22 | 2024-09-20 | 山东省齐鲁大数据研究院 | 一种基于自适应奖励机制的文本分类方法、系统、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN104408153A (zh) | 一种基于多粒度主题模型的短文本哈希学习方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN117149974A (zh) | 一种子图检索优化的知识图谱问答方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN118296150B (zh) | 一种基于多对抗网络改进的评论情感识别方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN117725261A (zh) | 一种视频文本跨模态检索方法、装置、设备与介质 | |
CN116882402A (zh) | 基于多任务的电力营销小样本命名实体识别方法 | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN113222059B (zh) | 利用协作式神经网络链的多标签情感分类方法 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN113792144B (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
CN116955534A (zh) | 投诉工单智能处理方法、装置、设备及存储介质 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |