CN115345165A

CN115345165A - 一种面向标签稀缺或分布不平衡场景的特定实体识别方法

Info

Publication number: CN115345165A
Application number: CN202210990180.7A
Authority: CN
Inventors: 肖波; 熊思诗; 刘家驰; 周通; 何岳寰; 马占宇; 张闯
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-15

Abstract

本发明公开了一种面向标签稀缺或分布不平衡场景的特定实体识别方法，提出了伪标签分布感知的自适应重采样策略和去混淆的边际损失函数，对训练集中标签数据分布的容忍度高，解决了域内标签稀缺场景下实体类别分布不平衡问题，显著改善实体识别模型在标签稀缺或分布不平衡的困难场景下的泛化性能，明显提高稀有类别的精确率、召回率和F1值等评价指标，适用于训练集中标签样本较少或不平衡度较高的特定实体识别任务。

Description

一种面向标签稀缺或分布不平衡场景的特定实体识别方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种面向标签稀缺或分布不平衡场景的特定实体识别方法。

背景技术

实体识别旨在自动标记文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。作为序列标注任务的一个分支，实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。例如在专有领域知识图谱的构建中，命名实体识别通常被运用于自动抓取域内专有名词及其属性词以构建三元组。

域内标签稀缺是实体识别任务面临的一个主要挑战，由于训练样本需要标注者进行令牌级别的精细标注，同时专业领域的实体标注往往需要领域专家贡献知识，从而导致获取精细的域内带标注数据既昂贵又费时。相反，领域内的无标签数据往往是海量且易于获取的。现有实体识别模型为了解决域内标签稀缺问题，往往使用自训练(Self-Training)框架，利用海量域内无标数据迭代产出模型。自训练方法作为一种经典的半监督训练框架，被广泛的运用于低资源场景。不同于一致性正则化等基于数据增强的方法，自训练并不需要修改骨干网络或者预处理数据。在自训练框架下，首先收集少量有标记域内数据，构成标记数据集，其余的海量域内无标数据构成无标数据集。模型首先在标记数据集上训练，收敛后将被标记为教师模型。接着使用教师模型在无标数据集上进行预测，并将置信度高的预测结果设置为数据点的伪标签。伪标签数据将被收入标记集中用于迭代训练新模型，其中被训练的新模型标记为学生模型。上述过程迭代进行直至教师模型的预测指标收敛。

除了域内标签稀缺，实体标签分布不平衡也是实体识别任务的一个技术难点。由于单条输入文本中会同时包含多种实体，实体在训练语料中的自然共现导致不同实体类型分布普遍不均衡。通常，命名实体依据其在域内数据集中的出现频率可被分为常见实体和稀有实体。某些稀有实体在实际应用场景中重要性很高，比如机构名称、联系方式等。然而，实体识别模型在实体分布不平衡的语料中训练会导致其对实体类型的判决边界向稀有实体偏移，导致稀有实体被误判。

以自训练为代表的半监督方法在分布不平衡设定下的表现会大受影响。由于教师-学生模型的迭代过程中会不断有新标签加入，标签类别分布的不平衡往往会在这种迭代过程中不断加剧。

近年来这一问题在图像领域得到了广泛的关注，《CReST:AClass-RebalancingSelf-Training Framework for Imbalanced Semi-Supervised Learning》(Chen Wei,Kihyuk Sohn,Clayton Mellina,Alan Yuille,and Fan Yang.2021a.Crest:A class-rebalancing self-training framework for imbalanced semi-supervisedlearning.2021IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).)提出使用加权重采样的方式促使模型在迭代过程中更多的加入来自少数类的伪标签，在长尾图像分类数据集上得到了很好的表现。《Rethinking Re-Sampling inImbalanced Semi-Supervised Learning》(Ju He,Adam Kortylewski,Shaokang Yang,Shuai Liu,Cheng Yang,Changhu Wang,and Alan Yuille.2021.Rethinking re-samplingin imbal-anced semi-supervised learning.arXiv preprint arXiv:2106.00209.)提出解耦重采样与表征学习过程，在自训练的不同阶段采用不同的重采样方法解决类不平衡问题。

然而，对于“标签稀缺+分布不平衡”的双重挑战，现有的自训练方法存在两种缺陷：一是分类数据集的分布不平衡是实例级别的，而序列标注数据集的实体类别不平衡是一种令牌级别的不平衡分布，一段输入语料中可能同时包含常见实体和稀有实体，现有的重采样方法不适用于这种复杂的令牌级分布，直接运用在序列标注任务并不能很好地平衡数据集。二是现有方法多从数据层面做改进，并没有讨论从学生模型训练目标的角度去解决类别不平衡问题。

发明内容

本发明针对上述两种缺陷，以自训练为框架，从重采样方案设计、训练目标优化角度设计了一种面向标签稀缺或分布不平衡场景的特定实体识别方法，旨在学习更合理的判决边界，提升整体识别准确性，尤其是提升对稀有实体的识别准确性。从而为面向特定任务的实体识别应用提供更鲁棒的域内解决方案。

为了实现上述目的，本发明提供如下技术方案：

本发明提供了一种面向标签稀缺或分布不平衡场景的特定实体识别方法，包括以下步骤：

S1、利用已标记的数据，以最小化去混淆的边际损失函数为目标，训练模型；

S2、使用训练好的模型对未标记的数据进行预测，根据模型预测的类别置信度为每一条样本分配一个伪标签；

S3、根据伪标签分布感知的自适应重采样策略，基于步骤S2得到的类别置信度，以上一轮自训练新加入的伪标注数据的标签分布分配权重，为每一条伪标注样本计算加权置信度得分，再利用平滑阈值函数以及伯努利采样最终确定样本是否被选中；

S4、将采样出来的伪标注样本的伪标签作为其真实标签，将这部分数据从未标记数据集中删除，并与原始标记数据中的训练集合并，作为下一次迭代的训练集；

S5、重复步骤S1～S4多次，直至模型收敛；

S6、将待识别文本输入训练好的模型中进行预测。

进一步地，模型以Bert+BiLSTM+CRF模型作为骨干网络；当文本序列输入到网络中时，首先使用Bert预训练模型对文本进行预编码，获取每个字符的词向量；再采用BiLSTM网络进一步对向量进行下游编码，建模上下文信息；最后CRF作为解码器，将编码结果解码，由此得到实体标签序列。

进一步地，步骤S1中的去混淆的边际损失函数

由条件随机场损失

标签分布感知的边际损失

类抑制的混淆损失

三部分组成，公式如下：

其中，λ₁和λ₂是超参数，表示不同损失的权重；

条件随机场损失函数

是Bert+BiLSTM+CRF模型的原始损失函数；

标签分布感知的边际损失函数

如下：

其中

N_j表示第j类实体的数目，H是一个超参数，z_j代表模型将单词s判别为第j类实体的输出分数；

类抑制的混淆损失函数

如下：

其中ξ是一个分数阈值参数，σ(·)表示Sigmoid函数。

进一步地，步骤S3的具体选择方法为：

S301、根据新加入的伪标注数据中的实体标签数量分布，将实体按数量降序排序，N₁≥N₂≥…≥N_l≥…≥N_L，赋予实体s权重μ_s，计算伪标注文本S_i加权置信度得分C_i：

l为实体的索引，δ、γ、ρ为超参数；

S302、设计平滑阈值函数计算文本S_i被选中的概率为：

C_min是一个得分阈值，α、β是超参数，α>0，β≥1；

S303、对候选者进行伯努利采样，伯努利分布的采样概率p利用实体权重加权，其公式为：

进一步地，步骤S5中，在CRF层中采用维特比算法进行译码，选择分数最高的实体标签序列作为识别结果，后处理输出结构化识别结果。

与现有技术相比，本发明的有益效果为：

1、本发明基于半监督学习的自训练方式，减少人工标注的成本，充分利用大量的无标记数据来扩充稀缺的标记数据集，降低了对标签数据量级的要求，缓解了深度学习模型在有标签样本较少且不平衡度较高的数据上识别精度低的问题。

2、本发明针对特定实体识别任务设计了一种新的伪标签分布感知的自适应重采样策略，它能动态感知每轮自训练过程中新增数据的标签分布，自适应地采样伪标注数据加入到下一次迭代的训练集中(在置信度足够高的情况下，文本包含上一轮采样少的实体类别越多，被选中的概率越大)，有助于平衡训练集的实体数量分布，提高模型在稀有类上的识别性能。

3、本发明提出了去混淆的标签分布感知边际损失函数，它作用于模型的每一轮训练学习过程，旨在修正实体之间分类决策面的偏移，并且消除实体之间由于语义相似性或数量分布差异而造成的潜在的混淆，使得识别结果更加置信，提高模型在所有类别上的精确率。

综上，本发明提出的面向标签稀缺或分布不平衡场景的特定实体识别方法，提出了伪标签分布感知的自适应重采样策略和去混淆的边际损失函数，对训练集中标签数据分布的容忍度高，解决了域内标签稀缺场景下实体类别分布不平衡问题，显著改善实体识别模型在标签稀缺或分布不平衡的困难场景下的泛化性能，明显提高稀有类别的精确率、召回率和F1值等评价指标，适用于训练集中标签样本较少或不平衡度较高的特定实体识别任务，有助于缓解稀有实体类别识别精度低的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向标签稀缺或分布不平衡场景的特定实体识别方法流程图。

图2为本发明实施例提供的文本数据标注模式。

图3为本发明实施例提供的模型训练流程图。

图4为本发明实施例提供的模型推理流程图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明的面向标签稀缺或分布不平衡场景的特定实体识别方法，如图1所示，包括以下步骤：

步骤一：预定义目标领域的特定实体类型。

由领域专家制定需要从文本中识别出的有特定意义的概念，作为实体类型，即模型学习的实体标签。如医疗领域的CMID(中文医学意图)数据集定义了“疾病和诊断”、“影像检查”、“解剖部位”、“药物"、“手术“等实体类型。

步骤二：准备数据集。

采集目标领域内的文本数据，去除非法字符，并标注部分数据。依据语句是否带标签将数据集划分为标记数据集和未标记数据集，并进一步将标记数据集按照7:2:1的比例划分为训练集、验证集、测试集。每个数据子集需覆盖到所有实体类型。文本数据标注模式采用BIO方式，其中B(Begin)代表实体的开始位置，I(Inner)代表实体的内部位置，O用于标记无关字符。示例如图2所示。

步骤三：构建命名实体识别模型。

本发明实施例以目前常用的命名实体识别的Bert+BiLSTM+CRF模型作为骨干网络。当文本序列输入到网络中时，首先使用Bert预训练模型对文本进行预编码，获取每个字符的词向量；再采用BiLSTM网络进一步对向量进行下游编码，建模上下文信息；最后CRF作为解码器，将编码结果解码，由此得到实体标签序列。

步骤四：训练模型。

针对标签稀缺的难点，可采用以元学习为代表的少样本学习方式。元学习的核心思想是让模型在多个有大量标注数据的分解任务上训练，在相关数据上学习分类器训练经验，获得较好的初始化参数，从而具备泛化到某个只有少量标注数据的新任务上的能力。但该方法仍需要大量相关领域的标注数据，训练复杂且耗时。

由于数据集中标记数据稀缺，而获取领域内未标注数据较为容易，本发明采用半监督学习中的自训练方式，来利用大量的未标注数据扩充标记数据集，使模型学习到一个较好的特征提取器，增强模型的泛化能力。

整体流程如图3所示，包括以下步骤：

步骤S1中，在标签分布不平衡的数据集上训练模型会带来决策边界的偏差和标签的混淆，导致稀有实体容易被模型混淆为常见实体或语义相似的其他实体。常用的针对分布不平衡的损失函数有Focal Loss、Dice Loss等，但这些损失函数本质上更关注的是难易样本的不平衡问题，忽视了对数量关系与混淆度的惩罚。本发明提出最小化去混淆的边际损失函数的训练目标，旨在模型训练时修正实体之间的边界大小并减轻潜在的混淆现象。具体做法是：

去混淆的边际损失函数

由条件随机场损失

标签分布感知的边际损失

类抑制的混淆损失

三部分组成，总的损失函数公式如下：

其中，λ₁和λ₂是超参数，表示不同的损失的权重；

条件随机场损失函数

是Bert+BiLSTM+CRF模型的原始损失函数；

标签分布感知的边际损失函数

如下：

其中

N_j表示第j类实体的数目，H是一个超参数，z_j代表模型将单词s判别为第j类实体的输出分数；从公式中可以看出，该损失函数与实体类别数量相关。数量越少，强迫模型在该实体上的输出分数高，从而鼓励模型拉大稀有实体的边界距离，以纠正由不平衡分布导致的决策边界的偏差问题。

模型在判别时易产生实体混淆，其中稀有实体与常见实体或与其语义相似的其它实体间的混淆十分严重，模型对语义相似的稀有类和常见类缺乏区分，为了应对这一问题，本发明采用了类抑制的混淆损失函数

如下：

其中ξ是一个分数阈值参数，将分数大于ξ的非真实类别上的损失计入损失函数，以对与其容易混淆的其他类别进行抑制，促使参数更新时保护所有实体尤其是稀有实体的精度，σ(·)表示Sigmoid函数。

S2、使用训练好的模型对未标记的数据进行预测，根据置信度为每一条样本分配一个伪标签；

S3、根据伪标签分布感知的自适应重采样策略，基于步骤S2得到的置信度，以上一轮自训练新加入的伪标注数据的标签分布分配权重，为每一条伪标注样本计算加权置信度得分。再利用平滑阈值函数以及伯努利采样最终确定样本是否被选中；

自训练最关键的步骤在于步骤S3—伪标注数据的选取。通常而言，伪标签是高度带噪的，传统的做法是对所有实体的置信度进行求和平均，再使用分数阈值过滤部分低置信的预测。而由于一条语句中实体分布不均衡，采用求和平均的方式来简单计算置信度得分会忽视稀有实体的伪标签质量。此外，由于常见实体类型易获得高分数，传统做法倾向于选取包含常见实体多的语句，进一步加剧了训练集中的不平衡分布。

因此，本发明提出伪标签分布感知的自适应重采样策略，从伪标注数据中采样出一个高置信的子集。具体做法是：

S301、根据新加入的伪标注数据中的实体标签数量分布(第一轮使用原始标记数据集中的数量分布)，将实体按数量降序排序，N₁≥N₂≥…≥N_l≥…≥N_L，赋予实体s权重μ_s，计算伪标注文本S_i加权置信度得分C_i：

l为实体的索引，δ、γ、ρ为超参数；由μ_s公式可看出，权重和数量呈现负相关，数量越多的实体权重越小，在文本里对置信度得分的贡献越大。

S302、设计平滑阈值函数计算文本S_i被选中的概率为：

C_min是一个得分阈值，α、β是超参数，α>0，β≥1；与经典的阶跃函数不同，平滑阈值函数对分数采用了一个平滑变换。

选择最终可以加入下一轮训练集中的伪标注语句。

随着自训练的进行，在伪标签分布感知的自适应采样策略下，那些具有更多稀有实体且在这些稀有实体上得分相对较高的语句，更有可能被选入训练语料库，这有助于缓解训练集中实体之间的高度不平衡分布。

一组超参数取值示例如下：

γ＝2,ρ＝1,α＝10,β＝1,C_min＝0.95

S4、将采样出来的伪标注数据的伪标签作为其真实标签，将这部分数据从未标记数据集中删除，并与原始标记数据中的训练集合并，作为下一次迭代的训练集；

重复S1～S4多次，直至模型收敛。

步骤五：模型推理。

将待识别文本输入训练好的模型中进行预测，在CRF层中采用维特比算法进行译码，选择分数最高的实体标签序列作为识别结果，后处理输出结构化识别结果。如图4所示。

在本发明实施的数据集上，稀有实体类别的F1值可提升6％～9％。如在10-shotSNIPS数据集稀有类别上F1值提升8.7％；在10-shot Few-NERD数据集稀有类别上F1值提升6.4％。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向标签稀缺或分布不平衡场景的特定实体识别方法，其特征在于，包括以下步骤：

S3、根据伪标签分布感知的自适应重采样策略，基于步骤S2得到的类别置信度，以上一轮自训练新加入的伪标注数据的标签分布分配权重，为每一条伪标注样本计算加权置信度得分，再利用平滑阈值函数以及伯努利采样最终确定样本是否被选取；

S5、重复步骤S1～S4多次，直至模型收敛；

S6、将待识别文本输入训练好的模型中进行预测。

2.根据权利要求1所述的面向标签稀缺或分布不平衡场景的特定实体识别方法，其特征在于，模型以Bert+BiLSTM+CRF模型作为骨干网络；当文本序列输入到网络中时，首先使用Bert预训练模型对文本进行预编码，获取每个字符的词向量；再采用BiLSTM网络进一步对向量进行下游编码，建模上下文信息；最后CRF作为解码器，将编码结果解码，由此得到实体标签序列。

3.根据权利要求1所述的面向标签稀缺或分布不平衡场景的特定实体识别方法，其特征在于，步骤S1中的去混淆的边际损失函数