CN114048320A

CN114048320A - 一种基于课程学习的多标签国际疾病分类训练方法

Info

Publication number: CN114048320A
Application number: CN202210029712.0A
Authority: CN
Inventors: 王亚强; 韩旭; 郝学超; 舒红平; 朱涛
Original assignee: Chengdu University of Information Technology; West China Hospital of Sichuan University
Current assignee: Chengdu University of Information Technology; West China Hospital of Sichuan University
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-02-15
Anticipated expiration: 2042-01-12
Also published as: CN114048320B

Abstract

本发明公开了一种基于课程学习的多标签国际疾病分类训练方法，在对国际疾病大规模数据集进行分类自动编码时通过三种不同的小批量样本采样方法来控制标签分布。首先获取多标签国际疾病训练样本集，并将多标签国际疾病训练样本集划分为多个训练样本子集；第一阶段训练，对训练样本子集进行迭代分层采样与计算梯度并第一轮更新模型参数；第二阶段训练，对训练样本集进行迭代置乱切分与计算梯度并第二轮更新模型参数；第三阶段训练，对训练样本子集进行迭代概率采样和计算梯度并第三轮更新模型参数。本发明改进了当前主流模型的训练阶段，改进的模型在ICD编码多标签分类任务中大幅提升了模型精度和泛化能力。

Description

一种基于课程学习的多标签国际疾病分类训练方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于课程学习的多标签国际疾病分类训练方法。

背景技术

国际疾病分类（International Classification of Diseases，ICD）编码是电子健康档案的重要标签。ICD编码是根据疾病的病因、病理、临床表现等特征，将同一类疾病归纳为一个有序代码组合。这些代码用于量化重要的统计数据，方便于寻找诊断相似的患者队列，除此之外还作为医院之间的标准化信息交换手段，具有重要的价值和意义。

对电子病历进行ICD编码自动分类是一项很有意义的工作。一方面自动分类节省了大量人工分类的成本，另一方面准确的分类可以有效地辅助医生的诊断。近年来，基于机器学习的技术已经被证明可以利用电子病历学习出分类模型，由于每个电子病例往往涉及多个疾病，因此需要进行多标签分类。

ICD编码的自动分类模型要求较高的准确率和泛化能力，然而一些大规模数据集中电子病例的ICD编码分布极不平衡，这就导致模型的准确率低和泛化能力差。以著名的电子病历集MIMIC-III（一套由麻省理工学院计算生理学实验室提供的近55000份电子病历）为例，MIMIC-III拥有呈长尾分布的6000多个标签，以三种主流深度学习模型（TextCNN、TextRNN、TextRCNN）在MIMIC-III上进行ICD编码多标签分类，分类结果参见表1。从实验结果可以观察到测试集上的Fscore普遍较低，而训练集上的Fscore较高，三种模型的泛化能力和准确率均不理想。

表1. 三种主流模型在MIMIC-III上的实验结果

发明内容

本发明的目的在于提供一种基于课程学习的多标签国际疾病分类训练方法，将传统训练过程分为了三个难易程度不同的阶段，提升分类模型的精度和泛化能力。

为实现上述目的，本发明的技术方案为：

一种基于课程学习的多标签国际疾病分类训练方法，包括以下步骤：

获取多标签国际疾病训练样本集，并将多标签国际疾病训练样本集划分为多个训练样本子集，组成训练样本子集集合；

对所述训练样本子集集合进行分层采样得到第一阶段小批量样本子集，将所述第一阶段小批量样本子集输入课程学习模型中进行梯度计算，更新课程学习模型参数，重复分层采样、梯度计算和更新参数过程直到达到预定的迭代次数，以获得更新后的课程学习模型参数，配置得到第一阶段训练模型；

对所述多标签国际疾病训练样本集进行置乱切分得到第二阶段小批量样本子集，将所述第二阶段小批量样本子集输入第一阶段训练模型中进行梯度计算，更新所述第一阶段训练模型参数，重复置乱切分、梯度计算和更新参数过程直到达到预定的迭代次数，以获得更新后的第二阶段训练模型参数，配置得到第二阶段训练模型；

对所述训练样本子集集合进行概率采样得到第三阶段小批量样本子集，将所述第三阶段小批量样本子集输入第二阶段训练模型中进行梯度计算，更新所述第二阶段训练模型参数，重复概率采样、梯度计算和更新参数过程直到达到预定的迭代次数，以获得更新后的第三阶段训练模型参数，配置得到训练完毕的课程学习模型。

进一步地，获取多标签国际疾病训练样本集，并将多标签国际疾病训练样本集划分为多个训练样本子集，组成训练样本子集集合，具体包括以下步骤：

获取电子病历，对所述电子病历进行预处理获得多标签国际疾病训练样本集；

统计多标签国际疾病训练样本集，获取国际疾病标签概率分布；

基于多标签国际疾病训练样本集中的国际疾病标签，将所述多标签国际疾病训练样本集划分为多个训练样本子集，组成训练样本子集集合。

进一步地，对所述电子病历进行预处理获得多标签国际疾病训练样本集，具体包括以下步骤：

删除所述电子病历中的标点符号、数字、通用词以及无意义字段，获得初始训练样本集；

对所述初始训练样本集进行分词，生成分词字典；

计算所述分词词典中每个分词的TF-IDF分数，设定TF-IDF分数阈值范围，保留TF-IDF分数在TF-IDF分数阈值范围内的分词，获得所述多标签国际疾病训练样本集。

进一步地，统计多标签国际疾病训练样本集，获取国际疾病标签概率分布，具体包括以下步骤：

统计多标签国际疾病训练样本集，得到所述多标签国际疾病训练样本集的国际疾病标签集合；

根据所述国际疾病标签集合计算每种国际疾病标签的分布情况，得到国际疾病标签概率分布。

进一步地，根据国际疾病标签，将所述多标签国际疾病训练样本集划分为多个训练样本子集，所述训练样本子集的数量与国际疾病标签的数量相同。

进一步地，对所述训练样本子集集合进行分层采样具体包括以下步骤：

设定第一阶段小批量样本子集的大小为m，从所述国际疾病标签集合中随机采样k个国际疾病标签；

从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集，分别对所述k个训练样本子集中的每个训练样本子集随机采样m个样本，组成k个第一阶段小批量样本子集。

进一步地，对所述多标签国际疾病训练样本集进行置乱切分包括具体步骤：

将所述多标签国际疾病训练样本集充分洗牌后划分成k个不重叠的大小为m的等份，组成k个第二阶段小批量样本子集。

进一步地，对所述训练样本子集集合进行概率采样包括具体步骤：

基于所述多标签国际疾病训练样本集中国际疾病标签概率分布，概率采样出k个国际疾病标签；

从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集，分别对所述k个训练样本子集中的每个训练样本子集随机采样一个样本，组成k个大小为m的第三阶段小批量样本子集。

进一步地，一轮迭代中，将第一阶段小批量样本子集、第二阶段小批量样本子集、第三阶段小批量样本子集输入训练模型中进行梯度计算、更新训练模型参数的方式相同，所述梯度计算、更新训练模型参数的方式具体包括以下步骤：

S1、获取当前阶段的训练模型；

S2、将当前阶段的小批量样本子集中的样本依次输入训练模型中，并通过损失函数计算得到与样本数量相同的损失值，将损失值求平均得到本轮迭代的损失；

S3、基于训练模型、损失和小批量样本子集估算梯度更新参数，并根据梯度更新参数更新所述训练模型；

S4、重复S1-S3的步骤，直到全部小批量样本子集输入训练模型中进行梯度计算和更新训练模型参数，结束本轮迭代。

与现有技术相比，本发明具有如下优点：

本发明中基于课程学习的多标签国际疾病分类自动编码方法，改进了当前TextCNN、TextRNN和TextRCNN三种主流模型。通过三种不同的小批量样本采样方法来控制小批量样本子集的标签分布，标签分布代表了该阶段的难易程度。对于ICD编码的多标签分类来说，样本多的标签容易学习，样本少的标签在训练过程中难以学习，因此在训练过程的第一阶段使用分层采样的方法来保证小批量样本子集中包含大量不同标签的样本，模型在训练前期快速的学习全部类别的标签；训练过程的第二阶段使用常规的置乱切分算法获取小批量样本子集；而训练第三阶段使用了一种有指导的概率采样方法，使得小批量样本子集的分布更加接近原始数据集的分布。经过改进的课程学习模型在ICD编码多标签分类任务上大幅提升了模型精度和泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的三个训练阶段的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所举实施例是为了更好地对本发明进行说明，但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整，仍属于本发明的保护范围。

实施例1

监护室医学信息数据集（the Medical Information Mart for Intensive Care，MIMIC）,是一个基于重症监护室病人监测情况的医学开源数据集。其公布的目的在于促进医学研究,提升ICU决策支持水平。本实施例中将MIMIC中文本记录事件表（NOTEEVENTS）中的出院记录（Discharge summary）作为电子病例，预测其对应的ICD-9编码。

在本实施例中对原始的电子病例进行了数据清洗工作。在删除了病例中的标点符号、数字、停用词以及一些类似“Admission Date”的无意义字段后，对全部数据集进行分词并生成了分词字典。之后计算字典中每个分词的TF-IDF分数，TF-IDF可以评估分词对一个语料库的重要程度。TF-IDF分数在预设阈值范围内的10000个分词将会被保留，而TF-IDF分数不在预设阈值范围内的分词则被删除，处理后数据集的详细统计信息如表2所示。

表2. 数据集MIMIC的详细统计信息

MIMIC共包含55177条电子病例，包含6919个ICD-9代码。处理后数据集平均每个样本拥有898个分词和11个标签，所有样本组成训练样本集

，其中n为训练样本总数。

统计训练样本集

，得到训练样本标签集合

，c为样本总标签数。将样本集合D根据样本的标签划分为c个子集：

，得到按标签分层的样本子集集合

。

对于多标签分类任务有两种类型的评价指标，分别是基于样本的测量和基于标签的测量。使用基于标签的测量来评价模型的性能，其中包括

、

和

，其计算方式如下：

，

，

。

将MIMIC数据集随机分为训练数据集、验证数据集和测试数据集三部分，比例为7:1:2。使用Adam优化程序，设置学习率为0.008，总迭代次数为150轮。

使用TextCNN、TextRNN和TextRCNN三种模型，在MIMIC数据集上进行多次150轮ICD编码多标签分类，取平均结果作为基线。之后使用本发明中的方法对三种模型进行训练改进，进行多组ICD编码的多标签分类。

本实施例中的基于课程学习的多标签国际疾病分类训练方法，将传统训练过程分为了三个难易程度不同的阶段，三个训练阶段的流程示意图如图1所示。

第一阶段训练：

设小批量样本子集的大小为m，首先从标签集合L中随机采样k个标签，再从

选出与k个国际疾病标签对应的k个训练样本子集，分别对所述k个训练样本子集中的每个训练样本子集随机采样m个样本，组成k个第一小批量样本子集；

将第一小批量样本子集输入课程学习模型中依次计算梯度，并更新模型参数；

重复上述分层采样、梯度计算和更新参数过程直到达到预定的迭代次数，以获得更新后的课程学习模型参数，配置得到第一阶段训练模型。

第二阶段训练：

将样本集

充分洗牌后划分成k个不重叠的大小为m的等份，组成k个第二阶段小批量样本子集；

将第二小批量样本子集输入第一阶段训练模型中依次计算梯度，并更新第一阶段训练模型的参数；

重复上述置乱切分、梯度计算和更新模型参数的步骤，直到达到预定的迭代次数，根据第二阶段训练获得的更新后的模型参数，配置第二阶段训练模型。

第三阶段训练：

a、计算样本集

中每个标签的概率分布P。

b、先在P的指导下概率采样出k个标签，再从

中选出与k个国际疾病标签对应的k个训练样本子集，分别对所述k个训练样本子集中的每个训练样本子集随机采样一个样本，组成k个大小为m的第三阶段小批量样本子集。

c、将第三小批量样本子集输入第二阶段训练模型中依次计算梯度，并更新第二阶段训练模型的参数。

d、重复步骤b、c，直到达到预定的迭代次数，根据第三阶段训练阶段获得的更新后的模型参数，配置第三阶段训练模型，即为最终获得的参数更新完成的课程学习模型。

第一阶段、第二阶段、第三阶段训练过程中，每一轮迭代中，在模型中输入小批量样本子集后，对梯度的计算、模型参数的更新步骤一致，对梯度的计算、模型参数的更新步骤具体包括以下：

S1、通过当前阶段采样方法得到k个小批量样本子集B，形成一轮迭代所需的小批量样本子集集合

，其中k等于训练集大小|D|除以小批量样本子集大小m。

S2、获取当前阶段的模型θ，θ的初始状态通常从一个分布(如均匀分布)中随机抽取。

S3、将

中小批量样本子集B中m个样本依次送入模型θ，并最终通过损失函数计算得到m个损失值，将损失值求平均得到本轮迭代的损失l。

S4、根据模型θ、损失l和小批量样本子集B可以估算出梯度更新∆θ，并更新模型：θ = θ – μ*∆θ，其中μ是超参数学习率。

S5、重复步骤S2-S4k次直到使用

中全部小批量样本子集完成模型更新，则本轮迭代结束。

三种采样方法的难易程度决定了其所在的训练阶段，越简单的方法应该在训练的更早期进行。本实施例中的基于课程学习的多标签国际疾病分类训练方法期望在训练的前期使模型接触到标签类别平衡的小批量样本子集，而在训练后期使模型接触到接近训练样本标签分布的小批量样本子集。本实施例选择了一种衡量小批量样本子集的类别平衡的方法，以及两种衡量样本标签分布差异的方法来衡量难易程度。

各类标签数量的标准差

可以很好的衡量小批量样本子集的标签的分布是否平衡，数值越小，标签分布越平衡，标签多样性越高。其计算公式如下所示：

，其中c为标签类别数量，

为包含第i个标签的样本数量，

为c个

的平均数。

K_L距离用来衡量两个概率分布之间接近程度，

代表分布p相较于分布 q的距离，数值越大，分布差距越大，当p=q时

，其公式如下：

，其中，

和

分别代表第i个元素在概率分布 p和q中出现的概率。K_L距离具有不对称性，

在大多数情况下不等于

。

J_S距离是K_L距离的一种优化，相比于K_L距离，他具有对称性，能够更好的衡量两个概率分布距离，即

。其公式如下：

，K_L距离和J_S距离能够很好的衡量小批量样本子集和原始训练数据集之间标签分布的距离。

对于三种方法的难度测量结果如表3所示。

表3. 小批量样本子集难度测量结果

从结果可见，使用分层采样策略能够很好的保持小批量样本子集中的标签类别平衡，而概率采样相比两种方法能更好的保持训练集合的样本标签分布。综合两方面因素，通过本实验的难度测量器，课程由易到难应以分层采样（2）、置乱切分（0）、概率采样（1）的顺序进行训练。

将测试数据集输入到参数更新后的TextCNN、TextRNN和TextRCNN三种课程学习模型中，将分类结果与未更新的三种课程学习模型得到的分类结果进行对比。

表4为三种模型的实验结果，基于课程学习的多标签国际疾病分类自动编码方法使得TextCNN、TextRNN和TextRCNN三种模型的Fscore分别提高了33.4%、37.4%和45%，提升效果非常明显。证明了本实施例中的分类方法确实能够提升模型在标签分布不均衡的大规模数据上进行ICD编码多标签分类的性能。

表4. 三种参数更新后的课程学习模型的分类结果

表5展示了本实施例中的分类方法在MIMIC-III上的泛化能力。可以看到三种模型的训练集Fscore和测试集Fscore都非常接近。通过和表4结果的对比，可以证明本实施例中的分类方法能够有效提升模型的泛化能力。

表5. 本实施例中的分类方法在MIMIC-III上的泛化能力

表6展示了TextCNN和TextRCNN在相同条件（小批量大小为7000时运行150轮）下，将三种采样方法以各种其他顺序得到的结果，结果均为多次实验结的平均值。两个模型同时在2-0-1的采样模式下取得了最好的效果，这与预期相符，证明了本实施例中使用的难度衡量方法的正确性。

表6. 课程学习模型在全部采样模式下的结果

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于课程学习的多标签国际疾病分类训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多标签国际疾病分类训练方法，其特征在于，获取多标签国际疾病训练样本集，并将多标签国际疾病训练样本集划分为多个训练样本子集，组成训练样本子集集合，具体包括以下步骤：

3.根据权利要求2所述的多标签国际疾病分类训练方法，其特征在于，对所述电子病历进行预处理获得多标签国际疾病训练样本集，具体包括以下步骤：

对所述初始训练样本集进行分词，生成分词字典；

4.根据权利要求2所述的多标签国际疾病分类训练方法，其特征在于，统计多标签国际疾病训练样本集，获取国际疾病标签概率分布，具体包括以下步骤：

5.根据权利要求2所述的多标签国际疾病分类训练方法，其特征在于：根据国际疾病标签，将所述多标签国际疾病训练样本集划分为多个训练样本子集，所述训练样本子集的数量与国际疾病标签的数量相同。

6.根据权利要求4所述的多标签国际疾病分类训练方法，其特征在于，对所述训练样本子集集合进行分层采样具体包括以下步骤：

7.根据权利要求1所述的多标签国际疾病分类训练方法，其特征在于，对所述多标签国际疾病训练样本集进行置乱切分包括具体步骤：

8.根据权利要求2所述的多标签国际疾病分类训练方法，其特征在于，对所述训练样本子集集合进行概率采样包括具体步骤：

9.根据权利要求1所述的多标签国际疾病分类训练方法，其特征在于，一轮迭代中，将第一阶段小批量样本子集、第二阶段小批量样本子集、第三阶段小批量样本子集输入训练模型中进行梯度计算、更新训练模型参数的方式相同，所述梯度计算、更新训练模型参数的方式具体包括以下步骤：

S1、获取当前阶段的训练模型；