CN114048320A - 一种基于课程学习的多标签国际疾病分类训练方法 - Google Patents
一种基于课程学习的多标签国际疾病分类训练方法 Download PDFInfo
- Publication number
- CN114048320A CN114048320A CN202210029712.0A CN202210029712A CN114048320A CN 114048320 A CN114048320 A CN 114048320A CN 202210029712 A CN202210029712 A CN 202210029712A CN 114048320 A CN114048320 A CN 114048320A
- Authority
- CN
- China
- Prior art keywords
- training
- label
- international disease
- training sample
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 182
- 201000010099 disease Diseases 0.000 title claims abstract description 94
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000005070 sampling Methods 0.000 claims abstract description 39
- 238000009826 distribution Methods 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于课程学习的多标签国际疾病分类训练方法,在对国际疾病大规模数据集进行分类自动编码时通过三种不同的小批量样本采样方法来控制标签分布。首先获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集;第一阶段训练,对训练样本子集进行迭代分层采样与计算梯度并第一轮更新模型参数;第二阶段训练,对训练样本集进行迭代置乱切分与计算梯度并第二轮更新模型参数;第三阶段训练,对训练样本子集进行迭代概率采样和计算梯度并第三轮更新模型参数。本发明改进了当前主流模型的训练阶段,改进的模型在ICD编码多标签分类任务中大幅提升了模型精度和泛化能力。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于课程学习的多标签国际疾病分类训练方法。
背景技术
国际疾病分类(International Classification of Diseases,ICD)编码是电子健康档案的重要标签。ICD编码是根据疾病的病因、病理、临床表现等特征,将同一类疾病归纳为一个有序代码组合。这些代码用于量化重要的统计数据,方便于寻找诊断相似的患者队列,除此之外还作为医院之间的标准化信息交换手段,具有重要的价值和意义。
对电子病历进行ICD编码自动分类是一项很有意义的工作。一方面自动分类节省了大量人工分类的成本,另一方面准确的分类可以有效地辅助医生的诊断。近年来,基于机器学习的技术已经被证明可以利用电子病历学习出分类模型,由于每个电子病例往往涉及多个疾病,因此需要进行多标签分类。
ICD编码的自动分类模型要求较高的准确率和泛化能力,然而一些大规模数据集中电子病例的ICD编码分布极不平衡,这就导致模型的准确率低和泛化能力差。以著名的电子病历集MIMIC-III(一套由麻省理工学院计算生理学实验室提供的近55000份电子病历)为例,MIMIC-III拥有呈长尾分布的6000多个标签,以三种主流深度学习模型(TextCNN、TextRNN、TextRCNN)在MIMIC-III上进行ICD编码多标签分类,分类结果参见表1。从实验结果可以观察到测试集上的Fscore普遍较低,而训练集上的Fscore较高,三种模型的泛化能力和准确率均不理想。
表1. 三种主流模型在MIMIC-III上的实验结果
发明内容
本发明的目的在于提供一种基于课程学习的多标签国际疾病分类训练方法,将传统训练过程分为了三个难易程度不同的阶段,提升分类模型的精度和泛化能力。
为实现上述目的,本发明的技术方案为:
一种基于课程学习的多标签国际疾病分类训练方法,包括以下步骤:
获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合;
对所述训练样本子集集合进行分层采样得到第一阶段小批量样本子集,将所述第一阶段小批量样本子集输入课程学习模型中进行梯度计算,更新课程学习模型参数,重复分层采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的课程学习模型参数,配置得到第一阶段训练模型;
对所述多标签国际疾病训练样本集进行置乱切分得到第二阶段小批量样本子集,将所述第二阶段小批量样本子集输入第一阶段训练模型中进行梯度计算,更新所述第一阶段训练模型参数,重复置乱切分、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第二阶段训练模型参数,配置得到第二阶段训练模型;
对所述训练样本子集集合进行概率采样得到第三阶段小批量样本子集,将所述第三阶段小批量样本子集输入第二阶段训练模型中进行梯度计算,更新所述第二阶段训练模型参数,重复概率采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第三阶段训练模型参数,配置得到训练完毕的课程学习模型。
进一步地,获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合,具体包括以下步骤:
获取电子病历,对所述电子病历进行预处理获得多标签国际疾病训练样本集;
统计多标签国际疾病训练样本集,获取国际疾病标签概率分布;
基于多标签国际疾病训练样本集中的国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合。
进一步地,对所述电子病历进行预处理获得多标签国际疾病训练样本集,具体包括以下步骤:
删除所述电子病历中的标点符号、数字、通用词以及无意义字段,获得初始训练样本集;
对所述初始训练样本集进行分词,生成分词字典;
计算所述分词词典中每个分词的TF-IDF分数,设定TF-IDF分数阈值范围,保留TF-IDF分数在TF-IDF分数阈值范围内的分词,获得所述多标签国际疾病训练样本集。
进一步地,统计多标签国际疾病训练样本集,获取国际疾病标签概率分布,具体包括以下步骤:
统计多标签国际疾病训练样本集,得到所述多标签国际疾病训练样本集的国际疾病标签集合;
根据所述国际疾病标签集合计算每种国际疾病标签的分布情况,得到国际疾病标签概率分布。
进一步地,根据国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,所述训练样本子集的数量与国际疾病标签的数量相同。
进一步地,对所述训练样本子集集合进行分层采样具体包括以下步骤:
设定第一阶段小批量样本子集的大小为m,从所述国际疾病标签集合中随机采样k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样m个样本,组成k个第一阶段小批量样本子集。
进一步地,对所述多标签国际疾病训练样本集进行置乱切分包括具体步骤:
将所述多标签国际疾病训练样本集充分洗牌后划分成k个不重叠的大小为m的等份,组成k个第二阶段小批量样本子集。
进一步地,对所述训练样本子集集合进行概率采样包括具体步骤:
基于所述多标签国际疾病训练样本集中国际疾病标签概率分布,概率采样出k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样一个样本,组成k个大小为m的第三阶段小批量样本子集。
进一步地,一轮迭代中,将第一阶段小批量样本子集、第二阶段小批量样本子集、第三阶段小批量样本子集输入训练模型中进行梯度计算、更新训练模型参数的方式相同,所述梯度计算、更新训练模型参数的方式具体包括以下步骤:
S1、获取当前阶段的训练模型;
S2、将当前阶段的小批量样本子集中的样本依次输入训练模型中,并通过损失函数计算得到与样本数量相同的损失值,将损失值求平均得到本轮迭代的损失;
S3、基于训练模型、损失和小批量样本子集估算梯度更新参数,并根据梯度更新参数更新所述训练模型;
S4、重复S1-S3的步骤,直到全部小批量样本子集输入训练模型中进行梯度计算和更新训练模型参数,结束本轮迭代。
与现有技术相比,本发明具有如下优点:
本发明中基于课程学习的多标签国际疾病分类自动编码方法,改进了当前TextCNN、TextRNN和TextRCNN三种主流模型。通过三种不同的小批量样本采样方法来控制小批量样本子集的标签分布,标签分布代表了该阶段的难易程度。对于ICD编码的多标签分类来说,样本多的标签容易学习,样本少的标签在训练过程中难以学习,因此在训练过程的第一阶段使用分层采样的方法来保证小批量样本子集中包含大量不同标签的样本,模型在训练前期快速的学习全部类别的标签;训练过程的第二阶段使用常规的置乱切分算法获取小批量样本子集;而训练第三阶段使用了一种有指导的概率采样方法,使得小批量样本子集的分布更加接近原始数据集的分布。经过改进的课程学习模型在ICD编码多标签分类任务上大幅提升了模型精度和泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的三个训练阶段的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
监护室医学信息数据集(the Medical Information Mart for Intensive Care,MIMIC),是一个基于重症监护室病人监测情况的医学开源数据集。其公布的目的在于促进医学研究,提升ICU决策支持水平。本实施例中将MIMIC中文本记录事件表(NOTEEVENTS) 中的出院记录(Discharge summary)作为电子病例,预测其对应的ICD-9编码。
在本实施例中对原始的电子病例进行了数据清洗工作。在删除了病例中的标点符号、数字、停用词以及一些类似“Admission Date”的无意义字段后,对全部数据集进行分词并生成了分词字典。之后计算字典中每个分词的TF-IDF分数,TF-IDF可以评估分词对一个语料库的重要程度。TF-IDF分数在预设阈值范围内的10000个分词将会被保留,而TF-IDF分数不在预设阈值范围内的分词则被删除,处理后数据集的详细统计信息如表2所示。
表2. 数据集MIMIC的详细统计信息
将MIMIC数据集随机分为训练数据集、验证数据集和测试数据集三部分,比例为7:1:2。使用Adam优化程序,设置学习率为0.008,总迭代次数为150轮。
使用TextCNN、TextRNN和TextRCNN三种模型,在MIMIC数据集上进行多次150轮ICD编码多标签分类,取平均结果作为基线。之后使用本发明中的方法对三种模型进行训练改进,进行多组ICD编码的多标签分类。
本实施例中的基于课程学习的多标签国际疾病分类训练方法,将传统训练过程分为了三个难易程度不同的阶段,三个训练阶段的流程示意图如图1所示。
第一阶段训练:
设小批量样本子集的大小为m,首先从标签集合L中随机采样k个标签,再从选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练
样本子集中的每个训练样本子集随机采样m个样本,组成k个第一小批量样本子集;
将第一小批量样本子集输入课程学习模型中依次计算梯度,并更新模型参数;
重复上述分层采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的课程学习模型参数,配置得到第一阶段训练模型。
第二阶段训练:
将第二小批量样本子集输入第一阶段训练模型中依次计算梯度,并更新第一阶段训练模型的参数;
重复上述置乱切分、梯度计算和更新模型参数的步骤,直到达到预定的迭代次数,根据第二阶段训练获得的更新后的模型参数,配置第二阶段训练模型。
第三阶段训练:
b、先在P的指导下概率采样出k个标签,再从中选出与k个国际
疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随
机采样一个样本,组成k个大小为m的第三阶段小批量样本子集。
c、将第三小批量样本子集输入第二阶段训练模型中依次计算梯度,并更新第二阶段训练模型的参数。
d、重复步骤b、c,直到达到预定的迭代次数,根据第三阶段训练阶段获得的更新后的模型参数,配置第三阶段训练模型,即为最终获得的参数更新完成的课程学习模型。
第一阶段、第二阶段、第三阶段训练过程中,每一轮迭代中,在模型中输入小批量样本子集后,对梯度的计算、模型参数的更新步骤一致,对梯度的计算、模型参数的更新步骤具体包括以下:
S2、获取当前阶段的模型θ,θ的初始状态通常从一个分布(如均匀分布)中随机抽取。
S4、根据模型θ、损失l和小批量样本子集B可以估算出梯度更新∆θ,并更新模型:θ = θ – μ*∆θ,其中μ是超参数学习率。
三种采样方法的难易程度决定了其所在的训练阶段,越简单的方法应该在训练的更早期进行。本实施例中的基于课程学习的多标签国际疾病分类训练方法期望在训练的前期使模型接触到标签类别平衡的小批量样本子集,而在训练后期使模型接触到接近训练样本标签分布的小批量样本子集。本实施例选择了一种衡量小批量样本子集的类别平衡的方法,以及两种衡量样本标签分布差异的方法来衡量难易程度。
各类标签数量的标准差可以很好的衡量小批量样本子集的标签的分布是
否平衡,数值越小,标签分布越平衡,标签多样性越高。其计算公式如下所示:,其中c为标签类别数量,为包含第i个标签的样本数量,为c个的平均数。
K_L距离用来衡量两个概率分布之间接近程度,代表分布p相较于分布
q的距离,数值越大,分布差距越大,当p=q时,其公式如下:,其中,和分别代表第i个元素在概率分布
p和q中出现的概率。K_L距离具有不对称性,在大多数情况下不等于。
J_S距离是K_L距离的一种优化,相比于K_L距离,他具有对称性,能够更好的衡量
两个概率分布距离,即。其公式如下:,K_L距离和J_S距离能够很好的衡量小
批量样本子集和原始训练数据集之间标签分布的距离。
对于三种方法的难度测量结果如表3所示。
表3. 小批量样本子集难度测量结果
从结果可见,使用分层采样策略能够很好的保持小批量样本子集中的标签类别平衡,而概率采样相比两种方法能更好的保持训练集合的样本标签分布。综合两方面因素,通过本实验的难度测量器,课程由易到难应以分层采样(2)、置乱切分(0)、概率采样(1)的顺序进行训练。
将测试数据集输入到参数更新后的TextCNN、TextRNN和TextRCNN三种课程学习模型中,将分类结果与未更新的三种课程学习模型得到的分类结果进行对比。
表4为三种模型的实验结果,基于课程学习的多标签国际疾病分类自动编码方法使得TextCNN、TextRNN和TextRCNN三种模型的Fscore分别提高了33.4%、37.4%和45%,提升效果非常明显。证明了本实施例中的分类方法确实能够提升模型在标签分布不均衡的大规模数据上进行ICD编码多标签分类的性能。
表4. 三种参数更新后的课程学习模型的分类结果
表5展示了本实施例中的分类方法在MIMIC-III上的泛化能力。可以看到三种模型的训练集Fscore和测试集Fscore都非常接近。通过和表4结果的对比,可以证明本实施例中的分类方法能够有效提升模型的泛化能力。
表5. 本实施例中的分类方法在MIMIC-III上的泛化能力
表6展示了TextCNN和TextRCNN在相同条件(小批量大小为7000时运行150轮)下,将三种采样方法以各种其他顺序得到的结果,结果均为多次实验结的平均值。两个模型同时在2-0-1的采样模式下取得了最好的效果,这与预期相符,证明了本实施例中使用的难度衡量方法的正确性。
表6. 课程学习模型在全部采样模式下的结果
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (9)
1.一种基于课程学习的多标签国际疾病分类训练方法,其特征在于,包括以下步骤:
获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合;
对所述训练样本子集集合进行分层采样得到第一阶段小批量样本子集,将所述第一阶段小批量样本子集输入课程学习模型中进行梯度计算,更新课程学习模型参数,重复分层采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的课程学习模型参数,配置得到第一阶段训练模型;
对所述多标签国际疾病训练样本集进行置乱切分得到第二阶段小批量样本子集,将所述第二阶段小批量样本子集输入第一阶段训练模型中进行梯度计算,更新所述第一阶段训练模型参数,重复置乱切分、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第二阶段训练模型参数,配置得到第二阶段训练模型;
对所述训练样本子集集合进行概率采样得到第三阶段小批量样本子集,将所述第三阶段小批量样本子集输入第二阶段训练模型中进行梯度计算,更新所述第二阶段训练模型参数,重复概率采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第三阶段训练模型参数,配置得到训练完毕的课程学习模型。
2.根据权利要求1所述的多标签国际疾病分类训练方法,其特征在于,获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合,具体包括以下步骤:
获取电子病历,对所述电子病历进行预处理获得多标签国际疾病训练样本集;
统计多标签国际疾病训练样本集,获取国际疾病标签概率分布;
基于多标签国际疾病训练样本集中的国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合。
3.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于,对所述电子病历进行预处理获得多标签国际疾病训练样本集,具体包括以下步骤:
删除所述电子病历中的标点符号、数字、通用词以及无意义字段,获得初始训练样本集;
对所述初始训练样本集进行分词,生成分词字典;
计算所述分词词典中每个分词的TF-IDF分数,设定TF-IDF分数阈值范围,保留TF-IDF分数在TF-IDF分数阈值范围内的分词,获得所述多标签国际疾病训练样本集。
4.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于,统计多标签国际疾病训练样本集,获取国际疾病标签概率分布,具体包括以下步骤:
统计多标签国际疾病训练样本集,得到所述多标签国际疾病训练样本集的国际疾病标签集合;
根据所述国际疾病标签集合计算每种国际疾病标签的分布情况,得到国际疾病标签概率分布。
5.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于:根据国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,所述训练样本子集的数量与国际疾病标签的数量相同。
6.根据权利要求4所述的多标签国际疾病分类训练方法,其特征在于,对所述训练样本子集集合进行分层采样具体包括以下步骤:
设定第一阶段小批量样本子集的大小为m,从所述国际疾病标签集合中随机采样k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样m个样本,组成k个第一阶段小批量样本子集。
7.根据权利要求1所述的多标签国际疾病分类训练方法,其特征在于,对所述多标签国际疾病训练样本集进行置乱切分包括具体步骤:
将所述多标签国际疾病训练样本集充分洗牌后划分成k个不重叠的大小为m的等份,组成k个第二阶段小批量样本子集。
8.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于,对所述训练样本子集集合进行概率采样包括具体步骤:
基于所述多标签国际疾病训练样本集中国际疾病标签概率分布,概率采样出k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样一个样本,组成k个大小为m的第三阶段小批量样本子集。
9.根据权利要求1所述的多标签国际疾病分类训练方法,其特征在于,一轮迭代中,将第一阶段小批量样本子集、第二阶段小批量样本子集、第三阶段小批量样本子集输入训练模型中进行梯度计算、更新训练模型参数的方式相同,所述梯度计算、更新训练模型参数的方式具体包括以下步骤:
S1、获取当前阶段的训练模型;
S2、将当前阶段的小批量样本子集中的样本依次输入训练模型中,并通过损失函数计算得到与样本数量相同的损失值,将损失值求平均得到本轮迭代的损失;
S3、基于训练模型、损失和小批量样本子集估算梯度更新参数,并根据梯度更新参数更新所述训练模型;
S4、重复S1-S3的步骤,直到全部小批量样本子集输入训练模型中进行梯度计算和更新训练模型参数,结束本轮迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210029712.0A CN114048320B (zh) | 2022-01-12 | 2022-01-12 | 一种基于课程学习的多标签国际疾病分类训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210029712.0A CN114048320B (zh) | 2022-01-12 | 2022-01-12 | 一种基于课程学习的多标签国际疾病分类训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048320A true CN114048320A (zh) | 2022-02-15 |
CN114048320B CN114048320B (zh) | 2022-03-29 |
Family
ID=80196261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210029712.0A Active CN114048320B (zh) | 2022-01-12 | 2022-01-12 | 一种基于课程学习的多标签国际疾病分类训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048320B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844717A (zh) * | 2023-09-01 | 2023-10-03 | 中国人民解放军总医院第一医学中心 | 一种基于分层多标签模型的医疗建议推荐方法、系统、设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
CN108537270A (zh) * | 2018-04-04 | 2018-09-14 | 厦门理工学院 | 基于多标签学习的图像标注方法、终端设备及存储介质 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
US10553319B1 (en) * | 2019-03-14 | 2020-02-04 | Kpn Innovations, Llc | Artificial intelligence systems and methods for vibrant constitutional guidance |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111241301A (zh) * | 2020-01-09 | 2020-06-05 | 天津大学 | 一种面向知识图谱表示学习的分布式框架构建方法 |
US20200211106A1 (en) * | 2017-12-27 | 2020-07-02 | Alibaba Group Holding Limited | Method, apparatus, and device for training risk management models |
CN111460091A (zh) * | 2020-03-09 | 2020-07-28 | 杭州麦歌算法科技有限公司 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
CN112560900A (zh) * | 2020-09-08 | 2021-03-26 | 同济大学 | 一种面向样本不均衡的多疾病分类器设计方法 |
-
2022
- 2022-01-12 CN CN202210029712.0A patent/CN114048320B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200211106A1 (en) * | 2017-12-27 | 2020-07-02 | Alibaba Group Holding Limited | Method, apparatus, and device for training risk management models |
CN108537270A (zh) * | 2018-04-04 | 2018-09-14 | 厦门理工学院 | 基于多标签学习的图像标注方法、终端设备及存储介质 |
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
CN109460473A (zh) * | 2018-11-21 | 2019-03-12 | 中南大学 | 基于症状提取和特征表示的电子病历多标签分类方法 |
US10553319B1 (en) * | 2019-03-14 | 2020-02-04 | Kpn Innovations, Llc | Artificial intelligence systems and methods for vibrant constitutional guidance |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN111241301A (zh) * | 2020-01-09 | 2020-06-05 | 天津大学 | 一种面向知识图谱表示学习的分布式框架构建方法 |
CN111460091A (zh) * | 2020-03-09 | 2020-07-28 | 杭州麦歌算法科技有限公司 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
CN112560900A (zh) * | 2020-09-08 | 2021-03-26 | 同济大学 | 一种面向样本不均衡的多疾病分类器设计方法 |
Non-Patent Citations (4)
Title |
---|
MIHAIL POPESCU ET AL.: "Improving disease prediction using ICD-9 ontological features", 《2011 IEEE INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS》 * |
张述睿 等: "面向ICD疾病分类的深度学习方法研究", 《计算机工程与应用》 * |
朱文静: "基于Spark的类别不平衡问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
游正洋 等: "基于词性标注的中医症候名语料库", 《电子技术与软件工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844717A (zh) * | 2023-09-01 | 2023-10-03 | 中国人民解放军总医院第一医学中心 | 一种基于分层多标签模型的医疗建议推荐方法、系统、设备 |
CN116844717B (zh) * | 2023-09-01 | 2023-12-22 | 中国人民解放军总医院第一医学中心 | 一种基于分层多标签模型的医疗建议推荐方法、系统、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114048320B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243753B (zh) | 一种面向医疗数据的多因素相关性交互式分析方法 | |
CN111243736A (zh) | 一种生存风险评估方法及系统 | |
CN112201330A (zh) | 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法 | |
JP2020047234A (ja) | データ評価方法、装置、機器及び読み取り可能な記憶媒体 | |
CN113053535A (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
WO2021179514A1 (zh) | 一种基于人工智能的新型冠状病毒患者病况分类系统 | |
CN111343147A (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN112084330A (zh) | 一种基于课程规划元学习的增量关系抽取方法 | |
CN114048320B (zh) | 一种基于课程学习的多标签国际疾病分类训练方法 | |
MacCallum et al. | Modeling multivariate change | |
CN112259232B (zh) | 一种基于深度学习的vte风险自动评估系统 | |
US11961204B2 (en) | State visualization device, state visualization method, and state visualization program | |
CN111310792B (zh) | 一种基于决策树的药敏实验结果识别方法与系统 | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及系统 | |
Özkan et al. | Effect of data preprocessing on ensemble learning for classification in disease diagnosis | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
Praserttitipong et al. | Elective course recommendation model for higher education program. | |
Appari et al. | An Improved CHI 2 Feature Selection Based a Two-Stage Prediction of Comorbid Cancer Patient Survivability | |
Wheadon | Classification accuracy and consistency under item response theory models using the package classify | |
CN117079834A (zh) | 利用大型语言模型监控多中心临床评价执行偏差的方法 | |
CN113673609B (zh) | 一种基于线性隐变量的调查问卷数据分析方法 | |
CN109102896A (zh) | 一种分类模型生成方法、数据分类方法及装置 | |
Hidayat | Classification of sleep disorders using random forest on sleep health and lifestyle dataset | |
CN114496118A (zh) | 药敏结果识别方法、装置、电子设备及可读存储介质 | |
CN109243533B (zh) | 一种用于计算基因的组织特异表达的鲁棒z-score打分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |