Nothing Special   »   [go: up one dir, main page]

CN114048320A - 一种基于课程学习的多标签国际疾病分类训练方法 - Google Patents

一种基于课程学习的多标签国际疾病分类训练方法 Download PDF

Info

Publication number
CN114048320A
CN114048320A CN202210029712.0A CN202210029712A CN114048320A CN 114048320 A CN114048320 A CN 114048320A CN 202210029712 A CN202210029712 A CN 202210029712A CN 114048320 A CN114048320 A CN 114048320A
Authority
CN
China
Prior art keywords
training
label
international disease
training sample
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210029712.0A
Other languages
English (en)
Other versions
CN114048320B (zh
Inventor
王亚强
韩旭
郝学超
舒红平
朱涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
West China Hospital of Sichuan University
Original Assignee
Chengdu University of Information Technology
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology, West China Hospital of Sichuan University filed Critical Chengdu University of Information Technology
Priority to CN202210029712.0A priority Critical patent/CN114048320B/zh
Publication of CN114048320A publication Critical patent/CN114048320A/zh
Application granted granted Critical
Publication of CN114048320B publication Critical patent/CN114048320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于课程学习的多标签国际疾病分类训练方法,在对国际疾病大规模数据集进行分类自动编码时通过三种不同的小批量样本采样方法来控制标签分布。首先获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集;第一阶段训练,对训练样本子集进行迭代分层采样与计算梯度并第一轮更新模型参数;第二阶段训练,对训练样本集进行迭代置乱切分与计算梯度并第二轮更新模型参数;第三阶段训练,对训练样本子集进行迭代概率采样和计算梯度并第三轮更新模型参数。本发明改进了当前主流模型的训练阶段,改进的模型在ICD编码多标签分类任务中大幅提升了模型精度和泛化能力。

Description

一种基于课程学习的多标签国际疾病分类训练方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于课程学习的多标签国际疾病分类训练方法。
背景技术
国际疾病分类(International Classification of Diseases,ICD)编码是电子健康档案的重要标签。ICD编码是根据疾病的病因、病理、临床表现等特征,将同一类疾病归纳为一个有序代码组合。这些代码用于量化重要的统计数据,方便于寻找诊断相似的患者队列,除此之外还作为医院之间的标准化信息交换手段,具有重要的价值和意义。
对电子病历进行ICD编码自动分类是一项很有意义的工作。一方面自动分类节省了大量人工分类的成本,另一方面准确的分类可以有效地辅助医生的诊断。近年来,基于机器学习的技术已经被证明可以利用电子病历学习出分类模型,由于每个电子病例往往涉及多个疾病,因此需要进行多标签分类。
ICD编码的自动分类模型要求较高的准确率和泛化能力,然而一些大规模数据集中电子病例的ICD编码分布极不平衡,这就导致模型的准确率低和泛化能力差。以著名的电子病历集MIMIC-III(一套由麻省理工学院计算生理学实验室提供的近55000份电子病历)为例,MIMIC-III拥有呈长尾分布的6000多个标签,以三种主流深度学习模型(TextCNN、TextRNN、TextRCNN)在MIMIC-III上进行ICD编码多标签分类,分类结果参见表1。从实验结果可以观察到测试集上的Fscore普遍较低,而训练集上的Fscore较高,三种模型的泛化能力和准确率均不理想。
表1. 三种主流模型在MIMIC-III上的实验结果
Figure 413220DEST_PATH_IMAGE001
发明内容
本发明的目的在于提供一种基于课程学习的多标签国际疾病分类训练方法,将传统训练过程分为了三个难易程度不同的阶段,提升分类模型的精度和泛化能力。
为实现上述目的,本发明的技术方案为:
一种基于课程学习的多标签国际疾病分类训练方法,包括以下步骤:
获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合;
对所述训练样本子集集合进行分层采样得到第一阶段小批量样本子集,将所述第一阶段小批量样本子集输入课程学习模型中进行梯度计算,更新课程学习模型参数,重复分层采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的课程学习模型参数,配置得到第一阶段训练模型;
对所述多标签国际疾病训练样本集进行置乱切分得到第二阶段小批量样本子集,将所述第二阶段小批量样本子集输入第一阶段训练模型中进行梯度计算,更新所述第一阶段训练模型参数,重复置乱切分、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第二阶段训练模型参数,配置得到第二阶段训练模型;
对所述训练样本子集集合进行概率采样得到第三阶段小批量样本子集,将所述第三阶段小批量样本子集输入第二阶段训练模型中进行梯度计算,更新所述第二阶段训练模型参数,重复概率采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第三阶段训练模型参数,配置得到训练完毕的课程学习模型。
进一步地,获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合,具体包括以下步骤:
获取电子病历,对所述电子病历进行预处理获得多标签国际疾病训练样本集;
统计多标签国际疾病训练样本集,获取国际疾病标签概率分布;
基于多标签国际疾病训练样本集中的国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合。
进一步地,对所述电子病历进行预处理获得多标签国际疾病训练样本集,具体包括以下步骤:
删除所述电子病历中的标点符号、数字、通用词以及无意义字段,获得初始训练样本集;
对所述初始训练样本集进行分词,生成分词字典;
计算所述分词词典中每个分词的TF-IDF分数,设定TF-IDF分数阈值范围,保留TF-IDF分数在TF-IDF分数阈值范围内的分词,获得所述多标签国际疾病训练样本集。
进一步地,统计多标签国际疾病训练样本集,获取国际疾病标签概率分布,具体包括以下步骤:
统计多标签国际疾病训练样本集,得到所述多标签国际疾病训练样本集的国际疾病标签集合;
根据所述国际疾病标签集合计算每种国际疾病标签的分布情况,得到国际疾病标签概率分布。
进一步地,根据国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,所述训练样本子集的数量与国际疾病标签的数量相同。
进一步地,对所述训练样本子集集合进行分层采样具体包括以下步骤:
设定第一阶段小批量样本子集的大小为m,从所述国际疾病标签集合中随机采样k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样m个样本,组成k个第一阶段小批量样本子集。
进一步地,对所述多标签国际疾病训练样本集进行置乱切分包括具体步骤:
将所述多标签国际疾病训练样本集充分洗牌后划分成k个不重叠的大小为m的等份,组成k个第二阶段小批量样本子集。
进一步地,对所述训练样本子集集合进行概率采样包括具体步骤:
基于所述多标签国际疾病训练样本集中国际疾病标签概率分布,概率采样出k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样一个样本,组成k个大小为m的第三阶段小批量样本子集。
进一步地,一轮迭代中,将第一阶段小批量样本子集、第二阶段小批量样本子集、第三阶段小批量样本子集输入训练模型中进行梯度计算、更新训练模型参数的方式相同,所述梯度计算、更新训练模型参数的方式具体包括以下步骤:
S1、获取当前阶段的训练模型;
S2、将当前阶段的小批量样本子集中的样本依次输入训练模型中,并通过损失函数计算得到与样本数量相同的损失值,将损失值求平均得到本轮迭代的损失;
S3、基于训练模型、损失和小批量样本子集估算梯度更新参数,并根据梯度更新参数更新所述训练模型;
S4、重复S1-S3的步骤,直到全部小批量样本子集输入训练模型中进行梯度计算和更新训练模型参数,结束本轮迭代。
与现有技术相比,本发明具有如下优点:
本发明中基于课程学习的多标签国际疾病分类自动编码方法,改进了当前TextCNN、TextRNN和TextRCNN三种主流模型。通过三种不同的小批量样本采样方法来控制小批量样本子集的标签分布,标签分布代表了该阶段的难易程度。对于ICD编码的多标签分类来说,样本多的标签容易学习,样本少的标签在训练过程中难以学习,因此在训练过程的第一阶段使用分层采样的方法来保证小批量样本子集中包含大量不同标签的样本,模型在训练前期快速的学习全部类别的标签;训练过程的第二阶段使用常规的置乱切分算法获取小批量样本子集;而训练第三阶段使用了一种有指导的概率采样方法,使得小批量样本子集的分布更加接近原始数据集的分布。经过改进的课程学习模型在ICD编码多标签分类任务上大幅提升了模型精度和泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的三个训练阶段的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
监护室医学信息数据集(the Medical Information Mart for Intensive Care,MIMIC),是一个基于重症监护室病人监测情况的医学开源数据集。其公布的目的在于促进医学研究,提升ICU决策支持水平。本实施例中将MIMIC中文本记录事件表(NOTEEVENTS) 中的出院记录(Discharge summary)作为电子病例,预测其对应的ICD-9编码。
在本实施例中对原始的电子病例进行了数据清洗工作。在删除了病例中的标点符号、数字、停用词以及一些类似“Admission Date”的无意义字段后,对全部数据集进行分词并生成了分词字典。之后计算字典中每个分词的TF-IDF分数,TF-IDF可以评估分词对一个语料库的重要程度。TF-IDF分数在预设阈值范围内的10000个分词将会被保留,而TF-IDF分数不在预设阈值范围内的分词则被删除,处理后数据集的详细统计信息如表2所示。
表2. 数据集MIMIC的详细统计信息
Figure 517311DEST_PATH_IMAGE002
MIMIC共包含55177条电子病例,包含6919个ICD-9代码。处理后数据集平均每个样 本拥有898个分词和11个标签,所有样本组成训练样本集
Figure 969152DEST_PATH_IMAGE003
,其中n为 训练样本总数。
统计训练样本集
Figure 309170DEST_PATH_IMAGE003
,得到训练样本标签集合
Figure 920280DEST_PATH_IMAGE004
,c为样本总标签数。将样本集合D根据样本的标签划分为c个子集:
Figure 414846DEST_PATH_IMAGE005
,得到按标签分层的样本子集集合
Figure 337672DEST_PATH_IMAGE006
对于多标签分类任务有两种类型的评价指标,分别是基于样本的测量和基于标签 的测量。使用基于标签的测量来评价模型的性能,其中包括
Figure 333310DEST_PATH_IMAGE007
Figure 674292DEST_PATH_IMAGE008
Figure 589028DEST_PATH_IMAGE009
,其计算方式如下:
Figure 15461DEST_PATH_IMAGE010
Figure 549210DEST_PATH_IMAGE011
Figure 993967DEST_PATH_IMAGE012
将MIMIC数据集随机分为训练数据集、验证数据集和测试数据集三部分,比例为7:1:2。使用Adam优化程序,设置学习率为0.008,总迭代次数为150轮。
使用TextCNN、TextRNN和TextRCNN三种模型,在MIMIC数据集上进行多次150轮ICD编码多标签分类,取平均结果作为基线。之后使用本发明中的方法对三种模型进行训练改进,进行多组ICD编码的多标签分类。
本实施例中的基于课程学习的多标签国际疾病分类训练方法,将传统训练过程分为了三个难易程度不同的阶段,三个训练阶段的流程示意图如图1所示。
第一阶段训练:
设小批量样本子集的大小为m,首先从标签集合L中随机采样k个标签,再从
Figure 95915DEST_PATH_IMAGE006
选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练 样本子集中的每个训练样本子集随机采样m个样本,组成k个第一小批量样本子集;
将第一小批量样本子集输入课程学习模型中依次计算梯度,并更新模型参数;
重复上述分层采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的课程学习模型参数,配置得到第一阶段训练模型。
第二阶段训练:
将样本集
Figure 868699DEST_PATH_IMAGE003
充分洗牌后划分成k个不重叠的大小为m的等份, 组成k个第二阶段小批量样本子集;
将第二小批量样本子集输入第一阶段训练模型中依次计算梯度,并更新第一阶段训练模型的参数;
重复上述置乱切分、梯度计算和更新模型参数的步骤,直到达到预定的迭代次数,根据第二阶段训练获得的更新后的模型参数,配置第二阶段训练模型。
第三阶段训练:
a、计算样本集
Figure 65194DEST_PATH_IMAGE003
中每个标签的概率分布P。
b、先在P的指导下概率采样出k个标签,再从
Figure 380769DEST_PATH_IMAGE006
中选出与k个国际 疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随 机采样一个样本,组成k个大小为m的第三阶段小批量样本子集。
c、将第三小批量样本子集输入第二阶段训练模型中依次计算梯度,并更新第二阶段训练模型的参数。
d、重复步骤b、c,直到达到预定的迭代次数,根据第三阶段训练阶段获得的更新后的模型参数,配置第三阶段训练模型,即为最终获得的参数更新完成的课程学习模型。
第一阶段、第二阶段、第三阶段训练过程中,每一轮迭代中,在模型中输入小批量样本子集后,对梯度的计算、模型参数的更新步骤一致,对梯度的计算、模型参数的更新步骤具体包括以下:
S1、通过当前阶段采样方法得到k个小批量样本子集B,形成一轮迭代所需的小批 量样本子集集合
Figure 247094DEST_PATH_IMAGE013
,其中k等于训练集大小|D|除以小批量样本子集大小m。
S2、获取当前阶段的模型θ,θ的初始状态通常从一个分布(如均匀分布)中随机抽取。
S3、将
Figure 897387DEST_PATH_IMAGE013
中小批量样本子集B中m个样本依次送入模型θ,并最终通过损失函数计 算得到m个损失值,将损失值求平均得到本轮迭代的损失l
S4、根据模型θ、损失l和小批量样本子集B可以估算出梯度更新∆θ,并更新模型:θ = θ – μ*∆θ,其中μ是超参数学习率。
S5、重复步骤S2-S4k次直到使用
Figure 648305DEST_PATH_IMAGE013
中全部小批量样本子集完成模型更新,则本轮 迭代结束。
三种采样方法的难易程度决定了其所在的训练阶段,越简单的方法应该在训练的更早期进行。本实施例中的基于课程学习的多标签国际疾病分类训练方法期望在训练的前期使模型接触到标签类别平衡的小批量样本子集,而在训练后期使模型接触到接近训练样本标签分布的小批量样本子集。本实施例选择了一种衡量小批量样本子集的类别平衡的方法,以及两种衡量样本标签分布差异的方法来衡量难易程度。
各类标签数量的标准差
Figure 67654DEST_PATH_IMAGE014
可以很好的衡量小批量样本子集的标签的分布是 否平衡,数值越小,标签分布越平衡,标签多样性越高。其计算公式如下所示:
Figure 636039DEST_PATH_IMAGE015
,其中c为标签类别数量,
Figure 258781DEST_PATH_IMAGE016
为包含第i个标签的样本数量,
Figure 797079DEST_PATH_IMAGE017
为c个
Figure 946300DEST_PATH_IMAGE016
的平均数。
K_L距离用来衡量两个概率分布之间接近程度,
Figure 560952DEST_PATH_IMAGE018
代表分布p相较于分布 q的距离,数值越大,分布差距越大,当p=q时
Figure 920258DEST_PATH_IMAGE019
,其公式如下:
Figure 12979DEST_PATH_IMAGE020
,其中,
Figure 16707DEST_PATH_IMAGE021
Figure 51528DEST_PATH_IMAGE022
分别代表第i个元素在概率分布 p和q中出现的概率。K_L距离具有不对称性,
Figure 648863DEST_PATH_IMAGE018
在大多数情况下不等于
Figure 404329DEST_PATH_IMAGE023
J_S距离是K_L距离的一种优化,相比于K_L距离,他具有对称性,能够更好的衡量 两个概率分布距离,即
Figure 387198DEST_PATH_IMAGE024
。其公式如下:
Figure 343652DEST_PATH_IMAGE025
,K_L距离和J_S距离能够很好的衡量小 批量样本子集和原始训练数据集之间标签分布的距离。
对于三种方法的难度测量结果如表3所示。
表3. 小批量样本子集难度测量结果
Figure 552917DEST_PATH_IMAGE026
从结果可见,使用分层采样策略能够很好的保持小批量样本子集中的标签类别平衡,而概率采样相比两种方法能更好的保持训练集合的样本标签分布。综合两方面因素,通过本实验的难度测量器,课程由易到难应以分层采样(2)、置乱切分(0)、概率采样(1)的顺序进行训练。
将测试数据集输入到参数更新后的TextCNN、TextRNN和TextRCNN三种课程学习模型中,将分类结果与未更新的三种课程学习模型得到的分类结果进行对比。
表4为三种模型的实验结果,基于课程学习的多标签国际疾病分类自动编码方法使得TextCNN、TextRNN和TextRCNN三种模型的Fscore分别提高了33.4%、37.4%和45%,提升效果非常明显。证明了本实施例中的分类方法确实能够提升模型在标签分布不均衡的大规模数据上进行ICD编码多标签分类的性能。
表4. 三种参数更新后的课程学习模型的分类结果
Figure 502287DEST_PATH_IMAGE027
表5展示了本实施例中的分类方法在MIMIC-III上的泛化能力。可以看到三种模型的训练集Fscore和测试集Fscore都非常接近。通过和表4结果的对比,可以证明本实施例中的分类方法能够有效提升模型的泛化能力。
表5. 本实施例中的分类方法在MIMIC-III上的泛化能力
Figure 355974DEST_PATH_IMAGE028
表6展示了TextCNN和TextRCNN在相同条件(小批量大小为7000时运行150轮)下,将三种采样方法以各种其他顺序得到的结果,结果均为多次实验结的平均值。两个模型同时在2-0-1的采样模式下取得了最好的效果,这与预期相符,证明了本实施例中使用的难度衡量方法的正确性。
表6. 课程学习模型在全部采样模式下的结果
Figure 76805DEST_PATH_IMAGE029
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种基于课程学习的多标签国际疾病分类训练方法,其特征在于,包括以下步骤:
获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合;
对所述训练样本子集集合进行分层采样得到第一阶段小批量样本子集,将所述第一阶段小批量样本子集输入课程学习模型中进行梯度计算,更新课程学习模型参数,重复分层采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的课程学习模型参数,配置得到第一阶段训练模型;
对所述多标签国际疾病训练样本集进行置乱切分得到第二阶段小批量样本子集,将所述第二阶段小批量样本子集输入第一阶段训练模型中进行梯度计算,更新所述第一阶段训练模型参数,重复置乱切分、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第二阶段训练模型参数,配置得到第二阶段训练模型;
对所述训练样本子集集合进行概率采样得到第三阶段小批量样本子集,将所述第三阶段小批量样本子集输入第二阶段训练模型中进行梯度计算,更新所述第二阶段训练模型参数,重复概率采样、梯度计算和更新参数过程直到达到预定的迭代次数,以获得更新后的第三阶段训练模型参数,配置得到训练完毕的课程学习模型。
2.根据权利要求1所述的多标签国际疾病分类训练方法,其特征在于,获取多标签国际疾病训练样本集,并将多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合,具体包括以下步骤:
获取电子病历,对所述电子病历进行预处理获得多标签国际疾病训练样本集;
统计多标签国际疾病训练样本集,获取国际疾病标签概率分布;
基于多标签国际疾病训练样本集中的国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,组成训练样本子集集合。
3.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于,对所述电子病历进行预处理获得多标签国际疾病训练样本集,具体包括以下步骤:
删除所述电子病历中的标点符号、数字、通用词以及无意义字段,获得初始训练样本集;
对所述初始训练样本集进行分词,生成分词字典;
计算所述分词词典中每个分词的TF-IDF分数,设定TF-IDF分数阈值范围,保留TF-IDF分数在TF-IDF分数阈值范围内的分词,获得所述多标签国际疾病训练样本集。
4.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于,统计多标签国际疾病训练样本集,获取国际疾病标签概率分布,具体包括以下步骤:
统计多标签国际疾病训练样本集,得到所述多标签国际疾病训练样本集的国际疾病标签集合;
根据所述国际疾病标签集合计算每种国际疾病标签的分布情况,得到国际疾病标签概率分布。
5.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于:根据国际疾病标签,将所述多标签国际疾病训练样本集划分为多个训练样本子集,所述训练样本子集的数量与国际疾病标签的数量相同。
6.根据权利要求4所述的多标签国际疾病分类训练方法,其特征在于,对所述训练样本子集集合进行分层采样具体包括以下步骤:
设定第一阶段小批量样本子集的大小为m,从所述国际疾病标签集合中随机采样k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样m个样本,组成k个第一阶段小批量样本子集。
7.根据权利要求1所述的多标签国际疾病分类训练方法,其特征在于,对所述多标签国际疾病训练样本集进行置乱切分包括具体步骤:
将所述多标签国际疾病训练样本集充分洗牌后划分成k个不重叠的大小为m的等份,组成k个第二阶段小批量样本子集。
8.根据权利要求2所述的多标签国际疾病分类训练方法,其特征在于,对所述训练样本子集集合进行概率采样包括具体步骤:
基于所述多标签国际疾病训练样本集中国际疾病标签概率分布,概率采样出k个国际疾病标签;
从所述训练样本子集集合中选出与k个国际疾病标签对应的k个训练样本子集,分别对所述k个训练样本子集中的每个训练样本子集随机采样一个样本,组成k个大小为m的第三阶段小批量样本子集。
9.根据权利要求1所述的多标签国际疾病分类训练方法,其特征在于,一轮迭代中,将第一阶段小批量样本子集、第二阶段小批量样本子集、第三阶段小批量样本子集输入训练模型中进行梯度计算、更新训练模型参数的方式相同,所述梯度计算、更新训练模型参数的方式具体包括以下步骤:
S1、获取当前阶段的训练模型;
S2、将当前阶段的小批量样本子集中的样本依次输入训练模型中,并通过损失函数计算得到与样本数量相同的损失值,将损失值求平均得到本轮迭代的损失;
S3、基于训练模型、损失和小批量样本子集估算梯度更新参数,并根据梯度更新参数更新所述训练模型;
S4、重复S1-S3的步骤,直到全部小批量样本子集输入训练模型中进行梯度计算和更新训练模型参数,结束本轮迭代。
CN202210029712.0A 2022-01-12 2022-01-12 一种基于课程学习的多标签国际疾病分类训练方法 Active CN114048320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210029712.0A CN114048320B (zh) 2022-01-12 2022-01-12 一种基于课程学习的多标签国际疾病分类训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210029712.0A CN114048320B (zh) 2022-01-12 2022-01-12 一种基于课程学习的多标签国际疾病分类训练方法

Publications (2)

Publication Number Publication Date
CN114048320A true CN114048320A (zh) 2022-02-15
CN114048320B CN114048320B (zh) 2022-03-29

Family

ID=80196261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210029712.0A Active CN114048320B (zh) 2022-01-12 2022-01-12 一种基于课程学习的多标签国际疾病分类训练方法

Country Status (1)

Country Link
CN (1) CN114048320B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116844717A (zh) * 2023-09-01 2023-10-03 中国人民解放军总医院第一医学中心 一种基于分层多标签模型的医疗建议推荐方法、系统、设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108519978A (zh) * 2018-04-10 2018-09-11 成都信息工程大学 一种基于主动学习的中文正式文本分词方法
CN108537270A (zh) * 2018-04-04 2018-09-14 厦门理工学院 基于多标签学习的图像标注方法、终端设备及存储介质
CN109460473A (zh) * 2018-11-21 2019-03-12 中南大学 基于症状提取和特征表示的电子病历多标签分类方法
US10553319B1 (en) * 2019-03-14 2020-02-04 Kpn Innovations, Llc Artificial intelligence systems and methods for vibrant constitutional guidance
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN111241301A (zh) * 2020-01-09 2020-06-05 天津大学 一种面向知识图谱表示学习的分布式框架构建方法
US20200211106A1 (en) * 2017-12-27 2020-07-02 Alibaba Group Holding Limited Method, apparatus, and device for training risk management models
CN111460091A (zh) * 2020-03-09 2020-07-28 杭州麦歌算法科技有限公司 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200211106A1 (en) * 2017-12-27 2020-07-02 Alibaba Group Holding Limited Method, apparatus, and device for training risk management models
CN108537270A (zh) * 2018-04-04 2018-09-14 厦门理工学院 基于多标签学习的图像标注方法、终端设备及存储介质
CN108519978A (zh) * 2018-04-10 2018-09-11 成都信息工程大学 一种基于主动学习的中文正式文本分词方法
CN109460473A (zh) * 2018-11-21 2019-03-12 中南大学 基于症状提取和特征表示的电子病历多标签分类方法
US10553319B1 (en) * 2019-03-14 2020-02-04 Kpn Innovations, Llc Artificial intelligence systems and methods for vibrant constitutional guidance
CN111192680A (zh) * 2019-12-25 2020-05-22 山东众阳健康科技集团有限公司 一种基于深度学习和集成分类的智能辅助诊断方法
CN111241301A (zh) * 2020-01-09 2020-06-05 天津大学 一种面向知识图谱表示学习的分布式框架构建方法
CN111460091A (zh) * 2020-03-09 2020-07-28 杭州麦歌算法科技有限公司 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MIHAIL POPESCU ET AL.: "Improving disease prediction using ICD-9 ontological features", 《2011 IEEE INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS》 *
张述睿 等: "面向ICD疾病分类的深度学习方法研究", 《计算机工程与应用》 *
朱文静: "基于Spark的类别不平衡问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
游正洋 等: "基于词性标注的中医症候名语料库", 《电子技术与软件工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116844717A (zh) * 2023-09-01 2023-10-03 中国人民解放军总医院第一医学中心 一种基于分层多标签模型的医疗建议推荐方法、系统、设备
CN116844717B (zh) * 2023-09-01 2023-12-22 中国人民解放军总医院第一医学中心 一种基于分层多标签模型的医疗建议推荐方法、系统、设备

Also Published As

Publication number Publication date
CN114048320B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN106777891B (zh) 一种数据特征选择和预测方法及装置
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN110197720A (zh) 糖尿病的预测方法及装置、存储介质、计算机设备
CN111243753B (zh) 一种面向医疗数据的多因素相关性交互式分析方法
CN111243736A (zh) 一种生存风险评估方法及系统
CN112201330A (zh) 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法
JP2020047234A (ja) データ評価方法、装置、機器及び読み取り可能な記憶媒体
WO2021179514A1 (zh) 一种基于人工智能的新型冠状病毒患者病况分类系统
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
CN112084330A (zh) 一种基于课程规划元学习的增量关系抽取方法
CN114048320B (zh) 一种基于课程学习的多标签国际疾病分类训练方法
CN113361653A (zh) 基于数据样本增强的深度学习模型去偏方法和装置
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
MacCallum et al. Modeling multivariate change
CN112259232B (zh) 一种基于深度学习的vte风险自动评估系统
US11961204B2 (en) State visualization device, state visualization method, and state visualization program
CN111310792B (zh) 一种基于决策树的药敏实验结果识别方法与系统
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
Özkan et al. Effect of data preprocessing on ensemble learning for classification in disease diagnosis
CN113889274B (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
Praserttitipong et al. Elective course recommendation model for higher education program.
Appari et al. An Improved CHI 2 Feature Selection Based a Two-Stage Prediction of Comorbid Cancer Patient Survivability
Wheadon Classification accuracy and consistency under item response theory models using the package classify
CN117079834A (zh) 利用大型语言模型监控多中心临床评价执行偏差的方法
CN113673609B (zh) 一种基于线性隐变量的调查问卷数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant