CN113744873A - 一种基于任务分解策略的发热待查辅助鉴别诊断系统 - Google Patents
一种基于任务分解策略的发热待查辅助鉴别诊断系统 Download PDFInfo
- Publication number
- CN113744873A CN113744873A CN202111311947.0A CN202111311947A CN113744873A CN 113744873 A CN113744873 A CN 113744873A CN 202111311947 A CN202111311947 A CN 202111311947A CN 113744873 A CN113744873 A CN 113744873A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- classification
- variable
- etiology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003748 differential diagnosis Methods 0.000 title claims abstract description 47
- 238000010438 heat treatment Methods 0.000 title claims abstract description 39
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 20
- 238000013145 classification model Methods 0.000 claims abstract description 25
- 206010037660 Pyrexia Diseases 0.000 claims description 73
- 238000007781 pre-processing Methods 0.000 claims description 40
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 29
- 238000010606 normalization Methods 0.000 claims description 29
- 201000010099 disease Diseases 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 26
- 230000002159 abnormal effect Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 25
- 238000003745 diagnosis Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 20
- 208000024891 symptom Diseases 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 15
- 238000007405 data analysis Methods 0.000 claims description 12
- 230000001788 irregular Effects 0.000 claims description 12
- 208000035473 Communicable disease Diseases 0.000 claims description 11
- 101100380328 Dictyostelium discoideum asns gene Proteins 0.000 claims description 11
- 241000623377 Terminalia elliptica Species 0.000 claims description 11
- 101150062095 asnA gene Proteins 0.000 claims description 11
- 208000031662 Noncommunicable disease Diseases 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 206010028980 Neoplasm Diseases 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000020169 heat generation Effects 0.000 claims description 8
- 230000001613 neoplastic effect Effects 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 208000015181 infectious disease Diseases 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 claims description 5
- 230000035606 childbirth Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 208000023275 Autoimmune disease Diseases 0.000 claims description 3
- 208000011594 Autoinflammatory disease Diseases 0.000 claims description 3
- 230000001580 bacterial effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 201000011510 cancer Diseases 0.000 claims description 3
- 230000002538 fungal effect Effects 0.000 claims description 3
- 230000002489 hematologic effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000003211 malignant effect Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000003071 parasitic effect Effects 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 3
- 230000003612 virological effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000009897 systematic effect Effects 0.000 abstract description 5
- 238000013399 early diagnosis Methods 0.000 abstract description 4
- 230000000474 nursing effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 238000009666 routine test Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 108010074051 C-Reactive Protein Proteins 0.000 description 2
- 102100032752 C-reactive protein Human genes 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000036760 body temperature Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000002458 infectious effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 230000035485 pulse pressure Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 206010006895 Cachexia Diseases 0.000 description 1
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 1
- 208000028399 Critical Illness Diseases 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 102000006395 Globulins Human genes 0.000 description 1
- 108010044091 Globulins Proteins 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 102000003855 L-lactate dehydrogenase Human genes 0.000 description 1
- 108700023483 L-lactate dehydrogenases Proteins 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 208000007502 anemia Diseases 0.000 description 1
- 230000002924 anti-infective effect Effects 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 230000023555 blood coagulation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003792 electrolyte Substances 0.000 description 1
- 208000026500 emaciation Diseases 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005534 hematocrit Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000027866 inflammatory disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 108010000849 leukocyte esterase Proteins 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002107 myocardial effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002741 palatine tonsil Anatomy 0.000 description 1
- WCUXLLCKKVVCTQ-UHFFFAOYSA-M potassium chloride Inorganic materials [Cl-].[K+] WCUXLLCKKVVCTQ-UHFFFAOYSA-M 0.000 description 1
- 239000001103 potassium chloride Substances 0.000 description 1
- 235000011164 potassium chloride Nutrition 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 229910001415 sodium ion Inorganic materials 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于任务分解策略的发热待查辅助鉴别诊断系统,首次全面且系统地构建了发热待查潜在病因类别层次结构,基于类别层次结构实现了针对发热待查潜在病因进行辅助鉴别诊断的层次分类模型,并能够模拟临床医生的推理逻辑,逐层给出鉴别诊断意见,不仅鉴别范围更全面、系统,同时具有更高的鉴别准确度和更好的临床可解释性,由上向下的逐层推理模式也更加符合临床医生的临床实践习惯;本发明所利用的临床数据都是患者就诊早期极易获取的早期临床表现数据,因此在患者早期就诊阶段就能够基于有限信息给出极具临床价值和可信度的鉴别诊断意见;本发明为发热待查潜在病因的鉴别诊断提供了全面、系统、层次化的解决策略。
Description
技术领域
本发明属于医疗健康信息技术领域,尤其涉及一种基于任务分解策略的发热待查辅助鉴别诊断系统。
背景技术
作为多数临床问题的最常见症状之一,发热不仅是约30%儿童就诊的首要原因,同时在ICU护理的急重症成人患者中发生率也高达75%。尽管随着诊疗技术的进步,大部分发热待查患者可以得到相应的诊断,但在国际范围内仍有约7%-53%的发热待查患者即使通过全面系统的检查也未能得到明确诊断。同时发热待查患者的预后与潜在病因高度相关,部分病程发展较快的患者,若前期得不到准确诊断与恰当治疗,可快速出现危及生命的并发症,因此确诊越晚其预后越差。除此之外,在没有倾向性诊断基础上进行经验性抗感染治疗不仅缺乏循证医学依据,高度依赖临床医生经验,同时也易导致致病菌耐药性的提升以及非靶向性药物和多次转诊等医疗资源的浪费。加之发热待查潜在病因可达200多种,且其临床表现多样、复合度高,因此对发热待查潜在病因的早期鉴别诊断仍然是国内外临床医生所面临的重要挑战,尤其是在医疗资源条件相对落后的地区。
由于发热待查潜在病因复杂,且不同地区、不同时期和不同年龄的患者在不同配置的医疗资源条件下其病因构成比例都会有所差异,因此直接通过传统机器学习手段进行潜在病因多分类,往往存在类别间样本不均衡、分类问题复杂度高的固有缺陷,难以确保分类精度。
现有技术方案[申请公布号:CN112768057A,发明名称:鉴别儿童发热待查病因的系统]提出的发热待查潜在病因鉴别方案只针对儿童群体,因此其潜在病因范围相对较小,系统鉴别难度低。除此之外,该方案描述的鉴别系统只利用了年龄、钠离子、氯离子、乳酸脱氢酶、球蛋白、红细胞压积、C反应蛋白及白细胞酯酶8项指标对发热待查患者的潜在病因是否为感染性进行判断,因此发热待查潜在病因鉴别诊断内容不完整,且8项指标所能表示的特征空间较小,临床适应性较差。
现有技术方案[申请公布号:CN107785075A,发明名称:基于文本病历的小儿发热疾病深度学习辅助诊断系统]描述的发热疾病深度学习辅助诊断方案同样只针对小儿群体,且该系统直接对30种常见小儿发热疾病进行分类,而非针对发热待查潜在病因。此外,该方案主要是强调对临床文本病历数据的利用,通过自然语言处理技术对其进行文本特征提取以作为小儿发热鉴别诊断的特征空间,不涉及其他时序、结构化数据内容。
目前针对发热待查潜在病因进行辅助鉴别诊断的技术方案相对缺乏,该研究技术领域仍处于探索阶段。现有技术方案存在如下缺陷:
1.现有技术方案均只针对儿童群体的发热相关疾病进行鉴别诊断,儿童群体的发热相关疾病类型与范围相较于整体发热待查潜在病因的类型和范围仍有很大差别,且临床实际场景中发热待查群体主要是以成年人为主。
2.现有技术方案均只局限于感染性疾病与非感染性疾病的鉴别或只局限于易区分的小部分疾病,发热待查潜在病因的鉴别诊断覆盖范围不完整,因此临床实际适用性和可扩展性差。
3.现有技术方案只是对小部分发热相关疾病进行分类,所依赖的临床数据并非患者早期就诊的非特异性数据,而对发热待查患者进行辅助鉴别诊断最具有临床价值的便是在患者就诊早期,在临床医生基于有限临床表现数据难以得出倾向性诊断的情况下给予临床医生以辅助鉴别诊断意见。
4.现有技术方案均只涉及患者几项临床化验指标或单模态临床数据,并未对多模态的数据融合给出详细解决方案,因此所能挖掘的特征关联与所能表达的信息空间有限,而对发热待查患者做早期辅助鉴别诊断亟需对有限数据进行最大程度的利用。
5.现有技术方案针对发热待查潜在病因的鉴别诊断主要依赖于机器学习模型直接进行多分类,因此难以解决因发热待查潜在病因复杂多样导致的样本分布不均衡问题,不仅难以保证多分类的分类精度,且复杂的多分类任务缺少临床可解释性,难以在临床实际应用场景条件下被医生所接受。
6.发热患者入院就诊往往存在多次多科室门诊就诊或住院就诊,相关临床数据主要以就诊主索引进行关联组织,现有技术方案均缺少针对多次就诊的分散临床数据进行规整的有效机制,无法对患者分散的临床数据进行分割与整合,造成临床业务数据与辅助鉴别系统所需数据之间的数据鸿沟。
发明内容
本发明针对现有技术方案的不足,提供一种基于任务分解策略的发热待查辅助鉴别诊断系统,为发热待查潜在病因的鉴别诊断提供了全面、系统、层次化的解决策略。
本发明的目的是通过以下技术方案实现的:一种基于任务分解策略的发热待查辅助鉴别诊断系统,该系统包括以下模块:
(1)数据获取模块:实现发热待查辅助鉴别诊断系统与异构源数据库的连接;通过交互界面配置在异构源数据库内的目标临床信息的数据范围,以及患者唯一标识、就诊唯一标识,并完成对目标数据的扫描以及校验性数据的统计,建立目标数据采集的完整数据通路;
(2)数据规整模块:建立数据规整策略,通过设定发热待查诊断锚点和锚点前后就诊时间差,确定不同就诊周期;基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合,形成单个患者因单次发热就诊产生的最小数据分析单元;在最小数据分析单元时间范围内提取最早的就诊病历记录数据;
(3)多模态数据预处理模块:针对指定类型的病历文本数据,利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取;对不同采样频率、不同长度以及存在缺失值的多变量时序数据,进行时间窗口对齐与归一化处理;针对结构化数据,完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化;
(4)发热待查潜在病因层次鉴别模块,包括:
结合医学文献与临床指南,基于任务分解策略构建发热待查潜在病因类别层次结构,将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题;建立发热待查潜在病因层次分类模型,将模型分类输出空间定义在发热待查潜在病因类别层次结构之上;
在模型训练阶段,采取siblings策略对阳性与阴性训练样本进行划分,基于划分的多个训练样本集分别训练多个基分类器;在模型实际应用阶段,采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理,修正单个基分类器的局部概率,给出符合发热待查潜在病因类别层次结构的一致概率,得到发热待查患者潜在病因的层次类别分类结果,基于层次类别分类结果给出层次化鉴别诊断意见。
进一步地,所述系统还包括结果展示模块,所述结果展示模块用于对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示,并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。
进一步地,所述数据获取模块包含数据库连接管理单元和目标数据自定义单元;
所述数据库连接管理单元包括:通过java编程语言的类及接口编写多个JDBC模块,建立与异构数据库之间的数据通路,实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储;
所述目标数据自定义单元包括:针对发热待查潜在病因层次分类模型所需的目标临床信息划定数据范围,通过交互界面配置数据范围、患者唯一标识和就诊唯一标识,完成目标数据到缓存数据库的数据传输,确定完整数据通路。
进一步地,所述数据规整模块中,以患者最早被诊断为发热待查的电子病历记录事件为发热待查诊断锚点,往前纳入7个自然日以内的就诊病历记录,往后纳入下次就诊开始时间与本次就诊结束时间差小于等于24小时的所有就诊病历记录,作为一次就诊周期;下次就诊开始时间距离本次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期,以此形成单个患者因单次发热就诊产生的最小数据分析单元。
进一步地,所述多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元;
所述文本数据预处理单元包括:针对既往史、个人史、家族史与婚育史这四类病历文本数据,采取位置导向模式分别编写正则表达式语句进行目标信息结构化提取;基于主诉与现病史这两类病历文本数据,采取关键词导向模式,利用词典分词技术构建目标症状词典及词典匹配规则;所述目标症状词典包括位置信息不敏感的全身症状词典、位置信息敏感的症状词典以及身体部位词典,所述词典匹配采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取;
所述时序数据预处理单元包括:对多变量时序数据进行时间窗口对齐,取每次就诊固定时间内的数据作为患者早期临床表现数据;每行数据对应于每位患者的一项时序变量数据序列,依据每一项时序变量数据采样频率以及采样时间跨度的长短分布,明确输入数据时间窗口以及列与列之间的时间间隔,实现对同一患者同一次就诊内多时序变量之间的时序对齐;采取Min-Max归一化对时序数据做数值归一化;
所述结构化数据预处理单元包括:针对结构化后的病历文本数据、基本信息数据以及实验室常规化验数据进行以下预处理操作:异常值处理、缺失值填充、标准编码以及标准化。
进一步地,所述结构化数据预处理单元中,所述异常值处理包括:针对数值变量的异常值检测,采取统计分析和3σ原则,将异常值视为缺失值,利用缺失值处理方法进行处理;针对分类变量的异常值检测,对预设类别之外的错误输入认定为异常值,删除异常值并通过分类变量内的众数值进行填充;
所述缺失值填充包括:对于分类变量使用众数填充,对于数值变量若其分布符合正态分布则采取平均值填充法,若其分布不符合正态分布则采取中位数填充法;
所述标准编码包括:针对分类变量进行数值化处理,对于不同变量值之间存在序列关系、不平等重要性的变量,采取整数编码,对于不同变量值之间无序列关系、无重要性差别的变量,采取独热编码。
进一步地,所述发热待查潜在病因层次鉴别模块中,基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因分类时,首先区分发热潜在病因属于感染性疾病还是非感染性疾病,若属于感染性疾病,则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病;若属于非感染性疾病,则继续区分是属于肿瘤性疾病、NIID还是其他非感染性疾病;若属于肿瘤性疾病,则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤;若属于NIID,则继续区分是属于自身免疫性疾病还是自身炎症性疾病;所述发热待查潜在病因类别层次结构具有非对称性、反自反性和可传递性。
进一步地,所述发热待查潜在病因层次鉴别模块中,以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,所述基分类器结构如下:
针对高基数分类变量,利用实体嵌入技术构建嵌入网络层,对分类变量进行特征提取;通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取;通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数,对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取;
采取后期融合策略,对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合,输入softmax层进行交叉熵损失函数的计算与基分类器的训练。
进一步地,所述基分类器中,利用实体嵌入技术,将高基数分类变量的每一离散取值映射到一维数值向量,将一维数值向量经过线性单元转化得到分类变量的实体嵌入表示;将分类变量的实体嵌入表示与结构化数值变量合并后输入DNN网络层,经多层全连接神经网络的非线性转换,得到样本经DNN网络层学习到的数据特征表示。
进一步地,所述基分类器中,以表示含有D个
时序变量的第n个样本的多变量时序数据,表示第n个样本的时间节点数量,表
示第n个样本的所有时序变量在第t个时间节点的观测值,;以表示
第t个时间节点的事件观测时间,引入屏蔽向量表示在第t个时间节点某一时序
变量值是否缺失,同时引入时间间隔因子对时序变量d在第t个时间节点的不规则
时间间隔进行建模,表示为:
所述GRU网络层中引入衰减系数,对缺失值与不规则时间间隔所含的潜在模式进行挖掘,并在模型端到端的学习过程中对每个时序变量的衰减系数进行学习;
采取输入衰减系数对缺失变量进行衰减操作,直到变量经验均值;采取隐藏状态衰减系数在计算新的隐藏状态之前对其前一个时刻的隐藏状态进行衰减;
取GRU网络层在所有时序数据的最后一层网络输出作为多变量时序数据的特征表示。
本发明的有益效果是:
1.首次全面且系统地构建了发热待查潜在病因类别层次结构,全面囊括了感染性疾病、肿瘤性疾病与NIID等大类疾病,且基于上述类别层次结构实现了针对发热待查潜在病因进行辅助鉴别诊断的层次分类模型,并能够模拟临床医生的推理逻辑,逐层给出鉴别诊断意见。因此不仅鉴别范围更全面、系统,同时具有更高的鉴别准确度和更好的临床可解释性。除此之外,其由上向下的逐层推理模式也更加符合临床医生的临床实践习惯。
2.所利用的临床数据都是患者就诊早期极易获取的早期临床表现数据,因此在患者早期就诊阶段就能够基于有限信息给出极具临床价值和可信度的鉴别诊断意见。
3.对多变量时序数据、文本数据以及结构化数据等多模态数据均进行了数据预处理与特征提取,并给出了详细的多模态数据融合解决方案。
4.针对分散、多次的门诊就诊与住院就诊,设计了数据规整模块对其进行重新的分割与整合,有助于准确获取患者早期就诊数据,消弭因不规范就诊流程带来的数据获取不精确的问题,建立了临床业务数据与发热待查潜在病因层次分类模型输入数据之间的数据通路。
附图说明
图1为本发明实施例提供的系统结构框架图;
图2为本发明实施例提供的数据流动路径图;
图3为本发明实施例提供的数据规整原理图;
图4为本发明实施例提供的发热待查潜在病因类别层次结构示意图;
图5为本发明实施例提供的发热待查潜在病因层次分类模型框架图;
图6为本发明实施例提供的引入衰减机制的GRU结构示意图;
图7为本发明实施例提供的基分类器具体神经网络结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实施提供一种基于任务分解策略的发热待查辅助鉴别诊断系统,如图1所示,该系统包括以下模块:
一、数据获取模块,包含数据库连接管理单元和目标数据自定义单元;
数据库连接管理单元:实现发热待查辅助鉴别诊断系统与异构源数据库的连接;
目标数据自定义单元:通过交互界面配置在异构源数据库内的目标临床信息的数据范围,以及患者唯一标识、就诊唯一标识,并完成对目标数据的扫描以及校验性数据的统计,建立目标数据采集的完整数据通路。
二、数据规整模块,包括:
(1)建立数据规整策略:通过设定发热待查诊断锚点和锚点前后就诊时间差,确定不同就诊周期;
(2)基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合,形成单个患者因单次发热就诊产生的最小数据分析单元;
(3)在最小数据分析单元时间范围内提取最早的就诊病历记录数据,输入多模态数据预处理模块。
三、多模态数据预处理模块,包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元;
文本数据预处理单元:针对指定类型的病历文本数据,利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取;
时序数据预处理单元:对不同采样频率、不同长度以及存在缺失值的多变量时序数据,进行时间窗口对齐与归一化处理;
结构化数据预处理单元:针对结构化数据,完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化。
四、发热待查潜在病因层次鉴别模块,包括:
(1)结合医学文献与临床指南,基于任务分解策略构建发热待查潜在病因类别层次结构,将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题;
(2)建立发热待查潜在病因层次分类模型,将模型分类输出空间定义在发热待查潜在病因类别层次结构之上;
(3)在模型训练阶段,采取siblings策略对阳性与阴性训练样本进行划分;基于划分的多个训练样本集,分别训练多个基分类器;
(4)在模型实际应用阶段,采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理,修正单个基分类器的局部概率,给出符合发热待查潜在病因类别层次结构的一致概率,得到发热待查患者潜在病因的层次类别分类结果;基于层次类别分类结果给出层次化鉴别诊断意见。
进一步地,以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,基分类器的具体神经网络结构如下:
(1)针对高基数分类变量,利用实体嵌入技术构建嵌入网络层,对分类变量进行特征提取;
(2)通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取;
(3)通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数,对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取;
(4)采取后期融合策略,对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合,输入softmax层进行交叉熵损失函数的计算与基分类器的训练。
五、结果展示模块:对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示,并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。
数据流动路径如图2所示,下面详细阐述每个模块的实现过程。
一、数据获取模块
主要负责在物理层面实现对HIS(Hospital Information System)、LIS(Laboratory Information System)以及EMR(Electronic Medical Record)等目标临床信息系统后端数据的访问以及目标数据范围内的数据获取,包括数据库连接管理单元和目标数据自定义单元。
数据库连接管理单元实现方式主要通过java编程语言的现有类及接口编写多个JDBC模块,建立与异构数据库之间的数据通路,以此为基础实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储。
目标数据自定义单元主要基于数据库连接管理单元建立的数据通路,针对后续发热待查潜在病因层次分类模型所需要的目标临床信息划定源数据范围,目标临床信息范围包括:年龄、性别、身高和体重4大类基本信息,主诉、既往史、个人史、家族史、婚育史与现病史6大类病历文本数据,体温、呼吸、心律、脉搏与血压5大类护理时序数据以及血常规、尿常规、凝血功能常规检查、心肌酶谱常规检查、肝肾脂糖电解质测定、粪便常规、红细胞沉降率测定、超敏C反应蛋白、钾钠氯测定、肝功能常规检查等实验室常规化验大项下的124项化验小项数据,即实验室常规化验数据。
通过交互界面人工标定涵盖上述目标临床信息的数据范围以及患者唯一标识、就诊唯一标识之后,完成目标数据到缓存数据库的数据传输,由此确定完整的数据通路。
二、数据规整模块
基于数据获取模块中建立的数据通路,数据规整模块即对临床业务当中产生的不定间隔的业务数据进行规整,以符合后续发热待查潜在病因层次分类模型输入分析的要求。
若将所有患者的电子病历记录数据表示为,其中表
示患者数量,表示患者的电子病历记录数据;则对患者,其一般具有唯一的人口统计
数据,以及份就诊病历记录;以表示患者的就诊病历集合,则,其中每一份就诊病历记录下包含多项时序数据集以及非
时序数据集。
因此需要在内选定发热待查诊断锚点,对多个及其范围内的和进行分
割与组合,获取准确的与本次发热待查就诊相关的集合。本技术方案提出的数据规整方
法,参见图3示例,首先以患者最早被诊断为发热待查的电子病历记录事件为时间锚点
,往前纳入7个自然日以内的就诊病历记录,往后纳入下次就诊开始时间与本次就诊结束时
间差小于等于24小时的所有就诊病历记录,作为一次就诊周期;下次就诊开始时间距离本
次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期,以此形成单个患者最小
的数据分析单元。其后基于前述数据分析单元,提取在该数据分析单元时间范围内发生的
最早的就诊病历记录数据组成后续发热待查潜在病因层次分类模型的输入特征空
间。上述规整技术内容在操作数据库内完成。
三、多模态数据预处理模块
多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元。
文本数据预处理单元通过接收指定类型的病历文本数据,利用自然语言处理技术理解输入的病历文本,对病历文本进行目标信息的结构化提取。此处主要是利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取。其中,既往史、个人史、家族史与婚育史这些病历文本数据均具有固定格式要求,因此通过位置导向模式分别编写正则表达式语言达到信息提取的目的。主要基于主诉与现病史这两类病历文本数据对患者早期临床症状表现信息进行症状实体抽取,因此采取关键词导向模式,利用词典分词技术构建一部目标症状词典C以及一套词典匹配规则R。词典C包括位置信息不敏感的全身症状词典C1(如消瘦、贫血、乏力等)、位置信息敏感的症状词典C2(如疼痛、占位、酸软等)以及身体部位词典C2-pos(如头部、四肢、扁桃体等)。词典匹配主要采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取。最终结构化数据存储结构如表1所示。
表1 文本结构化数据存储示例
时序数据预处理单元主要针对体温、呼吸、心律、脉搏和血压5大类护理时序数据。
由于临床业务环境相对复杂,因此在临床护理过程中产生的上述时序数据具有时间跨度不
一、不同时序变量间采样频率差异大、普遍存在缺失值以及高度稀疏等特点,给该部分时序
数据的分析利用带来极大困难。本技术方案针对护理时序数据的以上特点,首先对护理时
序数据进行时间窗口对齐,取每次就诊小时内的数据作为患者早期的临床表现数据;每
行数据对应于每位患者的一项时序变量数据序列,依据每一项时序变量数据采样频率以及
采样时间跨度的长短分布,明确输入数据时间窗口以及列与列之间的时间间隔,实现
对同一患者同一次就诊内多时序变量之间的时序对齐。进而采取Min-Max归一化对上述护
理时序数据做数值归一化,同时保留时序波形。值得注意的是,此处无须对固有缺失值与重
采样产生的缺失值,以及不同就诊之间的采样频率不一致问题进行预处理,因为本技术方
案考虑到涉及的多变量时序数据是患者临床护理生命体征状态的反映,后续会通过发热待
查潜在病因层次鉴别模块将护理时序数据内的数值缺失模式纳入模型特征范围内做统一
处理。
结构化数据预处理单元主要针对结构化以后的病历文本数据、基本信息数据(年龄、性别、身高和体重)以及实验室常规化验数据进行以下预处理操作:异常值处理、缺失值填充、标准编码以及标准化。
异常值处理主要针对人为错误产生的离群点进行处理,针对数值变量的异常值检
测,本技术方案主要采取简单统计分析和3σ原则,简单统计分析即对变量值进行描述性统
计,预设数值合理空间,判断超出该数值合理空间的即识别为异常值;3σ原则即
对符合正态分布的变量,距离变量平均值3σ之外的概率为,即
属于极小概率事件,因此变量值距离变量平均值大于3σ的即可被认定为异常值。
上述公式中为变量的正态分布函数,为期望(均数),为标准差,因此在区
间之外的数据即为异常值。处理方法即将异常值视为缺失值,利用缺失
值处理方法进行处理。针对分类变量的异常值检测,即对预设类别之外的错误输入认定为
异常值,处理方法即删除该异常值,并通过该变量内的众数值进行填充。
缺失值填充主要针对完全随机缺失;对于分类变量使用众数填充,对于数值变量若其分布符合正态分布则采取平均值填充法,若其分布不符合正态分布则采取中位数填充法,以此降低数据预处理阶段数据预处理的复杂度。
标准编码主要针对分类变量进行数值化处理,对于不同变量值之间存在序列关
系、不平等重要性的变量,本技术方案采取整数编码,即对于存在个唯一取值的变量,可
以按顺序将其编码为;对于不同变量值之间无序列关系、无重要性差别的
变量,本技术方案采取独热编码,即对于存在个唯一取值的变量,将每个变量值表示为一
个长度为的序列,假设某变量值在个唯一取值中排序位置为,则其独热编码后的
值为。
标准化即在不改变原始数据分布的前提下将数据转化为均值为0,标准差为1的标准正态分布,以消除不同变量之间不同量纲对于后续模型分类的影响。
四、发热待查潜在病因层次鉴别模块
本技术方案针对发热待查潜在病因类别多样、鉴别诊断困难等客观问题,结合既往医学文献与临床指南中对现有发热待查潜在病因的研究与总结,基于任务分解策略形成发热待查潜在病因类别层次结构,将原本复杂、样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题,详细的类别层次结构划分见图4所示。在基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因的分类时,首先区分发热待查潜在病因属于感染性疾病还是非感染性疾病,若属于感染性疾病,则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病;若属于非感染性疾病,则继续区分是属于肿瘤性疾病、非感染性炎症性疾病(non-infectious inflammatory disease,NIID)还是其他非感染性疾病;若属于肿瘤性疾病,则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤;若属于NIID,则继续区分是属于自身免疫性疾病还是自身炎症性疾病。因此在解决大基数多分类任务中存在的样本分布不均衡问题的同时,实现了对临床医生推理逻辑的模拟建模,具有更好的临床可解释性。
层次分类可以看作是一种特殊类型的结构化分类问题,其分类输出空间定义在一
个类别层次结构之上。本技术方案构建的类别层次结构属于树状常规概念层次结构,其具
体可被定义为一个偏序集,其中表示发热待查潜在病因分类问题涉及到的所有类
别概念的有限集合,符号≺表示父子继承关系“IS-A”,将类别层次结构的根节点记为。类别层次结构具有非对称性、反自反性和可传递性,分别表示如下:
在模型训练阶段的阳性与阴性样本划分策略方面,为模拟临床医生的推理诊断逻
辑,使发热待查潜在病因层次分类模型具有更好的临床可解释性和适用性,本技术方案采
取siblings策略,即对类别进行分类预测时,阳性样本为,其中表示类别为的样本集合,表示类别为所有子类别的样本集合;阴性样本为,其中表示与类别隶属于同一父类别的同级类别的
样本集合,表示与类别隶属于同一父类别的所有同级类别的所有子类别的样
本集合;表示集合求并集。
为避免基于局部信息训练基分类器在模型实际应用阶段导致的上下层级间分类
结果不一致的情况,本技术方案在模型实际应用阶段采取Top-Down算法对多层间的分类结
果进行后处理,对于样本,在节点将其分类为类别的基分类器决策概率为,
Top-Down算法定义如下:
当前输入样本的类别分类结果不仅取决于当前基分类器对输入样本分类结果的
置信度高低,同时也取决于输入样本当前类别的父类别节点基分类器分类结果的正确与
否。模型训练阶段会基于前述类别层次结构训练多个基分类器,模型训练阶段与模型实
际应用阶段的实现框架如图5所示。
对发热待查患者进行辅助鉴别诊断的临床必要性尤其体现在患者就诊早期,其临
床症状表现复合度高,缺少鉴别诊断所需的特异性临床表现,因此本技术方案构建的发热
待查潜在病因层次分类模型只采取患者就诊早期易获取的临床表现数据。以表示含有个发热待查就诊样本的数据集,其中表示
主要来自于病历文本数据的高基数分类变量,表示结构化数值变量,表示多变量时序
数据,表示就诊样本的发热待查潜在病因标签。
针对上述以高基数分类变量、结构化数值变量以及多变量时序数据组成的模型输入特征空间,为实现在患者就诊早期即完成对发热待查患者潜在病因的有效鉴别,因此需要对上述多模态数据进行充分的应用与挖掘。故本技术方案构建端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,其中包括针对高基数分类变量进行特征提取的实体嵌入网络层、针对多变量时序数据进行特征提取的GRU(门控循环单元)网络层以及针对结构化数值变量进行特征提取的DNN(前馈神经网络)网络层,基分类器的具体神经网络结构如图7所示。
首先为实现对分类变量内具体类别间关系的自动提取,本技术方案采取衍生于文
本特征提取的word2vec技术的实体嵌入技术,将高基数分类变量的每一离散取值映射到一
维数值向量。首先分类变量的独热编码过程,可以表示为:
其中表示分类变量到的映射关系,表示克罗内克符号,的可能取值
空间等同于的可能取值空间,若是分类变量的可能取值数量,则为一个长度为的一维数值向量,其中元素仅在时取值为1。进而以向量作为输入,通过一层
线性单元完成下述映射过程:
其中为独热编码后的一维数值向量到嵌入层间的映射权重,可以随模型
整体神经网络的误差反向传播进行学习与更新,为嵌入层的索引,即为最后分类变量
的嵌入表示。对于单个样本内所有分类变量的实体嵌入过程即可表示为:
其中为网络层的输入向量,为网络层的输入向量,表示
到的映射转换过程,和分别为网络层的权重矩阵与偏置,为网络层的
非线性激活函数,可以采取sigmoid,tanh或ReLu。假设DNN网络总层数为,则采取作
为DNN网络层学习到的数据特征表示。对于单个样本的上述特征表示融合过程也可表示为:
考虑到本技术方案涉及的患者护理时序数据具有时间跨度不一、不规则采样频率
以及普遍存在缺失值等问题,因此本技术方案采取循环神经网络框架,基于GRU(门控循环
单元)网络对多变量时序数据进行特征提取。考虑到不规则采样频率以及缺失值可能是患
者临床状态的反映,若患者某项症状消失,则医生可能会取消对其某项护理生命体征的监
测或降低监测频率,因此在上述GRU网络层建模过程中同时将不规则采样频率信息以及缺
失值信息纳入时序特征空间进行特征挖掘。本技术方案以表示含有个时序变量的第个样本的多变量时序数据,表示第个样本的时间节点数量。其中表示所有时序变量在第
个时间节点的观测值,即在第维时序变量的值。以表示第个时间节点的事
件观测时间,引入屏蔽向量表示在第个时间节点某一时序变量值是否缺失,同
时引入时间间隔因子对时序变量d在第t个时间节点的不规则时间间隔进行建模,
即可表示为:
其中为第维时序变量在第个时间节点的观测值经过输入衰减计算之后的
值,表示第维时序变量在上一次非缺失的第个时间节点的观测值,表示第维时
序变量的经验均值,表示第维时序变量在第个时间节点的屏蔽向量取值,表示
第维时序变量在第个时间节点的观测值,表示第维时序变量在第个时间节点的输
入衰减系数。
加之将屏蔽向量直接输入GRU网络层训练过程,实现在不显式地计算缺失值的
前提下,通过将某个变量的缺失与否信息以及缺失状态持续时间信息输入发热待查潜在病
因层次分类模型,实现在模型训练过程中端到端的解决多变量时序数据的不规则时间间隔
以及缺失值问题,即:
其中为经过输入衰减计算之后的第个时间节点的时序变量输入,为GRU网络
隐藏层的净输入,表示在第个时间节点的隐藏状态,表示通过非线性函数得到的第
个时间节点的候选状态,表示GRU网络层在第个时间节点的遗忘门,表示在第个时
间节点的屏蔽向量取值,为Logistic函数,其输出区间为,表示元素点积运算,
矩阵以及向量均为GRU网络层参数。
由于本技术方案在上述多模态数据融合框架中采取后期融合策略,因此最终多模态融合深度神经网络即可表示为:
五、结果展示模块
结果展示模块主要通过系统前端可视化界面设计对发热待查潜在病因层次分类模型纳入考虑的临床表现数据通过就诊时间线的方式进行可视化展示,同时显示来自发热待查潜在病因层次鉴别模块输出的鉴别诊断意见以及每一基分类器鉴别诊断意见的置信度,以方便临床医生作参考。
本发明针对发热待查潜在病因的辅助鉴别诊断问题构建了全面且系统的发热待查潜在病因类别层次结构,基于任务分解策略将复杂、分类空间异质性大的多分类问题转化为包含多个二分类和三分类任务的层次分类问题,解决了分类难度大、标签样本分布不均衡的难题。
本发明充分考虑临床业务实际,设计数据规整策略并对其进行了自动化实现,将原有因患者多次就诊或转诊导致的分散临床数据进行了有效分割与整合,形成以发热待查患者单次发热病程为基本路径的最小数据分析单元。
本发明基于设计的发热待查潜在病因类别层次结构,设计实现发热待查潜在病因层次分类模型,其从上往下的逐层推理方式更加符合临床医生的鉴别诊断逻辑,有效提升模型可解释性和临床适用性。
本发明构建了完整的多模态融合深度神经网络,对患者入院早期易获取的病历文本数据、实验室常规化验数据以及护理时序数据进行了充分、有效的融合与挖掘,实现了对发热待查潜在病因进行早期辅助鉴别诊断的目的以及对早期有限临床表现数据最大程度的利用。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,包括以下模块:
(1)数据获取模块:实现发热待查辅助鉴别诊断系统与异构源数据库的连接;通过交互界面配置在异构源数据库内的目标临床信息的数据范围,以及患者唯一标识、就诊唯一标识,并完成对目标数据的扫描以及校验性数据的统计,建立目标数据采集的完整数据通路;
(2)数据规整模块:建立数据规整策略,通过设定发热待查诊断锚点和锚点前后就诊时间差,确定不同就诊周期;基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合,形成单个患者因单次发热就诊产生的最小数据分析单元;在最小数据分析单元时间范围内提取最早的就诊病历记录数据;
(3)多模态数据预处理模块:针对指定类型的病历文本数据,利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取;对不同采样频率、不同长度以及存在缺失值的多变量时序数据,进行时间窗口对齐与归一化处理;针对结构化数据,完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化;
(4)发热待查潜在病因层次鉴别模块,包括:
基于任务分解策略构建发热待查潜在病因类别层次结构,将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题;建立发热待查潜在病因层次分类模型,将模型分类输出空间定义在发热待查潜在病因类别层次结构之上;
在模型训练阶段,采取siblings策略对阳性与阴性训练样本进行划分,基于划分的多个训练样本集分别训练多个基分类器;在模型实际应用阶段,采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理,修正单个基分类器的局部概率,给出符合发热待查潜在病因类别层次结构的一致概率,得到发热待查患者潜在病因的层次类别分类结果,基于层次类别分类结果给出层次化鉴别诊断意见。
2.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述系统还包括结果展示模块,所述结果展示模块用于对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示,并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。
3.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述数据获取模块包含数据库连接管理单元和目标数据自定义单元;
所述数据库连接管理单元包括:通过java编程语言的类及接口编写多个JDBC模块,建立与异构数据库之间的数据通路,实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储;
所述目标数据自定义单元包括:针对发热待查潜在病因层次分类模型所需的目标临床信息划定数据范围,通过交互界面配置数据范围、患者唯一标识和就诊唯一标识,完成目标数据到缓存数据库的数据传输,确定完整数据通路。
4.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述数据规整模块中,以患者最早被诊断为发热待查的电子病历记录事件为发热待查诊断锚点,往前纳入7个自然日以内的就诊病历记录,往后纳入下次就诊开始时间与本次就诊结束时间差小于等于24小时的所有就诊病历记录,作为一次就诊周期;下次就诊开始时间距离本次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期,以此形成单个患者因单次发热就诊产生的最小数据分析单元。
5.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元;
所述文本数据预处理单元包括:针对既往史、个人史、家族史与婚育史这四类病历文本数据,采取位置导向模式分别编写正则表达式语句进行目标信息结构化提取;基于主诉与现病史这两类病历文本数据,采取关键词导向模式,利用词典分词技术构建目标症状词典及词典匹配规则;所述目标症状词典包括位置信息不敏感的全身症状词典、位置信息敏感的症状词典以及身体部位词典,所述词典匹配采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取;
所述时序数据预处理单元包括:对多变量时序数据进行时间窗口对齐,取每次就诊固定时间内的数据作为患者早期临床表现数据;每行数据对应于每位患者的一项时序变量数据序列,依据每一项时序变量数据采样频率以及采样时间跨度的长短分布,明确输入数据时间窗口以及列与列之间的时间间隔,实现对同一患者同一次就诊内多时序变量之间的时序对齐;采取Min-Max归一化对时序数据做数值归一化;
所述结构化数据预处理单元包括:针对结构化后的病历文本数据、基本信息数据以及实验室常规化验数据进行以下预处理操作:异常值处理、缺失值填充、标准编码以及标准化。
6.根据权利要求5所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述结构化数据预处理单元中,所述异常值处理包括:针对数值变量的异常值检测,采取统计分析和3σ原则,将异常值视为缺失值,利用缺失值处理方法进行处理;针对分类变量的异常值检测,对预设类别之外的错误输入认定为异常值,删除异常值并通过分类变量内的众数值进行填充;
所述缺失值填充包括:对于分类变量使用众数填充,对于数值变量若其分布符合正态分布则采取平均值填充法,若其分布不符合正态分布则采取中位数填充法;
所述标准编码包括:针对分类变量进行数值化处理,对于不同变量值之间存在序列关系、不平等重要性的变量,采取整数编码,对于不同变量值之间无序列关系、无重要性差别的变量,采取独热编码。
7.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述发热待查潜在病因层次鉴别模块中,基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因分类时,首先区分发热潜在病因属于感染性疾病还是非感染性疾病,若属于感染性疾病,则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病;若属于非感染性疾病,则继续区分是属于肿瘤性疾病、NIID还是其他非感染性疾病;若属于肿瘤性疾病,则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤;若属于NIID,则继续区分是属于自身免疫性疾病还是自身炎症性疾病;所述发热待查潜在病因类别层次结构具有非对称性、反自反性和可传递性。
8.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述发热待查潜在病因层次鉴别模块中,以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器,所述基分类器结构如下:
针对高基数分类变量,利用实体嵌入技术构建嵌入网络层,对分类变量进行特征提取;通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取;通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数,对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取;
采取后期融合策略,对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合,输入softmax层进行交叉熵损失函数的计算与基分类器的训练。
9.根据权利要求8所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特征在于,所述基分类器中,利用实体嵌入技术,将高基数分类变量的每一离散取值映射到一维数值向量,将一维数值向量经过线性单元转化得到分类变量的实体嵌入表示;将分类变量的实体嵌入表示与结构化数值变量合并后输入DNN网络层,经多层全连接神经网络的非线性转换,得到样本经DNN网络层学习到的数据特征表示。
10.根据权利要求8所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统,其特
征在于,所述基分类器中,以表示含有D个时序变量的
第n个样本的多变量时序数据,表示第n个样本的时间节点数量,表示第n个样本
的所有时序变量在第t个时间节点的观测值,;以表示第t个时间节
点的事件观测时间,引入屏蔽向量表示在第t个时间节点某一时序变量值是否
缺失,同时引入时间间隔因子对时序变量d在第t个时间节点的不规则时间间隔进
行建模,表示为:
所述GRU网络层中引入衰减系数,对缺失值与不规则时间间隔所含的潜在模式进行挖掘,并在模型端到端的学习过程中对每个时序变量的衰减系数进行学习;
采取输入衰减系数对缺失变量进行衰减操作,直到变量经验均值;采取隐藏状态衰减系数在计算新的隐藏状态之前对其前一个时刻的隐藏状态进行衰减;
取GRU网络层在所有时序数据的最后一层网络输出作为多变量时序数据的特征表示。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111311947.0A CN113744873B (zh) | 2021-11-08 | 2021-11-08 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
PCT/CN2022/124226 WO2023078025A1 (zh) | 2021-11-08 | 2022-10-10 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111311947.0A CN113744873B (zh) | 2021-11-08 | 2021-11-08 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113744873A true CN113744873A (zh) | 2021-12-03 |
CN113744873B CN113744873B (zh) | 2022-02-11 |
Family
ID=78727712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111311947.0A Active CN113744873B (zh) | 2021-11-08 | 2021-11-08 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113744873B (zh) |
WO (1) | WO2023078025A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115547502A (zh) * | 2022-11-23 | 2022-12-30 | 浙江大学 | 基于时序数据的血透病人风险预测装置 |
WO2023078025A1 (zh) * | 2021-11-08 | 2023-05-11 | 浙江大学 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
CN116153516A (zh) * | 2023-04-19 | 2023-05-23 | 山东中医药大学第二附属医院(山东省中西医结合医院) | 一种基于分布式计算的疾病大数据挖掘分析系统 |
CN116383722A (zh) * | 2023-06-05 | 2023-07-04 | 青岛理工大学 | 一种基于门控循环单元神经网络的压裂措施过程监控方法 |
CN117116497A (zh) * | 2023-10-16 | 2023-11-24 | 长春中医药大学 | 一种用于妇科疾病的临床护理管理系统 |
CN117743957A (zh) * | 2024-02-06 | 2024-03-22 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于机器学习的Th2A细胞的数据分选方法及相关设备 |
CN117976130A (zh) * | 2023-11-29 | 2024-05-03 | 银川童宜棠互联网医院有限公司 | 基于智能语音交互的健康管理方案生成方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342345B (zh) * | 2023-05-26 | 2023-09-19 | 贺显雅 | 一种基于大数据的智慧社区便民综合服务方法及平台 |
CN116700094B (zh) * | 2023-06-21 | 2024-03-01 | 哈尔滨博尼智能技术有限公司 | 一种数据驱动控制系统 |
CN116860977B (zh) * | 2023-08-21 | 2023-12-08 | 之江实验室 | 一种面向矛盾纠纷调解的异常检测系统及方法 |
CN117935249B (zh) * | 2024-03-20 | 2024-06-07 | 南昌工程学院 | 基于三维激光扫描参数自动提取的围岩等级辨识系统 |
CN118645218B (zh) * | 2024-08-09 | 2024-10-29 | 四川大学华西医院 | 基于数据结构化的培训策略生成方法、系统、终端及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709252A (zh) * | 2016-12-26 | 2017-05-24 | 重庆星空云医疗科技有限公司 | 预测、诊断、治疗和控制医院感染的智能决策辅助系统 |
US20190057774A1 (en) * | 2017-08-15 | 2019-02-21 | Computer Technology Associates, Inc. | Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN113342973A (zh) * | 2021-06-03 | 2021-09-03 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于疾病二分类器的辅助诊断模型的诊断方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768057B (zh) * | 2021-01-14 | 2023-01-10 | 重庆医科大学 | 鉴别儿童发热待查病因的系统 |
CN113488183B (zh) * | 2021-06-30 | 2023-10-31 | 吾征智能技术(北京)有限公司 | 一种发热疾病多模态特征融合认知系统、设备、存储介质 |
CN113744873B (zh) * | 2021-11-08 | 2022-02-11 | 浙江大学 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
-
2021
- 2021-11-08 CN CN202111311947.0A patent/CN113744873B/zh active Active
-
2022
- 2022-10-10 WO PCT/CN2022/124226 patent/WO2023078025A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709252A (zh) * | 2016-12-26 | 2017-05-24 | 重庆星空云医疗科技有限公司 | 预测、诊断、治疗和控制医院感染的智能决策辅助系统 |
US20190057774A1 (en) * | 2017-08-15 | 2019-02-21 | Computer Technology Associates, Inc. | Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN113342973A (zh) * | 2021-06-03 | 2021-09-03 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于疾病二分类器的辅助诊断模型的诊断方法 |
Non-Patent Citations (2)
Title |
---|
O.W.SAMUEL: "A web based decision support system driven by fuzzy logic for the diagnosis of typhoid fever", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
曾安等: "基于3D卷积神经网络-感兴趣区域的阿尔茨海默症辅助诊断模型", 《生物医学工程研究》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023078025A1 (zh) * | 2021-11-08 | 2023-05-11 | 浙江大学 | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 |
CN115547502A (zh) * | 2022-11-23 | 2022-12-30 | 浙江大学 | 基于时序数据的血透病人风险预测装置 |
CN116153516A (zh) * | 2023-04-19 | 2023-05-23 | 山东中医药大学第二附属医院(山东省中西医结合医院) | 一种基于分布式计算的疾病大数据挖掘分析系统 |
CN116153516B (zh) * | 2023-04-19 | 2023-07-07 | 山东中医药大学第二附属医院(山东省中西医结合医院) | 一种基于分布式计算的疾病大数据挖掘分析系统 |
CN116383722A (zh) * | 2023-06-05 | 2023-07-04 | 青岛理工大学 | 一种基于门控循环单元神经网络的压裂措施过程监控方法 |
CN117116497A (zh) * | 2023-10-16 | 2023-11-24 | 长春中医药大学 | 一种用于妇科疾病的临床护理管理系统 |
CN117116497B (zh) * | 2023-10-16 | 2024-01-12 | 长春中医药大学 | 一种用于妇科疾病的临床护理管理系统 |
CN117976130A (zh) * | 2023-11-29 | 2024-05-03 | 银川童宜棠互联网医院有限公司 | 基于智能语音交互的健康管理方案生成方法 |
CN117743957A (zh) * | 2024-02-06 | 2024-03-22 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于机器学习的Th2A细胞的数据分选方法及相关设备 |
CN117743957B (zh) * | 2024-02-06 | 2024-05-07 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于机器学习的Th2A细胞的数据分选方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2023078025A1 (zh) | 2023-05-11 |
CN113744873B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113744873B (zh) | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 | |
Lauritsen et al. | Explainable artificial intelligence model to predict acute critical illness from electronic health records | |
WO2022227294A1 (zh) | 一种基于多模态融合的疾病风险预测方法和系统 | |
WO2023202508A1 (zh) | 一种基于认知图谱的全科患者个性化诊疗方案推荐系统 | |
CN109659033B (zh) | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 | |
ȚĂRANU | Data mining in healthcare: decision making and precision. | |
CN113421652B (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
Rostami et al. | A novel explainable COVID-19 diagnosis method by integration of feature selection with random forest | |
CN113015977A (zh) | 使用自然语言处理的对疾病和病症的基于深度学习的诊断和转诊 | |
CN107247881A (zh) | 一种多模态智能分析方法及系统 | |
CN105868526B (zh) | 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法 | |
Moazemi et al. | Artificial intelligence for clinical decision support for monitoring patients in cardiovascular ICUs: a systematic review | |
CN117854665A (zh) | 儿科患者电子健康记录系统 | |
Pokharel et al. | Temporal tree representation for similarity computation between medical patients | |
Gupta et al. | A novel deep similarity learning approach to electronic health records data | |
CN117457192A (zh) | 智能远程诊断方法及系统 | |
CN113990489A (zh) | 一种中医药临床证候诊疗智能数据处理和分析挖掘系统 | |
CN114191665A (zh) | 机械通气过程中人机异步现象的分类方法和分类装置 | |
JP7365747B1 (ja) | 階層図ニューラルネットワークに基づく疾患診療過程異常識別システム | |
CN115019960B (zh) | 一种基于个性化状态空间进展模型的疾病辅助决策系统 | |
Ahmed et al. | A Weight Based Labeled Classifier Using Machine Learning Technique for Classification of Medical Data. | |
Gancheva et al. | X-Ray Images Analytics Algorithm based on Machine Learning | |
Kaddi et al. | Pharma data analytics: An emerging trend | |
Rama Sree et al. | A comparative study on a disease prediction system using machine learning algorithms | |
Wang et al. | Interpretable knowledge mining for heart failure prognosis risk evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |