CN113744873A

CN113744873A - 一种基于任务分解策略的发热待查辅助鉴别诊断系统

Info

Publication number: CN113744873A
Application number: CN202111311947.0A
Authority: CN
Inventors: 李劲松; 王执晓; 田雨; 周天舒
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2021-12-03
Anticipated expiration: 2041-11-08
Also published as: WO2023078025A1; CN113744873B

Abstract

本发明公开了一种基于任务分解策略的发热待查辅助鉴别诊断系统，首次全面且系统地构建了发热待查潜在病因类别层次结构，基于类别层次结构实现了针对发热待查潜在病因进行辅助鉴别诊断的层次分类模型，并能够模拟临床医生的推理逻辑，逐层给出鉴别诊断意见，不仅鉴别范围更全面、系统，同时具有更高的鉴别准确度和更好的临床可解释性，由上向下的逐层推理模式也更加符合临床医生的临床实践习惯；本发明所利用的临床数据都是患者就诊早期极易获取的早期临床表现数据，因此在患者早期就诊阶段就能够基于有限信息给出极具临床价值和可信度的鉴别诊断意见；本发明为发热待查潜在病因的鉴别诊断提供了全面、系统、层次化的解决策略。

Description

一种基于任务分解策略的发热待查辅助鉴别诊断系统

技术领域

本发明属于医疗健康信息技术领域，尤其涉及一种基于任务分解策略的发热待查辅助鉴别诊断系统。

背景技术

作为多数临床问题的最常见症状之一，发热不仅是约30%儿童就诊的首要原因，同时在ICU护理的急重症成人患者中发生率也高达75%。尽管随着诊疗技术的进步，大部分发热待查患者可以得到相应的诊断，但在国际范围内仍有约7%-53%的发热待查患者即使通过全面系统的检查也未能得到明确诊断。同时发热待查患者的预后与潜在病因高度相关，部分病程发展较快的患者，若前期得不到准确诊断与恰当治疗，可快速出现危及生命的并发症，因此确诊越晚其预后越差。除此之外，在没有倾向性诊断基础上进行经验性抗感染治疗不仅缺乏循证医学依据，高度依赖临床医生经验，同时也易导致致病菌耐药性的提升以及非靶向性药物和多次转诊等医疗资源的浪费。加之发热待查潜在病因可达200多种，且其临床表现多样、复合度高，因此对发热待查潜在病因的早期鉴别诊断仍然是国内外临床医生所面临的重要挑战，尤其是在医疗资源条件相对落后的地区。

由于发热待查潜在病因复杂，且不同地区、不同时期和不同年龄的患者在不同配置的医疗资源条件下其病因构成比例都会有所差异，因此直接通过传统机器学习手段进行潜在病因多分类，往往存在类别间样本不均衡、分类问题复杂度高的固有缺陷，难以确保分类精度。

现有技术方案[申请公布号：CN112768057A，发明名称：鉴别儿童发热待查病因的系统]提出的发热待查潜在病因鉴别方案只针对儿童群体，因此其潜在病因范围相对较小，系统鉴别难度低。除此之外，该方案描述的鉴别系统只利用了年龄、钠离子、氯离子、乳酸脱氢酶、球蛋白、红细胞压积、C反应蛋白及白细胞酯酶8项指标对发热待查患者的潜在病因是否为感染性进行判断，因此发热待查潜在病因鉴别诊断内容不完整，且8项指标所能表示的特征空间较小，临床适应性较差。

现有技术方案[申请公布号：CN107785075A，发明名称：基于文本病历的小儿发热疾病深度学习辅助诊断系统]描述的发热疾病深度学习辅助诊断方案同样只针对小儿群体，且该系统直接对30种常见小儿发热疾病进行分类，而非针对发热待查潜在病因。此外，该方案主要是强调对临床文本病历数据的利用，通过自然语言处理技术对其进行文本特征提取以作为小儿发热鉴别诊断的特征空间，不涉及其他时序、结构化数据内容。

目前针对发热待查潜在病因进行辅助鉴别诊断的技术方案相对缺乏，该研究技术领域仍处于探索阶段。现有技术方案存在如下缺陷：

1.现有技术方案均只针对儿童群体的发热相关疾病进行鉴别诊断，儿童群体的发热相关疾病类型与范围相较于整体发热待查潜在病因的类型和范围仍有很大差别，且临床实际场景中发热待查群体主要是以成年人为主。

2.现有技术方案均只局限于感染性疾病与非感染性疾病的鉴别或只局限于易区分的小部分疾病，发热待查潜在病因的鉴别诊断覆盖范围不完整，因此临床实际适用性和可扩展性差。

3.现有技术方案只是对小部分发热相关疾病进行分类，所依赖的临床数据并非患者早期就诊的非特异性数据，而对发热待查患者进行辅助鉴别诊断最具有临床价值的便是在患者就诊早期，在临床医生基于有限临床表现数据难以得出倾向性诊断的情况下给予临床医生以辅助鉴别诊断意见。

4.现有技术方案均只涉及患者几项临床化验指标或单模态临床数据，并未对多模态的数据融合给出详细解决方案，因此所能挖掘的特征关联与所能表达的信息空间有限，而对发热待查患者做早期辅助鉴别诊断亟需对有限数据进行最大程度的利用。

5.现有技术方案针对发热待查潜在病因的鉴别诊断主要依赖于机器学习模型直接进行多分类，因此难以解决因发热待查潜在病因复杂多样导致的样本分布不均衡问题，不仅难以保证多分类的分类精度，且复杂的多分类任务缺少临床可解释性，难以在临床实际应用场景条件下被医生所接受。

6.发热患者入院就诊往往存在多次多科室门诊就诊或住院就诊，相关临床数据主要以就诊主索引进行关联组织，现有技术方案均缺少针对多次就诊的分散临床数据进行规整的有效机制，无法对患者分散的临床数据进行分割与整合，造成临床业务数据与辅助鉴别系统所需数据之间的数据鸿沟。

发明内容

本发明针对现有技术方案的不足，提供一种基于任务分解策略的发热待查辅助鉴别诊断系统，为发热待查潜在病因的鉴别诊断提供了全面、系统、层次化的解决策略。

本发明的目的是通过以下技术方案实现的：一种基于任务分解策略的发热待查辅助鉴别诊断系统，该系统包括以下模块：

(1)数据获取模块：实现发热待查辅助鉴别诊断系统与异构源数据库的连接；通过交互界面配置在异构源数据库内的目标临床信息的数据范围，以及患者唯一标识、就诊唯一标识，并完成对目标数据的扫描以及校验性数据的统计，建立目标数据采集的完整数据通路；

(2)数据规整模块：建立数据规整策略，通过设定发热待查诊断锚点和锚点前后就诊时间差，确定不同就诊周期；基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合，形成单个患者因单次发热就诊产生的最小数据分析单元；在最小数据分析单元时间范围内提取最早的就诊病历记录数据；

(3)多模态数据预处理模块：针对指定类型的病历文本数据，利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取；对不同采样频率、不同长度以及存在缺失值的多变量时序数据，进行时间窗口对齐与归一化处理；针对结构化数据，完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化；

(4)发热待查潜在病因层次鉴别模块，包括：

结合医学文献与临床指南，基于任务分解策略构建发热待查潜在病因类别层次结构，将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题；建立发热待查潜在病因层次分类模型，将模型分类输出空间定义在发热待查潜在病因类别层次结构之上；

在模型训练阶段，采取siblings策略对阳性与阴性训练样本进行划分，基于划分的多个训练样本集分别训练多个基分类器；在模型实际应用阶段，采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理，修正单个基分类器的局部概率，给出符合发热待查潜在病因类别层次结构的一致概率，得到发热待查患者潜在病因的层次类别分类结果，基于层次类别分类结果给出层次化鉴别诊断意见。

进一步地，所述系统还包括结果展示模块，所述结果展示模块用于对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示，并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。

进一步地，所述数据获取模块包含数据库连接管理单元和目标数据自定义单元；

所述数据库连接管理单元包括：通过java编程语言的类及接口编写多个JDBC模块，建立与异构数据库之间的数据通路，实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储；

所述目标数据自定义单元包括：针对发热待查潜在病因层次分类模型所需的目标临床信息划定数据范围，通过交互界面配置数据范围、患者唯一标识和就诊唯一标识，完成目标数据到缓存数据库的数据传输，确定完整数据通路。

进一步地，所述数据规整模块中，以患者最早被诊断为发热待查的电子病历记录事件为发热待查诊断锚点，往前纳入7个自然日以内的就诊病历记录，往后纳入下次就诊开始时间与本次就诊结束时间差小于等于24小时的所有就诊病历记录，作为一次就诊周期；下次就诊开始时间距离本次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期，以此形成单个患者因单次发热就诊产生的最小数据分析单元。

进一步地，所述多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元；

所述文本数据预处理单元包括：针对既往史、个人史、家族史与婚育史这四类病历文本数据，采取位置导向模式分别编写正则表达式语句进行目标信息结构化提取；基于主诉与现病史这两类病历文本数据，采取关键词导向模式，利用词典分词技术构建目标症状词典及词典匹配规则；所述目标症状词典包括位置信息不敏感的全身症状词典、位置信息敏感的症状词典以及身体部位词典，所述词典匹配采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取；

所述时序数据预处理单元包括：对多变量时序数据进行时间窗口对齐，取每次就诊固定时间内的数据作为患者早期临床表现数据；每行数据对应于每位患者的一项时序变量数据序列，依据每一项时序变量数据采样频率以及采样时间跨度的长短分布，明确输入数据时间窗口以及列与列之间的时间间隔，实现对同一患者同一次就诊内多时序变量之间的时序对齐；采取Min-Max归一化对时序数据做数值归一化；

所述结构化数据预处理单元包括：针对结构化后的病历文本数据、基本信息数据以及实验室常规化验数据进行以下预处理操作：异常值处理、缺失值填充、标准编码以及标准化。

进一步地，所述结构化数据预处理单元中，所述异常值处理包括：针对数值变量的异常值检测，采取统计分析和3σ原则，将异常值视为缺失值，利用缺失值处理方法进行处理；针对分类变量的异常值检测，对预设类别之外的错误输入认定为异常值，删除异常值并通过分类变量内的众数值进行填充；

所述缺失值填充包括：对于分类变量使用众数填充，对于数值变量若其分布符合正态分布则采取平均值填充法，若其分布不符合正态分布则采取中位数填充法；

所述标准编码包括：针对分类变量进行数值化处理，对于不同变量值之间存在序列关系、不平等重要性的变量，采取整数编码，对于不同变量值之间无序列关系、无重要性差别的变量，采取独热编码。

进一步地，所述发热待查潜在病因层次鉴别模块中，基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因分类时，首先区分发热潜在病因属于感染性疾病还是非感染性疾病，若属于感染性疾病，则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病；若属于非感染性疾病，则继续区分是属于肿瘤性疾病、NIID还是其他非感染性疾病；若属于肿瘤性疾病，则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤；若属于NIID，则继续区分是属于自身免疫性疾病还是自身炎症性疾病；所述发热待查潜在病因类别层次结构具有非对称性、反自反性和可传递性。

进一步地，所述发热待查潜在病因层次鉴别模块中，以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器，所述基分类器结构如下：

针对高基数分类变量，利用实体嵌入技术构建嵌入网络层，对分类变量进行特征提取；通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取；通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数，对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取；

采取后期融合策略，对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合，输入softmax层进行交叉熵损失函数的计算与基分类器的训练。

进一步地，所述基分类器中，利用实体嵌入技术，将高基数分类变量的每一离散取值映射到一维数值向量，将一维数值向量经过线性单元转化得到分类变量的实体嵌入表示；将分类变量的实体嵌入表示与结构化数值变量合并后输入DNN网络层，经多层全连接神经网络的非线性转换，得到样本经DNN网络层学习到的数据特征表示。

进一步地，所述基分类器中，以

表示含有D个时序变量的第n个样本的多变量时序数据，

表示第n个样本的时间节点数量，

表示第n个样本的所有时序变量在第t个时间节点的观测值，

；以

表示第t个时间节点的事件观测时间，引入屏蔽向量

表示在第t个时间节点某一时序变量值是否缺失，同时引入时间间隔因子

对时序变量d在第t个时间节点的不规则时间间隔进行建模，表示为：

其中

表示第n个样本的第d维时序变量在第t个时间节点的屏蔽向量取值；

表示

在第d维时序变量的值；

表示第n个样本的第d维时序变量在第t个时间节点的时间间隔因子；

所述GRU网络层的多变量时序数据输入空间表示为

，

，

，

，

表示第n个样本在第t个时间节点的事件观测时间，

表示第n个样本在第t个时间节点的屏蔽向量取值；

所述GRU网络层中引入衰减系数，对缺失值与不规则时间间隔所含的潜在模式进行挖掘，并在模型端到端的学习过程中对每个时序变量的衰减系数进行学习；

其中

和

是在GRU网络层训练过程中与其他所有网络参数共同训练得到的与衰减系数相关的模型参数，

表示在第t个时间节点的时间间隔因子，

表示在第t个时间节点的衰减系数；

采取输入衰减系数对缺失变量进行衰减操作，直到变量经验均值；采取隐藏状态衰减系数在计算新的隐藏状态之前对其前一个时刻的隐藏状态进行衰减；

取GRU网络层在所有时序数据的最后一层网络输出作为多变量时序数据的特征表示。

本发明的有益效果是：

1.首次全面且系统地构建了发热待查潜在病因类别层次结构，全面囊括了感染性疾病、肿瘤性疾病与NIID等大类疾病，且基于上述类别层次结构实现了针对发热待查潜在病因进行辅助鉴别诊断的层次分类模型，并能够模拟临床医生的推理逻辑，逐层给出鉴别诊断意见。因此不仅鉴别范围更全面、系统，同时具有更高的鉴别准确度和更好的临床可解释性。除此之外，其由上向下的逐层推理模式也更加符合临床医生的临床实践习惯。

2.所利用的临床数据都是患者就诊早期极易获取的早期临床表现数据，因此在患者早期就诊阶段就能够基于有限信息给出极具临床价值和可信度的鉴别诊断意见。

3.对多变量时序数据、文本数据以及结构化数据等多模态数据均进行了数据预处理与特征提取，并给出了详细的多模态数据融合解决方案。

4.针对分散、多次的门诊就诊与住院就诊，设计了数据规整模块对其进行重新的分割与整合，有助于准确获取患者早期就诊数据，消弭因不规范就诊流程带来的数据获取不精确的问题，建立了临床业务数据与发热待查潜在病因层次分类模型输入数据之间的数据通路。

附图说明

图1为本发明实施例提供的系统结构框架图；

图2为本发明实施例提供的数据流动路径图；

图3为本发明实施例提供的数据规整原理图；

图4为本发明实施例提供的发热待查潜在病因类别层次结构示意图；

图5为本发明实施例提供的发热待查潜在病因层次分类模型框架图；

图6为本发明实施例提供的引入衰减机制的GRU结构示意图；

图7为本发明实施例提供的基分类器具体神经网络结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明实施提供一种基于任务分解策略的发热待查辅助鉴别诊断系统，如图1所示，该系统包括以下模块：

一、数据获取模块，包含数据库连接管理单元和目标数据自定义单元；

数据库连接管理单元：实现发热待查辅助鉴别诊断系统与异构源数据库的连接；

目标数据自定义单元：通过交互界面配置在异构源数据库内的目标临床信息的数据范围，以及患者唯一标识、就诊唯一标识，并完成对目标数据的扫描以及校验性数据的统计，建立目标数据采集的完整数据通路。

二、数据规整模块，包括：

(1)建立数据规整策略：通过设定发热待查诊断锚点和锚点前后就诊时间差，确定不同就诊周期；

(2)基于数据规整策略对临床业务当中因患者多次门诊就诊与住院就诊产生的不定间隔的业务数据进行重新分割与整合，形成单个患者因单次发热就诊产生的最小数据分析单元；

(3)在最小数据分析单元时间范围内提取最早的就诊病历记录数据，输入多模态数据预处理模块。

三、多模态数据预处理模块，包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元；

文本数据预处理单元：针对指定类型的病历文本数据，利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取；

时序数据预处理单元：对不同采样频率、不同长度以及存在缺失值的多变量时序数据，进行时间窗口对齐与归一化处理；

结构化数据预处理单元：针对结构化数据，完成对分类变量与数值变量的异常值处理、缺失值填充、标准编码以及标准化。

四、发热待查潜在病因层次鉴别模块，包括：

(1)结合医学文献与临床指南，基于任务分解策略构建发热待查潜在病因类别层次结构，将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题；

(2)建立发热待查潜在病因层次分类模型，将模型分类输出空间定义在发热待查潜在病因类别层次结构之上；

(3)在模型训练阶段，采取siblings策略对阳性与阴性训练样本进行划分；基于划分的多个训练样本集，分别训练多个基分类器；

(4)在模型实际应用阶段，采取Top-Down算法对多个基分类器在上下层级间的分类结果进行后处理，修正单个基分类器的局部概率，给出符合发热待查潜在病因类别层次结构的一致概率，得到发热待查患者潜在病因的层次类别分类结果；基于层次类别分类结果给出层次化鉴别诊断意见。

进一步地，以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器，基分类器的具体神经网络结构如下：

(1)针对高基数分类变量，利用实体嵌入技术构建嵌入网络层，对分类变量进行特征提取；

(2)通过DNN网络层对分类变量的实体嵌入表示与结构化数值变量进行特征提取；

(3)通过在GRU网络层中引入屏蔽向量、时间间隔因子以及衰减系数，对具有不同时间跨度和不规则采样频率以及缺失值的多变量时序数据进行特征提取；

(4)采取后期融合策略，对DNN网络层输出的特征表示与GRU网络层输出的特征表示进行融合，输入softmax层进行交叉熵损失函数的计算与基分类器的训练。

五、结果展示模块：对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示，并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。

数据流动路径如图2所示，下面详细阐述每个模块的实现过程。

一、数据获取模块

主要负责在物理层面实现对HIS（Hospital Information System）、LIS（Laboratory Information System）以及EMR（Electronic Medical Record）等目标临床信息系统后端数据的访问以及目标数据范围内的数据获取，包括数据库连接管理单元和目标数据自定义单元。

数据库连接管理单元实现方式主要通过java编程语言的现有类及接口编写多个JDBC模块，建立与异构数据库之间的数据通路，以此为基础实现与源数据库之间的SQL命令交互以及对源数据库返回数据的存储。

目标数据自定义单元主要基于数据库连接管理单元建立的数据通路，针对后续发热待查潜在病因层次分类模型所需要的目标临床信息划定源数据范围，目标临床信息范围包括：年龄、性别、身高和体重4大类基本信息，主诉、既往史、个人史、家族史、婚育史与现病史6大类病历文本数据，体温、呼吸、心律、脉搏与血压5大类护理时序数据以及血常规、尿常规、凝血功能常规检查、心肌酶谱常规检查、肝肾脂糖电解质测定、粪便常规、红细胞沉降率测定、超敏C反应蛋白、钾钠氯测定、肝功能常规检查等实验室常规化验大项下的124项化验小项数据，即实验室常规化验数据。

通过交互界面人工标定涵盖上述目标临床信息的数据范围以及患者唯一标识、就诊唯一标识之后，完成目标数据到缓存数据库的数据传输，由此确定完整的数据通路。

二、数据规整模块

基于数据获取模块中建立的数据通路，数据规整模块即对临床业务当中产生的不定间隔的业务数据进行规整，以符合后续发热待查潜在病因层次分类模型输入分析的要求。

若将所有患者的电子病历记录数据表示为

，其中

表示患者数量，

表示患者

的电子病历记录数据；则对患者

，其一般具有唯一的人口统计数据

，以及

份就诊病历记录

；以

表示患者

的就诊病历集合，则

，其中每一份就诊病历记录

下包含多项时序数据集

以及非时序数据集

。

因此需要在

内选定发热待查诊断锚点，对多个

及其范围内的

和

进行分割与组合，获取准确的与本次发热待查就诊相关的

集合。本技术方案提出的数据规整方法，参见图3示例，首先以患者

最早被诊断为发热待查的电子病历记录事件为时间锚点

，往前纳入7个自然日以内的就诊病历记录，往后纳入下次就诊开始时间与本次就诊结束时间差小于等于24小时的所有就诊病历记录，作为一次就诊周期；下次就诊开始时间距离本次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期，以此形成单个患者最小的数据分析单元。其后基于前述数据分析单元，提取在该数据分析单元时间范围内发生的最早的就诊病历记录数据

组成后续发热待查潜在病因层次分类模型的输入特征空间。上述规整技术内容在操作数据库内完成。

三、多模态数据预处理模块

多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元。

文本数据预处理单元通过接收指定类型的病历文本数据，利用自然语言处理技术理解输入的病历文本，对病历文本进行目标信息的结构化提取。此处主要是利用正则表达式技术根据不同类型病历文本的结构特点分别采取位置导向模式和关键词导向模式对病历文本进行目标信息结构化提取。其中，既往史、个人史、家族史与婚育史这些病历文本数据均具有固定格式要求，因此通过位置导向模式分别编写正则表达式语言达到信息提取的目的。主要基于主诉与现病史这两类病历文本数据对患者早期临床症状表现信息进行症状实体抽取，因此采取关键词导向模式，利用词典分词技术构建一部目标症状词典C以及一套词典匹配规则R。词典C包括位置信息不敏感的全身症状词典C1（如消瘦、贫血、乏力等）、位置信息敏感的症状词典C2（如疼痛、占位、酸软等）以及身体部位词典C2-pos（如头部、四肢、扁桃体等）。词典匹配主要采取双向最长匹配算法对症状名称、持续时间、频次、身体部位信息进行结构化提取。最终结构化数据存储结构如表1所示。

表1 文本结构化数据存储示例

时序数据预处理单元主要针对体温、呼吸、心律、脉搏和血压5大类护理时序数据。由于临床业务环境相对复杂，因此在临床护理过程中产生的上述时序数据具有时间跨度不一、不同时序变量间采样频率差异大、普遍存在缺失值以及高度稀疏等特点，给该部分时序数据的分析利用带来极大困难。本技术方案针对护理时序数据的以上特点，首先对护理时序数据进行时间窗口对齐，取每次就诊

小时内的数据作为患者早期的临床表现数据；每行数据对应于每位患者的一项时序变量数据序列，依据每一项时序变量数据采样频率以及采样时间跨度的长短分布，明确输入数据时间窗口

以及列与列之间的时间间隔

，实现对同一患者同一次就诊内多时序变量之间的时序对齐。进而采取Min-Max归一化对上述护理时序数据做数值归一化，同时保留时序波形。值得注意的是，此处无须对固有缺失值与重采样产生的缺失值，以及不同就诊之间的采样频率不一致问题进行预处理，因为本技术方案考虑到涉及的多变量时序数据是患者临床护理生命体征状态的反映，后续会通过发热待查潜在病因层次鉴别模块将护理时序数据内的数值缺失模式纳入模型特征范围内做统一处理。

结构化数据预处理单元主要针对结构化以后的病历文本数据、基本信息数据（年龄、性别、身高和体重）以及实验室常规化验数据进行以下预处理操作：异常值处理、缺失值填充、标准编码以及标准化。

异常值处理主要针对人为错误产生的离群点进行处理，针对数值变量的异常值检测，本技术方案主要采取简单统计分析和3σ原则，简单统计分析即对变量值进行描述性统计，预设数值合理空间

，判断超出该数值合理空间的即识别为异常值；3σ原则即对符合正态分布的变量，距离变量平均值3σ之外的概率为

，即属于极小概率事件，因此变量值距离变量平均值大于3σ的即可被认定为异常值。

上述公式中

为变量

的正态分布函数，

为期望（均数），

为标准差，因此在区间

之外的数据即为异常值。处理方法即将异常值视为缺失值，利用缺失值处理方法进行处理。针对分类变量的异常值检测，即对预设类别之外的错误输入认定为异常值，处理方法即删除该异常值，并通过该变量内的众数值进行填充。

缺失值填充主要针对完全随机缺失；对于分类变量使用众数填充，对于数值变量若其分布符合正态分布则采取平均值填充法，若其分布不符合正态分布则采取中位数填充法，以此降低数据预处理阶段数据预处理的复杂度。

标准编码主要针对分类变量进行数值化处理，对于不同变量值之间存在序列关系、不平等重要性的变量，本技术方案采取整数编码，即对于存在

个唯一取值的变量，可以按顺序将其编码为

；对于不同变量值之间无序列关系、无重要性差别的变量，本技术方案采取独热编码，即对于存在

个唯一取值的变量，将每个变量值表示为一个长度为

的

序列，假设某变量值在

个唯一取值中排序位置为

，则其独热编码后的值为

。

标准化即在不改变原始数据分布的前提下将数据转化为均值为0，标准差为1的标准正态分布，以消除不同变量之间不同量纲对于后续模型分类的影响。

四、发热待查潜在病因层次鉴别模块

本技术方案针对发热待查潜在病因类别多样、鉴别诊断困难等客观问题，结合既往医学文献与临床指南中对现有发热待查潜在病因的研究与总结，基于任务分解策略形成发热待查潜在病因类别层次结构，将原本复杂、样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题，详细的类别层次结构划分见图4所示。在基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因的分类时，首先区分发热待查潜在病因属于感染性疾病还是非感染性疾病，若属于感染性疾病，则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病；若属于非感染性疾病，则继续区分是属于肿瘤性疾病、非感染性炎症性疾病(non-infectious inflammatory disease，NIID)还是其他非感染性疾病；若属于肿瘤性疾病，则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤；若属于NIID，则继续区分是属于自身免疫性疾病还是自身炎症性疾病。因此在解决大基数多分类任务中存在的样本分布不均衡问题的同时，实现了对临床医生推理逻辑的模拟建模，具有更好的临床可解释性。

层次分类可以看作是一种特殊类型的结构化分类问题，其分类输出空间定义在一个类别层次结构之上。本技术方案构建的类别层次结构

属于树状常规概念层次结构，其具体可被定义为一个偏序集

，其中

表示发热待查潜在病因分类问题涉及到的所有类别概念的有限集合，符号≺表示父子继承关系“IS-A”，将类别层次结构

的根节点记为

。类别层次结构

具有非对称性、反自反性和可传递性，分别表示如下：

非对称性：对于任意类别

，若

，则

；

反自反性：对于任意类别

，

；

可传递性：对于任意类别

，若

且

，则

。

在模型训练阶段的阳性与阴性样本划分策略方面，为模拟临床医生的推理诊断逻辑，使发热待查潜在病因层次分类模型具有更好的临床可解释性和适用性，本技术方案采取siblings策略，即对类别

进行分类预测时，阳性样本为

，其中

表示类别为

的样本集合，

表示类别为

所有子类别的样本集合；阴性样本为

，其中

表示与类别

隶属于同一父类别的同级类别的样本集合，

表示与类别

隶属于同一父类别的所有同级类别的所有子类别的样本集合；

表示集合求并集。

为避免基于局部信息训练基分类器在模型实际应用阶段导致的上下层级间分类结果不一致的情况，本技术方案在模型实际应用阶段采取Top-Down算法对多层间的分类结果进行后处理，对于样本

，在节点

将其分类为类别

的基分类器决策概率为

， Top-Down算法定义如下：

其中

为后处理后的样本

在节点

被判别为类别

的概率；用

表示样本

是否属于类别

的父类别，如果属于则为1，否则为0。

当前输入样本的类别分类结果不仅取决于当前基分类器对输入样本分类结果的置信度高低，同时也取决于输入样本当前类别的父类别节点基分类器分类结果的正确与否。模型训练阶段会基于前述类别层次结构

训练多个基分类器，模型训练阶段与模型实际应用阶段的实现框架如图5所示。

在模型实际应用阶段每个基分类器会估计给定样本

属于类别

的局部概率

，后处理的Top-Down算法通过修正局部概率给出最终的一致概率

，若共有

个类别，则样本

属于类别

的一致概率

表示为：

对发热待查患者进行辅助鉴别诊断的临床必要性尤其体现在患者就诊早期，其临床症状表现复合度高，缺少鉴别诊断所需的特异性临床表现，因此本技术方案构建的发热待查潜在病因层次分类模型只采取患者就诊早期易获取的临床表现数据。以

表示含有

个发热待查就诊样本的数据集，其中

表示主要来自于病历文本数据的高基数分类变量，

表示结构化数值变量，

表示多变量时序数据，

表示就诊样本

的发热待查潜在病因标签。

针对上述以高基数分类变量、结构化数值变量以及多变量时序数据组成的模型输入特征空间，为实现在患者就诊早期即完成对发热待查患者潜在病因的有效鉴别，因此需要对上述多模态数据进行充分的应用与挖掘。故本技术方案构建端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器，其中包括针对高基数分类变量进行特征提取的实体嵌入网络层、针对多变量时序数据进行特征提取的GRU（门控循环单元）网络层以及针对结构化数值变量进行特征提取的DNN（前馈神经网络）网络层，基分类器的具体神经网络结构如图7所示。

首先为实现对分类变量内具体类别间关系的自动提取，本技术方案采取衍生于文本特征提取的word2vec技术的实体嵌入技术，将高基数分类变量的每一离散取值映射到一维数值向量。首先分类变量

的独热编码过程，可以表示为：

其中

表示分类变量

到

的映射关系，

表示克罗内克符号，

的可能取值空间等同于

的可能取值空间，若

是分类变量

的可能取值数量，则

为一个长度为

的一维数值向量，其中元素仅在

时取值为1。进而以向量

作为输入，通过一层线性单元完成下述映射过程：

其中

表示向量

经过一层线性单元转化为

的映射关系，输出向量

可以表示为：

其中

为独热编码后的一维数值向量

到嵌入层间的映射权重，可以随模型整体神经网络的误差反向传播进行学习与更新，

为嵌入层的索引，

即为最后分类变量

的嵌入表示。对于单个样本内所有分类变量的实体嵌入过程

即可表示为：

其后实体嵌入表示

与标准化之后的结构化数值变量

合并为向量

作为DNN网络层的输入，经多层全连接神经网络的非线性转换，即：

其中

为网络层

的输入向量，

为网络层

的输入向量，

表示

到

的映射转换过程，

和

分别为网络层

的权重矩阵与偏置，

为网络层

的非线性激活函数，可以采取sigmoid，tanh或ReLu。假设DNN网络总层数为

，则采取

作为DNN网络层学习到的数据特征表示。对于单个样本的上述特征表示融合过程也可表示为：

其中

为样本

经DNN网络层学习到的数据特征表示，

表示对单个样本

的结构化数值变量与分类变量的嵌入表示的特征表示融合过程。

考虑到本技术方案涉及的患者护理时序数据具有时间跨度不一、不规则采样频率以及普遍存在缺失值等问题，因此本技术方案采取循环神经网络框架，基于GRU（门控循环单元）网络对多变量时序数据进行特征提取。考虑到不规则采样频率以及缺失值可能是患者临床状态的反映，若患者某项症状消失，则医生可能会取消对其某项护理生命体征的监测或降低监测频率，因此在上述GRU网络层建模过程中同时将不规则采样频率信息以及缺失值信息纳入时序特征空间进行特征挖掘。本技术方案以

表示含有

个时序变量的第

个样本的多变量时序数据，

表示第

个样本的时间节点数量。其中

表示所有时序变量在第

个时间节点的观测值，

即

在第

维时序变量的值。以

表示第

个时间节点的事件观测时间，引入屏蔽向量

表示在第

个时间节点某一时序变量值是否缺失，同时引入时间间隔因子

对时序变量d在第t个时间节点的不规则时间间隔进行建模，即可表示为：

其中

表示第n个样本的第d维时序变量在第t个时间节点的时间间隔因子。

则该GRU网络层的多变量时序数据输入空间可以表示为

，其中

，

，

；其中，

表示第n个样本在第t个时间节点的事件观测时间，

表示第n个样本在第t个时间节点的屏蔽向量取值。

通过在GRU网络层内引入衰减系数对缺失值与不规则时间间隔所含的潜在模式进行挖掘，修改后的GRU结构如图6所示，并在模型端到端的学习过程中对每个时序变量的衰减系数

进行学习：

其中

和

是在GRU网络层训练过程中与其他所有网络参数共同训练得到的与衰减系数

Claims

1.一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，包括以下模块：

(4)发热待查潜在病因层次鉴别模块，包括：

基于任务分解策略构建发热待查潜在病因类别层次结构，将复杂且样本分布不均衡的多分类问题转化为包含多个二分类和三分类任务的层次分类问题；建立发热待查潜在病因层次分类模型，将模型分类输出空间定义在发热待查潜在病因类别层次结构之上；

2.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述系统还包括结果展示模块，所述结果展示模块用于对发热待查潜在病因层次分类模型涉及的临床表现数据以就诊时间线的方式进行可视化展示，并对发热待查潜在病因层次鉴别模块得到的层次类别分类结果及层次化鉴别诊断意见进行可视化展示。

3.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述数据获取模块包含数据库连接管理单元和目标数据自定义单元；

4.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述数据规整模块中，以患者最早被诊断为发热待查的电子病历记录事件为发热待查诊断锚点，往前纳入7个自然日以内的就诊病历记录，往后纳入下次就诊开始时间与本次就诊结束时间差小于等于24小时的所有就诊病历记录，作为一次就诊周期；下次就诊开始时间距离本次就诊结束时间大于24小时的就诊病历记录归为下一个就诊周期，以此形成单个患者因单次发热就诊产生的最小数据分析单元。

5.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述多模态数据预处理模块包括文本数据预处理单元、时序数据预处理单元和结构化数据预处理单元；

6.根据权利要求5所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述结构化数据预处理单元中，所述异常值处理包括：针对数值变量的异常值检测，采取统计分析和3σ原则，将异常值视为缺失值，利用缺失值处理方法进行处理；针对分类变量的异常值检测，对预设类别之外的错误输入认定为异常值，删除异常值并通过分类变量内的众数值进行填充；

7.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述发热待查潜在病因层次鉴别模块中，基于发热待查潜在病因类别层次结构对发热待查患者进行发热潜在病因分类时，首先区分发热潜在病因属于感染性疾病还是非感染性疾病，若属于感染性疾病，则继续区分是属于细菌性、病毒性、真菌性、寄生虫性还是其他感染性疾病；若属于非感染性疾病，则继续区分是属于肿瘤性疾病、NIID还是其他非感染性疾病；若属于肿瘤性疾病，则继续区分是属于血液系统恶性疾病、实体恶性肿瘤还是良性肿瘤；若属于NIID，则继续区分是属于自身免疫性疾病还是自身炎症性疾病；所述发热待查潜在病因类别层次结构具有非对称性、反自反性和可传递性。

8.根据权利要求1所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述发热待查潜在病因层次鉴别模块中，以端到端的多模态融合深度神经网络作为发热待查潜在病因层次分类模型的基分类器，所述基分类器结构如下：

9.根据权利要求8所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述基分类器中，利用实体嵌入技术，将高基数分类变量的每一离散取值映射到一维数值向量，将一维数值向量经过线性单元转化得到分类变量的实体嵌入表示；将分类变量的实体嵌入表示与结构化数值变量合并后输入DNN网络层，经多层全连接神经网络的非线性转换，得到样本经DNN网络层学习到的数据特征表示。

10.根据权利要求8所述的一种基于任务分解策略的发热待查辅助鉴别诊断系统，其特征在于，所述基分类器中，以