CN111192680B

CN111192680B - 一种基于深度学习和集成分类的智能辅助诊断方法

Info

Publication number: CN111192680B
Application number: CN201911353290.7A
Authority: CN
Inventors: 樊昭磊; 吴军; 杨万春; 张伯政; 孙钊
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-06-01
Anticipated expiration: 2039-12-25
Also published as: CN111192680A

Abstract

一种基于深度学习和集成分类的智能辅助诊断方法。通过命名实体识别和关系抽取，准确提取出了主诉和现病史中的实体和属性，去除了无效信息。在标签主题模型中，加入了特征词的位置权重，提高了关键位置特征词的占比。在多层感知机模型的损失函数中加入了调整参数，解决样本分布不均匀造成的问题。针对相同样本，不同的分类方法得到的分类边界不同，故采用堆叠集成方法将标签主题模型和多层感知机模型进行了集成，提升了疾病的预测准确度。

Description

一种基于深度学习和集成分类的智能辅助诊断方法

技术领域

本发明涉及医疗信息化技术领域及人工智能技术领域，设计了一种基于深度学习和集成分类的智能辅助诊断方法。

背景技术

随着信息技术和互联网技术的高速发展，在医院信息化、数字化建设中起到核心作用的电子病历，在不断地优化和改善。电子病历中包含了病患症状描述信息，可以辅助医生在面对具有相似症状的患者时，快速作出病情的初步诊断。这对于疑难杂症的初诊或者急症病患的快速查因具有重要的指导意义，同时也有利于通过共享医生的诊疗经验，提高医生的诊断能力。面对大量的医疗电子病历文本数据，发掘其中有价值的症状与诊断结论之间的关联规律，可辅助相关医务人员提高临床诊疗的效率。

临床辅助决策大多基于临床指南等医学知识，并根据这些知识转换成的规则提供决策支持服务，然而维护和更新知识库需要巨大的投入和消耗。随着人工智能技术的发展，通过对大规模数据的文本挖掘，可以不断发现新的知识，得到症状和诊断的相关性。临床辅助决策应用于临床实践还有很多问题有待解决。首先需要能够准确提取出病历文本中的症状体征等命名实体，而信息的提取需要命名实体抽取技术的支持，现阶段基于深度学习的命名实体提取技术还存在识别效率不高、性能不够好等问题。对于医疗实体，由于表述的不规范性，需要结合知识库进行实体内容的标准化。采用机器学习算法对样本向量进行分类，不同的方法得到的分类边界不同，需要综合多种机器学习算法的结果，利用人工智能技术开发智能诊断辅助功能。

目前，在医学领域利用人工智能技术开发智能诊断，已经成为辅助临床诊疗技术研究的方向。因此，通过对电子病历文本信息的自然语言处理，本发明提出一种深度学习和集成分类的医疗智能辅助诊断方法。

发明内容

本发明给出了一套深度学习和集成分类的智能辅助诊断方法。具体的步骤如下：a-1)获取住院记录中的入院记录数据，入院记录中包含了年龄、性别、主诉、现病史、既往史，主诊断信息。利用命名实体识别和关系抽取技术提取相应实体和实体的属性。构建字向量的高维语义表示，采用双向Transformer作为编码器，基于注意力机制来对一段文本进行建模。采用图神经网络得到实体关系。采用B I O E S方案来进行实体标注。

在主诉和现病史中获取症状和属性的方法步骤如下：

步骤1：采用命名实体和关系抽取技术，提取出主诉和现病史中的实体，标记出否定症状；

步骤2：以身体部位、症状体征、体格指标、样本作为枢轴实体，确定枢轴实体的属性；

步骤3：对于提取的实体及属性，进行合并和去重处理。

a-2)利用知识库对提取实体中的诊断和症状进行标准化。知识库包含诊断标准知识库和症状标准知识库，其中诊断标准知识库采用ICD-10编码。

a-3)利用带标签的主题模型进行分类，预测疾病。疾病诊断可看作样本的主题。在主题模型(LDA)的基础上，增加了一层标签集，将主题与类别标签一一映射。主诉中描述了患者的主要症状，现病史是对症状表达内容的进一步补充。针对上述问题，根据特征词在文本中的位置，特征词对类别贡献度构造权值。

该模型中的符号定义如下：

D是m篇样本文档组成的矩阵D＝{d₁,d₂,...,d_m},d_m表示第m篇文档。文档d是由n个词组成的向量d＝{w_1d,w_2d,...,w_nd},元素w_nd表示文档d中的第n个词。类别C是文档集合类别向量C＝{1,2,...,c}，表示文档分为c组类别。W是目标文档的词向量空间。模型参数α是文档主题分布的狄利克雷参数，按类别分为C组，α＝{α₁,α₂,...,α_c}，向量α_c的元素α_cj表示类别c的第j个主题的先验概率；模型参数β是主题词语分布相关的狄利克雷超参数，按类别分为C组，β＝{β₁,β₂,...,β_c}，向量β_c的元素β_cji表示类别c的第j个主题生成词i的概率；模型参数θ是目标文档在主题上的分布，也按照类别分为c组；

标签主题模型的训练步骤：

步骤1对训练集文本进行处理，初始化主题和词变量矩阵，对于主题向量K∈{1,2,...,k}，生成狄利克雷先验概率矩阵β＝{β_k,1,β_k,2,...,β_k,v}；

主诉中的特征词权重为log_0.5θ，θ∈(0.5,1)，现病史中的特征词权重为(1-log_0.5θ)，且主诉中的特征词权重高于现病史中的特征词权重，特征词的权重根据其在主诉和现病史中的分布来调整；

步骤2对于每一个样本，初始化样本主题变量α，生成向量α^(d)和θ^(d)，其中α^(d)＝L^(d)*α，矩阵L^(d)是文档标签矩阵；

使用带特征词权重的Gibbs抽样方法来采集词的主题；

其中

表示主题j中在主诉z中的特征词i的数量，

表示主题j中在现病史x中的特征词i的数量，α_cj表示类别的主题先验概率，β_cji表示类别的生成词概率；

步骤3对上述步骤进行迭代，直到Gibbs抽样收敛；

步骤4统计样本集中标签主题的分布和主题词矩阵，根据Gibbs抽样矩阵选取主题下权重系数超过阈值的词作为主题特征。

标签主题模型的分类步骤：

在分类过程中对词在文本中的位置进行权重处理，突出位置的重要性，提升分类的准确性。具体分类过程如下：

步骤1采用命名实体识别模块处理样本，对提取的症状实体做加权，得到特征词权重；

步骤2把处理好的样本d放入训练模型中，将特征词权重与Gibbs采样相结合。初始化测试文档的标签主题，标签主题的参数分布均为超参数的狄利克雷分布；

步骤3在模型上使用带特征词权重的Gibbs抽样进行更新采样，其中主题词的后验估计p已经训练完毕，只需挖掘待测文本标签主题分布q；

步骤4重复步骤3，直到抽样算法收敛；

步骤5统计待测样本中主题、标签的分布，获取被分配最大份额的标签样本类别作为待测样本的标签。

a-5)利用多层感知机分类进行分类，预测疾病。

多层感知机的左侧单元是输入层，在这一层，有多少个输入就有多少个神经元。中间单元是隐藏层，可设置多层。隐藏层在输入层和输出层之间，将输入映射到输出。输出层对应不同疾病的分类。

步骤1初始化各个权重值，计算每个样本实例的输出。计算每一层每个神经元的触值。触值是通过计算连接这个神经元的前一层的所有神经元的值与相应的权重的乘机之和得到；

步骤2利用反向传播算法更新MLP网络权值。反向传递算法使用梯度下降更新规则。计算从输出神经元开始往回直到输入层的每个神经元的局部梯度下降。输出神经元的误差就是神经网络的输出与实际输出的差别。具体过程如下：

步骤2.1创建多层感知机神经网络，包括n_in个输入，n_hidden个隐藏层单元以及n_out个输出单元，η是学习速率。设定x_ji是单元i到单元j的输出，w_ji是相应的权值；

步骤2.2初始化所有连接的权值；

步骤2.3在满足终止条件前，对于训练集中的样本<x,t>；

把实例x输入网络，并计算网络中每个单元u的输出o_u；

对于网络中的每个输出单元k，计算其误差项δ_k，t是预期的输出；对于网络中的每个隐藏单元h，计算其误差项δ_h,其误差来自所有与其相连的输出单元；

更新每个网络连接的权值w_ji，其中第n次迭代的权值更新依赖于第n-1次迭代的更新；在计算梯度下降的损失值时，考虑样本分布不均匀造成的问题，采用

来计算损失值。其中β_t是类别t样本在所有样本中占的比例，k是样本的分类数，p_t是预测值，值γ＝2。

a-6)将上述两个分类器的分类结果进行集成，构建集成分类器。采用堆叠集成方法对模型进行集成。

本发明的有益效果是：通过上述方法，准确提取出了主诉和现病史中的实体和属性，去除了无效信息。相比现有的标签主题模型，加入了特征词的位置权重，提高了关键位置特征词的占比。相比现有的多层感知机模型，在损失函数中加入了调整参数，解决样本分布不均匀造成的问题。针对相同样本，不同的分类方法得到的分类边界不同，故采用堆叠集成方法将标签主题模型和多层感知机模型进行了集成，提升了疾病的预测准确度。

具体实施方式

下面对本发明做进一步说明：

本发明给出了一套深度学习和集成分类的智能辅助诊断方法。包括模型学习与模型使用，具体的模型学习包括如下步骤：

a-1)获取住院记录中的入院记录数据，入院记录中包含了年龄、性别、主诉、现病史、既往史，主诊断等信息。利用命名实体识别和关系抽取技术提取相应实体和实体的属性。构建字向量的高维语义表示，采用双向Transformer作为编码器，基于注意力机制来对一段文本进行建模。采用图神经网络得到实体关系。采用B I O E S方案来进行实体标注，其中B标签表示标注实体最开始的一个字符，I标签表示标注实体的中间部分的字符，E标签表示标注实体最后一个字符,S标签表示一个字符单独构成一个标注实体,O标签表示非标注实体字符。标注实体类型标签主要有：身体部位(B)、症状体征(Z)、体格指标(T)、方位(W)、疾病(D)、样本(Y)、变化描述(C)、属性形状(S)、诱因(R)、时间(Ti)程度(Dg)，其中症状或体征的标注实体类型前面可以加–号，以表示患者不具有该症状或体征。实体之间的关系采用有序对的方式来表示。

在主诉和现病史中获取症状和属性的方法步骤如下：

步骤2.1围绕身体部位实体，提取身体部位的方位，症状属性；

步骤2.2围绕症状体征实体，提取时间、样本、程度、变化描述及诱因属性；

步骤2.3围绕体格指标实体，提取变化描述及诱因属性；

步骤2.4围绕样本实体，提取属性形状及诱因属性；

步骤3：对于提取的实体及属性，进行合并和去重处理。

例如在主诉和现病史中，提取实体和实体关系。围绕“胸痛”这个症状，提取出症状的持续时间，例如“胸痛3天”；提取出症状的性质，例如“胸痛呈持续性”；提取出症状的变化描述，例如“休息后缓解”。围绕“痰”这个样本，提取出痰的属性形状“黄白色”。

a-2)利用知识库对医生的输入诊断和症状进行标准化。对输入的诊断数据和症状数据进行标准化输出，包含诊断标准知识库和症状标准知识库，其中诊断标准知识库采用ICD-10编码。医学领域概念节点与其他的医学领域概念节点连接，每个医学领域概念节点又与自身的病种概念表现形成节点连接。知识库中主要包括等价关系和上下位关系。

例如疾病“冠心病”是“冠状动脉粥样硬化性心脏病”的简写，属于等价关系。症状“肢体乏力”和“肢体无力”是一个意思，属于等价关系。“乙型肝炎”是“肝炎”的子类，属于上下位关系。在知识库中建立对应关系，通过标准化，使症状和诊断的描述统一起来，有助于下一步的模型分类。

a-3)利用带标签的主题模型进行分类，预测疾病。疾病诊断可看作样本的主题。在主题模型(LDA)的基础上，增加了一层标签集，将主题与类别标签一一映射，可以利用人工在文档上的标签标记，将其应用于病历文本多分类。标签主题模型在训练过程中，主题会偏向在文本中出现频数高的词，通过对病历文本分析发现，主诉中描述了患者的主要症状，现病史是对症状表达内容的进一步补充。根据特征词在文本中的位置，特征词对类别贡献度构造权值。

该模型中的符号定义如下：

D是m篇样本文档组成的矩阵D＝{d₁,d₂,...,d_m},d_m表示文档第m篇文档。文档d是由n个词组成的向量d＝{w_1d,w_2d,...,w_nd},元素w_nd表示文档d中的第n个词。类别C是文档集合类别向量C＝{1,2,...,c}，表示文档分为c组类别。W是目标文档的词向量空间。模型参数α是文档主题分布的狄利克雷参数，按类别分为C组，α＝{α₁,α₂,...,α_c}，向量α_c的元素α_cj表示类别c的第j个主题的先验概率；模型参数β是主题词语分布相关的狄利克雷超参数，按类别分为C组，β＝{β₁,β₂,...,β_c}，向量β_c的元素β_cji表示类别c的第j个主题生成词i的概率；模型参数θ是目标文档在主题上的分布，也按照类别分为c组；

标签主题模型的训练步骤：

步骤1对训练集文本进行处理，初始化主题和词变量矩阵，对于主题向量K∈{1,2,...,k}，生成狄利克雷先验概率矩阵β＝{β_k,1,β_k,2,...,β_k,v}。主诉中的特征词权重为log_0.5θ，θ∈(0.5,1)，现病史中的特征词权重为(1-log_0.5θ)，且主诉中的特征词权重高于现病史中的特征词权重，特征词的权重根据其在主诉和现病史中的分布来调整；

步骤2对于每一个样本，初始化样本主题变量α，生成向量α^(d)和θ^(d)，其中α^(d)＝L^(d)*α，矩阵L^(d)是文档标签矩阵。使用带特征词权重的Gibbs抽样方法来采集词的主题，

其中

表示主题j中在主诉z中的特征词i的数量，

步骤3对上述步骤进行迭代，直到Gibbs抽样收敛；

标签主题模型的分类步骤：

步骤2把处理好的样本d放入训练模型中，将特征词权重与Gibbs抽样相结合。初始化测试文档的标签主题，标签主题的参数分布均为超参数的狄利克雷分布；

步骤3在模型上使用带特征词权重的Gibbs抽样进行更新采样，其中主题词的后验估计β已经训练完毕，只需挖掘待测文本标签主题分布α；

步骤4重复步骤3，直到抽样算法收敛；

取心内科的一个入院病历为例，其主题为冠心病，提取该入院病历中的主诉和现病史。主诉中的特征词有：心慌、胸闷。现病史中的特征词有：憋喘、咳嗽、休息缓解、乏力、呼吸困难。设定θ＝0.8，则主诉中的特征词权重为log_0.5θ，现病史的特征词权重为(1-log_0.5θ)。文档d形成向量d＝{心慌、胸闷、憋喘、咳嗽、休息缓解、乏力、呼吸困难}。使用带特征词权重的Gibbs抽样进行参数估计，估计出文档-主题概率分布和主题-词项概率分布。Gibbs抽样每次选择概率向量的某个维度，在其它维度的变量值已给定的前提下计算该维度的值，不断重复，直到待估计的参数收敛。预测过程与训练过程基本一致。在预测过程中，每一个测试文档对应着一种疾病主题，假定训练得到的模型在Gibbs采用中保持稳定，仅重新采样测试文档即可。

a-5)利用多层感知机分类进行分类，预测疾病。

步骤2利用反向传播算法更新MLP网络权值。反向传递算法使用梯度下降更新规则。具体过程如下：

步骤2.1创建多层感知机神经网络，包括n_in个输入，n_hidden个隐藏层单元以及n_out个输出单元，η是学习速率。设定x_ji是单元i到单元j的输出，w_ji是相应的权值。

步骤2.2初始化所有连接的权值；

步骤2.3在满足终止条件前，对于训练集中的样本<x,t>。把实例x输入网络，并计算网络中每个单元u的输出o_u。对于网络中的每个输出单元k，计算其误差项δ_k，t是预期的输出。对于网络中的每个隐藏单元h，计算其误差项δ_h,其误差来自所有与其相连的输出单元。更新每个网络连接的权值w_ji，其中第n次迭代的权值更新依赖于第n-1次迭代的更新。在计算梯度下降的损失值时，考虑样本分布不均匀造成的问题，采用

建立三层的神经网络结构，输入层、隐藏层和输出层。输入的是症状及症状的属性，构成一个向量，如{心慌、胸闷、憋喘、咳嗽、休息缓解、乏力、呼吸困难}；隐藏层采用全连接形式，输出层是疾病的类别。从而建立了病历与疾病分类之间的对应关系。

梯度下降算法计算从输出神经元开始往回直到输入层的每个神经元的局部梯度下降。输出神经元的误差就是神经网络的输出与实际输出的差别。在计算梯度下降的损失值时，需要考虑样本分布不均衡的问题。例如有2种疾病{冠状动脉粥样硬化性心脏病，心律失常}，其中冠状动脉粥样硬化性心脏病的病历样本数为400份，心律失常的病历样本数为100份。若病历中的特征词只有“心悸”，则该病历对应的疾病应该为心律失常，但由于“心悸”这个症状在冠状动脉粥样硬化性心脏病的样本中出现的次数多，故会把该病历归为冠状动脉粥样硬化性心脏病，出现偏差。采用系数

来对损失值进行调整，冠状动脉粥样硬化性心脏病对应的系数为0.3，心律失常对应的系数为0.7，样本数越多对应的该系数越小，从而解决了样本不均衡的问题。

a-6)将上述两个分类器的分类结果进行集成，构建集成分类器。采用堆叠(stacking)集成方法对模型进行集成。该方法并行地学习异质学习器，并通过训练一个元模型将它们组合起来，根据不同模型的预测结果输出一个最终的预测结果。

步骤1将训练集分为2部分，分别用于让2个分类器(标签主题模型与多层感知机)进行学习和拟合；

步骤2将2个分类器预测得到的结果作为下一层分类器(元分类器)的输入；

步骤3将下一层分类器(元分类器)得到的结果作为最终的预测结果。

训练了标签主题模型和多层感知机模型，若标签主题模型在某些疾病(例如冠状动脉粥样硬化性心脏病)的预测上高于多层感知机，则采用标签主题模型来预测该类疾病；反之亦然。通过集成方式，可以对两种分类器取长补短，获得最优的分类效果。

Claims

1.一种深度学习和集成分类的智能辅助诊断方法，其特征在于包括模型学习与模型使用两部分，具体的模型学习采用以下步骤：

(1.1)获取住院记录中的入院记录数据，入院记录中包含了年龄、性别、主诉、现病史、既往史、主诊断信息；利用命名实体识别和关系抽取技术提取相应实体和实体的属性；构建字向量的高维语义表示，采用双向Transformer作为编码器，基于注意力机制来对一段文本进行建模；采用图神经网络得到实体关系，采用BIOES方案来进行实体标注，其中B标签表示标注实体最开始的一个字符，I标签表示标注实体的中间部分的字符，E标签表示标注实体最后一个字符,S标签表示一个字符单独构成一个标注实体,O标签表示非标注实体字符；标注实体类型标签主要有：身体部位B、症状体征Z、体格指标T、方位W、疾病D、样本Y、变化描述C、属性形状S、诱因R、时间Ti、程度Dg，其中症状或体征的标注实体类型前面可以加–号，以表示患者不具有该症状或体征，实体之间的关系采用有序对的方式来表示；

在主诉和现病史中获取症状和属性的方法步骤如下：

步骤2.3围绕体格指标实体，提取变化描述及诱因属性；

步骤2.4围绕样本实体，提取属性形状及诱因属性；

步骤3：对于提取的实体及属性，进行合并和去重处理；

(1.2)利用知识库对医生的输入诊断和症状进行标准化

对输入的诊断数据和症状数据进行标准化输出，包含诊断标准知识库和症状标准知识库，其中诊断标准知识库采用ICD-10编码；医学领域概念节点与其他的医学领域概念节点连接，每个医学领域概念节点又与自身的病种概念表现形成节点连接；知识库中主要包括等价关系和上下位关系；

(1.3)利用带标签的主题模型进行分类，预测疾病

疾病诊断可看作样本的主题；在主题模型LDA的基础上，增加了一层标签集，将主题与类别标签一一映射，可以利用人工在文档上的标签标记，将其应用于病历文本多分类；标签主题模型在训练过程中，主题会偏向在文本中出现频数高的词，通过对病历文本分析发现，主诉中描述了患者的主要症状，现病史是对症状表达内容的进一步补充；根据特征词在文本中的位置，特征词对类别贡献度构造权值；该模型中的符号定义如下：

D是m篇样本文档组成的矩阵D＝{d₁,d₂,...,d_m},d_m表示第m篇文档；

文档d是由n个词组成的向量d＝{w_1d,w_2d,...,w_nd},元素w_nd表示文档d中的第n个词；

类别C是文档集合类别向量C＝{1,2,...,c}，表示文档分为c组类别；

W是目标文档的词向量空间；

模型参数α是文档主题分布的狄利克雷参数，按类别分为C组，α＝{α₁,α₂,...,α_c}，向量α_c的元素α_cj表示类别c的第j个主题的先验概率；模型参数β是主题词语分布相关的狄利克雷超参数，按类别分为C组，β＝{β₁,β₂,...,β_c}，向量β_c的元素β_cji表示类别c的第j个主题生成词i的概率；模型参数θ是目标文档在主题上的分布，也按照类别分为c组；

(1.4)标签主题模型的训练步骤：

使用带特征词权重的Gibbs抽样方法来采集词的主题；

其中

表示主题j中在主诉z中的特征词i的数量，

步骤3对上述步骤进行迭代，直到Gibbs抽样收敛；

步骤4统计样本集中标签主题的分布和主题词矩阵，根据Gibbs抽样矩阵选取主题下权重系数超过阈值的词作为主题特征；

标签主题模型的分类步骤：

在分类过程中对词在文本中的位置进行权重处理，突出位置的重要性，提升分类的准确性；

具体分类过程如下：

步骤2把处理好的样本d放入训练模型中，将特征词权重与Gibbs抽样相结合；

初始化测试文档的标签主题，标签主题的参数分布均为超参数的狄利克雷分布；

步骤4重复步骤3，直到抽样算法收敛；

步骤5统计待测样本中主题、标签的分布，获取被分配最大份额的标签样本类别作为待测样本的标签；

(1.5)利用多层感知机分类进行分类，预测疾病多层感知机的左侧单元是输入层，在这一层，有多少个输入就有多少个神经元；中间单元是隐藏层，可设置多层；隐藏层在输入层和输出层之间，将输入映射到输出，输出层对应不同疾病的分类；

步骤1初始化各个权重值，计算每个样本实例的输出；计算每一层每个神经元的触值；触值是通过计算连接这个神经元的前一层的所有神经元的值与相应的权重的乘积之和得到；

步骤2利用反向传播算法更新MLP网络权值；反向传递算法使用梯度下降更新规则；具体过程如下：

步骤2.1创建多层感知机神经网络，包括n_in个输入，n_hidden个隐藏层单元以及n_out个输出单元，η是学习速率；设定x_ji是单元i到单元j的输出，w_ji是相应的权值；

步骤2.2初始化所有连接的权值；

步骤2.3在满足终止条件前，对于训练集中的样本<x,t>；

把实例x输入网络，并计算网络中每个单元u的输出ou；

来计算损失值；其中β_t是类别t样本在所有样本中占的比例，k是样本的分类数，p_t是预测值，值γ＝2；

(1.6)将上述两个分类器的分类结果进行集成，构建集成分类器；

采用堆叠集成方法对模型进行集成；

该方法并行地学习异质学习器，并通过训练一个元模型将它们组合起来，根据不同模型的预测结果输出一个最终的预测结果；

步骤1将训练集分为2部分，分别用于让2个分类器即标签主题模型与多层感知机进行学习和拟合；

步骤2将2个分类器预测得到的结果作为下一层分类器即元分类器的输入；

步骤3将下一层分类器即元分类器得到的结果作为最终的预测结果。