CN116206755B - 一种基于神经主题模型的疾病检测与知识发现装置 - Google Patents
一种基于神经主题模型的疾病检测与知识发现装置 Download PDFInfo
- Publication number
- CN116206755B CN116206755B CN202310501896.0A CN202310501896A CN116206755B CN 116206755 B CN116206755 B CN 116206755B CN 202310501896 A CN202310501896 A CN 202310501896A CN 116206755 B CN116206755 B CN 116206755B
- Authority
- CN
- China
- Prior art keywords
- text
- patient
- topic model
- model
- neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 68
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 68
- 230000001537 neural effect Effects 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000009826 distribution Methods 0.000 claims abstract description 26
- 238000003745 diagnosis Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012512 characterization method Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000013140 knowledge distillation Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000000052 comparative effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 208000028659 discharge Diseases 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 210000005036 nerve Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000020925 Bipolar disease Diseases 0.000 description 1
- 208000020401 Depressive disease Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 208000028017 Psychotic disease Diseases 0.000 description 1
- 206010040047 Sepsis Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于神经主题模型的疾病检测与知识发现装置,由预处理模块对数据进行预处理,将每个入院记录重建为半结构化文本数据集,并作为训练数据;然后将训练数据输入患者画像分析模块,优化参数,得到患者典型画像信息及可以提取患者画像分布表征的模型;再将患者画像分布表征作为训练数据训练分类模块,得到辅助诊断模型。本发明可基于患者入院记录文本提取可解释文本表征并完成高性能分类,同时完成辅助诊断任务与辅助知识发现任务,利用目前难以被充分使用的医疗文本信息辅助完成临床决策支持任务。
Description
技术领域
本发明属于数据处理领域,具体涉及一种基于神经主题模型的疾病检测与知识发现装置。
背景技术
患者入院时的信息,例如主诉、现病史、既往史,通常以文本形式被记录在病程录内,并存储在医院的电子病历系统中。这些信息是医务人员进行诊断与了解疾病特征的主要证据。因此,医疗数据挖掘与人工智能研究十分关注这些信息,用计算机模拟人类,基于患者病程录进行辅助诊断和知识发现的研究在国内外均有开展。
辅助诊断与知识发现并非两个独立的任务,而是同一个任务的两个侧面,需要被同时解决。如果一个模型可以达到较高的辅助诊断精度,但是不可解释,无法基于模型抽取出任何人类可以理解的知识,我们会担忧模型是否真的通过可靠的证据完成诊断;另一方面,如果一个模型可以从数据中发现知识(如识别出疾病风险因子),但是疾病预测精度较低,我们则可能质疑模型发现的知识是否足够可靠。通常,模型仅在可以达到较高预测精度,并能够被证明是基于可靠的知识开展决策的情况下,才可能获得人们的信任。
目前,主题模型和深度学习模型是常见的两种基于文本完成辅助诊断的方法。其中具备代表性的工作包括,Kim等人使用主题模型,结合结构化数据,分析医疗文本数据预测败血症(Nat. Comm.,2021. 12:711);Yao等人使用BERT这一深度学习模型,对中医文本进行诊断(J. Am. Med. Inform. Assoc., 2019.26(12):1632-6);Geraci等人使用深度神经网络,基于医疗文本数据进行抑郁障碍分型(Evid. based Ment. Health, 2017.20:83-7)。但均无法达成高效、可解释的辅助诊断。深度学习模型通常能够达到较高的性能,但是不具备可解释性,无法为医务人员提供任何知识。基于主题模型的方法则因为技术路线本身的特点,难以达到较高的预测性能。
发明内容
本发明的目的在于针对现有技术中的不足,提供了一种基于神经主题模型的疾病检测与知识发现装置;克服现有医疗文本分析方法性能与可解释性不能兼顾的缺陷,以医务人员可以理解的方式挖掘医疗文本信息并完成疾病检测,实现基于文本的辅助诊断和知识挖掘,从而利用目前难以被充分利用的医疗文本信息辅助完成临床决策支持任务。
为实现上述目,本发明提供了一种基于神经主题模型的疾病检测与知识发现装置,包括:
数据预处理模块:用于采集患者的电子病历数据,并提取电子病历中入院记录的文本数据,对文本数据进行预处理,基于出院诊断对患者所患疾病进行标注,得到训练样本;
患者画像分析模块:用于构建基于神经主题模型的疾病文本分析模型,以数据预处理模块得到的训练样本作为输入,以所述训练样本的文本内容所对应的疾病作为输出,在神经主题模型中引入辅助损失集,基于反向传播算法对神经主题模型进行训练,对神经主题模型的参数进行调节,直到收敛,得到训练完成后的疾病文本分析模型;所述疾病文本分析模型用于提取可解释的患者文本表征;
分类模块:用于实现线性分类器,以患者画像分析模块得到的患者文本表征作为输入,以所述患者文本表征对应的疾病作为输出,使用反向传播算法对线性分类器进行训练,对相关参数进行调节,直到收敛;得到训练完成的线性分类器,实现基于患者文本表征的疾病检测。
进一步地,所述数据预处理模块中,所述电子病历数据的入院记录包括以文本形式记录的“患者人口学信息”、“现病史”、“既往史”、“主诉”、“个人史”。
进一步地,所述数据预处理模块中,对文本数据进行预处理具体为:提取电子病历中的所需信息,将每个患者的电子病历数据中提取的信息整合为一个文本数据,并将每名患者的文本数据转换为词袋表达,随后基于TF-IDF算法,从患者词袋表达数据中提取出最重要的词汇集合,并丢弃剩余词汇,从而将患者的每份文本数据整理为一个向量。
进一步地,所述患者画像分析模块中,所述辅助损失集包括对比损失函数、知识蒸馏损失函数和主题多样性损失函数。
进一步地,所述对比损失函数、知识蒸馏损失函数和主题多样性损失函数加入神经主题模型的损失函数中共同训练。
进一步地,所述神经主题模型中的参数通过对比损失函数、知识蒸馏损失函数、主题多样性损失函数和神经主题模型损失函数的线性组合,基于反向传播算法进行联合优化。
进一步地,所述神经主题模型通过将文本的词袋表达转化为一个实数文本向量,完成文本中蕴含信息的抽取。
进一步地,所述分类模块中,所述线性分类器基于患者画像分析模块生成的患者文本表征使用softmax回归进行分类。
为实现上述目的,本发明还提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。
为实现上述目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。
与现有技术相比,本发明的有益效果是:本发明在达到与目前领先模型类似的疾病检测性能的前提下,额外具备可解释优点;本发明提取的文本表征中每个元素均具备明确的语义信息,使用softmax回归完成预测;全流程可解释的疾病检测一方面有助于医务人员从相关参数中发现患者的典型特征画像,从而具备知识发现的潜力;另一方面使得疾病检测过程更为可信。
附图说明
图1为本发明神经主题模型的结构示意图;
图2为本发明装置在训练阶段与测试阶段的流程图;
图3为本发明装置在训练阶段与测试阶段的模块图;
图4为本发明装置与对比装置在疾病辅助诊断上的对比实验结果与消融实验结果图;
图5为本发明中HZSPH知识挖掘能力分析图;
图6是一种电子设备的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明利用经过修改的神经主题模型分析患者入院文本数据,提取患者高效、可解释的文本表征,基于可解释文本表征总结表征所反映出的患者典型画像,根据可解释文本表征进行疾病检测,克服现有文本分析方法可解释性与性能不可兼得的缺陷,使得文本分析方法可以同时应用于疾病辅助诊断与知识发现。
实施例1
参见图1,将预处理后的文本向量输入一个多层感知机得到两个向量,分别记为与/>(log指对数函数);将/>作为多元正态分布的均值,/>作为多元正态分布的协方差矩阵的对角线元素(协方差矩阵中的其它元素均设为0),得到各元素相互独立多元正态分布/>;随后基于正态分布进行一次采样,并将采样结果输入到softmax函数(记为/>)中,可得到一个患者文本表征向量/>;向量/>将和主题-词汇分布参数/>相乘(结果记为/>),以尽可能重建出原始输入;使用交叉熵衡量/>和/>之间的差异,将这一差异记为文档损失;文档损失将和其余三种辅助损失相加,得到联合损失;通过优化联合损失以优化/>和多层感知机中的参数,使得模型可以提取出有效的可解释文本信息,用于疾病检测。
参见图2和图3,本发明提供了一种基于神经主题模型的疾病检测与知识发现装置,包括数据预处理模块、患者画像分析模块和分类模块:
数据预处理模块:采集一批疾病患者的电子病历数据,提取其入院记录中对疾病辅助诊断具备重要价值的信息。并基于出院诊断对患者所患疾病进行标注,得到训练样本。
患者画像分析模块:构建基于神经主题模型的疾病文本分析模型,以数据预处理模块得到的训练样本作为神经主题模型的输入,以所述训练样本的文本内容,对应疾病作为所述神经主题模型的输出,基于反向传播算法对所述模型进行训练,对所述神经主题模型的参数进行调节,直到收敛;得到训练完成后的疾病文本分析模型,训练完成后的疾病文本分析模型基于文本提取高效、可解释的患者文本表征。
分类模块:实现线性分类器,以患者画像分析模块得到的患者文本表征作为输入,以所述文本表征对应的疾病作为模型输出,使用反向传播算法对线性分类器进行训练,对神经主题模型的参数进行调节,直到收敛;得到训练完成的线性分类器,实现基于患者文本表征进行疾病检测。
在数据预处理模块中,电子病历数据的入院记录包括以文本形式记录的“患者人口学信息”、“现病史”、“既往史”、“主诉”、“个人史”等;数据预处理模块对数据的预处理方法为:通过正则表达式定位关键信息位置,从而提取电子病历中的所需信息;将每个患者数据中提取的信息整合为一个文本,将每名患者的文本数据转换为词袋表达(bag-of-wordsrepresentation);随后,基于TF-IDF(term-frequency inverse-document-frequency)算法,从患者词袋表达数据中提取出最重要的词汇集合,并丢弃剩余词汇,从而将患者的每份文本数据整理为一个向量,使用代表文本向量,/>代表其对应的疾病,文本/>所对应的向量为/>,文本/>对应的疾病为/>。
在患者画像分析模块中,所述的神经主题模型是经过改进的主题模型,是一个参数化的函数,,通过输入文本向量/>,经由神经主题模型/>,输出可解释患者文本表征向量/>;所述神经主题模型采用贝叶斯视角看待/>,即/>是一个随机变量的采样;神经主题模型参数通常通过极大似然估计,进行参数优化。具体而言,根据神经主题模型的相关假设,对给定训练语料库/>,对其中的任意一个文档/>,有对数似然函数如下表达式:
其中,表示似然函数,/>表示文本表征向量/>的先验概率分布,/>为神经主题模型中每个文档对应的“主题-词频分布”,/>表示/>维实数向量,/>表示一个文档中的词的编号,/>表示文档/>中的词的数量,/>为文档/>中编号为/>的词在词袋表达中所对应的编号,/>为神经主题模型的主题-词汇分布;由于该函数中的积分式难以求解,在实践中通常通过引入变分分布/>的方式近似拟合/>。引入变分分布后,上述对数似然值可以重写为如下表达式:
其中,KL指代Kullback-Leibler散度,ELBO指代证据下界(evidence lowerbound);表示变分分布,/>表示变分分布函数中的参数;KL散度是一个非负实数,用于衡量两个分布的相似度,值越小分布相似度越高,当且仅当两个分布完全一致时为0;在实践中,通常通过优化ELBO(忽视对数似然值式子中的KL散度项)间接优化对数似然函数中的参数。由于/>与/>无关,因此有如下表达式:
其中,表示某个与随机变量/>相关的函数在分布/>下的数学期望;假设/>和均服从为正态分布和softmax函数嵌套得到的分布,本发明使用未经过softmax函数归一化的标准正态分布作为代理(proxy)衡量两个分布的KL散度,则有KL的解析形式:
其中,表示均值为0,协方差为单位矩阵的标准多元正态分布,/>表示神经主题模型预设的主题数量,/>为/>所刻画的正态分布的均值与协方差矩阵参数,表示协方差矩阵的迹(trace)。综上,有优化神经主题模型的目标函数如下:
其中,表示训练过程的一个批次(batch),本发明中,模型的目标函数在包括证据下界的同时,额外加入了本发明提出“辅助损失集”部分,用于提升模型性能。“辅助损失集”包含对比损失、知识蒸馏损失和主题多样性损失,这三种损失函数计算方法分别为:
其中,分别指代对比损失、知识蒸馏损失和主题多样性损失,这三个损失将加入神经主题模型的损失函数中共同训练,提升模型性能;其中,/>表示训练过程的一个批次(batch),/>表示文本编号,/>表示文本/>对应的疾病标签,/>表示指示函数,/>表示神经主题模型生成的文本/>的表征,/>表示大规模预训练神经语言模型(如BERT,DeBerta)生成的文本/>的深度表征,/>表示神经主题模型预设的主题数量,/>表示主题编号,/>表示主题/>对应的主题-词频分布。
神经主题模型通过将文本的词袋表达转化为一个实数文本向量,完成文本中蕴含信息的抽取。
最终,神经主题模型中的参数通过四个损失函数的线性组合,基于反向传播算法进行联合优化,即有:
其中,为预先指定的权重超参数;可以通过反向传播算法优化模型,最终得到/>。
在分类模块中,锁定神经主题模型参数,所述的线性分类器基于患者画像分析模块生成的文本表征进行分类。
其中,代表预测各疾病发生的概率,/>指代softmax回归。
实施例2
本实施例采用了来自于国内某三甲医院的精神科入院记录(记为HZSPH数据集)和来自美国一个名为MIMIC-III的公开医疗数据集,对本发明装置在辅助诊断和知识发现的效果进行了验证;其中,HZSPH数据集包含1463份精神病患者的入院记录,这些精神病患者被诊断为抑郁症、焦虑症或双相情感障碍;MIMIC-III数据集包含8827名进入ICU患者的入院记录,这些患者的诊断为ICU中常见的十种疾病。
本实施例进行了对比实验;本实施例提供的预测装置(下称为ENTM)与6个对比预测装置进行了对比,计算机存储器中存有相应的6个预测模型;这6个模型分别为LDA模型,sLDA模型,MacBert模型,Deberta模型,Longformer模型和NVDM模型;其中,MacBert只能应用于HZSPH这一中文数据集,Longformer模型和Deberta模型只能应用于MIMIC-III这一英文数据集。本实施例选择LDA、sLDA和NVDM的原因是,这些模型是以往最具代表性的,具备可解释潜力的主题模型与神经主题模型;本实施例选择MacBert,Deberta与Longformer的原因是,这些模型代表当前基于文本的疾病辅助诊断任务的世界领先的性能。
为了更好地进行对比,本实施例还进行了消融实验;本实施例提供的预测装置与4种对比预测装置进行了比较,计算机存储器中存有相应的预测模型;这4种对比预测装置分别为:不使用辅助预测损失的原版神经主题模型NTM,仅额外使用对比损失的神经主题模型(NTM+CL),仅使用知识蒸馏损失的神经主题模型(NTM+KL),仅使用主题多样性损失的神经主题模型(NTM+TL)。
本实施例开展了主题连贯性(Topic Coherence)分析以定量比较模型可解释性;通过定性分析HZSPH的分析结果,验证了本发明设计具备知识发现的潜力。
参见图4的本发明装置与对比装置在疾病辅助诊断这一任务上的对比实验结果与消融实验结果图;为确保结果的稳定性,所有汇报结果均为5折交叉实验的平均结果;对比实验表明,本发明装置在模型规模较小的前提下,辅助诊断性能与目前的大规模预训练神经网络语言模型达到类似;由于大规模预训练神经网络语言模型被广泛视为代表目前基于文本的辅助诊断的最高性能,本发明装置的疾病辅助诊断性能达到了目前世界领先水平。消融实验结果表明,本发明装置在神经主题模型基础上额外添加的三项辅助损失均能独立有效提升模型性能,其中,知识蒸馏损失和主题多样化损失的性能提升能力相对微弱,而对比损失的效果则十分显著;三项辅助损失组合有助于模型进一步达到相较只额外使用一种损失更好的性能。因此,本发明可以有效基于文本完成疾病辅助诊断工作。
表1为本发明装置与对比装置所提取到的表征可解释性分析结果,本发明装置使用了NPMI(normalized pointwise mutual information)指标对表征可解释性能力进行定量评估;由预训练神经网络语言模型学习到的表征不具备可解释性,因此表1中没有Deberta,MacBert和Longformer的分析结果;结果表明,LDA,sLDA等模型难以学出高质量的可解释表征,导致NPMI指标计算失败;本发明的NPMI指标分数最高,所学习到的患者表征具备最好的可解释性。
表1 表征可解释性分析结果
HZSPH | MIMIC-II | |
LDA | NA | NA |
sLDA | NA | NA |
NTM | 0.104 | 0.093 |
NTM+CL | 0.181 | 0.182 |
NTM+KL | 0.131 | 0.112 |
NTM+DL | 0.135 | 0.109 |
ENTM | 0.197 | 0.192 |
图5为基于HZSPH数据集的分析结果,针对本发明知识发现的潜力开展的定性评估;如图5所示,本实施例所抽取的10个主题中,主题1、主题2、主题5、主题7、主题9的主题强度分别与焦虑、双相和抑郁强相关;这些主题的高频词汇分布可解释,且每个主题高频词汇所反映出的患者画像与临床对相关疾病的症状学一致。
实施例3
与前述基于神经主题模型的疾病检测与知识发现装置的实施例相对应,本申请实施例还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。如图6所示,为本申请实施例提供的基于神经主题模型的疾病检测与知识发现装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、DMA控制器、磁盘、以及非易失内存之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
实施例4
与前述基于神经主题模型的疾病检测与知识发现装置的实施例相对应,本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (8)
1.一种基于神经主题模型的疾病检测与知识发现装置,其特征在于,包括:
数据预处理模块:用于采集患者的电子病历数据,并提取电子病历中入院记录的文本数据,对文本数据进行预处理,基于出院诊断对患者所患疾病进行标注,得到训练样本;
患者画像分析模块:用于构建基于神经主题模型的疾病文本分析模型,以数据预处理模块得到的训练样本作为输入,以所述训练样本的文本内容所对应的疾病作为输出,在神经主题模型中引入辅助损失集,基于反向传播算法对神经主题模型进行训练,对神经主题模型的参数进行调节,直到收敛,得到训练完成后的疾病文本分析模型;所述疾病文本分析模型用于提取可解释的患者文本表征;
分类模块:用于实现线性分类器,以患者画像分析模块得到的患者文本表征作为输入,以所述患者文本表征对应的疾病作为输出,使用反向传播算法对线性分类器进行训练,对神经主题模型的参数进行调节,直到收敛;得到训练完成的线性分类器,实现基于患者文本表征的疾病检测;
所述数据预处理模块中,对文本数据进行预处理具体为:提取电子病历中的所需信息,将每个患者的电子病历数据中提取的信息整合为一个文本数据,并将每名患者的文本数据转换为词袋表达,随后基于TF-IDF算法,从患者词袋表达数据中提取出最重要的词汇集合,并丢弃剩余词汇,从而将患者的每份文本数据整理为一个向量;所述患者画像分析模块中,所述的神经主题模型是经过改进的主题模型,优化神经主题模型的目标函数如下表达式:/>其中,/>表示训练过程的一个批次,/>表示一个文档中的词的编号,/>表示文档/>中的词的数量,/>为文档/>中编号为/>的词在词袋表达中所对应的编号,/>为神经主题模型的主题-词汇分布,/>为变分分布/>所刻画的正态分布的均值与协方差矩阵参数,/>表示协方差矩阵的迹,/>表示神经主题模型预设的主题数量;
所述辅助损失集包含对比损失、知识蒸馏损失和主题多样性损失,这三种损失函数计算如下表达式: 其中,/>分别指代对比损失、知识蒸馏损失和主题多样性损失,/>表示文本编号,/>表示文本/>对应的疾病标签,/>表示指示函数,/>表示神经主题模型生成的文本/>的表征,/>表示大规模预训练神经语言模型生成的文本/>的深度表征,/>表示主题编号,/>表示主题/>对应的主题-词频分布。
2.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置,其特征在于,所述数据预处理模块中,所述电子病历数据的入院记录包括以文本形式记录的“患者人口学信息”、“现病史”、“既往史”、“主诉”和“个人史”。
3.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置,其特征在于,所述对比损失函数、知识蒸馏损失函数和主题多样性损失函数加入神经主题模型的损失函数中共同训练。
4.如权利要求3所述的基于神经主题模型的疾病检测与知识发现装置,其特征在于,所述神经主题模型中的参数通过对比损失函数、知识蒸馏损失函数、主题多样性损失函数和神经主题模型损失函数的线性组合,基于反向传播算法进行联合优化。
5.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置,其特征在于,所述神经主题模型通过将文本的词袋表达转化为一个实数文本向量,完成文本中蕴含信息的抽取。
6.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置,其特征在于,所述分类模块中,所述线性分类器基于患者画像分析模块生成的患者文本表征使用softmax回归进行分类。
7.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-6任一项所述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一项所述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501896.0A CN116206755B (zh) | 2023-05-06 | 2023-05-06 | 一种基于神经主题模型的疾病检测与知识发现装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501896.0A CN116206755B (zh) | 2023-05-06 | 2023-05-06 | 一种基于神经主题模型的疾病检测与知识发现装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116206755A CN116206755A (zh) | 2023-06-02 |
CN116206755B true CN116206755B (zh) | 2023-08-22 |
Family
ID=86519506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310501896.0A Active CN116206755B (zh) | 2023-05-06 | 2023-05-06 | 一种基于神经主题模型的疾病检测与知识发现装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116206755B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808096A (zh) * | 2019-10-30 | 2020-02-18 | 北京邮电大学 | 基于卷积神经网络的心脏病变自动检测系统 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
CN112732872A (zh) * | 2021-01-12 | 2021-04-30 | 东南大学 | 面向生物医学文本的基于主题注意机制的多标签分类方法 |
WO2021203796A1 (zh) * | 2020-04-09 | 2021-10-14 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
CN114587274A (zh) * | 2022-03-02 | 2022-06-07 | 吾征智能技术(北京)有限公司 | 一种高血压中西医辩证分型系统 |
WO2022244824A1 (ja) * | 2021-05-18 | 2022-11-24 | Karydo TherapeutiX株式会社 | 新たな診断バイオマーカー及び/又は治療ターゲットの検索方法、検索装置、及び検索プログラム |
CN115527678A (zh) * | 2022-10-24 | 2022-12-27 | 中国人民解放军总医院 | 融合病历文本的Nomogram ICU老年疾病风险评分模型、装置、及其建立方法 |
CN115831300A (zh) * | 2022-09-29 | 2023-03-21 | 广州金域医学检验中心有限公司 | 一种基于患者信息的检测方法、装置、设备及介质 |
CN115938566A (zh) * | 2022-12-02 | 2023-04-07 | 浙江大学 | 基于知识引导的疾病辅助诊断系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170193197A1 (en) * | 2015-12-30 | 2017-07-06 | Dhristi Inc. | System and method for automatic unstructured data analysis from medical records |
-
2023
- 2023-05-06 CN CN202310501896.0A patent/CN116206755B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808096A (zh) * | 2019-10-30 | 2020-02-18 | 北京邮电大学 | 基于卷积神经网络的心脏病变自动检测系统 |
CN111192680A (zh) * | 2019-12-25 | 2020-05-22 | 山东众阳健康科技集团有限公司 | 一种基于深度学习和集成分类的智能辅助诊断方法 |
WO2021203796A1 (zh) * | 2020-04-09 | 2021-10-14 | 之江实验室 | 一种基于深度半监督多任务学习生存分析的疾病预后预测系统 |
CN112732872A (zh) * | 2021-01-12 | 2021-04-30 | 东南大学 | 面向生物医学文本的基于主题注意机制的多标签分类方法 |
WO2022244824A1 (ja) * | 2021-05-18 | 2022-11-24 | Karydo TherapeutiX株式会社 | 新たな診断バイオマーカー及び/又は治療ターゲットの検索方法、検索装置、及び検索プログラム |
CN114587274A (zh) * | 2022-03-02 | 2022-06-07 | 吾征智能技术(北京)有限公司 | 一种高血压中西医辩证分型系统 |
CN115831300A (zh) * | 2022-09-29 | 2023-03-21 | 广州金域医学检验中心有限公司 | 一种基于患者信息的检测方法、装置、设备及介质 |
CN115527678A (zh) * | 2022-10-24 | 2022-12-27 | 中国人民解放军总医院 | 融合病历文本的Nomogram ICU老年疾病风险评分模型、装置、及其建立方法 |
CN115938566A (zh) * | 2022-12-02 | 2023-04-07 | 浙江大学 | 基于知识引导的疾病辅助诊断系统 |
Non-Patent Citations (1)
Title |
---|
A Deep Learning Based Framework for Diagnosing Multiple Skin Diseases in a Clinical Environment;Chen-Yu Zhu et al;《ORIGINAL RESEARCH》;第第8卷卷;第1-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116206755A (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902588B2 (en) | Anatomical segmentation identifying modes and viewpoints with deep learning across modalities | |
CN109659033B (zh) | 一种基于循环神经网络的慢性疾病病情变化事件预测装置 | |
KR102153920B1 (ko) | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 | |
CN109935336B (zh) | 一种儿童呼吸科疾病的智能辅助诊断系统 | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
US12008313B2 (en) | Medical data verification method and electronic device | |
CN111696640A (zh) | 自动获取病历模板的方法、装置和存储介质 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
Li et al. | Vispi: Automatic visual perception and interpretation of chest x-rays | |
CN111128391A (zh) | 一种信息处理设备、方法和存储介质 | |
Christensen et al. | Vision–language foundation model for echocardiogram interpretation | |
CN115631825A (zh) | 利用自然语言模型自动生成结构化报告的方法及相关设备 | |
CN116206755B (zh) | 一种基于神经主题模型的疾病检测与知识发现装置 | |
CN113360643A (zh) | 一种基于短文本分类的电子病历数据质量评价方法 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
Xiao et al. | Open-domain question answering with pre-constructed question spaces | |
CN117668760A (zh) | 一种适宜免疫抑制剂相关肺炎的多模态深度学习分类方法 | |
CN113314217A (zh) | 一种基于检验医学大数据的常见疾病辅助自诊系统 | |
CN112712868A (zh) | 医学数据的分析方法、装置及存储介质 | |
CN112992304A (zh) | 高分辨率红眼病案例数据生成方法、设备及存储介质 | |
Dong et al. | LSTM Model was Used to Predict the Onset Time and Trend of Alzheimer's Disease | |
Singh et al. | Deep Learning: The Future of Medical Image Processing | |
Dack et al. | An empirical analysis for zero-shot multi-label classification on covid-19 ct scans and uncurated reports | |
Long et al. | Medical Diagnosis of Alzheimer’s Disease Based on Statistical Machine Learning | |
CN118748076A (zh) | 基于多模型间交互反馈的诊疗方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |