CN115862844A - 基于m-n+模型的慢性疼痛特征识别系统 - Google Patents
基于m-n+模型的慢性疼痛特征识别系统 Download PDFInfo
- Publication number
- CN115862844A CN115862844A CN202211615353.3A CN202211615353A CN115862844A CN 115862844 A CN115862844 A CN 115862844A CN 202211615353 A CN202211615353 A CN 202211615353A CN 115862844 A CN115862844 A CN 115862844A
- Authority
- CN
- China
- Prior art keywords
- disease
- representing
- distribution
- medical record
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000002193 Pain Diseases 0.000 title claims abstract description 29
- 208000000094 Chronic Pain Diseases 0.000 title claims abstract description 20
- 201000010099 disease Diseases 0.000 claims abstract description 135
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 135
- 238000009826 distribution Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013398 bayesian method Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 208000022371 chronic pain syndrome Diseases 0.000 abstract description 7
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012512 characterization method Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 5
- 230000036772 blood pressure Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 208000001953 Hypotension Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 230000002687 intercalation Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000862 numbness Toxicity 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 208000027753 pain disease Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于M‑N+模型的慢性疼痛特征识别系统。本发明能够通过自反馈的形式形成数据闭环,并基于既定场景设定瀑布流对高维的慢性疼痛相关因素集进行清洗、提取和标化,最终实现慢性疼痛特征高效率的精准辨析。本发明能同时建模慢痛患者病历、慢性疼痛、慢痛患者特征三者之间的关系,得出病历-疾病和疾病-特征两个分布矩阵,从而达到疾病特征识别的目的。实验表明,本发明的疾病特征识别准确率高于ID3算法和C4.5算法,达到了良好的慢性疼痛疾病特征识别效果。
Description
技术领域
本发明涉及一种基于M-N+模型的慢性疼痛特征识别技术,实现慢性疼痛特征高效率的精准辨析。
背景技术
慢性疼痛疾病特征是医生用来诊断疼痛类别和级别的主要依据,它主要包含在病历的主诉和各项检查内容里,如何高效地从海量电子病历中找出慢性疼痛疾病特征从而辅助诊断一直以来都是慢痛数据挖掘的研究热点。
慢痛特征识别就是指从数据集中识别出某类事物最具代表性特征子集的过程,其原理主要是通过度量不同特征与类别的相关程度,实现在高维特征中选取与类别相关度高的特征子集。一般特征识别的方法包括三类:过滤法(Filter)、嵌入法(Embeded)和包装法(Wrapper)。过滤法与学习算法相互独立,通过过滤数据集来识别特征子集。嵌入法把特征识别与学习过程同时进行,在训练过程中,选择最优特征。包装法将学习算法作为特征选择的一部分。过滤法是最常用的特征识别方法,它的主要原理是通过样本数据的内在联系来评价特征的权重,如信息增益、相关系数等。虽然这些方法在麻痛疾病特征提取方面起到了一定的作用,但是由于慢性疼痛患者病历数据离散化程度高,描述语言标准不统一,给疾病特征的提取带来了一定的困难,降低了疾病特征识别准确率。
发明内容
本发明要解决的技术问题是:目前基于病历的慢性疼痛疾病特征提取方法有很多,但是这些方法存在病历数据离散化程度高、描述语言标准不统一、疾病特征的提取困难等问题。
为了解决上述技术问题,本发明的技术方案是提供了一种基于M-N+模型的慢性疼痛特征识别系统,其特征在于,包括:
数据预处理模块,用于将电子病历文档进行预处理及分词后存入文本文件中;
M-N+模型:在文本文件上运行M-N+模型后,得到病历-疾病分布和疾病-特征分布两个分布矩阵,通过疾病-特征分布得到疾病的特征分布,其中,贝叶斯方法来统计电子病历文档中最优的疾病数量K,将计算得到的疾病数量K作为M-N+模型的输入参数,疾病数量K的计算公式如下式所示:
式中:P(w|s)表示病历-疾病分布概率;β表示超参数,Γ(Wβ)表示假词的共轭二项分布;Γ(β)表示假词的先验二项分布;表示自循环变量,表示假词的离散函数;ni表示拟态变量,Γ(ni+Wβ)表示真词的离散函数;M表示吉布斯采样次数;P(w|K)表示疾病-特征分布;s(i)表示特异性阈值范畴,p(w|s(i))表示特异性分布。
优选地,所述数据预处理模块包括:
数据过滤单元:用于去除电子病历文档中的隐私信息以及无用信息,仅保留包含疾病特征密度大的信息内容;
数据离散化单元:用于将经过数据过滤单元处理的数据中的连续性数据进行离散化处理;
分词单元:基于医学词表对经过数据离散化单元处理的数据进行分词处理,将分词后的结果存放在文本文件中,其中,对经过数据离散化单元处理的电子病历文档进行人工标注,以获得电子病历文档中出现的完整的医学用语,基于所获得的医学用语建立医学用语词表。
优选地,在所述M-N+模型中,建立文档、疾病、词汇三者之间的联合概率公式,如下式所示:
式(1)中:P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率;θ表示文档属性,S表示疾病特征属性,W表示词汇属性,α、β为超参数;P(θ|α)表示文档属性的偏离率;sn表示疾病特征的离散量,P(sn|θ)表示文档属性与疾病特征拟合度;wn表示偏倚变量,P(wn|sn,β)表示特征拟合度的偏倚率;
遍历病历文档d中的每个词汇w,计算词汇w的边缘概率,得到病历文档d生成词汇w的概率,如公式(2)所示:
式中,P(w|α,β)表示特征拟合或然率。
式中:si表示疾病特征属性,wi表示偏倚变量,di表示病例文档,k表示吉布斯模型常量,P(si=k|si,wi,di)表示吉布斯模型;表示动态审敛矩阵;K表示疾病数量;表示静态审敛矩阵;W表示词汇属性;
本发明能够通过自反馈的形式形成数据闭环,并基于既定场景设定瀑布流对高维的慢性疼痛相关因素集进行清洗、提取和标化,最终实现慢性疼痛特征高效率的精准辨析。本发明能同时建模慢痛患者病历、慢性疼痛、慢痛患者特征三者之间的关系,得出病历-疾病和疾病-特征两个分布矩阵,从而达到疾病特征识别的目的。实验表明,本发明的疾病特征识别准确率高于ID3算法和C4.5算法,达到了良好的慢性疼痛疾病特征识别效果。
与现有技术相比,本发明具有如下有益效果:
一)能从疼痛患者病例档案和多源多模态采集终端获取高维海量数据,对获取的数据进行管理、整合、分析和利用,通过数据挖掘和分析,探寻不同风险疼痛患者的差异化干预节点,制定个体化组合干预优化策略和持续改进的方案;
二)从多个不同等级业务系统中采集海量数据进行清洗、实现虚拟化存储,并构建慢性疼痛疾病管理机器人专有数据DWH;
三)通过数据挖掘技术从大量的多源数据中通过算法探索隐藏于其中的靶点信息。
附图说明
图1示意了概率生成关系;
图2示意了M-N+模型生成疾病特征的概率分布;
图3为疾病特征识别准确率对比图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明基于M-N+模型实现。M-N+模型是一种360度无死角的病例属性表征生成模型。该模型通过训练病例文档-表征属性、表征属性-词汇两个分布来识别病例相关因素库中潜在的表征属性。模型在训练时不需要属性标签,避免了人工标注。M-N+模型的核心原理是:病例文档以特定的概率生成某个表征属性,而表征属性又以特定的概率生成某关键因素。所以,病例文档中的元数据服从主题的多项式分布,主题服从词的多项式分布,其概率生成关系如图1所示。
M-N+模型把病例文档看作为元词袋,不考虑词与词之间的逻辑与顺序关系。M-N+模型中各参数的含义如下表1所示。
表1
由于w是可观测变量,主题z是隐含变量,词汇w依赖于主题z,而主题z依赖于病例文档一表征属性分布0,所以,病例文档d生成表征词汇w的概率为P(w|d)=P(z|d)P(w|z)。
本发明以疾病为中心通过M-N+模型建模病历、疾病和特征三者之间的依赖关系,并根据病历文档生成疾病、疾病生成特征的概率生成原理学习慢性疼痛病历档案-慢性疼痛和慢性疼痛-慢性疼痛特征两个分布,从而高效地识别出慢性疼痛疾病的特征分布,具体包括以下内容:
患者病历记录了患者诊疗过程的相关信息,一般以文字的形式描述。假设一个病例包含几种疾病,而每种疾病又包含相应的特征,可以得出:病历、疾病和特征词汇三者之问是概率依赖关系,其中,疾病是隐含变量,词汇是可观测变量。基于此,本文把M-N+模型应用到电子病历的分析上,通过建模病历、疾病和特征词汇三者之间的关系,找出病历中的疾病的特征分布。
一、定义病历-疾病分布向量以及疾病-特征分布向量:
设由M个病历文本组成病历语料库D={D1,D2,...,DM},Dm表示病历语料库D中的第m篇病历,m=1,2,...,M。设疾病集合S={S1,S2,...,SK},Sk表示疾病集合S中的第k种疾病,k=1,2,...,K,K表示疾病集合S中的疾病种类总数。设由病历语料库D中所有词语组成的词汇集V={V1,V2,...,VN},Vn表示词汇集V中的第n个词汇,n=1,2,...,N,N表示病历语料库D中词语的总数。
疾病-特征分布向量表示第k种疾病Sk生成不同特征词的概率,其中,表示第k种疾病Sk生成词汇集V中第n个词汇的Vn概率,表示分配给第k种疾病Sk的词汇集V中第n个词汇Vn的数量,表示所有分配给第k种疾病Sk的词汇总数。
二、M-N+模型学习
M-N+模型首先初始化病历一疾病分布和疾病-特征分布然后,通过遍历病历语料库D中的每篇病历文档和病历文档中的每个词,依据活动词w在疾病-特征分布中概率的变化情况来对病历-疾病分布和疾病-特征分布进行更新,具体的学习过程描述如下:
对于病历语料库D中的每篇病历文档,从病历-疾病分布中选择一种疾病Sk,使得Sk服从分布,其中,表示多项病历-疾病分布向量集。对于每篇病历文档中的每一个词汇,从疾病-特征分布中选择一个词Vn,使得Vn服从分布。
在M-N+模型中,为了推导出任意一个词汇w在任意一篇病历文档d中的概率,首先需要建立文档、疾病、词汇三者之间的联合概率公式,如式(1)所示:
式(1)中:P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率;θ表示文档属性,S表示疾病特征属性,W表示词汇属性,α、β为超参数;P(θ|α)表示文档属性的偏离率;sn表示疾病特征的离散量,P(sn|θ)表示文档属性与疾病特征拟合度;wn表示偏倚变量,P(wn|sn,β)表示特征拟合度的偏倚率;表示
因为式(1)是三维概率分布,计算词汇w的边缘概率,得到病历文档d生成词汇w的概率,如公式(2)所示:
式(2)中:P(w|α,β)表示特征拟合或然率。
根据式(2)遍历病历文档d中的每个词汇w。
式中:si表示疾病特征属性,wi表示偏倚变量,di表示病例文档,k表示吉布斯模型常量,P(si=k|si,wi,di)表示吉布斯模型;表示动态审敛矩阵;K表示疾病数量;表示静态审敛矩阵;W表示词汇属性;
本实施例的实验数据由中山大学一附属医院提供。选取了2016年到2021年内科住院电子病历63252份。病历主要内容结构包括病人基本信息、主诉、现病史、各项身体检查、诊断结果、治疗方法与过程等信息。
基于上述实验数据,本发明的技术方案进一步包括以下内容:
一、首先进行数据预处理
由于疾病的特征主要分布在主诉、现病史、检查结果和诊断中,为了排除无关信息的干扰,首先要对病历文档进行去隐私、去无用信息处理,仅保留病人基本信息、主诉、现病史、检查结果、诊断等包含疾病特征密度大的内容,然后再对数据进行离散化处理。
步骤1.数据离散化
病历文档中有的数据是连续的,如血压、体温、白细胞值等,如果对这些数据直接进行分词,得到的结果可能会是无用的,所以必须对连续性数据进行离散化处理。为了提高疾病特征的识别精度,离散化处理采用人工标注的形式进行,如病历中对病人血压的描述为“血压低压在66”,则标注成“血压低压65-70”。
步骤2.医学词表建立
与一般文本不同,病历文档中描述的疾病特征是由医学用语表述的。如果采用简单方式对病历文档进行分词,分词的结果不仅不能完整地表达特征含义,反而会影响到挖掘结果,所以保证医学用语的完整性是病历文本分词的重点,例如,“不发烧”和“血压低压65-70”等都是一个完整的症状描述,我们把这种描述病人状况的短语直接当作一个“词汇”。为了找出这样描述性短语,我们同样需要对离散化后的病历文档进行了人工标注,建立医学用语词表,以此作为分词工具的分词原则。
步骤3.病历分词
根据医学用语词典对处理后的电子病历文档进行分词并去除停用词,分词软件使用的是中科院分词软件ICTCLAS。分词结果存放在文本文件featureTxt中,每行存放一个电子病历文档。
二、其次再进行疾病数的优化
M-N+模型的疾病数设置是本发明的关键点,设置过大或过小都会影响到疾病特征的识别精度。本发明首先采用目前流行的贝叶斯方法来统计病历文档中最优的疾病数量K,计算公式如式(6)和式(7)所示。然后再把计算得到的疾病数量K作为M-N+模型的输入参数。
式中:P(w|s)表示病历-疾病分布概率;β表示超参数,Γ(Wβ)表示假词的共轭二项分布;Γ(β)表示假词的先验二项分布;表示自循环变量,表示假词的离散函数;ni表示拟态变量,Γ(ni+Wβ)表示真词的离散函数;M表示吉布斯采样次数;P(w|K)表示疾病-特征分布;s(i)表示特异性阈值范畴,p(w|s(i))表示特异性分布。
表示三、进行疾病识别结果
在M-N+模型中,疾病数量K通过最优化方法得到,超参数α和β分别设置为0.5/K和0.1。疾病特征阀值参数disWord设置为8,即每种疾病用生成概率最高的8个特征词来表示。在数据featureTxt上运行M-N+模型后,得到病历-疾病分布和疾病-特征分布两个分布矩阵,其中,通过疾病-特征分布可以得到疾病的特征分布。由于识别结果中包含疾病种类较多,为了便于模型的讲解,本实施例从中选择了六种疾病的特征分布,以此来说明M-N+模型生成疾病特征的概率分布,详情如图2所示。
四、最后进行预测准确率评价
为了验证本发明疾病特征识别准确性,把数据按十折交叉法分成10等份,以c4.5算法和ID3算法作为对比对象,分别在实验数据上进行实验,疾病特征识别准确率对比如图3所示,图3中本发明算法标记为M-N+。由图3可得,M-N+、C4.5和ID3三种算法的疾病特征识别准确率平均值分别为81.72%、79.74%和77.26%,所以M-N+算法的疾病特征识别准确率好于其它两种算法。
Claims (5)
1.一种基于M-N+模型的慢性疼痛特征识别系统,其特征在于,包括:
数据预处理模块,用于将电子病历文档进行预处理及分词后存入文本文件中;
M-N+模型:在文本文件上运行M-N+模型后,得到病历-疾病分布和疾病-特征分布两个分布矩阵,通过疾病-特征分布得到疾病的特征分布,其中,贝叶斯方法来统计电子病历文档中最优的疾病数量K,将计算得到的疾病数量K作为M-N+模型的输入参数,疾病数量K的计算公式如下式所示:
2.表示如权利要求1所述的一种基于M-N+模型的慢性疼痛特征识别系统,其特征在于,所述数据预处理模块包括:
数据过滤单元:用于去除电子病历文档中的隐私信息以及无用信息,仅保留包含疾病特征密度大的信息内容;
数据离散化单元:用于将经过数据过滤单元处理的数据中的连续性数据进行离散化处理;
分词单元:基于医学词表对经过数据离散化单元处理的数据进行分词处理,将分词后的结果存放在文本文件中,其中,对经过数据离散化单元处理的电子病历文档进行人工标注,以获得电子病历文档中出现的完整的医学用语,基于所获得的医学用语建立医学用语词表。
3.如权利要求1所述的一种基于M-N+模型的慢性疼痛特征识别系统,其特征在于,在所述M-N+模型中,建立文档、疾病、词汇三者之间的联合概率公式,如下式所示:
式(1)中:P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率;θ表示文档属性,S表示疾病特征属性,W表示词汇属性,α、β为超参数;P(θ|α)表示文档属性的偏离率;sn表示疾病特征的离散量,P(sn|θ)表示文档属性与疾病特征拟合度;wn表示偏倚变量,P(wn|sn,β)表示特征拟合度的偏倚率;
表示遍历病历文档d中的每个词汇w,计算词汇w的边缘概率,得到病历文档d生成词汇w的概率,如公式(2)所示:
式中,P(w|α,β)表示特征拟合或然率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211615353.3A CN115862844A (zh) | 2022-12-15 | 2022-12-15 | 基于m-n+模型的慢性疼痛特征识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211615353.3A CN115862844A (zh) | 2022-12-15 | 2022-12-15 | 基于m-n+模型的慢性疼痛特征识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115862844A true CN115862844A (zh) | 2023-03-28 |
Family
ID=85673255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211615353.3A Pending CN115862844A (zh) | 2022-12-15 | 2022-12-15 | 基于m-n+模型的慢性疼痛特征识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115862844A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117219226A (zh) * | 2023-10-19 | 2023-12-12 | 山东方格医疗器械有限公司 | 疼痛觉知自适应的镇痛药物自动调控装置 |
-
2022
- 2022-12-15 CN CN202211615353.3A patent/CN115862844A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117219226A (zh) * | 2023-10-19 | 2023-12-12 | 山东方格医疗器械有限公司 | 疼痛觉知自适应的镇痛药物自动调控装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109920501B (zh) | 基于卷积神经网络和主动学习的电子病历分类方法及系统 | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
CN107705839B (zh) | 疾病自动编码方法及系统 | |
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
CN117744654A (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN112489769A (zh) | 基于深度神经网络的慢性病智慧中医诊断与药物推荐系统 | |
CN113972010B (zh) | 一种基于知识图谱和自适应机制的辅助疾病推理系统 | |
CN117787282B (zh) | 基于大语言模型的医患文本智能提取方法 | |
CN116304114B (zh) | 基于外科护理的智能数据处理方法及系统 | |
RU2720363C2 (ru) | Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта | |
CN111128388B (zh) | 一种值域数据匹配方法、装置及相关产品 | |
CN113161013A (zh) | 一种可解释的基于文献知识图谱的药物不良反应发现方法 | |
CN115862844A (zh) | 基于m-n+模型的慢性疼痛特征识别系统 | |
CN113130025A (zh) | 一种实体关系抽取方法、终端设备及计算机可读存储介质 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN114780738A (zh) | 基于不同应用场景的医学影像检查项目名称标准化方法及系统 | |
Li et al. | Improved deep belief network model and its application in named entity recognition of Chinese electronic medical records | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及系统 | |
Cao et al. | The research on medical image classification algorithm based on PLSA-BOW model | |
CN113609360A (zh) | 一种基于场景化多源数据融合分析的方法和系统 | |
CN118335292A (zh) | 一种中医专病专方交互辅助系统 | |
CN112562809A (zh) | 一种基于电子病历文本进行辅助诊断的方法及系统 | |
CN117891958A (zh) | 一种基于知识图谱的标准数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |