CN115862844A

CN115862844A - 基于m-n+模型的慢性疼痛特征识别系统

Info

Publication number: CN115862844A
Application number: CN202211615353.3A
Authority: CN
Inventors: 缪长虹; 陈万坤; 吴晗; 陈昭媛; 蒋怡; 高沈佳
Original assignee: Zhongshan Hospital Fudan University
Current assignee: Zhongshan Hospital Fudan University
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-28

Abstract

本发明公开了一种基于M‑N+模型的慢性疼痛特征识别系统。本发明能够通过自反馈的形式形成数据闭环，并基于既定场景设定瀑布流对高维的慢性疼痛相关因素集进行清洗、提取和标化，最终实现慢性疼痛特征高效率的精准辨析。本发明能同时建模慢痛患者病历、慢性疼痛、慢痛患者特征三者之间的关系，得出病历－疾病和疾病－特征两个分布矩阵，从而达到疾病特征识别的目的。实验表明，本发明的疾病特征识别准确率高于ID3算法和C4.5算法，达到了良好的慢性疼痛疾病特征识别效果。

Description

基于M-N+模型的慢性疼痛特征识别系统

技术领域

本发明涉及一种基于M-N+模型的慢性疼痛特征识别技术，实现慢性疼痛特征高效率的精准辨析。

背景技术

慢性疼痛疾病特征是医生用来诊断疼痛类别和级别的主要依据，它主要包含在病历的主诉和各项检查内容里，如何高效地从海量电子病历中找出慢性疼痛疾病特征从而辅助诊断一直以来都是慢痛数据挖掘的研究热点。

慢痛特征识别就是指从数据集中识别出某类事物最具代表性特征子集的过程，其原理主要是通过度量不同特征与类别的相关程度，实现在高维特征中选取与类别相关度高的特征子集。一般特征识别的方法包括三类：过滤法(Filter)、嵌入法(Embeded)和包装法(Wrapper)。过滤法与学习算法相互独立，通过过滤数据集来识别特征子集。嵌入法把特征识别与学习过程同时进行，在训练过程中，选择最优特征。包装法将学习算法作为特征选择的一部分。过滤法是最常用的特征识别方法，它的主要原理是通过样本数据的内在联系来评价特征的权重，如信息增益、相关系数等。虽然这些方法在麻痛疾病特征提取方面起到了一定的作用，但是由于慢性疼痛患者病历数据离散化程度高，描述语言标准不统一，给疾病特征的提取带来了一定的困难，降低了疾病特征识别准确率。

发明内容

本发明要解决的技术问题是：目前基于病历的慢性疼痛疾病特征提取方法有很多，但是这些方法存在病历数据离散化程度高、描述语言标准不统一、疾病特征的提取困难等问题。

为了解决上述技术问题，本发明的技术方案是提供了一种基于M-N+模型的慢性疼痛特征识别系统，其特征在于，包括：

数据预处理模块，用于将电子病历文档进行预处理及分词后存入文本文件中；

M-N+模型：在文本文件上运行M-N+模型后，得到病历－疾病分布

和疾病－特征分布

两个分布矩阵，通过疾病－特征分布

得到疾病的特征分布，其中，贝叶斯方法来统计电子病历文档中最优的疾病数量K，将计算得到的疾病数量K作为M-N+模型的输入参数，疾病数量K的计算公式如下式所示：

式中：P(w|s)表示病历-疾病分布概率；β表示超参数，Γ(Wβ)表示假词的共轭二项分布；Γ(β)表示假词的先验二项分布；

表示自循环变量，

表示假词的离散函数；n_i表示拟态变量，Γ(n_i+Wβ)表示真词的离散函数；M表示吉布斯采样次数；P(w|K)表示疾病-特征分布；s⁽ⁱ⁾表示特异性阈值范畴，p(w|s⁽ⁱ⁾)表示特异性分布。

优选地，所述数据预处理模块包括：

数据过滤单元：用于去除电子病历文档中的隐私信息以及无用信息，仅保留包含疾病特征密度大的信息内容；

数据离散化单元：用于将经过数据过滤单元处理的数据中的连续性数据进行离散化处理；

分词单元：基于医学词表对经过数据离散化单元处理的数据进行分词处理，将分词后的结果存放在文本文件中，其中，对经过数据离散化单元处理的电子病历文档进行人工标注，以获得电子病历文档中出现的完整的医学用语，基于所获得的医学用语建立医学用语词表。

优选地，在所述M-N+模型中，建立文档、疾病、词汇三者之间的联合概率公式，如下式所示：

式(1)中：P(θ，S，W|α，β)表示文档、疾病、词汇三者之间的联合概率；θ表示文档属性，S表示疾病特征属性，W表示词汇属性，α、β为超参数；P(θ|α)表示文档属性的偏离率；s_n表示疾病特征的离散量，P(s_n|θ)表示文档属性与疾病特征拟合度；w_n表示偏倚变量，P(w_n|s_n，β)表示特征拟合度的偏倚率；

遍历病历文档d中的每个词汇w，计算词汇w的边缘概率，得到病历文档d生成词汇w的概率，如公式(2)所示：

式中，P(w|α，β)表示特征拟合或然率。

优选地，所述M-N+模型训练病历-疾病分布

和疾病-特征分布

时，采用如下式所示的吉布斯采样：

式中：s_i表示疾病特征属性，w_i表示偏倚变量，d_i表示病例文档，k表示吉布斯模型常量，P(s_i＝k|s_i，w_i，d_i)表示吉布斯模型；

表示动态审敛矩阵；K表示疾病数量；

表示静态审敛矩阵；W表示词汇属性；

对病历-疾病分布

和疾病一特征分布

进行m×n次迭代，最终得到稳定的病历-疾病分布

和疾病-特征分布

优选地，每次吉布斯采样中，病历-疾病分布

中的隐马尔科夫链都会动态更新，更新公式如下式所示：

式中：θ_m，s表示病历-疾病隐马尔科夫分布；

表示s维度下的豫解核变量；α_s表示正向超参数序列，

表示疾病-特征隐马尔科夫分布；

表示n维度下的豫解核变量；β_n表示负向超参数序列；V表示随机最优控制常数。

本发明能够通过自反馈的形式形成数据闭环，并基于既定场景设定瀑布流对高维的慢性疼痛相关因素集进行清洗、提取和标化，最终实现慢性疼痛特征高效率的精准辨析。本发明能同时建模慢痛患者病历、慢性疼痛、慢痛患者特征三者之间的关系，得出病历-疾病和疾病-特征两个分布矩阵，从而达到疾病特征识别的目的。实验表明，本发明的疾病特征识别准确率高于ID3算法和C4.5算法，达到了良好的慢性疼痛疾病特征识别效果。

与现有技术相比，本发明具有如下有益效果：

一)能从疼痛患者病例档案和多源多模态采集终端获取高维海量数据，对获取的数据进行管理、整合、分析和利用，通过数据挖掘和分析，探寻不同风险疼痛患者的差异化干预节点，制定个体化组合干预优化策略和持续改进的方案；

二)从多个不同等级业务系统中采集海量数据进行清洗、实现虚拟化存储，并构建慢性疼痛疾病管理机器人专有数据DWH；

三)通过数据挖掘技术从大量的多源数据中通过算法探索隐藏于其中的靶点信息。

附图说明

图1示意了概率生成关系；

图2示意了M-N+模型生成疾病特征的概率分布；

图3为疾病特征识别准确率对比图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明基于M-N+模型实现。M-N+模型是一种360度无死角的病例属性表征生成模型。该模型通过训练病例文档-表征属性、表征属性-词汇两个分布来识别病例相关因素库中潜在的表征属性。模型在训练时不需要属性标签，避免了人工标注。M-N+模型的核心原理是：病例文档以特定的概率生成某个表征属性，而表征属性又以特定的概率生成某关键因素。所以，病例文档中的元数据服从主题的多项式分布，主题服从词的多项式分布，其概率生成关系如图1所示。

M-N+模型把病例文档看作为元词袋，不考虑词与词之间的逻辑与顺序关系。M-N+模型中各参数的含义如下表1所示。

表1

由于w是可观测变量，主题z是隐含变量，词汇w依赖于主题z，而主题z依赖于病例文档一表征属性分布0，所以，病例文档d生成表征词汇w的概率为P(w|d)＝P(z|d)P(w|z)。

本发明以疾病为中心通过M-N+模型建模病历、疾病和特征三者之间的依赖关系，并根据病历文档生成疾病、疾病生成特征的概率生成原理学习慢性疼痛病历档案-慢性疼痛和慢性疼痛-慢性疼痛特征两个分布，从而高效地识别出慢性疼痛疾病的特征分布，具体包括以下内容：

患者病历记录了患者诊疗过程的相关信息，一般以文字的形式描述。假设一个病例包含几种疾病，而每种疾病又包含相应的特征，可以得出：病历、疾病和特征词汇三者之问是概率依赖关系，其中，疾病是隐含变量，词汇是可观测变量。基于此，本文把M-N+模型应用到电子病历的分析上，通过建模病历、疾病和特征词汇三者之间的关系，找出病历中的疾病的特征分布。

一、定义病历-疾病分布向量以及疾病-特征分布向量：

设由M个病历文本组成病历语料库D＝{D₁，D₂，...，D_M}，D_m表示病历语料库D中的第m篇病历，m＝1，2，...，M。设疾病集合S＝{S₁，S₂，...，S_K}，S_k表示疾病集合S中的第k种疾病，k＝1，2，...，K，K表示疾病集合S中的疾病种类总数。设由病历语料库D中所有词语组成的词汇集V＝{V₁，V₂，...，V_N}，V_n表示词汇集V中的第n个词汇，n＝1，2，...，N，N表示病历语料库D中词语的总数。

则有病历-疾病分布向量

其中，

表示病历D_m生成第k种疾病的概率，

表示病历D_m中分配给第k种疾病S_k的词的数量，

表病历D_m中所有词的总数。

疾病-特征分布向量

表示第k种疾病S_k生成不同特征词的概率，其中，

表示第k种疾病S_k生成词汇集V中第n个词汇的V_n概率，

表示分配给第k种疾病S_k的词汇集V中第n个词汇V_n的数量，

表示所有分配给第k种疾病S_k的词汇总数。

二、M-N+模型学习

M-N+模型首先初始化病历一疾病分布

和疾病-特征分布

然后，通过遍历病历语料库D中的每篇病历文档和病历文档中的每个词，依据活动词w在疾病-特征分布

中概率的变化情况来对病历-疾病分布

和疾病-特征分布

进行更新，具体的学习过程描述如下：

对于病历语料库D中的每篇病历文档，从病历-疾病分布

中选择一种疾病S_k，使得S_k服从

分布，其中，

表示多项病历-疾病分布向量集。对于每篇病历文档中的每一个词汇，从疾病-特征分布

中选择一个词V_n，使得V_n服从

分布。

在M-N+模型中，为了推导出任意一个词汇w在任意一篇病历文档d中的概率，首先需要建立文档、疾病、词汇三者之间的联合概率公式，如式(1)所示：

式(1)中：P(θ，S，W|α，β)表示文档、疾病、词汇三者之间的联合概率；θ表示文档属性，S表示疾病特征属性，W表示词汇属性，α、β为超参数；P(θ|α)表示文档属性的偏离率；s_n表示疾病特征的离散量，P(s_n|θ)表示文档属性与疾病特征拟合度；w_n表示偏倚变量，P(w_n|s_n，β)表示特征拟合度的偏倚率；表示

因为式(1)是三维概率分布，计算词汇w的边缘概率，得到病历文档d生成词汇w的概率，如公式(2)所示：

式(2)中：P(w|α，β)表示特征拟合或然率。

根据式(2)遍历病历文档d中的每个词汇w。

训练病历-疾病分布

和疾病-特征分布

吉布斯采样公式如(3)所示：

表示动态审敛矩阵；K表示疾病数量；

表示静态审敛矩阵；W表示词汇属性；

每次采样中，病历-疾病分布

中的隐马尔科夫链都会动态更新，更新公式如式(4)和式(5)所示：

式中：θ_m，s表示病历-疾病隐马尔科夫分布；

表示s维度下的豫解核变量；α_s表示正向超参数序列，

表示疾病-特征隐马尔科夫分布；

通过公式(3)对病历-疾病分布

和疾病-特征分布

进行m×n次迭代，最终得到稳定的病历-疾病分布

和疾病-特征分布

本实施例的实验数据由中山大学一附属医院提供。选取了2016年到2021年内科住院电子病历63252份。病历主要内容结构包括病人基本信息、主诉、现病史、各项身体检查、诊断结果、治疗方法与过程等信息。

基于上述实验数据，本发明的技术方案进一步包括以下内容：

一、首先进行数据预处理

由于疾病的特征主要分布在主诉、现病史、检查结果和诊断中，为了排除无关信息的干扰，首先要对病历文档进行去隐私、去无用信息处理，仅保留病人基本信息、主诉、现病史、检查结果、诊断等包含疾病特征密度大的内容，然后再对数据进行离散化处理。

步骤1.数据离散化

病历文档中有的数据是连续的，如血压、体温、白细胞值等，如果对这些数据直接进行分词，得到的结果可能会是无用的，所以必须对连续性数据进行离散化处理。为了提高疾病特征的识别精度，离散化处理采用人工标注的形式进行，如病历中对病人血压的描述为“血压低压在66”，则标注成“血压低压65-70”。

步骤2.医学词表建立

与一般文本不同，病历文档中描述的疾病特征是由医学用语表述的。如果采用简单方式对病历文档进行分词，分词的结果不仅不能完整地表达特征含义，反而会影响到挖掘结果，所以保证医学用语的完整性是病历文本分词的重点，例如，“不发烧”和“血压低压65-70”等都是一个完整的症状描述，我们把这种描述病人状况的短语直接当作一个“词汇”。为了找出这样描述性短语，我们同样需要对离散化后的病历文档进行了人工标注，建立医学用语词表，以此作为分词工具的分词原则。

步骤3.病历分词

根据医学用语词典对处理后的电子病历文档进行分词并去除停用词，分词软件使用的是中科院分词软件ICTCLAS。分词结果存放在文本文件featureTxt中，每行存放一个电子病历文档。

二、其次再进行疾病数的优化

M-N+模型的疾病数设置是本发明的关键点，设置过大或过小都会影响到疾病特征的识别精度。本发明首先采用目前流行的贝叶斯方法来统计病历文档中最优的疾病数量K，计算公式如式(6)和式(7)所示。然后再把计算得到的疾病数量K作为M-N+模型的输入参数。

表示自循环变量，

表示三、进行疾病识别结果

在M-N+模型中，疾病数量K通过最优化方法得到，超参数α和β分别设置为0.5/K和0.1。疾病特征阀值参数disWord设置为8，即每种疾病用生成概率最高的8个特征词来表示。在数据featureTxt上运行M-N+模型后，得到病历-疾病分布

和疾病-特征分布

两个分布矩阵，其中，通过疾病-特征分布

可以得到疾病的特征分布。由于识别结果中包含疾病种类较多，为了便于模型的讲解，本实施例从中选择了六种疾病的特征分布，以此来说明M-N+模型生成疾病特征的概率分布，详情如图2所示。

四、最后进行预测准确率评价

为了验证本发明疾病特征识别准确性，把数据按十折交叉法分成10等份，以c4.5算法和ID3算法作为对比对象，分别在实验数据上进行实验，疾病特征识别准确率对比如图3所示，图3中本发明算法标记为M-N+。由图3可得，M-N+、C4.5和ID3三种算法的疾病特征识别准确率平均值分别为81.72％、79.74％和77.26％，所以M-N+算法的疾病特征识别准确率好于其它两种算法。

Claims

1.一种基于M-N+模型的慢性疼痛特征识别系统，其特征在于，包括：

和疾病－特征分布

两个分布矩阵，通过疾病－特征分布

式中：P(w|s)表示病历－疾病分布概率；β表示超参数，Γ(Wβ)表示假词的共轭二项分布；Γ(β)表示假词的先验二项分布；

表示自循环变量，

表示假词的离散函数；n_i表示拟态变量，Γ(n_i+β)表示真词的离散函数；M表示吉布斯采样次数；P(w|K)表示疾病－特征分布；s⁽⁾表示特异性阈值范畴，p(w|s⁽⁾)表示特异性分布。

2.表示如权利要求1所述的一种基于M-N+模型的慢性疼痛特征识别系统，其特征在于，所述数据预处理模块包括：

3.如权利要求1所述的一种基于M-N+模型的慢性疼痛特征识别系统，其特征在于，在所述M-N+模型中，建立文档、疾病、词汇三者之间的联合概率公式，如下式所示：

式(1)中：P(θ,S,W|α,β)表示文档、疾病、词汇三者之间的联合概率；θ表示文档属性，S表示疾病特征属性，W表示词汇属性，α、β为超参数；P(θ|α)表示文档属性的偏离率；s_n表示疾病特征的离散量，P(s_n|θ)表示文档属性与疾病特征拟合度；w_n表示偏倚变量，P(w_n|s_n,β)表示特征拟合度的偏倚率；

表示遍历病历文档d中的每个词汇w，计算词汇w的边缘概率，得到病历文档d生成词汇w的概率，如公式(2)所示：