CN110277167A

CN110277167A - 基于知识图谱的慢性非传染性疾病风险预测系统

Info

Publication number: CN110277167A
Application number: CN201910467618.1A
Authority: CN
Inventors: 王堃; 高子云; 朱娟; 杨璐; 孙雁飞; 亓晋; 岳东
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-24

Abstract

本发明提出了一种基于知识图谱的慢性非传染性疾病风险预测系统，针对慢性非传染性疾病早期不易被发现、发病时间长、患者呈现年轻化等特点，利用知识图谱可快速有效地获取相关知识及知识之间逻辑关系的优点，利用决策树算法、BP神经网络算法等核心技术构建知识图谱，更为方便精确地为用户提供疾病风险预测结果，以减小医疗体系压力。

Description

基于知识图谱的慢性非传染性疾病风险预测系统

技术领域

本发明涉及一种基于知识图谱的慢性非传染性疾病风险预测系统，属于知识图谱领域。

背景技术

慢性非传染性疾病近几年来发病率不仅连续上升，且呈现出年轻化的趋势。慢性病具有发病时间长、患病原因复杂、治疗费用高、患病范围广和致残致死率高等特点，且慢性病的疾病管理过程较为复杂。

而传统的从文献中抽取内容的方法已经无法满足当下人们对于获取知识的准确性、快捷性和有效性的要求，而知识图谱能够让科学知识以可视化的形式直观表达，帮助人们更方便、更深入地了解到所需内容。

有鉴于此，确有必要提出一种基于知识图谱的慢性非传染性疾病风险预测系统，以解决上述问题。

发明内容

本发明的目的在于提供一种基于知识图谱的慢性非传染性疾病风险预测系统，以针对性地对用户身体健康状况作出分析预测、对病情作出诊断和提供协助。

为实现上述目的，本发明提供了一种基于知识图谱的慢性非传染性疾病风险预测系统，与建立的慢性非传染性疾病知识图谱和医院信息系统相连，包括：

输入模块，供用户输入查询信息；

数据存储模块，存储有所述慢性非传染性疾病知识图谱中的实体、属性及实体与实体之间的关系以及所述医院信息系统中的多个患者的信息；

数据分析模块，分别与输入模块和数据存储模块相连，用于提取查询信息中的关键词并将数据存储模块中与关键词相关的内容进行整合分析，并根据分析结果预测患病风险率和患病类型；

输出模块，与数据分析模块相连，用于输出数据分析模块分析得出的患病风险率和患病类型，以供用户查阅。

可选的，包括数据更新模块，所述数据更新模块的输入端与所述数据分析模块相连、输出端与所述数据存储模块相连，用于接收所述数据分析模块分析过程中获得的新数据或新知识，并传送至所述数据存储模块进行存储。

可选的，包括数据收集模块，所述数据收集模块与所述数据存储模块相连，用于将所述基于知识图谱的慢性非传染性疾病风险预测系统收集到的新数据传送给所述数据存储模块进行存储。

可选的，包括用户接口模块，所述用户接口模块的输出端与所述输入模块的输入端相连，供用户输入个人信息并完成登录。

可选的，所述用户接口模块包括用户注册单元、用户认证单元和用户登录单元，所述用户注册单元与所述用户认证单元双向连接，以便传输个人信息和认证信息，所述用户认证单元与所述用户登录单元双向连接，以便传输登录信息和认证信息。

可选的，所述查询信息包括用户存储在所述医院信息系统中的疾病史数据和检验结果数据以及用户输入的症状信息。

可选的，所述实体包括疾病、症状、病因、生化检验数据标准、预防方法、治疗方法和药品。

可选的，所述慢性非传染性疾病知识图谱的建立包括以下步骤：

S1、知识表示：采用本体表示法描述慢性非传染性疾病知识图谱中实体的固有特征；

S2、知识抽取：从与慢性非传染性疾病相关的结构化数据、半结构化数据和纯文本数据中提取实体、关系及属性；

S3、知识融合：将各类结构化数据、半结构化数据和纯文本数据中的同一实体的相关信息进行融合，以消除歧义、避免重复和及时更新；

S4、知识推理：在已有知识基础上，挖掘出合理的推理规则，以进一步获得新的知识或结论；

S5、知识更新：根据知识图谱的逻辑结构及慢性非传染性疾病知识的更新发展，更新知识图谱，以形成新的慢性非传染性疾病知识图谱。

可选的，步骤S1具体包括：

S11、定义相关的类，并从超类出发寻找下面的子类，再以此推向下一层的子类；

S12、通过对象属性来描述类与类之间的关系；

S13、添加实体，并给各实体添加具体的数据属性。

可选的，步骤S4中采用基于神经网络的知识推理方法进行推理规则的挖掘。

本发明的有益效果是：本发明的基于知识图谱的慢性非传染性疾病风险预测系统，通过与建立的慢性非传染性疾病知识图谱和医院信息系统相连，从而可根据所述慢性非传染性疾病知识图谱中的实体、属性及实体与实体之间的关系以及所述医院信息系统中的多个患者的信息，来对用户输入的查询信息进行提取、整合分析，并根据分析结果预测患病风险率和患病类型，减小了医疗体系压力。

附图说明

图1是本发明基于知识图谱的慢性非传染性疾病风险预测系统的结构框图。

图2是本发明基于知识图谱的慢性非传染性疾病风险预测系统的使用方法流程图。

图3是本发明基于知识图谱的慢性非传染性疾病风险预测系统中关于数据处理的原理框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明揭示了一种基于知识图谱的慢性非传染性疾病风险预测系统，其与建立的慢性非传染性疾病知识图谱和医院信息系统(HIS)相连，用于根据用户输入的查询信息，来预测患病风险率和患病类型，并可为确诊患者提供改善病情的建议。

如图1所示，所述基于知识图谱的慢性非传染性疾病风险预测系统，包括：用户接口模块1、数据更新模块2、数据收集模块3、数据存储模块4、数据分析模块5、输入模块6和输出模块7。其中，用户接口模块1与输入模块6实现单向连接；数据更新模块2与数据存储模块4实现单向连接；数据分析模块5与数据更新模块2实现单向连接；数据收集模块3与数据存储模块4实现单向连接；数据存储模块4与数据分析模块5实现双向连接；输入模块6与数据分析模块5实现单向连接；数据分析模块5与输出模块7实现单向连接。

具体来讲，所述用户接口模块1的输出端与所述输入模块6的输入端相连，以供用户输入个人信息并完成登录。所述用户接口模块1包括用户注册单元a、用户认证单元b和用户登录单元c，其中，所述用户注册单元a与所述用户认证单元b双向连接，以便传输个人信息和认证信息，所述用户认证单元b与所述用户登录单元c双向连接，以便传输登录信息和认证信息。

较佳地，用户注册单元a的输入端提供用户输入个人信息的接口、输出端与用户认证单元b连接；用户认证单元b接收输入的个人信息后与各大医院信息系统(HIS)进行核对查看是否通过认证，并将认证信息以及用户的个人信息返还给用户注册单元a，用户注册单元a的输出端同时与用户登录单元c的输入端连接，自此，新用户即完成了注册的功能。

用户登录单元c与用户认证单元b实现双向连接，用户输入登录信息后，用户登录单元c的输出端将登录信息传送到用户认证单元b，用户认证单元b将认证结果返还给用户登录单元c，若认证信息为错误，则显示错误；若认证成功，用户接口模块1的输出端与输入模块6的输入端相连接，自此，用户即完成了登录的功能。

输入模块6用于供用户输入查询信息；较佳的，所述查询信息包括用户存储在所述医院信息系统(HIS)中的疾病史数据和检验结果数据、以及用户输入的症状信息。

数据存储模块4中存储有所述慢性非传染性疾病知识图谱中的实体、属性及实体与实体之间的关系以及所述医院信息系统中的多个患者的信息。具体地，实体包括疾病、症状、病因、生化检验数据标准、预防方法、治疗方法和药品；患者的信息包括姓名、性别、年龄、病史、用药史、住院史、生化检验数据和医嘱等等。

数据分析模块5分别与输入模块6和数据存储模块4相连，用于提取查询信息中的关键词并将数据存储模块4中与关键词相关的内容进行整合分析，并根据分析结果预测患病风险率和患病类型。较佳地，输入模块6的输出端与数据分析模块5的输入端相连接，数据分析模块5与数据存储模块4双向连接。

具体来讲，数据分析模块5包含的功能有：分析词频并提取输入内容关键词、整合相关内容进行简化、根据用户数据预测患病风险率、根据用户症状推测所患疾病、提供确诊患者改善病情建议等。其中：根据用户数据预测患病风险率这一功能，通过用户认证后关联到其所属各大医院信息系统(HIS)，将用户存储在HIS中的数据与所建知识图谱中存储的数据指标进行比对，根据所比对数据项的不达标项数量、各项权重等多方面，综合计算出用户患病的几率。

根据用户症状推测所患疾病这一功能，通过用户输入的症状，经数据分析模块5分析处理后，从数据存储模块4中查询出所有的包括该症状信息的疾病数据。提供确诊患者改善病情建议这一功能，根据用户存储在HIS中的疾病史数据和检验结果数据或用户输入的症状信息，在数据存储模块4中查询相对应疾病的改善方法。

输出模块7与数据分析模块5相连，用于输出数据分析模块5分析得出的患病风险率和患病类型，以供用户查阅。

如图2所示，本发明的使用流程为：用户登录以后，在输入模块6的输入界面输入查询信息，随后数据分析模块5提取出查询信息中的关键词，并传送给数据存储模块4，数据存储模块4提取出含有该关键词的相关内容并将其返还给数据分析模块5，数据分析模块5将相关内容进行整合分析，并将分析结果根据用户要求传送到输出模块7。

如图3所示，所述数据更新模块2的输入端与所述数据分析模块5相连、输出端与所述数据存储模块4相连，用于接收所述数据分析模块5分析过程中获得的新数据或新知识，并传送至所述数据存储模块4进行存储。所述数据收集模块3与所述数据存储模块4单向连接，用于将所述基于知识图谱的慢性非传染性疾病风险预测系统收集到的新数据传送给所述数据存储模块4进行存储。所述数据存储模块4与所述数据分析模块5双向连接，即数据存储模块4将数据分析模块5所需的数据进行传送。且数据分析模块5将分析结果中有价值的新数据传送到数据存储模块4进行存储。

因本发明中，基于知识图谱的慢性非传染性疾病风险预测系统与慢性非传染性疾病知识图谱和各大医院信息系统(HIS)相连，故以下说明书部分将对慢性非传染性疾病知识图谱的建立步骤做详细描述。

所述慢性非传染性疾病知识图谱的建立，主要包括以下步骤：

具体地，步骤S1包括：

S11、定义相关的类，并从超类出发寻找下面的子类，再以此推向下一层的子类；如：心脑血管疾病-心血管疾病-冠状动脉粥样硬化性心脏病-心绞痛。

与慢性非传染性疾病相关的类有：1)疾病类，如：心脑血管疾病、精神类疾病、恶性肿瘤、营养代谢性疾病等；2)症状类，如：眩晕、胸闷不适、头疼等；3)药品类，如：达美康、胰岛素、速效救心丸等；4)其他类。

S12、通过对象属性来描述类与类之间的关系；如：超类与子类之间的包含关系，疾病类与病因类的成因关系等。

S13、添加实体，并给各实体添加具体的数据属性。如：对于“糖尿病”实体，其中一个检验指标是空腹血糖大于或等于7.0mmol/L。

当然，如有需要，还可增加步骤S14、对属性增加约束条件，以对类间关系、类的性质进行限制。

步骤S2中不同数据类型的抽取方法也不同：结构化数据各项实体之间存在明确的对应关系，可直接利用D2R工具将其转化为RDF三元组数据；半结构化数据主要采用基于医学词典和规则的方法和基于医学数据源和数学模型的机器学习方法来进行实体抽取；纯文本数据主要采用自然语言处理(NLP)技术，先对数据进行基本特征抽取，如：词汇数量，字符数量，平均字长等；然后进行预处理，如：大小写转换，去除标点，词干抽取等；最后进行高级文本处理，如：计算词频、用户情感分析等。

对于半结构化数据而言，基于医学词典和规则的方法获取半结构化数据是通过正则表达式和正向最大匹配算法获得。

首先，通过正则表达式获取句子。正则表达式字面量形式使用斜杠(/)去包裹用于匹配的正则表达式；紧跟着第二个斜杠，可以写上模式修饰符：g-全局匹配；m-多行匹配；i-忽略大小写匹配。模式修饰符可以以任何顺序或组合出现。当我们调用方法时，使用正则表达式字面量可以帮助我们写出更加简洁的代码。字面量仅在第一次解析的时候创建一个对象，如果一个循环中创建相同的正则表达式，前面创建的对象将会被返回。

然后，将HanLP分词器导入内存，将RadLex元数据词典翻译成中文，并对RadLex元数据词典的分类进行细化，以得到改进的数据词典，并导入内存；HanLP分词器和改进的数据词典构成分词词典。

最后，将待查询的句子按照从左到右的最长匹配原则在分词词典中进行查找。假定分词词典中的最长词有i个汉字字符串，则用被处理文档的当前字符串中的前i个字作为匹配字段，查找词典。若此时分词词典中存在这样一个字符串，则匹配成功，而此时被匹配的字段切分出来。如果匹配失败，将匹配字段中的最后一个字去掉，对此时剩下的字符串重新与分词词典进行匹配，如此下去直到匹配成功。也即是：切分出一个词或剩余字串的长度为零为止，这个时候才是匹配了一轮，接着进行下一个汉字字符串的匹配，方法同上，直到文档被扫描完为止。

基于医学数据源和数学模型的机器学习方法获取半结构化数据的具体方法如下：对于词典中未出现的词，首先选取部分样本进行词性标注，再通过隐马尔可夫模型对海量的医学知识文本进行训练从而得到词向量，统计并计算未出现词与已标记词之间的相似度，通过比较相似度的大小来判断未出现词和已出现词之间的相似性。

隐马尔可夫模型在训练的时候需要三个参数，即(P,A,B)，其中P为先验概率，A为词性之间的状态转移概率矩阵，表示某一标注转移到下一个标注的概率；B为词到词的观察概率矩阵，表示在某个标注下，生成某个词的概率；通过分析语料库获得以上三个参数，统计每个出现的词的词性以及计算每个词出现的次数及其后续词性出现的次数和词性对应的词，通过以上统计信息可以训练出三个参数进而通过频率来计算概率。

步骤S2中，所述实体(即医学实体)包括疾病、症状、病因、生化检验数据标准、预防方法、治疗方法和药品。

所述关系抽取分为同类型医学实体关系抽取、不同类型医学实体关系抽取，以表示上述医学实体之间的语义关系(如分支关系、治疗关系、成因关系等)；可采用以卷积神经网络(CNNs)为代表的深度学习方法，运用到NLP技术中，从人工定义的复杂特征和规则中解放出来，避免自然语言处理过程中产生的错误。

步骤S2中，所述属性抽取是为医学实体构造属性列表，如：疾病的名称、疾病所属种类、药品名称和药品禁忌症等。对于慢性非传染性疾病知识图谱来说，应从主流医学站点进一步抽取。对于半结构化医学站点来说，构建面向站点的包装器，选择页面后写出选择器表达式来抽取网页中的元素。

步骤S3中知识融合的关键技术有实体对齐技术和实体链接技术。

实体对齐技术用于消除本体和数据源的异构性。慢性非传染性疾病的相关知识来源的多样性会产生数据格式不同、数据质量良莠不齐和部分数据重复等问题，因此需要进行实体对齐使多源异构数据中的实体指代一致。例如，达美康和格列齐特为同一种药物。

实体对齐算法有成对实体对齐与集体实体对齐两类。其中，成对实体对齐方法只考虑实例及其属性相似度，包括基于传统概率模型的实体对齐方法和基于机器学习的实体对齐方法。

基于机器学习的实体对齐方法分为无监督学习方法和有监督学习方法两种，无监督学习含有因缺乏数据给模型进行学习的缺点，会降低实体对齐的准确度。因此需要人工构造部分标注数据，让机器在标注数据上学习，得到更为有效的效果。即本发明主要采用有监督学习方法中的决策树算法，通过属性比较来判断实体匹配与否。

决策树算法的构建工作量相比较其他分类算法比较精简，找出实体之间区分度最大的属性，并以此为节点，如何定义和量化当前条件下影响最大的因素是构建决策树的关键。例如：血脂偏高是否是因为先天性基因缺陷而导致是继发性高脂血症和原发性高脂血症的区别。通过计算信息熵的方法，熵值越小代表决策树的节点有更好的区分度。以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。

同一医疗术语会有不同表现形式，如：中文全称、英文全称、英文缩写等。本发明利用实体链接技术把形式多样的慢性非传染性疾病医疗术语表现映射到标准的表现形式。实体链接方法主要分为两类：单实体链接和关联性实体链接。该慢性非传染性疾病知识图谱将上述两种方法结合。

单实体链接即只给定一个实体的名称，无实体上下文信息。针对标准的编辑距离算法在医疗知识方面的不足，可采用基于带阈值的加权编辑距离方法，给予计算编辑距离中不同操作以不同权重，结合实体形式设定不同阈值解决实体链接问题。

关联性实体链接主要针对文本中出现的大量实体，通过一定量的上下文信息提高实体链接的精确度。首先使用单实体链接方法选择候选实体，生成候选实体几何，进行学习排序；再利用如SVM Rank的方法将实体排序问题转换为偏序是否正确的二分类问题。

步骤S4中采用基于神经网络的知识推理方法进行推理规则的挖掘，这是因为：基于神经网络的知识推理方法相较传统的知识推理方法，具备更强的推理能力和泛化能力，对知识库中实体、属性、关系和文本信息的利用率更高，推理效果更好。

具体的，步骤S4中采用BP算法来进行推理，BP算法能够被用于解决大量实际问题，其学习过程可以分为工作信号的正向传播和误差信号的反向传播两个过程。主要步骤如下：

S41、确定BP神经网络结构，根据此前整理的实体属性、实体间关系，设置BP神经网络的输入层、隐含层和输出层各层的节点数；规定输入层输入向量、输入层输出向量、隐含层输入向量、隐含层输出向量、输出层输入向量和输出层输出向量的格式，以及每相邻两层节点间有向边的连接关系；

S42、根据相邻层连接节点的权重关系，初始化BP神经网络相关参数，包括各连接层之间的权值和阈值；

S43、根据输入向量和输入层、隐含层间连接权值及隐含层阈值计算隐含层输出，接着根据隐含层输出和隐含层、输出层间连接权值和输出层阈值计算神经网络预测输出；

S44、根据神经网络预测输出和期望输出，计算网络预测误差；

S45、判断误差是否符合要求；当输出结果达不到期望目标时，产生误差。若不满足要求，则进入误差信号反向阶段，误差信号从输出层开始依次向前一层传播，依据误差梯度下降方式对各层的权值进行调整，以使实际输出更接近于期望输出；

S46、判断迭代是否结束；根据实际输出与期望输出的差额计算全局误差，若全局误差满足期望误差，且尚未达到最大学习次数，则结束算法；否则返回S43。

步骤S5中知识图谱的更新主要包括模式层的更新与数据层的更新。模式层的更新是指本体中元素的更新，包括概念的增加、修改、删除，概念属性的更新以及概念之间上下位关系的更新等；数据层的更新指的是实体元素的更新，包括实体的增加、修改、删除，以及实体的基本信息和属性值。由于数据层的更新一般影响面较小，因此通常以自动的方式完成。

综上所述，本发明的基于知识图谱的慢性非传染性疾病风险预测系统，通过与建立的慢性非传染性疾病知识图谱和医院信息系统相连，从而可根据所述慢性非传染性疾病知识图谱中的实体、属性及实体与实体之间的关系以及所述医院信息系统中的多个患者的信息，来对用户输入的查询信息进行提取、整合分析，并根据分析结果预测患病风险率和患病类型，同时可为确诊患者提供改善病情的建议，减小了医疗体系压力。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于知识图谱的慢性非传染性疾病风险预测系统，与建立的慢性非传染性疾病知识图谱和医院信息系统相连，其特征在于，包括：

输入模块，供用户输入查询信息；

2.根据权利要求1所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于：还包括数据更新模块，所述数据更新模块的输入端与所述数据分析模块相连、输出端与所述数据存储模块相连，用于接收所述数据分析模块分析过程中获得的新数据或新知识，并传送至所述数据存储模块进行存储。

3.根据权利要求1所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于：还包括数据收集模块，所述数据收集模块与所述数据存储模块相连，用于将所述基于知识图谱的慢性非传染性疾病风险预测系统收集到的新数据传送给所述数据存储模块进行存储。

4.根据权利要求1所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于：还包括用户接口模块，所述用户接口模块的输出端与所述输入模块的输入端相连，供用户输入个人信息并完成登录。

5.根据权利要求4所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于：所述用户接口模块包括用户注册单元、用户认证单元和用户登录单元，所述用户注册单元与所述用户认证单元双向连接，以便传输个人信息和认证信息，所述用户认证单元与所述用户登录单元双向连接，以便传输登录信息和认证信息。

6.根据权利要求1所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于：所述查询信息包括用户存储在所述医院信息系统中的疾病史数据和检验结果数据以及用户输入的症状信息。

7.根据权利要求1所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于：所述实体包括疾病、症状、病因、生化检验数据标准、预防方法、治疗方法和药品。

8.根据权利要求1所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于，所述慢性非传染性疾病知识图谱的建立包括以下步骤：

9.根据权利要求8所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于，步骤S1具体包括：

S12、通过对象属性来描述类与类之间的关系；

S13、添加实体，并给各实体添加具体的数据属性。

10.根据权利要求8所述的基于知识图谱的慢性非传染性疾病风险预测系统，其特征在于：步骤S4中采用基于神经网络的知识推理方法进行推理规则的挖掘。