Nothing Special   »   [go: up one dir, main page]

CN111414393B - 一种基于医学知识图谱的语义相似病例检索方法及设备 - Google Patents

一种基于医学知识图谱的语义相似病例检索方法及设备 Download PDF

Info

Publication number
CN111414393B
CN111414393B CN202010221246.7A CN202010221246A CN111414393B CN 111414393 B CN111414393 B CN 111414393B CN 202010221246 A CN202010221246 A CN 202010221246A CN 111414393 B CN111414393 B CN 111414393B
Authority
CN
China
Prior art keywords
case
entity
similarity
matching
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010221246.7A
Other languages
English (en)
Other versions
CN111414393A (zh
Inventor
武学鸿
李建华
费耀平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN CREATOR INFORMATION TECHNOLOGIES CO LTD
Original Assignee
HUNAN CREATOR INFORMATION TECHNOLOGIES CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN CREATOR INFORMATION TECHNOLOGIES CO LTD filed Critical HUNAN CREATOR INFORMATION TECHNOLOGIES CO LTD
Priority to CN202010221246.7A priority Critical patent/CN111414393B/zh
Publication of CN111414393A publication Critical patent/CN111414393A/zh
Application granted granted Critical
Publication of CN111414393B publication Critical patent/CN111414393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于医学知识图谱的语义相似病例检索方法及设备,所述方法包括步骤:获取符合病例内容规范要求的电子病例;对所述电子病例文本进行结构化处理,并结合医学知识图谱对其得到具有统一规范术语的结构化电子病例;结合内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度;根据所计算的相似度高低对库中病例进行排序并输出。本发明结合医学知识图谱对齐和根据知识图谱的语义网络构建语义相似度计算模型计算出结构化电子病例与库中病例的相似度,既考虑了匹配的数量、也考虑匹配的度量值,从而使相似度的定义为不仅要匹配的多,而且还匹配的准,提高了相似病例匹配的粒度要求和准确性。

Description

一种基于医学知识图谱的语义相似病例检索方法及设备
技术领域
本发明涉及相似病例检索领域,特别地,涉及一种基于医学知识图谱的语义相似病例检索方法及设备。
背景技术
随着计算机技术的发展,检索已经成为日常生活中获取信息普遍使用的手段。在医疗领域,相似病例检索在科研、临床上具有重大意义,相似病例不仅可以辅助医生基于过去相似病例对当前病例作出更好的诊断分析,提高诊断准确率,还可以通过相似病例的治疗方案制定出当前病例的治疗计划,缩短患者的治愈周期,提高治疗效率。
知识图谱又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。随着知识图谱提出与建立,能够更方便地、清晰地、准确地搜索和查询信息,越来越多行业在建立各行业的专业知识图谱,如医学知识图谱。
传统的相似病例检索方法是根据提取输入文本中的医学特征到库中进行查找,并返回匹配的相似病例,但是由于医学特征之间的复杂关系,往往容易造成定义不精准,导致检索粒度较粗,检索不准确的问题。
发明内容
本发明提供了一种基于医学知识图谱的语义相似病例检索方法,以解决现有相似病例检索时定义不精准、检索粒度较粗、检索不准确的问题。
本发明采用的技术方案如下:
一种基于医学知识图谱的语义相似病例检索方法,包括步骤:
获取符合病例内容规范要求的电子病例;
对所述电子病例文本进行结构化处理,并结合医学知识图谱对其得到具有统一规范术语的结构化电子病例;
结合内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度;
根据所计算的相似度高低对库中病例进行排序并输出。
作为一可行实施例,所述符合病例内容规范要求的电子病例包括患者基本信息及基本健康信息,所述患者基本信息包括患者姓名、性别、年龄及婚姻情况,所述基本健康信息包括主诉、现病史、既往史、个人史、家族史、体格检查。
作为一可行实施例,所述结合医学知识图谱对所述电子病例文本进行结构化处理,得到具有统一规范术语的结构化电子病例具体包括步骤:
利用实体提取模型从患者基本健康信息中提取出医学实体;
将所提取的医学实体与所述医学知识图谱进行对齐与标准化,将非专业术语表达与专业术语表达对齐,得到具有标准术语的医学实体;
根据预设的实体类别对所述具有标准术语的医学实体进行分类,得到具有统一规范术语的结构化电子病例。
作为一可行实施例,所述实体提取模型采用命名实体识别模型bilstm-crf,并基于电子病例文本进行训练学习;所述将所提取的医学实体与所述医学知识图谱进行对齐与标准化时采用基于编解码技术的翻译模型bilstm-attention,并基于医学知识图谱中统一规范的医学术语体系进行训练学习。
作为一可行实施例,所述预设的实体类别通过若干类医学临床特征并根据实体的不同来源及实体的阴性阳性进行分类所得,包括:主诉症状、主诉体征、非主诉症状、非主诉体征、当前疾病、历史疾病、当前诱因、历史诱因、家族疾病、当前用药、历史用药、当前手术、历史手术、当前检查项目、历史检查项目、当前检查结果、历史检查结果、当前检验项目、历史检验项目、当前检验结果、历史检验结果、当前体格检查、历史体格检查、当前职业、历史职业、体质、身体状态,所述若干类医学临床特征包括主诉症状、主诉体征、非主诉症状、非主诉体征、疾病、诱因、手术、用药、身体状态、体质、职业、体格检查、检查项目、检查结果、检验项目、检验结果,所述实体的阴性阳性表示实体的有无情况,阳性表示有,阴性表示无。
作为一可行实施例,所述根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度具体包括步骤:
计算所述结构化电子病例与库中病例的内容匹配度,所述内容匹配度由结构化电子病例与库中病例的实体匹配分数除以结构化电子病例的实体总分数所得:
Figure GDA0002892229120000031
其中,M代表内容匹配度,S1表示结构化病例与库中病例的实体匹配分数,S2表示结构化电子病例的实体总分数,w代表实体类别权重,m代表实体类型总数,i表当前遍历的实体类型序数,n代表第i个实体类型对应的实体总数,j表当前遍历的实体序数,f为匹配因子,代表实体匹配的结果,取值为0~1,完全匹配成功则匹配因子等于1,完全匹配失败则匹配因子为0,其中,任意两个实体之间的匹配因子f基于医学知识图谱中实体与实体之间的从属关系而形成的树状结构计算得到:
fab=1/(1+n)
其中,n是从实体a往根节点寻找到b或者从实体b往根节点寻找到a的距离,若未找到则表示距离n无穷大,则实体a与实体b之间匹配因子为0,若a就是b,则距离n为0,则匹配因子为1;
计算所述结构化电子病例与库中病例的规模相近度,计算公式为:
C=N1/N2,N2≥N1
其中C代表规模相近度,N1代表实体个数较少的病例实体总数,N2代表实体个数较多的病例实体总数;
计算得出所述结构化电子病例与库中病例的相似度,计算公式为
Figure GDA0002892229120000041
作为一可行实施例,所述根据所计算的相似度高低对库中病例进行排序并输出包括:
根据所计算的相似度获取库中病例与所述结构化电子病例相似度从高到低的病例列表;
遍历所述病例列表,根据预设的相似度阈值t对所述病例列表进行过滤,将相似度大于或等于所述相似度阈值t的库中病例按顺序存入最终返回列表中并进行输出。
一种基于医学知识图谱的语义相似病例检索装置,包括:
病例获取模块,用于获取符合病例内容规范要求的电子病例;
病例结构化模块,用于结合医学知识图谱对所述电子病例文本进行结构化处理,得到具有统一规范术语的结构化电子病例;
相似度计算模块,用于根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度;
输出模块,用于根据所计算的相似度高低对库中病例进行排序并输出。
一种存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在的设备执行如所述基于医学知识图谱的语义相似病例检索方法。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述基于医学知识图谱的语义相似病例检索方法。
相比现有技术,本发明具有以下有益效果:
本发明通过实体提取模型提取病例内容的临床表现信息,结合医学知识图谱对所述电子病例文本进行结构化处理得到具有统一规范术语的结构化电子病例,以及根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度来获取库中相似病例并输出,从而确保从非结构化病例到结构化病例转化的正确性和规范性,同时,由于根据知识图谱的语义网络构建语义相似度计算模型计算出结构化电子病例与库中病例的相似度,既考虑了匹配的数量、也考虑匹配的度量值,从而使相似度的定义为不仅要匹配的多,而且还匹配的准,提高相似病例匹配的粒度要求和准确性。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的基于医学知识图谱的语义相似病例检索方法流程示意图。
图2是患者电子病例的基本健康信息样例。
图3是本发明优选实施例对患者电子病例进行结构化提取示意图。
图4是本发明优选实施例对结构化电子病例规范化处理效果示意图。
图5是本发明优选实施例输出相似病例界面示意图。
图6是医学知识图谱中实体之间的从属关系树状结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
如图1所示,一种基于医学知识图谱的语义相似病例检索方法,包括步骤:
S1、获取符合病例内容规范要求的电子病例;
S2、对所述电子病例文本进行结构化处理,并结合医学知识图谱对其得到具有统一规范术语的结构化电子病例;
S3、根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度;
S4、根据所计算的相似度高低对库中病例进行排序并输出。
本实施例通过实体提取模型提取病例内容的临床表现信息,结合医学知识图谱对所述电子病例文本进行结构化处理得到具有统一规范术语的结构化电子病例,以及根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度来获取库中相似病例并输出,从而确保从非结构化病例到结构化病例转化的正确性和规范性,同时,由于根据知识图谱的语义网络构建语义相似度计算模型计算出结构化电子病例与库中病例的相似度,既考虑了匹配的数量、也考虑匹配的度量值,从而使相似度的定义为不仅要匹配的多,而且还匹配的准,提高相似病例匹配的粒度要求和准确性。
作为一可行实施例,如表1所示,所述符合病例内容规范要求的电子病例包括患者基本信息及基本健康信息,所述患者基本信息包括患者姓名、性别、年龄、婚姻情况和职业,所述基本健康信息包括主诉、现病史、既往史、个人史、家族史、体格检查。其中患者基本信息为结构化信息,而基本健康信息为非结构化文本,需要进一步的结构化提取。
表1患者基本信息和基本健康信息
Figure GDA0002892229120000071
电子病例中基本健康信息样例如图2所示,由于基本健康信息为非结构化文本,需要进一步的结构化提取。
作为一可行实施例,所述结合医学知识图谱对所述电子病例文本进行结构化处理,得到具有统一规范术语的结构化电子病例具体包括步骤:
S21、利用实体提取模型从患者基本健康信息中提取出医学实体,所述实体提取模型采用命名实体识别模型bilstm-crf,并基于电子病例文本进行训练学习;
S22、将所提取的医学实体与所述医学知识图谱进行对齐与标准化,将非专业术语表达与专业术语表达对齐,得到具有标准术语的医学实体,所述将所提取的医学实体与所述医学知识图谱进行对齐与标准化时采用基于编解码技术的翻译模型bilstm-attention,并基于医学知识图谱中统一规范的医学术语体系进行训练学习;
S23、根据预设的实体类别对所述具有标准术语的医学实体进行分类,得到具有统一规范术语的结构化电子病例。
如表2所示,所述预设的实体类别通过若干类医学临床特征并根据实体的不同来源及实体的阴性阳性进行分类所得,包括:主诉症状、主诉体征、非主诉症状、非主诉体征、当前疾病、历史疾病、当前诱因、历史诱因、家族疾病、当前用药、历史用药、当前手术、历史手术、当前检查项目、历史检查项目、当前检查结果、历史检查结果、当前检验项目、历史检验项目、当前检验结果、历史检验结果、当前体格检查、历史体格检查、当前职业、历史职业、体质、身体状态,所述若干类医学临床特征包括主诉症状、主诉体征、非主诉症状、非主诉体征、疾病、诱因、手术、用药、身体状态、体质、职业、体格检查、检查项目、检查结果、检验项目、检验结果,所述实体的阴性阳性表示实体的有无情况,阳性表示有,阴性表示无。
表2结构化提取的实体类别
Figure GDA0002892229120000081
Figure GDA0002892229120000091
上述实施例中,结构化提取过程主要分为两步,第一步,从患者基本健康信息中提取出实体;第二步按照表2的分类规则,对提取出的实体进行分类。
对患者基本健康信息进行结构化提取后,得到如图3所示的提取结果。
为了对提取的实体进行规范处理,所有的实体都将进一步的结构化与对齐(将非专业术语表达与专业术语表达对齐,而知识图谱中的所有实体是采用专业术语表示)处理,规范化处理效果如图4所示,将实体转换为JSON格式的结构化效果,其次由于知识图谱中没有“再次出现”术语,我们通过对齐,将其转换为医学知识图谱中标准的术语,描述为“反复”。当所有实体提取并且规范化处理后,则按照表2提供的分类方式,对所有实体进行分类组织,得到最终得到结构化的、术语规范的电子病例。
作为一可行实施例,所述根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度具体包括步骤:
计算所述结构化电子病例与库中病例的内容匹配度,所述内容匹配度由结构化电子病例与库中病例的实体匹配分数除以结构化电子病例的实体总分数所得:
Figure GDA0002892229120000101
其中,M代表内容匹配度,S1表示结构化病例与库中病例的实体匹配分数,S2表示结构化电子病例的实体总分数,w代表实体类别权重,m代表实体类型总数,i表当前遍历的实体类型序数,n代表第i个实体类型对应的实体总数,j表当前遍历的实体序数,f为匹配因子,代表实体匹配的结果,取值为0~1,完全匹配成功则匹配因子等于1,完全匹配失败则匹配因子为0,其中,在知识图谱中实体与知识之间存在从属关系,从而形成了一个树状结构,如图6所示,因此,任意两个实体之间的匹配因子f基于医学知识图谱中实体与实体之间的从属关系而形成的树状结构计算得到:
fab=1/(1+n)
其中,n是从实体a往根节点寻找到b或者从实体b往根节点寻找到a的距离,若未找到则表示距离n无穷大,则实体a与实体b之间匹配因子为0,若a就是b,则距离n为0,则匹配因子为1,在图6所示的树状结构示意图中,刺激性干嗽属于干咳,干咳属于咳嗽,而咳嗽属于呼吸系统症状,反复咳嗽属于咳嗽,若实体a为刺激性干咳,实体b为咳嗽时,则从实体a(刺激性干咳)找到实体b(咳嗽)的距离n为2,则实体a(刺激性干咳)与实体b(咳嗽)之间的匹配因子f为1/3,若a为反复咳嗽,b为咳嗽时,则从实体a(反复咳嗽)找到实体b(咳嗽)的距离n为1,则实体a(反复咳嗽)与实体b(咳嗽)之间的匹配因子f为1/2;
计算所述结构化电子病例与库中病例的规模相近度,计算公式为:
C=N1/N2,N2≥N1
其中C代表规模相近度,N1代表实体个数较少的病例实体总数,N2代表实体个数较多的病例实体总数;
计算得出所述结构化电子病例与库中病例的相似度,计算公式为
Figure GDA0002892229120000111
作为一可行实施例,所述根据所计算的相似度高低对库中病例进行排序并输出包括:
根据所计算的相似度获取库中病例与所述结构化电子病例相似度从高到低的病例列表;
遍历所述病例列表,根据预设的相似度阈值t(默认为0.5)对所述病例列表进行过滤,将相似度大于或等于所述相似度阈值t的库中病例按顺序存入最终返回列表中并进行输出。
上述实施例中,各实体类别权重w是由多位专业医生根据多年的从医经验一起商讨制定而出,通过权重参数可调节模型精确度。各实体类别对应的权重具体如表3所示。
表3实体类别的权重定义与初始化值
Figure GDA0002892229120000121
本实施例中的相似度分两步计算,包括内容相似度和规模相似度,其实也就是相似度计算考虑的两个维度:既考虑了匹配的数量,也考虑了匹配的度量值,也就是相似度的定义为不仅要匹配的多,而且还要匹配的准。
本实施例中相似度计算的优势包括:
(1)基于相似度模型,提供了17类匹配因子,区分了主诉与非主诉症状。
(2)基于知识图谱采用语义关系来计算两个实体的匹配值,例如“咳嗽”与“反复咳嗽”,这两个实体的匹配值并不为1,但是也不为0,反复咳嗽属于咳嗽,在知识图谱中属于上下位关系,因为后者有一个规律属性“反复”。
(3)提供丰富的权重参数,不同的人对相似度理解不一,可以通过权重参数来调节模型精确度。
上述实施例中,输出的相似病例都有一个相似值,值范围为0-1之间,1就表示病例完全一致,0就表示病例完全不同。那么阀值越高,输出的病历相似度也就越高,由于相似度越高的病例的参考价值越高,为减少输出相似病例的量,也保证医生能够把注意力集中在相识度比较靠前的病例,上述实施例通过设置相似度阈值t对相似病例进行过滤,从而将相似度低于阈值t的病例过滤掉,而只将相似度大于阈值t的相似病例进行输出,上述实施例中选择的相似度阈值t为0.5。过滤后,输出的相似病例信息如图5所示。
本发明的另一实施例提供了一种基于医学知识图谱的语义相似病例检索装置,包括:
病例获取模块,用于获取符合病例内容规范要求的电子病例;
病例结构化模块,用于结合医学知识图谱对所述电子病例文本进行结构化处理,得到具有统一规范术语的结构化电子病例;
相似度计算模块,用于根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度;
输出模块,用于根据所计算的相似度高低对库中病例进行排序并输出。
本发明的另一实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如所述基于医学知识图谱的语义相似病例检索方法。
本发明的另一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述基于医学知识图谱的语义相似病例检索方法。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例方法所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个或者多个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory),磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于医学知识图谱的语义相似病例检索方法,其特征在于,包括步骤:
获取符合病例内容规范要求的电子病例;
对所述电子病例文本进行结构化处理,并结合医学知识图谱对其得到具有统一规范术语的结构化电子病例;
结合内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度;
根据所计算的相似度高低对库中病例进行排序并输出;
所述根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度具体包括步骤:
计算所述结构化电子病例与库中病例的内容匹配度,所述内容匹配度由结构化电子病例与库中病例的实体匹配分数除以结构化电子病例的实体总分数所得:
Figure FDA0002892229110000011
其中,M代表内容匹配度,S1表示结构化病例与库中病例的实体匹配分数,S2表示结构化电子病例的实体总分数,w代表实体类别权重,m代表实体类型总数,i表当前遍历的实体类型序数,n代表第i个实体类型对应的实体总数,j表当前遍历的实体序数,f为匹配因子,代表实体匹配的结果,取值为0~1,完全匹配成功则匹配因子等于1,完全匹配失败则匹配因子为0,其中,任意两个实体之间的匹配因子f基于医学知识图谱中实体与实体之间的从属关系而形成的树状结构计算得到:
fab=1/(1+n)
其中,n是从实体a往根节点寻找到b或者从实体b往根节点寻找到a的距离,若未找到则表示距离n无穷大,则实体a与实体b之间匹配因子为0,若a就是b,则距离n为0,则匹配因子为1;
计算所述结构化电子病例与库中病例的规模相近度,计算公式为:
C=N1/N2,N2≥N1
其中C代表规模相近度,N1代表实体个数较少的病例实体总数,N2代表实体个数较多的病例实体总数;
计算得出所述结构化电子病例与库中病例的相似度,计算公式为
Figure FDA0002892229110000021
2.根据权利要求1所述基于医学知识图谱的语义相似病例检索方法,其特征在于,所述符合病例内容规范要求的电子病例包括患者基本信息及基本健康信息,所述患者基本信息包括患者姓名、性别、年龄及婚姻情况,所述基本健康信息包括主诉、现病史、既往史、个人史、家族史、体格检查。
3.根据权利要求2所述基于医学知识图谱的语义相似病例检索方法,其特征在于,所述结合医学知识图谱对所述电子病例文本进行结构化处理,得到具有统一规范术语的结构化电子病例具体包括步骤:
利用实体提取模型从患者基本健康信息中提取出医学实体;
将所提取的医学实体与所述医学知识图谱进行对齐与标准化,将非专业术语表达与专业术语表达对齐,得到具有标准术语的医学实体;
根据预设的实体类别对所述具有标准术语的医学实体进行分类,得到具有统一规范术语的结构化电子病例。
4.根据权利要求3所述基于医学知识图谱的语义相似病例检索方法,其特征在于,所述实体提取模型采用命名实体识别模型bilstm-crf,并基于电子病例文本进行训练学习;所述将所提取的医学实体与所述医学知识图谱进行对齐与标准化时采用基于编解码技术的翻译模型bilstm-attention,并基于医学知识图谱中统一规范的医学术语体系进行训练学习。
5.根据权利要求4所述基于医学知识图谱的语义相似病例检索方法,其特征在于,所述预设的实体类别通过若干类医学临床特征并根据实体的不同来源及实体的阴性阳性进行分类所得,包括:主诉症状、主诉体征、非主诉症状、非主诉体征、当前疾病、历史疾病、当前诱因、历史诱因、家族疾病、当前用药、历史用药、当前手术、历史手术、当前检查项目、历史检查项目、当前检查结果、历史检查结果、当前检验项目、历史检验项目、当前检验结果、历史检验结果、当前体格检查、历史体格检查、当前职业、历史职业、体质、身体状态,所述若干类医学临床特征包括主诉症状、主诉体征、非主诉症状、非主诉体征、疾病、诱因、手术、用药、身体状态、体质、职业、体格检查、检查项目、检查结果、检验项目、检验结果,所述实体的阴性阳性表示实体的有无情况,阳性表示有,阴性表示无。
6.根据权利要求1所述基于医学知识图谱的语义相似病例检索方法,其特征在于,所述根据所计算的相似度高低对库中病例进行排序并输出包括:
根据所计算的相似度获取库中病例与所述结构化电子病例相似度从高到低的病例列表;
遍历所述病例列表,根据预设的相似度阈值t对所述病例列表进行过滤,将相似度大于或等于所述相似度阈值t的库中病例按顺序存入最终返回列表中并进行输出。
7.一种基于医学知识图谱的语义相似病例检索装置,其特征在于,包括:
病例获取模块,用于获取符合病例内容规范要求的电子病例;
病例结构化模块,用于结合医学知识图谱对所述电子病例文本进行结构化处理,得到具有统一规范术语的结构化电子病例;
相似度计算模块,用于根据内容匹配程度及规模相近程度计算出所述结构化电子病例与库中病例的相似度:计算所述结构化电子病例与库中病例的内容匹配度,所述内容匹配度由结构化电子病例与库中病例的实体匹配分数除以结构化电子病例的实体总分数所得:
Figure FDA0002892229110000041
其中,M代表内容匹配度,S1表示结构化病例与库中病例的实体匹配分数,S2表示结构化电子病例的实体总分数,w代表实体类别权重,m代表实体类型总数,i表当前遍历的实体类型序数,n代表第i个实体类型对应的实体总数,j表当前遍历的实体序数,f为匹配因子,代表实体匹配的结果,取值为0~1,完全匹配成功则匹配因子等于1,完全匹配失败则匹配因子为0,其中,任意两个实体之间的匹配因子f基于医学知识图谱中实体与实体之间的从属关系而形成的树状结构计算得到:
fab=1/(1+n)
其中,n是从实体a往根节点寻找到b或者从实体b往根节点寻找到a的距离,若未找到则表示距离n无穷大,则实体a与实体b之间匹配因子为0,若a就是b,则距离n为0,则匹配因子为1;
计算所述结构化电子病例与库中病例的规模相近度,计算公式为:
C=N1/N2,N2≥N1
其中C代表规模相近度,N1代表实体个数较少的病例实体总数,N2代表实体个数较多的病例实体总数;
计算得出所述结构化电子病例与库中病例的相似度,计算公式为
Figure FDA0002892229110000051
输出模块,用于根据所计算的相似度高低对库中病例进行排序并输出。
8.一种存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至6中任一项所述基于医学知识图谱的语义相似病例检索方法。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项所述基于医学知识图谱的语义相似病例检索方法。
CN202010221246.7A 2020-03-26 2020-03-26 一种基于医学知识图谱的语义相似病例检索方法及设备 Active CN111414393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010221246.7A CN111414393B (zh) 2020-03-26 2020-03-26 一种基于医学知识图谱的语义相似病例检索方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010221246.7A CN111414393B (zh) 2020-03-26 2020-03-26 一种基于医学知识图谱的语义相似病例检索方法及设备

Publications (2)

Publication Number Publication Date
CN111414393A CN111414393A (zh) 2020-07-14
CN111414393B true CN111414393B (zh) 2021-02-23

Family

ID=71491424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010221246.7A Active CN111414393B (zh) 2020-03-26 2020-03-26 一种基于医学知识图谱的语义相似病例检索方法及设备

Country Status (1)

Country Link
CN (1) CN111414393B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986749A (zh) * 2020-07-15 2020-11-24 万达信息股份有限公司 一种数字病理图像检索系统
CN112070731B (zh) * 2020-08-27 2021-05-11 佛山读图科技有限公司 应用人工智能引导人体模型图集与病例ct图像配准的方法
CN112216397A (zh) * 2020-09-10 2021-01-12 广州呼吸健康研究院 一种新冠肺炎的预警方法和系统
CN112635072A (zh) * 2020-12-31 2021-04-09 大连东软教育科技集团有限公司 基于相似度计算的icu相似病例检索方法、系统及存储介质
CN112650860A (zh) * 2021-01-15 2021-04-13 科技谷(厦门)信息技术有限公司 一种基于知识图谱的电子病历智能检索系统
CN112925918B (zh) * 2021-02-26 2023-03-24 华南理工大学 一种基于疾病领域知识图谱的问答匹配系统
CN115148332A (zh) * 2021-03-30 2022-10-04 广东易生活信息科技有限公司 一种骨髓瘤智能随访系统及方法
CN113257371B (zh) * 2021-06-03 2022-02-15 中南大学 基于医学知识图谱的临床检验结果分析方法及系统
CN113345587B (zh) * 2021-06-16 2022-06-17 北京邮电大学 基于慢病大数据的人机协同健康案例匹配方法及系统
CN113641784B (zh) * 2021-06-25 2024-07-16 合肥工业大学 医教研一体化的医疗知识推荐方法和系统
CN113221541A (zh) * 2021-07-09 2021-08-06 清华大学 一种数据提取方法及装置
CN113539409B (zh) * 2021-07-28 2024-04-26 平安科技(深圳)有限公司 治疗方案推荐方法、装置、设备及存储介质
CN113488189B (zh) * 2021-08-03 2024-07-02 罗慕科技(北京)有限公司 相似病例检索装置、方法及计算机可读存储介质
CN113590842A (zh) * 2021-08-05 2021-11-02 思必驰科技股份有限公司 医学术语标准化方法及系统
CN113722418A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 一种临床病案标准化方法、装置、设备及介质
CN113886535B (zh) * 2021-09-18 2022-07-08 前海飞算云创数据科技(深圳)有限公司 基于知识图谱的问答方法、装置、存储介质及电子设备
CN114358955A (zh) * 2021-11-01 2022-04-15 中国人民财产保险股份有限公司 一种医保控费审核的方法及其医保控费审核系统
CN114300083B (zh) * 2021-11-16 2022-10-18 北京左医科技有限公司 病历构建方法及系统
CN113934824B (zh) * 2021-12-15 2022-05-06 之江实验室 一种基于多轮智能问答的相似病历匹配系统及方法
CN114743681B (zh) * 2021-12-20 2024-01-30 健康数据(北京)科技有限公司 一种基于自然语言处理的病例入组筛选方法及系统
CN114944209B (zh) * 2022-03-11 2024-10-29 百洋智能科技集团股份有限公司 一种医疗相似病历的集成式计算方法及系统
CN115312186B (zh) * 2022-08-09 2023-06-09 北京至真互联网技术有限公司 一种糖尿病视网膜病变辅助筛查系统
CN115269613B (zh) * 2022-09-27 2023-01-13 四川互慧软件有限公司 一种患者主索引构建方法、系统、设备及存储介质
CN117891920B (zh) * 2024-01-19 2024-10-01 北京瑞达恒建筑咨询有限公司 一种建筑材料检索方法、装置、电子设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3121739B1 (en) * 2009-10-13 2021-04-28 Open Text Software GmbH Method for performing transactions on data and a transactional database
US10318584B2 (en) * 2015-05-26 2019-06-11 Ayasdi, Inc. Outcome analysis for graph generation
US10007721B1 (en) * 2015-07-02 2018-06-26 Collaboration. AI, LLC Computer systems, methods, and components for overcoming human biases in subdividing large social groups into collaborative teams
CN106897572A (zh) * 2017-03-08 2017-06-27 山东大学 基于流形学习的肺结节病例匹配辅助检测系统及其工作方法
CN106934018A (zh) * 2017-03-11 2017-07-07 广东省中医院 一种基于协同过滤的医生推荐系统
CN106991284B (zh) * 2017-03-31 2019-12-31 南华大学 智能育儿知识服务方法及系统
CN107247868B (zh) * 2017-05-18 2020-05-12 深思考人工智能机器人科技(北京)有限公司 一种人工智能辅助问诊系统
US10937551B2 (en) * 2017-11-27 2021-03-02 International Business Machines Corporation Medical concept sorting based on machine learning of attribute value differentiation
CN108492886B (zh) * 2018-03-26 2020-10-09 合肥工业大学 微创手术相似病案推荐方法、装置、设备及介质
EP3557439A1 (en) * 2018-04-16 2019-10-23 Tata Consultancy Services Limited Deep learning techniques based multi-purpose conversational agents for processing natural language queries
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN108875051B (zh) * 2018-06-28 2020-04-28 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN110265098A (zh) * 2019-05-07 2019-09-20 平安科技(深圳)有限公司 一种病例管理方法、装置、计算机设备及可读存储介质
CN110222201B (zh) * 2019-06-26 2021-04-27 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110516260A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 实体推荐方法、装置、存储介质及设备
CN110598116A (zh) * 2019-09-19 2019-12-20 上海腾程医学科技信息有限公司 检验项目推荐方法及装置、终端设备、存储介质

Also Published As

Publication number Publication date
CN111414393A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN110993081B (zh) 一种医生在线推荐方法及系统
CN107705839B (zh) 疾病自动编码方法及系统
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
CN112131393A (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
US20080082356A1 (en) System and method to optimize control cohorts using clustering algorithms
CN113535974B (zh) 诊断推荐方法及相关装置、电子设备、存储介质
CN106682411A (zh) 一种将体检诊断数据转化为疾病标签的方法
CN114817386A (zh) 一种结构化医疗数据生成方法及装置
CN111191048A (zh) 基于知识图谱的急诊问答系统构建方法
WO2020074023A1 (zh) 基于深度学习的医学文献中关键句筛选方法及装置
CN113764112A (zh) 一种在线医疗问答方法
CN112183104B (zh) 编码推荐方法、系统及相应设备和存储介质
Wang et al. Automatic diagnosis with efficient medical case searching based on evolving graphs
Khan et al. Development of national health data warehouse for data mining.
AU2020407062A1 (en) Unsupervised taxonomy extraction from medical clinical trials
CN116304114B (zh) 基于外科护理的智能数据处理方法及系统
Wang et al. Multiple valued logic approach for matching patient records in multiple databases
CN111460173B (zh) 一种甲状腺癌的疾病本体模型的构建方法
CN112635072A (zh) 基于相似度计算的icu相似病例检索方法、系统及存储介质
CN116775897A (zh) 知识图谱构建和查询方法、装置、电子设备及存储介质
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN113284627B (zh) 基于患者表征学习的用药推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant