CN107193919A - 一种电子病历的检索方法及系统 - Google Patents
一种电子病历的检索方法及系统 Download PDFInfo
- Publication number
- CN107193919A CN107193919A CN201710340142.6A CN201710340142A CN107193919A CN 107193919 A CN107193919 A CN 107193919A CN 201710340142 A CN201710340142 A CN 201710340142A CN 107193919 A CN107193919 A CN 107193919A
- Authority
- CN
- China
- Prior art keywords
- electronic medical
- medical record
- value
- similarity
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000036541 health Effects 0.000 title abstract description 14
- 238000012360 testing method Methods 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 201000010099 disease Diseases 0.000 claims description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000003745 diagnosis Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000001225 therapeutic effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 206010061218 Inflammation Diseases 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 210000001772 blood platelet Anatomy 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 210000003743 erythrocyte Anatomy 0.000 description 3
- 230000004054 inflammatory process Effects 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 208000020816 lung neoplasm Diseases 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 101100501305 Schizosaccharomyces pombe (strain 972 / ATCC 24843) emr1 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007721 medicinal effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000000779 thoracic wall Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种电子病历的检索方法,包括以下步骤:S1,对电子病历数据库中每一份电子病历,计算电子病历内容特征,所述内容特征包括图像特征;S2,对待检索电子病历,提取其相应的内容特征;S3,根据内容特征,计算待检索电子病历与电子病历数据库中各个电子病历的相似度值;S4,根据步骤S3中得到的待检索电子病历与各个电子病历的相似度值,取最相似的前N份电子病历,作为检索结果;N为由用户或者管理员设定的正整数。本发明的电子病历的检索方法及系统,具有较高的检索准确率和检索效率。
Description
【技术领域】
本发明涉及一种电子病历的检索方法及系统。
【背景技术】
随着医院计算机管理网络化和信息存储技术的高速发展,电子病历成为病历管理的必然趋势。电子病历是医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,是病历的一种记录形式。电子病历记录了病患就诊的所有信息,临床诊断的信息检索、医疗数据的挖掘分析等相关研究都依赖于电子病历数据。
名医的电子病历代表着高效和准确的行医经验,建立电子病历数据库便是将医生的行医知识存储起来,合理利用电子病历数据库用于临床辅助诊断对于提高医院的工作效率和医疗质量具有重大意义。然而,在目前病历的检索系统中,主要以字段、关键词等进行检索,存在检索准确率和效率差的问题。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
【发明内容】
本发明所要解决的技术问题是:弥补上述现有技术的不足,提出一种电子病历的检索方法及系统,具有较高的检索准确率和检索效率。
本发明的技术问题通过以下的技术方案予以解决:
一种电子病历的检索方法,包括以下步骤:S1,对电子病历数据库中每一份电子病历,计算电子病历内容特征,所述内容特征包括图像特征;S2,对待检索电子病历,提取其相应的内容特征;S3,根据内容特征,计算待检索电子病历与电子病历数据库中各个电子病历的相似度值;S4,根据步骤S3中得到的待检索电子病历与各个电子病历的相似度值,取最相似的前N份电子病历,作为检索结果;N为由用户或者管理员设定的正整数。
一种电子病历的检索系统,包括存储模块,所述存储模块存储有计算机程序,所述计算机程序用于由处理器加载并执行如上所述的电子病历的检索方法。
本发明与现有技术对比的有益效果是:
本发明的电子病历的检索方法及系统,提取的内容特征中至少包括医学图像特征,这样以图像特征进行相似度计算,检索出最相似的前N份电子病历。这样,以医学图像特征为基础进行检索,可检索到相似度高并且价值大的电子病历。本发明的电子病历的检索方法及系统,检索结果准确率高,检索效率较高,可快速准确地检索出相近似的病历作为对医生和患者进行诊疗计划的参考。
【附图说明】
图1是本发明具体实施方式的检索系统的框架示意图;
图2是本发明具体实施方式的电子病历数据库的结构示意图;
图3是本发明具体实施方式中训练得到的卷积神经网络的结构示意图;
图4是图3所示的卷积神经网络的代价函数结果曲线图。
【具体实施方式】
下面结合具体实施方式并对照附图对本发明做进一步详细说明。
本发明的构思是:信息检索的关键在于相似度的计算,将信息检索技术与电子病历结合起来,采用目前先进的相似度计算方法,特别是在图像上的相似度计算方法来提供电子病历检索的准确率和检索效率。深度学习目前已经是机器学习研究中的一个前沿领域,其采用多层神经网络模型,在大数据规模上进行通过有监督或无监督的学习,能模仿人类神经识别过程对目标进行高准确率的分类识别。因此,将深度学习应用于医学图像的目标识别,从而提高电子病历检索的准确率和效率。
本发明的检索系统建立在电子病历数据库的基础上,采用深度学习等人工智能技术挖掘电子病历数据内容上的价值和相似度,从而达到将医生宝贵经验和知识应用于辅助诊断的目的。由于系统呈现给用户的结果是电子病历数据库中与待检索病历相似的原始病历,这种客观的原始病历避免了人为处理造成的错误,无论是经验不足的医生还是患者都可以根据这些原始病历获取参考信息。
本具体实施方式中,构建电子病历数据库,利用病历文本、化验结果和医学图像的相关检索方法在数据库中查询相似度高并且价值大的电子病历作为对医生和患者做出诊疗计划的参考。检索系统主要包括三大方面:电子病历数据库、价值网络和策略网络。
电子病历数据库根据电子病历中的内容信息存储相应的特征。而如果将电子病历中所有的内容作为数据库中的项目会导致数据库异常庞大,并增大电子病历检索时的困难。因此,本具体实施方式的电子病历数据库采取的方法是将电子病历的文本、化验结果和医学图像等内容信息提取后存储相应的特征。需说明的是,至少需提取到图像的特征,在图像特征的基础上还可以结合文本、化验结果进行综合,并非必须三种特征同时提取。
在提取文本、化验结果和医学图像的特征时,本具体实施方式中通过策略网络计算得到的文本、化验结果和医学图像上的量化结果作为存储的项目。与此同时,本具体实施方式中还通过价值网络量化计算电子病历的价值指标进行存储。具体量化过程在如下的价值网络和策略网络中详述。
策略网络用于确定电子病历之间的相似度。本具体实施方式中,电子病历的相似度是文本特征相似度、化验结果相似度和图像特征相似度的综合相似度。文本特征的处理是对病历的文本内容进行汉语分词和提取关键词的TF-IDF值加权合并患者基本信息的量化值。化验结果的处理是对化验结果进行“偏低置为-1、正常或阴性置为0、偏高或阳性置为1”的量化,并结合名医建议的项目重要性通过层次分析法来加权合并各个检查项目。图像特征的处理采用深度卷积神经网络结合哈希编码函数训练图像的哈希编码,以图像的哈希编码来表征图像的特征。最后综合电子病历的文本特征、化验结果和图像特征,以两个病历之间这三者的相似度加权合并后作为电子病历之间的相似度值。
价值网络用于确定电子病历的价值。本具体实施方式中,电子病历价值的指标为电子病历质量、主治医师、相应科室和治疗效果这四个指标的量化值。其中,电子病历的质量标准包括了电子病历的规范性、电子病历的逻辑性和电子病历的完整性三个方面;主治医师等级和相应科室等级这两个指标是一定区域内的统计量;治疗效果评级分为无效、稍有好转、明显改善和治愈。需说明的是,上述四个指标中,电子病历质量中的逻辑性、完整性和规范性直接影响到电子病历的正确性和可读性,因此选取价值特征时,至少包括电子病历质量这一价值指标。在此基础上还可包括其余三个指标中的一个或者多个,并不是必须同时选取四种指标作为价值特征。价值指标量化后,采用密切值法处理以一个或者多个指标作为价值特征的电子病历的价值排序。
检索系统通过文本界面、化验界面和图像界面获取到电子病历的文本数据、化验数据和图像数据,策略网络计算电子病历的文本特征、化验特征和图像特征,并根据这些特征来计算数据库中的每个电子病历与待检索电子病历之间的相似度,接着基于计算出的相似度,取前N份最相似的病历作为检索结果输出。由于内容特征均通过量化处理,因此数据库中的各个电子病历均计算一个相似度值也不会引起过多的计算量。检索出N份电子病历后,再基于价值网络获取病历的四个指标量化值,根据这四个指标量化值对这N份电子病历进行价值排序,最后将得到的排序结果对应的电子病历进行输出。患者或经验不足的医生可以通过系统检索到与待检索电子病历相似的病历,这些电子病历是名医经验和知识的载体,可以为医生和患者提供参考。检索结果准确且效率高,而且检索结果经过价值排序后输出,从而便于用户最先查看到最相关的电子病历。
以肺癌电子病历为例,本具体实施方式的检索系统的框架示意图如图1所示,处理流程包括以下几步:
步骤1,建立电子病历数据库,其结构示意图如图2所示。
数据库核心数据表为电子病历表和权重表。电子病历表的主要字段为:规范性、逻辑性、完整性、主治医师、科室、治疗效果、关键词K1、关键词K2···关键词Kn、患者信息项P1···患者信息项Pn、化验项D1···化验项Dn、图像哈希码、原始电子病历存储索引。权重表的主要字段为:关键词权重wk、患者信息权重wp、化验项权重wd、文本特征权重wt、化验结果权重wr、图像特征权重wi。
步骤2,对电子病历数据库中每一份电子病历,通过价值网络模块计算其电子病历质量emr_v_q、主治医生等级emr_v_d、医院科室等级emr_v_dp和治疗效果emr_v_t。
(1)取设定的医生群体(例如一定范围内达到一定水平的医生)对电子病历的规范性、逻辑性和完整性评估为:a1,a2,a3,则电子病历质量为emr_v_q=a1×a2×a3。
需说明的是,虽然评估是通过人为产生的,但是可基于客观的依据进行评估。例如卫生部《电子病历基本规范(试行)》,《病历书写基本规范》以及地方相关部门在审核医保时的参考标准,如深圳的社保基金。当然,按照目前的科技以及电子病历的规范化程度只能进行人工打分,即使有参照标准也不可能面面俱到,因此会出现同一病例的不同评价结果,但是通过设定一定的评估标准,可使评分有据可循,尽量达到客观的状态。
(2)主治医生等级和医院科室等级是对一定范围内的所有医院的统计量。
主治的医生等级分为主任医师、副主任医师、主治医师和住院医师四个等级,各等级指数依次表示为emr_v_d1、emr_v_d2、emr_v_d3、emr_v_d4,则:
emr_v_di=emr_v_d_gi*emr_v_d_c
其中,m为医院统计数,Mki为第k家医院相应科室医生级别为i的疾病患者治愈数,Tki为第k家医院相应科室医生级别为i的医生人数。表示的是第k家医院级别为i的医生的平均患者治愈数目,第一个式子emr_v_d_gi表示在统计的m家医院这个区域内,级别为i的医生的治愈数在所有级别医生中的权重。
在医生诊治的患者中,病情级别为a(i=1,2,...,r)时的诊治人数为Na,治愈人数为Ca,表示级别为a的病情的权重,表示级别为a的病情的治愈率。第二个式子emr_v_d_c计算的是整个统计区域内的医生的治愈率。
第三个式子中,对等级为i的医生的权重emr_v_d_gi与医生的总体治愈率的乘积即为主治医生等级为i时的治愈率。
通过上述式子,可分别计算得到主任医师、副主任医师、主治医师和住院医师四个医生等级指数。根据电子病历中主治医生属于哪一等级,相应取哪一级的医生等级指数。
对于医院科室等级emr_v_dp根据如下步骤计算得到:
其中,N_d表示科室的医生人数;emr_v_d_c′表示科室中的每一个医生的治愈率,计算方法同上述的第二个式子。只是第二个式子中的N和C是对整个区域进行统计,此处是对单个医生的进行统计。对各个医生的治愈率求和后即为该科室所有医生对患者的治愈率,除以科室人数N_d得到的emr_v_dp即表示该科室每人的平均治愈率,以该指标体现一个科室的医疗能力。
(3)治疗效果emr_v_t按照无效、稍有好转、明显改善和治愈等级赋值量化。
通过步骤2可得到电子病历数据库中每一份电子病历的四个价值指标,以用于后续步骤8的价值排序中。
步骤3,对电子病历数据库中每一份电子病历,通过策略网络计算电子病历内容中文本、化验和图像的特征。
(1)病历的文本中存在着多词同义的现象,检索系统中将这些词归纳为同义词库,在处理文本内容时对出现在同义词库中的关键词进行合并。对于某些病症,其总是对应某个或某几个特异性症状,特异性症状与相应疾病之间虽然不是同义词,但其在病历中能确定的意义是相同的,检索系统将这些词归纳为特异词库,特异词库中的关键词在处理时也进行合并。文本中一些没有意义的停用词,如“的”、“我院”、“于”等在获取关键词时被去掉。检索系统将这类词归纳为停用词库。
存储于数据库中的文本特征来源于两种数据:一种是描述患者病情的诊断报告,另一种是患者的基本信息。检索系统在计算文本特征时首先根据电子病历数据库中所有的诊断报告,采用中文分词的方法得到关键词,并根据关键词(K1,K2,...,Kn)计算其TF-IDF的值得到量化的诊断报告。TF-IDF表示逆文档频率,TF-IDF可求出在一篇文档中出现频率高而在所有文档中出现频率低的关键词,这样的关键词即可表示该文档。对电子病历中的患者信息,采用0和1二值化每一项(如“男”置1,“女”置0)得到量化的患者信息(P1,P2,...,Pn)。
(2)在肺癌电子病历上,检索系统采用“偏低置为-1、正常或阴性置为0、偏高或阳性置为1”的方法量化各个检查项目,得到各个项目的化验特征(D1,D2,...,Dn)。
(3)医学图像具有噪声干扰大、不同组织灰度相近、局部效应等特点,这会导致异常图像与正常图像的相似性在某些时候会高于异常图像与异常图像的相似性。鉴于此,检索系统采取图像类别(正常和异常)优先的策略。结合深度卷积网络的两步哈希函数训练法得到的图像哈希编码之间的汉明距离既能表征图像的类别,又能表示同一类别不同图像的相似度。检索系统对多种类别的图像进行卷积神经网络的训练。
本具体实施方式中,对肺实质、心血管、肺癌区域、胸腔壁这四种类别的图像进行卷积神经网络的训练,具体过程如下:
定义哈希算法中的图像相似性矩阵S
定义大小为n×q的二值矩阵B,其中n为电子病历数据库中电子病历的数目,q为图像的哈希编码位数,本具体实施方式中采用8位哈希编码。哈希码的内积与它们的汉明距离具有一对一的映射关系,因而根据B∈{-1,1}n×q求解B的方法为采用坐标梯度下降法最小化下式:
式子中,F表示取范数处理。上式中,使得S与尽可能接近,这样在哈希理论里,B即可表示与S相关的哈希编码。B中一行一行的内容即对应所有的图像的哈希编码。
提取矩阵B中的值作为各图像的哈希编码,将图像本身作为输入,对应哈希码和类别作为输出训练一个卷积神经网络,最终训练得到的卷积神经网络就是一个哈希编码函数。
如图3所示,为训练得到的卷积神经网络的结构示意图。神经网络中,对输入的图像(32*32的像素点)经过卷积处理,得到C1中所示的6张图像(28*28的像素点),之后经过下采样处理,得到S2所示的6张图像(14*14的像素点);再接着进行卷积处理得到C3所示的16张图像(10*10的像素点);之后进行下采样处理,得到S4所示的16张图像(5*5的像素点),最后经过全连接处理,得到C5所示的包括120个像素点的图像,对该图像继续进行全连接处理,输出11位编码。其中既包括哈希码(8位),也包括类别信息(3位),该类别信息可用于进一步验证哈希码的准确性。需说明的是,图3所示的具体数值仅仅用于示例性说明,数值均可以相应调整,不影响神经网络的哈希编码功能的实现。
计算图3所示的神经网络的代价函数结果,得到如图4所示的代价函数结果曲线图。从图中可知,其代价函数越来越小,表明该神经网络可用于进行哈希编码。由于采用的两步深度哈希编码是基于图像本身训练得到的,减少了人工提取特征的误差影响,其正确率较高。
电子病历中的图像内容经过训练好的卷积神经网络进行哈希编码后得到的q位哈希码即可作为电子病历的图像特征。
步骤4,将步骤2和步骤3的结果存储于步骤1中的电子病历数据库的相应数据表的相应字段,即得到基于电子病历大数据的数据库。
步骤5:对待检索电子病历,重复步骤3得到其各种内容特征(文本特征、化验特征、图像特征),然后基于待检索电子病历的内容特征和数据库中电子病历的内容特征,计算相似度值。
(1)计算文本特征相似度s_t,采用TF-IDF方法设文档向量Vd:
Vd=[K1,d,K2,d,…,KN,d]T
其中:
在上面公式中,tft是词项t在文档d中的频率,是倒文档频率,|D|是文档集合中的文档总数,|{t∈d}|是包含词项t的文档数。
记患者信息P=[P1,P2,...,Pn],
两个电子病历的文本相似度为:
其中,Ham(Pi,Pj)表示文本Pi与文本Pj的汉明距离。
(2)计算化验结果相似度s_r,采用层次分析法对化验的各个项目进行加权。
记D=[D1,D2,...,Dn],则:s_rij=wd*Ham(Di,Dj)
其中,Ham(Di,Dj)表示第i份电子病历与第j份电子病历的化验结果之间的汉明距离。wd为各项化验项目的权重,采用层次分析法得到。以炎症这种病例为例,医院会检查血细胞的含量,血细胞中分为白细胞、红细胞、血小板等。白细胞、红细胞和血小板等即为检查项目。对于炎症,白细胞的含量能检查出发炎,而红细胞和血小板则没有意义,因此通过设置权重wd,可以有针对性的项目来表征相似度。
对于权重的计算,通过设定的医生群体(例如一定范围内达到一定水平的医生)给定项目重要性,采用层次分析法可得到各化验项目的权重。层次分析法概述如下:
a)构造准则层相对于目标层的判断矩阵;b)利用判断矩阵确定各准则相对于目标的权重系数,即可得wd;c)对判断矩阵做一致性检验,若不符合一致性,则重复上述过程,直至符合一致性。
其中,b)中的权重wd是由a)中的判断矩阵决定的,当不一致时重复步骤a)时即重新构造新的判断矩阵。举个例子,第一次可能构造得到判断矩阵为[1,2;1/2,1],发现不符合一致性,则第二次改为[1,3;1/3,1],不断调整,最终得到符合一致性检验时的wd。
(3)计算图像特征相似度s_i,s_iij=Ham(Hashi,Hashj)
其中,Hashi表示图像i经过卷积神经网络哈希函数(图3所示的深度哈希网络)编码后所得的q位哈希码,Hashj表示图像j经过卷积神经网络进行哈希函数编码后所得的哈希码。Ham表示求图像i和图像j的哈希码的汉明距离。所谓汉明距离为两个哈希码相同位置但值不同的个数。例如”10010001”和”10110011”的汉明距离是2。
步骤6:根据电子病历的文本特征、化验结果和图像特征的相似度综合计算出待检索电子病历与电子病历数据库中的电子病历k的相似度sk:
sk=wt×s_t+wr×s_r+wi×s_i
其中,权重wt、wr和wi的值可由设定的医生群体(例如一定范围内达到一定水平的医生)给定文本、化验和图像的相对重要性通过层次分析法得到。
步骤7:根据步骤6中得到的待检索病历与各个病历的相似度的值,取最相似的前N份电子病历emr1,emr2,...,emrN,作为检索结果。
通过步骤3~7检索出N份电子病历后,可结合步骤2中获取到的价值特征进行步骤8中的价值排序过程。
步骤8:通过价值网络计算这N份电子病历的价值排序,按照排序后的顺序输出N份电子病历。
由于价值指标有电子病历质量、主治医师、医院科室和治疗效果四项,因此采用密切值法来进行多指标决策分析:
(1)构造数据指标矩阵
(2)建立同向指标矩阵:当评价指标为正向指标时,数值取正值;当评价指标为负向指标时,数值取负值,得同向指标矩阵。本具体实施方式中得到如下矩阵,其中p=4,n=N。
(3)建立标准化矩阵
其中,
(4)确定最优点和最劣点:
最优点:
最劣点:
其中
上述计算过程中,最优点即是p个指标中每一个的最大的值的集合。也即,最优点的特征是所有特征中最好的,相应的,最劣点的特征是所有特征中最坏的。
(5)计算各评价对象到“最优点”与“最劣点”的距离:
(6)计算各评价对象的“密切值”,并据此排出优劣顺序:
密切值:
其中
当Ci越小时,与“最优先”越密切,与“最劣点”越疏远,即价值越高,最先输出。基于该原则,对N份电子病历进行价值排序,排序的结果就是系统最终的相关电子病历输出顺序。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下做出若干替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (10)
1.一种电子病历的检索方法,其特征在于:包括以下步骤:S1,对电子病历数据库中每一份电子病历,计算电子病历内容特征,所述内容特征包括图像特征;S2,对待检索电子病历,提取其相应的内容特征;S3,根据内容特征,计算待检索电子病历与电子病历数据库中各个电子病历的相似度值;S4,根据步骤S3中得到的待检索电子病历与各个电子病历的相似度值,取最相似的前N份电子病历,作为检索结果;N为由用户或者管理员设定的正整数。
2.根据权利要求1所述的电子病历的检索方法,其特征在于:步骤S1或者步骤S2中,通过训练好的卷积神经网络进行哈希函数编码得到电子病历中的图像的哈希编码,作为电子病历的图像特征。
3.根据权利要求2所述的电子病历的检索方法,其特征在于:根据如下步骤提取电子病历的图像特征:对多种类别的图像进行卷积神经网络的训练得到训练好的卷积神经网络,包括以下步骤:a)定义哈希算法中的图像相似性矩阵S,b)定义大小为n×q的二值矩阵B,其中,n表示电子病历数据库中电子病历的数目,q表示待求解的哈希编码的位数;采用坐标梯度下降法最小化下式,求解得到矩阵B的值:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>B</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<mi>S</mi>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>q</mi>
</mfrac>
<msup>
<mi>BB</mi>
<mi>T</mi>
</msup>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>,</mo>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
<mi>j</mi>
<mi>e</mi>
<mi>c</mi>
<mi>t</mi>
<mi> </mi>
<mi>t</mi>
<mi>o</mi>
<mo>:</mo>
<mi>B</mi>
<mo>&Element;</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mn>1</mn>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mi>n</mi>
<mo>&times;</mo>
<mi>q</mi>
</mrow>
</msup>
</mrow>
C)提取矩阵B中的值作为各图像的哈希编码;将图像本身作为输入,对应的哈希码和类别作为输出,训练得到卷积神经网络。
4.根据权利要求2所述的电子病历的检索方法,其特征在于:步骤S3中,根据如下步骤计算图像i和图像j的图像特征的相似度值:s_iij=Ham(Hashi,Hashj),其中,Hashi表示图像i经过卷积神经网络进行哈希函数编码后所得的哈希码,Hashj表示图像j经过卷积神经网络进行哈希函数编码后所得的哈希码。
5.根据权利要求1所述的电子病历的检索方法,其特征在于:步骤S1中,所述内容特征还包括文本、化验结果中的一者或者多者;步骤S3中,计算各内容特征的相似度值后,将各相似度值加权求和,得到两个电子病历的相似度值;优选地,计算文本相似度时,对电子病历中的文本内容进行分词和提取关键词处理,得到TF-IDF值;量化患者的基本信息;采用余弦相似度计算TF-IDF值的相似度,采用汉明距离表示患者基本信息之间的相似度,加权求和后得到文本相似度;优选地,计算化验结果的相似度时,采用汉明距离表示化验项目的相似度,采用层次分析法得到各化验项目的加权系数,将各化验项目的相似度加权求和得到化验结果的相似度。
6.根据权利要求1所述的电子病历的检索方法,其特征在于:还包括如下步骤:对电子病历数据库中每一份电子病历,计算价值特征,所述价值特征包括电子病历质量;步骤S4后还包括步骤S5,根据N份电子病历的价值特征对N份电子病历进行价值排序,按照排序结果的顺序输出N份电子病历。
7.根据权利要求6所述的电子病历的检索方法,其特征在于:步骤S5中采用密切值法对N份电子病历的价值特征进行排序,包括以下步骤:
建立同向指标矩阵:
其中,n表示电子病历数据库中电子病历的数目,p表示价值特征的个数,bij表示第i份电子病历中的第j个价值特征的值;当价值特征为正向指标时,bij的值取正值;当价值特征为负向指标时,bij的值取负值;
建立标准化矩阵:其中,
确定最优点和最劣点,最优点:最劣点:
计算N份电子病历中各电子病历的价值特征到最优点的距离
计算N份电子病历中各电子病历的价值特征到最劣点的距离
计算N份电子病历中各电子病历的密切值其中,
按照密切值的大小排序,输出N份电子病历:将密切值最小的电子病历最先输出,密切值最大的电子病历最后输出。
8.根据权利要求6所述的电子病历的检索方法,其特征在于:根据如下步骤计算电子病历的电子病历质量emr_v_q:emr_v_q=a1×a2×a3,其中,a1,a2,a3分别表示设定的医生群体对电子病历的规范性、逻辑性和完整性的评估分数。
9.根据权利要求6所述的电子病历的检索方法,其特征在于:所述价值特征还包括主治医生等级、医院科室等级和治疗效果;优选地,主治医生等级根据如下步骤计算得到:定义主任医师、副主任医师、主治医师和住院医师的等级指数依次为emr_v_d1、emr_v_d2、emr_v_d3、emr_v_d4,则emr_v_di=emr_v_d_gi*emr_v_d_c,其中,m为医院统计数,Mki为第k家医院相应科室医生级别为i的疾病患者治愈数,Tki为第k家医院相应科室医生级别为i的医生人数;r为划分的病情级别的最高级别;在级别为i的医生诊治的患者中,病情级别为a时的诊治人数为Na,治愈人数为Ca,表示级别为a的病情的权重,表示级别为a的病情的治愈率;优选地,医院科室等级emr_v_dp根据如下步骤计算得到:其中,emr_v_d_c′表示科室中的每一个医生的治愈率,N_d表示科室的医生人数;优选地,治疗效果emr_v_t根据如下步骤计算得到:按照治疗效果划分为无效、稍有好转、明显改善和治愈四个等级分别赋值量化。
10.一种电子病历的检索系统,包括存储模块,其特征在于:所述存储模块存储有计算机程序,所述计算机程序用于由处理器加载并执行如权利要求1所述的电子病历的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710340142.6A CN107193919A (zh) | 2017-05-15 | 2017-05-15 | 一种电子病历的检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710340142.6A CN107193919A (zh) | 2017-05-15 | 2017-05-15 | 一种电子病历的检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107193919A true CN107193919A (zh) | 2017-09-22 |
Family
ID=59873459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710340142.6A Pending CN107193919A (zh) | 2017-05-15 | 2017-05-15 | 一种电子病历的检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107193919A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818816A (zh) * | 2017-12-12 | 2018-03-20 | 刘忠于 | 基于人工智能学习的医生电子病历自动生成系统 |
CN108831559A (zh) * | 2018-06-20 | 2018-11-16 | 清华大学 | 一种中文电子病历文本分析方法与系统 |
CN108875814A (zh) * | 2018-06-04 | 2018-11-23 | 联想(北京)有限公司 | 图片检索方法、装置及电子设备 |
CN109003677A (zh) * | 2018-06-11 | 2018-12-14 | 清华大学 | 病历数据结构化分析处理方法 |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
CN109255021A (zh) * | 2018-11-01 | 2019-01-22 | 北京京航计算通讯研究所 | 基于质量文本相似性的数据查询方法 |
CN109346188A (zh) * | 2018-10-19 | 2019-02-15 | 刘瑞红 | 一种医学统计数据处理方法 |
CN109935337A (zh) * | 2019-02-25 | 2019-06-25 | 长沙学院 | 一种基于相似性度量的病案查找方法及系统 |
CN110097936A (zh) * | 2019-05-08 | 2019-08-06 | 北京百度网讯科技有限公司 | 用于输出病历的方法和装置 |
CN110413981A (zh) * | 2018-04-27 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 电子病历的质检方法、相似病历的提醒方法及装置 |
CN110675927A (zh) * | 2019-09-22 | 2020-01-10 | 重庆百行智能数据科技研究院有限公司 | 一种基于大数据的病情检索方法 |
CN111091010A (zh) * | 2019-11-22 | 2020-05-01 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置和存储介质 |
CN111192689A (zh) * | 2018-11-15 | 2020-05-22 | 零氪科技(北京)有限公司 | 一种基于医疗数据的患者识别方法 |
CN111354465A (zh) * | 2020-02-26 | 2020-06-30 | 深圳市凯利博实业有限公司 | 一种基于体温计和区块链的健康分析方法及系统 |
CN111986749A (zh) * | 2020-07-15 | 2020-11-24 | 万达信息股份有限公司 | 一种数字病理图像检索系统 |
CN112466462A (zh) * | 2020-11-26 | 2021-03-09 | 华侨大学 | 一种基于图深度学习的emr信息关联及演化方法 |
CN112925872A (zh) * | 2019-12-05 | 2021-06-08 | 北京沃东天骏信息技术有限公司 | 一种数据搜索方法和装置 |
CN113571167A (zh) * | 2021-07-28 | 2021-10-29 | 重庆橡树信息科技有限公司 | 一种基于配置式评分知识模型的快捷分诊系统 |
CN113689924A (zh) * | 2021-08-24 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN114566244A (zh) * | 2022-03-25 | 2022-05-31 | 上海柯林布瑞信息技术有限公司 | 电子病历质量评估方法、装置及计算机可读存储介质 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN117609434A (zh) * | 2024-01-23 | 2024-02-27 | 中科领讯(北京)科技有限公司 | 一种肺炎相似病例检索方法及系统 |
CN117708354A (zh) * | 2024-02-06 | 2024-03-15 | 湖南快乐阳光互动娱乐传媒有限公司 | 图像的索引方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572675A (zh) * | 2013-10-16 | 2015-04-29 | 中国人民解放军南京军区南京总医院 | 一种相似病历检索的系统及方法 |
CN104835098A (zh) * | 2015-05-15 | 2015-08-12 | 上海翼依信息技术有限公司 | 一种病历电子数据识别方法及系统 |
CN104881463A (zh) * | 2015-05-22 | 2015-09-02 | 清华大学深圳研究生院 | 基于结构化病历数据库的参考病历检索方法及装置 |
-
2017
- 2017-05-15 CN CN201710340142.6A patent/CN107193919A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572675A (zh) * | 2013-10-16 | 2015-04-29 | 中国人民解放军南京军区南京总医院 | 一种相似病历检索的系统及方法 |
CN104835098A (zh) * | 2015-05-15 | 2015-08-12 | 上海翼依信息技术有限公司 | 一种病历电子数据识别方法及系统 |
CN104881463A (zh) * | 2015-05-22 | 2015-09-02 | 清华大学深圳研究生院 | 基于结构化病历数据库的参考病历检索方法及装置 |
Non-Patent Citations (2)
Title |
---|
南有乔木NTU: "Supervised Hashing for Image Retrieval via Image Representation Learning", 《HTTPS://BLOG.CSDN.NET/ZIJIN0802034/ARTICLE/DETAILS/52674511》 * |
张生泽 等: "基于电子病历大数据的问答系统", 《医学信息学杂志》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818816A (zh) * | 2017-12-12 | 2018-03-20 | 刘忠于 | 基于人工智能学习的医生电子病历自动生成系统 |
CN110413981A (zh) * | 2018-04-27 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 电子病历的质检方法、相似病历的提醒方法及装置 |
CN108875814B (zh) * | 2018-06-04 | 2022-07-26 | 联想(北京)有限公司 | 图片检索方法、装置及电子设备 |
CN108875814A (zh) * | 2018-06-04 | 2018-11-23 | 联想(北京)有限公司 | 图片检索方法、装置及电子设备 |
CN109003677A (zh) * | 2018-06-11 | 2018-12-14 | 清华大学 | 病历数据结构化分析处理方法 |
CN108831559B (zh) * | 2018-06-20 | 2021-01-15 | 清华大学 | 一种中文电子病历文本分析方法与系统 |
CN108831559A (zh) * | 2018-06-20 | 2018-11-16 | 清华大学 | 一种中文电子病历文本分析方法与系统 |
CN109215754A (zh) * | 2018-09-10 | 2019-01-15 | 平安科技(深圳)有限公司 | 病历数据处理方法、装置、计算机设备和存储介质 |
CN109346188A (zh) * | 2018-10-19 | 2019-02-15 | 刘瑞红 | 一种医学统计数据处理方法 |
CN109255021A (zh) * | 2018-11-01 | 2019-01-22 | 北京京航计算通讯研究所 | 基于质量文本相似性的数据查询方法 |
CN111192689B (zh) * | 2018-11-15 | 2023-11-24 | 零氪科技(北京)有限公司 | 一种基于医疗数据的患者识别方法 |
CN111192689A (zh) * | 2018-11-15 | 2020-05-22 | 零氪科技(北京)有限公司 | 一种基于医疗数据的患者识别方法 |
CN109935337A (zh) * | 2019-02-25 | 2019-06-25 | 长沙学院 | 一种基于相似性度量的病案查找方法及系统 |
CN109935337B (zh) * | 2019-02-25 | 2021-01-15 | 长沙学院 | 一种基于相似性度量的病案查找方法及系统 |
CN110097936A (zh) * | 2019-05-08 | 2019-08-06 | 北京百度网讯科技有限公司 | 用于输出病历的方法和装置 |
CN110097936B (zh) * | 2019-05-08 | 2022-08-05 | 北京百度网讯科技有限公司 | 用于输出病历的方法和装置 |
CN110675927A (zh) * | 2019-09-22 | 2020-01-10 | 重庆百行智能数据科技研究院有限公司 | 一种基于大数据的病情检索方法 |
CN111091010A (zh) * | 2019-11-22 | 2020-05-01 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置和存储介质 |
CN112925872A (zh) * | 2019-12-05 | 2021-06-08 | 北京沃东天骏信息技术有限公司 | 一种数据搜索方法和装置 |
CN111354465A (zh) * | 2020-02-26 | 2020-06-30 | 深圳市凯利博实业有限公司 | 一种基于体温计和区块链的健康分析方法及系统 |
CN111354465B (zh) * | 2020-02-26 | 2023-02-28 | 深圳市凯利博实业有限公司 | 一种基于体温计和区块链的健康分析方法及系统 |
CN111986749A (zh) * | 2020-07-15 | 2020-11-24 | 万达信息股份有限公司 | 一种数字病理图像检索系统 |
CN112466462A (zh) * | 2020-11-26 | 2021-03-09 | 华侨大学 | 一种基于图深度学习的emr信息关联及演化方法 |
CN113571167B (zh) * | 2021-07-28 | 2024-04-19 | 重庆橡树信息科技有限公司 | 一种基于配置式评分知识模型的快捷分诊系统 |
CN113571167A (zh) * | 2021-07-28 | 2021-10-29 | 重庆橡树信息科技有限公司 | 一种基于配置式评分知识模型的快捷分诊系统 |
CN113689924B (zh) * | 2021-08-24 | 2024-04-05 | 深圳平安智慧医健科技有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN113689924A (zh) * | 2021-08-24 | 2021-11-23 | 平安国际智慧城市科技股份有限公司 | 相似病历检索方法、装置、电子设备及可读存储介质 |
CN114566244A (zh) * | 2022-03-25 | 2022-05-31 | 上海柯林布瑞信息技术有限公司 | 电子病历质量评估方法、装置及计算机可读存储介质 |
CN114566244B (zh) * | 2022-03-25 | 2023-05-26 | 上海柯林布瑞信息技术有限公司 | 电子病历质量评估方法、装置及计算机可读存储介质 |
CN115269613B (zh) * | 2022-09-27 | 2023-01-13 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN115269613A (zh) * | 2022-09-27 | 2022-11-01 | 四川互慧软件有限公司 | 一种患者主索引构建方法、系统、设备及存储介质 |
CN117609434B (zh) * | 2024-01-23 | 2024-03-29 | 中科领讯(北京)科技有限公司 | 一种肺炎相似病例检索方法及系统 |
CN117609434A (zh) * | 2024-01-23 | 2024-02-27 | 中科领讯(北京)科技有限公司 | 一种肺炎相似病例检索方法及系统 |
CN117708354A (zh) * | 2024-02-06 | 2024-03-15 | 湖南快乐阳光互动娱乐传媒有限公司 | 图像的索引方法、装置、电子设备及存储介质 |
CN117708354B (zh) * | 2024-02-06 | 2024-04-30 | 湖南快乐阳光互动娱乐传媒有限公司 | 图像的索引方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN111192680B (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
CN108831559B (zh) | 一种中文电子病历文本分析方法与系统 | |
CN106227880B (zh) | 医生搜索推荐的实现方法 | |
EP3734604A1 (en) | Method and system for supporting medical decision making | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
Fang et al. | Feature Selection Method Based on Class Discriminative Degree for Intelligent Medical Diagnosis. | |
WO2023160264A1 (zh) | 医疗数据处理方法、装置及存储介质 | |
CN112489740B (zh) | 病历检测方法及相关模型的训练方法和相关设备、装置 | |
Jiang et al. | A hybrid intelligent model for acute hypotensive episode prediction with large-scale data | |
CN108511056A (zh) | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 | |
CN111968741A (zh) | 基于深度学习与集成学习的糖尿病并发症高危预警系统 | |
CN109360658B (zh) | 一种基于词向量模型的疾病模式挖掘方法及装置 | |
CN112967803A (zh) | 基于集成模型的急诊患者早期死亡率预测方法及系统 | |
CN115841861A (zh) | 一种相似病历推荐方法及系统 | |
CN115171871A (zh) | 一种基于知识图谱与注意力机制的心血管疾病预测方法 | |
Oğuz et al. | Determination of Covid-19 possible cases by using deep learning techniques | |
CN117954090A (zh) | 一种基于多模态缺失数据患者的死亡率预测方法及系统 | |
CN111524570B (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
WO2019132686A1 (ru) | Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
CN115312186A (zh) | 一种糖尿病视网膜病变辅助筛查系统 | |
US20240232230A9 (en) | Classification system | |
CN115862897A (zh) | 一种基于临床数据的症候群监测方法及系统 | |
CN114822734A (zh) | 基于循环卷积神经网络的中医病案分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170922 |
|
RJ01 | Rejection of invention patent application after publication |