CN110534185A - 标注数据获取方法、分诊方法、装置、存储介质及设备 - Google Patents
标注数据获取方法、分诊方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN110534185A CN110534185A CN201910818358.8A CN201910818358A CN110534185A CN 110534185 A CN110534185 A CN 110534185A CN 201910818358 A CN201910818358 A CN 201910818358A CN 110534185 A CN110534185 A CN 110534185A
- Authority
- CN
- China
- Prior art keywords
- data
- triage
- user
- labeling
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title abstract description 10
- 201000010099 disease Diseases 0.000 claims abstract description 56
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 56
- 238000002372 labelling Methods 0.000 claims description 58
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 9
- 239000003814 drug Substances 0.000 abstract description 4
- 230000036541 health Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 206010028813 Nausea Diseases 0.000 description 11
- 230000008693 nausea Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 208000024891 symptom Diseases 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 206010057190 Respiratory tract infections Diseases 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/20—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例提供一种标注数据获取方法、分诊方法、装置、存储介质及设备,实现分诊系统所需的标注数据通过从电子病历和已有分诊系统中的电子分诊记录中提取得到,无需专家编写和修正医学相关知识库,也无需进行人工标注,简化了标注数据的获取和维护所需的人力成本,从而降低分诊系统的维护成本。而且,分诊模型充分考虑了疾病和科室之间的隐含的相关性,不仅能够预测科室,还能预测疾病,与现有技术中疾病和科室通过不同的模型进行预测相比,实现成本更低,预测速度更快,准确率更高。
Description
技术领域
本申请涉及信息处理技术领域,具体涉及一种标注数据获取方法、分诊方法、装置、存储介质及设备。
背景技术
随着机器学习技术的进步和大众医疗需求的日益增长,智能分诊系统逐渐成为各大企业和医院的关注热点,它不但能够精准得根据患者描述的不适症状推荐科室,还能够帮助患者找到特定的医生,从而为患者提供更及时、高效、精准的服务,为医护人员减轻工作负担,提高医院的整体运行效率。
目前已有的比较有效的智能分诊系统往往基于大量的专家知识,通过多名专家联合编写医学相关知识库,并在后期系统实际上线后通过专家不断修正知识库来对系统进行更新,使得分诊系统所需的人力成本非常高。
因此,如何降低分诊系统的实现成本成为亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种标注数据获取方法、分诊方法、装置、存储介质及设备,以降低分诊系统的维护成本。
为实现上述目的,本申请实施例提供如下技术方案:
第一方面,提供一种标注数据获取方法,包括:
从一电子病历中获取医生主述数据;
从一电子分诊记录中获取用户主述数据;
将所述医生主述数据与所述用户主述数据进行匹配;
若匹配结果满足条件,生成一条标注数据,其中,所述用户主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
第二方面,提供一种分诊方法,包括:
获取用户输入数据,所述用户输入数据包括用户主述数据、患者性别和年龄;
将所述用户输入数据输入预先训练好的分诊模型,得到分诊结果,所述分诊结果中包括疾病名称和就诊科室;其中,所述分诊模型利用标注数据库训练得到,所述标注数据库中的标注数据均标注有疾病名称和就诊科室名称,所述标注数据是从电子病历和电子分诊记录中提取得到的。
第三方面,提供一种标注数据获取装置,包括:
第一获取模块,用于从一电子病历中获取医生主述数据,从从一电子分诊记录中获取用户主述数据;
匹配模块,用于将所述医生主述数据与所述用户主述数据进行匹配;
构建模块,用于若匹配结果满足条件,生成一条标注数据,其中,所述用户主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
第四方面,提供一种分诊装置,包括:
第二获取模块,用于获取用户输入数据,所述用户输入数据包括用户主述数据、患者性别和年龄;
分诊模块,用于将所述用户输入数据输入预先训练好的分诊模型,得到分诊结果,所述分诊结果中包括疾病名称和就诊科室;其中,所述分诊模型利用标注数据库训练得到,所述标注数据库中的标注数据均标注有疾病名称和就诊科室名称,所述标注数据是从电子病历和电子分诊记录中提取得到的。
第五方面,提供一种电子设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如前任一项所述的标注数据获取方法的各个步骤,和/或,实现如前任一项所述的分诊方法的各个步骤。
第六方面,提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前任一项所述的标注数据获取方法的各个步骤,和/或,实现如前任意一项所述的分诊方法的各个步骤。
本申请实施例提供的标注数据获取方法、分诊方法、装置、存储介质及设备,实现分诊系统所需的标注数据通过从电子病历和已有分诊系统中的电子分诊记录中提取得到,无需专家编写和修正医学相关知识库,也无需进行人工标注,简化了标注数据的获取和维护所需的人力成本,从而降低分诊系统的维护成本。而且,分诊模型充分考虑了疾病和科室之间的隐含的相关性,不仅能够预测科室,还能预测疾病,与现有技术中疾病和科室通过不同的模型进行预测相比,实现成本更低,预测速度更快,准确率更高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的标注数据获取方法的一种实现流程图;
图2为本申请实施例提供的优选的标注数据生成方法的示例图;
图3为本申请实施例提供的获取标注数据的一种示例图;
图4为本申请实施例提供的分诊模型的一种结构示意图;
图5为本申请实施例提供的分诊方法的一种实现流程图;
图6为本申请实施例提供的标注数据获取装置的一种结构示意图;
图7为本申请实施例提供的分诊装置的一种结构示意图;
图8为本申请实施例提供的电子设备的硬件结构框图的示例图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请方案的基本思想是:利用已有的电子病历(Electronic Health Record,EHR),以及已有的电子分诊记录生成标注数据,基于该标注数据训练分诊模型,利用训练好的分诊模型进行分诊。由于训练分诊模型所使用的标注数据是自动获取的,不再需要专家编写医学相关知识库,也无需专家对医学知识库进行修正,简化了标注数据的获取和维护所需的人力成本,从而降低分诊系统的维护成本。
下面首先对本申请实施例提供的获取样本数据的过程进行说明。
请参阅图1,图1为本申请实施例提供的标注数据获取方法的一种实现流程图,可以包括:
步骤S11:从一电子病历(为便于区分,可以记为第一电子病历)中获取医生主述数据。
电子病历是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的医疗记录,用以取代手写纸张病历。它的内容包括纸张病历的所有信息。
患者到医院求医,与医生交流时,医生会用自己的话简短地记录患者的主要症状和需求,如“感冒后恶心周余”,这就是医生主述数据。同时医生通过观察和交流,可以确定患者性别、年龄,以及所在科室、初步判断的可能疾病等,这些都会被医生记录在患者的电子病历中。
本申请实施例中,第一电子病历是医院提供的电子病历库中的任意一电子病历,每一电子病历对应一个患者。每一电子病历中均包括但不限于以下信息:医生主述数据,患者性别、年龄,以及所在科室、医生初步判断的可能疾病等。这里只是举例说明了电子病历中和本案相关的信息,在实际应用中,电子病历中还可以包括其他信息,例如,用药情况,治疗情况等等。
步骤S12:从一电子分诊记录(为便于区分,可以记为第一电子分诊记录)中获取用户主述数据。
电子分诊记录可以是指已有的分诊系统中针对每一次分诊操作所记录的信息。当用户通过分诊系统请求分诊时,会在分诊系统中输入自己或患者的症状,例如,“我最近有点感冒,还有点恶心”,这就是用户主述数据。第一电子分诊记录可以是分诊系统所记录的若干条分诊记录中的任意一条分诊记录。
需要说明的是,本申请中步骤S11和步骤S12的执行顺序不做具体限定,可以先执行步骤S11,再执行步骤S12,或者,先执行步骤S12,再执行步骤S11,或者,步骤S11和步骤S12同时执行。
步骤S13:将医生主述数据与用户主述数据进行匹配。
可选的,可以按照预设的关键词提取规则从医生主述数据提取至少一个关键词,构成第一关键词组,按照上述预设的关键词提取规则从用户主述数据中提取至少一个关键词,构成第二关键词词组,将从医生主述数据中提取的第一关键词组与从用户主述数据中提取的第二关键词组进行匹配。
步骤S14:若匹配结果满足条件,生成一条标注数据,其中,用户的主述数据,以及患者性别和年龄构成标注数据中的用户输入文本,疾病名称和就诊科室名称为标注数据的标签。
若匹配结果满足条件,表征用户主述数据与医生主述数据相同。可选的,若通过关键词组匹配,则匹配结果满足条件可以包括:第一关键词组与第二关键词组相同,即第一关键词组和第二关键词组包含相同的关键词。
本申请实施例中,标注数据由两部分数据组成:用户输入文本部分和标签部分。基于此,
当匹配结果满足条件,从第一电子病历中提取患者性别和年龄信息,将第一电子分诊记录中的用户主述数据和第一电子病历中的患者性别和年龄构成标注数据的用户输入文本部分;从电子病历中提取疾病名称和就诊科室名称,将疾病名称和就诊科室名称均作为标注数据的标签,为便于区分,可以将疾病名称记为标注数据的第一类标签,将就诊科室名称记为标注数据的第二类标签。也就是说,本申请实施例中,每个标注数据包括两类标签:疾病标签和科室标签。
本申请实施例提供的分诊数据获取方法,从电子病历中提取医生主述数据,从电子分诊记录中提取用户主述数据,将医生主述数据和用户主述数据进行匹配,当满足匹配条件时,根据用户主述数据和医生主述数据所属电子病历中的患者性别和年龄,以及疾病名称和科室名称构建标注数据,该标注数据获取方法不需专家编写和修正医学相关知识库,也无需进行人工标注,提高标注数据的获取效率,降低获取标注数据所需的人力成本。
在一可选的实施例中,上述按照关键词提取规则从医生主述数据中提取第一关键词组,并按照上述关键词提取规则从用户主述数据中提取第二关键词组的一种实现方式可以为:
利用命名实体识别(Named Entity Recongition,NER)算法从医生主述数据中提取第一关键词组,利用上述命名实体识别算法从用户主述数据中提取第二关键词组。
也就是说,本申请实施例中,从医生主述数据和用户主述数据中提取的关键词都是医学领域的命名实体。
如图2所示,为本申请实施例提供的优选的标注数据生成方法的示例图,该实例中,图2中的标注数据生成器即为本申请后文提到的标注数据获取装置。该示例中,通过命名实体识别NER算法提取医生主述数据中的关键词,并通过命名实体NER识别算法提取用户主述数据中的关键词,如果从医生主述数据中提取的关键词与从用户主述数据中提取的关键词相同,则将用户主述数据与医生主述数据所属电子病历中的性别、年龄信息组合为标注数据中的输入文本部分,将医生主述数据所属电子病历中的疾病名称和科室名称作为标注数据的标签部分。该生成的标注数据可以作为分诊模型的训练数据。
下面举例说明标注数据的生成过程。
如图3所示,为本申请实施例提供的获取标注数据的一种示例图。该示例中,假设一电子病历中记录的医生主述数据为:感冒后恶心周余,性别为:男,年龄为:20岁,疾病名称为:呼吸道感染,科室名称为:内科。一电子分诊记录中记录的用户主述数据为:我最近有点感冒,还有点恶心。
本示例中,从医生主述数据“感冒后恶心周余”中提取的关键词为感冒,恶心,从用户主述数据“我最近有点感冒,还有点恶心”中提取的关键词也为感冒,恶心,由于从医生主述数据中提取的关键词与从用户主述数据中提取的关键词相同,因而可以基于医生主述数据“感冒后恶心周余”和用户主述数据“我最近有点感冒,还有点恶心”生成一条标注数据,该标注数据中的用户输入文本部分可以为“性别:男,年龄:20,我最近有点感冒,还有点恶心”,疾病标签为“呼吸道感染”,科室标签为:内科。
通常,病历库中会存在大量的电子病历,而已有的分诊系统中也会记录大量的电子分诊记录,因而,通过本申请公开的标注数据获取方法,利用病历库中的大量电子病历,以及已有的分诊系统中记录的大量的电子分诊记录,可以快速得到大量的标注数据。
在得到标注数据后,就可以利用标注数据训练分诊模型了。本申请实施例中,分诊模型可以为深度神经网络模型。
如图4所示,为本申请实施例提供的分诊模型的一种结构示意图。该分诊模型包括中包括:
基于变换器的双向编码表示(Bidirectional Encoder Representation fromTransformers,BERT)网络。
与BERT网络的目标输出单元连接的第一前馈神经网络,该第一前馈神经网络用于预测就诊科室。
与第一前馈神经网络连接的第二前馈神经网络,该第二前馈神经网络用于预测疾病名称。
其中,BERT网络的输入也就是分诊模型的输入,在训练阶段,分诊模型的输入为标注数据中的用户输入文本部分的数据(以下简称用户输入文本)。图4中,输入字符串即为用户输入文本,Toki(i=1,2,……,N)表示输入字符串中的第i个字,CLS和SEP为预置的标志符,BERT网络每接收到一个用户输入文本,都会在该输入文本前添加标志符CLS,在该输入文本的最后添加标志符SEP,并对添加标志符后的文本进行处理,得到标志符CLS对应的隐层向量表达C,标志符SEP对应的隐层向量表达S,和各个字对应的隐层向量表达Ti。BERT网络对应每个字都有一个输出单元,对应标志符CLS有一个输出单元,对应标志符SEP也有一个输出单元。可选的,可以采用基于google开源BERT中文预训练模型fine-tuning的方法对分诊模型进行训练。当然,也可以采用其他方法对分诊模型进行训练,这里不做具体限定。
本申请实施例中,第一前馈神经网络是与BERT网络的标志符CLS对应的输出单元连接的,即第一前馈神经网络对标志符CLS对应的隐层向量表达进行处理,并利用第一分类函数(如,softmax函数)对第一前馈神经网络的处理结果(为便于叙述,记为第一处理结果)进行处理,得到科室标签并输出。
第二前馈神经网络对第一前馈神经网络输出的第一处理结果进行处理,并利用第二分类函数(如,sigmoid函数)对第二前馈神经网络的处理结果(为便于叙述,记为第二处理结果)进行处理,得到疾病标签并输出。
当然,分诊模型中除了包括上述几个部分外,还会包含损失函数(图中未示出),通过损失函数计算预测结果与标注数据标注的标签之间的差异,从而根据差异对模型进行迭代优化训练。
本申请实施例中,分诊模型在预测过程中充分考虑了疾病和科室之间的隐含的相关性,不仅能够预测科室,还能预测疾病,与现有技术中疾病和科室通过不同的模型进行预测相比,实现成本更低,预测速度更快,准确率更高。
在训练好分诊模型后,就可以利用分诊模型进行分诊了。本申请实施例提供的分诊方法的一种实现流程图如图5所示,可以包括:
步骤S51:获取用户输入数据,该用户输入数据包括用户主述数据、患者性别和年龄。
用户主述数据即为用户对患者(可能是用户本人,也有可能不是用户本人,即用户替患者描述状态信息)症状的描述信息。
步骤S52:将用户输入数据输入预先训练好的分诊模型,得到分诊结果,该分诊结果中包括疾病名称和就诊科室;其中,分诊模型利用标注数据库训练得到,该标注数据库中的标注数据均标注有疾病名称和就诊科室名称,标注数据是从电子病历和电子分诊记录中提取得到的。
其中,分诊模型的结构,以及标注数据的具体获取过程可以参看前述实施例,这里不再详述。
本申请提供的分诊方法,训练分诊模型所需的标注数据通过从电子病历和已有分诊系统中的电子分诊记录中提取得到,无需专家编写和修正医学相关知识库,也无需进行人工标注,简化了标注数据的获取和维护所需的人力成本,从而降低基于分诊模型所构建的分诊系统的维护成本。而且,分诊模型充分考虑了疾病和科室之间的隐含的相关性,不仅能够预测科室,还能预测疾病,与现有技术中疾病和科室通过不同的模型进行预测相比,实现成本更低,预测速度更快,准确率更高。
与方法实施例相对应,本申请实施例还提供一种标注数据获取装置,本申请实施例提供的标注数据获取装置的一种结构示意图如图6所示,可以包括:
第一获取模块61,匹配模块62和构建模块63;其中,
第一获取模块61用于从一电子病历中获取医生主述数据,从从一电子分诊记录中获取用户主述数据;
匹配模块62用于将所述医生主述数据与所述用户主述数据进行匹配;
构建模块63用于若匹配结果满足条件,生成一条标注数据,其中,所述用户主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
本申请实施例提供的标注数据获取装置,从电子病历中提取医生主述数据,从电子分诊记录中提取用户主述数据,将医生主述数据和用户主述数据进行匹配,当满足匹配条件时,根据用户主述数据和医生主述数据所属电子病历中的患者性别和年龄,以及疾病名称和科室名称构建标注数据,该标注数据获取方法不需专家编写和修正医学相关知识库,也无需进行人工标注,提高标注数据的获取效率,降低获取标注数据所需的人力成本。
在一可选的实施例中,匹配模块62具体可以用于:
按照关键词提取规则从所述医生主述数据中提取第一关键词组,并按照所述关键词提取规则从所述用户主述数据中提取第二关键词组;
将所述第一关键词组与所述第二关键词组进行匹配。
可选的匹配结果满足条件可以包括:
所述第一关键词组与所述第二关键词组相同。
与方法实施例相对应,本申请实施例还提供一种分诊装置,本申请实施例提供的分诊装置的一种结构示意图如图7所示,可以包括:
第二获取模块71和分诊模块72,其中,
第二获取模块71用于获取用户输入数据,所述用户输入数据包括用户主述数据、患者性别和年龄;
分诊模块72用于将所述用户输入数据输入预先训练好的分诊模型,得到分诊结果,所述分诊结果中包括疾病名称和就诊科室;其中,所述分诊模型利用标注数据库训练得到,所述标注数据库中的标注数据均标注有疾病名称和就诊科室名称,所述标注数据是从电子病历和电子分诊记录中提取得到的。
本申请实施例提供分诊装置,训练分诊模型所需的标注数据通过从电子病历中的医生主述数据和已有分诊系统中的用户主述数据中提取得到,无需专家编写和修正医学相关知识库,也无需进行人工标注,简化了标注数据的获取和维护所需的人力成本,从而降低基于分诊模型所构建的分诊系统的维护成本。而且,分诊模型充分考虑了疾病和科室之间的隐含的相关性,不仅能够预测科室,还能预测疾病,与现有技术中疾病和科室通过不同的模型进行预测相比,实现成本更低,预测速度更快,准确率更高。
在一可选的实施例中,上述分诊模型可以包括:
基于变换器的双向编码表示BERT网络;
与所述BERT网络的目标输出单元连接的第一前馈神经网络,所述第一前馈神经网络用于预测就诊科室;
与所述第一前馈神经网络连接的第二前馈神经网络,所述第二前馈神经网络用于预测疾病名称。
在一可选的实施例中,还包括标注数据获取模块,用于获取标注数据,每一条标注数据的获取过程包括:
从一电子病历中获取医生主述数据;
从一电子分诊记录中获取用户主述数据;
将所述医生主述数据与所述用户主述数据进行匹配;
若匹配结果满足条件,生成一条标注数据,其中,所述用户的主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
在一可选的实施例中,标注数据获取模块将所述医生主述数据与所述用户主述数据进行匹配时,具体可以用于:
按照关键词提取规则从所述医生主述数据中提取第一关键词组,并按照所述关键词提取规则从所述用户主述数据中提取第二关键词组;
将所述第一关键词组与所述第二关键词组进行匹配。
在一可选的实施例中,所述匹配结果满足条件可以包括:
所述第一关键词组与所述第二关键词组相同。
本申请实施例还提供一种电子设备,该电子设备可以是终端设备(如计算机),也可以是服务器或服务器集群,该电子设备可以配置上述标注数据获取装置和/或上述分诊装置。本申请实施例提供的电子设备的硬件结构框图的示例图如图8所示,可以包括:
处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器1具体用于执行存储器中存储的程序,执行如下步骤:
从一电子病历中获取医生主述数据;
从一电子分诊记录中获取用户主述数据;
将所述医生主述数据与所述用户主述数据进行匹配;
若匹配结果满足条件,生成一条标注数据,其中,所述用户主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
或者,
处理器1具体用于执行存储器中存储的程序,执行如下步骤:
获取用户输入数据,所述用户输入数据包括用户主述数据、患者性别和年龄;
将所述用户输入数据输入预先训练好的分诊模型,得到分诊结果,所述分诊结果中包括疾病名称和就诊科室;其中,所述分诊模型利用标注数据库训练得到,所述标注数据库中的标注数据均标注有疾病名称和就诊科室名称,所述标注数据是从电子病历和电子分诊记录中提取得到的。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
从一电子病历中获取医生主述数据;
从一电子分诊记录中获取用户主述数据;
将所述医生主述数据与所述用户主述数据进行匹配;
若匹配结果满足条件,生成一条标注数据,其中,所述用户主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
和/或,
所述程序用于:
获取用户输入数据,所述用户输入数据包括用户主述数据、患者性别和年龄;
将所述用户输入数据输入预先训练好的分诊模型,得到分诊结果,所述分诊结果中包括疾病名称和就诊科室;其中,所述分诊模型利用标注数据库训练得到,所述标注数据库中的标注数据均标注有疾病名称和就诊科室名称,所述标注数据是从电子病历和电子分诊记录中提取得到的。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种标注数据获取方法,其特征在于,包括:
从一电子病历中获取医生主述数据;
从一电子分诊记录中获取用户主述数据;
将所述医生主述数据与所述用户主述数据进行匹配;
若匹配结果满足条件,生成一条标注数据,其中,所述用户主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
2.根据权利要求1所述的方法,其特征在于,所述将所述医生主述数据与所述用户主述数据进行匹配,包括:
按照关键词提取规则从所述医生主述数据中提取第一关键词组,并按照所述关键词提取规则从所述用户主述数据中提取第二关键词组;
将所述第一关键词组与所述第二关键词组进行匹配。
3.根据权利要求2所述的方法,其特征在于,所述匹配结果满足条件包括:
所述第一关键词组与所述第二关键词组相同。
4.一种分诊方法,其特征在于,包括:
获取用户输入数据,所述用户输入数据包括用户主述数据、患者性别和年龄;
将所述用户输入数据输入预先训练好的分诊模型,得到分诊结果,所述分诊结果中包括疾病名称和就诊科室;其中,所述分诊模型利用标注数据库训练得到,所述标注数据库中的标注数据均标注有疾病名称和就诊科室名称,所述标注数据是从电子病历和电子分诊记录中提取得到的。
5.根据权利要求4所述的方法,其特征在于,所述分诊模型包括:
基于变换器的双向编码表示BERT网络;
与所述BERT网络的目标输出单元连接的第一前馈神经网络,所述第一前馈神经网络用于预测就诊科室;
与所述第一前馈神经网络连接的第二前馈神经网络,所述第二前馈神经网络用于预测疾病名称。
6.根据权利要求4所述的方法,其特征在于,所述标注数据的提取过程包括:
从一电子病历中获取医生主述数据;
从一电子分诊记录中获取用户主述数据;
将所述医生主述数据与所述用户主述数据进行匹配;
若匹配结果满足条件,生成一条标注数据,其中,所述用户的主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
7.根据权利要求6所述的方法,其特征在于,所述将所述医生主述数据与所述用户主述数据进行匹配,包括:
按照关键词提取规则从所述医生主述数据中提取第一关键词组,并按照所述关键词提取规则从所述用户主述数据中提取第二关键词组;
将所述第一关键词组与所述第二关键词组进行匹配。
8.根据权利要求7所述的方法,其特征在于,所述匹配结果满足条件包括:
所述第一关键词组与所述第二关键词组相同。
9.一种标注数据获取装置,其特征在于,包括:
第一获取模块,用于从一电子病历中获取医生主述数据,从一电子分诊记录中获取用户主述数据;
匹配模块,用于将所述医生主述数据与所述用户主述数据进行匹配;
构建模块,用于若匹配结果满足条件,生成一条标注数据,其中,所述用户主述数据,以及所述电子病历中的患者性别和年龄构成所述标注数据中的用户输入文本,所述电子病历中的疾病名称和就诊科室名称为所述标注数据的标签。
10.一种分诊装置,其特征在于,包括:
第二获取模块,用于获取用户输入数据,所述用户输入数据包括用户主述数据、患者性别和年龄;
分诊模块,用于将所述用户输入数据输入预先训练好的分诊模型,得到分诊结果,所述分诊结果中包括疾病名称和就诊科室;其中,所述分诊模型利用标注数据库训练得到,所述标注数据库中的标注数据均标注有疾病名称和就诊科室名称,所述标注数据是从电子病历和电子分诊记录中提取得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818358.8A CN110534185B (zh) | 2019-08-30 | 2019-08-30 | 标注数据获取方法、分诊方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910818358.8A CN110534185B (zh) | 2019-08-30 | 2019-08-30 | 标注数据获取方法、分诊方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110534185A true CN110534185A (zh) | 2019-12-03 |
CN110534185B CN110534185B (zh) | 2024-08-20 |
Family
ID=68665999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910818358.8A Active CN110534185B (zh) | 2019-08-30 | 2019-08-30 | 标注数据获取方法、分诊方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534185B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991535A (zh) * | 2019-12-04 | 2020-04-10 | 中山大学 | 一种基于多类型医学数据的pCR预测方法 |
CN111462913A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种病例文书中疾病诊断的自动切分方法及装置 |
CN112016295A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 症状数据处理方法、装置、计算机设备及存储介质 |
CN112164454A (zh) * | 2020-10-10 | 2021-01-01 | 联仁健康医疗大数据科技股份有限公司 | 一种分诊预测的方法、装置及电子设备 |
CN112397170A (zh) * | 2020-12-01 | 2021-02-23 | 山东勤成健康科技股份有限公司 | 一种电子病历生成方法及装置 |
CN112989767A (zh) * | 2021-04-21 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 医学词语标注方法、医学词语映射方法、装置及设备 |
CN113642312A (zh) * | 2021-08-19 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 体检数据的处理方法、装置、设备及存储介质 |
CN116936080A (zh) * | 2023-07-27 | 2023-10-24 | 中日友好医院(中日友好临床医学研究所) | 一种基于对话及电子病历的初步导诊方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN107403068A (zh) * | 2017-07-31 | 2017-11-28 | 合肥工业大学 | 融合临床思维的智能辅助问诊方法及系统 |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN108831544A (zh) * | 2018-06-27 | 2018-11-16 | 中国人民解放军陆军军医大学第三附属医院(野战外科研究所) | 一种门诊自动分诊方法及系统 |
CN108922608A (zh) * | 2018-06-13 | 2018-11-30 | 平安医疗科技有限公司 | 智能导诊方法、装置、计算机设备和存储介质 |
CN108986907A (zh) * | 2018-07-24 | 2018-12-11 | 郑州大学第附属医院 | 一种基于knn算法的远程医疗自动分诊方法 |
CN109635122A (zh) * | 2018-11-28 | 2019-04-16 | 平安科技(深圳)有限公司 | 智能疾病问询方法、装置、设备及存储介质 |
CN109887587A (zh) * | 2019-01-22 | 2019-06-14 | 平安科技(深圳)有限公司 | 智能分诊方法、系统、装置及存储介质 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
-
2019
- 2019-08-30 CN CN201910818358.8A patent/CN110534185B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383853A (zh) * | 2016-08-30 | 2017-02-08 | 刘勇 | 一种电子病历后结构化以及辅助诊断的实现方法及其系统 |
CN107403068A (zh) * | 2017-07-31 | 2017-11-28 | 合肥工业大学 | 融合临床思维的智能辅助问诊方法及系统 |
CN108182262A (zh) * | 2018-01-04 | 2018-06-19 | 华侨大学 | 基于深度学习和知识图谱的智能问答系统构建方法和系统 |
CN108922608A (zh) * | 2018-06-13 | 2018-11-30 | 平安医疗科技有限公司 | 智能导诊方法、装置、计算机设备和存储介质 |
CN108831544A (zh) * | 2018-06-27 | 2018-11-16 | 中国人民解放军陆军军医大学第三附属医院(野战外科研究所) | 一种门诊自动分诊方法及系统 |
CN108986907A (zh) * | 2018-07-24 | 2018-12-11 | 郑州大学第附属医院 | 一种基于knn算法的远程医疗自动分诊方法 |
CN109635122A (zh) * | 2018-11-28 | 2019-04-16 | 平安科技(深圳)有限公司 | 智能疾病问询方法、装置、设备及存储介质 |
CN109887587A (zh) * | 2019-01-22 | 2019-06-14 | 平安科技(深圳)有限公司 | 智能分诊方法、系统、装置及存储介质 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991535A (zh) * | 2019-12-04 | 2020-04-10 | 中山大学 | 一种基于多类型医学数据的pCR预测方法 |
CN111462913A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种病例文书中疾病诊断的自动切分方法及装置 |
CN111462913B (zh) * | 2020-03-11 | 2023-08-15 | 云知声智能科技股份有限公司 | 一种病例文书中疾病诊断的自动切分方法及装置 |
CN112016295A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 症状数据处理方法、装置、计算机设备及存储介质 |
CN112016295B (zh) * | 2020-09-04 | 2024-02-23 | 平安科技(深圳)有限公司 | 症状数据处理方法、装置、计算机设备及存储介质 |
CN112164454A (zh) * | 2020-10-10 | 2021-01-01 | 联仁健康医疗大数据科技股份有限公司 | 一种分诊预测的方法、装置及电子设备 |
CN112397170A (zh) * | 2020-12-01 | 2021-02-23 | 山东勤成健康科技股份有限公司 | 一种电子病历生成方法及装置 |
CN112989767A (zh) * | 2021-04-21 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 医学词语标注方法、医学词语映射方法、装置及设备 |
CN112989767B (zh) * | 2021-04-21 | 2021-09-03 | 腾讯科技(深圳)有限公司 | 医学词语标注方法、医学词语映射方法、装置及设备 |
CN113642312A (zh) * | 2021-08-19 | 2021-11-12 | 平安医疗健康管理股份有限公司 | 体检数据的处理方法、装置、设备及存储介质 |
CN116936080A (zh) * | 2023-07-27 | 2023-10-24 | 中日友好医院(中日友好临床医学研究所) | 一种基于对话及电子病历的初步导诊方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110534185B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534185B (zh) | 标注数据获取方法、分诊方法、装置、存储介质及设备 | |
Fan et al. | Adverse drug event detection and extraction from open data: A deep learning approach | |
CN109599185B (zh) | 疾病数据处理方法、装置、电子设备及计算机可读介质 | |
CN107341264B (zh) | 一种支持自定义实体的电子病历检索系统及方法 | |
Yu et al. | Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN | |
Teng et al. | Automatic medical code assignment via deep learning approach for intelligent healthcare | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
WO2018188981A1 (en) | Drawing conclusions from free form texts with deep reinforcement learning | |
US10936962B1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
Gudivada et al. | A literature review on machine learning based medical information retrieval systems | |
CN114420279A (zh) | 一种医疗资源推荐方法、装置、设备及存储介质 | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN113643825B (zh) | 基于临床关键特征信息的医疗案例知识库构建方法和系统 | |
WO2021139271A1 (zh) | 基于fm模型的医学热点的预测方法、装置和计算机设备 | |
CN116737945B (zh) | 一种患者emr知识图谱映射方法 | |
Lee et al. | Leveraging deep representations of radiology reports in survival analysis for predicting heart failure patient mortality | |
CN113793668B (zh) | 基于人工智能的症状标准化方法、装置、电子设备及介质 | |
US12087442B2 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
CN115662562A (zh) | 病历诊疗数据管理方法、装置、设备及存储介质 | |
CN114627993A (zh) | 信息预测方法、装置、存储介质及计算机设备 | |
Wang et al. | Automatic ICD-10 coding based on multi-head attention mechanism and gated residual network | |
Wang et al. | End-to-end pre-trained dialogue system for automatic diagnosis | |
Sbissi et al. | A medical decision support system for cardiovacsular disease based on ontology learning | |
Vivek et al. | An Expressive phrases identification supported with feature prediction consuming unstructured data collection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |