CN113130025B - 一种实体关系抽取方法、终端设备及计算机可读存储介质 - Google Patents
一种实体关系抽取方法、终端设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113130025B CN113130025B CN202010047654.5A CN202010047654A CN113130025B CN 113130025 B CN113130025 B CN 113130025B CN 202010047654 A CN202010047654 A CN 202010047654A CN 113130025 B CN113130025 B CN 113130025B
- Authority
- CN
- China
- Prior art keywords
- extraction
- candidate
- instance
- seed
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000004590 computer program Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 230000036541 health Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001632422 Radiola linoides Species 0.000 description 1
- 235000019013 Viburnum opulus Nutrition 0.000 description 1
- 244000071378 Viburnum opulus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007721 medicinal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实体关系抽取方法、终端设备及计算机可读存储介质,其方法包括:从电子病历文本数据库中人工抽取若干个符合预设实体关系的二元实体对作为种子实例;对每个种子实例,均在电子病历文本数据库中查找包括种子实例的句子,并提取该句子的特征向量;基于特征向量对种子实例进行聚类;均根据其中种子实例以及种子实例相应有句子的特征向量,生成与该聚类集群对应的提取模板;使用提取模板在电子病历文本数据库中提取候选实例;根据候选实例与提取模板之间的实体关系,计算各候选实例的置信度,以根据置信度确认是否要将该候选实例作为新的种子实例进行下一轮次迭代。本发明能够较大幅度的提高电子病历实体关系抽取的准确率。
Description
技术领域
本发明属于自然语言处理技术领域,特别涉及一种基于半监督的医疗电子病历实体关系抽取方法、终端设备及计算机可读存储介质。
背景技术
在这个越来越信息化和智能化的年代,医疗健康服务也不断往信息化和智能化方面发展,医疗电子病历也开始逐渐在医疗健康领域发挥越来越重要的作用。病历(MedicalRecords)是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医疗活动过程的记录。也是对采集到的资料加以归纳、整理、综合分析,按规定的格式和要求书写的患者医疗健康档案。传统的纸质病历具有保存分散,检索困难,容易丢失,字迹难辨等缺点,使得此类病历难以通过现代化手段进行管理和利用,故电子病历无论是在内容方面还是在可利用程度等方面都优于纸质病历。近年来电子病历的使用越来越广泛,人们对电子病历的认识逐渐完善,其中包括了患者的一些临床信息,如数字,文字,表格,图形,图像等大量的医学知识,如何有效的挖掘,利用这些专业知识对于医疗健康事业的发展有重要作用。
应用自然语言处理方法挖掘医疗文本中的知识主要用到的是信息抽取相关技术,而信息抽取任务主要包括NER(命名实体识别)和RE(关系提取)。该任务在医学信息学中用于临床决策支持(Clinical decision support,CDS)研究服务于医疗专业人员。本方法主要是针对其中关系抽取这一任务提出的一种方法。
关系提取是一种在自然语言处理过程中提取实体之间的命名关系的任务,提取的是在实体识别过程中被标记的句子中的实体之间的语义关系。根据训练数据集在提取过程中对人工标注的依赖性,基于机器学习,监督关系抽取,半监督关系抽取,无监督关系抽取和开放实体关系抽取将关系抽取技术分为三类。
1、监督关系抽取:监督关系提取的本质是分类,该方法需要大量带标签的训练数据集,然后通过机器学习对文本语料库的实体关系类型进行识别和分类。基于特征向量的方法是从文本语料库的句子中提取形态信息,句法信息和关系模式信息,并量化并编码从这些句子中提取的有用信息。然后可以构造特征向量和特征组合。可以通过机器学习来建立实体关系提取模型(例如分类器SVM,WINDOW)。手动注释语料库的数量需求是监督关系提取的最大弱点,该方法不适用于处理海量数据语料库。
2、弱监督关系抽取:弱监督的关系提取仅需要少量注释的语料库,并使用关系种子的代表性样本。所标注的训练数据集的种子可以在大规模语料库中应用,并通过迭代方法不断地提取新的提取模式。使用最广泛的方法是自举,标签传播和主动学习。引导程序通过对有限的种子样本进行多次实验来总结扩展种子集,并通过多次迭代的方式获得训练示例。在自举研究中,两个代表系统是DIPRE和Snowball。此方法对初始关系种子有很高的要求,每个字段都需要高质量的关系,研究表明,此类方法召回率较低,便携性较差。
3、无监督关系抽取:无监督的关系提取不需要任何人工注释的语料库,并且不需要预定义实体关系,对语义关系的自动提取处理主要取决于对语料库的聚类。该方法在各个领域都具有很强的可移植性,可用于大规模信息提取。但是,目前的实验研究尚未获得理想的提取结果,并且其准确度和查全率也没有明显提高。
基于半监督的关系抽取能够利用大量未标注的数据,只需要手动注释少量的实体关系,该方法可用于缺少标注语料库的实体关系提取,在电子病历关系抽取中已经显示出其优势,但是现有的关于弱监督的关于医疗电子病历关系抽取方法准确率不高,对初始关系种子的质量要求较高,可能引入噪声导致语义漂移,召回率低。
发明内容
本发明所要解决的技术问题在于,提供一种基于半监督的医疗电子病历的实体关系抽取方法、终端设备及计算机可读存储介质,能够较大幅度的提高电子病历实体关系抽取的准确率。
为实现上述技术目的,本发明采用如下技术方案:
一种实体关系抽取方法,包括以下步骤:
步骤1,从电子病历文本数据库中人工抽取若干个符合预设实体关系的二元实体对作为种子实例;
步骤2,对每个种子实例,均在电子病历文本数据库中查找包括种子实例的句子,并提取该句子的特征向量;
步骤3,基于特征向量对种子实例进行聚类;均根据其中种子实例以及种子实例相应有句子的特征向量,生成与该聚类集群对应的提取模板;
步骤4,使用步骤3得到的提取模板,在电子病历文本数据库中提取候选实例;
其中,每个提取模板均可提取一组若干个候选实例,多个提取模板均可提取得到同一个候选实例;
步骤5,根据候选实例的置信度增加新的种子实例;
步骤5.1,对步骤3得到的每个提取模板,均使用由自身提取得到的候选实例与自身之间的实体关系,计算该提取模板置信度;
步骤5.2,对步骤4得到的每个候选实例,均使用可提取自身的所有提取模板的置信度,计算该候选实例的置信度;
步骤5.3,将置信度大于置信度阈值的候选实例作为新的种子实例,返回步骤2执行下一次迭代,直到达到预设迭代次数。
在更优的技术方案中,步骤5.1中计算每个提取模板置信度的方法为:
对由自身提取得到的候选实例进行统计,若候选实例与提取模板中的2个实体相同,则该候选实例为正提取;若候选实例与提取模板中的1个实体相同,则该候选实例为负提取;若候选实例与提取模板中的2个实体均不同,则该候选实例为未知提取;然后根据正提取、负提取和未知提取的数量,按以下公式计算该提取模板的置信度:
式中,Confρ(p)表示模板p的置信度,|P|、|N|、|U|分别表示模板p所对应的正提取、负提取、未知提取的数量,Wngt、Wunk分别是负提取和未知提取的权重;
步骤5.2中计算候选实例置信度的方法为:
式中,Confι(i)为候选实例i的置信度,ξ为候选实例i的所有提取模板组成的集合,ξj为集合ξ中标号为j的提取模板,Ci为候选实例i所在的句子;sim(Ci,ξj)表示句子Ci与提取模板ξj之间的相似度。
在更优的技术方案中,所述候选实例是指,与提取模板相似度大于相似度阈值的所有符合预设实体关系的二元实体对。
在更优的技术方案中,提取每个句子特征向量的具体过程为:根据依存句法对句子进行分析,提取句子中的二元实体对的所有依存特征,使用skip-gram方法提取每个依存特征的词向量,取所有词向量的平均值作为该句子的特征向量。
在更优的技术方案中,采用single-pass算法对句子进行聚类。
在更优的技术方案中,符合预设实体关系的二元实体对为<身体部位,医学描述>。
在更优的技术方案中,电子病历文本数据库是指,包括若干医疗电子病历文本数据、并已分句处理、且对每个句子进行实体标注处理得到的txt文档。
在更优的技术方案中,预设迭代次数为5次。
本发明还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述方法。
有益效果
与现有技术相比,本发明所具有的的有益效果为:
本发明,首先利用少量种子实例生成提取模板,然后根据提取模板从电子病历文本数据库中提取候选实例,最后根据候选实例与提取模板之间的实体关系,计算各候选实例的置信度,以根据置信度确认是否要将该候选实例作为新的种子实例进行下一轮次迭代,因此可以控制语义漂移,即可以避免与提取模板相关度低的一些候选实例作为种子实例进入下一次迭代而频繁产生与种子实例不相关的更多关系实例,从而能够较大幅度地提高电子病历实体关系抽取的准确率;而且本发明只需要提供少量种子实例,因此可以处理大量没有标签的数据,且效果不错,可以更好地帮助医疗健康事业的发展。
附图说明
图1为本发明实施例所述方法流程图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本实施例提供一种基于半监督的医疗电子病历实体关系抽取方法,如图1所示,包括以下步骤:
步骤1,数据预处理;
从医院获取若干用于训练的医疗电子病历文本数据,将所有数据合并成为一个txt文档;再将文档分句;然后使用BILSTM+CRF技术将文档中的句子进行实体标注,并重点关注BODYPART(身体部位)和DESCRIPTION(医学描述)两种类型的实体,得到句子文档;最终采取人工方式,在句子文档中选取少量实体关系为<身体部位,医学描述>的二元实体对作为种子实例,比如<腰部,疼痛>。
步骤2,查找种子匹配:对于每个种子实例,均在电子病历文本数据库中查找包括种子实例的句子,并提取该句子的特征向量。
具体地,对句子文档进行扫描,如果种子实例中的两个实体同时出现在某个句子中,则对该句子Si={ai1,ai2,ai3,...,ain}进行依存句法分析,提取句子中两个实体的公共依赖特征aiq,即提取句子中二元实体对的所有依存特征;然后使用skip-gram方法进行词嵌入得到每个依存特征aiq对应的词向量最后取所有词向量/>的平均值作为该句子Si的特征向量/>
步骤3,生成提取模板:基于特征向量、并采用single-pass算法,对种子实例进行聚类;对于每个聚类集群,均根据其中种子实例以及种子实例相应有句子的特征向量,生成与该聚类集群对应的提取模板。
具体地,获取所有种子实例,将第1个种子实例分配给新的空群集;遍历剩余的每个种子实例,基于特征向量计算种子实例与每个集群之间的相似度,并将该种子实例分配给相似度高于或等于相似度阈值τsim的第一个集群,若该种子实例与每个集群的相似度均低于相似度阈值τsim,则创建一个新的集群,并将种子实例分配给新创建的集群;最终每个集群包括一组若干个种子实例,再通过人工监督的方法去掉错误的簇,剩下的簇则通过对其中种子实例的特征向量求平均来生成模板即每个簇Clj生成一个提取模板,其中/>为模板Pj的特征向量。在本实施例中,如果集群中的种子实例的实体关系不符合预设实体关系,即不符合<身体部位,医学描述>这个关系,则认为是错误的簇。
其中,种子实例in与集群Clj之间的相似度函数为sim(in,Clj),通过计算种子实例in与集群Clj中每个种子实例的相似度,如果大于一半的相似度得分大于相似度阈值,则将其中最大相似度得分作为种子实例in与集群Clj之间的相似度值,否则将种子实例in与集群Clj之间的相似度值赋为0。而且两个种子实例之间的相似度计算公式为:
sim(in,ij)=sim(Sn,Sj)=cos(Vn,Vj);
其中,in,ij表示两个不同的种子实例,Sn,Sj分别表示种子实例in,ij所在的句子,Vn,Vj分别表示句子Sn,Sj的特征向量,cos(Vn,Vj)表示求特征向量Vn,Vj之间的余弦相似度。
步骤4,查找候选实例:使用步骤3得到的提取模板,在电子病历文本数据库中提取候选实例,即与提取模板相似度大于相似度阈值的所有符合预设实体关系的二元实体对;
其中,每个提取模板均可提取一组若干个候选实例,多个提取模板均可提取得到同一个候选实例。
具体地,包括以下步骤:
步骤4.1,扫描句子文档,收集包含符合预设实体关系的二元实体对的所有句子;
步骤4.2,遍历由步骤4.1得到的每个句子:按步骤2相同方法对句子进行依存句法分析等步骤以提取句子的特征向量;然后基于特征向量计算句子与每个提取模板的相似度:如果该句子与任意一个提取模板的相似度大于相似度阈值,则将该句子中的二元实体对作为候选实例,将相似度大于相似度阈值的所有提取模板均作为该候选实例的提取模板;
步骤4.3,在步骤4.2完成之后,每个候选实例均可能对应一组若干个提取模板,且一组若干个候选实例均可能对应同一个提取模板,即是说:每个提取模板均可提取一组若干个候选实例,多个提取模板均可提取得到同一个候选实例。
步骤5,控制语义漂移,以根据候选实例的置信度增加新的种子实例;
步骤5.1,对步骤3得到的每个提取模板,均使用由自身提取得到的候选实例与自身之间的实体关系,计算该提取模板置信度,具体为:
对由自身提取得到的候选实例进行统计,若候选实例与提取模板中的2个实体相同,则该候选实例为正提取;若候选实例与提取模板中的1个实体相同,则该候选实例为负提取;若候选实例与提取模板中的2个实体均不同,则该候选实例为未知提取;然后根据正提取、负提取和未知提取的数量,按以下公式计算该提取模板的置信度:
式中,Confρ(p)表示模板p的置信度,|P|、|N|、|U|分别表示模板p所对应的正提取、负提取、未知提取的数量,Wngt、Wunk分别是负提取和未知提取的权重;
步骤5.2,对步骤4得到的每个候选实例,均使用可提取自身的所有提取模板的置信度,按以下公式计算该候选实例的置信度:
式中,Confι(i)为候选实例i的置信度,ξ为候选实例i的所有提取模板组成的集合,ξj为集合ξ中标号为j的提取模板,Ci为候选实例i所在的句子;sim(Ci,ξj)表示句子Ci与提取模板ξj之间的相似度;
步骤5.3,将置信度大于置信度阈值τt的候选实例作为新的种子实例,返回步骤2执行下一次迭代,直到达到预设迭代次数时结束;在本实施例中,设置预设迭代次数为5次。
本发明还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述方法实施例中所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例中所述的方法。
本发明上述实施例所述的实体关系抽取方法、终端设备以及计算机可读存储介质,首先利用少量种子实例生成提取模板,然后根据提取模板从电子病历文本数据库中提取候选实例,再根据候选实例与提取模板之间的实体关系,计算各候选实例的置信度,以根据置信度确认是否要将该候选实例作为新的种子实例进行下一轮次迭代,因此可以控制语义漂移,即可以避免与提取模板相关度低的一些候选实例作为种子实例进入下一次迭代而频繁产生与种子实例不相关的更多实例,从而能够较大幅度地提高电子病历实体关系抽取的准确率;而且本发明只需要提供少量种子实例,因此可以处理大量没有标签的数据,且效果不错,可以更好的帮助医疗健康事业的发展。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (7)
1.一种实体关系抽取方法,其特征在于,包括以下步骤:
步骤1,从电子病历文本数据库中人工抽取若干个符合预设实体关系的二元实体对作为种子实例;其中,符合预设实体关系的二元实体对为<身体部位,医学描述>;
步骤2,对每个种子实例,均在电子病历文本数据库中查找包括种子实例的句子,并提取该句子的特征向量;
步骤3,基于特征向量对种子实例进行聚类;均根据其中种子实例以及种子实例相应有句子的特征向量,生成与该聚类集群对应的提取模板;其中,采用single-pass算法对句子进行聚类;
步骤4,使用步骤3得到的提取模板,在电子病历文本数据库中提取候选实例;
其中,每个提取模板均可提取一组若干个候选实例,多个提取模板均可提取得到同一个候选实例;
步骤5,根据候选实例的置信度增加新的种子实例;
步骤5.1,对步骤3得到的每个提取模板,均使用由自身提取得到的候选实例与自身之间的实体关系,计算该提取模板置信度;
步骤5.1中计算每个提取模板置信度的方法为:
对由自身提取得到的候选实例进行统计,若候选实例与提取模板中的2个实体相同,则该候选实例为正提取;若候选实例与提取模板中的1个实体相同,则该候选实例为负提取;若候选实例与提取模板中的2个实体均不同,则该候选实例为未知提取;然后根据正提取、负提取和未知提取的数量,按以下公式计算该提取模板的置信度:
式中,Confρ(p)表示模板p的置信度,|P|、|N|、|U|分别表示模板p所对应的正提取、负提取、未知提取的数量,Wngt、Wunk分别是负提取和未知提取的权重;
步骤5.2中计算候选实例置信度的方法为:
式中,Confι(i)为候选实例i的置信度,ξ为候选实例i的所有提取模板组成的集合,ξj为集合ξ中标号为j的提取模板,Ci为候选实例i所在的句子;sim(Ci,ξj)表示句子Ci与提取模板ξj之间的相似度;
步骤5.2,对步骤4得到的每个候选实例,均使用可提取自身的所有提取模板的置信度,计算该候选实例的置信度;
步骤5.3,将置信度大于置信度阈值的候选实例作为新的种子实例,返回步骤2执行下一次迭代,直到达到预设迭代次数。
2.根据权利要求1所述的方法,其特征在于,所述候选实例是指,与提取模板相似度大于相似度阈值的所有符合预设实体关系的二元实体对。
3.根据权利要求1所述的方法,其特征在于,提取每个句子特征向量的具体过程为:根据依存句法对句子进行分析,提取句子中的二元实体对的所有依存特征,使用skip-gram方法提取每个依存特征的词向量,取所有词向量的平均值作为该句子的特征向量。
4.根据权利要求1所述的方法,其特征在于,电子病历文本数据库是指,包括若干医疗电子病历文本数据、并已分句处理、且对每个句子进行实体标注处理得到的txt文档。
5.根据权利要求1所述的方法,其特征在于,预设迭代次数为5次。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010047654.5A CN113130025B (zh) | 2020-01-16 | 2020-01-16 | 一种实体关系抽取方法、终端设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010047654.5A CN113130025B (zh) | 2020-01-16 | 2020-01-16 | 一种实体关系抽取方法、终端设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113130025A CN113130025A (zh) | 2021-07-16 |
CN113130025B true CN113130025B (zh) | 2023-11-24 |
Family
ID=76771765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010047654.5A Active CN113130025B (zh) | 2020-01-16 | 2020-01-16 | 一种实体关系抽取方法、终端设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113130025B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658652B (zh) * | 2021-08-18 | 2023-07-28 | 四川大学华西医院 | 一种基于电子病历数据文本的二元关系提取方法 |
CN113836924A (zh) * | 2021-09-16 | 2021-12-24 | 东软集团股份有限公司 | 实体关系抽取方法、装置、存储介质及电子设备 |
CN114625880B (zh) * | 2022-05-13 | 2022-08-19 | 上海帜讯信息技术股份有限公司 | 人物关系抽取方法、装置、终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050027664A1 (en) * | 2003-07-31 | 2005-02-03 | Johnson David E. | Interactive machine learning system for automated annotation of information in text |
US10678816B2 (en) * | 2017-08-23 | 2020-06-09 | Rsvp Technologies Inc. | Single-entity-single-relation question answering systems, and methods |
-
2020
- 2020-01-16 CN CN202010047654.5A patent/CN113130025B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN110188193A (zh) * | 2019-04-19 | 2019-08-30 | 四川大学 | 一种基于最短依存子树的电子病历实体关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
PCN: Part and Context Information for Pedestrian Detection with CNNs;Shiguang Wan等;《网页在线公开:https://arxiv.org/abs/1804.04483v1》;第1-13页 * |
Pedestrian Detection via Body Part Semantic and Contextual Information With DNN;Shiguang Wang等;《IEEE TRANSACTIONS ON MULTIMEDIA》;第20卷(第11期);第3148-3159页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113130025A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ikezogwo et al. | Quilt-1m: One million image-text pairs for histopathology | |
CN113130025B (zh) | 一种实体关系抽取方法、终端设备及计算机可读存储介质 | |
WO2017162134A1 (zh) | 用于文本处理的电子设备和方法 | |
CN111834014A (zh) | 一种医疗领域命名实体识别方法及系统 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN110931137B (zh) | 机器辅助对话系统、方法及装置 | |
CN114817386A (zh) | 一种结构化医疗数据生成方法及装置 | |
CN111696640A (zh) | 自动获取病历模板的方法、装置和存储介质 | |
WO2021046536A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
Rizvi et al. | Optical character recognition system for Nastalique Urdu-like script languages using supervised learning | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Sun et al. | Study on medical image report generation based on improved encoding-decoding method | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN107977368A (zh) | 信息提取方法及系统 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN117235275A (zh) | 一种基于大语言模型推理的医学疾病编码映射方法及装置 | |
WO2021189920A1 (zh) | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN118427396B (zh) | 多模态大模型辅助的无监督跨模态视频检索方法及设备 | |
Shi et al. | Understanding patient query with weak supervision from doctor response | |
CN112347773B (zh) | 基于bert模型的医学应用模型训练方法及装置 | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112836019A (zh) | 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |