Nothing Special   »   [go: up one dir, main page]

CN113658652A - 一种基于电子病历数据文本的二元关系提取方法 - Google Patents

一种基于电子病历数据文本的二元关系提取方法 Download PDF

Info

Publication number
CN113658652A
CN113658652A CN202110946939.7A CN202110946939A CN113658652A CN 113658652 A CN113658652 A CN 113658652A CN 202110946939 A CN202110946939 A CN 202110946939A CN 113658652 A CN113658652 A CN 113658652A
Authority
CN
China
Prior art keywords
extracted
text
sentence
electronic medical
medical record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110946939.7A
Other languages
English (en)
Other versions
CN113658652B (zh
Inventor
朱婷
张伟
刘瑞航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202110946939.7A priority Critical patent/CN113658652B/zh
Publication of CN113658652A publication Critical patent/CN113658652A/zh
Application granted granted Critical
Publication of CN113658652B publication Critical patent/CN113658652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及电子病历领域,公开了一种基于电子病历数据文本的二元关系提取方法,包括以下提取步骤:a、源数据输入,进行源数据预处理;b、对预处理的源数据文本进行对应二元关系的提取;c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出。本发明不将提取的内容限定或固定,将命名实体的关系定于二元关系。比如:症状+持续时间,药物+剂量等这些文本+数字的规范格式的规则,提取电子病历中的结构化信息,这种方法的优势在于能通过简单的模板设置,遍历当前病人出院小结文本,将这些关键内容可以快速的提出,以便为后续临床决策问题建模研究提供辅助。具有更快速、提取的内容更详细准确等优点。

Description

一种基于电子病历数据文本的二元关系提取方法
技术领域
本发明涉及电子病历领域,具体涉及一种基于电子病历数据文本的二元关系提取方法。
背景技术
电子病历是医务人员利用医疗机构信息系统生成的文本、符号、图表、图形、数据、图像等数字信息,在医疗活动过程中进行存储、管理、传输和复制的一种病历。通过对电子病历的分析,我们可以挖掘出很多与患者密切相关的医学知识。
在电子病历中存在大量文本用于描述病人的病症,但是可能一个病人当前入院时,其往往都伴随着多种疾病合并症。在对这些病例进行个性化医疗健康信息研究时,需要对电子病历中的有效信息进行提取,现有的提取方法常基于词典以及深度学习,但这些方法在实际应用中提取的速度相对较慢、且提取的内容详细度以及准确度有待提高。
发明内容
本发明的目的在于提供一种基于电子病历数据文本的二元关系提取方法。
为实现上述发明目的,本发明所采用的技术方案是:一种基于电子病历数据文本的二元关系提取方法,包括以下提取步骤:
a、源数据输入,进行源数据预处理;
b、对预处理的源数据文本进行对应二元关系的提取;
c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出。
进一步地,所述预处理包括以下步骤:
A101、文本规范化:包括去除特殊文本、替换有歧义文本、处理异常替换中的一种或多种操作;
A102、分句:根据文本特点,设置标点符号进行分句;
A103、去除冗余,去除空白,同时清理有重复且异常的数据,并将处理好的内容放到待提取句子库里。
进一步地,所述步骤b包括以下提取步骤:
B101、新建中间缓存变量,遍历待提取句子库中里的待提取文本;
B102、对范式进行分析拆分,判断提取文本中是否包含数字,若无提取数字则将该句子加入到缓存库中,返回步骤B101遍历下一个句子;
B103、若成功提取出数字,接下来判断是否能够提取数字加单位,若无法提取出单位,则将该句子加入异常库中,进行人工处理检查;
B104、判断提取的数字的数量,若提取个数为一个,那么就将当前句子加入缓存库中,对应当前格式化内容;若提取个数大于一个,进行位置判断,并更新二元对应关系。
进一步地,所述预处理中还包括人工辅助处理。
进一步地,所述源数据包括txt,xlsx或csv文本。
本发明的有益效果集中体现在:
本发明不将提取的内容限定或固定,将命名实体的关系定于二元关系。比如:症状+持续时间,药物+剂量等这些文本+数字的规范格式的规则,提取电子病历中的结构化信息,这种方法的优势在于能通过简单的模板设置,遍历当前病人出院小结文本,将这些关键内容可以快速的提出,以便为后续临床决策问题建模研究提供辅助。相比于传统基于词典以及深度学习的方法,本发明具有更快速、提取的内容更详细准确等优点。
附图说明
图1是本发明提取流程图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1所示,一种基于电子病历数据文本的二元关系提取方法,本发明可以快速自动地从文本中提取自定义的二元关系对,例如症状+持续时间,用药+用量等,具体包括以下提取步骤:
a、源数据输入,也就是主诉单独的一列数据,进行源数据预处理,在本实施例中所述源数据包括txt,xlsx或csv文本;
源数据的预处理具体包括以下步骤:
A101、文本规范化:包括去除特殊文本、替换有歧义文本、处理异常替换中的一种或多种操作;
例如:去除特殊汉字:“因”、“于”等;
去除标点符号:”等;
替换有歧义的汉字:“一年半”、“2年7月”等;
处理异常替换:“反向相同1问题”,“20年内发作性意识丧失2次”等。
A102、分句:根据文本特点,设置标点符号进行分句;例如:每个症状+持续时间均为一段话,心慌害怕3+月,加重伴自伤15+天;
A103、去除冗余,去除空白,同时清理有重复且异常的数据,并将处理好的内容放到待提取句子库(list)里。
在步骤a中,预处理还包括人工辅助处理,通过人工去除特殊症状以及特殊主诉。
b、对预处理的源数据文本进行对应二元关系的提取;
在本实施例中该步骤中的具体提取步骤为:
B101、新建中间缓存变量,遍历待提取句子库中里的待提取文本;
B102、对范式进行分析拆分,判断提取文本中是否包含数字,若无提取数字则将该句子加入到缓存库中,返回步骤B101遍历下一个句子;
B103、若成功提取出数字,接下来判断是否能够提取数字加单位,若无法提取出单位,则将该句子加入异常库中,进行人工处理检查;
B104、在本步骤中,首先判断是否提取出“数字+单位”,若成功提取出上述内容,根据电子病历医学文本特性,判断提取内容的数量,若提取个数为一个,那么就将当前句子加入缓存库中,对应当前格式化内容。若提取个数大于一个,即为两个或者三个,进行位置判断,并更新二元对应关系。
c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出;在本步骤中存储成三个list,通过dataframe转换为CSV输出文件。
本发明不将提取的内容限定或固定,将命名实体的关系定于二元关系。比如:症状+持续时间,药物+剂量等这些文本+数字的规范格式的规则,提取电子病历中的结构化信息,这种方法的优势在于能通过简单的模板设置,遍历当前病人出院小结文本,将这些关键内容可以快速的提出,以便为后续临床决策问题建模研究提供辅助。相比于传统基于词典以及深度学习的方法,本发明具有更快速、提取的内容更详细准确等优点。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。

Claims (5)

1.一种基于电子病历数据文本的二元关系提取方法,其特征在于:包括以下提取步骤:
a、源数据输入,进行源数据预处理;
b、对预处理的源数据文本进行对应二元关系的提取;
c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出。
2.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法,其特征在于:所述预处理包括以下步骤:
A101、文本规范化:包括去除特殊文本、替换有歧义文本、处理异常替换中的一种或多种操作;
A102、分句:根据文本特点,设置标点符号进行分句;
A103、去除冗余,去除空白,同时清理有重复且异常的数据,并将处理好的内容放到待提取句子库里。
3.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法,其特征在于:所述步骤b包括以下提取步骤:
B101、新建中间缓存变量,遍历待提取句子库中的待提取文本;
B102、对范式进行分析拆分,判断提取文本中是否包含数字,若无提取数字则将该句子加入到缓存库中,返回步骤B101遍历下一个句子;
B103、若成功提取出数字,接下来判断是否能够提取数字加单位,若无法提取出单位,则将该句子加入异常库中,进行人工处理检查;
B104、判断提取的数字的数量,若提取个数为一个,那么就将当前句子加入缓存库中的句子,对应当前格式化内容;若提取个数大于一个,进行位置判断,并更新二元对应关系。
4.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法,其特征在于:所述预处理中还包括人工辅助处理。
5.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法,其特征在于:所述源数据包括txt,xlsx或csv文本。
CN202110946939.7A 2021-08-18 2021-08-18 一种基于电子病历数据文本的二元关系提取方法 Active CN113658652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110946939.7A CN113658652B (zh) 2021-08-18 2021-08-18 一种基于电子病历数据文本的二元关系提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110946939.7A CN113658652B (zh) 2021-08-18 2021-08-18 一种基于电子病历数据文本的二元关系提取方法

Publications (2)

Publication Number Publication Date
CN113658652A true CN113658652A (zh) 2021-11-16
CN113658652B CN113658652B (zh) 2023-07-28

Family

ID=78480800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110946939.7A Active CN113658652B (zh) 2021-08-18 2021-08-18 一种基于电子病历数据文本的二元关系提取方法

Country Status (1)

Country Link
CN (1) CN113658652B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665832A (zh) * 2023-06-01 2023-08-29 湖南首辰健康科技有限公司 基于患者病历的智能化质控方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147639A (zh) * 2017-05-08 2017-09-08 国家电网公司 一种基于复杂事件处理的实时安全预警方法
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110427491A (zh) * 2019-07-04 2019-11-08 北京爱医生智慧医疗科技有限公司 一种基于电子病历的医学知识图谱构建方法及装置
CN111223539A (zh) * 2019-12-30 2020-06-02 同济大学 中文电子病历的关系抽取方法
CN111352987A (zh) * 2020-02-28 2020-06-30 汤学民 一种电子病历结构化方法、系统及相关设备
CN113130025A (zh) * 2020-01-16 2021-07-16 中南大学 一种实体关系抽取方法、终端设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147639A (zh) * 2017-05-08 2017-09-08 国家电网公司 一种基于复杂事件处理的实时安全预警方法
CN110069623A (zh) * 2017-12-06 2019-07-30 腾讯科技(深圳)有限公司 摘要文本生成方法、装置、存储介质和计算机设备
CN110427491A (zh) * 2019-07-04 2019-11-08 北京爱医生智慧医疗科技有限公司 一种基于电子病历的医学知识图谱构建方法及装置
CN111223539A (zh) * 2019-12-30 2020-06-02 同济大学 中文电子病历的关系抽取方法
CN113130025A (zh) * 2020-01-16 2021-07-16 中南大学 一种实体关系抽取方法、终端设备及计算机可读存储介质
CN111352987A (zh) * 2020-02-28 2020-06-30 汤学民 一种电子病历结构化方法、系统及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665832A (zh) * 2023-06-01 2023-08-29 湖南首辰健康科技有限公司 基于患者病历的智能化质控方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113658652B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111428036B (zh) 一种基于生物医学文献的实体关系挖掘方法
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
CN112464667B (zh) 文本的实体识别方法、装置、电子设备和存储介质
CN111291568B (zh) 一种应用于医学文本的实体关系自动标注方法
AU2019203783B2 (en) Extraction of tokens and relationship between tokens from documents to form an entity relationship map
US11113469B2 (en) Natural language processing matrices
CN113658652A (zh) 一种基于电子病历数据文本的二元关系提取方法
CN110705319A (zh) 一种翻译方法
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
Čibej et al. Normalisation, tokenisation and sentence segmentation of Slovene tweets
CN113254651A (zh) 一种裁判文书的分析方法、装置、计算机设备及存储介质
Frank et al. Data preprocessing techniques for NLP in BI
Sodhar et al. Word by Word Labelling of Romanized Sindhi Text by using Online Python Tool
Andrews Digital Techniques for Critical Edition
CN111326262B (zh) 电子病历数据中实体关系抽取方法、装置及系统
RU2751993C1 (ru) Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
AU2021106441A4 (en) Method, System and Device for Extracting Compound Words of Pathological location in Medical Texts Based on Word-Formation
Aliyu et al. SED: An Algorithm for Automatic Identification of Section and Subsection Headings in Text Documents
US11783112B1 (en) Framework agnostic summarization of multi-channel communication
CN115905297B (zh) 用于检索数据的方法、设备和介质
Carvalho et al. Towards Unsupervised Word Error Correction in Textual Big Data.
CN114254651B (zh) 一种医疗领域中文文本部首特征获取方法
CN111755091B (zh) 一种电子病历的处理方法及装置
Ruis et al. Human-in-the-loop Language-agnostic Extraction of Medication Data from Highly Unstructured Electronic Health Records
Hu Building CECIC for the Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant