CN113658652B - 一种基于电子病历数据文本的二元关系提取方法 - Google Patents
一种基于电子病历数据文本的二元关系提取方法 Download PDFInfo
- Publication number
- CN113658652B CN113658652B CN202110946939.7A CN202110946939A CN113658652B CN 113658652 B CN113658652 B CN 113658652B CN 202110946939 A CN202110946939 A CN 202110946939A CN 113658652 B CN113658652 B CN 113658652B
- Authority
- CN
- China
- Prior art keywords
- extracted
- text
- binary relation
- extraction method
- electronic medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 206010033557 Palpitations Diseases 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000007721 medicinal effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及电子病历领域,公开了一种基于电子病历数据文本的二元关系提取方法,包括以下提取步骤:a、源数据输入,进行源数据预处理;b、对预处理的源数据文本进行对应二元关系的提取;c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出。本发明不将提取的内容限定或固定,将命名实体的关系定于二元关系。比如:症状+持续时间,药物+剂量等这些文本+数字的规范格式的规则,提取电子病历中的结构化信息,这种方法的优势在于能通过简单的模板设置,遍历当前病人出院小结文本,将这些关键内容可以快速的提出,以便为后续临床决策问题建模研究提供辅助。具有更快速、提取的内容更详细准确等优点。
Description
技术领域
本发明涉及电子病历领域,具体涉及一种基于电子病历数据文本的二元关系提取方法。
背景技术
电子病历是医务人员利用医疗机构信息系统生成的文本、符号、图表、图形、数据、图像等数字信息,在医疗活动过程中进行存储、管理、传输和复制的一种病历。通过对电子病历的分析,我们可以挖掘出很多与患者密切相关的医学知识。
在电子病历中存在大量文本用于描述病人的病症,但是可能一个病人当前入院时,其往往都伴随着多种疾病合并症。在对这些病例进行个性化医疗健康信息研究时,需要对电子病历中的有效信息进行提取,现有的提取方法常基于词典以及深度学习,但这些方法在实际应用中提取的速度相对较慢、且提取的内容详细度以及准确度有待提高。
发明内容
本发明的目的在于提供一种基于电子病历数据文本的二元关系提取方法。
为实现上述发明目的,本发明所采用的技术方案是:一种基于电子病历数据文本的二元关系提取方法,包括以下提取步骤:
a、源数据输入,进行源数据预处理;
b、对预处理的源数据文本进行对应二元关系的提取;
c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出。
进一步地,所述预处理包括以下步骤:
A101、文本规范化:包括去除特殊文本、替换有歧义文本、处理异常替换中的一种或多种操作;
A102、分句:根据文本特点,设置标点符号进行分句;
A103、去除冗余,去除空白,同时清理有重复且异常的数据,并将处理好的内容放到待提取句子库里。
进一步地,所述步骤b包括以下提取步骤:
B101、新建中间缓存变量,遍历待提取句子库中里的待提取文本;
B102、对范式进行分析拆分,判断提取文本中是否包含数字,若无提取数字则将该句子加入到缓存库中,返回步骤B101遍历下一个句子;
B103、若成功提取出数字,接下来判断是否能够提取数字加单位,若无法提取出单位,则将该句子加入异常库中,进行人工处理检查;
B104、判断提取的数字的数量,若提取个数为一个,那么就将当前句子加入缓存库中,对应当前格式化内容;若提取个数大于一个,进行位置判断,并更新二元对应关系。
进一步地,所述预处理中还包括人工辅助处理。
进一步地,所述源数据包括txt,xlsx或csv文本。
本发明的有益效果集中体现在:
本发明不将提取的内容限定或固定,将命名实体的关系定于二元关系。比如:症状+持续时间,药物+剂量等这些文本+数字的规范格式的规则,提取电子病历中的结构化信息,这种方法的优势在于能通过简单的模板设置,遍历当前病人出院小结文本,将这些关键内容可以快速的提出,以便为后续临床决策问题建模研究提供辅助。相比于传统基于词典以及深度学习的方法,本发明具有更快速、提取的内容更详细准确等优点。
附图说明
图1是本发明提取流程图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
如图1所示,一种基于电子病历数据文本的二元关系提取方法,本发明可以快速自动地从文本中提取自定义的二元关系对,例如症状+持续时间,用药+用量等,具体包括以下提取步骤:
a、源数据输入,也就是主诉单独的一列数据,进行源数据预处理,在本实施例中所述源数据包括txt,xlsx或csv文本;
源数据的预处理具体包括以下步骤:
A101、文本规范化:包括去除特殊文本、替换有歧义文本、处理异常替换中的一种或多种操作;
例如:去除特殊汉字:“因”、“于”等;
去除标点符号:”等;
替换有歧义的汉字:“一年半”、“2年7月”等;
处理异常替换:“反向相同1问题”,“20年内发作性意识丧失2次”等。
A102、分句:根据文本特点,设置标点符号进行分句;例如:每个症状+持续时间均为一段话,心慌害怕3+月,加重伴自伤15+天;
A103、去除冗余,去除空白,同时清理有重复且异常的数据,并将处理好的内容放到待提取句子库(list)里。
在步骤a中,预处理还包括人工辅助处理,通过人工去除特殊症状以及特殊主诉。
b、对预处理的源数据文本进行对应二元关系的提取;
在本实施例中该步骤中的具体提取步骤为:
B101、新建中间缓存变量,遍历待提取句子库中里的待提取文本;
B102、对范式进行分析拆分,判断提取文本中是否包含数字,若无提取数字则将该句子加入到缓存库中,返回步骤B101遍历下一个句子;
B103、若成功提取出数字,接下来判断是否能够提取数字加单位,若无法提取出单位,则将该句子加入异常库中,进行人工处理检查;
B104、在本步骤中,首先判断是否提取出“数字+单位”,若成功提取出上述内容,根据电子病历医学文本特性,判断提取内容的数量,若提取个数为一个,那么就将当前句子加入缓存库中,对应当前格式化内容。若提取个数大于一个,即为两个或者三个,进行位置判断,并更新二元对应关系。
c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出;在本步骤中存储成三个list,通过dataframe转换为CSV输出文件。
本发明不将提取的内容限定或固定,将命名实体的关系定于二元关系。比如:症状+持续时间,药物+剂量等这些文本+数字的规范格式的规则,提取电子病历中的结构化信息,这种方法的优势在于能通过简单的模板设置,遍历当前病人出院小结文本,将这些关键内容可以快速的提出,以便为后续临床决策问题建模研究提供辅助。相比于传统基于词典以及深度学习的方法,本发明具有更快速、提取的内容更详细准确等优点。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
Claims (4)
1.一种基于电子病历数据文本的二元关系提取方法,其特征在于:包括以下提取步骤:
a、源数据输入,进行源数据预处理;
b、对预处理的源数据文本进行对应二元关系的提取;
c、将提取出来的结果,根据ID进行匹配,进行整理并保存输出;
所述步骤b包括以下提取步骤:
B101、新建中间缓存变量,遍历待提取句子库中的待提取文本;
B102、对范式进行分析拆分,判断提取文本中是否包含数字,若无提取数字则将该句子加入到缓存库中,返回步骤B101遍历下一个句子;
B103、若成功提取出数字,接下来判断是否能够提取数字加单位,若无法提取出单位,则将该句子加入异常库中,进行人工处理检查;
B104、判断提取的数字的数量,若提取个数为一个,那么就将当前句子加入缓存库中的句子,对应当前格式化内容;若提取个数大于一个,进行位置判断,并更新二元对应关系。
2.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法,其特征在于:所述预处理包括以下步骤:
A101、文本规范化:包括去除特殊文本、替换有歧义文本、处理异常替换中的一种或多种操作;
A102、分句:根据文本特点,设置标点符号进行分句;
A103、去除冗余,去除空白,同时清理有重复且异常的数据,并将处理好的内容放到待提取句子库里。
3.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法,其特征在于:所述预处理中还包括人工辅助处理。
4.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法,其特征在于:所述源数据包括txt,xlsx或csv文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946939.7A CN113658652B (zh) | 2021-08-18 | 2021-08-18 | 一种基于电子病历数据文本的二元关系提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110946939.7A CN113658652B (zh) | 2021-08-18 | 2021-08-18 | 一种基于电子病历数据文本的二元关系提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113658652A CN113658652A (zh) | 2021-11-16 |
CN113658652B true CN113658652B (zh) | 2023-07-28 |
Family
ID=78480800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110946939.7A Active CN113658652B (zh) | 2021-08-18 | 2021-08-18 | 一种基于电子病历数据文本的二元关系提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658652B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665832A (zh) * | 2023-06-01 | 2023-08-29 | 湖南首辰健康科技有限公司 | 基于患者病历的智能化质控方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147639A (zh) * | 2017-05-08 | 2017-09-08 | 国家电网公司 | 一种基于复杂事件处理的实时安全预警方法 |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN113130025A (zh) * | 2020-01-16 | 2021-07-16 | 中南大学 | 一种实体关系抽取方法、终端设备及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427491B (zh) * | 2019-07-04 | 2020-05-12 | 北京爱医生智慧医疗科技有限公司 | 一种基于电子病历的医学知识图谱构建方法及装置 |
CN111223539A (zh) * | 2019-12-30 | 2020-06-02 | 同济大学 | 中文电子病历的关系抽取方法 |
CN111352987A (zh) * | 2020-02-28 | 2020-06-30 | 汤学民 | 一种电子病历结构化方法、系统及相关设备 |
-
2021
- 2021-08-18 CN CN202110946939.7A patent/CN113658652B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147639A (zh) * | 2017-05-08 | 2017-09-08 | 国家电网公司 | 一种基于复杂事件处理的实时安全预警方法 |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN113130025A (zh) * | 2020-01-16 | 2021-07-16 | 中南大学 | 一种实体关系抽取方法、终端设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113658652A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919793B (zh) | 一种医疗大数据的数据标准化处理方法及装置 | |
CN112464667B (zh) | 文本的实体识别方法、装置、电子设备和存储介质 | |
CN111291568B (zh) | 一种应用于医学文本的实体关系自动标注方法 | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
CN111126065A (zh) | 一种自然语言文本的信息提取方法及装置 | |
CN106095913A (zh) | 一种电子病历文本结构化方法 | |
Malmasi et al. | Canary: an NLP platform for clinicians and researchers | |
CA3164921A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
CN113658652B (zh) | 一种基于电子病历数据文本的二元关系提取方法 | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
CN115458113A (zh) | 一种病历生成方法、系统、存储介质和电子设备 | |
CN112270965A (zh) | 医学文本表型信息的语义结构化处理方法 | |
CN116775897A (zh) | 知识图谱构建和查询方法、装置、电子设备及存储介质 | |
Orosz et al. | Hybrid text segmentation for Hungarian clinical records | |
CN115310442A (zh) | 中医药古籍分词方法、装置、计算机设备及存储介质 | |
Millour et al. | Unsupervised data augmentation for less-resourced languages with no standardized spelling | |
Carvalho et al. | Fuzzy preprocessing of medical text annotations of intensive care units patients | |
Htait et al. | Unsupervised creation of normalization dictionaries for micro-blogs in Arabic, French and English | |
Cappello et al. | Defining a Preprocessing Pipeline for the MULTI-SITA Project and General Medical Italian Natural Language Data | |
Sodhar et al. | Word by Word Labelling of Romanized Sindhi Text by using Online Python Tool | |
RU2751993C1 (ru) | Способ извлечения информации из неструктурированных текстов, написанных на естественном языке | |
AU2021106441A4 (en) | Method, System and Device for Extracting Compound Words of Pathological location in Medical Texts Based on Word-Formation | |
Andrews | Digital Techniques for Critical Edition | |
CN111326262B (zh) | 电子病历数据中实体关系抽取方法、装置及系统 | |
Yepes et al. | The read-biomed team in livingner task 1 (2022): Adaptation of an english annotation system to spanish |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |