CN113658652B

CN113658652B - 一种基于电子病历数据文本的二元关系提取方法

Info

Publication number: CN113658652B
Application number: CN202110946939.7A
Authority: CN
Inventors: 朱婷; 张伟; 刘瑞航
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-07-28
Anticipated expiration: 2041-08-18
Also published as: CN113658652A

Abstract

本发明涉及电子病历领域，公开了一种基于电子病历数据文本的二元关系提取方法，包括以下提取步骤：a、源数据输入，进行源数据预处理；b、对预处理的源数据文本进行对应二元关系的提取；c、将提取出来的结果，根据ID进行匹配，进行整理并保存输出。本发明不将提取的内容限定或固定，将命名实体的关系定于二元关系。比如：症状+持续时间，药物+剂量等这些文本+数字的规范格式的规则，提取电子病历中的结构化信息，这种方法的优势在于能通过简单的模板设置，遍历当前病人出院小结文本，将这些关键内容可以快速的提出，以便为后续临床决策问题建模研究提供辅助。具有更快速、提取的内容更详细准确等优点。

Description

一种基于电子病历数据文本的二元关系提取方法

技术领域

本发明涉及电子病历领域，具体涉及一种基于电子病历数据文本的二元关系提取方法。

背景技术

电子病历是医务人员利用医疗机构信息系统生成的文本、符号、图表、图形、数据、图像等数字信息，在医疗活动过程中进行存储、管理、传输和复制的一种病历。通过对电子病历的分析，我们可以挖掘出很多与患者密切相关的医学知识。

在电子病历中存在大量文本用于描述病人的病症，但是可能一个病人当前入院时，其往往都伴随着多种疾病合并症。在对这些病例进行个性化医疗健康信息研究时，需要对电子病历中的有效信息进行提取，现有的提取方法常基于词典以及深度学习，但这些方法在实际应用中提取的速度相对较慢、且提取的内容详细度以及准确度有待提高。

发明内容

本发明的目的在于提供一种基于电子病历数据文本的二元关系提取方法。

为实现上述发明目的，本发明所采用的技术方案是：一种基于电子病历数据文本的二元关系提取方法，包括以下提取步骤：

a、源数据输入，进行源数据预处理；

b、对预处理的源数据文本进行对应二元关系的提取；

c、将提取出来的结果，根据ID进行匹配，进行整理并保存输出。

进一步地，所述预处理包括以下步骤：

A101、文本规范化：包括去除特殊文本、替换有歧义文本、处理异常替换中的一种或多种操作；

A102、分句：根据文本特点，设置标点符号进行分句；

A103、去除冗余，去除空白，同时清理有重复且异常的数据，并将处理好的内容放到待提取句子库里。

进一步地，所述步骤b包括以下提取步骤：

B101、新建中间缓存变量，遍历待提取句子库中里的待提取文本；

B102、对范式进行分析拆分，判断提取文本中是否包含数字，若无提取数字则将该句子加入到缓存库中，返回步骤B101遍历下一个句子；

B103、若成功提取出数字，接下来判断是否能够提取数字加单位，若无法提取出单位，则将该句子加入异常库中，进行人工处理检查；

B104、判断提取的数字的数量，若提取个数为一个，那么就将当前句子加入缓存库中，对应当前格式化内容；若提取个数大于一个，进行位置判断，并更新二元对应关系。

进一步地，所述预处理中还包括人工辅助处理。

进一步地，所述源数据包括txt，xlsx或csv文本。

本发明的有益效果集中体现在：

本发明不将提取的内容限定或固定，将命名实体的关系定于二元关系。比如：症状+持续时间，药物+剂量等这些文本+数字的规范格式的规则，提取电子病历中的结构化信息，这种方法的优势在于能通过简单的模板设置，遍历当前病人出院小结文本，将这些关键内容可以快速的提出，以便为后续临床决策问题建模研究提供辅助。相比于传统基于词典以及深度学习的方法，本发明具有更快速、提取的内容更详细准确等优点。

附图说明

图1是本发明提取流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

如图1所示，一种基于电子病历数据文本的二元关系提取方法，本发明可以快速自动地从文本中提取自定义的二元关系对，例如症状+持续时间，用药+用量等，具体包括以下提取步骤：

a、源数据输入，也就是主诉单独的一列数据，进行源数据预处理，在本实施例中所述源数据包括txt，xlsx或csv文本；

源数据的预处理具体包括以下步骤：

例如：去除特殊汉字：“因”、“于”等；

去除标点符号：”等；

替换有歧义的汉字：“一年半”、“2年7月”等；

处理异常替换：“反向相同1问题”，“20年内发作性意识丧失2次”等。

A102、分句：根据文本特点，设置标点符号进行分句；例如：每个症状+持续时间均为一段话，心慌害怕3+月，加重伴自伤15+天；

A103、去除冗余，去除空白，同时清理有重复且异常的数据，并将处理好的内容放到待提取句子库(list)里。

在步骤a中，预处理还包括人工辅助处理，通过人工去除特殊症状以及特殊主诉。

b、对预处理的源数据文本进行对应二元关系的提取；

在本实施例中该步骤中的具体提取步骤为：

B104、在本步骤中，首先判断是否提取出“数字+单位”，若成功提取出上述内容，根据电子病历医学文本特性，判断提取内容的数量，若提取个数为一个，那么就将当前句子加入缓存库中，对应当前格式化内容。若提取个数大于一个，即为两个或者三个，进行位置判断，并更新二元对应关系。

c、将提取出来的结果，根据ID进行匹配，进行整理并保存输出；在本步骤中存储成三个list，通过dataframe转换为CSV输出文件。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

Claims

1.一种基于电子病历数据文本的二元关系提取方法，其特征在于：包括以下提取步骤：

a、源数据输入，进行源数据预处理；

b、对预处理的源数据文本进行对应二元关系的提取；

c、将提取出来的结果，根据ID进行匹配，进行整理并保存输出；

所述步骤b包括以下提取步骤：

B101、新建中间缓存变量，遍历待提取句子库中的待提取文本；

B104、判断提取的数字的数量，若提取个数为一个，那么就将当前句子加入缓存库中的句子，对应当前格式化内容；若提取个数大于一个，进行位置判断，并更新二元对应关系。

2.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法，其特征在于：所述预处理包括以下步骤：

A102、分句：根据文本特点，设置标点符号进行分句；

3.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法，其特征在于：所述预处理中还包括人工辅助处理。

4.根据权利要求1所述的一种基于电子病历数据文本的二元关系提取方法，其特征在于：所述源数据包括txt，xlsx或csv文本。