CN116737924B

CN116737924B - 一种医疗文本数据处理方法及装置

Info

Publication number: CN116737924B
Application number: CN202310478699.1A
Authority: CN
Inventors: 李琴; 杨斌; 文治中; 宋黎晓
Original assignee: Baiyang Intelligent Technology Group Co ltd
Current assignee: Baiyang Intelligent Technology Group Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2024-06-25
Anticipated expiration: 2043-04-27
Also published as: CN116737924A

Abstract

本发明涉及一种医疗文本数据处理的方法及装置，所述方法包括：根据搜集到的公开医学信息抽取数据集微调中文医疗预训练模型MC‑BERT，以得到较为鲁棒的语言模型；通过基于字粒度的分词方式将输入文本分为长度为N的词元合集并构建N*N的token span矩阵，根据该矩阵预测医学实体的头尾位置，识别出实体所对应的文本范围；将存在医学关系的实体对送入融合距离感知的多关系分类器，最终确定医学实体关系，输出结构化结果。本发明利用基于深度学习的自然语言理解技术，通过机器读取理解医疗文本，并自动提取出的大量专业医学实体及关系，可以显著的提升医学临床科研的效率及质量，对医院专科数据库建设也有重要意义。

Description

一种医疗文本数据处理方法及装置

技术领域

本发明属于信息处理技术领域，特别涉及一种使用人工智能技术对医疗文本进行处理的方法及装置。

背景技术

人工智能(Artificial Intelligence，Al)指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通电脑实现的智能。人工智能包括弱人工智能和强人工智能。一般认为，弱人工智能(也称狭义人工智能)指的是专注于解决某个特定领域问题的人工智能技术，也可以认为是应用于该领域的技术工具。

自然语言处理技术是狭义人工智能的一个重要分支，注重于对自然语言的处理和运用，在人机交互中已经得到了广泛的应用。自然语言处理的范畴包括信息检索、信息抽取、机器翻译、文本朗读、分词、词性标注、自动摘要等领域。

在健康医疗大数据领域的实际应用中，使用自然语言处理技术中的分词、标注，可以对于医生使用自然语言描述的病历进行分析，从中提取病人的症状、诊疗信息和事件等信息。这些信息的获得和标准化对于医生的临床科研研究以及人工智能辅助诊疗系统等应用的搭建都起到重要的作用。

医疗文本数据中蕴含了丰富的医学信息，医疗文本的结构化是将以电子病历、检验报告为代表的不规则医疗文本进行结构化分析，结合临床医学实体概念，让机器自动地从语言文本中提取出来用户想要的关键信息。这些信息有助于支撑临床学术研究、医学知识图谱构建、临床辅助决策等应用场景。然而海量的医疗文本对机器而言不可理解、不可计算，且此类数据由于本身的复杂性及专业性，需要医学科研工作者花费大量精力人为的将有效信息从文本中提取出来。为了更加高效的利用这些数据，精准的对医疗文本进行信息提取，目前迫切需要一种针对医疗文本结构化的技术。

目前已有的方案中，主要使用实体关系联合抽取模型进行医疗文本的实体及关系识别，一般将实体识别任务及实体关系抽取任务联合建模，通过共用编码器实现模型的参数共享直接得到存在关系的实体三元组。这类方案通常采用BiLSTM或中文预训练BERT对文本编码编码，忽略了预训练模型使用医学文本做域迁移(Domain Transfer)的重要性，基于大量医学语料微调得到的语言模型含有丰富的医学先验知识，在特征表达能力要好于基于通用语料训练得到的预训练模型。其次此类方案往往忽略了医学实体嵌套情形，例如“右肺占位”代表病变类型，“右肺占位”中的“右肺”则代表身体部位，两种不同类型的实体存在着嵌套关系，导致已有方案在嵌套实体情况下失效。至于在医学关系识别中，已有方案灵活性差，不能根据不同的关系模式快速定制关系分类器，这制约了模型的可拓展性。

发明内容

针对现有技术存在的上述问题，本发明提供了一种医疗文本结构化方法及装置，通过利用自然语言理解技术，结合医学预训练模型以及基于距离感知的关系分类器，实现了从医疗文本中精准的提取关键信息，形成结构化数据。

为了达到上述目的，本发明提供了一种医疗文本结构化方法，含有以下步骤：

根据获取到的公开医学信息抽取数据构建训练集，微调中文医疗预训练模型MC-BERT，完成参数的域迁移(Domain Transfer)；

基于微调后的MC-BERT将临床医疗文本分词后得到长度为N的词元集合并构造N*N的span矩阵，其中N为自然数，将分词后医学文本送入MC-BERT获得编码向量，利用矩阵的起止位置判别出医学实体所对应的文本范围，抽取医学实体；

基于全连接层的多分类器，对存在医学关系的实体对进行关系判别，抽取医学实体关系。

将提取到的医学实体和医学实体关系进行结果融合。

作为优选，所述公开医学信息抽取数据集为CHIP2020中文医学文本命名实体识别、中文医学实体关系抽取数据集，CCKS2020医疗命名实体识别、医疗实体及属性抽取数据集。

作为优选，所述微调中文医疗预训练模型的方法为：基于BIOES编码方式对所有公开医学信息抽取数据集进行序列标注，其中B-Type代表实体的起始，I-Type代表实体的中间，O代表非实体部分，E-Type代表实体的尾部，S-Type代表单字实体，Type代表所对应的医学实体类型。对某类型医学实体Type-a中嵌套其它类型实体Type-b情况时，采用合并标签层的方式，将存在嵌套关系的两种实体类别两两组合，产生新的实体类型标签Type-a|Type-b。通过统一序列标注后的数据以命名实体识别任务为学习目标微调MC-BERT，得到领域迁移后的新语言模型。

作为优选，对临床医疗文本数据预处理，清洗并切分长文本；采用BERT模型自带的字典文件进行分词，得到的长度为N的token集合并构造N*N的词元矩阵span用于编码实体标签，矩阵的下标值span[start][end]＝C，其中[start][end]代表医学实体所对应文本的起止范围，C代表实体类别，C＝0时则表示非实体文本；通过微调后的MC-Bert作为embedding，得到span[start][end]所对应文本片段的实体类型逻辑得分，得分大于阈值α视为有效实体。

作为优选，所述标注出的有效实体通过以下公式进行实体间关系的确定：

式中，M代表实体关系类别总数，p_i表示第i个实体对所代表的上下文向量表示，d_i表示第i个实体对间的相对距离特征向量，字符°表示向量级联操作。

作为优选，所述实体对所代表的上下文向量为：

式中，与代表第i个实体对中头实体的首尾特征向量，与代表第i个实体对中尾实体的首尾特征向量，上述特征向量均从token集合编码向量X_N中获取。该方法还包括：通过构建正负样本指导模型学习医学实体对间的隐含关系，保证模型仅可以判别存在事实医学关系的实体对。

作为优选，所述实体对间的相对距离特征向量为：

d_i＝Linear(|s_i2-e_i1|) (3)

式中，s_i2、e_i1分别代表第i个实体对中尾实体与头实体在BERT位置编码(positionembedding)中的特征向量，二者向量经相减取绝对值后表示实体对中两个医学实体的相对位置关系，Linear(·)函数表示通过全连接层对实体对的位置向量做进一步非线性映射。

作为优选，对所述提取到的医学实体和医学实体关系进行遍历，去除文本过长的医学实体，将存在医学关系的实体对以{头部实体-医学关系，尾部实体}格式可视化并保存，将独立存在的医学实体以{实体类型，实体值}格式可视化并保存。

本发明还提供了一种医疗文本结构化装置，包括：

数据预处理模块，用于清洗处理输入的医疗文本；

医学实体抽取模块，将所述清洗处理后的医学文本输入至微调后的自然语言识别模型，抽取出医学实体所对应的文本片段；

医学实体关系抽取模块，利用距离感知的关系分类器抽取出医学实体对间的事实关系；

双阶段结果融合模块，用于将所述医学实体和医学实体关系进行结果融合并予以展示；

与现有技术相比，本发明的优点和积极效果在于：

本发明提供医疗文本结构化方法，注重预训练语言模型对文本的特征提取能力，针对医疗文本结构化任务特点，采用医学信息抽取数据集以命名实体识别为切入点微调中文医疗预训练模型，实现了语言模型的领域适配。得到微调后的预训练模型后，基于tokenspan矩阵的方式编码实体标签，确保了嵌套实体的可识别；基于距离感知的实体关系分类器，学习了实体间的上下文关系，通过构建正负样本保证模型仅可以判别存在事实医学关系的实体对；通过二阶段的结果融合输出结构化内容，提升了临床医学文本的数据利用效率。

附图说明

图1为本发明实施例的医疗文本结构化方法流程图；

图2为本发明实施例的医疗文本结构化方法装置的结构框图；

图3为本发明实施例的BIOES编码方式示意图；

图4为本发明实施例的词元矩阵实体标签示意图；

具体实施方式

下面，结合附图和具体实施方式对本发明的各个方面进行详细描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例子。在没有进一步叙述的情况下，一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。

本发明实施例的一种医疗文本结构化方法，如图1所示，包括以下步骤：

步骤S1、将收集到的公开医学信息抽取数据集以命名实体识别任务微调中文医疗预训练模型mcBERT，得到域适应的预训练语言模型；具体的，在“微调中文医疗预训练模型mcBERT”之前，包括：

所述公开医学信息抽取数据集为CHIP2020中文医学文本命名实体识别、中文医学实体关系抽取数据集，CCKS2020医疗命名实体识别、医疗实体及属性抽取数据集。

基于BIOES编码方式对所有收集到的公开医学信息抽取数据集进行序列标注，其中B-Type代表实体的起始，I-Type代表实体的中间，O代表非实体部分，E-Type代表实体的尾部，S-Type代表单字实体，Type代表所对应的医学实体类型。标注实体类型标签主要有：患处的具体部位(Body part)、有无明显的病患指标(Symptom)、生长发育指标(BMI)、患处具体的位置(direction)、疾病名称(Disease)、是否有采样数据(Sample)、疾病的进展情况(Change)、属性特征(Feature)、刺激要素(Incentive)、时间(Time)、疾病所处阶段(Degree)，其中症状的标注实体类型前面可以加–号，以表示该患者不具有该症状或体征，实体之间的关系采用有序对的方式来表示。使用BIOES获取症状和属性的方法步骤如下：

采用收集的公开医学信息的命名实体识别和关系抽取技术，提取出医学信息的实体，标记出否定症状；

以患处的具体部位、有无明显的病患指标、生长发育指标、采样数据作为实体，确定该实体对应的属性；

基于有无明显的病患指标，提取患处具体的位置和属性特征；

基于有无明显的病患指标，提取时间、采样数据、疾病所处阶段、疾病的进展情况及刺激要素；

基于有无明显的病患指标，提取疾病的进展情况及刺激要素；

基于是否有采样数据，提取属性特征及刺激要素；

对于提取的实体及属性，进行合并和去重处理。

具体在实际的标注过程中，对某类型医学实体Type-a中嵌套其它类型实体Type-b情况时，采用合并标签层的方式，将存在嵌套关系的两种实体类别两两组合，产生新的实体类型标签Type-a|Type-b。例如，图3中示，文本“患者双肺小结节”中“双肺小结节”代表病变实体类型，“双肺”代表部位实体类型，因此对“双肺”标注时，合并其标签为“B-部位|B-病变,E-部位|I-病变”。

MC-BERT是自然语言理解模型BERT在中文医疗问答、中文医疗百科和中文电子病历等大规模中文医学语料上训练得来，诸多医疗知识已经被显式地注入到模型中。再通过统一序列标注后的数据以命名实体识别任务为学习目标微调MC-BERT，可以得到领域迁移后的新语言模型，使得模型更适应于信息抽取任务。

步骤S2、对临床医疗文本数据预处理，清洗并切分长文本；采用BERT模型自带的vocabulary字典进行分词，得到的长度为N的词元集合并构造N*N的span矩阵用于编码实体标签；使用微调后的MC-Bert作为embedding方式，得到span矩阵所对应文本片段的实体类型逻辑得分，得分大于阈值α视为有效实体。

具体的，对临床医疗文本数据预处理，去除非法乱码字符，若文本长度大于BERT支持的上限512，则以512为长度切割长文本，得到多个数据段落；基于BERT自带的名为vocab.txt文件，对医疗文本中出现的中文字符采用字粒度的方式逐字切分，对医学英文字符及数字按照sub-word方式切分，分词后得到的长度为N的词元集合用于构造N*N的span矩阵，span矩阵涵盖了输入文本所有情况的片段排列，保证实体嵌套的情况不再出现。例如，图4所示的文本“右肺占位”经分词后构造了4*4的token span矩阵，span[0][1]＝bod中[0][1]代表矩阵所对应文本的起止范围，即“右肺”，其实体类型为“body”；span[0][3]＝dis中[0][3]代表矩阵所对应文本的起止范围，即“右肺占位”，其实体类型为“dis”，其它非实体部分设为0。使用微调后的MC-Bert作为embedding方式，得到词元集合编码向量X_N，经非线性变换后得到和二者的内积作为span矩阵的logits值以评价span[start][end]所对应文本片段的实体类型得分，得分大于阈值α视为有效实体，这里α基于经验设置为0.5。

步骤S3、基于全连接层的多分类器，对存在医学关系的实体对进行关系判别，抽取医学实体关系。

具体的，将标注的医学实体以pair对的方式构造训练集，存在事实医学关系的实体对定义为正样本，对不存在医学关系的实体对进行随机采样后定义为负样本，保证模型仅判别存在事实医学关系的实体对。所述实体对通过以下公式进行实体间的关系确定：

所述实体对所代表的上下文向量为：

式中，与代表第i个实体对中头实体的首尾特征向量，与代表第i个实体对中尾实体的首尾特征向量，上述特征向量均从token集合编码向量X_N中获取。

所述实体对间的相对距离特征向量为：

d_i＝Linear(|s_i2-e_i1|) (3)

式中，s_i2、e_i1分别代表第i个实体对中尾实体与头实体在BERT位置编码(positionembedding)中的特征向量，二者向量经相减取绝对值后表示实体对中两个医学实体的相对位置关系，Linear(·)函数表示通过全连接层对实体对的位置向量做进一步非线性映射。映射后的位置向量与实体对向量保持维度一致，以级联的方式完成特征融合。

步骤S4、提取到的医学实体和医学实体关系进行遍历，去除文本过长的医学实体，将存在医学关系的实体对以{头实体-医学关系，尾部实体}格式可视化并保存，将独立存在的医学实体以{实体类型，实体值}格式可视化并保存。如“患者于2020年1月行CT检查示双肺结节”文本经步骤S2、S3后将提取(日期，2020年1月)，(检查手段，CT)，(病变，双肺结节)，其中“日期”与“检查手段”间存在“检查日期”这种关系，将其格式化为：{CT-检查日期，2020年1月}；其中“病变”这一实体独立存在，不与其它实体存在医学关系，将其格式化为：{病变，双肺结节}。

综上所述，本发明提供一种医疗文本结构化方法，可将输入的医疗文本自动地进行结构化提取，获得大量专业医学实体及关系，显著提升医学临床科研的效率及质量。

实施例2：参见图2，本实施例提供了一种医疗文本结构化装置。各功能模型详细说明如下：

数据预处理模块，用于清洗处理输入的医疗文本；

具体的，所述医学实体抽取模块，使用域迁移后的医疗预训练模型MC-BERT作embedding，通过对token span矩阵下标所对应文本范围判别是否为预定义医学实体；

具体的，所述医学实体关系抽取模块，构造的正负样本对进行模型的训练，学习过程中融入实体位置特征向量，使用多分类器进行实体之间的关系识别。

进一步地，所述医疗文本结构化装置还包括：标注模块，对临床医疗文本数据进行实体及关系标注。

上述实施例用来解释本发明，而非对其进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都应包含再本发明的保护范围之内。

Claims

1.一种医疗文本数据处理方法，其特征在于，所述方法包括：

根据获取到的公开医学信息抽取数据集构建训练集，微调中文医疗预训练模型MC-BERT，完成参数的域迁移；

基于微调后的MC-BERT将临床医疗文本分词后得到长度为N的词元token合集并构造N*N的矩阵，其中N为自然数，随后将分词后的医学文本送入MC-BERT获得编码向量，利用矩阵的位置坐标反推出医学实体所对应的文本范围，抽取医学实体；

基于全连接层的多分类器，对存在医学关系的实体对进行关系判别，抽取医学实体关系；

将提取到的医学实体和医学实体关系进行结果融合；

所述微调中文医疗预训练模型的方法为：基于BIOES编码方式对所有收集到的公开医学信息抽取数据集进行序列标注，其中B-Type代表实体的起始，I-Type代表实体的中间，O代表非实体部分，E-Type代表实体的尾部，S-Type代表单字实体，Type代表所对应的医学实体类型；对某类型医学实体Type-a中嵌套其它类型实体Type-b情况时，采用合并标签层的方式，将存在嵌套关系的两种实体类别两两组合，产生新的实体类型标签Type-a|Type-b；通过统一序列标注后的数据以命名实体识别任务为学习目标微调MC-BERT，得到领域迁移后的新语言模型；

所述抽取医学实体具体步骤为：对临床医疗文本数据预处理，清洗并切分长文本；采用BERT模型自带的字典文件进行分词，得到的长度为N的词元集合并构造N*N的span矩阵用于编码实体标签，矩阵的下标值span[start][end]＝C，其中[start][end]代表医学实体所对应文本的起止范围，C代表实体类别，C＝0时则表示非实体文本；通过微调后的MC-Bert作为embedding，得到span[start][end]所对应文本片段的实体类型逻辑得分，得分大于阈值α视为有效实体；

将标注出的有效实体通过以下公式进行实体间关系的确定：

式中，M代表实体关系类别总数，p_i表示第i个实体对所代表的上下文向量表示，d_i表示第i个实体对间的相对距离特征向量，字符°表示向量级联操作；

所述实体对所代表的上下文向量为：

式中，与代表第i个实体对中头实体的首尾特征向量，与代表第i个实体对中尾实体的首尾特征向量，上述特征向量均从token集合编码向量X_N中获取，通过构建正负样本指导模型学习医学实体对间的隐含关系，保证模型仅可以判别存在事实医学关系的实体对。

2.根据权利要求1所述的一种医疗文本数据处理方法，其特征在于，所述公开医学信息抽取数据集为CHIP2020中文医学文本命名实体识别、中文医学实体关系抽取数据集，CCKS2020医疗命名实体识别、医疗实体及属性抽取数据集。

3.根据权利要求1所述的一种医疗文本数据处理方法，其中标注实体类型标签主要有：患处的具体部位Body part、有无明显的病患指标Symptom、生长发育指标BMI、患处具体的位置direction、疾病名称Disease、是否有采样数据Sample、疾病的进展情况Change、属性特征Feature、刺激要素Incentive、时间Time、疾病所处阶段Degree，其中症状的标注实体类型前面加–号，以表示患者不具有该症状或体征，实体之间的关系采用有序对的方式来表示，具体标注方法步骤如下：

基于是否有采样数据，提取属性特征及刺激要素；

对于提取的实体及属性，进行合并和去重处理。

4.根据权利要求1所述的一种医疗文本数据处理方法，其特征在于，所述实体对间的相对距离特征向量为：

d_i＝Linear(|s_i2―e_i1|)

式中，s_i2、e_i1分别代表第i个实体对中尾实体与头实体在BERT位置编码中的特征向量，二者向量经相减取绝对值后表示实体对中两个医学实体的相对位置关系，Linear(·)函数表示通过全连接层对实体对的位置向量做进一步非线性映射。

5.根据权利要求1所述的一种医疗文本数据处理方法，其特征在于，对所述提取到的医学实体和医学实体关系进行遍历，去除文本过长的医学实体，将存在医学关系的实体对以{头部实体-医学关系，尾部实体}格式可视化并保存，将独立存在的医学实体以{实体类型，实体值}格式可视化并保存。

6.一种医学文本数据处理装置，其特征在于，包括：

数据预处理模块，用于清洗处理输入的医疗文本；

该装置执行并实现如权利要求1至5任一所述的医疗文本数据处理方法。