CN110210037B

CN110210037B - 面向循证医学领域的类别检测方法

Info

Publication number: CN110210037B
Application number: CN201910508791.1A
Authority: CN
Inventors: 琚生根; 王婧妍; 熊熙; 李元媛; 孙界平
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2020-04-07
Anticipated expiration: 2039-06-12
Also published as: CN110210037A

Abstract

本发明公开一种面向循证医学领域的类别检测方法，包括以下步骤：将摘要中的每个句子分别进行ELMo与Bi‑LSTM两种处理，得到句向量；将所述句向量进行编码，得到包含有句子之间语义关系的文本表示向量；将所述文本表示向量输入CRF模型进行句子序列分类，将待分类句子和句子类别标签分别作为CRF模型的观察序列和状态序列，通过下层网络提取的句子关联特征获得每个句子的标签概率。本发明实现循证医学文本摘要类别检测，利用多连接Bi‑LSTM网络捕获句子间依赖关系与上下文信息，结合多层自注意力机制，提高了句子编码的整体质量，并且在公开的医学摘要数据集上取得了不错的效果。

Description

面向循证医学领域的类别检测方法

技术领域

本发明涉及英文医学文本摘要的信息化处理技术领域，具体的说是一种面向循证医学领域的类别检测方法。

背景技术

循证医学(Evidence-Based Medicine，EBM)是一种临床实践方法，通过分析PubMeb等大型医学文献数据库以及检索相关临床主题文本来获取证据。EBM以论文为开端，经过人工判断进一步提炼特定问题所依赖的证据基础。EBM领域临床实践问题的定义往往遵从PICO原则，即：Population(P)；Intervention(I)；Comparison(C)；Outcome(O)。

为完成从文章到医疗证据的转换，需要对文章摘要进行深度梳理。摘要是对医学文章内容不加注释和评论的简短陈述，要求简单扼要地说明研究工作的目的、研究方法和最终结论等。如表1所示，生物医学文章摘要中一般以无结构化展现论文研究的临床实践主题、人群、研究方法和实验结果等，由于缺乏有效的自动识别技术导致医生检索医学证据时效率低下。当摘要内容以结构化的形式出现，阅读摘要将更加简便高效。

表1标注前后对比

医学文本摘要的类别检测可以转化为摘要句子序列的分类任务。摘要的句子包含上下文信息，并且句子间存在复杂的语义和语法关联性，使得其分类问题有别于独立句子的分类问题。

在过去的研究中，临床医生对PICO标准或者其他类似模式的使用已经得到验证，而研究者也寻求更好的句子分类模型来实现类似PICO类标的自动检测。

机器学习分类方法通过事先已有的文本训练集有监督地建立分类器，节省大量的人力，且不限于特定的领域。传统机器学习方法用于临床医学序列句子分类的主要有朴素贝叶斯、支持向量机以及条件随机场等。但这些方法往往需要大量的手工构建特征，如语法特征、语义特征和结构特征等。

近几年，对于使用神经网络解决序列句子分类问题的研究层出不穷，神经网络的优点在于自动构建特征。深度学习解决文本分类问题主要通过卷积神经网络(Convolutional Neural Network，CNN)进行特征提取，再通过循环神经网络(RecurrentNeural Network，RNN)进行建模。自注意力机制不依赖于其他特征和词之间的距离，直接计算词语依赖关系，学习句子的内部结构。Yang等人提出的层级注意力机制与神经网络相结合的模型在文本分类任务上取得了不错的效果。Transformer放弃CNN和RNN，使用注意力机制和全连接层构成端到端模型，广泛应用于文本分类等多个任务。Komninos等人引入基于上下文的词向量改善句子分类性能。以ELMo(Embeddings from Language Models)、BERT(Bidirectional Encoder Representations from Transformers)为主的预训练语言模型，将生成的词向量经过微调处理，在多项自然语言处理任务上都取得了最佳效果，Howard等人构建用于文本分类的预训练语言模型。然而，以上模型都没有直接应用于医学领域。Jin等人第一次将深度学习用于循证医学类标检测任务，代表深度学习模型可以大大提升序列句子分类任务的效果，但该模型在生成句向量时忽略了摘要内句子间的关系。

现有工作用于临床医学类标检测时，往往将句子单独分类，在文本表达层面没有考虑到词语之间、句子之间依赖关系，这将会导致分类效果不佳。Song等人将句子的前后文整体编码与待分类句子向量进行拼接用于药物分类，缺少句子内部依赖。Lee和Dernoncourt等人在对多轮对话进行分类时，将前文语句用于当前句分类，融入上下文信息。后使用双向人工神经网络(Bidirectional Artificial Neural Network，Bi-ANN)结合字符信息进行生物医学摘要句子分类，CRF优化分类结果。

发明内容

针对现有技术中存在的上述不足之处，本发明要解决的技术问题是提供一种面向循证医学领域的类别检测方法，用于英文摘要文本信息表示以及句子特征处理，目标是构建医学摘要文本的自动标注方法。

本发明为实现上述目的所采用的技术方案是：一种面向循证医学领域的类别检测方法，包括以下步骤：

将摘要中的每个句子分别进行ELMo与Bi-LSTM两种处理，得到句向量；

将所述句向量进行编码，得到包含有句子之间语义关系的文本表示向量；

将所述文本表示向量输入CRF模型进行句子序列分类，将待分类句子和句子类别标签分别作为CRF模型的观察序列和状态序列，通过下层网络提取的句子关联特征获得每个句子的标签概率。

所述将摘要中的每个句子进行ELMo处理，具体为：

将即单词序列Sentence＝{w₁，w₂，...，w_t}作为输入，其中t为句子长度，w_i为句子中的单词，然后经过ELMo和平均池化层处理，得到句向量

所述将摘要中的每个句子进行Bi-LSTM处理，包括以下步骤：

通过公式(1)计算句子中每个单词的自注意力值：

将多个自注意力值进行拼接，得到句向量

其中，

表示句子隐层向量矩阵的转置，

表示权重

的维度是1*da，其中超参数d_a，W∈R^da×2×u，u为隐层单元数，即LSTM的隐藏层维度，softmax()表示归一化函数，concat()表示向量拼接。

所述句向量由经过ELMo处理的句向量

与经过Bi-LSTM处理的句向量

连接而成，即：

其中，concat()表示向量拼接。

所述将摘要内容进行编码，得到包含有句子之间语义关系的文本表示向量，包括以下步骤：

给摘要中n个独立句子进行编码，得到编码后的向量序列

将向量序列

作为多连接Bi-LSTM的输入，将L层多连接LSTM的第一层的结果与句向量拼接作为第二层的输入，其后所有层的输入都是前一层输出的拼接，输出一系列包含上下文信息的文本表示向量；

对L层的多连接Bi-LSTM的输出取平均；

将得到的包含上下文信息的新的句子编码向量输入到单层前馈神经网络中，输出的每个句向量

表示句子属于每个标签的概率，其中d是标签个数。

所述句子的标签序列概率为：

其中，y_1：n为标签序列，y_i表示分配给第i个句子的预测标签，

为正确的标签序列，

表示

的得分定义为标签的预测概率与转移概率之和，score(y_1：n)为y_1：n的得分，定义为标签的预测概率与转移概率之和：

其中，y_i表示分配给第i个句子的预测标签，T[i：j]定义为带有标签i的句子之后是带有标签j的句子的概率，n表示一个摘要中的句子数，i表示摘要中的第i个句子，

表示第i个预测标签在上一层得到的预测概率。

本发明具有以下优点及有益效果：

1、本发明构建了一种层级多连接网络模型，实现循证医学文本摘要类别检测，该模型利用多连接Bi-LSTM(Bidirectional Long Short-Term Memory)网络捕获句子间依赖关系与上下文信息，结合多层自注意力机制，提高了句子编码的整体质量，并且在公开的医学摘要数据集上取得了不错的效果。

2、在未来的工作中，本发明的HMcN(Hierarchical Multi-connected Network)模型将应用于解决与循证医学相关的具体问题，例如医学文本挖掘以及文档检索等，达到辅助医疗的目的。

附图说明

图1为本发明的HMcN模型结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

本发明的面向循证医学领域的类别检测方法提出了基于层级多连接网络(Hierarchical Multi-connected Network，HMcN)的类别检测算法，HMcN模型由三部分组成：单句编码、文本信息嵌入和标签优化，如图1所示，摘要中的每个句子经过单句编码层的ELMo和Bi-LSTM处理，获取句子内部语义信息，得到的句向量以摘要为单位输入到文本信息嵌入层，通过多连接Bi-LSTM网络抽取句向量间的依赖关系，最后标签优化层的条件随机场(Conditional random field，CRF)模型对类别进行标注。

本发明的实施例中，使用小写字母表示标量，如x₁；带箭头的小写字母表示向量，如

粗体大写字母表示矩阵，如

标量的序列如{x₁，x₁，...，x_j}和向量序列如

分别用x_1：j和

表示。实施例用到的符号及其含义如表2所示：

表2文中符号及其含义

单句编码：每个句子分别经由ELMo与Bi-LSTM两种不同的处理，得到句向量输入上层网络。这两种处理方法可以描述为：

1)为了解决一词多义问题，序列输入预训练语言模型ELMo中，单词经过字符级别处理，有效解决分词结果在词表中不存在的问题，即未登录词问题。ELMo模型可以学习到复杂的词汇用法，如：语法和语义，相同的词在不同的上下文中有不同的表示等。将句向量即单词序列Sentence＝{w₁，w₂，...，w_t}作为输入，其中t为句子长度，然后经过ELMo和平均池化层(ELMo可参考《Deep contextualized word representations》，平均池化层可参考《Going deeper with convolutions》)，得到最终的句向量

2)采用维基百科、PubMeb和PMC文本联合训练得到的预训练词向量矩阵，其中包含医学实体信息并经过Bi-LSTM网络编码。利用句向量计算自注意力值可以发现句子内部依赖关系及关键词，而多次计算自注意力值允许模型在不同的子空间学习相关知识。将多个结果进行拼接可以得到句向量

公式(1)表示计算一次自注意力权重，其中

表示句子隐层向量矩阵的转置，

其中超参数d_a(超参数是人为设置的参数，参数表里有详细介绍)，W∈R^da×2×u，u为隐层单元数。得到的权重分别与隐层表示矩阵相乘再进行拼接，l_att为多层自注意力层数。最终每个句向量

由

与

连接而成。

文本信息嵌入层将摘要内容进行编码，得到包含有句子之间语义关系的文本表示向量。

给定摘要中n个独立句子通过单句编码层得到编码后的向量序列

并将其作为多连接Bi-LSTM的输入。HMcN中多连接Bi-LSTM模块在DC-Bi-LSTM架构基础上进行了改进，输入由Glove词向量变为底层获取的句向量。具体来说，该架构由L层Bi-LSTM网络组合而得，在第一个Bi-LSTM网络中输入句向量序列，得到双向的隐层表示，将这一层的结果与句向量拼接作为第二层的输入，其后所有层的输入都是前一层输出的拼接，构成多连接Bi-LSTM网络。其输出一系列新的句子编码向量，这些向量包含上下文信息。通过平均池化层，对L层Bi-LSTM的输出取平均(深层的LSTM可以捕获语义特征，浅层的可以捕获语法特征，取平均可以获取多种特征，充分利用多层LSTM的编码效果)。以上处理方式可以由公式(4)-(8)表示：

其中，公式(6)-(8)中

表示第i个句子在第l层Bi-LSTM的向量表示，是由公式(4)中正向隐层向量

和公式(5)中反向隐层向量

拼接而得。

与

分别表示前一时间步与后一时间步的隐层表示，

表示0到l-1层LSTM隐层表示拼接，公式(8)为对L层Bi-LSTM的输出取平均。将这些向量输入到单层前馈神经网络中，输出的每个句向量

表示句子属于每个标签的概率，其中d是标签个数。

与传统的RNN或深层RNN相比，多连接Bi-LSTM网络可以采用更少的参数、更少的层数获得更好的效果。对于每个RNN层，它都可以直接读取原始输入序列，即本发明方法中经ELMo和Bi-LSTM编码的句向量，而不需通过网络传递所有有用信息。本发明采用极少的网络神经元数，避免模型复杂度过高。

标签优化：条件随机场模型可以提高句子序列分类的性能，其中待分类句子和句子类别标签分别作为CRF模型的观察序列和状态序列。通过下层网络提取的句子关联特征获得给定句子的标签概率。

已知上一层文本编码层输出的句子向量序列

该层输出一个标签序列y_1：n，其中y_i表示分配给第i个句子的预测标签。将T[i：j]定义为带有标签i的句子之后是带有标签j的句子的概率。y_1：n的得分定义为标签的预测概率与转移概率之和：

通过softmax函数可以获得正确的标签序列概率：

其中，Yⁿ表示所有可能的标签序列的集合。在训练阶段，目标是最大限度地提高正确标签序列的概率。在测试阶段，对给定的句子表示序列，通过Viterbi算法选择得分最大的标签序列作为预测结果。

为了定量分析HMcN模型对医学摘要中句子类别的检测性能，在两个标准医学摘要数据集上进行了分类实验。数据集分别介绍如下：

NICTA-PIBOSO数据集(简称NP数据集)：这个数据集共享在ALTA 2012 SharedTask上，主要目的是将生物医学摘要句子分类任务应用于循证医学，并包含类标“Population”、“Intervention”、“Outcome”、“Study Design”、“Background”、和“Other”。

PubMeb 20k RCT数据集(简称PubMeb数据集)：这个数据集由Demoncourt、等人在2017年创建，数据来自生物医学文章最大的数据库PubMeb，类标包括“Objectives”、“Background”、“Methods”、“Results”和“Conclusions”。

数据集具体信息如表3所示：

表3实验数据

其中，|C|和|V|分别表示类标总数与词汇表大小，对于训练集、验证集和测试集，括号外的数字表示摘要数量，括号内的数字表示句子数量。每个摘要的句子都只有唯一标签。

HMcN模型在Tensorflow框架以及Python语言下设计实现，运行平台为Windows7。使用开源预训练模型ELMo得到句向量，句向量隐层维度为1024。采用随机梯度下降算法和Adam算法更新包括Bi-LSTM网络和多层自注意力等模块的参数。在每一层使用Dropout方法解决过拟合问题，采用正则化进一步缩小训练集结果与验证集结果之间的差距。参数设置如表4所示。

表4参数设置

采用准确率(Precision)、召回率(Recall)和F1值度量实验效果，实验结果如表5所示：

表5对比实验结果

LR：逻辑回归分类器，它使用从当前句子中提取的n-gram特征，不使用来自周围句子的任何信息。

CRF：条件随机场分类器，待分类句向量作为输入，每个输出变量对应一个句子的标签，CRF考虑的句子序列是整个摘要。因此，CRF基线在对当前句子进行分类时同时使用前面和后面的句子。

Best Published：Lui于2012年提出的一种方法，基于多种特征集，引入特征堆叠，在NP数据集上表现最佳。

Bi-ANN：Dernoncourt等人于2017年提出的标注模型，该模型通过CRF与字符向量优化分类结果。

如表5所示，HMcN模型的F1值比其他模型分别提高F1分数0.4％-8.3％。LR方法在PubMed数据集上的表现优于在NP数据集上的表现，这表明在NP数据集中标签间的依赖关系更紧密。HMcN模型的指标均优于CRF模型，表明本模型对CRF的输入进行了优化，加入了句子级别的特征，并且不依赖于人工构建特征。HMcN模型的指标在NICTA-PIBOSO数据集上优于Best Published方法，表明HMcN模型可以获取更深层特征信息。HMcN模型的指标优于Bi-ANN模型，表明HMcN为文本表达融入了词、句、段多粒度信息，句子编码时关注到句子内部依赖，进而优化了类别检测结果。

表6和表7分别展示了PubMeb数据集上单标签预测时的混淆矩阵与预测效果。表6中的列表示真实标签，行表示预测标签。例如476个标签为“Background”的句子被预测为“Objectives”。可以看出区分“Background”与“Objectives”标签是分类器遇到的最大困难，主要原因在于“Background”与“Objectives”本身存在混淆性，且“Objectives”标签的句子与摘要中其他类别的句子相比，语义性与特征性不明显。

表6单标签预测的混淆矩阵

表7单标签预测的预测效果

表8展示了在PubMed数据集上对模型进行训练后的转移矩阵，转移矩阵由CRF生成，其有效地反映了标签之间的转换关系。其中行表示前一句子类别，列表示当前句子类别。例如，从表中可以看出类别为“Objectives”的句子之后最有可能的是类别为“Methods”的句子(0.39)，最不可能的是类别为“Conclusions”(-0.97)的句子。

表8转移矩阵

为了验证模型中每个步骤的效果，分别移除特定模块构建下列消融模型：HMcN-multiLSTM、HMcN-attention、HMcN-ELMo和HMcN-CRF分别表示去除多连接Bi-LSTM架构，去除多层自注意力、去除ELMo得到的句向量编码、去除CRF层的消融模型。从表9可以看出，模型的每个模块都有助于类别检测的效果，而以句向量作为输入的多连接Bi-LSTM架构是HMcN模型最重要的部分。

表9模型消融