CN112182168A

CN112182168A - 病历文本分析方法、装置、电子设备及存储介质

Info

Publication number: CN112182168A
Application number: CN202011360065.9A
Authority: CN
Inventors: 尤心心; 刘喜恩; 吴及
Original assignee: Beijing Huiji Zhiyi Technology Co ltd
Current assignee: Beijing Huiji Zhiyi Technology Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-01-05
Anticipated expiration: 2040-11-27
Also published as: CN112182168B

Abstract

本发明实施例提供一种病历文本分析方法、装置、电子设备及存储介质，所述方法包括：基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图；将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；其中，文本分析模型是基于样本病历文本及其匹配的解释因子，以及样本病历文本对应的样本疾病类型训练得到的。本发明实施例提供的病历文本分析方法、装置、电子设备及存储介质，通过结合病历文本及其匹配的解释因子，使得两者相辅相成，既提高了诊断结果的准确性，又能够提供诊断结果的可解释性依据，提高了诊断结果的可靠性。

Description

病历文本分析方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种病历文本分析方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的快速发展，基于病历的人工智能辅助决策方法的应用越来越广泛，通过对病历文本进行分析，提供可能的诊断结果以辅助医生进行诊断，为患者提供参考。

目前，病历文本分析方法大多是根据输入的病历文本对病历字面上的文本信息进行分析，进而得到可能的诊断结果。现有的病历文本分析方法单凭病历字面上的文本信息进行预测，得到的诊断结果的准确性较低，且无法提供输出的诊断结果的可解释性依据，可靠性较低。

发明内容

本发明实施例提供一种病历文本分析方法、装置、电子设备及存储介质，用以解决现有技术中准确性及可靠性较低的缺陷。

本发明实施例提供一种病历文本分析方法，包括：

基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建所述若干个病历文本的层级结构图；

将所述层级结构图输入至文本分析模型，得到所述文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；

其中，所述文本分析模型是基于样本病历文本及其匹配的解释因子，以及所述样本病历文本对应的样本疾病类型训练得到的。

根据本发明一个实施例的病历文本分析方法，所述基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建所述若干个病历文本的层级结构图，包括：

建立初始结构图，所述初始结构图包括所述若干个病历文本分别对应的病历节点、与每一病历文本匹配的解释因子对应的解释因子节点，以及词共现图；所述词共现图包括所述若干个病历文本与所述多种疾病对应的多种解释因子中每一词语对应的词语节点，用于表示所述每一词语之间的共现关系；

基于每一病历文本中包含的词语，建立病历节点与词语节点之间的连接关系；

基于与每一解释因子匹配的病历文本中包含的词语，建立解释因子节点与词语节点之间的连接关系，得到所述层级结构图。

根据本发明一个实施例的病历文本分析方法，所述基于与每一解释因子匹配的病历文本中包含的词语，建立解释因子节点与词语节点之间的连接关系，包括：

基于任一解释因子的匹配片段中每一词语相对于所述任一解释因子的重要性和鉴别性，建立所述任一解释因子对应的解释因子节点与词语节点之间的连接关系；

其中，所述任一解释因子的匹配片段为与所述任一解释因子匹配的病历文本中的语义片段。

根据本发明一个实施例的病历文本分析方法，所述文本分析模型的损失函数是基于所述样本病历文本的语义特征和所述样本病历文本的语义特征与样本疾病类型的语义特征的相似性确定的，所述样本疾病类型是基于与所述样本病历文本匹配的解释因子确定的。

根据本发明一个实施例的病历文本分析方法，所述匹配关系是基于如下方法确定的：

确定所述词共现图中各个词语的语义特征；

基于任一文本片段或任一解释因子中各个词语的语义特征，分别确定所述任一文本片段或所述任一解释因子的语义特征；

基于所述任一文本片段的语义特征和每一解释因子的语义特征，确定与所述任一文本片段匹配的解释因子。

根据本发明一个实施例的病历文本分析方法，所述语义特征包括粗粒度特征和细粒度特征；

所述基于所述任一文本片段的语义特征和每一解释因子的语义特征，确定与所述任一文本片段匹配的解释因子，包括：

将任一文本片段的细粒度特征和粗粒度特征，与任一解释因子的细粒度特征和粗粒度特征进行两两匹配，得到所述任一文本片段与所述任一解释因子的多粒度匹配结果；

基于所述任一文本片段对应每一解释因子的多粒度匹配结果，确定与所述任一文本片段匹配的解释因子。

根据本发明一个实施例的病历文本分析方法，所述词共现图是基于如下方法确定的：

将所述若干个病历文本中各个文本片段和所述多种疾病对应的多种解释因子中每个词语作为一个词语节点；

基于任一词语在每一文本片段和每一解释因子中与其他词语的共现关系，确定所述任一词语对应的词语节点与其他词语节点的连接关系，并将所述任一词语对应的词语节点与其自身相连。

本发明实施例还提供一种病历文本分析装置，包括：

层级结构图构建单元，用于基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建所述若干个病历文本的层级结构图；

文本分析单元，用于将所述层级结构图输入至文本分析模型，得到所述文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述病历文本分析方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述病历文本分析方法的步骤。

本发明实施例提供的病历文本分析方法、装置、电子设备及存储介质，基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图，并将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及疾病类型相关联的解释因子，通过结合病历文本及其匹配的解释因子，使得两者相辅相成，既提高了诊断结果的准确性，又能够提供诊断结果的可解释性依据，提高了诊断结果的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的病历文本分析方法的流程示意图；

图2为本发明实施例提供的层级结构图构建方法的流程示意图；

图3为本发明实施例提供的样本层级结构图的示意图；

图4为本发明实施例提供的匹配关系确定方法的流程示意图；

图5为本发明另一实施例提供的病历文本分析方法的流程示意图；

图6为本发明实施例提供病历文本分析装置的结构示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，病历文本分析方法大多是根据输入的病历文本对病历字面上的文本信息进行分析，进而得到可能的诊断结果。例如，将病历文本输出至预先训练的模型，由模型对病历文本进行文本分析，并输出该病历文本对应的诊断结果。

现有的病历文本分析方法单凭病历字面上的文本信息进行预测，得到的诊断结果的准确性较低，例如，将一个上消化道出血的患者的病历文本输入至模型，模型输出的诊断结果为消化性溃疡。而且，现有的病历文本分析方法无法提供输出的诊断结果的可解释性依据，可靠性较低。

由此，提供可解释性依据的病历文本分析方法应运而生，现有的提供可解释性依据的病历文本分析方法主要包括两类：第一类方法是根据模型输出的结果，利用消融实验或回溯分析法追踪模型中各个神经元或各层神经网络具体处理的信息以及对应的作用，进而提供一些模型结构层面的解释分析。第一类方法提供的是模型结构层面的可解释性依据，包括模型结构设计的依据或作用，并不是解释模型输出的诊断结果的医学文本类依据，无法辅助医生进行决策或为患者提供参考。

第二类方法是通过预设的规则或人工校对的方式构建知识库，并基于构建的知识库，利用线性模型或决策树模型进行病历文本分析。第二类方法中构建知识库需要消耗大量时间、人力和物力成本，而且诊断结果是直接基于知识库进行分类预测得到的，无法反映病历文本中记载的患者的实际病情，诊断结果的准确性完全依赖于知识库存储的知识的准确性，鲁棒性较差。

对此，本发明实施例提供一种病历文本分析方法，图1为本发明实施例提供的病历文本分析方法的流程示意图，如图1所示，该方法包括：

步骤110，基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图。

具体地，在医疗诊断过程中，医生通常会根据患者的自述和询问撰写患者的病历，病历文本是患者的病历所对应的文本。此处患者病历可以是电子病历，也可以是对纸质病历进行光学字符识别OCR得到病历文本，本发明实施例对比不作具体限定。

任一种疾病对应的解释因子可以为与该疾病相关的常识类信息，解释因子可以为词语或短语，任一种疾病对应的解释因子可以分为症状类、疾病类、部位类、检查类、高发人群类和病因类等多种类型。任一种疾病对应的多种解释因子可以涵盖诊断该疾病的所有依据

其中，疾病类解释因子可以包括能够推导出该疾病的前期疾病，或者与该疾病有上下位关系的疾病；部位类解释因子可以包括该疾病多发的人体部位；检查类解释因子可以包括确诊该疾病可以做的检查项目；高发人群类解释因子可以包括容易患有该疾病的人群的特点；病因类解释因子可以包括诱发该疾病的因素。

以疾病“细菌性痢疾”为例，其对应的多种解释因子如下：

症状类：腹痛、发热、里急后重、黏液脓血便、腹泻、全身中毒；

疾病类：痢疾；

部位类：肠道；

检查类：血常规、大便常规、细菌培养、特异性核算检测、免疫学检测、肠镜检查、X线钡餐检查；

高发人群类：儿童、青壮年；

病因类：志贺菌感染、痢疾杆菌感染。

在执行步骤110之前，可以收集大量病历文本，并通过对多种疾病对应的患者的大量历史数据进行统计或总结得到多种疾病对应的多种解释因子。

在此基础上，基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图。其中，匹配关系可以包括每一病历文本中各个片段及其匹配的解释因子，此处片段可以为语义片段或文本片段，语义片段为一个具有完整语义的片段，文本片段为相邻两个分隔号之间的片段，分隔号可以为逗号、分号和句号等符号。

此处，可以确定每一病历文本对应的病历节点和每一解释因子对应的解释因子节点，其中，病历节点和解释因子节点可以分别为病历文本和解释因子的向量表示，并基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，可以建立多个病历节点和多个解释因子节点之间的连接关系，进而得到层级结构图。

步骤120，将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；

其中，文本分析模型是基于样本病历文本及其匹配的解释因子，以及样本病历文本对应的样本疾病类型训练得到的。

具体地，文本分析模型用于结合基于每一病历文本的语义信息，以及与每一病历文本匹配的解释因子，对每一病历文本进行分析，并输出每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子。其中，任一病历文本对应的疾病类型为基于该病历文本确定的可能的诊断结果，任一病历文本对应的解释因子为输出该疾病类型的可解释性依据，即模型是具体依据哪些信息确定该病历文本对应的疾病类型，此处，任一病历文本对应的解释因子可以为一个或多个。

在执行步骤120之前，还可以预先训练得到文本分析模型，可以通过如下方式训练得到文本分析模型：首先收集大量样本病历文本，确定样本病历文本匹配的解释因子，并基于样本病历文本及其匹配的解释因子，构建样本病历文本的样本层级结构图。随即，基于样本层级结构图以及样本病历文本对应的样本疾病类型训练初始模型，从而得到文本分析模型。

可选地，文本分析模型可以为图卷积神经网络GCN（Graph Convolution Network，GCN），图卷积神经网络可以基于输入的图中任一节点自身的信息以及与其相连的节点的信息，确定该节点的特征。在此基础上，将层级结构图输入至文本分析模型，由文本分析模型对层级结构图进行多层卷积，得到层级结构图中任一病历节点的语义特征，并基于任一病历节点的语义特征确定该病历节点的病历文本对应的疾病类型，以及该病历节点的病历文本对应的解释因子。

由于层级结构图中任一病历节点与其匹配的解释因子节点存在连接关系，任一病历节点的语义特征融合了该病历节点自身的信息以及与该病历节点匹配的解释因子的信息，本发明实施例采用与病历文本匹配的解释因子辅助病历文本的分析，使得确定的病历文本对应的疾病类型更准确，同时通过将病历文本与解释因子进行匹配，进而得到病历文本对应的解释因子，通过结合病历文本及其匹配的解释因子，使得两者相辅相成，既提高了诊断结果的准确性，又能够提供诊断结果的可解释性依据，提高了诊断结果的可靠性。

本发明实施例提供的方法，基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图，并将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及疾病类型相关联的解释因子，通过结合病历文本及其匹配的解释因子，使得两者相辅相成，既提高了诊断结果的准确性，又能够提供诊断结果的可解释性依据，提高了诊断结果的可靠性。

基于上述实施例，图2为本发明实施例提供的层级结构图构建方法的流程示意图，如图2所示，该方法包括：

步骤111，建立初始结构图，初始结构图包括若干个病历文本分别对应的病历节点、与每一病历文本匹配的解释因子对应的解释因子节点，以及词共现图；词共现图包括若干个病历文本与多种疾病对应的多种解释因子中每一词语对应的词语节点，用于表示每一词语之间的共现关系；

步骤112，基于每一病历文本中包含的词语，建立病历节点与词语节点之间的连接关系；

步骤113，基于与每一解释因子匹配的病历文本中包含的词语，建立解释因子节点与词语节点之间的连接关系，得到层级结构图。

具体地，在执行步骤111之前，可以预先构建词共现图，首先确定若干个病历文本和多种疾病对应的多种解释因子中各个词语对应的词语节点，词语节点可以为词语的向量表示。然后基于若干个病历文本和多种疾病对应的多种解释因子中各个词语之间的共现关系，将任一词语对应的词语节点与其存在共现关系的词语对应的词语节点相连，进而得到词共现图。

随即，基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，确定与每一病历文本匹配的解释因子，将若干个病历文本分别对应的病历节点，以及与每一病历文本匹配的解释因子对应的解释因子节点添加到包含词共现图的初始结构图中。

初始结构图包括词共现图中各个词语对应的词语节点，若干个病历文本对应的病历节点，以及与每一病历文本匹配的解释因子对应的解释因子节点，为进一步构建层级结构图，在初始结构图的基础上，需要建立病历节点与词语节点，以及解释因子节点与词语节点之间的连接关系。

由于词共现图中包含若干个病历文本中的所有词语，可以基于每一病历文本包含的词语，建立初始结构图中病历节点与词语节点的连接关系。此处，可以将每一病历文本对应的病历节点与对应病历文本包含的若干个词语对应的词语节点分别进行连接，也可以选取每一病历文本中的代表性词语，连接每一病历文本对应的病历节点与其对应的代表性词语对应的词语节点，本发明实施例对此不作具体限定。

初始结构图中每一解释因子节点对应的解释因子均存在与其匹配的病历文本，可以基于与每一解释因子匹配病历文本中包含的词语，建立解释因子节点与词语节点之间的连接关系。此处，一个解释因子可以与病历文本中的一个语义片段匹配，进而可以基于与任一解释因子匹配的语义片段中的各个词语，建立解释因子节点与词语节点之间的连接关系，例如，将与该解释因子匹配的语义片段中各个词语分别对应的词语节点与该解释因子对应的解释因子节点连接。

基于上述任一实施例，步骤113包括：

基于任一解释因子的匹配片段中每一词语相对于该解释因子的重要性和鉴别性，建立该解释因子对应的解释因子节点与词语节点之间的连接关系；

其中，该解释因子的匹配片段为与该解释因子匹配的病历文本中的语义片段。

具体地，若干个病历文本与多种疾病对应的多种解释因子的匹配关系可以包括每一病历文本中各个语义片段及其匹配的解释因子，例如，语义片段为“1天前酒后开始出现上腹部疼痛”，与其匹配的解释因子可以为“酒后腹痛（病因类）”。基于上述匹配关系，可以将与任一解释因子匹配的病历文本中的语义片段作为该解释因子的匹配片段。

基于任一解释因子的匹配片段中每一词语相对于该解释因子的重要性和鉴别性，可以确定与该解释因子对应的解释因子节点相连的若干个词语节点，进而建立解释因子节点与词语节点之间的连接关系。其中，每一词语相对于该解释因子的重要性和鉴别性可以表示为TF-IDF（Term Frequency–Inverse Document Frequency，词频-逆文档频率）指数。此处，在得到该解释因子的匹配片段中每一词语相对于该解释因子的TF-IDF指数之后，可以从中选取出TF-IDF指数最大的词语，并连接该解释因子节点与该词语节点，也可以基于预设阈值，将该解释因子对应的解释因子节点与TF-IDF指数大于预设阈值的若干个词语对应的词语节点连接，且不与TF-IDF指数小于预设阈值的若干个词语对应的词语节点连接。

TF-IDF指数具体可以通过如下公式计算：

式中，

为词语t相对文档d的TF-IDF指数，D表示所有文档的集合，即语料库，N表示语料库中文档数量，n_t表示包含词语t的文档数量，tf表示词语t出现在文档d中的频率，

表示词语t在文档d中出现的次数。

由上式可知，

可以表示词语t在文档d中的重要性，

可以表示词语t的鉴别性，若词语t在文档d中的重要性越高且词语t的鉴别性越高，则词语t在文档d 中的TF-IDF指数越高。

在此基础上，对于任一解释因子，可以计算该解释因子的匹配片段中每一词语相对于该解释因子的TF-IDF指数，此处，将该解释因子的匹配片段中的任一词语作为词语t，将该解释因子作为文档d。此外，对于相连的词语节点和解释因子节点，还可以将词语节点相对于解释因子节点的TF-IDF指数作为词语节点与解释因子节点的连接边的权重。

基于上述任一实施例，文本分析模型的损失函数是基于样本病历文本的语义特征和样本病历文本的语义特征与样本疾病类型的语义特征的相似性确定的，样本疾病类型是基于与样本病历文本匹配的解释因子确定的。

具体地，训练过程中，基于样本病历文本及其匹配的解释因子构建样本病历文本的样本层级结构图，在上述实施例提供的方法构建得到的样本层级结构图的基础上，基于解释因子与疾病类型的从属关系，建立每一样本解释因子节点与其所属疾病类型的样本疾病节点的连接关系，样本疾病节点可以为样本疾病类型的向量表示，样本疾病类型可以为与样本病历文本匹配的样本解释因子所属的疾病类型。

本发明实施例中样本层级结构可以包括样本病历节点、样本解释因子节点，样本词语节点以及样本疾病节点。图3为本发明实施例提供的样本层级结构图的示意图，如图3所示，A、B、C、D分别表示样本词语节点、样本解释因子节点、样本疾病节点以及样本病历节点，需要说明的是A、B、C、D仅用于区分节点的类型，不代表具体的节点，图3中虚线框中存在连接关系的多个样本词语节点组成的样本词共现图。

随即，将样本病历文本的样本层级结构图输入至文本分析模型，由文本分析模型基于样本层级结构图中节点之间的连接关系，确定样本层级结构图中样本病历节点的语义特征和样本疾病节点的语义特征，其中，样本病历节点的语义特征和样本疾病节点的语义特征不仅包含自身节点的信息，而且包含与其相连的所有节点的信息。

基于样本病历节点的语义特征，确定对应样本病历文本的第一预测疾病类型，基于样本病历文本的语义特征和样本疾病类型的语义特征的相似性，确定对应样本病历文本的第二预测疾病类型。

此处，可以对样本病历节点的语义特征进行softmax归一化，得到的归一化结果包括对应样本病历文本属于各种疾病类型的概率，将归一化结果输入至argmax公式，得到最大的概率对应的疾病类型，作为第一预测疾病类型；还可以基于样本病历文本的语义特征和样本疾病类型的语义特征的相似性，将与样本病历节点相似度最高的样本疾病节点对应的疾病类型，作为第二预测疾病类型。其中，相似度可以为余弦相似度、欧氏距离或皮尔逊相关系数，本发明实施例对此不作具体限定。

以图3为例，图3中的样本层级结构图包括左右两个分支，左边的分支中包括与样本病历文本匹配的解释因子节点以及所属疾病类型的疾病节点，用于表示各种疾病的常识类信息，以确定第一预测疾病类型，右边的分支中各个样本病历节点用于表示患者的病情信息，以确定第二预测疾病类型。图3包括四个样本病历节点D，两个样本疾病节点C，可以计算四个样本病历节点和两个样本疾病节点两两之间的相似度，进而得到任一样本病历节点分别与两个样本疾病节点之间的两个相似度，将其中相似度最高的样本疾病节点作为该样本病历节点对应的样本病历文本的第二预测疾病类型。

在得到第一预测疾病类型和第二预测疾病类型之后，基于样本病历文本的第一预测疾病类型及其对应的样本疾病类型，确定第一损失函数，基于样本病历文本的第二预测疾病类型及其对应的样本疾病类型，确定第二损失函数。将第一损失函数和第二损失函数相结合，得到文本分析模型的损失函数。

通过不断调整文本分析模型的模型参数，以使得文本分析模型的损失函数最小，实现文本分析模型的多目标训练。例如，可以使模型根据损失函数的值进行梯度回传和参数优化，进而得到最优的模型参数。

此处，第一损失函数和第二损失函数可以为交叉熵损失函数，交叉熵损失函数如下式所示：

式中，N为样本病历文本的数量，

为第i个样本病历文本的标签，正类为1，负类为0，

为第i个样本病历文本预测为正的概率。

本发明实施例提供的方法，通过从解释因子和病历文本两个不同角度分别构建包含两个分支的样本层级结构图，一个分支用于基于样本病历文本记载的患者的病情信息确定第一预测疾病类型，另一分支用于通过匹配各种疾病的常识信息与样本病历文本确定第二预测疾病类型，并且针对性地设计双重损失函数对文本分析模型进行联合训练，使得文本分析模型输出的疾病类型既符合患者的实际情况，又符合疾病的常识，进而提高了诊断结果的准确性。

基于上述任一实施例，图4为本发明实施例提供的匹配关系确定方法的流程示意图：

步骤410，确定词共现图中各个词语的语义特征；

步骤420，基于任一文本片段或任一解释因子中各个词语的语义特征，分别确定该文本片段或该解释因子的语义特征；

步骤430，基于该文本片段的语义特征和每一解释因子的语义特征，确定与该文本片段匹配的解释因子。

具体地，在得到词共现图之后，基于词共现图，确定词共现图中各个词语的语义特征。此处，可以将词共现图输入至语义特征提取模型，由语义特征提取模型基于词共现图中每一词语节点及其连接的词语节点的语义信息，确定词共现图中每一词语的语义特征。其中，语义特征提取模型可以是基于图卷积神经网络构建得到的。

基于任一文本片段中各个词语的语义特征，确定该文本片段的语义特征，例如可以对该文本片段中各个词语的语义特征进行拼接，将得到的拼接后的特征作为该文本片段的语义特征；还可以对该文本片段中各个词语的语义特征进行平均池化，将取平均后的特征作为该文本片段的语义特征。同样地，基于任一解释因子中各个词语的语义特征，确定该解释因子的语义特征。

随即，将任一文本片段的语义特征和每一解释因子的语义特征进行匹配，进而确定与该文本片段匹配的解释因子，例如，计算任一文本片段的语义特征与每一解释因子的语义特征之间的相似度，将相似度最高的解释因子作为与该文本片段匹配的解释因子。

在执行步骤420之前，还可以对若干个病历文本和多种疾病对应的多种解释因子进行分词处理，例如采用分词工具包，得到若干个病历文本中每一文本片段中的各个词语，以及每一解释因子中的各个词语。

在执行步骤430之后，对于任一病历文本，还可以基于该病历文本中任一文本片段及其相邻的文本片段分别匹配的解释因子，确定该病历文本中的语义片段及其匹配的解释因子，例如，若相邻的两个文本片段均与同一解释因子匹配，则将上述两个文本片段组成一个语义片段，并将该解释因子作为组合得到的语义片段匹配的解释因子。

基于上述任一实施例，所述语义特征包括粗粒度特征和细粒度特征；相应地，步骤430包括：

将任一文本片段的细粒度特征和粗粒度特征，与任一解释因子的细粒度特征和粗粒度特征进行两两匹配，得到该文本片段与该解释因子的多粒度匹配结果；

基于该文本片段对应每一解释因子的多粒度匹配结果，确定与该文本片段匹配的解释因子。

具体地，任一文本片段或任一解释因子的语义特征包括粗粒度特征和细粒度特征，其中，粗粒度特征用于表征对应文本整体的语义信息，细粒度特征用于表征对应文本中每一词语的语义信息。此处，任一文本片段或任一解释因子的细粒度特征可以为该文本片段或该解释因子中各个词语的语义特征组合得到的高维特征，或者各个词语的语义特征拼接得到的特征，任一文本片段或任一解释因子的粗粒度特征可以为对该文本片段或该解释因子中各个词语的语义特征进行平均之后得到特征。

在得到将每一文本片段的细粒度特征和粗粒度特征，与每一解释因子的细粒度特征和粗粒度特征，将任一文本片段的细粒度特征和粗粒度特征，与任一解释因子的细粒度特征和粗粒度特征进行两两匹配，得到该文本片段与该解释因子的多粒度匹配结果。随即，基于该文本片段对应每一解释因子的多粒度匹配结果，可以确定与该文本片段匹配的解释因子。

可选地，可以计算任一文本片段的细粒度特征和粗粒度特征，与任一解释因子的细粒度特征和粗粒度特征两两之间的相似度，并对计算得到的四个相似度与输入的四个特征进行组合，得到四组结果，例如（文本片段的粗粒度特征，解释因子的细粒度特征，两者之间的相似度），然后对四组结果进行拼接，得到该文本片段与该解释因子的多粒度匹配结果。

将该文本片段对应每一解释因子的多粒度匹配结果输入至匹配模型，由匹配模型基于该文本片段的粗粒度特征和细粒度特征与每一解释因子的粗粒度特征和细粒度特征之间的相似性，确定与该文本片段匹配的解释因子。此处，匹配模型可以是基于全连接网络构建得到的，匹配模型的损失函数可以为交叉熵损失函数。

本发明实施例提供的方法，通过将文本片段和解释因子进行多粒度的匹配，充分考虑了文本片段和解释因子在不同粒度上的相似性，进而保证了匹配的结果的准确性。

基于上述任一实施例，所述词共现图是基于如下方法确定的：

将若干个病历文本中各个文本片段和多种疾病对应的多种解释因子中每个词语作为一个词语节点；

基于任一词语在每一文本片段和每一解释因子中与其他词语的共现关系，确定该词语对应的词语节点与其他词语节点的连接关系，并将该词语对应的词语节点与其自身相连。

具体地，对若干个病历文本和多个解释因子进行分词处理，并将每一词语作为一个词语节点。以任一文本片段或任一解释因子为单位，若两个词语在任一文本片段或任一解释因子中同时出现，则两个词语被认为存在一次共现关系，即两个词语共同出现在一个文本片段或一个解释因子中。对于任一词语，基于该词语与其他词语之间的共现关系，确定该词语对应的词语节点与其他词语节点的连接关系。

可选地，可以基于任一词语的PMI（Point-wise Mutual Information，点互信息），确定该词语对应的词语节点与其他词语节点的连接关系。

具体可以通过如下公式计算PMI：

式中，#W表示文本片段和解释因子的总个数，#W(i)表示词语i出现的总次数，#W(i，j)表示词语对i、j共同出现的总次数。单词i的PMI值越大，表明词语对（i，j）的相关度越高；PMI值越小，表明词语对（i，j）的相关度越低。

在得到各个词语节点之后，对于任一词语，若该词语与另一词语组成的词语对的PMI大于0，则连接该词语对应的词语节点与另一词语对应的词语节点，并将该词语对的PMI作为连接该词语对两个词语节点的边的权重。若该词语与另一词语组成的词语对的PMI为0，则不连接该词语对应的词语节点与另一词语对应的词语节点。此外，还可以为每一词语节点构建自边，即对每一词语节点进行复制，并将每一词语节点与其自身相连。

基于上述任一实施例，病历文本包括主诉、现病史和既往史三个部分，其中，主诉是病历中最开始被记录的部分，是患者自述的患病情况，通常包括：令患者自身感到最不舒服的症状、部位以及持续时间描述，或者是导致本次来看病的直接原因叙述，一般较为精炼准确。

根据主诉的书写特性以及其在病历中发挥的作用，其包含的语义片段通常是症状类或者病因类的，例如主诉内容为：“发热2天，皮疹半天”，该主诉包含两个文本片段，每一文本片段也可以作为一个完整语义片段。又例如主诉内容为：“两天前，吹空调之后鼻子不舒服，还有咽炎表现 ”，该主诉中前两个文本片段为一个语义片段（两天前，吹空调之后鼻子不舒服），描述的是病因以及症状，第三个片段为一个语义片段（还有咽炎表现），描述的是症状。

现病史是病历中最为重要的部分之一，是对主诉内容的更完整和更详细的描述，通常包括：起病情况和患病时间、主要症状及其特点、发病病因以及严重诱因、病情的发展和演变过程、之前的诊治过程以及病程中的一般情况等多个部分，所占篇幅也较长。

根据现病史的书写特性以及其在病例中所起到的重要作用，其所包含的语义片段包含症状类、病因类、治疗类，体征类等。例如现病史内容为：“患者于2天前受凉后出现发热，最高体温达39.2℃，不伴畏寒寒战，伴咳痰，咳少许黄色黏液痰。自发病以来，病人精神状态良好，体力情况良好，食欲食量良好，睡眠情况良好，大便正常，小便正常，体重无明显变化”。该现病史包含的第一个语义片段（患者于2天前受凉后出现发热，最高体温达39.2℃）描述的是高热症状以及受凉病因；第二个语义片段（不伴畏寒寒战）其描述的是阴性症状（否认症状）；第三个语义片段（伴咳痰，咳少许黄色黏液痰）其描述的是咳黄色痰症状；最后一个语义片段其描述的是一般情况（精神、食欲、睡眠、大便、小便、体重情况）良好。

既往史也是病历中非常重要的内容，记录了患者既往的患病、用药、过敏、饮食习惯等情况，由于疾病之间具有一定的关联性，因此既往的患病和用药情况对于当前病情的分析具有非常重要的参考价值，患者的过敏史和饮食习惯也会影响医生的治疗方法和药物使用。既往史的信息简明扼要，长度介于主诉和现病史之间，一般否定描述较多。例如既往史内容为：“既往有‘高血压病’病史，否认外伤、手术史，否认输血史，否认药物、食物过敏史。”该既往史中每一个文本片段都是一个语义片段，分别描述了疾病史、手术史以及过敏史。

基于上述任一实施例，图5为本发明实施例提供的病历文本分析方法的流程示意图，如图5所示，该方法包括以下步骤：

首先，获取多个病历文本和多个解释因子，其中，多个解释因子包括多种疾病分别对应的六种解释因子，六种解释因子分别为症状类、疾病类、部位类、检查类、高发人群类和病因类。

为构建词共现图，对多个病历文本和多个解释因子进行分词处理，将多个病历文本和多个解释因子中每一词语作为一个词语节点，对于任一词语，若该词语与另一词语组成的词语对的PMI大于0，则连接该词语对应的词语节点与另一词语对应的词语节点，并将该词语对的PMI作为连接该词语对两个词语节点的边的权重。若该词语与另一词语组成的词语对的PMI为0，则不连接该词语对应的词语节点与另一词语对应的词语节点。此外，还可以为每一词语节点构建自边，即将对每一词语节点进行复制，并将每一词语节点与其自身相连，以保证每一词语节点保持自身的语义特征。

随即，将词共现图输入至语义特征提取模型，由语义特征提取模型基于词共现图中每一词语节点及其连接的词语节点的语义信息，确定词共现图中每一词语的语义特征。此处，语义特征提取模型为图卷积神经网络，语义特征提取模型中卷积层的数量是基于词共现图的结构确定的，例如，若词共现图中任意两个词语节点最多间隔一个词语节点，则语义特征提取模型包括两个卷积层。

此外，基于词共现图还可以生成邻接矩阵。假设词共现图中共有N个词语节点，可以生成一个N*N的邻接矩阵A，用a_ij表示A中第i行第j列的元素，如果词语节点i和j之间有边，则a_ij=PMI(i，j)，否则a_ij=0，同时因为有自边，矩阵A的对角线元素全为1。在此基础上，语义特征提取模型中特征矩阵L可以基于如下公式计算：

式中，

为规范化的对称邻接矩阵，

，W₀为权重矩阵，

表示激活函数，例如leakyReLU函数。

在得到多个病历文本和多个解释因子中各个词语的语义特征之后，对于任一病历文本中任一文本片段，将该文本片段中各个词语的语义特征组合得到的高维特征作为该文本片段的细粒度特征，将该文本片段中各个词语的语义特征进行平均池化之后得到的特征作为该文本片段的粗粒度特征。同样地，确定任一解释因子的粗粒度特征和细粒度特征。

计算任一文本片段的细粒度特征和粗粒度特征，与任一解释因子的细粒度特征和粗粒度特征两两之间的余弦相似度，并对计算得到的四个相似度与输入的四个特征进行组合，得到四组结果，例如（文本片段的粗粒度特征，解释因子的细粒度特征，两者之间的余弦相似度），然后对四组结果进行拼接，得到该文本片段与该解释因子的多粒度匹配结果。

将该文本片段对应每一解释因子的多粒度匹配结果输入至匹配模型，由匹配模型基于该文本片段的粗粒度特征和细粒度特征与每一解释因子的粗粒度特征和细粒度特征之间的相似性，确定与该文本片段匹配的解释因子。此处，匹配模型可以为全连接网络。

其中，余弦相似度的公式如下式所示：

式中，θ为向量A和向量B的之间的夹角，n为向量A和向量B的维度。

对于任一病历文本，若相邻的两个文本片段对应于同一解释因子，则将上述两个文本片段组成一个语义片段，并将该解释因子作为组合得到的语义片段匹配的解释因子，进而得到该病历文本中各个语义片段与多个解释因子的匹配关系。

在得到多个病历文本中各个语义片段与多个解释因子的匹配关系，构建多个病历文本的层级结构图，将每一病历文本作为一个病历节点，将与每一病历文本中各个语义片段匹配的解释因子作为解释因子节点，将每一解释因子所属的疾病类型作为疾病节点。

在之前构建得到的词共现图的基础上，建立词共现图中词语节点与解释因子节点之间的连接关系。基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，确定任一解释因子的匹配片段，并计算该解释因子的匹配片段中每一词语相对于该解释因子的TF-IDF指数，从中选取出TF-IDF指数最大的词语，并连接该解释因子节点与该词语节点。对每一解释因子执行上述操作，建立解释因子节点与词语节点之间的连接关系。

基于上述同样的方法，建立词共现图中词语节点与病历节点之间的连接关系，以及解释因子节点与疾病节点之间的连接关系，进而得到层级结构图，并将层级结构图输入至文本分析模型，由文本分析模型基于层级结构图中中每一节点及其连接的节点的语义信息，确定层级结构图中每一节点的语义特征，并结合病历节点的语义特征，以及病历节点的语义特征与疾病节点的语义特征之间的相似性，确定每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子。

此处，文本分析模型为图卷积神经网络，文本分析模型中卷积层的数量是基于层级结构图的结构确定的，例如，若层级结构图中任意两个节点最多间隔两个节点，则文本分析模型包括三个卷积层。

以如下病历文本为例，病历文本包括主诉、现病史和既往史三个部分：

主诉：腹痛一天，解黑便四次；

现病史：一天前酒后开始出现上腹痛疼痛，呈阵发性隐痛，每次约十分钟，今日解黑便四次，量不多，约100克，有头晕头痛、乏力症状；

既往史：既往体质欠佳，饮酒多年，无手术外伤史，无输血史，无药物及食物过敏史。

相应地，文本分析模型输出的结果可以为：

疾病类型：上消化道出血；

解释因子1：酒后腹痛（病因类）；

解释因子2：上腹隐痛（部位类）；

解释因子3：解黑便多次（症状类）；

解释因子4：头痛乏力（症状类）；

解释因子5：饮酒多年（高发人群类）。

本发明实施例提供的方法，通过预先设定疾病的六类解释因子，并将病历文本中各个语义片段与多个解释因子进行匹配，使得患者的实际情况和疾病的各类解释因子能够相互结合，采用多粒度匹配机制保证了匹配的结果的准确性。

通过从解释因子和病历文本两个不同角度构建包含两个分支的层级结构图，并通过文本分析模型将病历文本自身的信息以及与其匹配的解释因子的信息相结合，从解释因子的角度出发，其既能够提供可解释性依据，也能够辅助病历文本分析；从患者实际病情的角度出发，其既能够为模型分析病历文本提供重要信息，也能够定位对应解释因子，两者相辅相成，既提高了诊断结果的准确性，又能够提供诊断结果的可解释性依据，提高了诊断结果的可靠性。

基于上述任一实施例，图6为本发明实施例提供病历文本分析装置的结构示意图，如图6所示，该装置包括：

层级结构图构建单元610，用于基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建所述若干个病历文本的层级结构图；

文本分析单元620，用于将所述层级结构图输入至文本分析模型，得到所述文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；

本发明实施例提供的装置，基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图，并将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及疾病类型相关联的解释因子，通过结合病历文本及其匹配的解释因子，使得两者相辅相成，既提高了诊断结果的准确性，又能够提供诊断结果的可解释性依据，提高了诊断结果的可靠性。

基于上述任一实施例，层级结构图构建单元610包括：

初始结构图构建模块，用于建立初始结构图，所述初始结构图包括所述若干个病历文本分别对应的病历节点、与每一病历文本匹配的解释因子对应的解释因子节点，以及词共现图；所述词共现图包括所述若干个病历文本与所述多种疾病对应的多种解释因子中每一词语对应的词语节点，用于表示所述每一词语之间的共现关系；

病历节点与词语节点连接模块，用于基于每一病历文本中包含的词语，建立病历节点与词语节点之间的连接关系；

解释因子节点与词语节点连接模块，用于基于与每一解释因子匹配的病历文本中包含的词语，建立解释因子节点与词语节点之间的连接关系，得到所述层级结构图。

基于上述任一实施例，解释因子节点与词语节点连接模块用于：

基于上述任一实施例，所述文本分析模型的损失函数是基于所述样本病历文本的语义特征和所述样本病历文本的语义特征与样本疾病类型的语义特征的相似性确定的，所述样本疾病类型是基于与所述样本病历文本匹配的解释因子确定的。

基于上述任一实施例，该装置还包括：

匹配关系确定单元，用于确定所述词共现图中各个词语的语义特征；

基于上述任一实施例，所述语义特征包括粗粒度特征和细粒度特征；

匹配关系确定单元，具体用于将任一文本片段的细粒度特征和粗粒度特征，与任一解释因子的细粒度特征和粗粒度特征进行两两匹配，得到所述任一文本片段与所述任一解释因子的多粒度匹配结果；

基于上述任一实施例，该装置还包括：

词共现图构建单元，用于将所述若干个病历文本中各个文本片段和所述多种疾病对应的多种解释因子中每个词语作为一个词语节点；

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行病历文本分析方法，该方法包括：基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图；将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；其中，文本分析模型是基于样本病历文本及其匹配的解释因子，以及样本病历文本对应的样本疾病类型训练得到的。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的病历文本分析方法，该方法包括：基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图；将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；其中，文本分析模型是基于样本病历文本及其匹配的解释因子，以及样本病历文本对应的样本疾病类型训练得到的。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的病历文本分析方法，该方法包括：基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建若干个病历文本的层级结构图；将层级结构图输入至文本分析模型，得到文本分析模型输出的每一病历文本对应的疾病类型，以及每一病历文本对应的解释因子；其中，文本分析模型是基于样本病历文本及其匹配的解释因子，以及样本病历文本对应的样本疾病类型训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种病历文本分析方法，其特征在于，包括：

2.根据权利要求1所述的病历文本分析方法，其特征在于，所述基于若干个病历文本与多种疾病对应的多种解释因子的匹配关系，构建所述若干个病历文本的层级结构图，包括：

3.根据权利要求2所述的病历文本分析方法，其特征在于，所述基于与每一解释因子匹配的病历文本中包含的词语，建立解释因子节点与词语节点之间的连接关系，得到所述层级结构图，包括：

4.根据权利要求1所述的病历文本分析方法，其特征在于，所述文本分析模型的损失函数是基于所述样本病历文本的语义特征和所述样本病历文本的语义特征与样本疾病类型的语义特征的相似性确定的，所述样本疾病类型是基于与所述样本病历文本匹配的解释因子确定的。

5.根据权利要求2所述的病历文本分析方法，其特征在于，所述匹配关系是基于如下方法确定的：

确定所述词共现图中各个词语的语义特征；

6.根据权利要求5所述的病历文本分析方法，其特征在于，所述语义特征包括粗粒度特征和细粒度特征；

7.根据权利要求2或5所述的病历文本分析方法，其特征在于，所述词共现图是基于如下方法确定的：

8.一种病历文本分析装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述病历文本分析方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述病历文本分析方法的步骤。