CN113076411B

CN113076411B - 一种基于知识图谱的医疗查询扩展方法

Info

Publication number: CN113076411B
Application number: CN202110454713.5A
Authority: CN
Inventors: 方钰; 崔雪; 翟鹏珺
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-06-03
Anticipated expiration: 2041-04-26
Also published as: CN113076411A

Abstract

一种基于知识图谱的医疗查询扩展方法。自动问答系统中的查询扩展技术通过向问句中补充扩展信息来减小问答句间的语义差距，从而提高问答系统的准确性。在医疗问答领域，目前的查询扩展方法没有充分结合不同查询意图下医学术语间的共现关联关系与推理关联关系，因此得到的扩展词不够准确。本发明以医疗知识图谱为扩展词的知识来源，利用医学术语在不同查询意图下的推理关联得到候选扩展词，并结合否定医学术语识别与互信息技术筛选出最终的扩展词，最终提高了医疗问答系统的准确率。

Description

一种基于知识图谱的医疗查询扩展方法

技术领域

本发明涉及自然语言处理领域，具体涉及问答系统中查询的处理。查询扩展是自动问答系统中的重要环节与关键技术。

背景技术

随着互联网的快速发展，越来越多患者倾向于通过线上健康社区寻求医疗帮助。然而，急剧增长的问题数量给医生带来了巨大的回复负担。为了缓解医生的工作负担以及满足用户快速得到答案的需求，大量研究者们投身于医疗问答领域的研究。而在医疗问答系统中，问答句间表达方式的不同造成的词不匹配以及问答句间信息量不同造成的语义偏差是影响系统准确率的关键因素。为此，研究者引入查询扩展技术，即通过在查询中补充与查询相关的扩展词，来缩小问答句间的偏差，以提升系统的性能。

在当前医疗问答领域，查询扩展方法主要包括基于关键词的查询扩展和基于语义的查询扩展。然而，基于关键词的查询扩展方式仅从统计层面挑选关键词，忽略了查询的语义信息，因此可能会扩展很多不相关的医学实体为原始查询引入“噪声”，从而影响答案选择的质量。基于语义的查询扩展利用医学本体库或医学语义词典来挖掘查询中除表层字面之外的潜在语义，但目前基于语义的查询扩展研究在获取候选扩展词阶段是基于医学实体的概念来挑选候选扩展词，忽略了问答句间医学实体的推理关联关系在指导候选扩展词获取中的重要作用。而在扩展词筛选阶段，一部分研究者利用互信息对候选词进行筛选工作，但他们忽略了否定医学实体对实体间互信息值的干扰。

发明内容

鉴于现有技术的不足，本发明提出了一种医疗问答中基于实体关联关系的语义查询扩展方法。该方法结合查询意图与实体间推理关联关系从医学知识图谱中获取候选扩展词，并结合否定医学实体识别和互信息的筛选策略对扩展词进行筛选工作。

查询扩展是自动问答系统中重要的一环，它通过对原始问题进行处理来帮助问答模型选出正确答案。目前医疗问答领域的查询扩展多为利用伪相关反馈获取扩展词、利用医学术语间的统计关系获取扩展词、利用术语间的语义相似度获取扩展词，得到的扩展词很可能与查询意图无关，不符合查询所处的医疗场景，或者与查询本身相关度较小，因此会给问答系统带来较大噪声，影响了问答系统的准确率。

针对上述问题，本发明以扩展用户查询为目的，采用SVM分类器获取用户的查询意图，之后基于不同查询意图下医学术语的推理关联关系从医疗知识图谱中获取与查询相关的候选扩展词，最后利用否定术语识别技术与互信息技术筛选得到最终扩展词。

为了实现上述目的，本发明给出的技术方案为：

本发明提供一种基于知识图谱的医疗查询扩展方法，包括：

步骤1、对医疗问答对数据集进行预处理；

步骤2、训练SVM分类器对问句进行查询意图预测；

步骤3、结合步骤2得到的查询意图从医疗知识图谱中获取与查询相关的候选扩展词；

步骤4、利用否定医学术语识别技术与互信息技术筛选步骤3中得到的候选扩展词，从而得到最终的扩展词。

有益效果

本发明针对现有医疗问答领域查询扩展技术无法准确生成与查询所在的医疗场景相关的扩展词、没有充分结合不同查询意图下医学术语间的共现关联关系与推理关联关系、未考虑否定医学术语对术语间共现关系的影响等问题，实现了一种基于知识图谱的医疗查询扩展方法。本发明利用半监督SVM分类器获取用户查询意图，并利用不同意图下医学术语间的推理关联关系从医疗知识图谱中得到候选扩展词，最终利用否定医学术语技术与互信息技术筛选出与查询密切相关的扩展词。

本发明提出了一种基于知识图谱的医疗查询扩展方法，并在医疗问答对数据集上进行了实验验证，可观察到匹配到的扩展词更加符合查询所在的医疗场景，并与查询更加密切相关。利用TREC会议的测评工具也能观察到答案选择性能的提升。这对智慧社区场景下为居民提供便利的线上及时医疗服务、缓解医生的工作负担具有重大意义。

附图说明

附图是对本发明的进一步说明，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但不构成对本发明的限制。在附图中：

图1为查询扩展方法的流程示意图；

图2为步骤二中问句查询意图分类的流程图；

图3为步骤三中从知识图谱中选取候选扩展词；

图4为步骤四中利用否定医学术语识别技术与互信息筛选扩展词。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的具体实施方式进行清楚、完整的描述。应当理解的是，此处所描述的具体实施方法仅用于说明和解释本发明，并不用于限制本发明。

本发明的具体实施过程如图1所示，包括如下4个方面：

步骤1、对医疗问答对数据集进行预处理；

步骤2、训练SVM分类器对问句进行查询意图预测；

各个步骤详述如下。

第一步：中文医疗问答对数据集预处理，

1.1整合问答对数据集

删除一些表达不明确、未包含答案、问句或答句包含图片的无效问答对，为了确保数据集的平衡性，有利于后续分类操作，对除疾病诊断类、疾病症状类、疾病治疗类、疾病原因类四大类之外的个别其他类问答对进行删除。将整合好的数据集提供给步骤1.2；

1.2去除停用词

利用停用词词表去除问答对数据集中问句的停用词，主要包括一些语气词、礼貌用语等使用频率较高又无实际含义的词汇。去除停用词后的结果提供给步骤1.4；

1.3整合领域词典

由于国内目前缺少已公开且较完备的中文医疗知识库，因此整合了ICD-9-CM、ICD-10、39健康网、搜狗医疗词库(举例而非限定)以及互联网上公开的小规模医疗实体词典得到了疾病、症状、药物、检查四类医疗领域词典。

1.4将领域词典加入jieba分词器的字典，使用jieba分词器对问答对数据集中的问句进行分词；

分词后即完成了步骤1对于问答对数据集的预处理工作，将预处理后的数据集中的问句提供给步骤2、步骤3和步骤4，将领域词典提供给步骤3、步骤4。

第二步：训练SVM分类器为对问句的查询意图进行预测，如图2所示。

2.1标注问句分类标签

对步骤1得到的部分问句进行意图类别标记，若问句的查询意图属于疾病诊断类，标注为0；若问句的查询意图属于疾病治疗类，标注为1；若问句的查询意图属于疾病症状类，标注为2；若问句的查询意图属于诊断加治疗类，标注为3；若问句的查询意图属于疾病原因类，标注为4。标注后的结果提供给步骤2.2。

2.2半监督训练SVM意图分类器

由于数据集问句本身不包含意图类别，因此采取自训练的半监督方法训练意图分类器。步骤2.1的统计结果看出来数据集存在数据不均衡的问题，因此初始分类器使用对样本不均衡的支持向量机SVM算法。分类器的训练需要用到问句的两个特征(1)TF-IDF特征；(2)问句疑问词特征。

(1)TF-IDF是一种在文本分类中常用的特征向量化的方法，它通过词频(TermFrequency)和逆向文件频率(Inverse Document Frequency)反映词语在整体语料库中的重要性。它的计算公式如下：

其中，t代表某个词的词频，N代表文档的总词数，x代表文档总数，w代表该词在w个文档中出现。

(2)统计数据集得到四种类别问句的疑问特征词，使用离散特征编码处理问句，判断问句是否包含某种类别的疑问特征词(值为0或1)。

将训练得到的意图分类器提供给步骤2.3。

2.3将待分类的问句输入已训练好的SVM分类器，并将分类结果(即问题的查询意图)提供给步骤3。

第三步：从医疗知识图谱中获取与查询相关的候选扩展词，如图3所示。

3.1医学知识图谱获取

从公开的中文医疗全科知识图谱中抽取标记为儿科科室的三元组，并结合健康网站上搜集的儿科相关的医疗实体关系，整合出一个中文儿科知识图谱。将图谱提供给步骤3.4。

3.2统计数据集中的否定特征词和终止特征词。提供给步骤3.3和步骤4.1。

3.3查询关键词获取

根据步骤2.3提供的问句意图类别标签，结合步骤1.3得到的领域词典，对句子的初始查询关键词进行筛选。筛选依据为对于疾病诊断类问句选取症状实体作为初始查询关键词，对于疾病治疗类问句选取疾病实体作为初始查询关键词，对于询问症状类问句选取疾病实体作为初始查询关键词，对于诊断加治疗类问句选取症状实体作为初始查询关键词。之后利用否定项与终止项去除初始查询关键词中的否定医学术语得到最终的查询关键词。具体思路是以否定项与终止项为界确定否定窗口，否定窗口中的医学术语均被标记为否定医学术语，其中否定项为步骤3.2得到的否定特征词，终止项包括步骤3.2得到的终止特征词以及逗号、句号和分号。将获取到的查询关键词提供给步骤3.4。

3.4候选扩展词获取

结合步骤3.3的查询关键词与步骤2.3得到的查询意图，基于如下推理公式可推出可能在答案中存在的医学术语类型。

[rule:(Q belongsTo C)，(Q hasEntity M)→(A hasEntity N)]

公式中，Q代表问题，A代表答案，C代表查询意图，M代表查询中筛选出的医学术语类型，N代表答案中对应的医学术语类型。

对于疾病诊断类的句子，从知识图谱中获取查询关键词可能对应的疾病实体，并对查询中每种症状得到的疾病实体取交集作为最终的候选扩展词。对于疾病治疗类、询问症状类的句子，从知识图谱中分别选取查询关键词对应的药物实体和对应的典型症状作为候选扩展词。对于诊断加治疗类的复合型问句，则按疾病诊断类句子的处理方法先查询到疾病实体，然后按照疾病治疗类句子的处理方法，根据疾病实体查询到常用的药物实体，最后把疾病实体与药物实体同作为候选扩展词进行输出。对于疾病原因类句子，由于难以用单独几个扩展词来概括原因，为避免大量噪声的引入，因此暂不处理此类型的问句。得到的候选扩展词列表提供给步骤4.2。

第四步：利用否定医学术语识别技术与互信息技术对所有候选扩展词进行筛选，如图4所示。

4.1对问答对数据集中的所有否定医学术语进行标记，标记方法与步骤3.3中介绍的标记方法相同。标记的结果提供给步骤4.2。

4.2计算扩展词与整体查询的归一化互信息值，筛选得到最终扩展词

计算3.4中每个候选扩展词与整体查询的互信息量，选取归一化互信息量小于扩展阈值的候选扩展词作为查询的最终扩展词。两个词的互信息量计算公式如下：

共现窗口选取一组问答句的范围，c(w1,w2)表示词汇w1出现在共现窗口中的问句而w2同时出现在窗口内对应答句时的次数，c(w1)表示医学术语w1在语料集中出现的次数，c(w2)表示医学术语w2在语料集中出现的次数，N表示语料集中所有医学术语的个数。在互信息矩阵的计算阶段，不予统计步骤4.1标记的否定医学术语相关的词频，避免否定医学术语干扰语料库中整体医学术语的关联程度。

假设初始查询Q中每个关键医学术语qi间相互独立，扩展词与整体查询语句之间互信息值的计算公式如下所示。

M(Q)＝∑_qi∈QI(qi,w)

为方便设置筛选阈值，归一化得到的互信息值，公式如下所示，其中Mmax和Mmin分别代表M(Q)的最大、最小值。

NM(Q)＝(Mmax-M(Q))/(Mmax-Mmin)

候选扩展词中与整体查询的归一化互信息值NM(Q)小于扩展阈值的术语成为最终扩展词。

创新点

提出了一种基于知识图谱的医疗查询扩展方法，与目前医疗问答领域的查询扩展方法不同，本发明能针对用户问题对应的不同医疗场景，向问句补充符合相关场景且与原始查询密切相关的医疗扩展词，避免了场景无关词汇带来的噪声。本发明使用分类器判定用户查询意图，随后结合不同查询意图下医学术语的推理关联从知识图谱中获取候选扩展词，最后结合医学术语识别技术与互信息技术筛选得到最终扩展词。相对于医疗问答领域常用的基于同义词的查询扩展获取到更为准确的扩展词。

本发明提出的方法在中文医疗问答对数据集上有很好的表现，提高了中文医疗问答系统的准确率。

Claims

1.一种基于知识图谱的医疗查询扩展方法，其特征在于，包括：

步骤1、对医疗问答对数据集进行预处理；

1.1整合问答对数据集

删除表达不明确、未包含答案、问句或答句包含图片的无效问答对，为了确保数据集的平衡性，有利于后续分类操作，对除疾病诊断类、疾病症状类、疾病治疗类、疾病原因类四大类之外的其他类问答对进行删除；将整合好的数据集提供给步骤1.2；

1.2去除停用词

利用停用词词表去除问答对数据集中问句的停用词，包括使用频率高又无实际含义的词汇；去除停用词后的结果提供给步骤1.4；

1.3整合领域词典

通过整合已有的各类医疗实体词典构造医疗领域词典，所述医疗领域词典包括疾病、症状、药物、检查四类；

分词后即完成了步骤1对于问答对数据集的预处理工作，将预处理后的数据集中的问句提供给步骤2、步骤3和步骤4，将领域词典提供给步骤3、步骤4；

步骤2、训练SVM分类器对问句进行查询意图预测；

2.1标注问句分类标签

对步骤1得到的部分问句进行意图类别标记，若问句的查询意图属于疾病诊断类，标注为0；若问句的查询意图属于疾病治疗类，标注为1；若问句的查询意图属于疾病症状类，标注为2；若问句的查询意图属于诊断加治疗类，标注为3；若问句的查询意图属于疾病原因类，标注为4；标注后的结果提供给步骤2.2；

2.2半监督训练SVM意图分类器

本方法采用自训练的半监督方法训练意图分类器，初始分类器使用对样本不均衡的支持向量机SVM算法；分类器的训练需要用到问句的两个特征(1)TF-IDF特征；(2)问句疑问词特征：

(1)TF-IDF是一种在文本分类中常用的特征向量化的方法，它通过词频TermFrequency和逆向文件频率Inverse Document Frequency反映词语在整体语料库中的重要性，计算公式如下：

其中，t代表某个词的词频，N代表文档的总词数，x代表文档总数，w代表该词在w个文档中出现；

(2)统计数据集得到四种类别问句的疑问特征词，使用离散特征编码处理问句，判断是否包含值为0或1类别的问句疑问特征词；

将训练得到的意图分类器提供给步骤2.3；

2.3将待分类的问句输入已训练好的SVM分类器，并将分类结果即问题的查询意图提供给步骤3；

步骤3、结合步骤2得到的查询意图从医疗知识图谱中获取与查询相关的候选扩展词：

3.1医学知识图谱获取

从公开的中文医疗全科知识图谱中抽取标记为儿科科室的三元组，并利用基于BERT的关系抽取方法从39健康网中爬取的儿科问答语料获得儿科医疗实体关系，从而将两者整合出中文儿科知识图谱；将图谱提供给步骤3.4；

3.2统计数据集中的否定特征词和终止特征词；提供给步骤3.3和步骤4.1；

3.3查询关键词获取

根据步骤2.3提供的问句意图类别标签，结合步骤1.3得到的领域词典，对句子的初始查询关键词进行筛选；筛选依据为对于疾病诊断类问句选取症状实体作为初始查询关键词，对于疾病治疗类问句选取疾病实体作为初始查询关键词，对于询问症状类问句选取疾病实体作为初始查询关键词，对于诊断加治疗类问句选取症状实体作为初始查询关键词；之后利用否定项与终止项去除初始查询关键词中的否定医学术语得到最终的查询关键词；具体思路是以否定项与终止项为界确定否定窗口，否定窗口中的医学术语均被标记为否定医学术语，其中否定项为步骤3.2得到的否定特征词，终止项包括步骤3.2得到的终止特征词以及逗号、句号和分号；将获取到的查询关键词提供给步骤3.4；

3.4候选扩展词获取

结合步骤3.3的查询关键词与步骤2.3得到的查询意图，基于如下推理公式可推出可能在答案中存在的医学术语类型；

[rule:(Q belongsTo C),(Q hasEntity M)→(A hasEntity N)]

公式中，Q代表问题，A代表答案，C代表查询意图，M代表查询中筛选出的医学术语类型，N代表答案中对应的医学术语类型；

对于疾病诊断类的句子，从知识图谱中获取查询关键词可能对应的疾病实体，并对查询中每种症状得到的疾病实体取交集作为最终的候选扩展词；

对于疾病治疗类、询问症状类的句子，从知识图谱中分别选取查询关键词对应的药物实体和对应的典型症状作为候选扩展词；

对于诊断加治疗类的复合型问句，则按疾病诊断类句子的处理方法先查询到疾病实体，然后按照疾病治疗类句子的处理方法，根据疾病实体查询到常用的药物实体，最后把疾病实体与药物实体同作为候选扩展词进行输出；

对于疾病原因类句子，暂不处理此类型的问句；

得到的候选扩展词列表提供给步骤4；

步骤4、利用否定医学术语识别技术与互信息技术筛选步骤3中得到的候选扩展词，从而得到最终的扩展词：

4.1对问答对数据集中的所有否定医学术语进行标记，标记方法与步骤3.3中介绍的标记方法相同；标记的结果提供给步骤4.2；

计算步骤3.4中每个候选扩展词与整体查询的互信息量，选取归一化互信息量小于扩展阈值的候选扩展词作为查询的最终扩展词；两个词的互信息量计算公式如下：

共现窗口选取一组问答句的范围，c(w1,w2)表示词汇w1出现在共现窗口中的问句而w2同时出现在窗口内对应答句时的次数，c(w1)表示医学术语w1在语料集中出现的次数，c(w2)表示医学术语w2在语料集中出现的次数，N表示语料集中所有医学术语的个数；在互信息矩阵的计算阶段，不予统计步骤4.1标记的否定医学术语相关的词频；

假设初始查询Q中每个关键医学术语qi间相互独立，扩展词与整体查询语句之间互信息值的计算公式如下所示：

M(Q)＝∑_qi∈QI(qi,w)

为方便设置筛选阈值，归一化得到的互信息值，公式如下所示，其中Mmax、Mmin分别代表M(Q)的最大、最小值；

NM(Q)＝(Mmax-M(Q))/(Mmax-Mmin)