CN114676233A

CN114676233A - 基于骨骼肌知识图谱的医疗自动问答方法

Info

Publication number: CN114676233A
Application number: CN202111535682.2A
Authority: CN
Inventors: 杨然; 李峻; 张萌; 曾贵刚; 胡凯翔; 张涛; 陈华江; 徐辰
Original assignee: Shanghai Boling Robot Technology Co ltd; Tsinghua University; Shanghai Changzheng Hospital
Current assignee: Shanghai Boling Robot Technology Co ltd; Tsinghua University; Shanghai Changzheng Hospital
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-06-28

Abstract

本发明公开了一种基于骨骼肌知识图谱的医疗自动问答方法，包括如下步骤：S1、构建人体骨骼运动知识图谱；S2、将构建的人体骨骼运动知识图谱作为一个知识库进行实体链接；S3、通过用户输入问题，将语义问题与人体骨骼肌知识图谱中的实体、关系进行匹配，推理得出答案。本发明提供的基于骨骼肌知识图谱的医疗自动问答方法，能够针对用户输入问题精准选出最为匹配的答案，有效降低人工判断工作量，方便专业人士实现快速查询某块骨骼肌基本信息和相应的测试或康复方案，实现不用去医院也能够获得良好的预诊断。

Description

基于骨骼肌知识图谱的医疗自动问答方法

技术领域

本发明涉及一种人体骨骼运动康复模型构建方法，尤其涉及一种基于骨骼肌知识图谱的医疗自动问答方法。

背景技术

目前在运动康复领域，按照专业能力进行分类，可大致分为专业(职业)人群、高水平爱好者、普通爱好者、普通人群按身体年龄状况可分为残疾人群、亚健康人群、中老年人群等。在众多运动损伤和疾病中，仅非特异性腰痛(nonspecific low back pain,NLBP)这种病例在2016年因该病造成病人身体健康寿命受损达到了5760万人/ 年。而目前国内的专业康复师和医生的数量有限，但需求人群巨大。非医疗康复专业人士在查询人体骨骼肌相关知识(主要是运动康复方面)，如果不是在咨询专业医生或者运动康复专业人士的情况下，将更多依赖于互联网搜索引擎去寻找相关知识，需要在较多杂乱的信息中去筛选出有价值的信息，这样存在效率较低下且不准确的问题。

目前已有的医疗康复方面的知识图谱，大都基于传统方法进行构建：比如2013 年Dao等人尝试用语义匹配建立基于互联网的人体骨骼肌搜索引擎；2018年Gyrard 等人提出基于个人的健康知识图谱；2018年马浩晨等基于规则的关系抽取建立了甲状腺知识图谱；2020年付洋等建立了基于规则和相似度的心脏病病知识图谱；2020 翟兴等建立了基于模板匹配和相似度计算的智能养生的知识图谱；2020年尤欢欢等人建立了基于骨科疾病的知识图谱；但是都存在效率较低、人工成本较高的问题。对于知识图谱医疗问答应用也普遍存在匹配精度不高，需要人工辅助判断的问题，大大影响了用户的使用体验。

发明内容

本发明所要解决的技术问题是提供一种基于骨骼肌知识图谱的医疗自动问答方法，能够针对用户输入问题精准选出最为匹配的答案，有效降低人工判断工作量，方便专业人士实现快速查询某块骨骼肌基本信息和相应的测试或康复方案，实现不用去医院也能够获得良好的预诊断。

本发明为解决上述技术问题而采用的技术方案是提供一种基于骨骼肌知识图谱的医疗自动问答方法，包括如下步骤：S1、构建人体骨骼运动知识图谱；S2、将构建的人体骨骼运动知识图谱作为一个知识库进行实体链接；S3、通过用户输入问题，将语义问题与人体骨骼肌知识图谱中的实体、关系进行匹配，推理得出答案。

进一步地，所述步骤S1包括：S11、获取人体骨骼运动相关的结构化、半结构化和非结构化数据；S12、利用预训练模型对获取数据中的词语进行分布式表示；S13、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取，完成人体骨骼运动知识图谱的搭建。

进一步地，所述步骤S11利用Scrapy对网页进行爬取获取人体骨骼运动相关的数据，或者通过书籍和医生康复师人工获取结构化数据；所述步骤S12在对数据进行文本表示之前先进行如下数据预处理和数据增强处理：对于得到的非结构化数据中的文本信息，按照信息抽取模型的标注模式进行标注，并将标注的文本作为训练集、验证集和测试集；通过人工构造的方式扩充数据量进行数据增强，扩充方式包括：原文扩充、随机截断、字符替换、随机翻转、同性词替换以及预训练模型输出替换；所述步骤S13利用基于深度学习的端到端的Joint模型对数据进行实体、关系和属性抽取，并在TPLinker模型的基础上增加了属性识别，然后利用TPLinker 模型将Joint实体关系提取任务转换为Token对的连接关系。

进一步地，所述步骤S13通过Token链接矩阵的标记方案来提取所有实体和重叠关系，具体包括：

设置实体头部-实体尾部链接EH-ET：用于表示一个实体的开始和终止token；

设置主体头部-目标头部链接SH-OH：用于表示同一关系的两个实体的开始token；

设置主体尾部-目标尾部链接ST-OT：用于表示同一关系的两个实体的结束token；

对每个关系进行一次标记，如果有N个关系则解析成2N+1的序列标记子任务了，每一个子任务的长度为

n为输入的句子长度；

从实体头部-实体尾部链接EH-ET中提取所有实体，并通过字典将每个头部位置映射到相应到实体；然后开始进行解码，对于每个关系ST-OT确定头实体的尾部和尾实体的尾部，将其添加到集合E中；接着以SH-OH序列查找字典D中头部位置开始的所有可能实体；最后开始迭代检查所有候选实体是否在集合E中，如果在则直接提取三元组放入集合T中。

进一步地，所述步骤S13中人体骨骼运动知识图谱以人体关节为节点建立对应的关节肌群以及关节肌肉功能；所述人体关节的节点类型包括身体部位、关节肌群、肌肉、骨骼、筋膜、韧带、神经、关节、软骨、肌肉功能、肌肉功能测试、肌肉群、肌肉伸展测试、肌腱、器官、皮肤、关节囊、部位和动作；所述人体关节的节点属性包括：临床意义、名字、特别属性、状态、神经延展性测试说明、等级、简介、肌肉延展测试说明、英文和说明，所述人体关节的关系属性包括：位置、动作指令、备注、测试方法、状态、短头位置、结论、说明、起始姿势和长头位置。

进一步地，所述步骤S2中知识库包含一个实体集合E；每一个从互联网上获取的数据中抽取出来的实体，均为实体集合E的潜在提及对象；所述步骤S2将每个实体提及对象m∈M匹配对应到目标实体e∈E；如果在实际计算中集合E不包含m 的目标实体，则将m链接到一个候选实体，并将候选实体作为新的目标实体补充到原有实体库。

进一步地，所述步骤S2采取基于图卷积网络的模型，利用图卷积网络来对局部上下文和全局一致性信息进行建模实现知识图谱中的实体对齐，具体通过如下函数计算为候选实体寻找一个最优分配：

为输出候选实体的变量；P()为概率函数，

为拓扑图的归一化邻接矩阵，f为候选实体的特征表示；

F()是在参数ω下的一个映射函数，其利用编码器、子图卷积网络和解码器来获得该映射函数。

进一步地，所述步骤S3通过识别问题语句的语义确定查询关系，将问题和实体进行嵌入获得其稠密向量表示，并在候选知识图谱中进行相关匹配，获得匹配知识后将相应节点关系嵌入后获得其稠密向量表示，并计算问题和候选答案的匹配度。

进一步地，所述步骤S3包括：采用预训练模型提取问题特征，将获取的单个词向量进行相加得到对应句子的向量表示；使用TransE系列模型将答案实体向量化；使用多列卷积网络，提取三个特征向量作为答案的三个维度，分别为答案的路径、答案的上下文信息和答案的类型。

进一步地，针对不同的答案特征(实体，关系，类型，上下文)，所述步骤S3 采用得分函数S(q,a)度量问题和候选答案之间的关联程度；对于答案i的分布式表达为：

g_i(a)∈{g_e(a),g_r(a),g_t(a),g_c(a)}

g_e(a),g_r(a),g_t(a),g_c(a)分别表示实体向量，关系向量，类型向量和上下文向量；

对于问题i中的第j个词的词向量，对应问题的分布式表达记为：

a_ij为句子i对于词j的注意力权重；

将最终的得分函数设为问题与答案的点积和：

采用Hinge-Loss作为其损失函数。

本发明对比现有技术有如下的有益效果：本发明提供的基于骨骼肌知识图谱的医疗自动问答方法，能够针对用户输入问题精准选出最为匹配的答案，有效降低人工判断工作量，方便专业人士实现快速查询某块骨骼肌基本信息和相应的测试或康复方案，实现不用去医院也能够获得良好的预诊断。

附图说明

图1为信息抽取一般流程图；

图2为传统实体连接一般方法流程图；

图3为本发明使用的深度学习的命名实体识别流程图；

图4为本发明使用的基于深度学习的端到端的Joint模型；

图5为本发明获取人体骨骼运动相关数据示意图；

图6为本发明使用爬虫获取互联网数据示意图；

图7为本发明采用bert_base_chinese、roberta-wwm-ext、ernie作为知识表示的预训练模型；

图8为本发明使用的握手标记方案示意图；

图9为本发明使用的TPLinker框架示意图；

图10为本发明使用的TPLinker新增属性提取框架示意图；

图11为本发明使用的enconder结构示意图；

图12为本发明使用的Deconder结构示意图；

图13为本发明以人体关节为节点建立对应的关节肌群以及关节肌肉功能示意图；

图14为本发明医疗问答流程示意图；

图15为本发明采用TransR建立实体空间和关系空间投影示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

本发明提供的基于骨骼肌知识图谱的医疗自动问答方法，包括如下步骤：

S1、构建人体骨骼运动知识图谱；

S2、将构建的人体骨骼运动知识图谱作为一个知识库进行实体链接；

S3、通过用户输入问题，将语义问题与人体骨骼肌知识图谱中的实体、关系进行匹配，推理得出答案。

提高知识图谱的准确率有助于提高匹配的准确性，要构建知识图谱就首先需要将知识从原始数据包括结构化数据、非结构化数据和半结构化数据中抽取出来。通过命名实体识别、命名实体链接和命名实体关系抽取形成三元组关系构建知识图谱，其简易流程如图1所示。

命名实体(Name Entity)是指在文本中具有特定含义或者指代性强的实体，通常包含人名、组织机构名、专有名词等。第六届信息理解大会(The Sixth MessageUnderstanding Conference,MUC-6)和MUC-7将其分为三大类，七小类。之后又拓展出了包括、地理政治、设施、交通工具、武器、民族及政治团体、产品名、艺术品名、法律、语言、序数词、基数词等。对于特定领域、比如生物：包括蛋白质、核糖核苷酸、脱氧核糖核苷酸和基因等等。化学：化学物质和成分。医学：药品名和疾病。电子商务：商品名、出产地、出产商。

传统的实体命名方法一般分为三大类：基于词典与规则的方法、基于无监督的方法和基于特征工程的有监督的机器学习方法。传统的命名实体链接方法一般根据是否给定实体提及(Entity mention)分为两类：1、没有给定实体提及的情况下一般先做实体提及然后再做命名实体链接；或者将命名实体识别与链接联合求解。2、在给定了实体体积的情况下可以直接进行联合求解；其框架基本如图2所示。自然语言中存在一词多义、多词一意和别名的现象。在医学领域比如“足部旋后”和“跖屈加内翻”是一个意思。命名实体链接是将文本中的命名实体提及链向某个知识库中无歧义实体的过程。传统的非深度学习方法需要依赖大量人工并且移植性较差，传统的命名实体关系抽取方法往往需要大量人工和人工设计特征或规则，会带来误差累计传播问题，影响命名实体抽取的性能。

由于基于深度学习的方法不需要进行人工特征的设计，为此，本发明使用基于深度学习的方法进行命名实体识别、命名实体连接和命名实体关系抽取。基于深度学习的命名实体识别方法一般包含三个步骤：输入的分布式表示、上下文编码和标签解码，如图3所示。基于深度学习的实体链接方法主要有三个模块分别为候选实体生成(CandidateEntity Generation)，候选实体排名(Candidate Entity Ranking)，判定空链接(Unlinkable Mention Prediction)。

命名实体关系是指在实体之间的语义关系。两个实体之间的关系被称为二元关系，三个及三个以上的实体之间的关系被称为多元关系或高阶关系(Higher-orderRelation)。二元关系最为基础常见且多元关系往往可以转化为二元关系进行处理。

为了能够减少各个模块在训练识别时的误差传播，本发明将利用基于深度学习的端到端的Joint模型，如图4所示。具体包括如下步骤：

S11、获取人体骨骼运动相关的结构化、半结构化和非结构化数据；

S12、利用预训练模型对获取数据中的词语进行分布式表示；

S13、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取，完成人体骨骼运动知识图谱的搭建；

S14、利用py2neo库将得到的实体、关系和属性自动构建在neo4j数据库中并存于云端。

一、数据知识获取

通过爬虫获取互联网海量结构化、半结构化和非结构化数据。通过书籍和医生康复师等专业人士人工获取结构化数据，通过对数据进行预处理然后对数据进行标注；如图5所示。

本发明的数据可以大量来源于互联网资料，拟使用Scrapy框架，利用该框架对网页进行爬取，返回json或者csv格式的数据。Scrapy框架基本结构如图6所示，其包括引擎(Scrapy Engine)、调度器(Scheduler)、下载器(Downloader)、爬虫 (Spider)、管道(ItemPipeline)、下载中间件(Downloader Middlewares)和爬虫中间件(SpiderMiddlewares)。其工作流程为：

1)引擎从爬虫获取初始需求。

2)引擎将获取得到的需求发送给调度中心排队入队列。

3)引擎获取调度中心的需求并将需求发送给下载器。

4)需求在传送到下载器的过程中会经过下载器中间件，对需求进行处理。

5)下载器根据需求从互联网下载内容，封装成响应对象传递给引擎。

6)在响应传递给引擎的过程中也会经过下载器中间件，其会对响应进行处理。

7)引擎将接收到的响应传递给爬虫进行处理。

8)响应传递给引擎时会经过爬虫中间件并对响应进行处理。

9)爬虫接收到响应并进行处理生成一个带爬取的网址的需求和一个项目对象组成的结果并将结果传递给引擎。

10)结果传递给引擎的过程中会经过爬虫中间器并对结果进行处理。

11)引擎获取到爬虫传递的结果，将其中的项目对象发送给管道，将其中的需求发给调度器排队入队列。

12)管道会对数据进行进一步处理，包括数据整理和保存等。

重复以上步骤直到完成需求。

二、数据知识表示

本发明利用预训练模型对词语进行分布式表示。优选采用bert_base_chinese、roberta-wwm-ext、ernie作为知识表示的预训练模型。bert的框架如图7所示，其采用双向transfomer的encoder结构，基于中文的维基百科作为相关语料进行预训练。

roberta-wwm-ext是由哈工大和讯飞联合发布的预训练模型、采用了动态MASK 和更多的训练数据。

Ernie是由百度发布的基于百度贴吧等语料进行预训练的模型。采用了词语级别的MASK。

在对数据进行文本表示之前先进性数据预处理和数据增强，具体步骤如下。

1)对于得到的非结构化数据处理；

2)对文本按照信息抽取模型的标注模式进行标注

将标注的文本作为训练集、验证集和测试集。

3)通过人工构造的方式扩充数据量达到数据增强的效果弥补标注数据量稀少问题。

常见的扩充方法如下表数据增强方法所示：

扩充方法	示例
		原文	股直肌属于股四头肌
随机截断	股直肌与股四头肌
		[UNK]字符替换	股直肌属于[UNK][UNK][UNK][UNK]
随机翻转	股直肌属于股头肌四
		同性词替换	股直肌属于臀大肌
预训练模型输出替换	股直肌属于大腿前侧肌肉

三、知识图谱搭建

本发明通过实体关系联合抽取模型对数据进行实体、关系和属性抽取。

利用多头指针标注方案(TPLinker)的联合抽取方法和基于关系注意力机制的联合抽取方法进行实体和关系抽取。利用多头指针标注方案(TPLinker)的联合抽取方法进行属性抽取。

(1)通过TPlinker模型进行实体、关系和属性抽取

因为在医学实体中，实体重叠率较高，TPLinker模型在实体重叠的句子中识别率较高。拟采用实体识别和关系识别联合模型：TPLinker，并且在原模型的基础上增加了属性识别。

下面先介绍原始模型，该模型解决了之前的模型偏移曝光问题(exposure bias)：训练时每一次接受的是上一时刻的真实值和输入，在测试时每次接受的是上一时刻的预测值和输入。TPLinker将joint实体关系提取任务转换为Token对的连接问题。在一个句子中两个位置分别为p1，p2和一个明确的关系r。该模型需要回答以下三个问题“p1和p2是否为同一个实体的开始和结尾位置”，“p1和p2是否为关系r的两个实体的起始位置”，“p1和p2是否为关系r的两个实体的结束位置”，该模型设计了一种token链接矩阵的标记方案，通过该方法能够提取所有实体和重叠关系。其显著提高了在正常句子，单个实体重复句子(Single Entity Overlap，SEO)和实体对重复(Entity Pair Overlap，EPO)和多关系提取的性能。该模型提出的握手标记方案(Handshaking Tagging Scheme)给出了三种链接定义：实体头部-实体尾部(entity headto entity tail，EH-ET)：一个实体的开始和终止token、主体头部-目标头部(subject head to object head,SH-OH)：同一关系的两个实体的开始token、主体尾部-目标尾部 (subject tail to object tail，ST-OT)：同一关系的两个实体的结束token。为了节省储存空间，将左下角矩阵(稀疏矩阵)进行上卷，其中右下角的tag有1变为2以区分顺序。

但是这个方案无法解决EPO问题。为了解决这个问题就对每个关系进行一次标记如图8所示。如果有N个关系那么该任务就被解析成2N+1的序列标记子任务了。其中每一个子任务有

的长度，n为输入的句子长度，如图8中例子N＝2，n＝14，一共有5个子任务，每个子任务长度为91。在EH-ET中有3个tag为1，他们代表实体的有三个分别为<股四头肌>,<股直肌>,<屈髋>。在关系“协同”中，SH-OH中有2个tag为1，EH-ET有2个tag为1，基于这三个序列的tag可以联解出<股四头肌，协同，屈髋>，<股直肌，协同，屈髋>。同理在关系“属于”中，SH-OH和ST-OT 中分别有1个tag为2。联合EH-ET可得关系<股直肌，属于，股四头肌>。

算法总结为在开始从EH-ET中提取所有实体，并通过字典D将每个头部位置映射到相应的实体。然后开始进行解码，对于每个关系ST-OT确定头实体的尾部和尾实体的尾部，将其添加到集合E中，然后以SH-OH序列查找字典D中头部位置开始的所有可能实体。然后开始迭代检查所有候选实体是否在集合E中，如果在则直接提取三元组放入集合T中。

对于Token对表示具体过程如下：一个长为n的句子[w₁,w₂,…,w_n]将每个tokenw_i通过编码映射到一个低维的上下文向量h_i。然后生成[w_i,w_j]Token对的对应表示向量 h_i,j计算公式为：

h_i,j＝tanh(W_h·[h_i；h_j]+b_h),j≥i

其中W_h为参数矩阵，b_h为偏移向量这两个参数都可以在训练中进行学习。该公式也是图7中的“Handshaking Kernel”。对于EH-ET，SH-OH和ST-OT的标记在该模型中使用的是一个统一框架。公式为：

P(y_i,j)＝Softmax(W_o·h_i,j+b_o)

其中P(y_i,j)表示将(w_i,w_j)识别为l的概率密度。其损失函数为：

N为输入的句子长度，

是真实的标签，E，H和T表示EH-ET，SH-OH和ST-OT 的标签。

(2)根据对模型结构调整提高模型识别实体和关系抽取准确率。

除了对文本进行实体和关系的抽取还需要对实体进行属性抽取，对于不同类别的实体具有不同的属性，并且属性的结构也不同，有的属性可能是词语级别，有的可能是句子级别，有的可能是文档级别。那么对于属性的提取同样引入标记符号：实体属性头部-实体属性尾部(Entity Attribute Head to Entity Attribute Tail，EAH-EAT)、实体头部-实体属性头部(Entity Head to Entity Attribute Head，EH-EAH)、实体尾部-实体属性尾部(Entity Tail to Entity Attribute Tail，ET-EAT)。对于EH-EAH和ET-EAT 部分可以属性在前实体在后所以tag可以为2。属性在文本为顺序所以tag只能为1。将其转化为TPLinker框架如图9和图10所示，假如实体共有M种属性(属性可为空值)那么子任务将由原模型中的2N+1,变成了2M+2N+2。子任务的长度不变仍为

属性tag的计算方法和原模型关系和实体tag计算方式相同。如果进行关系属性提取定义关系属性类别为K类，任务变为2K+2M+2N+3个子任务。

(3)通过基于关系注意力机制网络的实体关系抽取方案进行实体关系抽取

使用基于关系门的信息抽取模型。该模型通过使用关系注意力机制使得能够通过关系门在一个文本中对不同关系进行提取。该模型的embedding层使用词嵌入、词性嵌入和字符嵌入。通过将字符对应id、词对应id和词性对应id，先转换为低维向量再通过一维卷积和全连接层获取输入的词向量输入Enconder，Encoder结构如图 11所示。Enconder层输入向量通过一个双向LSTM输出的隐向量记为h₁,h₂,…h_n，n 为输出隐向量个数。

d_he为BiLSTM的隐状态。

S_c＝{h₁,...,h_n}用来表示文本上下文句子特征。

通过对隐向量取平均池化得到S_g。

S_g＝avg{h₁,h₂,…,h_n}

并定义关系向量r_k。通过两个全连接层获得关系向量。

计算S_k，其计算公式为：

e_ik＝v^Ttanh(W_rr_k+W_gs_g+W_hh_i)

w1，w2，w3，b1，b2，b3为参数，theta为sigmoid函数。

Deconder结构如图12所示，其输入U_k计算公式为：

通过将encoder输入的隐向量和U_k进行拼接输入双向LSTM，然后通过Softmax 输出。

本发明通过对标注数据进行预处理，生成两种方案。

方案一：按照原模型中构建对应的word2id和re2id的对应字典，并且通过LAC 对文本进行词性标注获得其pos2id对应字典。按照该模型进行训练计算。LAC词性如下表所示。

标签

含义

标签

含义

标签

含义

标签

含义

n

普通名词

f

方位名词

s

处所名词

nw

作品名

nz

其他专名

v

普通动词

vd

动副词

vn

名动词

a

形容词

ad

副形词

an

名形词

d

副词

m

数量词

q

量词

r

代词

p

介词

c

连词

u

助词

xc

其他虚词

w

标点符号

PER

人名

LOC

地名

ORG

机构名

TIME

时间

方案二：通过预训练模型获得相应词向量进行输入。在预训练模型选择上，选择roberta_base还有bert。通过预训练模型获得词向量输入enconder和deconder进行训练计算。

通过以上三种方法：TPLinker和基于关系注意力机制的实体关系抽取模型(分布式表示用原模型方法和用预训练模型)可以获得实体和对应关系。因为在各个模型中对于不同的实体类别：单个实体重复(SingleEntityOverlap，SEO)和实体对重复(EntityPairOverlap，EPO)。具体如下表所示。

本发明的人体骨骼肌知识图谱的构建是以人体关节为节点建立了对应的关节肌群以及关节肌肉功能和其拮抗肌和协同肌，实现了对人体骨骼肌系统的细节划分，如图13所示。

1.协同肌：又叫合作肌，指在完成特定动作时，除发生收缩的主动肌以外，其他协作完成这一动作的肌肉。

2.拮抗肌：又叫对抗肌，指在主动技收缩完成动作的过程中，位于运动轴对侧的发生松弛或生长的肌肉。

节点类型目前如下表所示。

节点属性包括：临床意义、名字、特别属性、状态、神经延展性测试说明、等级、简介、肌肉延展测试说明、英文、说明。节点属性用于对个节点进行补充说明。

本发明知识图谱的关系类型如下表所示：

关系属性包括：位置、动作指令、备注、测试方法、状态、短头位置、结论、说明、起始姿势、长头位置。

最终完成的知识图谱的数据可以通过写好的python文档、利用py2neo库将3.4.1中得到的实体、关系、属性自动构建在neo4j数据库中并存于云端。

构建好人体骨骼运动知识图谱后，就可以将其作为一个知识库进行实体链接

将人工搭建的知识图谱当作一个知识库，该知识库包含一个实体集合E；本发明从互联网上获取的大量数据并抽取出来的实体，本发明认为都是与实体集合E的潜在提及对象，记该集合为M；任务目的是将每个实体提及m∈M到其对应的无歧义的目标实体e∈E。如果在实际计算中集合E不包含m的目标实体，则将m链接到一个新的实体(作为原有实体库的补充)。在具体模型选用上本发明采取基于图卷积网络的模型，其利用图卷积网络来对局部上下文和全局一致性信息进行建模。通过函数计算寻找为候选实体寻找一个最优分配。

为输出候选实体的变量；P()为概率函数，

为拓扑图的归一化邻接矩阵，f为候选实体的特征表示。

F()是在参数ω下的一个映射函数。其利用编码器、子图卷积网络和解码器来获得该映射函数。

本发明医疗问答应用时主要包含实体链接和关系推理两个部分：

实体链接：通过命名实体识别将问题中的实体进行提取对应的话题实体；通过实体消歧确定实体在人体骨骼肌知识图谱中对应的实体。

关系推理：将语义问题与人体骨骼肌知识图谱中的关系进行匹配。通过识别问题语句的语义确定查询关系，根据骨骼肌知识图谱中已有关系和其对应的三元组进行匹配或进行多条查询再进行匹配等联合推理得出答案。

主要流程为：通过用户输入问题，将问题和实体进行嵌入获得其稠密向量表示，并在候选知识图谱中进行相关匹配，获得匹配知识后将相应节点关系嵌入后获得其稠密向量表示，并计算问题和候选答案的匹配度，通过模型选出最为匹配的答案；如图14所示。

本发明的自动问答方法有两个关键点：

1、如何将问题和答案映射到一个低维稠密的向量空间，并且在讲问题和答案进行映射时也需要将知识图谱中的知识进行映射。

对于问题的映射方法，可以选取bert等预训练模型作为问题特征的提取。将获取的单个词向量进行相加得到对应句子的向量表示，该方法能够有效对词性和顺序进行识别，比如“小明的父亲是谁”和“小明是谁的父亲”如果使用word2vec等向量表示方法是不能有效识别两个问题的区别。

对于候选答案的映射，可以使用TransE系列模型将答案实体向量化，这里举一个TransR模型，模型结构如图15所示。其建立实体空间和关系空间，将实体投影到关系空间中。其表达式为：hM_r+r≈tM_r但是不同的实体投影应该有不同的转换方式。

同时为了提高模型性能，也可以引入额外的信息，比如使用多列卷积网络，提取三个特征向量，分别表示答案的三个维度，分别为答案的路径、答案的上下文信息和答案的类型。

2、如何度量问题和候选答案之间的关联程度，即对图14中的得分函数S(q,a) 进行设计。

对于得分函数S(q,a)的设计可以引入注意力机制，针对不同的答案特征(实体，关系，类型，上下文)分别有不同的表达。比如对于答案i的分布式表达为：

g_i(a)∈{g_e(a),g_r(a),g_t(a),g_c(a)}

g_e(a),g_r(a),g_t(a),g_c(a)分别表示实体向量，关系向量，类型向量和上下文向量。对于问题i中的第j个词的词向量(bert的输出h_j)那么对应问题的分布式表达可以记为：

a_ij为句子i对于词j的注意力权重。

将最终的得分函数定义为问题与答案的点积和。

采用Hinge-Loss作为其损失函数。

该模型方法几乎不需要任何人工定义的特征，也不会需要借助额外的系统；模型不会受知识库的缺失限制(可以通过TransE的方法预测三元组)。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于骨骼肌知识图谱的医疗自动问答方法，其特征在于，包括如下步骤：

S1、构建人体骨骼运动知识图谱；

2.如权利要求1所述的基于骨骼肌知识图谱的医疗自动问答方法，其特征在于，所述步骤S1包括：

S12、利用预训练模型对获取数据中的词语进行分布式表示；

S13、通过实体关系联合抽取模型对数据进行实体、关系和属性抽取，完成人体骨骼运动知识图谱的搭建。

3.如权利要求2所述的基于骨骼肌知识图谱的医疗自动问答方法，其特征在于，所述步骤S11利用Scrapy对网页进行爬取获取人体骨骼运动相关的数据，或者通过书籍和医生康复师人工获取结构化数据；

所述步骤S12在对数据进行文本表示之前先进行如下数据预处理和数据增强处理：对于得到的非结构化数据中的文本信息，按照信息抽取模型的标注模式进行标注，并将标注的文本作为训练集、验证集和测试集；通过人工构造的方式扩充数据量进行数据增强，扩充方式包括：原文扩充、随机截断、字符替换、随机翻转、同性词替换以及预训练模型输出替换；

所述步骤S13利用基于深度学习的端到端的Joint模型对数据进行实体、关系和属性抽取，并在TPLinker模型的基础上增加了属性识别，然后利用TPLinker模型将Joint实体关系提取任务转换为Token对的连接关系。

4.如权利要求3所述的基于骨骼肌知识图谱的医疗自动问答方法，其特征在于，所述步骤S13通过Token链接矩阵的标记方案来提取所有实体和重叠关系，具体包括：

n为输入的句子长度；

5.如权利要求4所述的基于骨骼肌知识图谱的医疗自动问答方法，其特征在于，所述步骤S13中人体骨骼运动知识图谱以人体关节为节点建立对应的关节肌群以及关节肌肉功能；所述人体关节的节点类型包括身体部位、关节肌群、肌肉、骨骼、筋膜、韧带、神经、关节、软骨、肌肉功能、肌肉功能测试、肌肉群、肌肉伸展测试、肌腱、器官、皮肤、关节囊、部位和动作；所述人体关节的节点属性包括：临床意义、名字、特别属性、状态、神经延展性测试说明、等级、简介、肌肉延展测试说明、英文和说明，所述人体关节的关系属性包括：位置、动作指令、备注、测试方法、状态、短头位置、结论、说明、起始姿势和长头位置。

6.如权利要求1所述的基于骨骼肌知识图谱的医疗自动问答方法，其特征在于，所述步骤S2中知识库包含一个实体集合E；每一个从互联网上获取的数据中抽取出来的实体，均为实体集合E的潜在提及对象；所述步骤S2将每个实体提及对象m∈M匹配对应到目标实体e∈E；如果在实际计算中集合E不包含m的目标实体，则将m链接到一个候选实体，并将候选实体作为新的目标实体补充到原有实体库。

7.如权利要求6所述的基于骨骼肌知识图谱的医疗自动问答方法，其特征在于，所述步骤S2采取基于图卷积网络的模型，利用图卷积网络来对局部上下文和全局一致性信息进行建模实现知识图谱中的实体对齐，具体通过如下函数计算为候选实体寻找一个最优分配：