Nothing Special   »   [go: up one dir, main page]

CN115344702A - 人体运动系统数据医疗模型构建方法、系统及其应用 - Google Patents

人体运动系统数据医疗模型构建方法、系统及其应用 Download PDF

Info

Publication number
CN115344702A
CN115344702A CN202210675851.0A CN202210675851A CN115344702A CN 115344702 A CN115344702 A CN 115344702A CN 202210675851 A CN202210675851 A CN 202210675851A CN 115344702 A CN115344702 A CN 115344702A
Authority
CN
China
Prior art keywords
data
motion system
human motion
model
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210675851.0A
Other languages
English (en)
Inventor
杨然
李峻
张萌
曾贵刚
胡凯翔
张涛
陈华江
徐辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Boling Robot Technology Co ltd
Tsinghua University
Shanghai Changzheng Hospital
Original Assignee
Shanghai Boling Robot Technology Co ltd
Tsinghua University
Shanghai Changzheng Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202111535682.2A external-priority patent/CN114676233A/zh
Priority claimed from CN202111538768.0A external-priority patent/CN114676260A/zh
Application filed by Shanghai Boling Robot Technology Co ltd, Tsinghua University, Shanghai Changzheng Hospital filed Critical Shanghai Boling Robot Technology Co ltd
Publication of CN115344702A publication Critical patent/CN115344702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Physical Education & Sports Medicine (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开人体运动系统数据医疗模型构建方法、系统及其应用,所述人体运动系统数据医疗模型构建方法包括:接收经由采集而获取的与人体运动系统相关的数据;通过预设的预训练模型,以分布式表示方式表示获取的与人体运动系统相关的数据;从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,以形成实体集合,其中所述实体集合被定义为骨肌数据医疗模型。

Description

人体运动系统数据医疗模型构建方法、系统及其应用
技术领域
本发明涉及一种数字医疗系统领域,尤其涉及人体运动系统数据医疗模型构建方法、系统及其应用。
背景技术
锻炼、塑形现已被诸多用户所青睐。在塑性或者锻炼的过程中,需要用户展开自己的肢体或舒展自身各个部位的骨肌。但是不同的用户身体骨肌构造不同,且骨肌的受损健康程度也有所不同。如果用户在骨肌受损的情况下,还是做过渡的运动,将势必会加重伤情。
此外,由于生活压力和工作压力,大部分用户身体骨肌受到了不同程度的损伤。如果单纯地按照专业人士的训练方式训练,则有可能会因为专业人士的训练方法无法个性化的适用而加重损伤。另外,在用户进行一段时间的训练后,用户的身体骨肌可能已经恢复到了一定的程度,如果此时用户还是按照已定的训练强度和频率进行训练,将有可能减弱训练的效果。
在众多运动损伤和疾病中,仅非特异性腰痛(nonspecific low backpain,NLBP)这种病例在2016年因该病造成病人身体健康寿命受损达到了5760万人/年。而目前国内的专业康复师和医生的数量有限,但需求人群巨大。
非医疗康复专业人士在查询人体运动系统相关知识(主要是运动康复方面),如果不是在咨询专业医生或者运动康复专业人士的情况下,将更多依赖于互联网搜索引擎去寻找相关知识,需要在较多杂乱的信息中去筛选出有价值的信息,这样存在效率较低下且不准确的问题。
目前已有的医疗康复方面的知识图谱,大都基于传统方法进行构建:比如 2013年Dao等人尝试用语义匹配建立基于互联网的人体运动系统搜索引擎;2018 年Gyrard等人提出基于个人的健康知识图谱;2018年马浩晨等基于规则的关系抽取建立了甲状腺知识图谱;2020年付洋等建立了基于规则和相似度的心脏病病知识图谱;2020翟兴等建立了基于模板匹配和相似度计算的智能养生的知识图谱;2020年尤欢欢等人建立了基于骨科疾病的知识图谱。
但是目前建立的知识图谱都是单一的存在与数据库中,相互之间没有关联,因此,在用户需要使用时,都存在效率较低、人工成本较高的问题。
此外。对于知识图谱医疗问答应用也普遍存在匹配精度不高,需要人工辅助判断的问题,大大影响了用户的使用体验。
发明内容
本发明的一个优势在于提供一种人体运动系统数据医疗模型构建方法,其中通过该方法构件的人体运动系统数据医疗模型能够有效地提高数据匹配的效率和精确度。
为达到以上至少一个优势,本发明提供一种运动体姿检测方法,所述运动体姿检测方法包括一种人体运动系统数据医疗模型构建方法,所述人体运动系统数据医疗模型构建方法包括:
接收经由采集而获取的与人体运动系统相关的数据;
通过预设的预训练模型,以分布式表示方式表示获取的与人体运动系统相关的数据;
从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,以形成实体集合,其中所述实体集合被定义为骨肌数据医疗模型。
根据本发明一实施例,从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,包括:
通过多头指针模型和预设的token链接矩阵标注模型,抽取以分布式表示方式表示的与人体运动系统相关的数据。
根据本发明一实施例,通过预设的token链接矩阵标注模型,标注以分布式表示方式表示的与人体运动系统相关的数据;
通过多头指针模型,转换被标注后的数据,以形成token对数据。
根据本发明一实施例,从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,包括:
通过关系门的信息抽取模型,抽取以分布式表示方式表示的与人体运动系统相关的数据。
根据本发明一实施例,获取的数据包括与人体运动系统运动相关的结构化、半结构化和非结构化中的至少一个。
根据本发明一实施例,预设的预训练模型被实施为选自bert_base_chinese、roberta-wwm-ext、ernie中的一个。
根据本发明一实施例,人体骨骼肌相关的数据包括:与人体运动系统相关的数据包括:实体、属性和关系数据中的至少一个。
为达到本发明以上至少一个优势,本发明还提供一种可读存储介质,所述可读存储介质存储有指令,其中所述可读存储介质存储的指令执行如上任一方法。
根据本发明另一方面,本发明提供一种人体运动系统数据医疗模型构建系统,所述人体运动系统数据医疗模型构建系统包括:
接收模块,其中所述接收模块被设置接收经由采集而获取的与人体运动系统相关的数据;
处理模块,其中所述处理模块被设置可通信地连接于所述接收模块,并被设置能够通过预设的预训练模型,以分布式表示方式表示获取的与人体运动系统相关的数据;
模型生成模块,其中所述模型生成模块被可通信地连接于所述处理模块,并被设置能够从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,以形成实体集合,其中所述实体集合被定义为骨肌数据医疗模型。
附图说明
图1示出了本发明所述人体运动系统数据医疗模型构建方法的流程图。
图2示出了本发明使用爬虫获取互联网数据示意图。
图3示出了本发明采用bert_base_chinese、roberta-wwm-ext、ernie作为知识表示的预训练模型示意图。
图4为本发明使用的握手标记方案示意图;
图5为本发明使用的TPLinker框架示意图;
图6为本发明使用的TPLinker新增属性提取框架示意图;
图7为本发明使用的enconder结构示意图;
图8为本发明使用的deconder结构示意图;
图9为本发明以人体关节为节点建立对应的关节肌群以及关节肌肉功能示意图;
图10为本发明医疗问答流程示意图;
图11为本发明采用TransR建立实体空间和关系空间投影示意图。
图12为本发明使用爬虫获取互联网数据的另一个示意图。
图13为本发明人体运动系统数据医疗模型构建系统的结构框图。
图14本发明一计算机装置的结构框图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
参考图1,依本发明一较佳实施例的人体运动系统数据医疗模型构建方法将在以下被详细地阐述。
具体地,所述人体运动系统数据医疗模型构建方法包括如下步骤:
S101,接收经由采集而获取的与人体运动系统运动相关的数据。
获取的数据包括但不限于:与人体运动系统运动相关的结构化、半结构化和非结构化中的至少一个。与人体运动系统相关的数据包括:与人体运动系统相关的数据包括:实体、属性和关系数据中的至少一个。如人体骨骼肌系统的实体属性数据、特征数据、人体运动系统训练方法数据和测试方法数据中的至少一个。
可以理解的是,采集与人体运动系统运动相关的数据方式包括:对网页、电子书籍、康复医师等专业人士形成的数据库等进行爬获取;也可以通过从数据接口读取。
具体地,在一个实施例中,利用Scrapy对网页进行爬取获取人体运动系统运动相关的数据。通过爬虫获取互联网海量结构化、半结构化和非结构化数据。
数据可以大量来源于互联网资料,拟使用Scrapy框架,利用该框架对网页进行爬取,返回json或者csv格式的数据。Scrapy框架基本结构如图2和图13 所示,其包括引擎(Scrapy Engine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)、管道(ItemPipeline)、下载中间件(Downloader Middlewares) 和爬虫中间件(SpiderMiddlewares)。
在一个示例中,其工作流程为:
1)引擎从爬虫获取初始需求。
2)引擎将获取得到的需求发送给调度中心排队入队列。
3)引擎获取调度中心的需求并将需求发送给下载器。
4)需求在传送到下载器的过程中会经过下载器中间件,对需求进行处理。
5)下载器根据需求从互联网下载内容,封装成响应对象传递给引擎。
6)在响应传递给引擎的过程中也会经过下载器中间件,其会对响应进行处理。
7)引擎将接收到的响应传递给爬虫进行处理。
8)响应传递给引擎时会经过爬虫中间件并对响应进行处理。
9)爬虫接收到响应并进行处理生成一个带爬取的网址的需求和一个项目对象组成的结果并将结果传递给引擎。
10)结果传递给引擎的过程中会经过爬虫中间器并对结果进行处理。
11)引擎获取到爬虫传递的结果,将其中的项目对象发送给管道,将其中的需求发给调度器排队入队列。
12)管道会对数据进行进一步处理,包括数据整理和保存等。
所述人体运动系统数据医疗模型构建方法包括如下步骤:
S102,通过预设的分布式表示模型,以分布式表示方式表示获取的与人体运动系统运动相关的数据。
预设的分布式表示模型优选采用预训练模型,如bert_base_chinese、 roberta-wwm-ext、ernie作为知识表示的预训练模型。
bert的框架如图3所示,其采用双向transfomer的encoder结构,基于中文的维基百科作为相关语料进行预训练。
roberta-wwm-ext是由哈工大和讯飞联合发布的预训练模型、采用了动态 MASK和更多的训练数据。
Ernie是由百度发布的基于百度贴吧等语料进行预训练的模型。采用了词语级别的MASK。
此外,分布式表示的模型还可以按照原模型中构建对应的word2id和re2id 的对应字典,并且通过LAC对文本进行词性标注获得其pos2id对应字典。按照该模型进行训练计算。LAC词性如下表所示:
Figure RE-GDA0003853290280000051
Figure RE-GDA0003853290280000061
作为优选地,在分布式表示获取的与人体运动系统运动相关的数据之前,所述人体运动系统数据医疗模型构建方法包括如下步骤:
预处理与人体运动系统运动相关的数据。具体地包括:
S1001,按照预设的数据标注模型,标注获取的与人体运动系统运动相关的非结构化数据;和
S1002,将标注后的与人体运动系统运动相关的非结构化数据作为训练集、验证集和测试集。
作为优选地,在分布式表示获取的与人体运动系统运动相关的数据之前,所述人体运动系统数据医疗模型构建方法包括如下步骤:
S1003,按照预设的数据扩充方式,扩充人体运动系统运动相关的数据。
作为优选地,所述数据扩充方式包括但不限于:原文扩充、随机截断、字符替换、随机翻转、同性词替换以及预训练模型输出替换。
在一个示例中,预处理与人体运动系统运动相关的数据被实施为:
1)对于得到的非结构化数据处理;
2)对文本按照信息抽取模型的标注模式进行标注
将标注的文本作为训练集、验证集和测试集。
3)通过人工构造的方式扩充数据量达到数据增强的效果弥补标注数据量稀少问题。
常见的扩充方法如下所示:
Figure RE-GDA0003853290280000062
Figure RE-GDA0003853290280000071
所述人体运动系统数据医疗模型构建方法包括如下步骤:
S103,从以分布式表示方式表示的与人体运动系统运动相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统运动相关的实体数据、关系数据和属性数据,以形成实体集合E,其中所述实体集合被定义为骨肌数据医疗模型。
根据一实施例,所述步骤S103包括:
S103A,通过多头指针模型(TPLinker)和预设的token链接矩阵标注模型,抽取以分布式表示方式表示的与人体运动系统运动相关的数据。
具体地,所述步骤S103A包括:
S1031,通过预设的token链接矩阵标注模型,标注以分布式表示方式表示的与人体运动系统运动相关的数据;
S1032,通过多头指针模型,转换被标注后的数据,以形成token对数据。
在所述步骤S1031中,预设的token链接矩阵标注模型可以通过:实体头部 -实体尾部(entity head to entity tail,EH-ET):一个实体的开始和终止token、主体头部-目标头部(subject head to object head,SH-OH):同一关系的两个实体的开始token、主体尾部-目标尾部(subject tail to object tail,ST-OT):同一关系的两个实体的结束token的token链接矩阵标注模型进行标记。
具体地,在一个示例中,在医学实体中,实体重叠率较高,TPLinker模型在实体重叠的句子中识别率较高。拟采用实体识别和关系识别联合模型:TPLinker,并且在原模型的基础上增加了属性识别。
下面先介绍原始模型,该模型解决了之前的模型偏移曝光问题(exposure bias):训练时每一次接受的是上一时刻的真实值和输入,在测试时每次接受的是上一时刻的预测值和输入。TPLinker将joint实体关系提取任务转换为token对的连接关系。在一个句子中两个位置分别为p1,p2和一个明确的关系r。
该模型需要回答以下三个问题“p1和p2是否为同一个实体的开始和结尾位置”,“p1和p2是否为关系r的两个实体的起始位置”,“p1和p2是否为关系r 的两个实体的结束位置”,该模型设计了一种token链接矩阵的标记方案,通过该方法能够提取所有实体和重叠关系。其显著提高了在正常句子,单个实体重复句子(Single Entity Overlap,SEO)和实体对重复(Entity Pair Overlap,EPO) 和多关系提取的性能。该模型提出的握手标记方案(Handshaking Tagging Scheme)给出了三种链接定义:实体头部-实体尾部(entity headto entity tail, EH-ET):一个实体的开始和终止token、主体头部-目标头部(subjecthead to object head,SH-OH):同一关系的两个实体的开始token、主体尾部-目标尾部(subjecttail to object tail,ST-OT):同一关系的两个实体的结束token。为了节省储存空间,将左下角矩阵(稀疏矩阵)进行上卷,其中右下角的tag有1变为2以区分顺序。
由于执行了所述步骤S1031,如果有N个关系那么该任务就被解析成2N+1 的序列标记子任务了。
其中每一个子任务有
Figure RE-GDA0003853290280000081
的长度,n为输入的句子长度,如图4中例子N=2,n=14,一共有5个子任务,每个子任务长度为91。
在EH-ET中有3个tag为1,他们代表实体的有三个分别为<股四头肌>,<股直肌>,<屈髋>。在关系“协同”中,SH-OH中有2个tag为1,EH-ET有2个tag 为1,基于这三个序列的tag可以联解出<股四头肌,协同,屈髋>,<股直肌,协同,屈髋>。同理在关系“属于”中,SH-OH和ST-OT中分别有1个tag为2。联合EH-ET可得关系<股直肌,属于,股四头肌>。
算法总结为在开始从EH-ET中提取所有实体,并通过字典D将每个头部位置映射到相应的实体。然后开始进行解码,对于每个关系ST-OT确定头实体的尾部和尾实体的尾部,将其添加到集合E中,然后以SH-OH序列查找字典D中头部位置开始的所有可能实体。然后开始迭代检查所有候选实体是否在集合E 中,如果在则直接提取三元组放入集合T中。
对于token对表示具体过程如下:一个长为n的句子[w1,w2,…,wn]将每个 tokenwi通过编码映射到一个低维的上下文向量hi。然后生成[wi,wj]Token对的对应表示向量hi,j计算公式为:
hi,j=tanh(Wh·[hi;hj]+bh),j≥i
其中Wh为参数矩阵,bh为偏移向量这两个参数都可以在训练中进行学习。该公式也是图3中的“Handshaking Kernel”。对于EH-ET,SH-OH和ST-OT的标记在该模型中使用的是一个统一框架。公式为:
P(yi,j)=Softmax(Wo·hi,j+bo)
Figure RE-GDA0003853290280000091
其中P(yi,j)表示将(wi,wj)识别为l的概率密度。其损失函数为:
Figure RE-GDA0003853290280000092
N为输入的句子长度,
Figure RE-GDA0003853290280000093
是真实的标签,E、H和T表示EH-ET,SH-OH和 ST-OT的标签。
由于加入了步骤S1031,进而对模型结构调整,提高了模型识别实体和关系抽取准确率。
除了对文本进行实体和关系的抽取还需要对实体进行属性抽取,对于不同类别的实体具有不同的属性,并且属性的结构也不同,有的属性可能是词语级别,有的可能是句子级别,有的可能是文档级别。那么对于属性的提取同样引入标记符号:实体属性头部-实体属性尾部(Entity Attribute Head to Entity Attribute Tail, EAH-EAT)、实体头部-实体属性头部(Entity Head to Entity Attribute Head, EH-EAH)、实体尾部-实体属性尾部(Entity Tail to Entity Attribute Tail,ET-EAT)。对于EH-EAH和ET-EAT部分可以属性在前实体在后所以tag可以为2。属性在文本为顺序所以tag只能为1。将其转化为TPLinker框架如图5和图6所示,假如实体共有M种属性(属性可为空值)那么子任务将由原模型中的2N+1,变成了2M+2N+2。子任务的长度不变仍为
Figure RE-GDA0003853290280000094
。属性tag的计算方法和原模型关系和实体tag计算方式相同。如果进行关系属性提取定义关系属性类别为K类,任务变为2K+2M+2N+3个子任务。
根据另一实施例,所述步骤S103包括:
S103B,通过关系门的信息抽取模型,抽取以分布式表示方式表示的与人体运动系统运动相关的数据。
具体地,使用基于关系门的信息抽取模型。该模型通过使用关系注意力机制使得能够通过关系门在一个文本中对不同关系进行提取。该模型的embedding层使用词嵌入、词性嵌入和字符嵌入。通过将字符对应id、词对应id和词性对应id,先转换为低维向量再通过一维卷积和全连接层获取输入的词向量输入 Enconder,Encoder结构如图7所示。Enconder层输入向量通过一个双向LSTM 输出的隐向量记为h1,h2,…hn,n为输出隐向量个数。
Figure RE-GDA0003853290280000101
Figure RE-GDA0003853290280000102
dhe为BiLSTM的隐状态。
Sc={h1,...,hn}用来表示文本上下文句子特征。
通过对隐向量取平均池化得到Sg
Sg=avg{h1,h2,…,hn}
并定义关系向量rk。通过两个全连接层获得关系向量。
计算Sk,其计算公式为:
eik=vT tanh(Wrrk+Wgsg+Whhi)
Figure RE-GDA0003853290280000103
Figure RE-GDA0003853290280000104
w1,w2,w3,b1,b2,b3为参数,theta为sigmoid函数。
Deconder结构如图8所示,其输入Uk计算公式为:
Figure RE-GDA0003853290280000105
Figure RE-GDA0003853290280000106
通过将encoder输入的隐向量和Uk进行拼接输入双向LSTM,然后通过Softmax输出。
TPLinker或基于关系注意力机制的实体关系抽取模型(分布式表示用原模型方法和用预训练模型)可以获得实体和对应关系。因为在各个模型中对于不同的实体类别:单个实体重复(SingleEntityOverlap,SEO)和实体对重复(EntityPairOverlap,EPO)。具体如下表所示。
Figure RE-GDA0003853290280000111
由于,通过上述TPLinker或基于关系注意力机制的实体关系抽取模型,能够有效地提高模型识别实体和关系抽取准确率,并且还能够有效地将同一个词不同语境下的含义归类于不同的集合,因此,提高了最终形成的所述骨肌数据医疗模型的准确程度。
本发明的人体骨肌数据医疗模型的构建是以人体关节为节点建立了对应的关节肌群以及关节肌肉功能和其拮抗肌和协同肌,实现了对人体运动系统的细节划分,如图9所示。
1.协同肌:又叫合作肌,指在完成特定动作时,除发生收缩的主动肌以外,其他协作完成这一动作的肌肉。
2.拮抗肌:又叫对抗肌,指在主动技收缩完成动作的过程中,位于运动轴对侧的发生松弛或生长的肌肉。
节点类型目前如下表所示。
Figure RE-GDA0003853290280000112
Figure RE-GDA0003853290280000121
节点属性包括:临床意义、名字、特别属性、状态、神经延展性测试说明、等级、简介、肌肉延展测试说明、英文、说明。节点属性用于对个节点进行补充说明。
本发明知识图谱的关系类型如下表所示:
Figure RE-GDA0003853290280000122
Figure RE-GDA0003853290280000131
关系属性包括:位置、动作指令、备注、测试方法、状态、短头位置、结论、说明、起始姿势、长头位置。
进一步地,所述人体运动系统数据医疗模型构建方法还包括以下步骤:
S104,以所述人体运动系统数据医疗模型为实体链接的知识库,通过图卷积网络的模型,为每个所述人体运动系统数据医疗模型中的实体寻找一个最优分配,以将所述人体运动系统数据医疗模型中属于同一实体集合的至少两个实体归属于同一所述实体集合,以形成整理后的所述人体运动系统数据医疗模型。比如,最终完成的人体骨肌数据医疗模型的数据可以通过写好的python文档、利用 py2neo库将中得到的实体、关系、属性数据,存入数据库如neo4j中。
具体地,所述步骤S104包括如下步骤:
将构建好骨肌数据医疗模型作为一个知识库进行实体链接。
将搭建的所述人体运动系统数据医疗模型当作一个知识库,该知识库包含一个实体集合E;本所述人体运动系统数据医疗模型能够从互联网上获取的大量数据并将其以分布式模型表示,随后抽取出来的实体,本发明认为都是与实体集合 E的潜在提及对象,记该集合为M;
通过将每个实体提及m∈M到其对应的无歧义的目标实体e∈E。如果在实际计算中集合E不包含m的目标实体,则将m链接到一个新的实体(作为原有实体库的补充)。
在具体模型选用上,优选采取基于图卷积网络的模型,其利用图卷积网络来对局部上下文和全局一致性信息进行建模。通过函数计算寻找为实体寻找一个最优分配。
Figure RE-GDA0003853290280000141
Figure RE-GDA0003853290280000142
为输出候选实体的变量;P()为概率函数,
Figure RE-GDA0003853290280000143
为拓扑图的归一化邻接矩阵, f为候选实体的特征表示。
Figure RE-GDA0003853290280000144
F()是在参数ω下的一个映射函数。其利用编码器、子图卷积网络和解码器来获得该映射函数。
通过执行上述步骤S104,使得形成的所述人体运动系统数据医疗模型能够将属于同一个实体集合的不同的至少两个实体链接到同一个所述实体集合,从而有效地提高了最终形成的所述人体运动系统数据医疗模型的精确度。本发明人体运动系统数据的匹配方法主要包含实体链接和关系推理两个部分:
实体链接:通过命名实体识别将问题中的实体进行提取对应的话题实体;通过实体消歧确定实体在人体运动系统知识图谱中对应的实体。
关系推理:将语义问题与人体骨肌数据医疗模型中的关系进行匹配。通过识别问题语句的语义确定查询关系,根据人体骨肌数据医疗模型中已有关系和其对应的三元组进行匹配或进行多条查询再进行匹配等联合推理得出答案。
具体地,所述方法包括:
S201,接收需要匹配的问题;
S202,通过分布式表示模型中的预训练模型,以分布式表示方式表示需要匹配的问题;
S203,从所述人体骨肌数据医疗模型中,确定与以分布式表示方式表示的问题匹配的答案作为结果;
S204,反馈所述结果至用户。
值得一提的是,在所述步骤S202中,所述预训练模型可以选用bert等预训练模型。将获取的单个词向量进行相加得到对应句子的向量表示,该方法能够有效对词性和顺序进行识别,比如“小明的父亲是谁”和“小明是谁的父亲”如果使用word2vec等向量表示方法是不能有效识别两个问题的区别。
优选地,所述方法还包括:
S205,通过预设模型从候选答案中选出最为匹配的答案。
通过用户输入问题,将问题和通过命名实体识别将问题中的实体进行提取后对应的实体嵌入,以获得稠密向量表示,并在候选人体骨肌数据医疗模型中进行相关匹配,以获得匹配后将相应节点关系嵌入后获得其稠密向量表示,并计算问题和候选答案的匹配度,通过模型选出最为匹配的答案,如图10所示。
本发明的自动问答方法有两个关键点:
在所述步骤S205中选出最为匹配的答案包括:
S2051,对于候选答案的映射,使用TransE系列模型将答案实体向量化。这里举一个TransR模型,模型结构如图11所示。其建立实体空间和关系空间,将实体投影到关系空间中。其表达式为:hMr+r≈tMr但是不同的实体投影应该有不同的转换方式。
同时为了提高模型性能,优选地,引入额外的信息,比如使用多列卷积网络,提取三个特征向量,分别表示答案的三个维度,分别为答案的路径、答案的上下文信息和答案的类型。
在所述步骤S205中选出最为匹配的答案包括:
通过得分函数度量问题和候选答案之间的关联程度,即对图10中的得分函数S(q,a)进行设计。
对于得分函数S(q,a)的设计可以引入注意力机制,针对不同的答案特征(实体,关系,类型,上下文)分别有不同的表达。比如对于答案i的分布式表达为:
gi(a)∈{ge(a),gr(a),gt(a),gc(a)}
ge(a),gr(a),gt(a),gc(a)分别表示实体向量,关系向量,类型向量和上下文向量。
对于问题i中的第j个词的词向量(bert的输出hj)那么对应问题的分布式表达可以记为:
Figure RE-GDA0003853290280000151
aij为句子i对于词j的注意力权重。
将最终的得分函数定义为问题与答案的点积和,以最大的点积和对应的候选答案作为最后的答案。最终反馈给用户。
Figure RE-GDA0003853290280000161
采用Hinge-Loss作为其损失函数值。
值得一提的是,所述方法包括:
S206:以损失函数值,衡量预测和实际结果的差距;并通过这个损失函数值反向更新所述人体运动系统数据医疗模型参数。
参考图13,根据本发明的另一个方面,本发明还提供一种人体运动系统数据医疗模型构建系统,所述人体运动系统数据医疗模型构建系统包括:接收模块 10、处理模块20以及一模型生成模块30,其中所述接收模块10被设置接收经由采集而获取的与人体运动系统相关的数据;所述处理模块20被设置可通信地连接于所述接收模块10,并被设置能够通过预设的预训练模型,以分布式表示方式表示获取的与人体运动系统相关的数据;所述模型生成模块30被可通信地连接于所述处理模块20,并被设置能够从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,以形成实体集合,其中所述实体集合被定义为骨肌数据医疗模型。
图14为本申请计算机装置一个实施例的结构示意图,如图14所示,上述计算机装置可以包括:一个或多个处理器;存储器;以及一个或多个计算机程序。
其中,上述计算机装置可以为电脑,服务器,移动终端(手机),收银设备,计算机,智慧屏,无人机,智能网联车(Intelligent Connected Vehicle;以下简称: ICV),智能(汽)车(smart/intelligent car)或车载设备等设备。
其中上述一个或多个计算机程序被存储在上述存储器中,上述一个或多个计算机程序包括指令,当上述指令被上述设备执行时,使得上述设备执行如图1所示步骤。
图14所示的计算机装置可以是终端设备或服务器也可以是内置于上述终端设备或服务器的电路设备。该设备可以用于执行本申请图1所示方法。
如图14所示,计算机装置900包括处理器910和存储器920。其中,处理器910和存储器920之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器920用于存储计算机程序,该处理器910用于从该存储器920中调用并运行该计算机程序。
上述存储器920可以是只读存储器(read-only memory,ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory,RAM)或可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory, EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备,或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。
上述处理器910可以和存储器920可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器920中存储的程序代码来实现上述功能。具体实现时,该存储器920也可以集成在处理器910中,或者,独立于处理器 910。
应理解,图14所示的计算机装置900能够实现本申请图14所示实施例提供的方法的各个过程。计算机装置900中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。
除此之外,为了使得计算机装置900的功能更加完善,该计算机装置900还可以包括电源940、输入单元950等中的一个或多个。
可选地,电源950用于给计算机装置中的各种器件或电路提供电源。
应理解,图14所示的计算机装置900中的处理器910可以是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器920中。
本申请还提供一种计算机装置,所述装置包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现本申请图1和图所示实施例提供的方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units);,该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图1和图1所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图1和图所示实施例提供的方法。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的优势已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

Claims (9)

1.人体运动系统数据医疗模型构建方法,其特征在于,所述人体运动系统数据医疗模型构建方法包括:
接收经由采集而获取的与人体运动系统相关的数据;
通过预设的预训练模型,以分布式表示方式表示获取的与人体运动系统相关的数据;
从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,以形成实体集合,其中所述实体集合被定义为骨肌数据医疗模型。
2.根据权利要求1所述人体运动系统数据医疗模型构建方法,其特征在于,从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,包括:
通过多头指针模型和预设的token链接矩阵标注模型,抽取以分布式表示方式表示的与人体运动系统相关的数据。
3.根据权利要求2所述人体运动系统数据医疗模型构建方法,其特征在于,
通过预设的token链接矩阵标注模型,标注以分布式表示方式表示的与人体运动系统相关的数据;
通过多头指针模型,转换被标注后的数据,以形成token对数据。
4.根据权利要求1所述人体运动系统数据医疗模型构建方法,其特征在于,从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,包括:
通过关系门的信息抽取模型,抽取以分布式表示方式表示的与人体运动系统相关的数据。
5.根据权利要求1所述人体运动系统数据医疗模型构建方法,其特征在于,获取的数据包括与人体运动系统运动相关的结构化、半结构化和非结构化中的至少一个。
6.根据权利要求1所述人体运动系统数据医疗模型构建方法,其特征在于,预设的预训练模型被实施为选自bert_base_chinese、roberta-wwm-ext、ernie中的一个。
7.根据权利要求1所述人体运动系统数据医疗模型构建方法,其特征在于,与人体运动系统相关的数据包括:实体、属性和关系数据中的至少一个。
8.可读存储介质,所述可读存储介质存储有指令,其特征在于,其中所述可读存储介质存储的指令执行如权利要求1至7中任一方法。
9.人体运动系统数据医疗模型构建系统,其特征在于,所述人体运动系统数据医疗模型构建系统包括:
接收模块,其中所述接收模块被设置接收经由采集而获取的与人体运动系统相关的数据;
处理模块,其中所述处理模块被设置可通信地连接于所述接收模块,并被设置能够通过预设的预训练模型,以分布式表示方式表示获取的与人体运动系统相关的数据;
模型生成模块,其中所述模型生成模块被可通信地连接于所述处理模块,并被设置能够从以分布式表示方式表示的与人体运动系统相关的数据中,按照预设的实体关系联合抽取模型,抽取与人体运动系统相关的实体数据、关系数据和属性数据,以形成实体集合,其中所述实体集合被定义为骨肌数据医疗模型。
CN202210675851.0A 2021-12-15 2022-06-15 人体运动系统数据医疗模型构建方法、系统及其应用 Pending CN115344702A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN2021115356822 2021-12-15
CN202111535682.2A CN114676233A (zh) 2021-12-15 2021-12-15 基于骨骼肌知识图谱的医疗自动问答方法
CN202111538768.0A CN114676260A (zh) 2021-12-15 2021-12-15 基于知识图谱的人体骨骼运动康复模型构建方法
CN2021115387680 2021-12-15

Publications (1)

Publication Number Publication Date
CN115344702A true CN115344702A (zh) 2022-11-15

Family

ID=83948198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210675851.0A Pending CN115344702A (zh) 2021-12-15 2022-06-15 人体运动系统数据医疗模型构建方法、系统及其应用

Country Status (1)

Country Link
CN (1) CN115344702A (zh)

Similar Documents

Publication Publication Date Title
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
US20210034813A1 (en) Neural network model with evidence extraction
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN111666477B (zh) 一种数据处理方法、装置、智能设备及介质
CN112131393A (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN107368547A (zh) 一种基于深度学习的智能医疗自动问答方法
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN114676260A (zh) 基于知识图谱的人体骨骼运动康复模型构建方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114676233A (zh) 基于骨骼肌知识图谱的医疗自动问答方法
WO2021082086A1 (zh) 机器阅读方法、系统、装置及存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112149400A (zh) 一种数据处理方法、装置、设备及存储介质
CN112071429A (zh) 一种基于知识图谱的医疗自动问答系统构建方法
CN111881292B (zh) 一种文本分类方法及装置
CN112420151A (zh) 一种超声报告后结构化解析方法、系统、设备和介质
CN111444715A (zh) 实体关系识别方法、装置、计算机设备和存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114781402A (zh) 问诊意图识别方法、装置、电子设备及可读存储介质
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN116628186B (zh) 文本摘要生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination