Nothing Special   »   [go: up one dir, main page]

CN113076411B - 一种基于知识图谱的医疗查询扩展方法 - Google Patents

一种基于知识图谱的医疗查询扩展方法 Download PDF

Info

Publication number
CN113076411B
CN113076411B CN202110454713.5A CN202110454713A CN113076411B CN 113076411 B CN113076411 B CN 113076411B CN 202110454713 A CN202110454713 A CN 202110454713A CN 113076411 B CN113076411 B CN 113076411B
Authority
CN
China
Prior art keywords
question
query
medical
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110454713.5A
Other languages
English (en)
Other versions
CN113076411A (zh
Inventor
方钰
崔雪
翟鹏珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110454713.5A priority Critical patent/CN113076411B/zh
Publication of CN113076411A publication Critical patent/CN113076411A/zh
Application granted granted Critical
Publication of CN113076411B publication Critical patent/CN113076411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种基于知识图谱的医疗查询扩展方法。自动问答系统中的查询扩展技术通过向问句中补充扩展信息来减小问答句间的语义差距,从而提高问答系统的准确性。在医疗问答领域,目前的查询扩展方法没有充分结合不同查询意图下医学术语间的共现关联关系与推理关联关系,因此得到的扩展词不够准确。本发明以医疗知识图谱为扩展词的知识来源,利用医学术语在不同查询意图下的推理关联得到候选扩展词,并结合否定医学术语识别与互信息技术筛选出最终的扩展词,最终提高了医疗问答系统的准确率。

Description

一种基于知识图谱的医疗查询扩展方法
技术领域
本发明涉及自然语言处理领域,具体涉及问答系统中查询的处理。查询扩展是自动问答系统中的重要环节与关键技术。
背景技术
随着互联网的快速发展,越来越多患者倾向于通过线上健康社区寻求医疗帮助。然而,急剧增长的问题数量给医生带来了巨大的回复负担。为了缓解医生的工作负担以及满足用户快速得到答案的需求,大量研究者们投身于医疗问答领域的研究。而在医疗问答系统中,问答句间表达方式的不同造成的词不匹配以及问答句间信息量不同造成的语义偏差是影响系统准确率的关键因素。为此,研究者引入查询扩展技术,即通过在查询中补充与查询相关的扩展词,来缩小问答句间的偏差,以提升系统的性能。
在当前医疗问答领域,查询扩展方法主要包括基于关键词的查询扩展和基于语义的查询扩展。然而,基于关键词的查询扩展方式仅从统计层面挑选关键词,忽略了查询的语义信息,因此可能会扩展很多不相关的医学实体为原始查询引入“噪声”,从而影响答案选择的质量。基于语义的查询扩展利用医学本体库或医学语义词典来挖掘查询中除表层字面之外的潜在语义,但目前基于语义的查询扩展研究在获取候选扩展词阶段是基于医学实体的概念来挑选候选扩展词,忽略了问答句间医学实体的推理关联关系在指导候选扩展词获取中的重要作用。而在扩展词筛选阶段,一部分研究者利用互信息对候选词进行筛选工作,但他们忽略了否定医学实体对实体间互信息值的干扰。
发明内容
鉴于现有技术的不足,本发明提出了一种医疗问答中基于实体关联关系的语义查询扩展方法。该方法结合查询意图与实体间推理关联关系从医学知识图谱中获取候选扩展词,并结合否定医学实体识别和互信息的筛选策略对扩展词进行筛选工作。
查询扩展是自动问答系统中重要的一环,它通过对原始问题进行处理来帮助问答模型选出正确答案。目前医疗问答领域的查询扩展多为利用伪相关反馈获取扩展词、利用医学术语间的统计关系获取扩展词、利用术语间的语义相似度获取扩展词,得到的扩展词很可能与查询意图无关,不符合查询所处的医疗场景,或者与查询本身相关度较小,因此会给问答系统带来较大噪声,影响了问答系统的准确率。
针对上述问题,本发明以扩展用户查询为目的,采用SVM分类器获取用户的查询意图,之后基于不同查询意图下医学术语的推理关联关系从医疗知识图谱中获取与查询相关的候选扩展词,最后利用否定术语识别技术与互信息技术筛选得到最终扩展词。
为了实现上述目的,本发明给出的技术方案为:
本发明提供一种基于知识图谱的医疗查询扩展方法,包括:
步骤1、对医疗问答对数据集进行预处理;
步骤2、训练SVM分类器对问句进行查询意图预测;
步骤3、结合步骤2得到的查询意图从医疗知识图谱中获取与查询相关的候选扩展词;
步骤4、利用否定医学术语识别技术与互信息技术筛选步骤3中得到的候选扩展词,从而得到最终的扩展词。
有益效果
本发明针对现有医疗问答领域查询扩展技术无法准确生成与查询所在的医疗场景相关的扩展词、没有充分结合不同查询意图下医学术语间的共现关联关系与推理关联关系、未考虑否定医学术语对术语间共现关系的影响等问题,实现了一种基于知识图谱的医疗查询扩展方法。本发明利用半监督SVM分类器获取用户查询意图,并利用不同意图下医学术语间的推理关联关系从医疗知识图谱中得到候选扩展词,最终利用否定医学术语技术与互信息技术筛选出与查询密切相关的扩展词。
本发明提出了一种基于知识图谱的医疗查询扩展方法,并在医疗问答对数据集上进行了实验验证,可观察到匹配到的扩展词更加符合查询所在的医疗场景,并与查询更加密切相关。利用TREC会议的测评工具也能观察到答案选择性能的提升。这对智慧社区场景下为居民提供便利的线上及时医疗服务、缓解医生的工作负担具有重大意义。
附图说明
附图是对本发明的进一步说明,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但不构成对本发明的限制。在附图中:
图1为查询扩展方法的流程示意图;
图2为步骤二中问句查询意图分类的流程图;
图3为步骤三中从知识图谱中选取候选扩展词;
图4为步骤四中利用否定医学术语识别技术与互信息筛选扩展词。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的具体实施方式进行清楚、完整的描述。应当理解的是,此处所描述的具体实施方法仅用于说明和解释本发明,并不用于限制本发明。
本发明的具体实施过程如图1所示,包括如下4个方面:
步骤1、对医疗问答对数据集进行预处理;
步骤2、训练SVM分类器对问句进行查询意图预测;
步骤3、结合步骤2得到的查询意图从医疗知识图谱中获取与查询相关的候选扩展词;
步骤4、利用否定医学术语识别技术与互信息技术筛选步骤3中得到的候选扩展词,从而得到最终的扩展词。
各个步骤详述如下。
第一步:中文医疗问答对数据集预处理,
1.1整合问答对数据集
删除一些表达不明确、未包含答案、问句或答句包含图片的无效问答对,为了确保数据集的平衡性,有利于后续分类操作,对除疾病诊断类、疾病症状类、疾病治疗类、疾病原因类四大类之外的个别其他类问答对进行删除。将整合好的数据集提供给步骤1.2;
1.2去除停用词
利用停用词词表去除问答对数据集中问句的停用词,主要包括一些语气词、礼貌用语等使用频率较高又无实际含义的词汇。去除停用词后的结果提供给步骤1.4;
1.3整合领域词典
由于国内目前缺少已公开且较完备的中文医疗知识库,因此整合了ICD-9-CM、ICD-10、39健康网、搜狗医疗词库(举例而非限定)以及互联网上公开的小规模医疗实体词典得到了疾病、症状、药物、检查四类医疗领域词典。
1.4将领域词典加入jieba分词器的字典,使用jieba分词器对问答对数据集中的问句进行分词;
分词后即完成了步骤1对于问答对数据集的预处理工作,将预处理后的数据集中的问句提供给步骤2、步骤3和步骤4,将领域词典提供给步骤3、步骤4。
第二步:训练SVM分类器为对问句的查询意图进行预测,如图2所示。
2.1标注问句分类标签
对步骤1得到的部分问句进行意图类别标记,若问句的查询意图属于疾病诊断类,标注为0;若问句的查询意图属于疾病治疗类,标注为1;若问句的查询意图属于疾病症状类,标注为2;若问句的查询意图属于诊断加治疗类,标注为3;若问句的查询意图属于疾病原因类,标注为4。标注后的结果提供给步骤2.2。
2.2半监督训练SVM意图分类器
由于数据集问句本身不包含意图类别,因此采取自训练的半监督方法训练意图分类器。步骤2.1的统计结果看出来数据集存在数据不均衡的问题,因此初始分类器使用对样本不均衡的支持向量机SVM算法。分类器的训练需要用到问句的两个特征(1)TF-IDF特征;(2)问句疑问词特征。
(1)TF-IDF是一种在文本分类中常用的特征向量化的方法,它通过词频(TermFrequency)和逆向文件频率(Inverse Document Frequency)反映词语在整体语料库中的重要性。它的计算公式如下:
Figure BDA0003040078780000051
其中,t代表某个词的词频,N代表文档的总词数,x代表文档总数,w代表该词在w个文档中出现。
(2)统计数据集得到四种类别问句的疑问特征词,使用离散特征编码处理问句,判断问句是否包含某种类别的疑问特征词(值为0或1)。
将训练得到的意图分类器提供给步骤2.3。
2.3将待分类的问句输入已训练好的SVM分类器,并将分类结果(即问题的查询意图)提供给步骤3。
第三步:从医疗知识图谱中获取与查询相关的候选扩展词,如图3所示。
3.1医学知识图谱获取
从公开的中文医疗全科知识图谱中抽取标记为儿科科室的三元组,并结合健康网站上搜集的儿科相关的医疗实体关系,整合出一个中文儿科知识图谱。将图谱提供给步骤3.4。
3.2统计数据集中的否定特征词和终止特征词。提供给步骤3.3和步骤4.1。
3.3查询关键词获取
根据步骤2.3提供的问句意图类别标签,结合步骤1.3得到的领域词典,对句子的初始查询关键词进行筛选。筛选依据为对于疾病诊断类问句选取症状实体作为初始查询关键词,对于疾病治疗类问句选取疾病实体作为初始查询关键词,对于询问症状类问句选取疾病实体作为初始查询关键词,对于诊断加治疗类问句选取症状实体作为初始查询关键词。之后利用否定项与终止项去除初始查询关键词中的否定医学术语得到最终的查询关键词。具体思路是以否定项与终止项为界确定否定窗口,否定窗口中的医学术语均被标记为否定医学术语,其中否定项为步骤3.2得到的否定特征词,终止项包括步骤3.2得到的终止特征词以及逗号、句号和分号。将获取到的查询关键词提供给步骤3.4。
3.4候选扩展词获取
结合步骤3.3的查询关键词与步骤2.3得到的查询意图,基于如下推理公式可推出可能在答案中存在的医学术语类型。
[rule:(Q belongsTo C),(Q hasEntity M)→(A hasEntity N)]
公式中,Q代表问题,A代表答案,C代表查询意图,M代表查询中筛选出的医学术语类型,N代表答案中对应的医学术语类型。
对于疾病诊断类的句子,从知识图谱中获取查询关键词可能对应的疾病实体,并对查询中每种症状得到的疾病实体取交集作为最终的候选扩展词。对于疾病治疗类、询问症状类的句子,从知识图谱中分别选取查询关键词对应的药物实体和对应的典型症状作为候选扩展词。对于诊断加治疗类的复合型问句,则按疾病诊断类句子的处理方法先查询到疾病实体,然后按照疾病治疗类句子的处理方法,根据疾病实体查询到常用的药物实体,最后把疾病实体与药物实体同作为候选扩展词进行输出。对于疾病原因类句子,由于难以用单独几个扩展词来概括原因,为避免大量噪声的引入,因此暂不处理此类型的问句。得到的候选扩展词列表提供给步骤4.2。
第四步:利用否定医学术语识别技术与互信息技术对所有候选扩展词进行筛选,如图4所示。
4.1对问答对数据集中的所有否定医学术语进行标记,标记方法与步骤3.3中介绍的标记方法相同。标记的结果提供给步骤4.2。
4.2计算扩展词与整体查询的归一化互信息值,筛选得到最终扩展词
计算3.4中每个候选扩展词与整体查询的互信息量,选取归一化互信息量小于扩展阈值的候选扩展词作为查询的最终扩展词。两个词的互信息量计算公式如下:
Figure BDA0003040078780000061
共现窗口选取一组问答句的范围,c(w1,w2)表示词汇w1出现在共现窗口中的问句而w2同时出现在窗口内对应答句时的次数,c(w1)表示医学术语w1在语料集中出现的次数,c(w2)表示医学术语w2在语料集中出现的次数,N表示语料集中所有医学术语的个数。在互信息矩阵的计算阶段,不予统计步骤4.1标记的否定医学术语相关的词频,避免否定医学术语干扰语料库中整体医学术语的关联程度。
假设初始查询Q中每个关键医学术语qi间相互独立,扩展词与整体查询语句之间互信息值的计算公式如下所示。
M(Q)=∑qi∈QI(qi,w)
为方便设置筛选阈值,归一化得到的互信息值,公式如下所示,其中Mmax和Mmin分别代表M(Q)的最大、最小值。
NM(Q)=(Mmax-M(Q))/(Mmax-Mmin)
候选扩展词中与整体查询的归一化互信息值NM(Q)小于扩展阈值的术语成为最终扩展词。
创新点
提出了一种基于知识图谱的医疗查询扩展方法,与目前医疗问答领域的查询扩展方法不同,本发明能针对用户问题对应的不同医疗场景,向问句补充符合相关场景且与原始查询密切相关的医疗扩展词,避免了场景无关词汇带来的噪声。本发明使用分类器判定用户查询意图,随后结合不同查询意图下医学术语的推理关联从知识图谱中获取候选扩展词,最后结合医学术语识别技术与互信息技术筛选得到最终扩展词。相对于医疗问答领域常用的基于同义词的查询扩展获取到更为准确的扩展词。
本发明提出的方法在中文医疗问答对数据集上有很好的表现,提高了中文医疗问答系统的准确率。

Claims (1)

1.一种基于知识图谱的医疗查询扩展方法,其特征在于,包括:
步骤1、对医疗问答对数据集进行预处理;
1.1整合问答对数据集
删除表达不明确、未包含答案、问句或答句包含图片的无效问答对,为了确保数据集的平衡性,有利于后续分类操作,对除疾病诊断类、疾病症状类、疾病治疗类、疾病原因类四大类之外的其他类问答对进行删除;将整合好的数据集提供给步骤1.2;
1.2去除停用词
利用停用词词表去除问答对数据集中问句的停用词,包括使用频率高又无实际含义的词汇;去除停用词后的结果提供给步骤1.4;
1.3整合领域词典
通过整合已有的各类医疗实体词典构造医疗领域词典,所述医疗领域词典包括疾病、症状、药物、检查四类;
1.4将领域词典加入jieba分词器的字典,使用jieba分词器对问答对数据集中的问句进行分词;
分词后即完成了步骤1对于问答对数据集的预处理工作,将预处理后的数据集中的问句提供给步骤2、步骤3和步骤4,将领域词典提供给步骤3、步骤4;
步骤2、训练SVM分类器对问句进行查询意图预测;
2.1标注问句分类标签
对步骤1得到的部分问句进行意图类别标记,若问句的查询意图属于疾病诊断类,标注为0;若问句的查询意图属于疾病治疗类,标注为1;若问句的查询意图属于疾病症状类,标注为2;若问句的查询意图属于诊断加治疗类,标注为3;若问句的查询意图属于疾病原因类,标注为4;标注后的结果提供给步骤2.2;
2.2半监督训练SVM意图分类器
本方法采用自训练的半监督方法训练意图分类器,初始分类器使用对样本不均衡的支持向量机SVM算法;分类器的训练需要用到问句的两个特征(1)TF-IDF特征;(2)问句疑问词特征:
(1)TF-IDF是一种在文本分类中常用的特征向量化的方法,它通过词频TermFrequency和逆向文件频率Inverse Document Frequency反映词语在整体语料库中的重要性,计算公式如下:
Figure FDA0003566921720000021
其中,t代表某个词的词频,N代表文档的总词数,x代表文档总数,w代表该词在w个文档中出现;
(2)统计数据集得到四种类别问句的疑问特征词,使用离散特征编码处理问句,判断是否包含值为0或1类别的问句疑问特征词;
将训练得到的意图分类器提供给步骤2.3;
2.3将待分类的问句输入已训练好的SVM分类器,并将分类结果即问题的查询意图提供给步骤3;
步骤3、结合步骤2得到的查询意图从医疗知识图谱中获取与查询相关的候选扩展词:
3.1医学知识图谱获取
从公开的中文医疗全科知识图谱中抽取标记为儿科科室的三元组,并利用基于BERT的关系抽取方法从39健康网中爬取的儿科问答语料获得儿科医疗实体关系,从而将两者整合出中文儿科知识图谱;将图谱提供给步骤3.4;
3.2统计数据集中的否定特征词和终止特征词;提供给步骤3.3和步骤4.1;
3.3查询关键词获取
根据步骤2.3提供的问句意图类别标签,结合步骤1.3得到的领域词典,对句子的初始查询关键词进行筛选;筛选依据为对于疾病诊断类问句选取症状实体作为初始查询关键词,对于疾病治疗类问句选取疾病实体作为初始查询关键词,对于询问症状类问句选取疾病实体作为初始查询关键词,对于诊断加治疗类问句选取症状实体作为初始查询关键词;之后利用否定项与终止项去除初始查询关键词中的否定医学术语得到最终的查询关键词;具体思路是以否定项与终止项为界确定否定窗口,否定窗口中的医学术语均被标记为否定医学术语,其中否定项为步骤3.2得到的否定特征词,终止项包括步骤3.2得到的终止特征词以及逗号、句号和分号;将获取到的查询关键词提供给步骤3.4;
3.4候选扩展词获取
结合步骤3.3的查询关键词与步骤2.3得到的查询意图,基于如下推理公式可推出可能在答案中存在的医学术语类型;
[rule:(Q belongsTo C),(Q hasEntity M)→(A hasEntity N)]
公式中,Q代表问题,A代表答案,C代表查询意图,M代表查询中筛选出的医学术语类型,N代表答案中对应的医学术语类型;
对于疾病诊断类的句子,从知识图谱中获取查询关键词可能对应的疾病实体,并对查询中每种症状得到的疾病实体取交集作为最终的候选扩展词;
对于疾病治疗类、询问症状类的句子,从知识图谱中分别选取查询关键词对应的药物实体和对应的典型症状作为候选扩展词;
对于诊断加治疗类的复合型问句,则按疾病诊断类句子的处理方法先查询到疾病实体,然后按照疾病治疗类句子的处理方法,根据疾病实体查询到常用的药物实体,最后把疾病实体与药物实体同作为候选扩展词进行输出;
对于疾病原因类句子,暂不处理此类型的问句;
得到的候选扩展词列表提供给步骤4;
步骤4、利用否定医学术语识别技术与互信息技术筛选步骤3中得到的候选扩展词,从而得到最终的扩展词:
4.1对问答对数据集中的所有否定医学术语进行标记,标记方法与步骤3.3中介绍的标记方法相同;标记的结果提供给步骤4.2;
4.2计算扩展词与整体查询的归一化互信息值,筛选得到最终扩展词
计算步骤3.4中每个候选扩展词与整体查询的互信息量,选取归一化互信息量小于扩展阈值的候选扩展词作为查询的最终扩展词;两个词的互信息量计算公式如下:
Figure FDA0003566921720000031
共现窗口选取一组问答句的范围,c(w1,w2)表示词汇w1出现在共现窗口中的问句而w2同时出现在窗口内对应答句时的次数,c(w1)表示医学术语w1在语料集中出现的次数,c(w2)表示医学术语w2在语料集中出现的次数,N表示语料集中所有医学术语的个数;在互信息矩阵的计算阶段,不予统计步骤4.1标记的否定医学术语相关的词频;
假设初始查询Q中每个关键医学术语qi间相互独立,扩展词与整体查询语句之间互信息值的计算公式如下所示:
M(Q)=∑qi∈QI(qi,w)
为方便设置筛选阈值,归一化得到的互信息值,公式如下所示,其中Mmax、Mmin分别代表M(Q)的最大、最小值;
NM(Q)=(Mmax-M(Q))/(Mmax-Mmin)
候选扩展词中与整体查询的归一化互信息值NM(Q)小于扩展阈值的术语成为最终扩展词。
CN202110454713.5A 2021-04-26 2021-04-26 一种基于知识图谱的医疗查询扩展方法 Active CN113076411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110454713.5A CN113076411B (zh) 2021-04-26 2021-04-26 一种基于知识图谱的医疗查询扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110454713.5A CN113076411B (zh) 2021-04-26 2021-04-26 一种基于知识图谱的医疗查询扩展方法

Publications (2)

Publication Number Publication Date
CN113076411A CN113076411A (zh) 2021-07-06
CN113076411B true CN113076411B (zh) 2022-06-03

Family

ID=76618763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110454713.5A Active CN113076411B (zh) 2021-04-26 2021-04-26 一种基于知识图谱的医疗查询扩展方法

Country Status (1)

Country Link
CN (1) CN113076411B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510558A (zh) * 2022-01-26 2022-05-17 北京博瑞彤芸科技股份有限公司 一种基于中医知识图谱的问答方法及系统
CN115618947A (zh) * 2022-12-05 2023-01-17 中国人民解放军总医院 医疗知识图谱质量评估系统、装置、设备、介质及产品
CN116052889B (zh) * 2023-03-31 2023-07-04 四川无限智达科技有限公司 一种基于血液常规指标检测的sFLC预测系统
CN116542817B (zh) * 2023-07-06 2023-10-13 北京烽火万家科技有限公司 一种智能数字人律师咨询方法及系统
CN116932767B (zh) * 2023-09-18 2023-12-12 江西农业大学 基于知识图谱的文本分类方法、系统、存储介质及计算机
CN118410156B (zh) * 2024-07-03 2024-11-05 支付宝(杭州)信息技术有限公司 基于大语言模型的医疗问答方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391906A (zh) * 2017-06-19 2017-11-24 华南理工大学 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ520461A (en) * 2000-02-14 2005-03-24 First Opinion Corp Automated diagnostic system and method
US11158427B2 (en) * 2017-07-21 2021-10-26 International Business Machines Corporation Machine learning for medical screening recommendations based on patient activity information in social media
CN108256061A (zh) * 2018-01-16 2018-07-06 华东师范大学 医疗文本的检索方法、电子设备及存储介质
CN109241257B (zh) * 2018-08-20 2022-07-19 重庆柚瓣家科技有限公司 一种基于知识图谱的智慧问答系统及其方法
CN111966780A (zh) * 2019-05-20 2020-11-20 天津科技大学 一种基于词向量建模和信息检索的回顾性队列选择方法及装置
CN111370127B (zh) * 2020-01-14 2022-06-10 之江实验室 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持系统
CN112241457A (zh) * 2020-09-22 2021-01-19 同济大学 一种融合扩展特征的事理知识图谱事件检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391906A (zh) * 2017-06-19 2017-11-24 华南理工大学 基于神经网络和图谱结构的健康饮食知识网络构建方法
CN108986871A (zh) * 2018-08-27 2018-12-11 东北大学 一种智慧医疗知识图谱的构建方法

Also Published As

Publication number Publication date
CN113076411A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN113076411B (zh) 一种基于知识图谱的医疗查询扩展方法
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
Roberts A conceptual framework for quantitative text analysis
Li et al. Database integration using neural networks: implementation and experiences
CN109308321A (zh) 一种知识问答方法、知识问答系统及计算机可读存储介质
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN116992007B (zh) 基于问题意图理解的限定问答系统
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112925918B (zh) 一种基于疾病领域知识图谱的问答匹配系统
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
CN115840812A (zh) 一种根据政策文本智能匹配企业的方法及系统
CN112214335A (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN110188170B (zh) 一种多入口医学问句模板装置及其方法
Trabelsi et al. A hybrid deep model for learning to rank data tables
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN113553419A (zh) 民航知识图谱问答系统
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
Pinto et al. What Drives Research Efforts? Find Scientific Claims that Count!
CN114238735B (zh) 一种互联网数据智能采集方法
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法
Dray et al. Opinion mining from blogs
Zhou Education web information retrieval and classification with big data analysis
CN114817497A (zh) 一种基于意图识别与模板匹配的混合问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant