CN117235275A - 一种基于大语言模型推理的医学疾病编码映射方法及装置 - Google Patents
一种基于大语言模型推理的医学疾病编码映射方法及装置 Download PDFInfo
- Publication number
- CN117235275A CN117235275A CN202311002567.8A CN202311002567A CN117235275A CN 117235275 A CN117235275 A CN 117235275A CN 202311002567 A CN202311002567 A CN 202311002567A CN 117235275 A CN117235275 A CN 117235275A
- Authority
- CN
- China
- Prior art keywords
- disease
- standard
- model
- code
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 141
- 201000010099 disease Diseases 0.000 title claims abstract description 140
- 238000013507 mapping Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 67
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 208000035474 group of disease Diseases 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 22
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 201000004384 Alopecia Diseases 0.000 description 31
- 231100000360 alopecia Toxicity 0.000 description 27
- 208000037386 Typhoid Diseases 0.000 description 22
- 201000008297 typhoid fever Diseases 0.000 description 22
- 238000003860 storage Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 16
- 206010034674 peritonitis Diseases 0.000 description 13
- 230000036541 health Effects 0.000 description 7
- 206010022694 intestinal perforation Diseases 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 150000002632 lipids Chemical class 0.000 description 3
- 208000004631 alopecia areata Diseases 0.000 description 2
- 206010068168 androgenetic alopecia Diseases 0.000 description 2
- 201000002996 androgenic alopecia Diseases 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006806 disease prevention Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000926 neurological effect Effects 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 206010056519 Abdominal infection Diseases 0.000 description 1
- 208000003024 Diffuse alopecia Diseases 0.000 description 1
- 206010016936 Folliculitis Diseases 0.000 description 1
- 230000005526 G1 to G0 transition Effects 0.000 description 1
- 206010017914 Gastroenteritis salmonella Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 206010028698 Nail dystrophy Diseases 0.000 description 1
- 208000037062 Polyps Diseases 0.000 description 1
- 206010039793 Seborrhoeic dermatitis Diseases 0.000 description 1
- 206010039796 Seborrhoeic keratosis Diseases 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000003698 anagen phase Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001272 neurogenic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000037390 scarring Effects 0.000 description 1
- 208000008742 seborrheic dermatitis Diseases 0.000 description 1
- 201000003385 seborrheic keratosis Diseases 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于大语言模型推理的医学疾病编码映射方法及装置,通过搭建标准疾病编码的向量索引库,从标准疾病编码文件中解析出疾病描述及其对应标准编码的键值对,并对疾病描述向量化;获取输入的疾病名称,基于疾病名称从向量库索引库中,召回与疾病名称相关的一组疾病描述及其对应的标准疾病编码映射;最后,搭建基于大语言模型的编码分析模块,将输入的疾病名称与召回结果中的疾病描述进行语义匹配,得到匹配的疾病描述对应的标准疾病编码。使得采用不同编码方式的医院,也能够基于疾病信息匹配到统一的标准编码上,提高疾病标准化分类和识别的效率的同时,大幅减轻人工对齐的时间成本消耗,并且使编码映射更加精确。
Description
技术领域
本发明属于神经网络编码映射技术领域,具体涉及一种基于大语言模型推理的医学疾病编码映射方法及装置。
背景技术
在当今医疗健康信息化发展的背景下,医疗健康数据的收集和处理越来越受到关注。一方面,医疗健康数据是精准医疗、疾病预防和控制的重要基础,对于提高公众健康水平、降低医疗保健成本等方面具有重要意义。另一方面,由于医疗健康数据的特殊性和复杂性,其收集、处理和应用面临着巨大的挑战。
在这些挑战中,疾病编码映射问题尤为突出。在医疗健康领域,疾病编码是对疾病进行标准化分类和识别的重要工具,是精准医疗、疾病预防和控制、医疗服务质量评估等多个领域的关键技术基础。然而,目前在实际应用中存在一个严重问题,即各医院因地理、历史、管理等因素,会形成各自的疾病分类体系和编码方式,使得同一疾病在不同医院可能有不同的编码。这种情况严重影响了疾病编码的统一性和对疾病数据的有效管理。
例如,我国当前的标准疾病编码为“疾病分类代码国家临床版2.0”,它是经过精心设计和多年实践的标准化疾病分类系统。然而,很多医院仍然使用自己的分类体系和编码方式,这使得在管理众多医院的疾病数据时,面临着如何将不同医院的疾病编码对应到“疾病分类代码国家临床版2.0”的挑战。这种情况对于数据的统一处理和分析,以及更高层面的公共卫生决策等方面,都带来了极大的困扰。
因此,如何构建一种有效的疾病编码映射方法,将不同医院的疾病编码映射到统一的标准,是当前医疗健康数据管理的重要课题。
发明内容
为解决现有技术的不足,实现不同疾病编码统一的目的,本发明采用如下的技术方案:
一种基于模型推理的编码映射方法,包括如下步骤:
步骤S1:搭建标准文本编码的向量索引库,从标准文本中解析出文本描述及其对应的标准编码,并对文本描述向量化,构建向量索引库;
步骤S2:获取输入的文本信息,基于文本信息从向量库索引库中,召回与文本信息相关的一组文本描述及其对应的标准编码映射;
步骤S3:搭建基于神经网络模型的编码分析模块,将输入的文本信息与召回结果中的文本描述进行语义匹配,得到匹配的文本描述对应的标准编码。
进一步地,所述步骤S1中的文本描述向量化,是通过文本描述构建其正负样本对,将具有相同大类标准编码的文本描述作为正样本,非相同大类标准编码的文本描述作为负样本,基于对比学习微调预训练语言表征模型,以降低一对正样本生成向量的相似度,促使模型针对正样本拟合生成更相似的向量,增加一对正样本生成向量的相似度,促使模型针对负样本拟合生成更不相似的向量。
进一步地,所述样本的相似度,是基于样本对的编码距离与其编码长度平均值的比值,当样本对为一对正样本时,将该对正样本的余弦距离减去器对应的所述比值,当样本对为一对负样本时,将该对负样本的余弦距离加上其对应的所述比值。
进一步地,所述预训练语言表征模型,基于一对正样本和一个负样本的三元组,构建三元组损失函数:
L(xi,xj,xk)=max(0,sik-sij+margin)
其中,xi,xj表示一对正样本,xk表示负样本,sik表示一对负样本对应的所述比值,sij表示一对正样本对应的所述比值,margin表示超参数,用于拉开正负样本对之间的距离;
微调预训练语言表征模型,找出模型参数θ,以最小化所有样本对的损失函数的总和:
minθ∑(i,j,k)L(xi,xj,xk)
其中,θ表示预训练语言表征模型的参数。
进一步地,所述步骤S2中的召回包括倒排召回,召回步骤如下:
步骤S2.1.1:对向量索引库中的文本描述进行分词操作;
步骤S2.1.2:记录每个词项在所有文本描述中出现的位置,以此建立倒排索引;一方面倒排索引节省了存储空间,另一方面,倒排索引提高了对输入文本信息匹配的效率;
步骤S2.1.3:获取输入的文本信息,并提取其词项;
步骤S2.1.4:利用倒排索引,根据输入文本信息的词项,查找包含该词项的文本描述及其对应的标准编码,得到召回结果。倒排召回充分考虑了字词层面的相似性。
进一步地,所述步骤S1中的向量库,是基于文本描述生成哈希值,将哈希值作为唯一标识与文本描述对应的向量一起构建向量库;所述步骤S2.2中,倒排索引为一个哈希表,其键为词项,值是一个列表,列表中包含所有包含该此项的文本描述及其对应的标准编码;所述步骤S2.4中,在哈希表中查找输入文本信息的词项对应的文本描述及其标准编码。哈希表的而建立大大提高查找效率,同时也提高了数据传输的安全性,保障了用户隐私。
进一步地,所述步骤S2中的召回包括语义召回,召回步骤如下:
步骤S2.2.1:对输入的文本信息向量化,得到向量c;
步骤S2.2.2:从向量索引库中,查找与向量c距离最近的一组向量,并基于唯一标识,找到对应的文本描述及标准编码,得到召回结果。语义召回充分考虑了语义的相似性。
进一步地,所述步骤S3包括如下步骤:
步骤S3.1:整理和预处理训练数据,从标准文本中收集并标注一系列示例,示例为包含文本信息的提示字段及其对应的标准编码的答案字段,这些数据将被用于微调大语言模型,使其能够理解和解决我们的任务;
步骤S3.2:利用所述训练数据对模型进行微调,将训练数据中的提示字段作为输入,对应的答案字段作为输出;
步骤S3.3:模型推理;基于所述召回结果和输入的文本信息,构建提示字段,并输入微调后的模型,得到的答案字段即为映射的标准编码。
一种基于大语言模型推理的医学疾病编码映射方法,包括如下步骤:
步骤一:搭建标准疾病编码的向量索引库,从标准疾病编码文件中解析出疾病描述及其对应标准编码的键值对,并对疾病描述向量化;
步骤二:获取输入的疾病名称,基于疾病名称从向量库索引库中,召回与疾病名称相关的一组疾病描述及其对应的标准疾病编码映射;
步骤三:搭建基于大语言模型的编码分析模块,将输入的疾病名称与召回结果中的疾病描述进行语义匹配,得到匹配的疾病描述对应的标准疾病编码。
一种基于大语言模型推理的医学疾病编码映射装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的一种基于大语言模型推理的医学疾病编码映射方法。
本发明的优势和有益效果在于:
本发明的一种基于大语言模型推理的医学疾病编码映射方法及装置,通过构建向量化的标准疾病编码库,在兼顾疾病信息的字词和语义,进行标准编码的匹配,使得采用不同编码方式的医院,也能够基于疾病信息匹配到统一的标准编码上,以便统一疾病编码,提高疾病数据的有效性,提高疾病标准化分类和识别的效率,同时,大幅减轻人工对齐的时间成本消耗,并且更加精确。
附图说明
图1是本发明实施例中方法的流程图。
图2是本发明实施例中装置的结构示意图。
说具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,一种基于大语言模型推理的医学疾病编码映射方法,包括如下步骤:
步骤一:搭建标准疾病编码的向量索引库,从标准疾病编码文件中解析出疾病描述及其对应标准编码的键值对,并对疾病描述向量化。
该模块的主要目的是建立一个基于《疾病分类代码国家临床版2.0》的标准疾病编码的向量索引库。具体的,该模块主要包括2个部分,第一个部分是语义特征向量抽取模块,第二个部分是向量库索引构建及存储模块。
1)语义特征向量抽取模块
具体的,语义特征向量抽取模块主要包括数据预处理模块和一个基于Bert的句向量生成模型。
其中,数据预处理模块指,从《疾病分类代码国家临床版2.0》文件中解析出疾病描述及其对应编码的键值对。
一种示范的存储方式为:
{“伤寒并发腹膜炎”:“A01.000x008”,
“伤寒并发肠穿孔”:“A01.000x009”,...}
其中,Bert是一种在自然语言识别领域经典的预训练语言表征模型。
具体的,在本实施例中,因为涉及的都是对病例名称的表征,故通用领域的Bert基础模型并不适用,需要构造合适的训练集对基础模型进行微调训练。
其中一种可行的训练方法为构造正负样本对,再基于对比学习的思想来微调基座模型。
具体的模型训练步骤如下,
1)准备训练数据
基于上一步骤的预处理结果,可以将具有相同大类编码的疾病描述视作正样本,而非相同大类编码的疾病描述视为负样本。
例如:有两种疾病描述,“伤寒并发腹膜炎”和“伤寒并发肠穿孔”,它们都属于"A01"这一大类,所以它们被标注为正样本。
一种标注数据的存储示例如下,[{“disease_description”:[“伤寒并发腹膜炎”,“伤寒并发肠穿孔”],“label”:“positive”},...]
除此之外,为了增加数据的鲁棒性,可以利用大语言模型极强的文本生成能力对数据进行增强,其中一种可能的提示词为:
在不改变疾病类型本身的基础上,丰富“伤寒并发腹膜炎”的表述方式;
通过使用大语言模型,可以得到的返回结果是:
伤寒合并腹膜炎
伤寒并发腹腔感染
伤寒合并腹腔炎症
这些均可以作为“伤寒并发腹膜炎”的正样本对。
2)微调句向量生成模型
具体的一种微调,是使用对比学习的思想,使用的基座模型是BERT(Bidirectional Encoder Representations from Transformers)模型,BERT是一种基于Transformer的双向语义表示模型。
在本实施例中,使用BERT对医学文本样本对进行编码。首先,将输入的文本样本对转换为BERT可以接受的形式,这通常包括分词、添加特殊的开始和结束标记符,以及进行必要的填充或截断。
给定一个上一步骤得到的,文本样本对(xi,xj),我们可以得到其BERT编码如下:
(1)对每一个输入样本x,首先经过上述预处理步骤得到输入向量xinput;
(2)将xinput输入到BERT模型中,得到每一个词的隐藏状态:
Hx=BERT(xinput)
其中,Hx是一个n*d的矩阵,n是x的词数量,d是BERT模型的隐藏层维度;
(3)对于生成的句向量,取BERT的输出第一个词(即CLS符号)的隐藏状态作为句向量:
vx=Hx[1]
此时输入的样本对(xi,xj)已经转换为句向量对
定义相似性度量函数,即对于两个句向量和/>它们的相似性分数不仅与向量的相似度有关,还与其样本对应的疾病编码的编辑距离相关,具体的一种计算公式为:
假设xi,xj为一对正样本,则:
例如:
xi为伤寒并发腹膜炎,对应的编码为,A01.000x008
xj为伤寒并发肠穿孔,对应的编码为,A01.000x009
假设为0.8,则:
这样定义相似性的计算方法,人为降低了正样本生成向量的相似度,会促使模型针对正样本拟合生成更相似的向量。
假设xi,xk为一对负样本,则
例如:
xi为伤寒并发腹膜炎,对应的编码为,A01.000x008
xk为婴儿沙门菌肠炎,对应的编码为,A02.000x005
假设为0.2,则:
这样定义相似性的计算方法,人为增加了负样本生成向量的相似度,会促使模型针对负样本拟合生成更不相似的向量。
具体的,在实际的训练过程中,每次输入会是一个三元组,即给定一个正样本对(xi,xj)和一个负样本xk,则三元组损失函数可定义为:
L(xi,xj,xk)=max(0,sik-sij+margin)
其中,margin是一个超参数,用于确保模型能够将正负样本对之间的距离拉开一定的差距。
在微调优化过程中,我们需要找出模型参数θ以最小化所有样本对的损失函数的总和,即:
minθ∑(i,j,k)L(xi,xj,xk)
其中,θ是BERT模型的参数。
3)完成训练并保存模型
具体的训练,采用随机梯度下降(SGD)来优化这个损失函数。
完成训练之后,保存新的参数,并存储模型,定义为Bertft,用于后续的推理预测。
具体的,以"伤寒并发腹膜炎"为例,将该疾病名称输入Bertft模型,模型会输出一个维度固定的向量,这个向量包含了"伤寒并发腹膜炎"的语义信息。这一步骤需要对所有的疾病名称进行处理。
2)向量库索引构建及存储模块
该模块的主要执行步骤为,初始化一个FAISS索引库,然后将上一步骤中Bert模型生成的向量(代表每个疾病名称)插入到这个库中。
具体的,以"伤寒并发腹膜炎"为例,该模块会为该名称生成一个唯一标识。这个标识是通过MD5哈希算法生成的,它接收疾病名称作为输入,然后输出一个具有统一长度的哈希值,与上一步骤中生成的向量,一同存储在索引库中。同时建立,编码与哈希值的映射字典,
一种示范的存储方式为:
{“f8ffec57a6f7d533dbb0a06b98f7e7c2”:“A01.000x008”,
“f8ffec29a6f7d533ccs0a06b98f7e89v”:“A01.000x009”,...}
重复这个过程,将所有疾病名称对应的向量都插入到FAISS索引库中,就完成了向量索引库的建设。
步骤二:搭建标准疾病编码粗筛召回模块;获取输入的疾病名称,基于疾病名称从向量库索引库中,召回与疾病名称相关的一组疾病描述及其对应的标准疾病编码映射;
该模块的主要目的是从步骤一所建立的标准疾病编码向量索引库中召回与输入疾病名称最相关的若干个标准疾病名称极其对应映射。该模块主要包括2个部分,即倒排召回模块和语义召回模块。
其中,倒排召回模块对应的具体实现步骤如下:
1)对步骤一中建立的标准疾病编码向量索引库中的所有疾病名称进行分词操作,即将每个疾病名称切分成多个单词或词组。具体的一种分词工具,可以采用jieba工具;
在医学领域的分词处理中,传统的分词工具如jieba并不一定适用,因为它可能会对一些关键疾病词汇进行隔断处理,导致后续召回数据中出现脏数据干扰的问题。另一方面,结合专业的医学词典进行关键词提取是一种可行的方案,但该方案要求维护医学词典的成本较高。
在本示例中,我们将采用基于大语言模型的语义理解能力和丰富的知识库来进行分词处理。通过结合大模型的能力,我们可以更好地从后续疾病分类的角度考虑,对输入句子进行分词处理。
其中一种可能的提示词示范例子如下:
"你现在是一名医生,我希望你从后续疾病分类的角度考虑,对下面这句话进行分词:类脂溢性的脱发病,仅需返回有效的与疾病相关的词汇"。
通过使用大语言模型,我们可以得到以下返回结果:
类脂溢性
脱发病
这样的分词结果避免了停顿词的干扰,准确抽取出与疾病相关的关键词,适合用作后续的索引或进一步的疾病分类。
作为一个可能的大模型选择,ChatGLM-6B是一个开源、支持中英双语的对话语言模型,基于General Language Model(GLM)架构,拥有62亿参数。ChatGLM-6B具备丰富的语义理解能力和知识库,适合用于处理医学领域的问题和任务。
2)构建倒排索引:然后,针对每一个词项,将其在所有疾病名称中出现的位置进行记录,以此建立一个倒排索引。具体来说,倒排索引是一个哈希表,其键是词项,值是一个列表,列表中包含了所有包含该词项的疾病名称及其对应的标准疾病编码。
3)输入处理:当接收到输入的疾病名称时,我们同样对其进行分词操作,并提取出所有的词项。
4)倒排召回:最后,我们利用倒排索引,根据输入疾病名称中的词项,快速查找到包含这些词项的标准疾病名称及其对应的编码。这一步骤的效率非常高,因为我们实际上只需要在哈希表中进行查找即可。将召回的结果记录为集合A。
例如,当前的疾病输入为,“类脂溢性的脱发病”,则一种可能的集合A为:
[匐行性脱发,局限性脱发,药物性雄激素性脱发,雄激素性脱发,早老性脱发,雄激素性脱发,静止期脱发,休止期脱发,再生期脱发,黏蛋白性脱发,牵拉性脱发,生长期脱发,感染后脱发,神经性脱发,脱发,脂溢性脱发,脱发性毛囊炎,瘢痕性脱发,瘢痕性脱发,息肉-色素沉着-脱发-爪甲营养不良综合征]
其中,语义召回模块对应的具体实现步骤如下:
1)将输入疾病名称通过步骤1的语义特征向量抽取模块,输出为固定维度的向量c。
2)利用步骤1搭建的向量索引库,查询与向量c欧式距离最相近的N组向量,并利用存储的id值,找到其对应的疾病名称和编码,构建疾病集合B。
具体的,在本示例中,可以取5,当前的疾病输入为,“类脂溢性的脱发病”,则一种可能的集合B为:
[神经性脱发,脱发,脂溢性脱发,脂溢性湿疹,脂溢性角化病]
取集合A和集合B的并集,作为最终的召回集合C,并找到其编码映射。这样做即考虑了字词层面的相似性,又能同时兼顾语义的相似性。
具体的,在本示例中,最终的召回集合C的一种存储方式为:
{“神经性脱发”:“L65.802”,
“脱发”:“L65.902”,
“脂溢性脱发”:“L65.903”}
步骤三:搭建基于大语言模型的疾病编码分析模块,将输入的疾病名称与召回结果中的疾病描述进行语义匹配,得到匹配的疾病描述对应的标准疾病编码;
该模块的主要目标是搭建一个基于大语言模型(Large Language Model,LLM)的疾病编码分析模块,该模块主要利用LLM的语义理解能力,对输入的疾病名称与粗筛召回模块返回的候选疾病名称进行语义匹配,以寻找最符合的疾病编码。
1)训练数据整理:
首先需要整理和预处理训练数据。具体来说,将从《疾病分类代码国家临床版2.0》收集并标注一系列的示例,每个示例包含一个疾病名称及其对应的标准编码,如"已知伤寒并发腹膜炎的编码为A01.000x008,推理伤寒并发肠穿孔的编码",以及其对应答案"A01.000x009"。这些数据将被用于微调大语言模型,使其能够理解和解决我们的任务。
具体的一种存储示例如下:
[{“prompt”:"已知伤寒并发腹膜炎的编码为A01.000x008/伤寒并发肠穿孔的编码为A01.000x009,推理伤寒并发肠穿孔的编码","answer":"A01.000x009"},
{"prompt":"已知....,推理....的编码","answer":"...."},...]
2)大语言模型微调:
利用上述整理的训练数据对大语言模型进行微调。
在本发明中,具体的一种微调方法是,参数冻结(Freeze),对原始模型部分参数进行冻结操作,仅训练部分参数,就可以对大模型进行训练。
具体来说,我们将训练数据的'prompt'字段作为输入,'answer'字段作为期望的输出,训练模型以在给定已知疾病名称的情况下,正确推理出新的疾病编码。
具体的,本发明所采用的基座大语言模型为chatglm-6B。
其中,ChatGLM-6B是一个开源的、支持中英双语的对话语言模型,基于GeneralLanguage Model(GLM)架构,具有62亿参数。
3)大语言模型推理:
利用步骤1和步骤2,得到的召回集合和新输入的疾病名称构建prompt,并输入到上一步骤训练好的大语言模型之中,推理得到新输入的疾病名称的编码。
具体的,以“类脂溢性的脱发病”为例,召回的集合为:
{“神经性脱发”:“L65.802”,
“脱发”:“L65.902”,
“脂溢性脱发”:“L65.903”}
则对应的,prompt为:
“已知神经性脱发的编码为L65.802/脱发的编码为L65.902/脂溢性脱发的编码为L65.903,推理类脂溢性的脱发病的编码”
则得到answer即为对应的映射编码。
与前述一种基于大语言模型推理的医学疾病编码映射方法的实施例相对应,本发明还提供了一种基于大语言模型推理的医学疾病编码映射装置的实施例。
参见图2,本发明实施例提供的一种基于大语言模型推理的医学疾病编码映射装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种基于大语言模型推理的医学疾病编码映射方法。
本发明一种基于大语言模型推理的医学疾病编码映射装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本发明一种基于大语言模型推理的医学疾病编码映射装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于大语言模型推理的医学疾病编码映射方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于模型推理的编码映射方法,其特征在于包括如下步骤:
步骤S1:搭建标准文本编码的向量索引库,从标准文本中解析出文本描述及其对应的标准编码,并对文本描述向量化,构建向量索引库;
步骤S2:获取输入的文本信息,基于文本信息从向量库索引库中,召回与文本信息相关的一组文本描述及其对应的标准编码映射;
步骤S3:搭建基于神经网络模型的编码分析模块,将输入的文本信息与召回结果中的文本描述进行语义匹配,得到匹配的文本描述对应的标准编码。
2.根据权利要求1所述的一种基于模型推理的编码映射方法,其特征在于:所述步骤S1中的文本描述向量化,是通过文本描述构建其正负样本对,将具有相同大类标准编码的文本描述作为正样本,非相同大类标准编码的文本描述作为负样本,基于对比学习微调预训练语言表征模型,以降低一对正样本生成向量的相似度,增加一对正、负样本生成向量的相似度。
3.根据权利要求2所述的一种基于模型推理的编码映射方法,其特征在于:所述样本的相似度,是基于样本对的编码距离与其编码长度平均值的比值,当样本对为一对正样本时,将该对正样本的余弦距离减去器对应的所述比值,当样本对为一对负样本时,将该对负样本的余弦距离加上其对应的所述比值。
4.根据权利要求3所述的一种基于模型推理的编码映射方法,其特征在于:所述预训练语言表征模型,基于一对正样本和一个负样本的三元组,构建三元组损失函数:
L(xi,xj,xk)=max(0,sik-sij+margin)
其中,xi,xj表示一对正样本,xk表示负样本,sik表示一对负样本对应的所述比值,sij表示一对正样本对应的所述比值,margin表示超参数,用于拉开正负样本对之间的距离;
微调预训练语言表征模型,找出模型参数θ,以最小化所有样本对的损失函数的总和:
minθ∑(i,j,k)L(xi,xj,xk)
其中,θ表示预训练语言表征模型的参数。
5.根据权利要求1所述的一种基于模型推理的编码映射方法,其特征在于:所述步骤S2中的召回包括倒排召回,召回步骤如下:
步骤S2.1.1:对向量索引库中的文本描述进行分词操作;
步骤S2.1.2:记录每个词项在所有文本描述中出现的位置,以此建立倒排索引;
步骤S2.1.3:获取输入的文本信息,并提取其词项;
步骤S2.1.4:利用倒排索引,根据输入文本信息的词项,查找包含该词项的文本描述及其对应的标准编码,得到召回结果。
6.根据权利要求5所述的一种基于模型推理的编码映射方法,其特征在于:所述步骤S1中的向量库,是基于文本描述生成哈希值,将哈希值作为唯一标识与文本描述对应的向量一起构建向量库;所述步骤S2.2中,倒排索引为一个哈希表,其键为词项,值是一个列表,列表中包含所有包含该此项的文本描述及其对应的标准编码;所述步骤S2.4中,在哈希表中查找输入文本信息的词项对应的文本描述及其标准编码。
7.根据权利要求1所述的一种基于模型推理的编码映射方法,其特征在于:所述步骤S2中的召回包括语义召回,召回步骤如下:
步骤S2.2.1:对输入的文本信息向量化,得到向量c;
步骤S2.2.2:从向量索引库中,查找与向量c距离最近的一组向量,找到对应的文本描述及标准编码,得到召回结果。
8.根据权利要求1所述的一种基于模型推理的编码映射方法,其特征在于:所述步骤S3包括如下步骤:
步骤S3.1:整理和预处理训练数据,从标准文本中收集并标注一系列示例,示例为包含文本信息的提示字段及其对应的标准编码的答案字段;
步骤S3.2:利用所述训练数据对模型进行微调,将训练数据中的提示字段作为输入,对应的答案字段作为输出;
步骤S3.3:模型推理;基于所述召回结果和输入的文本信息,构建提示字段,并输入微调后的模型,得到的答案字段即为映射的标准编码。
9.一种基于大语言模型推理的医学疾病编码映射方法,其特征在于包括如下步骤:
步骤一:搭建标准疾病编码的向量索引库,从标准疾病编码文件中解析出疾病描述及其对应标准编码的键值对,并对疾病描述向量化;
步骤二:获取输入的疾病名称,基于疾病名称从向量库索引库中,召回与疾病名称相关的一组疾病描述及其对应的标准疾病编码映射;
步骤三:搭建基于大语言模型的编码分析模块,将输入的疾病名称与召回结果中的疾病描述进行语义匹配,得到匹配的疾病描述对应的标准疾病编码。
10.一种基于大语言模型推理的医学疾病编码映射装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求9所述的一种基于大语言模型推理的医学疾病编码映射方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002567.8A CN117235275A (zh) | 2023-08-10 | 2023-08-10 | 一种基于大语言模型推理的医学疾病编码映射方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002567.8A CN117235275A (zh) | 2023-08-10 | 2023-08-10 | 一种基于大语言模型推理的医学疾病编码映射方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117235275A true CN117235275A (zh) | 2023-12-15 |
Family
ID=89095631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311002567.8A Pending CN117235275A (zh) | 2023-08-10 | 2023-08-10 | 一种基于大语言模型推理的医学疾病编码映射方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235275A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831790A (zh) * | 2024-03-06 | 2024-04-05 | 北方健康医疗大数据科技有限公司 | 一种面向医疗诊断的辅助编码方法、系统、终端及介质 |
CN118277573A (zh) * | 2024-05-31 | 2024-07-02 | 河北工程大学 | 基于ChatGLM模型的院前急救文本分类标注方法、电子设备、存储介质及计算机程序产品 |
-
2023
- 2023-08-10 CN CN202311002567.8A patent/CN117235275A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831790A (zh) * | 2024-03-06 | 2024-04-05 | 北方健康医疗大数据科技有限公司 | 一种面向医疗诊断的辅助编码方法、系统、终端及介质 |
CN117831790B (zh) * | 2024-03-06 | 2024-07-05 | 北方健康医疗大数据科技有限公司 | 一种面向医疗诊断的辅助编码方法、系统、终端及介质 |
CN118277573A (zh) * | 2024-05-31 | 2024-07-02 | 河北工程大学 | 基于ChatGLM模型的院前急救文本分类标注方法、电子设备、存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021139424A1 (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN117235275A (zh) | 一种基于大语言模型推理的医学疾病编码映射方法及装置 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN112257422B (zh) | 命名实体归一化处理方法、装置、电子设备及存储介质 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN111126040B (zh) | 一种基于深度边界组合的生物医学命名实体识别方法 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN116821168A (zh) | 一种改进的基于生成式大语言模型的nl2sql方法 | |
CN111026877A (zh) | 基于概率软逻辑的知识验证模型构建与分析方法 | |
CN113033183A (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN115879473A (zh) | 基于改进图注意力网络的中文医疗命名实体识别方法 | |
CN116341546A (zh) | 一种基于预训练模型的医学自然语言处理方法 | |
Wu et al. | WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference | |
CN115630649B (zh) | 一种基于生成模型的医学中文命名实体识别方法 | |
CN113130025B (zh) | 一种实体关系抽取方法、终端设备及计算机可读存储介质 | |
CN114676700B (zh) | 基于混合多原型的小样本命名实体识别方法 | |
CN111651569A (zh) | 一种电力领域的知识库问答方法及系统 | |
CN117854715B (zh) | 基于问诊分析的智能助诊系统 | |
CN112926323A (zh) | 基于多级残差卷积与注意力机制的中文命名实体识别方法 | |
CN118016224A (zh) | 一种基于医疗大数据平台的智能病例分析辅助系统 | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
Patsiouras et al. | Greekpolitics: Sentiment analysis on greek politically charged tweets | |
CN114637852B (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |