CN110427493B - 电子病历处理方法、模型训练方法及相关装置 - Google Patents
电子病历处理方法、模型训练方法及相关装置 Download PDFInfo
- Publication number
- CN110427493B CN110427493B CN201910625921.XA CN201910625921A CN110427493B CN 110427493 B CN110427493 B CN 110427493B CN 201910625921 A CN201910625921 A CN 201910625921A CN 110427493 B CN110427493 B CN 110427493B
- Authority
- CN
- China
- Prior art keywords
- sequence
- output
- coding
- layer
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Bioethics (AREA)
- Pathology (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提出一种电子病历处理方法、模型训练方法及相关装置,涉及自然语言处理技术领域,通过基于卷积算法、Attention机制和前馈神经网络算法构建的语义连接网络,利用该语义连接网络对训练样本序列进行处理,以学习训练样本序列的深层语义信息后,将得到的语义标注序列作为第二前馈神经网络的输入,从而得到训练样本序列对应的初始预测结果,然后基于概率转移机制对初始预测结果进行更新,得到更为精确的更新预测结果,进而基于更新预测结果和训练样本序列对应的训练标注结果,更新序列标注网络模型的模型参数,相比于现有技术,使序列标注网络模型能够充分学习到样本序列的深层语义信息及长距离特征信息,能够提升序列标注的准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种电子病历处理方法、模型训练方法及相关装置。
背景技术
序列标注任务是自然语言处理(Natural Language Processing,NLP)中较为重要的一类任务,尤其在自然语言序列、时间序列等任务中较为常见,比如分词任务、实体识别任务、时间序列任务、词性标注任务等等,都可以归类为序列标注任务的应用场景。
然而,目标用于解决序列标注任务的方案中,由于难以学习到序列的深层语义含义,导致序列标注的准确度往往较低。
发明内容
本申请的目的在于提供一种电子病历处理方法、模型训练方法及相关装置,能够提升序列标注的准确度。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种序列标注网络模型训练方法,所述方法包括:
获得训练样本序列及所述训练样本序列对应的训练标注结果;
利用语义连接网络对所述训练样本序列进行处理,得到语义标注序列;其中,所述语义连接网络包括M个依次串联的编码模块,每一所述编码模块包括多卷积层、注意力Attention层和第一前馈神经网络层;所述多卷积层、所述Attention层和所述第一前馈神经网络层共同用于对所述训练样本序列进行编码学习得到所述语义标注序列,M为正整数;
将所述语义标注序列作为第二前馈神经网络的输入,经处理后得到所述训练样本序列对应的初始预测结果;
根据概率转移矩阵对所述初始预测结果进行更新,得到所述训练样本序列对应的更新预测结果;
基于所述更新预测结果及所述训练标注结果,更新所述序列标注网络模型的模型参数。
第二方面,本申请实施例提供一种电子病历处理方法,所述方法包括:
获得接收的电子病历文本中包含的多个待识别序列;
将每一所述待识别序列输入至利用上述的序列标注网络模型训练方法更新模型参数后的序列标注网络模型并进行处理,得到每一所述待识别序列对应的预测实体标注序列;
根据所有所述预测实体标注序列,生成所述电子病历文本对应的医学知识图谱。
第三方面,本申请实施例提供一种序列标注网络模型训练装置,所述装置包括:
第一处理模块,用于获得训练样本序列及所述训练样本序列对应的训练标注结果;
所述第一处理模块还用于,利用语义连接网络对所述训练样本序列进行处理,得到语义标注序列;其中,所述语义连接网络包括M个依次串联的编码模块,每一所述编码模块包括多卷积层、注意力Attention层和第一前馈神经网络层;所述多卷积层、所述Attention层和所述第一前馈神经网络层共同用于对所述训练样本序列进行编码学习得到所述语义标注序列,M为正整数;
所述第一处理模块还用于,将所述语义标注序列作为第二前馈神经网络的输入,经处理后得到所述训练样本序列对应的初始预测结果;
所述第一处理模块还用于,根据概率转移矩阵对所述初始预测结果进行更新,得到所述训练样本序列对应的更新预测结果;
参数更新模块,用于基于所述更新预测结果及所述训练标注结果,更新所述序列标注网络模型的模型参数。
第四方面,本申请实施例提供一种电子病历处理装置,所述装置包括:
第二处理模块,用于获得接收的电子病历文本中包含的多个待识别序列;
实体标注模块,用于将每一所述待识别序列输入至利用上述的序列标注网络模型训练方法更新模型参数后的序列标注网络模型并进行处理,得到每一所述待识别序列对应的预测实体标注序列;
所述第二处理模块还用于,根据所有所述预测实体标注序列,生成所述电子病历文本对应的医学知识图谱。
第五方面,本申请实施例提供一种电子设备,所述电子设备包括存储器,用于存储一个或多个程序;处理器。当所述一个或多个程序被所述处理器执行时,实现上述的序列标注网络模型训练方法或电子病历处理方法。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的序列标注网络模型训练方法或电子病历处理方法。
本申请实施例提供的一种电子病历处理方法、模型训练方法及相关装置,通过基于卷积算法、Attention机制和前馈神经网络算法构建的语义连接网络,利用该语义连接网络对训练样本序列进行处理,以学习训练样本序列的深层语义信息后,将得到的语义标注序列作为第二前馈神经网络的输入,从而得到训练样本序列对应的初始预测结果,然后基于概率转移机制对初始预测结果进行更新,得到更为精确的更新预测结果,进而基于更新预测结果和训练样本序列对应的训练标注结果,更新序列标注网络模型的模型参数,相比于现有技术,使序列标注网络模型能够充分学习到样本序列的深层语义信息及长距离特征信息,能够提升序列标注的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请一实施例提供的电子设备的一种示意性结构框图;
图2为本申请一实施例提供的序列标注网络模型训练方法的一种示意性流程图;
图3为一种序列标注网络模型的示意性结构图;
图4为图3中语义标注网络的一种示意性结构图;
图5为图4中编码模块的一种示意性结构图;
图6为图5中卷积层的一种示意性结构图;
图7为本申请一实施例提供的电子病历处理方法的一种示意性流程图;
图8为本申请一实施例提供的序列标注网络模型训练装置的一种示意性结构图;
图9为本申请一实施例提供的电子病历处理装置的一种示意性结构图。
图中:100-电子设备;101-存储器;102-处理器;103-通信接口;400-序列标注网络模型训练装置;401-第一处理模块;402-参数更新模块;500-电子病历处理装置;501-第二处理模块;502-实体标注模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在例如上述的序列标注任务的应用场景中,传统的算法一般采用隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(conditional random field,CRF)等基于统计概率学的方式进行序列标注;但由于传统的算法需要手工寻找样本的特征,并添加重要的外部特征,效率低且无法克服长距离依赖问题。
随着机器学习技术的发展,一部分深度学习算法也被用于解决序列标注任务,比如LSTM(Long Short-Term Memory,长短期记忆网络)模型、BiLSTM(Bi-directional LongShort-Term Memory,双向长短期记忆网络)模型、在LSTM模型的基础上添加概率转移机制的LSTM-CRF模型、在BiLSTM模型的基础上添加概率转移机制的BiLSTM-CRF模型等等。
尽管相比于传统的基于统计概率学的算法,深度学习方法是端到端的,不需要手工的寻找样本的特征,解决了效率低的问题,但由当序列长度较长时,依然存在长距离依赖的问题,无法学习到序列深层的语义信息,从而导致序列标注的准确度往往较低。
因此,基于上述缺陷,本申请实施例提供的一种可能的实现方式为:通过基于卷积算法、Attention机制和前馈神经网络算法构建的语义连接网络,利用该语义连接网络对训练样本序列进行处理,以学习训练样本序列的深层语义信息后,再利用语义连接网络输出的语义标注序列对序列标注网络模型的模型参数,从而使序列标注网络模型能够学习到样本的深层语义信息。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1为本申请一实施例提供的电子设备100的一种示意性结构框图,该电子设备100可作为训练序列标注网络模型、以实现本申请实施例提供的序列标注网络模型训练方法、或者是实现本申请实施例提供的电子病历处理方法的设备,比如但手机、个人电脑(personal computer,PC)、平板电脑、服务器等等。
其中,电子设备100包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
存储器101可用于存储软件程序及模块,如本申请实施例提供的序列标注网络模型训练装置400或者是电子病历处理装置500对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,电子设备100还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
下面以图1所示的电子设备100作为示意性执行主体、词性标注任务为例,对本申请实施例提供的序列标注网络模型训练方法进行进一步说明。
请参阅图2,图2为本申请一实施例提供的序列标注网络模型训练方法的一种示意性流程图,包括以下步骤:
S201,获得训练样本序列及训练样本序列对应的训练标注结果;
S203,利用语义连接网络对训练样本序列进行处理,得到语义标注序列;
S205,将语义标注序列作为第二前馈神经网络的输入,经处理后得到训练样本序列对应的初始预测结果;
S207,根据概率转移矩阵对初始预测结果进行更新,得到训练样本序列对应的更新预测结果;
S209,基于更新预测结果及训练标注结果,更新序列标注网络模型的模型参数。
训练序列标注网络模型时,需要执行S201以获得训练样本序列及该训练样本序列对应的训练标注结果,其中,训练样本序列用于序列标注网络模型学习深层的语义信息,训练标注结果为该训练样本序列的人工标注结果,表征的是用户期望该序列标注网络模型预测得到的目标标注结果。
比如,示例性地,对于实体识别任务,假定实体包括人名、地名、组织机构名,标签集有{per_B,per_I,loc_B,loc_I,org_B,org_I,0},per_B表示人名的开始,per_I表示人名的中间或者结束,loc_B表示地名的开始,loc_I表示地名的中间或结束,org_B表示组织机构名的开始,org_I表示组织机构名的中间或结束,0表示非实体;训练样本序列为“有心无力的晨岛队只靠高峰扳回一球。”,对应的训练标注结果则为“有/0心/0无/0力/0的/0晨/org_B岛/org_I队/org_I只/0靠/0高/pre_B峰/pre_I扳/0回/0一/0球/0”。
其中,本申请实施例所训练的序列标注网络模型可以存在多种结构,并且,由于深度学习模型在进行序列标注时,一般需要将样本序列向量化,然后对向量化后的序列进行处理,以进行序列标注任务。因此,示例性地,请参阅图3,图3为一种序列标注网络模型的示意性结构图,该序列标注网络模型可以包括初始特征层(initial features layer)、语义连接(semantic-connect)、第二前馈神经网络和基于概率转移机制的CRF。
基于该序列标注网络模型,下面对本申请实施例提供的序列标注网络模型训练方法的各个步骤进行示例性说明。
在如图3所示的序列标注网络模型中,初始特征层用于将训练样本序列向量化,以便于后续的语义连接层、第二前馈神经网络层及CRF层等对样本序列进行处理。
其中,作为一种可能的实现方式,初始特征层在向量化该训练样本序列时,可以通过在电子设备100内存储特征向量表的方式进行实现。
示例性地,电子设备内存储的特征向量表为多个字所对应的向量的集合,比如,特征向量表的每一列所有元素的集合,均代表一个字。
因此,假定训练样本序列表示为(xi,yi),且序列xi的长度为n,即xi=(xi1,xi2,…,xin),yi的类别个数为n_classes,则yi=(y1,y2,…,yn_classes);则在向量化该训练样本序列时,可以根据查找每个字在该特征向量表中对应的列位置,进而将训练样本序列中每个字各自均向量化。
示例性地,假定该特征向量表每一列包括n_dim个元素,且向量化后的训练样本序列表示为e1、e2、…、en,et∈Rn_dim,t=1,2,…,n。
由此,将向量化后的训练样本序列作为如图3中的语义连接网络的输入,进而执行S203利用语义连接网络对该训练样本序列进行处理,得到语义标注序列。
其中,该语义连接网络包括M个依次串联的编码模块(Encoder Block),M为正整数;每一编码模块包括多卷积层、基于注意力机制的Attention层和第一前馈神经网络层;语义连接网络处理训练样本序列以学习深层语义信息时,多卷积层、Attention层、第一前馈神经网络层共同用于对训练样本序列进行编码学习,进而得到语义连接网络输出的语义标注序列。
需要说明的是,M个依次串联的编码模块可以有多种工作模式,示例性地,作为一种可能的实现方式,请参阅图4,图4为图3中语义标注网络的一种示意性结构图,若M大于1,比如图4所示的包含4层编码模块的语义连接网络结构,在执行S203时,可以将M个依次串联的编码模块中,第N个编码模块之前的N-1个编码模块各自的编码输出序列进行合并后得到的集合,作为第N个编码模块的编码输入序列,从而使第N个编码模块对自己的编码输入序列进行处理,得到第N个编码模块的编码输出序列。
其中,N小于或等于M,且N为大于1的整数;另外,如图4所示,语义连接网络包含的M个依次串联的编码模块中第一个编码模块的编码输入序列为训练样本序列,且M个依次串联的编码模块中所有编码模块各自输出的编码输出序列进行合并后得到的集合,为整个语义连接网络输出的语义标注序列。
也就是说,假定语义连接网络中每个编码模块各自输出的编码输出序列对应的序列向量分别表示为: 每个编码模块各自输入的编码输入序列对应的序列向量表示为: 假定编码模块输出的序列向量长度为h,且上述初始特征层的输出序列向量表示为e1、e2、…、en,则有:
式中,EncoderBlock表示编码模块的计算公式,[]表示向量的合并操作,比如a=(1,2,3),b=(4,5,6),则[a,b]=(1,2,3,4,5,6)。
比如在如图4所示的4层网络结构中,第一个编码模块的编码输入序列为训练样本序列;第二个编码模块的编码输入序列为第一个编码模块的编码输出序列;第三个编码模块的编码输入序列为第一个编码模块的编码输出序列与第二编码模块的编码输出序列两者合并后的集合;第四个编码模块的编码输入序列为第一个编码模块的编码输出序列、第二个编码模块的编码输出序列、以及第三个编码模块的编码输出序列三者合并后的集合;且第一个编码模块的编码输出序列、第二个编码模块的编码输出序列、第三个编码模块的编码输出序列、以及第四个编码模块的编码输出序列四者合并后的集合则为该语义连接网络输出的语义标注序列。
也就是说,在本申请实施例中,每一层编码模块均在之前所有编码模块学习到的所有语义信息的基础上,进一步进行学习,比如第N个编码模块学习的序列,为第N个编码模块之前的N-1个编码模块所有已学习的语义信息各自的序列集合,从而使语义连接网络能够充分学习到训练样本序列的深层语义信息。
另外,示例性地,为使语义连接网络能够尽可能多的学习训练样本序列的深层语义信息,又能尽量的减少序列标注时的计算量,作为一种可能的实现方式,本申请实施例可以设置2个或者3个依次串联的编码模块构成语义连接网络。
当然,可以理解的是,上述仅为示意,以2个或者3个依次串联的编码模块构成语义连接网络,本申请实施例其他一些可能的应用场景中,还可以设置更多个编码模块串联后,构成该语义连接网络,比如4个、5个甚至更多,这取决于具体的应用场景或者是用户的设置而定,本申请实施例对此不进行限定。
另一方面,若M等于1,即语义连接网络只包含有1个编码模块,则在执行S203时,可以将训练样本序列作为编码模块的输入并进行处理,得到输出序列即为语义标注序列。
需要说明的是,上述M大于1的工作模式一般适用于需要堆叠多层语义的应用场景,即需要多个堆叠多层编码模块共同对训练样本进行学习;而在M等于1的工作模式中,尽管此时已经失去了语义连接的框架(即没有堆叠多层语义连接),但由于语义较为简单,不需要堆叠多个编码模块,而仅需要1个编码模块即能够达到所需的效果。
另外,基于每一编码模块包括的多卷积层、Attention层和第一前馈神经网络层,作为一种可能的实现方式,请参阅图5,图5为图4中编码模块的一种示意性结构图,多卷积层、Attention层和第一前馈神经网络层可以依次串联的方式构成编码模块。
其中,编码模块具体在学习时,结合图5所示,首先利用多卷积层对编码输入序列进行处理,得到卷积输出序列;然后利用Attention层对卷积输出序列进行处理,并可以采用例如残差连接网络(ResNet)等方式,将处理后得到的结果与卷积输出序列进行相加,得到注意力输出序列;再由第一前馈神经网络层对注意力输出序列进行处理,并将处理后得到的结果与注意力输出序列相加,得到编码输出序列。
其中,示例性地,多卷积层包括多个依次串联的卷积层,每一卷积层输入的输入序列均为相邻的上一卷积层输出的输出序列;且输入多卷积层中第一个卷积层的输入序列为编码输入序列,卷积输出序列则为多卷积层中最后一个卷积层输出的输出序列。
比如在如图5所示的示意图中,假定多卷积层由4个卷积层依次串联构成,则该多卷积层在对训练样本序列进行编码学习时,第一个卷积层输入的输入序列为所属编码模块的编码输入序列;第二个卷积层输入的输入序列为第一个卷积层输出的输出序列;第三个卷积层输入的输入序列则为第二个卷积层输出的输出序列;第四个卷积层输入的输入序列则为第三个卷积层输出的输出序列,且第四个卷积层输出的输出序列为多卷积层输出的卷积输出序列。
另外,为实现上述卷积层的处理过程,卷积层可以基于归一化算法、深度可分离卷积算法(depthwise conv and pointwise conv)、残差连接网络以及紧缩激励网络(Squeeze and Excitation Network,SEnet)构建。
可选地,请参阅图6,图6为图5中卷积层的一种示意性结构图,作为一种可能的实现方式,卷积层可以包括第一归一化层、深度可分离卷积层以及SEnet层。
其中,卷积层输入的输入序列,由第一归一化层对该输入的输入序列进行处理后,得到第一归一化输出序列,以利于模型的训练收敛。
然后,由深度可分离卷积层对第一归一化输出序列进行处理,得到分离卷积输出序列,以减少模型的参数。其中,为缓解卷积神经网络梯度消失的情况,可以基于例如残差连接网络等方式,利用残差连接机制将分离卷积输出序列与输入的输入序列相加,将相加后得到的序列之和作为中间卷积输出序列。
另一方面,利用SEnet层对输入的输入序列进行处理,得到SE输出序列,以学习各个通道之间的相互关系,进而再由SE输出序列与中间卷积输出序列进行叉乘运算,得到卷积层输出的输出序列。
也就是说,假定卷积层输入的输入序列对应的序列向量表示为I1、I2、…、In,It∈Rl,卷积层输出的输出序列对应的序列向量表示为O1、O2、…、On,SEnet输出的SE输出序列对应的序列向量表示为M,第一归一化层输出的第一归一化输出序列对应的序列向量表示为G,则有:
G=[layernorm(It-1),layernorm(It),layernorm(It+1)];
M=sig mod(RELU(Max([I1,I2,…,In],axis=0)W1+b1)W2+b2);
式中,Max([I1,I2,…,In],axis=0)表示对矩阵[I1,I2,…,In]按列求取最大值,其维度为R1×l;W1∈Rl×l16,b1∈Rl/16,W2∈Rl/16×l,b2∈Rl,M∈R1×l;W、B、W1、b1、W2、b2均为需要学习的参数;表示叉乘运算,即两个矩阵相互对应位置进行相乘。
另一方面,对于如图5中的Attention层,作为一种可能的实现方式,Attention层可以基于归一化算法和多头注意力机制(Multi-headed attention)进行构建,即如图5所示,Attention层可以包括第二归一化层和多头注意力层,第二归一化层用于对卷积输出序列进行处理,得到第二归一化输出序列;再由多头注意力层对第二归一化输出序列进行处理,得到多头输出序列;另外,在Attention层中同样可以引入残差连接机制,将多头输出序列与卷积输出序列相加,并将相加后得到的序列之和作为Attention层输出的注意力输出序列。
其中,作为一种可能的实现方式,多头注意力层可以基于自注意力机制(Self-attention Mechanism)进行构建,通过并联设置多个基于自注意力机制构建的Attention单元,且任意两个Attention单元不共享参数。
由此,多头注意力层在进行计算以输出多头输出序列时,每一Attention单元均对第二归一化输出序列进行处理,得到每一Attention单元各自输出的输出序列,进而再将多头注意力层中所有Attention单元各自输出的输出序列进行合并,将合并后得到的集合作为多头输出序列。
比如,假定多头注意力层包括有4个并联的Attention单元,且任意两个Attention单元不共享参数;每一个Attention单元均对第二归一化层输出的第二归一化输出序列进行处理,并各自得到输出序列;然后再将4个Attention单元各自输出的输出序列进行合并,进而将4个Attention单元各自输出的输出序列进行合并后的集合,作为多头注意力层输出的多头输出序列。
也就是说,假定Attention单元的计算公式表示为:
且假定,第二归一化层对卷积输出序列进行处理后,得到的结果表示为O=(O1、O2、…、On),则多头注意力层中第i个Attention单元输出的输出序列表示为:
headi=Attention(OWi Q,OWi K,OWi V);
式中,Wi Q、Wi K及Wi V分别第i个Attention单元的Q参数、K参数及V参数。
因此,将多头注意力层中所有Attention单元各自输出的输出序列进行合并后,得到的多头输出序列MultiHead(O,O,O)表示为:
MultiHead(O,O,O)=concat(head1,head2,…,headm);
式中,concat()表示矩阵的合并运算。
并且,为实现上述第一前馈神经网络层的计算过程,另外,为实现上述卷积层的处理过程,第一前馈神经网络层同样可以基于归一化算法并结合前馈神经网络算法进行实现;即如图5所示,作为一种可能的实现方式,本申请实施例中的第一前馈神经网络层包括第三归一化层和编码前馈神经网络层。
其中,第三归一化层用于对注意力输出序列进行处理,得到第三归一化输出序列;而编码前馈神经网络层为基于前馈神经网络算法构建,用于对第三归一化输出序列进行处理,得到编码前馈输出序列,进而将编码前馈输出序列与注意力输出序列相加,并将相加后得到的序列之和作为编码输出序列。
因此,总结上述计算过程,则编码模块的计算公式可简记为:
O=EncodeBlock(I)。
由此,基于上述计算过程得到的语义标注序列对应的序列向量通过执行S205,将该语义标注序列对应的序列向量作为图3中第二前馈神经网络的输入,由第二前馈神经网络对语义标注序列对应的序列向量进行学习,经处理后得到该训练样本序列对应的初始预测结果。
示例性地,假定第二前馈神经网络的输出序列向量表示为o1、o2、…、on,则:
式中,Wt和bt均为需要学习的参数,且Wt∈Rkh×n_classes,bt∈Rn_classes,ot∈Rn_classes,t=1,2,…,n。
由于ot的向量长度为n_classes,ot=(ot1,ot2,…,otn_classes),即可能存在有种结果n_classes,比如上述示例的标签集{per_B,per_I,loc_B,loc_I,org_B,org_I,0}中共有7个结果,其中,otk代表样本xi的第t个元素xit被预测为yk的概率,即p(xit=yk)=otk,因此,对于给定样本xi=(xi1,xi2,…,xin),其预测的任意标签序列yi=(yi1,yi2,…,yin)的初始得分如下:
其中,上式的隐含的假设为:yil与yik是相互独立的,l=1,2,…,n;k=1,2,…,n;且n≠k。
另外,本申请实施例为了提高序列标注的精度,在序列标注网络模型中引入概率转移机制,比如在如图3所示的序列标注网络模型结构中,引入基于概率转移机制的CRF层,以执行S207,利用概率转移矩阵对初始预测结果进行更新,从而得到序列标注更为精确的训练样本对应的更新预测结果。
其中,假定概率转移矩阵表示为A,A∈R(n_classes+2)×(n_classes+2),且A中的Aij代表将标签yi转移到yj的概率,即:Aij=p(yit=yj|yit-1=yi);比如在上述实体识别任务中,标签per_B转移到标签org_I的概率即为0。
因此,对于给定样本xi=(xi1,xi2,…,xin),其预测的任意标签序列yi=(yi1,yi2,…,yin)的转移得分如下:
式中,yi0和yin+1分别表示序列的起始(start)和结束(end),上式中隐含的假设条件为:yit只与前一个状态yit-1有关,即:
p(yit|yi1,yi2,…,yit-1)=p(yit|yit-1),
因此,对于给定样本xi=(xi1,xi2,…,xin),对初始预测结果进行更新后得到的更新预测结果中,其预测的任意标签序列yi=(yi1,yi2,…,yin)总得分如下:
由此,根据上述获得的更新预测结果,执行S209,基于该更新预测结果及训练样本序列对应的训练标注结果,更新该序列标注网络模型的模型参数。
示例性地,对于给定的样本{xi,yi},i=1,2,…,N,则损失函数可以表示为:
因此,基于该计算得到的损失函数,可以利用梯度下降算法,最小化该损失函数的值,从而更新该序列标注网络模型的模型参数。
可见,基于上述设计,本申请实施例提供的一种序列标注网络模型训练方法,通过基于卷积算法、Attention机制和前馈神经网络算法构建的语义连接网络,利用该语义连接网络对训练样本序列进行处理,以学习训练样本序列的深层语义信息后,将得到的语义标注序列作为第二前馈神经网络的输入,从而得到训练样本序列对应的初始预测结果,然后基于概率转移机制对初始预测结果进行更新,得到更为精确的更新预测结果,进而基于更新预测结果和训练样本序列对应的训练标注结果,更新序列标注网络模型的模型参数,相比于现有技术,使序列标注网络模型能够充分学习到样本序列的深层语义信息及长距离特征信息,能够提升序列标注的准确度。
利用上述的序列标注网络模型训练方法完成训练后的序列标注网络模型,可以在例如机器翻译、智能问答系统、构建医学知识图谱等应用场景中,被用于执行多种序列标注任务,比如分词任务、实体识别任务、时间序列任务、词性标注任务等。
作为一种示例性应用场景,随着电子化医疗系统的迅速普及,大量医疗相关的信息以电子病历(Electronic Medical Records,EMR)的形式被保存下来;利用机器学习技术,可以对电子病历进行分析和挖掘,从而获取大量的医疗知识;可以将这些获取到的医疗知识应用于临床决策支持和个性化医疗健康信息服务等方面,以辅助人们进行治疗。
下面以利用上述序列标注网络模型训练方法完成训练后的序列标注网络模型,应用于电子病历的命名实体识别为例,对本申请实施例提供的一种电子病历处理方法进行示例性描述。
请参阅图7,图7为本申请一实施例提供的电子病历处理方法的一种示意性流程图,包括以下步骤:
S301,获得接收的电子病历文本中包含的多个待识别序列;
S303,将每一待识别序列输入至利用上述的序列标注网络模型训练方法更新模型参数后的序列标注网络模型并进行处理,得到每一待识别序列对应的预测实体标注序列;
S305,根据所有预测实体标注序列,生成电子病历文本对应的医学知识图谱。
通常,电子病历中定义的实体一般有4类,包括疾病(disease)、检查(test)、症状(symptom)、治疗(treatment),比如“确诊左肺腺癌3月,拟行第三次化疗。”,其中“左肺腺癌”是疾病,“化疗”是治疗;又比如“查体:双肺叩诊呈清音。”,其中“双肺叩诊”是检查,“清音”是症状。对电子病历进行命名实体识别的目的即为能够自动的从电子病历中抽取出疾病、检查、症状、治疗。
但在具体命名实体识别时,由于电子病历一般较长,而过长的序列可能会导致运行速度慢、准确度不高等问题,因此,在命名实体识别前,一般需要将接收的电子病历文本进行分句,从而获得电子病历文本中包含的多个待识别序列。
其中,作为一种可能的实现方式,分句的方式可以基于电子病历文本中的标点符号进行,比如出现句号或者是分号等则进行分句。示例性地,假定以句号为基准进行分句,接收的电子病历文本为:“患者因“左侧胸壁胀痛2月余”于2016-8-5入院。入院查体:胸部:胸廓正常,胸骨无叩痛。”,则分句后获得的多个待识别序列包括“患者因“左侧胸壁胀痛2月余”于2016-8-5入院。”和“入院查体:胸部:胸廓正常,胸骨无叩痛。”
然后,基于上述序列标注网络模型训练方式训练完成的序列标注网络模型,将获得的每一待识别序列均输入至该序列标注网络模型并进行处理,从而得到每一待识别序列对应的预测实体标注序列。每一预测实体标注序列包含对应的待识别序列中每个词的实体信息。在电子病历处理的应用场景中,由于实体类别一般包括疾病(disease)、检查(test)、症状(symptom)、治疗(treatment);因此,对电子病历文本进行命名实体识别后,电子病历文本每个词的实体信息一般为disease-B、disease-I、disease-E、disease-S、test-B、test-I、test-E、test-S、symptom-B、symptom-I、symptom-E、symptom-S、treatment-B、treatment-I、treatment-E、treatment–S、O。
其中,disease-B、disease-I、disease-E、disease-S分别表示疾病的开始字符、疾病的中间字符、疾病的结束字符、单字词疾病;test-B、test-I、test-E、test-S分别表示检查的开始字符、检查的中间字符、检查的结束字符、单字词检查;symptom-B、symptom-I、symptom-E、symptom-S分别表示症状的开始字符、症状的中间字符、症状的结束字符、单字词症状;treatment-B、treatment-I、treatment-E、treatment–S分别表示治疗的开始字符、治疗的中间字符、治疗的结束字符、单字词治疗;O表示非实体。
假定待识别序列表示为xnew,例如在上述示例中,xnew=“患者因“左侧胸壁胀痛2月余”于2016-8-5入院。”;待识别序列即相当于序列标注网络模型训练过程中的训练样本序列,将待识别序列xnew输入训练完成的序列标注网络模型后,序列标注网络模型对待识别序列xnew具体的处理过程可以包括一下步骤:
首先,利用语义连接网络对待识别序列xnew进行处理,得到待识别序列xnew对应的语义标注序列;
然后,由第二前馈神经网络对语义标注序列进行处理,得到待识别序列对应的初始预测结果;其中,初始预测结果中包括多个初始实体标注序列以及与每一初始实体标注序列对应的初始预测得分;
接下来,利用概率转移矩阵对初始预测结果进行更新,得到更新预测结果,即更新每一初始实体标注序列对应的初始预测得分,得到每一初始实体标注序列对应的更新预测得分,并将分值最大的更新预测得分对应的初始实体标注序列,作为待识别序列对应的预测实体标注序列。
比如在上述待识别序列xnew=“患者因“左侧胸壁胀痛2月余”于2016-8-5入院。”的示例中,假定更新预测结果表示为:
ynew1={患/O者/O因/O“/O左/disease-B侧/disease-I胸/disease-I壁/disease-E胀/symptom-B痛/symptom-E 2/O月/O余/O”/O于/O2/O0/O1/O6/O-/O8/O-/O5/O入/O院/O。/O}=8;
ynew2={患/O者/O因/O“/O左/O侧/O胸/disease-B壁/disease-E胀/symptom-B痛/symptom-B 2/O月/O余/O”/O于/O2/O0/O1/O6/O-/O8/O-/O5/O入/O院/O。/O}=6;
ynew3={患/O者/O因/O“/O左/O侧/O胸/disease-B壁/disease-E胀/symptom-B痛/symptom–I 2/symptom–I月/symptom–I余/symptom–E”/O于/O2/O0/O1/O6/O-/O8/O-/O5/O入/O院/O。/O}=4;
其中,ynew1得分最高,则待识别序列xnew对应的预测实体标注序列为{患/O者/O因/O“/O左/disease-B侧/disease-I胸/disease-I壁/disease-E胀/symptom-B痛/symptom-E2/O月/O余/O”/O于/O2/O0/O1/O6/O-/O8/O-/O5/O入/O院/O。/O}。
由此,根据该电子病历文本中所有待识别序列各自对应的预测实体标注序列,生成该电子病历文本对应的医学知识图谱,将病症、疾病及诊疗手段之间的对应关系,通过该医学知识图谱构建医学知识数据库,从而可以辅助医生对患者进行诊断;或者利用该医学知识数据库,使患者能够对一些病症的症状有初步的了解,并能够结合医学知识数据库,对一些疾病辅助观察,且结合医生的诊断辅助治疗,在一定程度上减轻医疗工作者的工作量。
基于与本申请实施例提供的上述序列标注网络模型训练方法相同的发明构思,请参阅图8,图8为本申请一实施例提供的序列标注网络模型训练装置400的一种示意性结构图,该序列标注网络模型训练装置400可以包括第一处理模块401和参数更新模块402。
第一处理模块401用于获得训练样本序列及训练样本序列对应的训练标注结果;
第一处理模块401还用于,利用语义连接网络对训练样本序列进行处理,得到语义标注序列;其中,语义连接网络包括M个依次串联的编码模块,每一编码模块包括多卷积层、注意力Attention层和第一前馈神经网络层;多卷积层、Attention层和第一前馈神经网络层共同用于对训练样本序列进行编码学习得到语义标注序列,M为正整数;
第一处理模块401还用于,将语义标注序列作为第二前馈神经网络的输入,经处理后得到训练样本序列对应的初始预测结果;
第一处理模块401还用于,根据概率转移矩阵对初始预测结果进行更新,得到训练样本序列对应的更新预测结果;
参数更新模块402用于基于更新预测结果及训练标注结果,更新序列标注网络模型的模型参数。
基于与本申请实施例提供的上述电子病历处理方法相同的发明构思,请参阅图9,图9为本申请一实施例提供的电子病历处理装置500的一种示意性结构图,该电子病历处理装置500可以包括第二处理模块501及实体标注模块502。
第二处理模块501用于获得接收的电子病历文本中包含的多个待识别序列;
实体标注模块502用于将每一待识别序列输入至利用如上述序列标注网络模型训练方法更新模型参数后的序列标注网络模型并进行处理,得到每一待识别序列对应的预测实体标注序列;
第二处理模块501还用于根据所有预测实体标注序列,生成电子病历文本对应的医学知识图谱。
值得说明的是,为描述的方便和简洁,上述的序列标注网络模型训练装置400和电子病历处理装置500的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请实施例提供的一种电子病历处理方法、模型训练方法及相关装置,通过基于卷积算法、Attention机制和前馈神经网络算法构建的语义连接网络,利用该语义连接网络对训练样本序列进行处理,以学习训练样本序列的深层语义信息后,将得到的语义标注序列作为第二前馈神经网络的输入,从而得到训练样本序列对应的初始预测结果,然后基于概率转移机制对初始预测结果进行更新,得到更为精确的更新预测结果,进而基于更新预测结果和训练样本序列对应的训练标注结果,更新序列标注网络模型的模型参数,相比于现有技术,使序列标注网络模型能够充分学习到样本序列的深层语义信息及长距离特征信息,能够提升序列标注的准确度。
另外,利用训练完成的序列标注网络模型对电子病历进行命名实体识别,能够获得电子病历稳重中所有待识别序列各自对应的预测实体标注序列,进而生成该电子病历文本对应的医学知识图谱,从而可以辅助医生对患者进行诊断,或者是使患者对一些病症的症状有初稿的了解,在一定程度上减轻医疗工作者的工作量。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (10)
1.一种电子病历处理方法,其特征在于,所述方法包括:
接收电子病历文本,并对所述电子病历文本进行分句,获得所述电子病历文本中包含的多个待识别序列;
将每一所述待识别序列输入至更新模型参数后的序列标注网络模型并进行处理,得到每一所述待识别序列对应的预测实体标注序列,每一预测实体标注序列包含对应的待识别序列中每个词的实体信息,所述实体信息对应疾病、检查、症状和治疗中的一种;
根据所有所述预测实体标注序列,生成所述电子病历文本对应的医学知识图谱;
其中,更新模型参数后的序列标注网络模型是通过以下方式得到的:
获得训练样本序列及所述训练样本序列对应的训练标注结果;
利用语义连接网络对所述训练样本序列进行处理,得到语义标注序列;其中,所述语义连接网络包括M个依次串联的编码模块,每一所述编码模块包括多卷积层、注意力Attention层和第一前馈神经网络层;所述多卷积层、所述Attention层和所述第一前馈神经网络层共同用于对所述训练样本序列进行编码学习得到所述语义标注序列,M为正整数;
将所述语义标注序列作为第二前馈神经网络的输入,经处理后得到所述训练样本序列对应的初始预测结果;
根据概率转移矩阵对所述初始预测结果进行更新,得到所述训练样本序列对应的更新预测结果;
基于所述更新预测结果及所述训练标注结果,更新所述序列标注网络模型的模型参数;
若M为大于1的整数,则利用语义连接网络对所述训练样本序列进行处理,得到语义标注序列的步骤,包括:
将第N个编码模块之前的N-1个编码模块各自的编码输出序列进行合并后得到的集合,作为所述第N个编码模块的编码输入序列并进行处理,得到所述第N个编码模块的编码输出序列;
其中,N小于或等于M,N为大于1的整数,所述M个依次串联的编码模块中第一个编码模块的编码输入序列为所述训练样本序列,且所述M个依次串联的编码模块中所有编码模块各自输出的编码输出序列进行合并后得到的集合,为所述语义标注序列;
若M等于1,则利用语义连接网络对所述训练样本序列进行处理,得到语义标注序列的步骤,包括:
将所述训练样本序列作为所述编码模块的输入并进行处理,得到所述语义标注序列。
2.如权利要求1所述的方法,其特征在于,
所述多卷积层用于对所述编码输入序列进行处理,得到卷积输出序列;
所述Attention层用于对所述卷积输出序列进行处理,并将处理后得到的结果与所述卷积输出序列相加,得到注意力输出序列;
所述第一前馈神经网络层用于对所述注意力输出序列进行处理,并将处理后得到的结果与所述注意力输出序列相加,得到所述编码输出序列。
3.如权利要求2所述的方法,其特征在于,所述多卷积层包括多个依次串联的卷积层,每一卷积层输入的输入序列均为相邻的上一卷积层输出的输出序列;
其中,输入所述多卷积层中第一个卷积层的输入序列为所述编码输入序列,所述卷积输出序列为所述多卷积层中最后一个卷积层输出的输出序列。
4.如权利要求3所述的方法,其特征在于,所述卷积层包括第一归一化层、深度可分离卷积层以及紧缩激励网络SEnet层;
所述第一归一化层用于对所述输入的输入序列进行处理,得到第一归一化输出序列;
所述深度可分离卷积层用于对所述归一化输出序列进行处理,得到分离卷积输出序列;
所述SEnet层用于对所述输入的输入序列进行处理,得到SE输出序列;
其中,所述卷积层输出的输出序列由中间卷积输出序列与所述SE输出序列进行叉乘运算得到;所述中间卷积输出序列为所述分离卷积输出序列与所述输入的输入序列相加得到的序列之和。
5.如权利要求2所述的方法,其特征在于,所述Attention层包括第二归一化层和多头注意力层;
所述第二归一化层用于对所述卷积输出序列进行处理,得到第二归一化输出序列;
所述多头注意力层用于对所述第二归一化输出序列进行处理,得到多头输出序列;其中,所述多头输出序列与所述卷积输出序列相加后得到的序列之和,为所述注意力输出序列。
6.如权利要求5所述的方法,其特征在于,所述多头注意力层包括多个并联设置的Attention单元,任意两个所述Attention单元不共享参数;
每一所述Attention单元均对所述第二归一化输出序列进行处理,得到每一所述Attention单元各自输出的输出序列;
其中,所述多头输出序列为所有所述Attention单元各自输出的输出序列合并后得到的集合。
7.如权利要求2所述的方法,其特征在于,所述第一前馈神经网络层包括第三归一化层和编码前馈神经网络层;
所述第三归一化层用于对所述注意力输出序列进行处理,得到第三归一化输出序列;
所述编码前馈神经网络层用于对所述第三归一化输出序列进行处理,得到编码前馈输出序列,其中,所述编码前馈输出序列与所述注意力输出序列相加后得到的序列之和为所述编码输出序列。
8.一种电子病历处理装置,其特征在于,所述装置包括:
第二处理模块,用于接收电子病历文本,并对所述电子病历文本进行分句,获得所述电子病历文本中包含的多个待识别序列;
实体标注模块,用于将每一所述待识别序列输入至更新模型参数后的序列标注网络模型并进行处理,得到每一所述待识别序列对应的预测实体标注序列,每一预测实体标注序列包含对应的待识别序列中每个词的实体信息,所述实体信息对应疾病、检查、症状和治疗中的一种;
所述第二处理模块还用于,根据所有所述预测实体标注序列,生成所述电子病历文本对应的医学知识图谱;
其中,更新模型参数后的序列标注网络模型是通过调用以下模块得到的:
第一处理模块,用于获得训练样本序列及所述训练样本序列对应的训练标注结果;
所述第一处理模块还用于,利用语义连接网络对所述训练样本序列进行处理,得到语义标注序列;其中,所述语义连接网络包括M个依次串联的编码模块,每一所述编码模块包括多卷积层、注意力Attention层和第一前馈神经网络层;所述多卷积层、所述Attention层和所述第一前馈神经网络层共同用于对所述训练样本序列进行编码学习得到所述语义标注序列,M为正整数;
所述第一处理模块还用于,将所述语义标注序列作为第二前馈神经网络的输入,经处理后得到所述训练样本序列对应的初始预测结果;
所述第一处理模块还用于,根据概率转移矩阵对所述初始预测结果进行更新,得到所述训练样本序列对应的更新预测结果;
参数更新模块,用于基于所述更新预测结果及所述训练标注结果,更新所述序列标注网络模型的模型参数;
若M为大于1的整数,则所述第一处理模块具体用于:
将第N个编码模块之前的N-1个编码模块各自的编码输出序列进行合并后得到的集合,作为所述第N个编码模块的编码输入序列并进行处理,得到所述第N个编码模块的编码输出序列;
其中,N小于或等于M,N为大于1的整数,所述M个依次串联的编码模块中第一个编码模块的编码输入序列为所述训练样本序列,且所述M个依次串联的编码模块中所有编码模块各自输出的编码输出序列进行合并后得到的集合,为所述语义标注序列;
若M等于1,则所述第一处理模块具体用于:
将所述训练样本序列作为所述编码模块的输入并进行处理,得到所述语义标注序列。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625921.XA CN110427493B (zh) | 2019-07-11 | 2019-07-11 | 电子病历处理方法、模型训练方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625921.XA CN110427493B (zh) | 2019-07-11 | 2019-07-11 | 电子病历处理方法、模型训练方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427493A CN110427493A (zh) | 2019-11-08 |
CN110427493B true CN110427493B (zh) | 2022-04-08 |
Family
ID=68409238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910625921.XA Active CN110427493B (zh) | 2019-07-11 | 2019-07-11 | 电子病历处理方法、模型训练方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427493B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046882B (zh) * | 2019-12-05 | 2023-01-24 | 清华大学 | 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统 |
CN111370084B (zh) * | 2020-02-07 | 2023-10-03 | 山东师范大学 | 基于BiLSTM的电子健康记录表示学习方法及系统 |
CN111382844B (zh) * | 2020-03-11 | 2023-07-07 | 华南师范大学 | 一种深度学习模型的训练方法及装置 |
CN111428008B (zh) * | 2020-06-11 | 2020-09-29 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备以及存储介质 |
CN111882005B (zh) * | 2020-09-28 | 2020-12-15 | 平安科技(深圳)有限公司 | 数据类别确定方法及装置、终端设备、存储介质 |
CN113903420A (zh) * | 2021-09-29 | 2022-01-07 | 清华大学 | 一种语义标签确定模型的构建方法、病历解析方法 |
CN114283888B (zh) * | 2021-12-22 | 2024-07-26 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
CN115114924A (zh) * | 2022-06-17 | 2022-09-27 | 珠海格力电器股份有限公司 | 命名实体识别方法、装置、计算设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329884A1 (en) * | 2017-05-12 | 2018-11-15 | Rsvp Technologies Inc. | Neural contextual conversation learning |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
US20190149834A1 (en) * | 2017-11-15 | 2019-05-16 | Salesforce.Com, Inc. | Dense Video Captioning |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN109918684A (zh) * | 2019-03-05 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 模型训练方法、翻译方法、相关装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388807B (zh) * | 2018-10-30 | 2021-09-21 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
-
2019
- 2019-07-11 CN CN201910625921.XA patent/CN110427493B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180329884A1 (en) * | 2017-05-12 | 2018-11-15 | Rsvp Technologies Inc. | Neural contextual conversation learning |
US20190149834A1 (en) * | 2017-11-15 | 2019-05-16 | Salesforce.Com, Inc. | Dense Video Captioning |
CN109492232A (zh) * | 2018-10-22 | 2019-03-19 | 内蒙古工业大学 | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 |
CN109359309A (zh) * | 2018-12-11 | 2019-02-19 | 成都金山互动娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN109918684A (zh) * | 2019-03-05 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 模型训练方法、翻译方法、相关装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Bidirectional LSTM-CRF for Adverse Drug Event Tagging in Electronic Health Records;Susmitha Wunnava et al;《Proceedings of the 1st International Workshop on Medication and Adverse Drug Event Detection》;20181231(第90期);第48页第1段-第55页第2段 * |
基于跨语言分布式表示的跨语言文本分类;高国骥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第01期);第46页第1段-第58页第2段 * |
Also Published As
Publication number | Publication date |
---|---|
CN110427493A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427493B (zh) | 电子病历处理方法、模型训练方法及相关装置 | |
CN110442869B (zh) | 一种医疗文本处理方法及其装置、设备和存储介质 | |
CN110737758B (zh) | 用于生成模型的方法和装置 | |
CN110457682B (zh) | 电子病历词性标注方法、模型训练方法及相关装置 | |
CN111401066B (zh) | 基于人工智能的词分类模型训练方法、词处理方法及装置 | |
CN111192680A (zh) | 一种基于深度学习和集成分类的智能辅助诊断方法 | |
US11670420B2 (en) | Drawing conclusions from free form texts with deep reinforcement learning | |
CN113724882B (zh) | 基于问诊会话构建用户画像的方法、装置、设备和介质 | |
Arnaud et al. | Deep learning to predict hospitalization at triage: Integration of structured data and unstructured text | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN116682553B (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
CN108417272B (zh) | 带时序约束的相似病例推荐方法及装置 | |
Liu et al. | Named entity recognition in Chinese electronic medical records based on CRF | |
US20210232768A1 (en) | Machine learning model with evolving domain-specific lexicon features for text annotation | |
CN110534185A (zh) | 标注数据获取方法、分诊方法、装置、存储介质及设备 | |
Wan et al. | A self-attention based neural architecture for Chinese medical named entity recognition | |
Liu et al. | Augmented LSTM framework to construct medical self-diagnosis android | |
CN110444261B (zh) | 序列标注网络训练方法、电子病历处理方法及相关装置 | |
CN116992002A (zh) | 一种智能护理方案应答方法及系统 | |
CN115713078A (zh) | 知识图谱构建方法、装置、存储介质及电子设备 | |
CN115374771A (zh) | 文本标签确定方法及装置 | |
CN117854715B (zh) | 基于问诊分析的智能助诊系统 | |
CN111222325A (zh) | 一种双向栈式循环神经网络的医疗语义标注方法和系统 | |
CN117057350A (zh) | 中文电子病历命名实体识别方法和系统 | |
Afzal et al. | Multi-class clinical text annotation and classification using bert-based active learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |