CN112036172B - 基于模型的缩写数据的实体识别方法、装置和计算机设备 - Google Patents
基于模型的缩写数据的实体识别方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN112036172B CN112036172B CN202010941630.4A CN202010941630A CN112036172B CN 112036172 B CN112036172 B CN 112036172B CN 202010941630 A CN202010941630 A CN 202010941630A CN 112036172 B CN112036172 B CN 112036172B
- Authority
- CN
- China
- Prior art keywords
- medical
- alias
- abbreviation
- concept
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能,提供一种基于模型的缩写数据的实体识别方法、装置和计算机设备,获取医学文本;查找医学文本中出现的所有缩写‑全称对数据;判断指定缩写‑全称对中的第一全称,是否为指定医学字典中第一医学概念的医学别名;若否,判断指定缩写‑全称对中的第一缩写是否为指定医学字典中第二医学概念的医学别名;若是,获取第二医学概念包含的所有医学别名;将第一全称与指定医学别名输入至孪生网络模型中,获取第一全称与指定医学别名的指定相似度数值;根据指定相似度数值,判断在第二医学概念包含的所有医学别名中是否存在与第一全称意思相同的医学别名;若是,判定第一缩写属于医学实体。本申请提高了缩写数据的实体识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于模型的缩写数据的实体识别方法、装置和计算机设备。
背景技术
近年来,随着网络和医疗信息技术的快速发展,医疗互联网逐渐兴起,医疗行业大数据也逐渐产生,人们开始探讨和学习如何利用大数据提高医疗行业的经营管理与服务。而医疗大数据的利用分析和挖掘的前提和基础之一是医学文本中相关医学实体的识别,且医学文本中相关医学实体的识别是医疗大数据应用的基础工作。
目前,在对医学文本中的缩写-全称对数据内的缩写数据进行实体识别时,通常是采用基于医学字典进行实体识别的方式,具体是通过判断某个缩写-全称对数据中包含的全称词语是否属于医学实体,来间接判断与全称词语对应的缩写词语是否属于医学实体。如果判断出该全称词语能够对应上医学字典中的某个医学概念的医学别名,即全称词语与医学字典中的某个医学概念的医学别名相同,则会判定该全称词语属于医学实体,并依此判定与该全称词语对应的缩写词语也属于医学实体,且该缩写词语是与上述医学概念对应的医学实体。但如果判断出该全称词语与医学字典中的所有医学概念的每一个医学别名均不相同,则会直接判定该全称词语不属于医学实体,从而判定与该全称词语对应的缩写词语不属于医学实体。但是,医学字典的容量是有限的,医学文本中实际可能表示医学实体的全称数据的形式却近乎是无限的,很多医学文本中出现的属于医学实体的全称数据并没有被记录在医学字典中。这使得仅仅通过使用医学字典来判断医学文本中的缩写-全称对数据内的缩写数据是否属于医学实体的方式,容易造成很大的识别误差,如果把没有出现在医学字典中,但本属于医学实体的全称数据误判为非医学实体,那么也将会将缩写-全称对数据中的与该被误判的全称数据也误判为非医学实体。因此,现有的对医学文本中的缩写-全称对数据内的缩写数据进行实体识别的方式存在识别准确性较低的问题。
发明内容
本申请的主要目的为提供一种基于模型的缩写数据的实体识别方法、装置、计算机设备和存储介质,旨在解决现有的对医学文本中的缩写-全称对数据内的缩写数据进行实体识别的方式存在识别准确性较低的技术问题。
本申请提出一种基于模型的缩写数据的实体识别方法,所述方法包括步骤:
获取待识别的医学文本;
通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的;
根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名;
若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
可选地,所述孪生网络模型包括两个并行且相同的第一神经网络与第二神经网络,所述将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值的步骤,包括:
将所述第一全称输入至所述孪生网络模型中的第一神经网络内,以及将所述指定医学别名输入至所述孪生网络模型中的第二神经网络内;
通过所述第一神经网络将所述第一全称转化为对应的第一向量,以及通过所述第二神经网络将所述指定医学别名转化成对应的第二向量;
计算所述第一向量与所述第二向量的相似度数值;
将所述第一向量与所述第二向量的相似度数值,确定为所述第一全称与所述指定医学别名的指定相似度数值。
可选地,所述根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名的步骤,包括:
获取预设的相似度阈值;
判断在所有所述指定相似度数值中,是否存在大于所述相似度阈值的相似度数值;
若在所有所述指定相似度数值中,存在大于所述相似度阈值的相似度数值,则判定在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名;
若在所有所述指定相似度数值中,不存在大于所述相似度阈值,则判定在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名。
可选地,所述判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名的步骤之前,包括:
获取医学字典;
按照预设的标注规则,对所述医学字典中包含的医学别名数据进行标注处理,生成标注后的医学字典;
将所述标注后的医学字典作为所述指定医学字典。
可选地,若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系的步骤之后,包括:
基于所述指定医学字典,筛选出所述医学文本中的候选缩写医学实体与全称医学实体;
判断指定候选缩写医学实体是否同时属于所述指定医学字典中多个不同的医学概念的医学别名,其中,所述指定候选缩写医学实体为所述所有候选缩写医学实体中的任意一个数据;
若同时属于所述指定医学字典中多个不同的医学概念的医学别名,则遍历所有所述全称医学实体,并判断所述全称医学实体中是否存在指定医学概念的医学别名,其中,所述指定医学概念为所述指定候选缩写医学实体所属的多个医学概念中的任意一个医学概念;
若所述全称医学实体中存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体属于医学实体,且所述指定候选缩写医学实体与所述指定医学概念具有对应关系;
若所述全称医学实体中不存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体不属于医学实体。
可选地,所述根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名的步骤之后,包括:
若在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名,则判定所述第一缩写不属于医学实体;
对所述第一缩写添加非医学实体的标注。
可选地,所述若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体的步骤之后,包括:
从所述指定医学字典中查找出与所述第二医学概念对应的数据记录位置;
在所述数据记录位置确定出一个填充位置;
在所述填充位置添加所述第一全称。
本申请还提供一种基于模型的基于模型的缩写数据的实体识别装置,包括:
第一获取模块,用于获取待识别的医学文本;
第一查找模块,用于通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
第一判断模块,用于判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
第二判断模块,用于若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
第二获取模块,用于若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
第三获取模块,用于将所述第一全称与指定医学别名输入至预设的孪生网络模型孪生网络模型模型中,通过所述孪生网络模型孪生网络模型模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型孪生网络模型模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的;
第三判断模块,用于根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名;
第一判定模块,用于若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请中提供的基于模型的缩写数据的实体识别方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的基于模型的缩写数据的实体识别方法、装置、计算机设备和存储介质,在查找出医学文本中出现的所有缩写-全称对数据后,如果判断出指定缩写-全称对中的第一全称,不是预设的指定医学字典中第一医学概念的医学别名,并不会直接将指定缩写-全称对中与第一全称对应的第一缩写判定为非医学实体,而是会进一步判断所述指定缩写-全称对中的所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名。并在判断出所述第一缩写是所述指定医学字典中第二医学概念的医学别名时,会调用预设的孪生网络模型,以通过该孪生网络模型来计算出第一全称分别与第二医学概念包含的所有医学别名的相似度数值,并根据计算得到的相似度数值来判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名,进而确定出上述第一全称是否属于没有记录在指定医学字典中的医学实体数据。如果在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则会判定所述第一全称属于医学实体,从而判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。通过本申请,能够依据指定医学字典以及孪生网络模型的配合使用,来实现快速智能地确识别出医学文本中的缩写-全称对数据内的缩写数据是否属于医学实体,有效地提高了对于医学文本中的缩写-全称对数据内的缩写数据的实体识别的准确性。
附图说明
图1是本申请一实施例的基于模型的缩写数据的实体识别方法的流程示意图;
图2是本申请一实施例的基于模型的缩写数据的实体识别装置的结构示意图;
图3是本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用于解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参照图1,本申请一实施例的基于模型的缩写数据的实体识别方法,包括:
S1:获取待识别的医学文本;
S2:通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
S3:判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
S4:若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
S5:若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
S6:将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型为基于预先采集的具有标注的样本数据对神经网络模型进行训练后生成的;
S7:根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名;
S8:若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
如上述步骤S1至S8所述,本方法实施例的执行主体为一种基于模型的缩写数据的实体识别装置。在实际应用中,上述基于模型的缩写数据的实体识别装置可以通过虚拟装置,例如软件代码实现,也可以通过写入或集成有相关执行代码的实体装置实现,且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。本实施例中的基于模型的缩写数据的实体识别装置能够快速、智能且准确地识别出医学文本中的缩写数据是否属于医学实体。具体地,首先获取待识别的医学文本。其中,上述待识别的医学文本具体可指英文医学文献,本申请需要根据上述医学文本中出现的所有缩写-全称对数据,识别出缩写-全称对数据中的缩写数据是否属于与医学相关的医学实体。举例地,如果在英文医学文献中记录有一句话“This patient has heart failure(HF)for five years”,这句话中存在“缩写-全称对”(HF,heart failure),则需要对缩写HF进行是否属于医学实体(后续也可将医学实体简称为实体)的识别判断处理。然后通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据。其中,上述预设算法具体可采用schwartz hearst算法,schwartz hearst算法是一个成熟的算法,它可以仅基于文本本身,找出文本中出现的“缩写-全称对”数据,缩写-全称对的格式为:(全称,缩写)。举例地,可以从“New York(NY)is abig city”句子中找出“缩写-全称对”(New York,NY)。在得到了上述缩写-全称对数据后,判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写。另外,上述指定医学字典是按照预设的标注规则,对原始的医学字典中包含的医学别名数据进行标注处理后生成的。记录在上述医学字典内的全称数据与缩写数据均属于医学实体数据。上述标注规则包括对表示缩写的医学别名添加“1”的标注,以及对表示非缩写的医学别名,即全称医学别名添加“0”的标注。此外,可以采用将上述第一全称与指定医学字典中每一个医学概念的全称医学别名进行匹配处理的方式,来进行判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名的判断流程,若匹配成功则表明指定缩写-全称对中的第一全称是指定医学字典中第一医学概念的医学别名,若匹配失败则表明指定缩写-全称对中的第一全称不是指定医学字典中第一医学概念的医学别名。如果所述第一全称是所述指定医学字典中第一医学概念的医学别名,则直接判定所述第一缩写属于医学实体,且所述第一缩写与所述第一医学概念具有对应关系。其中,对于通过算法查找出的任意一个“缩写-全称对”,例如(A,a),可以确定a就是全称A的缩写,因此全称A对应的医学概念就是a所对应的医学概念,不需要再关心a是否可能是其他医学概念的医学别名。如果所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述第二医学概念的医学别名。其中,可以采用将上述第一缩写与指定医学字典中每一个医学概念的缩写医学别名进行匹配处理的方式,来进行判断指定缩写-全称对中的第一缩写,是否为预设的指定医学字典中第二医学概念的医学别名的判断流程,若匹配成功则表明指定缩写-全称对中的第一缩写是指定医学字典中第二医学概念的医学别名,若匹配失败则表明指定缩写-全称对中的第一全称不是指定医学字典中第二医学概念的医学别名。如果所述第一缩写是所述指定医学字典中第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名。其中,上述第二医学概念包含的所有医学别名可指第二医学概念包含的所有全称医学别名与缩写医学别名,优选上述第二医学概念包含的所有医学别名只包括第二医学概念包含的所有全称医学别名。之后将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的。另外,上述神经网络模型可以为CNN神经网络、RNN神经网络、LSTM神经网络等,本发明优选为双向的LSTM神经网络。训练生成后的上述孪生网络模型具体包括两个并行的相同神经网络(第一神经网络与第二神经网络),两个神经网络的参数相同,本申请可以根据预先采集的具有标注的样本数据,利用现有的模型训练方法来训练上述神经网络模型的参数,进而得到上述孪生网络模型。在得到了上述指定相似度数值后,再根据所述指定相似度数值,判断在所有所述指定医学别名中是否存在与所述第一全称意思相同的医学别名。其中,可以采用将上述指定相似度数值与预设的相似度阈值比较的方式,来判断出在所有所述指定医学别名中是否存在与所述第一全称意思相同的医学别名。若在第二医学概念包含的所有医学别名中存在指定相似度数值大于预设的相似度阈值的医学别名,则表明在第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名。而若在第二医学概念包含的所有医学别名中不存在指定相似度数值大于预设的相似度阈值的医学别名,则表明在第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名。如果在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。其中,对于通过算法查找出的“缩写-全称对”(第一全称,第一缩写),例如(A,a),如果a是医学概念α的医学别名,而A没在指定医学字典中出现,那么有可能出现A也是医学概念α的医学别名的情况,只不过是由于在指定医学字典中记录的医学别名不够全面,并没有将A纳入在指定医学字典内。一般而言,一个医学概念的说法有很多。比如心力衰竭,可以表示为“heartfailure”,“heartsfailure”,“heartfailures”,“HF”,“failure of heart”等等,字典很难穷尽。但大部分医学别名字形上比较接近,可能只是单复数、词性或者单词顺序的差别。如果A和医学概念α的其他医学别名在字形上很接近,那么基本可以断定,A就是α的医学别名,且由于A与a为全称与缩写的关系,则可得出a就是一个医学实体,且a与医学概念α具有对应关系。通过使用孪生网络模型来计算A与医学概念α包含的所有医学别名的相似度数值,如果在医学概念α包含的所有医学别名中存在相似度数值大于预设的相似度阈值的医学别名,则可判定A就是医学概念α的医学别名,且a属于一个医学实体。另外,如果全称A和缩写a都没有在指定医学字典中出现,且在指定医学字典中与缩写a对应的医学概念所包含的所有医学别名中也不存在与全称A意思相近的医学别名,那么大概率说明a不是一个医学实体。通过本实施例,能够依据指定医学字典以及孪生网络模型的配合使用,来实现快速智能地确识别出医学文本中的缩写-全称对数据内的缩写数据是否属于医学实体,有效地提高了对于医学文本中的缩写-全称对数据内的缩写数据的实体识别的准确性。
进一步地,本申请一实施例中,所述孪生网络模型包括两个并行且相同的第一神经网络与第二神经网络,上述步骤S6,包括:
S600:将所述第一全称输入至所述孪生网络模型中的第一神经网络内,以及将所述指定医学别名输入至所述孪生网络模型中的第二神经网络内;
S601:通过所述第一神经网络将所述第一全称转化为对应的第一向量,以及通过所述第二神经网络将所述指定医学别名转化成对应的第二向量;
S602:计算所述第一向量与所述第二向量的相似度数值;
S603:将所述第一向量与所述第二向量的相似度数值,确定为所述第一全称与所述指定医学别名的指定相似度数值。
如上述步骤S600至S603所述,上述孪生网络模型包括两个并行且相同的第一神经网络与第二神经网络。上述将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值的步骤,具体可包括:首先将所述第一全称输入至所述孪生网络模型中的第一神经网络内,以及将所述指定医学别名输入至所述孪生网络模型中的第二神经网络内。然后通过所述第一神经网络将所述第一全称转化为对应的第一向量,以及通过所述第二神经网络将所述指定医学别名转化成对应的第二向量。其中,本申请优选只从指定医学字典中提取出第二医学概念包含的所有全称医学别名,来与上述指定缩写-全称对中的第一全称进行比较,以有效地减少缩写数据的数据处理量,提高缩写数据的识别效率。然后计算所述第一向量与所述第二向量的相似度数值。最后将所述第一向量与所述第二向量的相似度数值,确定为所述第一全称与所述指定医学别名的指定相似度数值。其中,上述孪生网络模型一共包括三层,由两个并行且相同的神经网络组成,按照从下往上的顺序,孪生网络模型的第一层为embedding层(嵌入层),第二层为char CNN层(字符级神经网络模型层),第三层为全连接层。以及孪生网络模型的第一层和第二层均可分为左右两个部分,且左右两个部分的结构完全一样,两个相同的神经网络(第一神经网络与第二神经网络)共用第三层。第一,上述embedding层是根据预设的第一转换规则用于将输入的字符串中的每一个字母转化为一个对应的向量,即用于将该字符串转化为一个对应的矩阵,上述第一转换规则可参考现有常用的字符-矩阵转换规则。具体的,两个相同的神经网络,即第一神经网络与第二神经网络会通过embedding层,分别将输入的第一全称转换成对应的第一矩阵,以及将输入的指定医学别名转换成对应的第二矩阵。第二,上述char CNN层用于获取输入的字符串的字形信息。输入的字符串通过第一层embedding层会转换成对应的一个矩阵,之后char CNN层会接受上述矩阵作为输入,并根据预设的第二转换规则,经过计算将矩阵转换成对应的向量并输出,转换生成的这个向量就包含了输入的字符串对应的字形信息,上述第二转换规则可参考现有常用的矩阵-向量转换规则。具体的,两个相同的神经网络,即第一神经网络与第二神经网络会通过char CNN层,分别将输入的第一矩阵转换成对应的第一向量,以及将输入的第二矩阵转换成对应的第二向量。第三,上述全连接层将两个char CNN层输出的两个向量,即第一向量与第二向量作为输入,通过相应公式来计算出两个向量的相似度数值并输出,该相似度数值代表了输入的两个字符串,即所述第一全称与所述指定医学别名表示同一个意思的概率,且相似度数值具体为一个0到1之间的实数。具体的,上述计算相似度数值的公式可为:其中,Y1为第一向量,Y2为第二向量,sim(Y1,Y2)为第一向量和第二向量的相似度。本实施例通过使用训练好的孪生网络模型,能够智能快速地计算出输入的第一全称与所述指定医学别名的指定相似度数值,有利于后续能够根据该指定相似度数值,来准确地判断出第一缩写是否属于医学实体,有效地提高了对于缩写数据的识别效率。举例地,通过算法查找出的“缩写-全称对”,例如(A,a),如果a是医学概念α的医学别名,且A没在指定医学字典中出现。假设医学概念α具有医学别名A1、A2、A3…,分别把A和A1,A和A2,A和A3…,输入到训练好的孪生网络模型中,通过孪生网络模型分别计算出A与医学概念α具有的所有医学别名之间的相似度数值。如果孪生网络模型经过计算,判断出A和α的某个医学别名Ax之间的相似度数值大于上述相似度阈值,则表示A与Ax的意思相同,则可判定医学文本中的a是一个医学实体,且对应指定医学字典中的医学概念α。而如果孪生网络模型经过计算,A和α包括的所有医学别名的意思均不相同,则可判定a不是一个医学实体。
进一步地,在进行将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值的模型处理过程之前,还包括对于上述孪生网络模型的训练生成过程。具体地,通过获取一些字符串对作为训练样本来训练得到孪生网络模型。每个训练样本包括两个字符串,并对训练样本进行了标签标注,如果两个字符串表示相同意思,则标注标签为1,若表示不同意思,则标注标签为0。之后搭建一个未训练的神经网络模型,再使用上述训练数据对该神经网络模型进行训练,以得到训练好的神经网络模型,并将该训练好的神经网络模型用作上述孪生网络模型。其中,上述神经网络模型可以为CNN神经网络、RNN神经网络、LSTM神经网络等,本发明优选为双向的LSTM神经网络。以及,可以利用现有的训练方法来训练孪生网络模型的参数,本申请对此不作具体限定。
进一步地,在得到了上述孪生网络模型后,还可将该孪生网络模型存储至区块链网络中。通过使用区块链来对训练生成的上述孪生网络模型进行存储和管理,能够有效地保证上述孪生网络模型的安全性与不可篡改性。
进一步地,本申请一实施例中,上述步骤S7,包括:
S700:获取预设的相似度阈值;
S701:判断在所有所述指定相似度数值中,是否存在大于所述相似度阈值的相似度数值;
S702:若在所有所述指定相似度数值中,存在大于所述相似度阈值的相似度数值,则判定在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名;
S703:若在所有所述指定相似度数值中,不存在大于所述相似度阈值,则判定在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名。
如上述步骤S700至S703所述,上述根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名的步骤,具体可包括:首先获取预设的相似度阈值。其中,对于上述相似度阈值不作具体限定,可根据实际需求进行设置,例如可设置为0.5。然后判断在所有所述指定相似度数值中,是否存在大于所述相似度阈值的相似度数值。如果判断出在所有所述指定相似度数值中,存在大于所述相似度阈值的相似度数值,表示输入的第一全称与第二医学概念包含的某一个指定医学别名表示同一个意思,则会判定在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名。而如果判断出在所有所述指定相似度数值中,不存在大于所述相似度阈值,表示输入的第一全称与第二医学概念包含的所有指定医学别名均表示不同的意思,则判定在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名。通过本实施例,能够实现快速、智能且准确地确定出医学文本中的缩写-全称对数据内的缩写数据是否属于医学实体,有效地提高了对于缩写-全称对数据内的缩写数据的实体识别的效率与实体识别的准确性。
进一步地,本申请一实施例中,上述步骤S3之前,包括:
S300:获取医学字典;
S301:按照预设的标注规则,对所述医学字典中包含的医学别名数据进行标注处理,生成标注后的医学字典;
S302:将所述标注后的医学字典作为所述指定医学字典。
如上述步骤S300至S302所述,在进行判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名的判断步骤之前,还包括对于上述指定医学字典的创建过程。具体地,首先获取医学字典。其中,上述医学字典是指在数据库中事先记录下来医学实体的医学概念和医学别名的医学字典,该医学字典会包含多个医学概念,每个医学概念有唯一的ID和多个医学别名。这里以一个包含有2个医学概念的医学字典为例:[{‘id’:‘PA0001’,‘alias’:[‘heart failure’,‘HF’]},{‘id’:‘PA0002’,‘alias’:[‘diabetes’,‘diabetic’]}]。然后按照预设的标注规则,对所述医学字典中包含的医学别名数据进行标注处理,生成标注后的医学字典。其中,上述预设的标注规则包括对表示缩写的医学别名添加“1”的标注,以及对表示非缩写的医学别名,即全称医学别名添加“0”的标注。基于上述举例的医学字典,按照上述标注规则对其进行标注处理,可得:[{‘id’:‘PA0001’,‘alias’:[(heart failure,0),(HF,1)]},{‘id’:‘PA0002’,‘alias’:[(diabetes,0),(diabetic,0)]}]。最后将所述标注后的医学字典作为所述指定医学字典。以便后续能够根据该指定医学字典来快速地判断出指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名。
进一步地,本申请一实施例中,上述步骤S8之后,包括:
S800:基于所述指定医学字典,筛选出所述医学文本中的候选缩写医学实体与全称医学实体;
S801:判断指定候选缩写医学实体是否同时属于所述指定医学字典中多个不同的医学概念的医学别名,其中,所述指定候选缩写医学实体为所述所有候选缩写医学实体中的任意一个数据;
S802:若同时属于所述指定医学字典中多个不同的医学概念的医学别名,则遍历所有所述全称医学实体,并判断所述全称医学实体中是否存在指定医学概念的医学别名,其中,所述指定医学概念为所述指定候选缩写医学实体所属的多个医学概念中的任意一个医学概念;
S803:若所述全称医学实体中存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体属于医学实体,且所述指定候选缩写医学实体与所述指定医学概念具有对应关系;
S804:若所述全称医学实体中不存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体不属于医学实体。
如上述步骤S800至S804所述,除了可以查找出待识别的医学文本中的缩写-全称对数据,还可以进一步从医学文本中筛选出除上述缩写-全称对数据之外的候选医学实体数据,并智能地对该候选医学实体数据中包含的候选缩写医学实体进行实体判别处理。具体地,上述若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系的步骤之后,还可包括:首先基于所述指定医学字典,筛选出所述医学文本中的候选缩写医学实体与全称医学实体。其中,上述候选缩写医学实体是指在医学文本中除上述缩写-全称对数据的缩写数据之外的其他缩写数据,上述全称医学实体是指在医学文本中包含的所有全称数据,也包括上述缩写-全称对数据内的全称数据。另外,可以通过对所述候选缩写医学实体与所述全称医学实体进行标注处理,例如可采用加粗的方式,以起到标识的效果。举例地,利用指定医学字典对医学文本中的候选医学实体数据进行标注,可以得到候选缩写医学实体a、b、c…,以及得到全称医学实体A、B、C…(这里A和a之间没有任何对应关系,与之前的举例无关联,仅仅使用小写字母代表根据指定医学字典从医学文本中找出的缩写字符串,以及使用大写字母代表根据指定医学字典从医学文本中找出的非缩写字符串,即全称字符串,且a不意味着是A的缩写)。之后判断指定候选缩写医学实体是否同时属于所述指定医学字典中多个不同的医学概念的医学别名,其中,所述指定候选缩写医学实体为所述所有候选缩写医学实体中的任意一个数据。如果上述指定候选缩写医学实体同时属于所述指定医学字典中多个不同的医学概念的医学别名,则遍历所有所述全称医学实体,并判断所述全称医学实体中是否存在指定医学概念的医学别名,其中,所述指定医学概念为所述指定候选缩写医学实体所属的多个医学概念中的任意一个医学概念。如果所述全称医学实体中存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体属于医学实体,且所述指定候选缩写医学实体与所述指定医学概念具有对应关系。而如果所述全称医学实体中不存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体不属于医学实体。其中,对于一个医学概念α,如果该医学概念α的一个缩写医学别名a和一个全称医学别名A同时出现在一篇文本中,那么文本中的a在绝大多数情况下,就代表着医学概念α的意思。具体的,以医学文本中的候选缩写医学实体a为例,假设a在指定医学字典中同时是医学概念α和β(α、β、γ…同理)的医学别名,遍历医学文本中的全称医学实体A、B、C…。如果A(B、C同理)是α(β同理)的医学别名,则判定候选缩写医学实体a属于一个医学实体,且候选缩写医学实体a与医学概念α具有对应关系。而如果A、B、C…中没有任何一个是α或β(α、β、γ…同理)的医学别名,则判定候选缩写医学实体a不属于医学实体。通过本申请,能够智能快速且准确地确定出医学文本中除缩写-全称对数据的缩写数据之外的其他缩写数据是否属于医学实体,有效地提高了对于除缩写-全称对数据之外的其他缩写数据的实体识别效率与识别准确性。
进一步地,本申请一实施例中,上述步骤S7之后,包括:
S700:若所有所述指定医学别名中不存在与所述第一全称意思相同的医学别名,则判定所述第一缩写不属于医学实体;
S701:对所述第一缩写添加非医学实体的标注。
如上述步骤S700至S701所述,上述根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名的步骤之后,还可包括:如果在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名,表明第一全称和缩写a都没有在指定医学字典中出现,且指定医学字典中第二医学概念包括所有医学别名中也不存在与第一全称意思相近或相同的医学别名,则判定所述第一缩写不属于医学实体。之后对所述第一缩写添加非医学实体的标注。其中,对于上述对所述第一缩写添加非医学实体的标注的具体标注方式不作限定,例如可采用加粗、高亮显示等标注方式。本实施例通过对不属于医学实体的第一缩写添加非医学实体的标注,从而后续可以方便快捷地从医学文本中清楚查看到不属于医学实体的缩写数据,从而避免用户出现信息混淆的情况,提高了用户使用体验。
进一步地,本申请一实施例中,上述步骤S8之后,包括:
S810:从所述指定医学字典中查找出与所述第二医学概念对应的数据记录位置;
S811:在所述数据记录位置确定出一个填充位置;
S812:在所述填充位置添加所述第一全称。
如上述步骤S810至S812所述,当判定出判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系,还可进一步在上述指定医学字典内添加与第一缩写对应的第一全称,以实现对于指定医学字典的数据完善处理。具体地,上述若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体的步骤之后,包括:首先从所述指定医学字典中查找出与所述第二医学概念对应的数据记录位置。其中,上述数据记录位置是指在指定医学字典中记录有与第二医学概念相关的数据的位置。然后在所述数据记录位置确定出一个填充位置。其中,上述填充位置与第二医学概念包含的所有医学别名的位置相关,但对该填充位置不作具体限定,例如该填充位置为第二医学概念包含的第一个医学别名的位置的前面位置,第一个医学别名为放置位置排序第一的医学别名;或者该填充位置可为第二医学概念包含的最后一个医学别名的位置的后面位置,最后一个医学别名为放置位置排序最末的医学别名,等等。最后在所述填充位置添加所述第一全称。其中,还可以为该第一全称添加非缩写的标注。本实施例在判定出在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,即第一缩写属于医学实体后,会智能地将第一全称完善至指定医学字典内与第二医学概念相关的相应位置处,有效地提高了指定医学字典的数据完整性与数据准确性。
本申请实施例的基于模型的缩写数据的实体识别方法还可以应用于区块链领域,如将上述孪生网络模型存储于区块链上等。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图2,本申请一实施例中还提供了一种基于模型的缩写数据的实体识别装置,包括:
第一获取模块1,用于获取待识别的医学文本;
第一查找模块2,用于通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
第一判断模块3,用于判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
第二判断模块4,用于若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
第二获取模块5,用于若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
第三获取模块6,用于将所述第一全称与指定医学别名输入至预设的孪生网络模型孪生网络模型模型中,通过所述孪生网络模型孪生网络模型模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型孪生网络模型模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的;
第三判断模块7,用于根据所述指定相似度数值,判断在所有所述指定医学别名中是否存在与所述第一全称意思相同的医学别名;
第一判定模块8,用于若所有所述指定医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
本实施例中,上述基于模型的缩写数据的实体识别装置中的第一获取模块、第一查找模块、第一判断模块、第二判断模块、第二获取模块、第三获取模块、第三判断模块与第一判定模块的功能和作用的实现过程具体详见上述基于模型的缩写数据的实体识别方法中对应步骤S1至S8的实现过程,在此不再赘述。
进一步地,本申请一实施例中,所述孪生网络模型包括两个并行且相同的第一神经网络与第二神经网络,上述第三获取模块,包括:
输入子模块,用于将所述第一全称输入至所述孪生网络模型中的第一神经网络内,以及将所述指定医学别名输入至所述孪生网络模型中的第二神经网络内;
转化子模块,用于通过所述第一神经网络将所述第一全称转化为对应的第一向量,以及通过所述第二神经网络将所述指定医学别名转化成对应的第二向量;
计算子模块,用于计算所述第一向量与所述第二向量的相似度数值;
确定子模块,用于将所述第一向量与所述第二向量的相似度数值,确定为所述第一全称与所述指定医学别名的指定相似度数值。
本实施例中,上述基于模型的缩写数据的实体识别装置中的输入子模块、转化子模块、计算子模块与确定子模块的功能和作用的实现过程具体详见上述基于模型的缩写数据的实体识别方法中对应步骤S600至S603的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述第一接收模块,包括:
获取子模块,用于获取预设的相似度阈值;
判断子模块,用于判断在所有所述指定相似度数值中是否存在大于所述相似度阈值的相似度数值;
第一判定子模块,用于若在所有所述指定相似度数值中存在大于所述相似度阈值的相似度数值,则判定在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名;
第二判定子模块,用于若在所有所述指定相似度数值中,不存在大于所述相似度阈值,则判定在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名。
本实施例中,上述基于模型的缩写数据的实体识别装置中的获取子模块、判断子模块、第一判定子模块与第二判定子模块的功能和作用的实现过程具体详见上述基于模型的缩写数据的实体识别方法中对应步骤S700至S703的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于模型的缩写数据的实体识别装置,包括:
第四获取模块,用于获取医学字典;
标注模块,用于按照预设的标注规则,对所述医学字典中包含的医学别名数据进行标注处理,生成标注后的医学字典;
第一确定模块,用于将所述标注后的医学字典作为所述指定医学字典。
本实施例中,上述基于模型的缩写数据的实体识别装置中的第四获取模块、标注模块与第一确定模块的功能和作用的实现过程具体详见上述基于模型的缩写数据的实体识别方法中对应步骤S300至S302的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于模型的缩写数据的实体识别装置,包括:
筛选模块,用于基于所述指定医学字典,筛选出所述医学文本中的候选缩写医学实体与全称医学实体;
第四判断模块,用于判断指定候选缩写医学实体是否同时属于所述指定医学字典中多个不同的医学概念的医学别名,其中,所述指定候选缩写医学实体为所述所有候选缩写医学实体中的任意一个数据;
第五判断模块,用于若同时属于所述指定医学字典中多个不同的医学概念的医学别名,则遍历所有所述全称医学实体,并判断所述全称医学实体中是否存在指定医学概念的医学别名,其中,所述指定医学概念为所述指定候选缩写医学实体所属的多个医学概念中的任意一个医学概念;
第二判定模块,用于若所述全称医学实体中存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体属于医学实体,且所述指定候选缩写医学实体与所述指定医学概念具有对应关系;
第三判定模块,用于若所述全称医学实体中不存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体不属于医学实体。
本实施例中,上述基于模型的缩写数据的实体识别装置中的筛选模块、第四判断模块、第五判断模块、第二判定模块与第三判定模块的功能和作用的实现过程具体详见上述基于模型的缩写数据的实体识别方法中对应步骤S800至S804的实现过程,在此不再赘述。
进一步地,本申请一实施例中,上述基于模型的缩写数据的实体识别装置,包括:
第四判定模块,用于若所有所述指定医学别名中不存在与所述第一全称意思相同的医学别名,则判定所述第一缩写不属于医学实体;
第一添加模块,用于对所述第一缩写添加非医学实体的标注。
本实施例中,上述基于模型的缩写数据的实体识别装置中的第四判定模块与第一添加模块的功能和作用的实现过程具体详见上述基于模型的缩写数据的实体识别方法中对应步骤S700至S701的实现过程,在此不再赘述。
进一步地,本申请一实施例中,基于模型的缩写数据的实体识别装置,还包括:
第二查找模块,用于从所述指定医学字典中查找出与所述第二医学概念对应的数据记录位置;
第二确定模块,用于在所述数据记录位置确定出一个填充位置;
第二添加模块,用于在所述填充位置添加所述第一全称。
本实施例中,上述基于模型的缩写数据的实体识别装置中的第二查找模块、第二确定模块与第二添加模块的功能和作用的实现过程具体详见上述基于模型的缩写数据的实体识别方法中对应步骤S700至S701的实现过程,在此不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储缩写-全称对数据、第一全称、指定医学字典、第一缩写、第二医学概念、孪生网络模型以及指定相似度数值等等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备,用于将数字信号转换为光信号,使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置,用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种基于模型的缩写数据的实体识别方法。
上述处理器执行上述基于模型的缩写数据的实体识别方法的步骤:
获取待识别的医学文本;
通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的;
根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名;
若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的装置、计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于模型的缩写数据的实体识别方法,具体为:
获取待识别的医学文本;
通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的;
根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名;
若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
综上所述,本申请实施例中提供的基于模型的缩写数据的实体识别方法、装置、计算机设备和存储介质,获取待识别的医学文本;通过预设算法查找出医学文本中出现的所有缩写-全称对数据;判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,指定缩写-全称对包括第一全称,以及与第一全称对应的第一缩写;若第一全称不是指定医学字典中第一医学概念的医学别名,则判断第一缩写是否为指定医学字典中第二医学概念的医学别名;若第一缩写是第二医学概念的医学别名,则从指定医学字典中获取第二医学概念包含的所有医学别名;将第一全称与指定医学别名输入至预设的孪生网络模型中,通过孪生网络模型获取第一全称与指定医学别名之间的指定相似度数值,其中,指定医学别名为第二医学概念包含的所有医学别名中的任意一个医学别名;根据指定相似度数值,判断在第二医学概念包含的所有医学别名中是否存在与第一全称意思相同的医学别名;若在第二医学概念包含的所有医学别名中存在与第一全称意思相同的医学别名,则判定第一缩写属于医学实体,且第一缩写与第二医学概念具有对应关系。通过本申请实施例,能够依据指定医学字典以及孪生网络模型的配合使用,来实现快速智能地确识别出医学文本中的缩写-全称对数据内的缩写数据是否属于医学实体,有效地提高了对于医学文本中的缩写-全称对数据内的缩写数据的实体识别的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于模型的缩写数据的实体识别方法,其特征在于,包括:
获取待识别的医学文本;
通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的;
根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名;
若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
2.根据权利要求1所述的基于模型的缩写数据的实体识别方法,其特征在于,所述孪生网络模型包括两个并行且相同的第一神经网络与第二神经网络,所述将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值的步骤,包括:
将所述第一全称输入至所述孪生网络模型中的第一神经网络内,以及将所述指定医学别名输入至所述孪生网络模型中的第二神经网络内;
通过所述第一神经网络将所述第一全称转化为对应的第一向量,以及通过所述第二神经网络将所述指定医学别名转化成对应的第二向量;
计算所述第一向量与所述第二向量的相似度数值;
将所述第一向量与所述第二向量的相似度数值,确定为所述第一全称与所述指定医学别名的指定相似度数值。
3.根据权利要求1所述的基于模型的缩写数据的实体识别方法,其特征在于,所述根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名的步骤,包括:
获取预设的相似度阈值;
判断在所有所述指定相似度数值中,是否存在大于所述相似度阈值的相似度数值;
若在所有所述指定相似度数值中,存在大于所述相似度阈值的相似度数值,则判定在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名;
若在所有所述指定相似度数值中,不存在大于所述相似度阈值,则判定在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名。
4.根据权利要求1所述的基于模型的缩写数据的实体识别方法,其特征在于,所述判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名的步骤之前,包括:
获取医学字典;
按照预设的标注规则,对所述医学字典中包含的医学别名数据进行标注处理,生成标注后的医学字典;
将所述标注后的医学字典作为所述指定医学字典。
5.根据权利要求1所述的基于模型的缩写数据的实体识别方法,其特征在于,所述若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系的步骤之后,包括:
基于所述指定医学字典,筛选出所述医学文本中的候选缩写医学实体与全称医学实体;
判断指定候选缩写医学实体是否同时属于所述指定医学字典中多个不同的医学概念的医学别名,其中,所述指定候选缩写医学实体为所述所有候选缩写医学实体中的任意一个数据;
若同时属于所述指定医学字典中多个不同的医学概念的医学别名,则遍历所有所述全称医学实体,并判断所述全称医学实体中是否存在指定医学概念的医学别名,其中,所述指定医学概念为所述指定候选缩写医学实体所属的多个医学概念中的任意一个医学概念;
若所述全称医学实体中存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体属于医学实体,且所述指定候选缩写医学实体与所述指定医学概念具有对应关系;
若所述全称医学实体中不存在指定医学概念的医学别名,则判定所述指定候选缩写医学实体不属于医学实体。
6.根据权利要求1所述的基于模型的缩写数据的实体识别方法,其特征在于,所述根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名的步骤之后,包括:
若在所述第二医学概念包含的所有医学别名中不存在与所述第一全称意思相同的医学别名,则判定所述第一缩写不属于医学实体;
对所述第一缩写添加非医学实体的标注。
7.根据权利要求1所述的基于模型的缩写数据的实体识别方法,其特征在于,所述若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体的步骤之后,包括:
从所述指定医学字典中查找出与所述第二医学概念对应的数据记录位置;
在所述数据记录位置确定出一个填充位置;
在所述填充位置添加所述第一全称。
8.一种基于模型的缩写数据的实体识别装置,其特征在于,包括:
第一获取模块,用于获取待识别的医学文本;
第一查找模块,用于通过预设算法查找出所述医学文本中出现的所有缩写-全称对数据;
第一判断模块,用于判断指定缩写-全称对中的第一全称,是否为预设的指定医学字典中第一医学概念的医学别名,其中,所述指定缩写-全称对为医学文本中出现的所有缩写-全称对数据中的任意一个缩写-全称对,所述指定缩写-全称对包括第一全称,以及与所述第一全称对应的第一缩写;
第二判断模块,用于若所述第一全称不是所述指定医学字典中第一医学概念的医学别名,则判断所述第一缩写是否为所述指定医学字典中第二医学概念的医学别名;
第二获取模块,用于若所述第一缩写是所述第二医学概念的医学别名,则从所述指定医学字典中获取所述第二医学概念包含的所有医学别名;
第三获取模块,用于将所述第一全称与指定医学别名输入至预设的孪生网络模型中,通过所述孪生网络模型获取所述第一全称与所述指定医学别名之间的指定相似度数值,其中,所述指定医学别名为所述第二医学概念包含的所有医学别名中的任意一个医学别名,所述孪生网络模型为基于预先采集的具有标注的样本数据对预设的神经网络模型进行训练后生成的;
第三判断模块,用于根据所述指定相似度数值,判断在所述第二医学概念包含的所有医学别名中是否存在与所述第一全称意思相同的医学别名;
第一判定模块,用于若在所述第二医学概念包含的所有医学别名中存在与所述第一全称意思相同的医学别名,则判定所述第一缩写属于医学实体,且所述第一缩写与所述第二医学概念具有对应关系。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941630.4A CN112036172B (zh) | 2020-09-09 | 2020-09-09 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
PCT/CN2020/125144 WO2021159757A1 (zh) | 2020-09-09 | 2020-10-30 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010941630.4A CN112036172B (zh) | 2020-09-09 | 2020-09-09 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112036172A CN112036172A (zh) | 2020-12-04 |
CN112036172B true CN112036172B (zh) | 2022-04-15 |
Family
ID=73585261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010941630.4A Active CN112036172B (zh) | 2020-09-09 | 2020-09-09 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112036172B (zh) |
WO (1) | WO2021159757A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204974B (zh) * | 2021-05-14 | 2022-06-17 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
CN114676319B (zh) * | 2022-03-01 | 2023-11-24 | 广州云趣信息科技有限公司 | 获取商家名称的方法、装置及可读存储介质 |
CN116167354B (zh) * | 2023-04-19 | 2023-07-07 | 北京亚信数据有限公司 | 医疗专业名词特征提取模型训练、标准化方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035918A (zh) * | 2014-06-12 | 2014-09-10 | 华东师范大学 | 一种采用上下文特征匹配的中文机构名简称识别系统 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
CN111460175A (zh) * | 2020-04-08 | 2020-07-28 | 福州数据技术研究院有限公司 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
CN111581960A (zh) * | 2020-05-06 | 2020-08-25 | 上海海事大学 | 一种获取医学文本语义相似度的方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093478B (zh) * | 2007-07-25 | 2010-06-02 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及系统 |
JP5581861B2 (ja) * | 2010-07-12 | 2014-09-03 | 富士通株式会社 | 検索装置,方法およびプログラム,ならびに検索機能を備えるデータパース装置 |
CN104881397B (zh) * | 2014-02-27 | 2018-01-30 | 富士通株式会社 | 缩写词扩展方法和装置 |
CN108460014B (zh) * | 2018-02-07 | 2022-02-25 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN108460016A (zh) * | 2018-02-09 | 2018-08-28 | 中云开源数据技术(上海)有限公司 | 一种实体名称分析识别方法 |
CN111444717A (zh) * | 2018-12-28 | 2020-07-24 | 天津幸福生命科技有限公司 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
-
2020
- 2020-09-09 CN CN202010941630.4A patent/CN112036172B/zh active Active
- 2020-10-30 WO PCT/CN2020/125144 patent/WO2021159757A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035918A (zh) * | 2014-06-12 | 2014-09-10 | 华东师范大学 | 一种采用上下文特征匹配的中文机构名简称识别系统 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
CN111460175A (zh) * | 2020-04-08 | 2020-07-28 | 福州数据技术研究院有限公司 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
CN111581960A (zh) * | 2020-05-06 | 2020-08-25 | 上海海事大学 | 一种获取医学文本语义相似度的方法 |
Non-Patent Citations (1)
Title |
---|
面向金融文本的实体识别与关系抽取研究;王树伟;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20160315;第I138-7610页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112036172A (zh) | 2020-12-04 |
WO2021159757A1 (zh) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814466B (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
CN112036172B (zh) | 基于模型的缩写数据的实体识别方法、装置和计算机设备 | |
CN109829155B (zh) | 关键词的确定方法、自动评分方法、装置、设备及介质 | |
CN112612894B (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN110032739B (zh) | 中文电子病历命名实体抽取方法及系统 | |
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN111581229A (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN112908473B (zh) | 基于模型的数据处理方法、装置、计算机设备和存储介质 | |
CN112016274B (zh) | 医学文本结构化方法、装置、计算机设备及存储介质 | |
CN111680634A (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN111177345A (zh) | 基于知识图谱的智能问答方法、装置和计算机设备 | |
CN109471793A (zh) | 一种基于深度学习的网页自动化测试缺陷定位方法 | |
CN112637282B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN109977014A (zh) | 基于区块链的代码错误识别方法、装置、设备及存储介质 | |
CN112329865A (zh) | 基于自编码器的数据异常识别方法、装置和计算机设备 | |
CN112463599A (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
CN113241138B (zh) | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 | |
CN113343696A (zh) | 电子病历命名实体的识别方法、装置、远程终端及系统 | |
CN113986581A (zh) | 数据聚合处理方法、装置、计算机设备和存储介质 | |
CN113343677A (zh) | 一种意图识别方法、装置、电子设备及存储介质 | |
CN113435180B (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN113961715A (zh) | 实体链接方法、装置、设备、介质及计算机程序产品 | |
CN113656588A (zh) | 基于知识图谱的数据对码方法、装置、设备和存储介质 | |
CN118035401A (zh) | 答案生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |