CN111435411A - 命名体类型识别方法和装置以及电子设备 - Google Patents
命名体类型识别方法和装置以及电子设备 Download PDFInfo
- Publication number
- CN111435411A CN111435411A CN201910036941.3A CN201910036941A CN111435411A CN 111435411 A CN111435411 A CN 111435411A CN 201910036941 A CN201910036941 A CN 201910036941A CN 111435411 A CN111435411 A CN 111435411A
- Authority
- CN
- China
- Prior art keywords
- word
- tag
- label
- type
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 156
- 239000011159 matrix material Substances 0.000 claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 62
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种命名体类型识别方法和装置以及电子设备。该方法包括:获取命名体字数据;获取预先设置的类型标签数据;对所述命名体字数据和所述类型标签数据进行字标签匹配处理,生成字标签对数据;根据所述字标签对数据中的各字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵;根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列;根据所述标签序列,确定命名体类型。本发明实施例不依赖于预先建立的标准,避免了对命名体文本进行分词处理,提高了命名体类型识别的准确性。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种命名体类型识别方法和装置以及电子设备。
背景技术
在快递行业,用户对智能配送的需求越来越多,针对不同地址类型的配送地址,用户会要求不同的配送体验。例如,针对普通住宅,要求送货上门;针对写字楼,要求工作日配送;或者,针对小区和别墅,要求避免明文透露私密信息等。因此,对地址类型的识别尤为重要。
地址作为一种具有特定意义的命名体,可以采用命名体类型识别的方式识别地址类型。目前通常采用的方式有:1、预先人工挖掘出命名体文本中代表命名体类型的后缀,建立后缀数据库,然后通过后缀匹配的方式识别命名体文本的命名体类型;2、预先通过训练数据建立分类模型,然后对命名体文本进行分词处理,将分词后的词作为命名体文本的分类特征,输入到分类模型中以判断命名体类型。
发明人在实现本发明的过程中,发现现有技术至少存在如下问题:现有的命名体类型识别方式都依赖于预先建立的标准(如,预先建立的后缀数据库,或预先建立的分类模型),并且需要确保分词的准确性,存在极大的限制性,如果预先建立的标准或者分词不准确,则影响命名体类型识别的准确性。
发明内容
本发明实施例提供一种命名体类型识别方法和装置以及电子设备,以解决现有技术中命名体类型识别方式依赖于预先建立的标准和分词准确性的缺陷。
为达到上述目的,本发明实施例提供了一种命名体类型识别方法,包括:
获取命名体字数据,其中,所述命名体字数据包括与命名体文本中的每个字对应的字向量;
获取预先设置的类型标签数据,其中,所述类型标签数据包括与每个类型标签对应的标签向量,所述类型标签用于标识所述命名体文本中的每个字在相应命名体类型中的位置信息;
对所述命名体字数据和所述类型标签数据进行字标签匹配处理,生成字标签对数据,所述字标签对数据包括与所述字和所述类型标签对应的字标签向量;
根据所述字标签对数据中的各所述字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵;
根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列;
根据所述标签序列,确定命名体类型。
本发明实施例还提供了一种命名体类型识别装置,包括:
第一获取模块,用于获取命名体字数据,其中,所述命名体字数据包括与命名体文本中的每个字对应的字向量;
第二获取模块,用于获取预先设置的类型标签数据,其中,所述类型标签数据包括与每个类型标签对应的标签向量,所述类型标签用于标识所述命名体文本中的每个字在相应命名体类型中的位置信息;
匹配处理模块,用于对所述命名体字数据和所述类型标签数据进行字标签匹配处理,生成字标签对数据,所述字标签对数据包括与所述字和所述类型标签对应的字标签向量;
第一概率矩阵生成模块,用于根据所述字标签对数据中的各所述字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵;
标签序列生成模块,用于根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列;
类型确定模块,用于根据所述标签序列,确定命名体类型。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
获取命名体字数据,其中,所述命名体字数据包括与命名体文本中的每个字对应的字向量;
获取预先设置的类型标签数据,其中,所述类型标签数据包括与每个类型标签对应的标签向量,所述类型标签用于标识所述命名体文本中的每个字在相应命名体类型中的位置信息;
对所述命名体字数据和所述类型标签数据进行字标签匹配处理,生成字标签对数据,所述字标签对数据包括与所述字和所述类型标签对应的字标签向量;
根据所述字标签对数据中的各所述字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵;
根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列;
根据所述标签序列,确定命名体类型。
本发明实施例提供的命名体类型识别方法和装置以及电子设备,通过对命名体文本中的命名体字数据和预先设置的类型标签数据进行匹配处理,得到分别与命名体字数据和类型标签数据相对应的字标签对数据、以及用于标识两者匹配概率的矩阵,进而通过概率矩阵对字标签对数据进行解码,从而确定命名体文本的命名体类型,不依赖于预先建立的标准,避免了对命名体文本进行分词处理,提高了命名体类型识别的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的业务系统的系统框图;
图2为本发明提供的命名体类型识别方法一个实施例的流程图;
图3为本发明提供的命名体类型识别方法另一个实施例的流程图;
图4为本发明实施例提供的命名体类型预测模型的结构示意图;
图5为本发明提供的命名体类型识别装置一个实施例的结构示意图;
图6为本发明提供的命名体类型识别装置另一个实施例的结构示意图;
图7为本发明提供的电子设备实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在现有技术中,针对命名体文本的命名体类型识别,依赖于预先建立的标准(如,预先建立的后缀数据库,或预先建立的分类模型),并且需要确保分词的准确性,存在极大的限制性,建立大规模后缀数据库需要大量的人力成本,且如果预先建立的标准不准确或者分词不准确,则影响命名体类型识别的准确性。因此,本申请提出了一种命名体类型识别方案,其主要原理是:通过对命名体文本中的命名体字数据和预先设置的类型标签数据进行匹配处理,得到分别与命名体字数据和类型标签数据相对应的字标签对数据、以及用于标识两者匹配概率的矩阵,进而通过概率矩阵对字标签对数据进行解码,从而确定命名体文本的命名体类型,不依赖于预先建立的标准,避免了对命名体文本进行分词处理,能够提高命名体类型识别的准确性。
本发明实施例提供的方法可应用于任何具有数据处理能力的业务系统。图1为本发明实施例提供的业务系统的系统框图,图1所示的结构仅仅是本发明的技术方案可以应用的业务系统的示例之一。如图1所示,该业务系统中包括识别装置。该装置包括:第一获取模块、第二获取模块、匹配处理模块、第一概率矩阵生成模块、标签序列生成模块和类型确定模块,可以用来执行下述图2和图3所示的处理流程。在该业务系统中,首先,对命名体字数据和类型标签数据进行字标签匹配处理,生成字标签对数据,其中,命名体字数据包括与命名体文本中的每个字对应的字向量,类型标签数据包括与每个类型标签对应的标签向量,该类型标签用于标识命名体文本中的每个字在相应命名体类型中的位置信息,字标签对数据包括与字和类型标签对应的字标签向量;然后,根据字标签对数据中的各字标签向量,生成用于标识字向量与标签向量的匹配概率的第一概率矩阵;并根据第一概率矩阵对由字标签向量组成的字标签向量序列进行解码处理,生成标签序列;接着,根据标签序列,确定命名体类型。上述方案不依赖于预先建立的标准,避免了对命名体文本进行分词处理,能够提高命名体类型识别的准确性。
上述实施例是对本发明实施例的技术原理和示例性的应用框架的说明,下面通过多个实施例来进一步对本发明实施例具体技术方案进行详细描述。
实施例一
图2为本发明提供的命名体类型识别方法一个实施例的流程图,该方法的执行主体可以为上述业务系统,也可以为具有数据处理能力的各种终端或服务器设备,也可以为集成在这些设备上的装置或芯片。如图2所示,该命名体类型识别方法包括如下步骤:
S201,获取命名体字数据。
在本发明实施例中,命名体是指具有特定意义的实体,例如,人名、地址、机构名称、专有名词等,而命名体类型则是指某类命名体所具有的类型。例如当命名体为人名时,其对应的人名类型可能包括性别、年龄、民族等;当命名体为地址时,其所对应的地址类型可能包括学校、公园、住宅、写字楼等等。在对命名体文本进行命名体类型识别时,首先从命名体文本中获取命名体字数据,具体地,该命名体字数据包括与命名体文本中的每个字对应的字向量。
S202,获取预先设置的类型标签数据。
在本发明实施例中,类型标签数据包括与每个类型标签对应的标签向量,其中,类型标签用于标识命名体文本中的每个字在相应命名体类型中的位置信息。在对命名体文本进行命名体类型识别时,当从命名体文本中获取命名体字数据后,可以获取预先设置的类型标签数据。当然,也可以在获取命名体字数据之前,提前获取类型标签数据,当获取到命名体字数据后,直接进行下述匹配操作。
S203,对命名体字数据和类型标签数据进行字标签匹配处理,生成字标签对数据。
在本发明实施例中,字标签对数据包括与字和类型标签对应的字标签向量。也就是说,生成的字标签对数据中,包括多个字标签向量,其中,每个字标签向量对应一个字和一个类型标签的组合。
S204,根据字标签对数据中的各字标签向量,生成用于标识字向量与标签向量的匹配概率的第一概率矩阵。
在本发明实施例中,根据上述生成的字标签对数据中的各个字标签向量,生成第一概率矩阵,该第一概率矩阵中的每一个元素为相应的一对字标签对中字向量与标签向量的匹配概率。
S205,根据第一概率矩阵对由字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
S206,根据标签序列,确定命名体类型。
在本发明实施例中,将各个字标签向量组成字标签向量序列,然后根据第一概率矩阵中各字向量与标签向量的匹配概率,对字标签向量序列进行解码处理,从而生成标签序列。具体地,可以采用维特比算法进行解码处理,以生成标签序列。该标签序列中的类型标签能够最大概率地体现命名体文本中每个字的相应命名体类型中的位置,因此,通过该标签序列确定出的命名体类型能够最大概率地与命名体文本相匹配,具有较高的准确性。
本发明实施例提供的命名体类型识别方法,通过对命名体文本中的命名体字数据和预先设置的类型标签数据进行匹配处理,得到分别与命名体字数据和类型标签数据相对应的字标签对数据、以及用于标识两者匹配概率的矩阵,进而通过概率矩阵对字标签对数据进行解码,从而确定命名体文本的命名体类型,不依赖于预先建立的标准,避免了对命名体文本进行分词处理,提高了命名体类型识别的准确性。
实施例二
图3为本发明提供的命名体类型识别方法另一个实施例的流程图。如图3所示,在上述图2所示实施例的基础上,本实施例提供的命名体类型识别方法还可以包括以下步骤:
S301,对原始命名体文本进行预处理,获取可进行词嵌入处理的命名体文本。
在实际应用中,初始获取到的原始命名体文本可能具有多种多样的形式。这些原始命名体文本可以来自于系统记录,也可以来自于用户的直接输入(语音、手写等等)。因此,需要对其进行预处理,以得到规范的命名体文本,如,在本发明实施例中,下述步骤需要对命名体文本进行词嵌入处理,以便将数据输入机器学习模型中进行处理,因此,在获取到原始命名体文本后,需要将其转换为可进行词嵌入处理的命名体文本。针对原始命名体文本的预处理过程是机器学习模型之外所进行的处理,对原始的命名体数据进行预处理后,才便于进行后续的模型处理。经过预处理后的命名体文本可以输入到机器学习模型中进行输出层的处理,即进行词嵌入处理以及上下文融合处理。
在本发明实施例中,针对原始命名体文本的预处理可以包括如下几个方面:噪音剔除、文本合并等等。
1)噪音剔除:用于将原始命名体文本中无意义或无效字符等等剔除。
2)文本转换:针对文本中的全角文本可转换为半角文本;针对文本中的繁体文本可转换为简体文本等。
图4为本发明实施例提供的命名体类型预测模型的结构示意图。该命名体类型预测模型即为用于根据原始命名体文本预测命名体类型的机器学习模型。该机器学习模型可采用有监督训练机制,训练数据可以来自于系统的历史命名体匹配数据,命名体文本对应的标定命名体类型分类结果,可以来自于系统的自动分类数据,也可以来自于经过人工标定的结果。如图4所示,在命名体类型的预测(识别)阶段,首先,将原始命名体文本输入到预处理模块进行噪音剔除和文本转换等操作,输出待处理的命名体文本。
S302,对命名体文本进行词嵌入处理,获取命名体字数据。
在本发明实施例中,可以采用词嵌入算法,对命名体文本进行特征权重计算,从而获取到每个字对应的字向量。
S303,获取预先设置的类型标签数据。
在本发明实施例中,类型标签数据包括与每个类型标签对应的标签向量,其中,类型标签用于标识命名体文本中的每个字在相应命名体类型中的位置信息。举例说明,假设针对命名体文本“南开大学”的每个字进行标注,其中,“南”对应标签“uni-B”,“开”对应标签“uni-M”,“大”对应标签“uni-M”,“学”对应标签“uni-E”。其中,“uni-B”代表“大学”类型的开始位置,“uni-M”代表“大学”类型的中间位置,“uni-E”代表“大学”类型的结束位置。
S304,对命名体字数据和类型标签数据进行字标签匹配处理,生成字标签对数据。
如图4所示,在命名体类型预测模型中,将待处理的命名体文本输入得到输入层,进行词嵌入处理,生成该命名体文本中每个字所对应的字向量。然后,结合预先设置的标签向量,进行字标签匹配处理,生成多个字标签对数据。
S305,根据字标签对数据中的各字标签向量,生成用于标识字向量与标签向量的匹配概率的第一概率矩阵。
在本发明实施例中,可以采用循环神经网络对字标签对数据中的各字标签向量进行处理,以生成第一概率矩阵。
S306,根据字标签对数据中的各字标签向量,生成用于标识各字标签向量间顺序关系的第二概率矩阵。
在本发明实施例中,可以采用序列标注模型对字标签对数据中的各字标签向量进行处理,获取标签与标签之间的上下文关系信息,以生成第二概率矩阵。如图4所示,在命名体类型预测模型中,采用循环神经网络对字标签对数据进行处理,得到第一概率矩阵;采用序列标注模型对字标签对数据进行处理,得到第二概率矩阵。
具体地,循环神经网络及序列标注模型可以通过下述公式(1)来进行优化处理:
其中,代表两个标签之间的状态转移矩阵,是字i到标签yi的发射概率。例如,“南开大学”中的“南”到“uni-B”的概率。对输入字序列X所对应的每个输出标签序列y计算这个分数,选择出分数最大的一个作为最终的输出标签序列,可以看出优化目标为最大化S(X,y)。
S307,根据第一概率矩阵和第二概率矩阵,对由字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
在本发明实施例中,可以采用维特比算法,将上述第一概率矩阵作为发射矩阵,将上述第二概率矩阵作为转移矩阵,对由字标签向量组成的字标签向量序列进行解码处理,从而生成标签序列。进一步通过对标签与标签之间的约束来降低解码的工作量,从而能够提高识别效率。
S308,根据标签序列,确定命名体类型。
如图4所示,在命名体类型预测模型中,在经过循环神经网络和序列标注模型的处理后,由字标签向量序列生成标签序列,进而有标签序列预测出命名体类型。
S309,采用词标注模型对多个命名体类型进行处理,获取核心命名体类型。
进一步地,当根据标签序列确定的命名体类型的数量为多个时,可以采用词标注模型对多个命名体类型进行处理。具体地,可以获取下列特征:当前词、当前词的前一个词、当前词的后一个词、当前词在POI列表中的位置、当前词的前一个词在POI(兴趣点)列表中的位置、当前词的后一个词在POI列表中的位置、当前词是否为方位词、当前词的前一个词是否为方位词、当前词的后一个词是否为方位词,采用以上特征,可以训练出一个词标注模型,从而预测当前词的标签,该词的标签为“是否为核心POI”。那么,将多个命名体类型输入到该词标注模块,则可以输出一个核心命名体类型,从而优化预测结果。
本发明实施例提供的命名体类型识别方法,通过采用机器学习模型对命名体文本中的命名体字数据和预先设置的类型标签数据进行处理,以生成命名体类型预测结果,在处理过程中,一方面提取了字标签对数据中字与标签之间的匹配关系特征,另一方面,在将多标签进行抽象表示时,引入了多标签的上下文关系信息,通过两方面的结合,使得对字到标签的预测结果能够更加合理,从而使得对于命名体类型的预测更加准确。
实施例三
图5为本发明提供的命名体类型识别装置一个实施例的结构示意图,可用于执行如图2所示的方法步骤。如图5所示,该命名体类型识别装置可以包括:第一获取模块51、第二获取模块52、匹配处理模块53、第一概率矩阵生成模块54、标签序列生成模块55和类型确定模块56。
其中,第一获取模块51用于获取命名体字数据,其中,命名体字数据包括与命名体文本中的每个字对应的字向量;第二获取模块52用于获取预先设置的类型标签数据,其中,类型标签数据包括与每个类型标签对应的标签向量,类型标签用于标识命名体文本中的每个字在相应命名体类型中的位置信息;匹配处理模块53用于对命名体字数据和类型标签数据进行字标签匹配处理,生成字标签对数据,该字标签对数据包括与字和类型标签对应的字标签向量;第一概率矩阵生成模块54用于根据字标签对数据中的各字标签向量,生成用于标识字向量与标签向量的匹配概率的第一概率矩阵;标签序列生成模块55用于根据第一概率矩阵对由字标签向量组成的字标签向量序列进行解码处理,生成标签序列;类型确定模块56用于根据标签序列,确定命名体类型。
在本发明实施例中,在对命名体文本进行命名体类型识别时,首先由第一获取模块51获取命名体字数据,由第二获取模块52获取预先设置的类型标签数据。然后,匹配处理模块53对第一获取模块51获取到的命名体字数据和第二获取模块52获取到的类型标签数据进行字标签匹配处理,生成字标签对数据,生成的字标签对数据中,包括多个字标签向量,其中,每个字标签向量对应一个字和一个类型标签的组合。然后,第一概率矩阵生成模块54根据匹配处理模块53生成的字标签对数据中的各字标签向量,生成第一概率矩阵,该第一概率矩阵中的每一个元素为相应的一对字标签对中字向量与标签向量的匹配概率;标签序列生成模块55则根据第一概率矩阵生成模块54生成第一概率矩阵对由匹配处理模块53生成的字标签向量组成的字标签向量序列进行解码处理,生成标签序列。具体地,标签序列生成模块55可以采用维特比算法进行解码处理。最后,类型确定模块56根据标签序列生成模块55生成的标签序列,确定命名体类型。
本发明实施例提供的命名体类型识别装置,通过对命名体文本中的命名体字数据和预先设置的类型标签数据进行匹配处理,得到分别与命名体字数据和类型标签数据相对应的字标签对数据、以及用于标识两者匹配概率的矩阵,进而通过概率矩阵对字标签对数据进行解码,从而确定命名体文本的命名体类型,不依赖于预先建立的标准,避免了对命名体文本进行分词处理,提高了命名体类型识别的准确性。
实施例四
图6为本发明提供的命名体类型识别装置另一个实施例的结构示意图,可以用于执行如图3所示的方法步骤。如图6所示,在上述图5所示实施例的基础上,本发明实施例提供的命名体类型识别装置,还可以包括:第二概率矩阵生成模块61。该第二概率矩阵生成模块61可以用于根据字标签对数据中的各字标签向量,生成用于标识各字标签向量间顺序关系的第二概率矩阵。
此时,标签序列生成模块55可以具体用于根据第一概率矩阵和第二概率矩阵,对由字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
在本发明实施例中,第二概率矩阵生成模块61可以采用序列标注模型对字标签对数据中的各字标签向量进行处理,获取标签与标签之间的上下文关系信息,以生成第二概率矩阵。标签序列生成模块55可以采用维特比算法,将上述第一概率矩阵生成模块54生成的第一概率矩阵作为发射矩阵,将上述第二概率矩阵生成模块61生成的第二概率矩阵作为转移矩阵,对由匹配处理模块53生成的字标签向量组成的字标签向量序列进行解码处理,从而生成标签序列。进一步通过对标签与标签之间的约束来降低解码的工作量,从而能够提高识别效率。
在本发明实施例中,第一获取模块51可以具体用于对命名体文本进行词嵌入处理,获取命名体字数据。
进一步地,本发明实施例提供的命名体类型识别装置,还可以包括:预处理模块62。该预处理模块62可以用于对原始命名体文本进行预处理,获取可进行词嵌入处理的命名体文本。
更进一步地,本发明实施例提供的命名体类型识别装置,还可以包括:推荐模块63。该推荐模块63可以用于当类型确定模块56根据标签序列确定的命名体类型的数量为多个时,采用词标注模型对多个命名体类型进行处理,获取核心命名体类型。
本发明实施例中各模块的功能详见上述方法实施例中的具体描述,在此不再赘述。
本发明实施例提供的命名体类型识别装置,通过采用机器学习模型对命名体文本中的命名体字数据和预先设置的类型标签数据进行处理,以生成命名体类型预测结果,在处理过程中,一方面提取了字标签对数据中字与标签之间的匹配关系特征,另一方面,在将多标签进行抽象表示时,引入了多标签的上下文关系信息,通过两方面的结合,使得对字到标签的预测结果能够更加合理,从而使得对于命名体类型的预测更加准确。
实施例五
以上描述了命名体类型识别装置的内部功能和结构,该装置可实现为一种电子设备。图7为本发明提供的电子设备实施例的结构示意图。如图7所示,该电子设备包括存储器71和处理器72。
存储器71,用于存储程序。除上述程序之外,存储器71还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器72,与存储器71耦合,执行存储器71所存储的程序,以用于:
获取命名体字数据,其中,命名体字数据包括与命名体文本中的每个字对应的字向量;
获取预先设置的类型标签数据,其中,类型标签数据包括与每个类型标签对应的标签向量,类型标签用于标识命名体文本中的每个字在相应命名体类型中的位置信息;
对命名体字数据和类型标签数据进行字标签匹配处理,生成字标签对数据,字标签对数据包括与字和类型标签对应的字标签向量;
根据字标签对数据中的各字标签向量,生成用于标识字向量与标签向量的匹配概率的第一概率矩阵;
根据第一概率矩阵对由字标签向量组成的字标签向量序列进行解码处理,生成标签序列;
根据标签序列,确定命名体类型。
进一步,如图7所示,电子设备还可以包括:通信组件73、电源组件74、音频组件75、显示器76等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。
通信组件73被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件73经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件73还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件74,为电子设备的各种组件提供电力。电源组件74可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件75被配置为输出和/或输入音频信号。例如,音频组件75包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器71或经由通信组件73发送。在一些实施例中,音频组件75还包括一个扬声器,用于输出音频信号。
显示器76包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (19)
1.一种命名体类型识别方法,其特征在于,包括:
获取命名体字数据,其中,所述命名体字数据包括与命名体文本中的每个字对应的字向量;
获取预先设置的类型标签数据,其中,所述类型标签数据包括与每个类型标签对应的标签向量,所述类型标签用于标识所述命名体文本中的每个字在相应命名体类型中的位置信息;
对所述命名体字数据和所述类型标签数据进行字标签匹配处理,生成字标签对数据,所述字标签对数据包括与所述字和所述类型标签对应的字标签向量;
根据所述字标签对数据中的各所述字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵;
根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列;
根据所述标签序列,确定命名体类型。
2.根据权利要求1所述的命名体类型识别方法,其特征在于,还包括:
根据所述字标签对数据中的各所述字标签向量,生成用于标识各所述字标签向量间顺序关系的第二概率矩阵;
所述根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列,具体包括:
根据所述第一概率矩阵和所述第二概率矩阵,对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
3.根据权利要求1所述的命名体类型识别方法,其特征在于,所述根据所述字标签对数据中的各所述字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵,包括:
采用循环神经网络对所述字标签对数据中的各所述字标签向量进行处理,生成所述第一概率矩阵。
4.根据权利要求2所述的命名体类型识别方法,其特征在于,所述根据所述字标签对数据中的各所述字标签向量,生成用于标识各所述字标签向量间顺序关系的第二概率矩阵,包括:
采用序列标注模型对所述字标签对数据中的各所述字标签向量进行处理,生成所述第二概率矩阵。
5.根据权利要求1所述的命名体类型识别方法,其特征在于,所述根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列,包括:
根据所述第一概率矩阵,采用维特比算法,对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
6.根据权利要求2所述的命名体类型识别方法,其特征在于,所述根据所述第一概率矩阵和所述第二概率矩阵,对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列,包括:
根据所述第一概率矩阵和所述第二概率矩阵,采用维特比算法,对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
7.根据权利要求1至6中任一权利要求所述的命名体类型识别方法,其特征在于,所述获取命名体字数据,具体包括:
对命名体文本进行词嵌入处理,获取命名体字数据。
8.根据权利要求7所述的命名体类型识别方法,其特征在于,在所述对命名体文本进行词嵌入处理,获取命名体字数据之前,还包括:
对原始命名体文本进行预处理,获取可进行词嵌入处理的命名体文本。
9.根据权利要求1至6中任一权利要求所述的命名体类型识别方法,其特征在于,当根据所述标签序列确定的命名体类型的数量为多个时,所述方法还包括:
采用词标注模型对多个所述命名体类型进行处理,获取核心命名体类型。
10.一种命名体类型识别装置,其特征在于,包括:
第一获取模块,用于获取命名体字数据,其中,所述命名体字数据包括与命名体文本中的每个字对应的字向量;
第二获取模块,用于获取预先设置的类型标签数据,其中,所述类型标签数据包括与每个类型标签对应的标签向量,所述类型标签用于标识所述命名体文本中的每个字在相应命名体类型中的位置信息;
匹配处理模块,用于对所述命名体字数据和所述类型标签数据进行字标签匹配处理,生成字标签对数据,所述字标签对数据包括与所述字和所述类型标签对应的字标签向量;
第一概率矩阵生成模块,用于根据所述字标签对数据中的各所述字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵;
标签序列生成模块,用于根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列;
类型确定模块,用于根据所述标签序列,确定命名体类型。
11.根据权利要求10所述的命名体类型识别装置,其特征在于,还包括:
第二概率矩阵生成模块,用于根据所述字标签对数据中的各所述字标签向量,生成用于标识各所述字标签向量间顺序关系的第二概率矩阵;
所述标签序列生成模块具体用于,根据所述第一概率矩阵和所述第二概率矩阵,对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
12.根据权利要求10所述的命名体类型识别装置,其特征在于,所述第一概率矩阵生成模块具体用于,采用循环神经网络对所述字标签对数据中的各所述字标签向量进行处理,生成所述第一概率矩阵。
13.根据权利要求10所述的命名体类型识别装置,其特征在于,所述第二概率矩阵生成模块具体用于,采用序列标注模型对所述字标签对数据中的各所述字标签向量进行处理,生成所述第二概率矩阵。
14.根据权利要求10所述的命名体类型识别装置,其特征在于,所述标签序列生成模块具体用于,根据所述第一概率矩阵,采用维特比算法,对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
15.根据权利要求11所述的命名体类型识别装置,其特征在于,所述标签序列生成模块具体用于,根据所述第一概率矩阵和所述第二概率矩阵,采用维特比算法,对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列。
16.根据权利要求10至15中任一权利要求所述的命名体类型识别装置,其特征在于,所述第一获取模块具体用于,对命名体文本进行词嵌入处理,获取命名体字数据。
17.根据权利要求16所述的命名体类型识别装置,其特征在于,还包括:
预处理模块,用于对原始命名体文本进行预处理,获取可进行词嵌入处理的命名体文本。
18.根据权利要求10至15中任一权利要求所述的命名体类型识别装置,其特征在于,还包括:
推荐模块,用于当根据所述标签序列确定的命名体类型的数量为多个时,采用词标注模型对多个所述命名体类型进行处理,获取核心命名体类型。
19.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以用于:
获取命名体字数据,其中,所述命名体字数据包括与命名体文本中的每个字对应的字向量;
获取预先设置的类型标签数据,其中,所述类型标签数据包括与每个类型标签对应的标签向量,所述类型标签用于标识所述命名体文本中的每个字在相应命名体类型中的位置信息;
对所述命名体字数据和所述类型标签数据进行字标签匹配处理,生成字标签对数据,所述字标签对数据包括与所述字和所述类型标签对应的字标签向量;
根据所述字标签对数据中的各所述字标签向量,生成用于标识所述字向量与所述标签向量的匹配概率的第一概率矩阵;
根据所述第一概率矩阵对由所述字标签向量组成的字标签向量序列进行解码处理,生成标签序列;
根据所述标签序列,确定命名体类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910036941.3A CN111435411B (zh) | 2019-01-15 | 2019-01-15 | 命名体类型识别方法和装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910036941.3A CN111435411B (zh) | 2019-01-15 | 2019-01-15 | 命名体类型识别方法和装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111435411A true CN111435411A (zh) | 2020-07-21 |
CN111435411B CN111435411B (zh) | 2023-07-11 |
Family
ID=71579931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910036941.3A Active CN111435411B (zh) | 2019-01-15 | 2019-01-15 | 命名体类型识别方法和装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111435411B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101021A (zh) * | 2020-09-03 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现标准词映射的方法、装置及设备 |
CN116150625A (zh) * | 2023-03-08 | 2023-05-23 | 华院计算技术(上海)股份有限公司 | 文本搜索模型的训练方法及装置、计算设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005064490A1 (en) * | 2003-12-31 | 2005-07-14 | Agency For Science, Technology And Research | System for recognising and classifying named entities |
US20090249182A1 (en) * | 2008-03-31 | 2009-10-01 | Iti Scotland Limited | Named entity recognition methods and apparatus |
WO2015185019A1 (zh) * | 2014-06-06 | 2015-12-10 | 北京搜狗科技发展有限公司 | 一种基于语义理解的表情输入方法和装置 |
EP3136257A2 (en) * | 2015-08-27 | 2017-03-01 | Xerox Corporation | Document-specific gazetteers for named entity recognition |
WO2017097166A1 (zh) * | 2015-12-11 | 2017-06-15 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
US20180357225A1 (en) * | 2017-06-13 | 2018-12-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
-
2019
- 2019-01-15 CN CN201910036941.3A patent/CN111435411B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005064490A1 (en) * | 2003-12-31 | 2005-07-14 | Agency For Science, Technology And Research | System for recognising and classifying named entities |
US20090249182A1 (en) * | 2008-03-31 | 2009-10-01 | Iti Scotland Limited | Named entity recognition methods and apparatus |
WO2015185019A1 (zh) * | 2014-06-06 | 2015-12-10 | 北京搜狗科技发展有限公司 | 一种基于语义理解的表情输入方法和装置 |
EP3136257A2 (en) * | 2015-08-27 | 2017-03-01 | Xerox Corporation | Document-specific gazetteers for named entity recognition |
WO2017097166A1 (zh) * | 2015-12-11 | 2017-06-15 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
US20180357225A1 (en) * | 2017-06-13 | 2018-12-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
张磊王礼敏: "特定领域命名实体识别通用方法的研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101021A (zh) * | 2020-09-03 | 2020-12-18 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现标准词映射的方法、装置及设备 |
CN116150625A (zh) * | 2023-03-08 | 2023-05-23 | 华院计算技术(上海)股份有限公司 | 文本搜索模型的训练方法及装置、计算设备 |
CN116150625B (zh) * | 2023-03-08 | 2024-03-29 | 华院计算技术(上海)股份有限公司 | 文本搜索模型的训练方法及装置、计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111435411B (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543030B (zh) | 客服机器人会话文本分类方法及装置、设备、存储介质 | |
CN109961792B (zh) | 用于识别语音的方法和装置 | |
CN112328761B (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN112509562B (zh) | 用于文本后处理的方法、装置、电子设备和介质 | |
CN112347760A (zh) | 意图识别模型的训练方法及装置、意图识别方法及装置 | |
CN107948437B (zh) | 熄屏显示方法和装置 | |
CN111312233A (zh) | 一种语音数据的识别方法、装置及系统 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN116863935B (zh) | 语音识别方法、装置、电子设备与计算机可读介质 | |
CN113239157B (zh) | 对话模型的训练方法、装置、设备和存储介质 | |
CN115935182A (zh) | 模型训练方法、多轮对话中的话题分割方法、介质及装置 | |
CN110890097A (zh) | 语音处理方法及装置、计算机存储介质、电子设备 | |
CN111435411B (zh) | 命名体类型识别方法和装置以及电子设备 | |
CN116757224A (zh) | 意图理解方法、装置、设备和介质 | |
CN111508472A (zh) | 一种语种切换方法、装置及存储介质 | |
CN111400463B (zh) | 对话响应方法、装置、设备和介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN117951547A (zh) | 基于人工智能的招投标数据处理方法及装置 | |
CN112069786A (zh) | 文本信息处理方法、装置、电子设备及介质 | |
CN117610539A (zh) | 意图执行方法、装置、电子设备及存储介质 | |
CN111126078B (zh) | 翻译的方法和装置 | |
CN115690552A (zh) | 多意图识别方法、装置、计算机设备及存储介质 | |
CN115730591A (zh) | 基于知识图谱的用户服务方法、装置、设备和存储介质 | |
CN115862604A (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN110399615B (zh) | 交易风险监控方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |