CN111078825A

CN111078825A - 结构化处理方法、装置、计算机设备及介质

Info

Publication number: CN111078825A
Application number: CN201911324544.2A
Authority: CN
Inventors: 贾巍; 戴岱; 肖欣延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-28
Also published as: US20210191937A1; US11615242B2; JP2021099798A

Abstract

本申请公开了一种结构化处理方法、装置、计算机设备及介质，涉及自然语言处理领域的信息处理技术领域。具体实现方案为：通过获取非结构化文本；将非结构化文本输入编码‑解码模型，以得到输出序列；编码‑解码模型是采用标注过设定各属性的属性值的训练文本训练得到；根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。该方法通过将非结构化文本输入编码‑解码模型，得到包含有多个属性元素和对应属性的属性值的输出序列，以根据输出序列生成结构化表示，使得对于不同场景的非结构化文本进行结构化抽取时，仅需要设置不同的属性，人工标注训练文本后重新对模型进行训练即可，提高了模型的移植性和通用性。

Description

结构化处理方法、装置、计算机设备及介质

技术领域

本申请涉及自然语言处理领域的信息处理技术领域，尤其设计一种结构化处理方法、装置、计算机设备及介质。

背景技术

在各个行业中，普遍存在以自然语言记录的文本，通常把这类文本定义为非结构化文本，如财务报表、新闻、病历等等。目前，在舆情分析、传播分析、数据平台服务等应用场景都存在结构化信息抽取的需求，即从非结构化文本中提取需要的结构化字段，如，从财务报表中提取公司名称、从新闻中提取袭击事件的地点、从病历中提取患者的情况，等等。

但是，现有的结构化信息抽取方法是由开发人员进行编程开发和定制的，对于不同的应用场景需要设置不同的抽取策略，使得抽取方法的场景移植性较弱。

发明内容

本申请第一方面实施例提出了一种结构化处理方法，包括：

获取非结构化文本；

将所述非结构化文本输入编码-解码模型，以得到输出序列；所述输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，所述编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到；

根据所述输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。

作为本申请实施例的第一种可能的实现方式，所述编码-解码模型包括编码器和解码器；所述将所述非结构化文本输入编码-解码模型，以得到输出序列，包括：

对所述非结构化文本切词，得到多个词元素；

对所述多个词元素顺序排列，得到输入序列；

将所述输入序列中的多个词元素输入所述编码器，进行语义编码，得到相应词元素的隐状态向量；其中，所述隐状态向量，用于指示相应词元素及其上下文的语义；

采用所述解码器，对各隐状态向量解码，得到所述输出序列中的各属性值；其中，所述解码器已学习得到各隐状态向量针对每一个属性值的注意力权重，以及依据所述注意力权重加权后的隐状态向量与相应属性值之间的映射关系。

作为本申请实施例的第二种可能的实现方式，所述输出序列为数据交换格式；所述数据交换格式的输出序列中包含至少一个对象，每一个对象包含所述多个属性元素；

所述将所述非结构化文本输入编码-解码模型，以得到输出序列之前，还包括：

获取多个训练文本；每一个所述训练文本具有对应的一个数据交换格式的标注信息，所述标注信息包含至少一个与训练文本中描述的实体相对应的对象，每一个对象包含用于描述相应实体各属性的属性值；其中，在同一对象中各属性的属性值之间的排序，与所述输出序列中相应属性的属性元素排序相同；

采用所述多个训练文本对所述编码-解码模型训练，以使所述编码-解码模型的输出序列与相应的标注信息之间的误差最小化。

作为本申请实施例的第三种可能的实现方式，所述根据所述输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示，包括：

从所述数据交换格式的输出序列中，提取属于同一对象的属性元素；

针对每一个对象，根据提取的属性元素中包含的各属性的属性值，生成相应对象的结构化表示；

根据各对象的结构化表示，生成所述非结构化文本的结构化表示。

作为本申请实施例的第四种可能的实现方式，各属性的属性值为文本位置和实际文本中的一种类型，其中，所述类型是根据相应属性的取值范围确定的，若取值范围有限则相应属性值为实际文本，若取值范围无限制则相应属性值为文本位置；

所述生成结构化表示之前，还包括：

对每一个属性元素，若包含的属性值为文本位置，将相应的属性值更新为所述非结构化文本中所述文本位置上的词元素。

作为本申请实施例的第五种可能的实现方式，所述对所述多个词元素顺序排列，得到输入序列，包括：

对所述多个词元素分别输入实体识别模型，得到每一个词元素的实体标签；

将每一个词元素与相应的实体标签拼接，作为所述输入序列中的一个元素。

本申请第二方面实施例提出了一种结构化处理装置，包括：

获取模块，用于获取非结构化文本；

处理模块，用于将所述非结构化文本输入编码-解码模型，以得到输出序列；所述输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，所述编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到；

生成模块，用于根据所述输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。

本申请第三方面实施例提出了一种计算机设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例中所述的结构化处理方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例中所述的结构化处理方法。

上述申请中的一个实施例具有如下优点或有益效果：通过获取非结构化文本；将非结构化文本输入编码-解码模型，以得到输出序列；输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到；根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。该方法通过将非结构化文本输入编码-解码模型，得到包含有多个属性元素和对应属性的属性值的输出序列，以根据输出序列生成结构化表示，使得对于不同场景的非结构化文本进行结构化抽取时，仅需要设置不同的属性，并人工标注训练文本后重新对模型进行训练即可，提高了模型的移植性和通用性。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的第一种结构化处理方法的流程的示意图；

图2为本申请实施例提供的第二种结构化处理方法的流程的示意图；

图3为本申请实施例提供的第三种结构化处理方法的流程的示意图；

图4为本申请实施例提供的第四种结构化处理方法的流程的示意图；

图5为本申请实施例提供的一种结构化处理装置的结构的示意图；

图6是用来实现本申请实施例的结构化处理方法的计算机设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

针对相关技术中采用一定的抽取策略从非结构化文本中抽取结构化信息时，对于不同场景需要设置不同的抽取策略，并且场景移植性较弱的技术问题，本申请提出了一种结构化处理方法，通过获取非结构化文本，将非结构化文本输入编码-解码模型，以得到输出序列，输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到，根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。由此，通过编码-解码模型对非结构化文本进行提取时，仅需要针对不同场景设置不同的属性即可生成对应的结构化表示，模型的可移植性和通用性强，适合更多的抽取需求。

下面结合参考附图描述本申请实施例的结构化处理方法、装置以及电子设备。

图1为本申请实施例提供的第一种结构化处理方法的流程示意图。

本申请实施例以该结构化处理方法被配置于结构化处理装置中来举例说明，该结构化处理装置可以应用于任一计算机设备中，以使该计算机设备可以执行结构化处理功能。

其中，计算机设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统的硬件设备。

如图1所示，该结构化处理方法可以包括以下步骤：

步骤101，获取非结构化文本。

其中，非结构化文本，是指用自然语言记录的文本。例如，个人简历、病人病历、新闻，等等。

在一种可能的情况下，非结构化文本，可以为用户输入的文本，例如，用户手动输入的非结构化文本，或者通过语音的方式输入的非结构化文本，等等，本申请实施例中对用户输入非结构化文本的方式不做限定。

在另一种可能的情况下，非结构化文本，还可以为从服务器端下载的文本。例如，从医院的病历管理系统里下载病人的病历。

需要说明的是，非结构化文本中包含有大量的信息，但是非结构化文本的数据量较大，因此，需要从非结构化文本中提取一些结构化的字段，例如，从财务报表中提取公司名称，从病历中提取患者的癌症分期情况，从个人简历中提取用户的技能，等等。

步骤102，将非结构化文本输入编码-解码模型，以得到输出序列。

其中，输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值。

相关技术中，对非结构化文本抽取结构化信息时，对于不同领域的非结构化文本，需要设置不同的抽取策略。然而，本申请中，针对不同场景，设置不同的属性，以使得非结构化文本输入编码-解码模型后，得到的输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，并且，各属性元素包含对应属性的属性值。

举例来说，假设非结构化文本为“胃体见一直径3cm的肿瘤”，将该结构化文本输入编码-解码模型中得到的输出序列可以为“{“肿瘤位置”:“胃体”，“肿瘤大小”:“3cm”}”。可见，该输出序列中包含两个属性元素，分别为肿瘤位置和肿瘤大小，并且每一个属性元素包含有对应属性的属性值，分别为胃体和3cm。

本申请实施例中，编码-解码模型(Encoder-Decoder)是采用标注过设定各属性的属性值的训练文本训练得到。由此，将非结构化文本输入编码-解码模型后，得到的输出序列中包含有多个属性元素，以及每一个属性元素包含对应属性的属性值。

对于不同领域的非结构化文本进行抽取结构化信息时，仅需要设置各属性，并人工标注训练文本后重新对编码-解码模型进行训练即可使用训练后的模型得到结构化文本。由此，提高了模型的可移植性和通用性，减少了开发人员的工作量。

可以理解为，编码-解码模型包括编码器和解码器，其中，编码器用于对非结构化文本进行编码，得到编码后的向量。解码器用于对编码后的向量进行解码，以得到输出序列中的各属性值。

在一种可能的情况下，将非结构化文本输入编码-解码模型，得到的输出序列为数据交换格式，并且数据交换格式的输出序列中包含至少一个对象，每一个对象包含多个属性元素。

在计算机的不同程序之间，或者不同的编程语言之间进行交换数据，也需要一种大家都能听得懂得“语言”，这就是数据交换格式，它通过文本以特定的形式来进行描述数据。例如，计算机设备常用的数据交换格式有可扩展标记语言(Extensible MarkupLanguage，简称XML)、JavaScript对象简谱(JavaScript Object Notation，简称JSON)、另一种标记语言(YAML Ain't Markup Language，简称YAML)，等等。

步骤103，根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。

本申请实施例中，将非结构化文本输入编码-解码模型，得到包含有多个属性元素的输出序列后，可以根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。

继续以上述示例为例，输出序列为“{“肿瘤位置”:“胃体”，“肿瘤大小”:“3cm”}”，该输出序列中包含两个属性元素，分别为肿瘤位置和肿瘤大小，并且每一个属性元素包含有对应属性的属性值，分别为胃体和3cm。由此，根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，可以生成结构化表示为“肿瘤位置：胃体&肿瘤大小：3cm”。

在一种可能的情况下，各属性的属性值为文本位置和实际文本中的一种类型，其中，类型是根据相应属性的取值范围确定的，若取值范围有限则相应属性值为实际文本，若取值范围无限制则相应属性值为文本位置。根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值生成结构化表示之前，对每一个属性元素，确定属性值是否为文本位置。

在一种可能的情况下，对于属性元素，若包含的属性值为文本位置，则将相应的属性值更新为非结构化文本中文本位置上的词元素。

举例来说，肿瘤大小这一属性的取值范围是无限制的，因袭，该属性元素包含的属性值为文本位置。

本申请实施例的结构化处理方法，通过获取非结构化文本，将非结构化文本输入编码-解码模型，以得到输出序列，输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到，根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。该方法通过将非结构化文本输入编码-解码模型，得到包含有多个属性元素和对应属性的属性值的输出序列，以根据输出序列生成结构化表示，使得对于不同场景的非结构化文本进行结构化抽取时，仅需要设置不同的属性，并人工标注训练文本后重新对模型进行训练即可，提高了模型的移植性和通用性。

在上述实施例的基础上，在上述步骤102中，作为一种可能的实现方式，可以对非结构化文本切词，得到多个词元素，并对多个词元素顺序排列，得到输入序列，将输入序列中的多个词元素输入编码器语义编码，得到相应词元素的隐状态向量，进一步的，采用解码器，对各隐状态向量解码，得到输出序列中的各属性值。下面结合图2对上述过程进行详细介绍，图2为本申请实施例提供的第二种结构化处理方法的流程示意图。

如图2所示，上述步骤102还可以包括以下步骤：

步骤201，对非结构化文本切词，得到多个词元素。

其中，切词，是将非结构化文本切分成一个个单独的词。

本申请实施例中，将非结构化文本输入编码-解码模型之前，首先对非结构化文本进行切词，以将非结构化文本切分成多个词元素。

步骤202，对多个词元素顺序排列，得到输入序列。

本申请实施例中，对非结构化文本切词，得到多个词元素后，对多个词元素顺序排列，得到输入序列。

作为一种可能的实现方式，可以将多个词元素分别输入实体识别模型，得到每一个词元素的实体标签，进而，将每一个词元素与相应的实体标签拼接，作为输入序列中的一个元素。

步骤203，将输入序列中的多个词元素输入编码器，进行语义编码，得到相应词元素的隐状态向量。

其中，隐状态向量，用于指示相应词元素及其上下文的语义。语义编码是通过词语对信息进行加工，按意义、系统分类或把言语材料用自己的语言形式加以组织和概括，找出材料的基本论点、论据、逻辑结构，按语义特征编码。

在自然语言处理中，自然语言文本是由一堆符号顺序拼接而成的不定长序列，很难直接转变为计算机所能理解的数值型数据，因而无法直接进行进一步的计算处理。隐状态向量由于包含了丰富的信息，使得深度学习能够处理绝大多数自然语言处理应用。

本申请实施例中，首先将输入序列中的多个词元素输入编码器，以对多个词元素进行语义编码，得到各词元素的隐状态向量。其中，得到的各词元素的隐状态向量，能够指示相应词元素及其上下文的语义。

需要说明的是，将输入序列中的多个词元素生成相应词元素的隐状态向量的方法有很多，例如，可以采用双向长短记忆网络(Bi-directionalLong Short-Term Memory，简称BiLSTM)，自注意力机制(Self Attention)，卷积神经网络(Convolutional NeuralNetwork,简称CNN)，等等。

本申请实施例中，对于编码器采用的编码技术不做任何限制。

步骤204，采用解码器，对各隐状态向量解码，得到输出序列中的各属性值。

其中，解码器已学习得到各隐状态向量针对每一个属性值的注意力权重，以及依据注意力权重加权后的隐状态向量与相应属性值之间的映射关系。

本申请实施例中，采用解码器对各隐状态向量进行解码时使用了注意力模型，以使得解码器根据各隐状态向量针对每一个属性值的注意力权重，依据注意力权重加权后的隐状态向量与相应属性值之间的映射关系，得到输出序列中的各属性值。

其中，注意力模型，即为attention注意力机制，可以分为空间注意力(SpatialAttention)和时间注意力(Temporal Attention)。也可以分为软注意力(Soft Attention)和硬注意力(Hard Attention)。Soft Attention是所有的数据都会注意，都会计算出相应的注意力权值，不会设置筛选条件。Hard Attention会在生成注意力权重后筛选掉一部分不符合条件的注意力，让它的注意力权值为0，即可以理解为不再注意这些不符合条件的部分。

本申请实施例的结构化处理方法，通过对非结构化文本切词，得到多个词元素，对多个词元素顺序排列，得到输入序列，将输入序列中的多个词元素输入编码器，进行语义编码，得到相应词元素的隐状态向量，采用解码器，对各隐状态向量解码，得到输出序列中的各属性值，其中，解码器已学习得到各隐状态向量针对每一个属性值的注意力权重，以及依据注意力权重加权后的隐状态向量与相应属性值之间的映射关系。由此，通过编码器-解码器将非结构化文本转化为包含各属性值的输出序列。

本申请实施例中，在将非结构化文本输入编码-解码模型以得到输出序列之前，需要采用多个训练文本对编码-解码模型进行训练，以使得编码-解码模型的输出序列与相应的标注信息之间的误差最小化。下面结合图3对上述过程进行详细介绍，图3 为本申请实施例提供的第三种结构化处理方法的流程示意图。

如图3所示，该结构化处理方法，还可以包括以下步骤：

步骤301，获取多个训练文本。

本申请实施例中，每一个训练文本具有对应的一个数据交换格式的标注信息，标注信息包含至少一个与训练文本中描述的实体相对应的对象，每一个对象包含用于描述相应实体各属性的属性值；其中，在同一对象中各属性的属性值之间的排序，与输出序列中相应属性的属性元素排序相同。

可以理解为，训练文本也是非结构化文本，在使用训练文本对编码-解码模型进行训练时，每一个训练文本中具有对应的一个数据交换格式的标注信息。

对每一个训练文本进行标注信息时，作为一种可能的情况，标注工作可以分任务进行，如从数据中选择2000条数据进行第一批标注，取名任务“胃癌病理第一次标注”。之后在模型训练时可以选择基于任一任务数据进行训练。由此，方便数据管理不同的抽取任务的不同模型版本。

本申请实施例中，对于训练文本也进行切词，得到多个词元素，将多个词元素分别输入实体识别模型，得到每一个词元素的实体标签，将每一个词元素与相应的实体标签拼接，作为输入序列中的一个元素。

需要说明的是，训练文本，可以是从服务器端下载的文本，也可以是用户手动输入的文本，在此不做限制。

步骤302，采用多个训练文本对编码-解码模型训练，以使编码-解码模型的输出序列与相应的标注信息之间的误差最小化。

本申请实施例中，采用多个训练文本对编码-解码模型训练，可以根据输出序列确定各属性元素对应的属性以及相应属性元素包含的属性值，经过若干轮的训练，使得编码-解码模型的输出序列与相应的标注信息之间的误差最小化。进而，根据编码- 解码模型的输出可以准确得到结构化信息。

本申请实施例的结构化处理方法，通过获取多个训练文本，采用多个训练文本对编码-解码模型训练，以使编码-解码模型的输出序列与相应的标注信息之间的误差最小化。由此，采用具有标注信息的训练文本对编码-解码模型训练，能够实现将非结构化文本输入编码-解码模型后，根据编码-解码模型的输出准确得到结构化信息，从而提高了结构化信息抽取的准确度。

在上述实施例的基础上，将非结构化文本输入采用多个训练文本训练后的编码-解码模型，可以生成结构化表示。作为一种可能的实现方式，可以从数据交换格式的输出序列中，提取属于同一对象的属性元素，针对每一个对象，根据提取的属性元素中包含的各属性的属性值，生成相应对象的结构化表示，进而，根据各对象的结构化表示，生成非结构化文本的结构化表示。下面结合图4对上述过程进行详细介绍，图 4为本申请实施例提供的第四种结构化处理方法的流程示意图。

如图4所示，该结构化处理方法，还可以包括以下步骤：

步骤401，从数据交换格式的输出序列中，提取属于同一对象的属性元素。

本申请实施例中，将非结构化文本输入编码-解码模型，得到的输出序列为数据交换格式，数据交换格式的输出序列中包含至少一个对象，每一个对象包含多个属性元素。因此，可以从数据交换格式的输出序列中，提取属于同一对象的属性元素。

举例来说，假设数据交换格式的输出序列为{“肿瘤位置”:“胃体”，“肿瘤大小”:“3cm”}”，可见，该输出序列中包含两个属性元素，分别为肿瘤位置和肿瘤大小，并且该输出序列中包含两个属性元素属于同一个肿瘤对象，可以从输出序列中提取出属于同一对象的属性元素分别为肿瘤位置和肿瘤大小。

需要说明的是，数据交换格式的输出序列中包含有多个对象时，可以从数据交换格式的输出序列中，提取属于每一个对象的属性元素。

步骤402，针对每一个对象，根据提取的属性元素中包含的各属性的属性值，生成相应对象的结构化表示。

本申请实施例中，从数据交换格式的输出序列中，提取属于同一对象的属性元素时，针对每一个对象，根据提取的属性元素中包含的各属性的属性值，可以生成相应对应的结构化表示。

继续以上述示例为例，数据交换格式的输出序列为{“肿瘤位置”:“胃体”，“肿瘤大小”:“3cm”}”，该输出序列中属于肿瘤这一对象的属性元素，分别为肿瘤位置和肿瘤大小，并且属性元素中包含的各属性的属性值分别为胃体和3cm。这种情况下，根据提取的属性元素中包含的各属性的属性值，生成相应对象的结构化表示为肿瘤位置：胃体&肿瘤大小：3cm。

步骤403，根据各对象的结构化表示，生成非结构化文本的结构化表示。

本申请实施例中，针对每一个对象，根据提取的属性元素中包含的各属性的属性值，生成相应对象的结构化表示后，可以根据各对象的结构化表示，生成非结构化文本的结构化表示。

本申请实施例的结构化处理方法，通过从数据交换格式的输出序列中，提取属于同一对象的属性元素，针对每一个对象，根据提取的属性元素中包含的各属性的属性值，生成相应对象的结构化表示，根据各对象的结构化表示，生成非结构化文本的结构化表示。由此，可以通过设置各属性，得到不同场景下的非结构化文本的结构化表示。

为了实现上述实施例，本申请实施例提出了一种结构化处理装置。

图5为本申请实施例提出的一种结构化处理装置的结构示意图。

如图5所示，该结构化处理装置500，可以包括：获取模块510、处理模块520 以及生成模块530。

其中，获取模块510，用于获取非结构化文本。

处理模块520，用于将非结构化文本输入编码-解码模型，以得到输出序列；输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到。

生成模块530，用于根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。

作为一种可能的情况，编码-解码模型包括编码器和解码器；处理模块520，还可以用于：

对非结构化文本切词，得到多个词元素；

对多个词元素顺序排列，得到输入序列；

将输入序列中的多个词元素输入编码器，进行语义编码，得到相应词元素的隐状态向量；其中，隐状态向量，用于指示相应词元素及其上下文的语义；

采用解码器，对各隐状态向量解码，得到输出序列中的各属性值；其中，解码器已学习得到各隐状态向量针对每一个属性值的注意力权重，以及依据注意力权重加权后的隐状态向量与相应属性值之间的映射关系。

作为另一种可能的情况，输出序列为数据交换格式；数据交换格式的输出序列中包含至少一个对象，每一个对象包含多个属性元素。

该结构化处理装置500，还可以包括：

文本获取模块，用于获取多个训练文本；每一个训练文本具有对应的一个数据交换格式的标注信息，标注信息包含至少一个与训练文本中描述的实体相对应的对象，每一个对象包含用于描述相应实体各属性的属性值；其中，在同一对象中各属性的属性值之间的排序，与输出序列中相应属性的属性元素排序相同。

训练模块，用于采用多个训练文本对编码-解码模型训练，以使编码-解码模型的输出序列与相应的标注信息之间的误差最小化。

作为另一种可能的情况，生成模块530，还可以用于：

从数据交换格式的输出序列中，提取属于同一对象的属性元素；

根据各对象的结构化表示，生成非结构化文本的结构化表示。

作为另一种可能的情况，各属性的属性值为文本位置和实际文本中的一种类型，其中，类型是根据相应属性的取值范围确定的，若取值范围有限则相应属性值为实际文本，若取值范围无限制则相应属性值为文本位置；该结构化处理装置500，还可以包括：

更新模块，用于对每一个属性元素，若包含的属性值为文本位置，将相应的属性值更新为非结构化文本中文本位置上的词元素。

作为另一种可能的情况，处理模块520，还可以用于：

对多个词元素分别输入实体识别模型，得到每一个词元素的实体标签；

将每一个词元素与相应的实体标签拼接，作为输入序列中的一个元素。

需要说明的是，前述对结构化处理方法实施例的解释说明也适用于该结构化处理装置，此处不再赘述。

本申请实施例的结构化处理装置，通过获取非结构化文本，将非结构化文本输入编码-解码模型，以得到输出序列，输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到，根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。该方法通过将非结构化文本输入编码-解码模型，得到包含有多个属性元素和对应属性的属性值的输出序列，以根据输出序列生成结构化表示，使得对于不同场景的非结构化文本进行结构化抽取时，仅需要设置不同的属性，并人工标注训练文本后重新对模型进行训练即可，提高了模型的移植性和通用性。

根据本申请的实施例，本申请还提供了一种计算机设备和一种可读存储介质。

如图6所示，是根据本申请实施例的结构化处理方法的计算机设备的框图。计算机设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。计算机设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该计算机设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的结构化处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的结构化处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的结构化处理的方法对应的程序指令/模块(例如，附图5所示的获取模块510、520和生成模块530)。处理器601 通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的结构化处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据结构化处理的计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至结构化处理的计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

结构化处理方法的计算机设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与结构化处理的计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604 可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机) 等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过获取非结构化文本；将非结构化文本输入编码-解码模型，以得到输出序列；输出序列中包含多个属性元素，每一个属性元素与设定的一个属性相对应，各属性元素包含对应属性的属性值；其中，编码-解码模型是采用标注过设定各属性的属性值的训练文本训练得到；根据输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种结构化处理方法，其特征在于，所述方法包括：

获取非结构化文本；

2.根据权利要求1所述的结构化处理方法，其特征在于，所述编码-解码模型包括编码器和解码器；所述将所述非结构化文本输入编码-解码模型，以得到输出序列，包括：

对所述非结构化文本切词，得到多个词元素；

对所述多个词元素顺序排列，得到输入序列；

3.根据权利要求1所述的结构化处理方法，其特征在于，所述输出序列为数据交换格式；所述数据交换格式的输出序列中包含至少一个对象，每一个对象包含所述多个属性元素；

4.根据权利要求3所述的结构化处理方法，其特征在于，所述根据所述输出序列中各属性元素对应的属性，以及相应属性元素包含的属性值，生成结构化表示，包括：

5.根据权利要求3所述的结构化处理方法，其特征在于，各属性的属性值为文本位置和实际文本中的一种类型，其中，所述类型是根据相应属性的取值范围确定的，若取值范围有限则相应属性值为实际文本，若取值范围无限制则相应属性值为文本位置；

所述生成结构化表示之前，还包括：

6.根据权利要求2所述的结构化处理方法，其特征在于，所述对所述多个词元素顺序排列，得到输入序列，包括：

7.一种结构化处理装置，其特征在于，所述装置包括：

获取模块，用于获取非结构化文本；

8.根据权利要求7所述的结构化处理装置，其特征在于，所述编码-解码模型包括编码器和解码器；所述处理模块，还用于：

对所述非结构化文本切词，得到多个词元素；

对所述多个词元素顺序排列，得到输入序列；

9.根据权利要求7所述的结构化处理装置，其特征在于，所述输出序列为数据交换格式；所述数据交换格式的输出序列中包含至少一个对象，每一个对象包含所述多个属性元素；所述装置，还包括：

文本获取模块，用于获取多个训练文本；每一个所述训练文本具有对应的一个数据交换格式的标注信息，所述标注信息包含至少一个与训练文本中描述的实体相对应的对象，每一个对象包含用于描述相应实体各属性的属性值；其中，在同一对象中各属性的属性值之间的排序，与所述输出序列中相应属性的属性元素排序相同；

训练模块，用于采用所述多个训练文本对所述编码-解码模型训练，以使所述编码-解码模型的输出序列与相应的标注信息之间的误差最小化。

10.根据权利要求9所述的结构化处理装置，其特征在于，所述生成模块，还用于：

11.根据权利要求9所述的结构化处理装置，其特征在于，各属性的属性值为文本位置和实际文本中的一种类型，其中，所述类型是根据相应属性的取值范围确定的，若取值范围有限则相应属性值为实际文本，若取值范围无限制则相应属性值为文本位置；所述装置，还包括：

更新模块，用于对每一个属性元素，若包含的属性值为文本位置，将相应的属性值更新为所述非结构化文本中所述文本位置上的词元素。

12.根据权利要求8所述的结构化处理装置，其特征在于，所述处理模块，还用于：

13.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的结构化处理方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的结构化处理方法。