CN114492306A

CN114492306A - 语料标注方法、装置、电子设备及存储介质

Info

Publication number: CN114492306A
Application number: CN202111357306.9A
Authority: CN
Inventors: 耿福明; 吴海英; 权圣; 蒋宁; 王洪斌
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-05-13

Abstract

本申请实施例公开了一种语料标注方法、装置、电子设备及存储介质。包括：获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息，所述标注信息包括每个初始标注语料对应的标签值和可信度；基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，所述多个分类语料集中每个分类语料集所包括的初始标注语料的标签值相同；基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集；将排序后的所述多个分类语料集发送给客户端进行核验；接收所述客户端返回的核验后的标注语料作为目标标注语料。

Description

语料标注方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，具体涉及一种语料标注方法、装置、电子设备及存储介质。

背景技术

在语音机器人的训练过程中，因为需要的标注语料非常多，但对标注语料进行核验的成本太高，因此可以结合核验和AI辅助标注的方式对语料进行标注。相关的语料标注方式标注速度还有待提高。

发明内容

鉴于上述问题，本申请提出了一种语料标注方法、装置、电子设备以及存储介质，以实现改善上述问题。

第一方面，本申请实施例提供了一种语料标注方法，所述方法包括：获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息，所述标注信息包括每个初始标注语料对应的标签值和可信度；基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，所述多个分类语料集中每个分类语料集所包括的初始标注语料的标签值相同；基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集；将排序后的所述多个分类语料集发送给客户端进行核验；接收所述客户端返回的核验后的初始标注语料作为目标标注语料。

第二方面，本申请实施例提供了一种语料标注装置，所述装置包括：第一标注单元，用于获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息，所述标注信息包括每个初始标注语料对应的标签值和可信度；分类单元，用于基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，所述多个分类语料集中每个分类语料集所包括的初始标注语料的标签值相同；排序单元，用于基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集；第二标注单元，用于将排序后的所述多个分类语料集发送给客户端进行核验；语料接收单元，用于接收所述客户端返回的核验后的初始标注语料作为目标标注语料。

第三方面，本申请实施例提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述方法的步骤。

本申请实施例提供了一种语料标注方法、装置、电子设备及存储介质。首先获取待标注语料，通过标注模型对待标注语料进行标注，得到待标注语料对应的初始标注语料和标注信息，然后基于标注信息中的标签值，对初始标注语料进行分类，再基于标注信息中的可信度对分类后的初始标注语料进行排序，将排序后的初始标注语料发送给客户端进行核验，接收客户端返回的待标注语料对应的目标标注语料。通过上述方法，可以对标注模型输出的初始标注语料进行分类再排序，得到按类排序后的初始标注语料，进而可以将按类排序后的初始标注语料发送给客户端进行核验，以便于标注员可以按照排序的顺序对初始标注语料进行标注，以提高对初始标注语料的标注速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提出的相关的语料标注方法的过程示意图；

图2示出了本申请一实施例提出的一种语料标注方法的过程示意示意图；

图3示出了本申请一实施例提出的一种语料标注方法的应用环境示意图；

图4示出了本申请一实施例提出的一种语料标注方法的流程图；

图5示出了本申请另一实施例提出的一种语料标注方法的流程图；

图6示出了本申请又一实施例提出的一种语料标注方法的流程图；

图7示出了本申请再一实施例提出的一种语料标注方法的流程图；

图8示出了本申请实施例提出的一种语料标注装置的结构框图；

图9示出了本申请实施例提出的一种语料标注装置的结构框图；

图10示出了本申请实时中的用于执行根据本申请实施例的语料标注方法的电子设备的结构框图；

图11示出了本申请实时中的用于保存或者携带实现根据本申请实施例的语料标注方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在语音机器人的训练过程中，因为需要的标注语料非常多，但对标注语料进行核验的成本太高，因此可以结合核验和AI辅助标注的方式对语料进行标注。其中，标注语料为经过标注后的语料。

如图1所示，图1为相关的语料标注方法的过程示意图。首先通过AI模型对未标注数据进行预测，得到初始标注结果，然后使用人工审核的方式对初始标注结果进行核验，生成已标注数据，再通过已标注数据对AI模型进行训练。然而在使用人工审核的方式对初始标注结果进行核验的过程中，每个标注任务的语料是杂乱无序的，标注员需要花费时间阅读和理解每条语料的含义，标注员不得不在不同类别的语料上进行来回切换，这样导致了标注效率较低，同时标注员也会感到疲惫。

因此，发明人提出了本申请中的数标注据方法、装置、电子设备以及存储介质。如图2所示，首先获取待标注语料，通过标注模型对待标注语料进行标注，得到待标注语料对应的初始标注语料和标注信息，然后基于标注信息中的标签值，对初始标注语料进行分类，再基于标注信息中的可信度对分类后的初始标注语料进行排序，再将排序后的初始标注语料发送给客户端进行核验，接收客户端返回的待标注语料对应的目标标注语料。通过上述方法，可以对标注模型输出的初始标注语料进行分类再排序，得到按类排序后的初始标注语料，进而可以将按类排序后的初始标注语料发送给客户端进行核验，以便于标注员可以按照排序的顺序对初始标注语料进行标注，以提高对初始标注语料的标注速度。

在对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及一种应用环境进行介绍。

图3示出了根据本申请的实施例可以将本申请描述的各种方法和装置在其中实施的语料标注系统100的示意图。参考图3，该语料标注系统100包括一个或多个电子设备110、服务器120以及将一个或多个电子设备耦接到服务器120的一个或多个通信网络130。

在本申请的实施例中，服务器120可以运行使得能够执行语料标注方法的一个或多个服务或软件应用。在一些实施方式中，服务器120可以为分布式系统的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

可选的，服务器120可以调用AI平台中的标注模型对待标注语料进行初始标注。其中，AI平台也可以理解为一个用于进行模型训练的服务器。

可以使用电子设备110对经过标注模型标注后的语料数据进行展示，以使标注员对经过标注模型标注后的语料数据进行人工核验。标注员对于错误标注进行修正，得到目标标注语料。电子设备110可以提供使电子设备110的用户能够与电子设备110进行交互的接口。电子设备110还可以经由该接口向用户输出信息，比如电子设备110可以通过该接口输入语料。

电子设备110可以为各种类型的计算机设备，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)以及可穿戴设备等。其中，便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等；可穿戴设备可以包括头戴式显示器和其他设备。电子设备110能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络130可以是任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络130可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

系统100还可以包括一个或多个数据库140。在某些实施例中，这些数据库可以用于存储待标注语料、初始标注语料和目标语料等。数据库140可以驻留在各种位置。例如，由服务器120使用的数据库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库140可以是不同的类型。在某些实施例中，由服务器120使用的数据库可以为关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

可选的，电子设备110也可以运行使得能够执行语料标注方法的一个或多个服务或软件应用。

下面将结合附图具体描述本申请的各实施例。

请参阅图4，本申请实施例提供的一种语料标注方法，本申请实施例的方法可以由如图3所示的服务器120或电子设备110执行，所述方法包括：

步骤S110：获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息。

在本申请实施例中，所述标注模型为已经训练好的，用于对待标注语料进行预测的机器学习模型。其中，标注模型的训练方式可以包括以下三种：监督学习、半监督学习和无监督学习。

其中，待标注语料可以是各种图像数据、语音数据或文本数据等。作为一种方式，在信贷催收场景中，所述待标注语料可以为信贷催收过程中产生的文本数据。通过本申请实施例中的语料标注方法可以准确识别信贷催收过程中用户的意图，以对用户在信贷催收过程中的疑问进行解答；作为另一种方式，在智能问答场景中，所述待标注语料可以为在智能问答过程中产生的语音数据或文本数据。通过本申请实施例中的语料标注方法可以准确识别智能问答过程中用户的问题，以对用户在智能问答过程中的问题进行解答。可选的，本申请实施例的语料标注方法还可以应用在智能客服场景；银行业务中的自助业务场景，比如自助办理银行卡等，在此不做具体限定。

可选的，待标注语料可以为预先存储在数据库中的数据，当需要获取待标注语料时，可以从数据库中获取对应的待标注语料。在本申请实施例中，获取的待标注语料中可以为很多语料组成的语料集。

作为一种方式，可以预先为数据库中存储的语料集设置对应的标识，进而在需要获取对应的待标识语料时，可以根据标识从数据库中获取对应的语料集，将该语料集作为待标注语料。

进而，在获取到待标注语料后，可以通过标注模型对待标注语料进行机器标注，得到初始标注语料和标注信息。具体地，可以将待标注语料输入标注模型，通过标注模型对待标注语料进行标注。

步骤S120：基于所述标注信息，对所述初始标注语料进行排序。

在本申请实施例中，标注信息可以理解为通过标注模型预测后得到的每条初始标注语料对应的信息。可以包括标签值、概率、可信度等，在此不做具体限定。

作为一种方式，在得到初始标注语料和标注信息后，可以根据标注信息中的某些参数对初始标注语料进行排序。比如，可以根据标注信息中的可信度对初始标注语料进行排序；或者结合标签值和可信度来对初始标注语料进行排序等。

步骤S130：将排序后的所述初始标注语料发送给客户端进行核验。

在本申请实施例中，在利用基于标注信息对初始标注语料进行排序之后，可以将排序后的初始标注语料发送给客户端。客户端可以将初始标注语料以及标注信息向标注员展示，以供标注员对初始标注语料进行人工核验。标注员对于错误标注进行修正，得到核验后的初始标注语料。

步骤S140：接收所述客户端返回的核验后的初始标注语料作为目标标注语料。

在本申请实施例中，目标标注语料为与待标注语料对应的最终的标注语料。

本申请提供的一种语料标注方法，首先获取待标注语料，通过标注模型对待标注语料进行标注，得到待标注语料对应的初始标注语料和标注信息，然后基于标注信息，对初始标注语料进行排序，再将排序后的初始标注语料发送给客户端进行核验，接收客户端返回的待标注语料对应的目标标注语料。通过上述方法，可以对标注模型输出的初始标注语料进行排序，得到排序后的初始标注语料，进而可以将排序后的初始标注语料发送给客户端进行核验，以便于标注员可以按照排序的顺序对初始标注语料进行标注，以提高对初始标注语料的标注速度。

请参阅图5，本申请实施例提供的一种语料标注方法，本申请实施例的方法可以由如图3所示的服务器120或电子设备110执行，所述方法包括：

步骤S210：获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息。

在本申请实施例中，所述标注信息包括每个初始标注语料对应的标签值和可信度，其中，每个初始标注语料对应多个标签值，且每个标签值对应有概率。

其中，所述标签值表征每个初始标注语料可能对应的分类，每个标签值对应的概率表征该初始标注语料属于该标签值对应的分类的可能性。在本申请实施例中，每个初始标注语料对应的多个标签值对应的概率相加为1。所述可信度表征对经过标注模型预测后的标签值为真的相信程度。

作为一种方式，待标注语料经过标注模型进行预测后，返回的结果时一个列表，列表里可以包括每个初始标注语料对应的多个标签值，以及每个标签值对应的概率。

例如，待标注语料为“人工我都已经扣下来了”，该待标注语料经过标注模型预测后，返回的是：

根据上述返回结果可以知道，初始标注语料“人工我都已经扣下来了”对应的标签值有“已扣款”、“卡里有钱”以及“闲聊”等，并且可以知道，标签值“已扣款”对应的概率为“0.4527423232462322”，标签值“卡里有钱”对应的概率为“0.4323088274460167”，标签值“闲聊”对应的概率为“0.1149488493077511”。上述三个标签值对应的概率的总和为1。

步骤S220：基于所述每个初始标注语料对应的多个标签值对应的概率，将所述初始标注语料划分为第一初始标注语料和第二初始标注语料，其中，所述第一初始标注语料为对应的多个标签值对应的概率均小于预设概率的初始标注语料。

在本申请实施例中，所述预设概率为预先设置的不需要发送给客户端进行核验的初始标注语料对应的标签值对应的最小概率。

作为一种方式，将每个初始标注语料对应的多个标签值对应的概率与预设概率进行比较。若每个初始标注语料对应的多个标签值对应的概率均小于预设概率，则将该初始标注语料划分为第一初始标注语料；若每个初始标注语料对应的多个标签值对应的概率中有大于或等于预设概率的概率，则将该初始标注语料划分为第二初始标注语料。其中，第一初始标注语料为需要发送给客户端进行核验的初始标注语料，第二初始标注语料为不需要发送给客户端进行核验的初始标注语料。示例性的，如上述待标注语料经过标注模型预测后返回的预测结果为：初始标注语料“人工我都已经扣下来了”对应的标签值有“已扣款”、“卡里有钱”以及“闲聊”等，并且标签值“已扣款”对应的概率为“0.4527423232462322”，标签值“卡里有钱”对应的概率为“0.4323088274460167”，标签值“闲聊”对应的概率为“0.1149488493077511”。若预设概率值为0.5，则将标签值“已扣款”对应的概率“0.4527423232462322”，标签值“卡里有钱”对应的概率“0.4323088274460167”，标签值“闲聊”对应的概率“0.1149488493077511”分别与预设概率0.5进行比较，比较后可以确定初始标注语料“人工我都已经扣下来了”对应的多个标签值对应的概率均小于预设概率，则将该初始标注语料“人工我都已经扣下来了”划分为第一初始标注语料。

作为另一种方式，可以先确定每个初始标注语料对应的多个标签值对应的概率中的最大概率，将确定的最大概率与预设概率进行比较，若确定的最大概率小于预设概率，则将该初始标注语料划分为第一初始标注语料；若确定的最大概率大于或等于预设概率，则将该初始标注语料划分为第二初始标注语料。示例性的，如上述，可以确定初始标注语料“人工我都已经扣下来了”对应的多个标签值对应的概率中的最大概率为“0.4527423232462322”，则只需要将最大概率“0.4527423232462322”与预设概率0.5进行比较，比较后，确定最大概率小于预设概率，则将初始标注语料“人工我都已经扣下来了”划分为第一初始标注语料。

可选的，在返回每个初始标注语料对应的多个标签值和每个标签值对应的概率时，可以先根据每个标签值对应的概率，按照从大到小的顺序对标签值进行排序，进而可以将第一个标签值对应的概率确定为最大概率。

步骤S230：基于所述标签值，对所述第一初始标注语料进行分类，得到多个第一分类语料集。

在本申请实施例中，根据第一初始标注语料对应的标注信息中包括的标签值，对第一初始标注语料进行分类。其中，标签值表征每个初始标注语料可能对应的分类。可选的，可以按照第一初始标注语料对应的标注信息中的标签值对第一初始标注语料进行分类时，可以将标签值相同的第一标注语料放在一起，作为一个第一分类语料集。

步骤S240：基于所述可信度，对所述每个第一分类语料集所包括的第一初始标注语料进行排序，得到排序后的多个第一分类语料集。

在本申请实施例中，可以按照可信度从大到小或者从小到大的顺序对每一个第一分类语料集进行排序，进而可以得到排序后的多个第一分类语料集。

步骤S250：将排序后的所述多个第一分类语料集发送给客户端进行核验。

在本申请实施例中，所述发送给客户端进行核验可以理解为发送给客户端进行人工标注，或者也可以理解为发送给客户端以使客户端中的特定应用程序对排序后的第一分类语料集中的第一初始标注语料进行校验。其中，特定应用程序可以为标注准确率更高的标注程序。

可选的，可以将按照上述顺序进行排序后的第一初始标注语料发送给客户端进行核验。在将排序后的多个第一分类语料集发送给客户端时，可以将具有相同标签值的第一分类语料集发送给同一客户端进行核验。

可选的，为了提高速度，还可以将具有相同标签值的第一分类语料集进行均分，将均分后的第一分类语料集分别发送给多个不同的客户端进行核验。

步骤S260：接收所述客户端返回的核验后的初始标注语料，将所述第二初始标注语料和所述核验后的初始标注语料作为目标标注语料。

在本申请实施例中，当客户端接收到排序后的多个第一分类语料集后，可以在客户端的显示界面显示该排序后的多个第一分类语料集，以使标注员对排序后的多个第一分类语料集中的第一初始标注语料进行逐一核验，对排序后的第一分类语料中的错误标注进行修正，直至将排序后的多个第一分类语料集核验完成。

当客户端对排序后的多个第一分类语料集核验完成后，将核验完成的排序后的多个第一分类语料集进行返回。将客户端返回的核验后的标注语料和第二初始标注语料作为最终的标注语料。

步骤S270：基于所述目标标注语料，对所述标注模型进行训练，得到训练后的标注模型。

在本申请实施例中，由于目标标注语料是经过人工核验的标注语料，因此，可以通过目标标注语料对标注模型进行训练，对前述的标注模型进行优化，使得优化后的标注模型对待标注数据的预测效果更好。

本申请提供的一种语料标注方法，通过标注模型对待标注语料进行标注，得到标注后的初始标注语料和标注信息，再根据概率对初始标注语料进行划分，得到对应的多个标签值对应的概率均小于预设概率的第一初始标注语料。进而可以通过标注信息中的标签值对第一初始标注语料进行分类，根据可信度对分类后的第一初始标注语料进行排序，得到排序后的多个第一分类语料集，从而可以将排序后的多个第一分类语料集发送给客户端进行核验，以便于标注员可以按照排序的顺序对排序后的多个第一分类语料集进行标注，以提高对第一初始标注语料的标注速度。再者，由于提高了对第一初始标注语料的标注速度，从而可以更快速的得到目标标注语料，进而通过目标标注语料对标注模型进行训练，可以更快的得到训练后的标注模型。

请参阅图6，本申请实施例提供的一种语料标注方法，本申请实施例的方法可以由如图3所示的服务器120或电子设备110执行，所述方法包括：

步骤S310：获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息，所述标注信息包括每个初始标注语料对应的标签值和可信度。

步骤S320：基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，所述多个分类语料集中每个分类语料集所包括的初始标注语料的标签值相同。

在本申请实施例中，所述标注信息包括每个初始标注语料对应的标签值和可信度。其中，标签值表征每个初始标注语料可能对应的分类，可信度表征对经过标注模型预测后的标签值为真的相信程度。

可选的，所述初始标注语料中每个初始标注语料对应多个标签值，每个标签值对应有概率。

由于每个初始标注语料对应有多个标签值，因此，如果基于多个标签值对初始标注语料进行分类的话，可能会造成分类混乱。因此，为了可以更好的对初始标注语料进行分类，在对初始标注语料进行分类时，可以选择只根据初始标注语料对应的一个标签值对初始标注语料进行分类。

作为一种方式，步骤S320可以包括：将每个初始标注语料对应的多个标签值中，对应的概率最大的标签值作为每个初始标注语料的分类标签值；基于所述每个标注语料的分类标签值，对所述初始标注语料进行分类。

其中，将所述每个初始标注语料对应的多个标签值对应的概率与预设概率进行比较，若所述多个标签值对应的概率中有大于所述预设概率的概率，则将所述多个标签值中对应的概率最大的标签值作为每个初始标注语料的分类标签值。

也就是说，在基于标签值，对初始标注语料进行分类时的标签值指的是与最大概率对应的标签值。因此，在基于标签值对初始标注语料进行分类时，可以先确定每个初始标注语料对应的多个标签值中与最大概率对应的标签值。具体的，可以将每个预标注对应的多个标签值对应的概率一一进行比较，比较后，可以确定与最大概率对应的标签值，也就确定了分类标签值。

进而，可以基于每个初始标注语料对应的分类标签值，对初始标注语料进行分类，将分类标签值相同的初始标注语料划分为同一类初始标注语料。一个或多个分类标签值相同的初始标注语料组成一个分类语料集。也就是说，在同一个分类语料集中的初始标注语料对应的分类标签值相同，属于同一个分类。

步骤S330：基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集。

作为一种方式，步骤S330之前还包括：基于每个初始标注语料对应的多个标签值各自对应的概率，计算每个初始标注语料对应的可信度。

在本申请实施例中，可以结合置信度描述法、边缘采样描述法以及熵描述法等三种方法来综合描述每个初始标注语料对应的可信度。

其中，置信度描述法为选取与最大概率对应的标签值的概率来描述可信度。最大概率越小，表征可信度越低，可以通过以下公式进行表示：

h1＝max(pi)，其中，h1表示可信度，pi表示概率集合中，第i个标签值对应的概率。示例性的，初始标注语料1对应的标签值包括“已扣款”、“卡里有钱”以及“闲聊”，并且标签值“已扣款”对应的概率为0.45、标签值“卡里有钱”对应的概率为0.43以及标签值“闲聊”对应的概率为0.12，此时，可信度＝0.45。

边缘采样描述法使用最大可能类的概率(最大概率)和第二大可能类的概率(第二大概率)的差值来描述可信度。这个差值越小表明可信度越低，同样的，也可以通过以下公式进行表示：

h2＝p_max-p_max2，其中，h2表示边缘采样的可信度，p_max表示最大可能类的概率，p_max2表示第二大可能类的概率。

熵描述法，在数学中，常常用熵来衡量一个系统的不确定性，熵越大表示可信度越低，信息熵的计算公式可以如下所示：

其中，h3表示信息熵，p(i)表示第i个标签值对应的概率。

将上述三种方法进行综合，置信度描述法的可信度区间在[0，1]，边缘采样描述法的可信度区间在[0，1]，信息熵的可信度区间在[0，1nM]，M表示分类的类别数，将三者进行归一化处理，权重值都是1，因此，本申请实施例中定义的可信度的计算公式如下：

其中，accept_rate表示每个初始标注语料的可信度。

可选的，可以通过上述方法计算得到每个初始标注语料对应的可信度，进而可以根据每个初始标注语料对应的可信度，按照从大到小或者从小到大的顺序对初始标注语料进行排序。作为其中一种方式，在对初始标注语料进行排序时，可以根据每个分类语料集中所包括的初始标注语料的可信度，按照从大到小或者从小到大的顺序对每个分类语料集中所包括的初始标注语料进行排序。

步骤S340：将排序后的所述多个分类语料集发送给客户端进行核验。

在本申请实施例中，当通过上述方法得到排序后的多个分类语料集后，可以选择将多个分类语料集发送给客户端进行核验。

作为一种方式，将所述排序后的多个分类语料集中，属于同一分类语料集的初始标注语料发送给同一客户端进行核验。

也就是说，可以将排序后的多个分类语料集分别发送给多个不同的客户端进行核验。一个排序后的分类语料集发送给一个客户端进行核验。

作为另一种方式，为了节省人工，可以将排序后的多个分类语料集按照排序后的顺序发送给一个客户端进行核验。可选的，也可以将排序后的多个分类语料集中的一个或多个分类语料集发送给一个客户端进行核验，将排序后的多个分类语料集中剩余的分类语料集发送给另一个客户端进行核验，在此不做具体限定。

步骤S350：接收所述客户端返回的核验后的初始标注语料作为目标标注语料。

在本申请实施例中，若将排序后的分类语料集发送给了多个客户端进行核验，由于不同分类语料集中包括的初始标注语料的数量不同，继而，在进行核验时，多个客户端可能不会同时返回标注后的标注语料。因此，可以在等到多个客户端都返回了标注后的标注语料后，将多个客户端返回的标注语料进行整合，按照同一标签值的标注语料放在一起的方式，对多个客户端返回的标注后的标注语料进行整合。

进而，将整合后的标注语料作为待标注语料对应的目标标注语料。

本申请提供的一种语料标注方法，通过标签值对初始标注语料进行分类，得到多个分类语料集，再通过可信度对每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集。进而可以将排序后的多个分类语料集发送给客户端进行核验，以便于标注员可以按照排序的顺序对多个分类语料集进行标注，以提高对初始标注语料的标注速度。

请参阅图7，本申请实施例提供的一种语料标注方法，应用于语料标注系统，所述语料标注系统可以包括标注平台前端、标注平台后端、AI平台，所述方法包括：

步骤S410：在标注平台前端选择要标注的语料集，向标注平台后端发送创建标注任务请求。

在本申请实施例中，所述标注平台前端相当于web端，也就是客户端。标注平台后端可以理解为数据处理服务器。

在标注平台前端的显示界面中可以显示所有待标注语料集。进而，用户可根据需求在标注平台前端的显示界面中选择要标注的待标注语料集，并向标注平台后端发送创建标注任务请求。

步骤S420：标注平台后端基于所述创建标注任务请求，创建标注任务。

作为一种方式，所述创建标注任务请求中可以携带待标注数据的标注状态、标注任务类型以及标注的分配策略等创建参数。其中，待标注数据的标注状态可以包括已标注状态、未标注状态和标注中状态；标注任务类型可以包括文本分类标注、图像分类标注、OCR标注以及物体检测标注等；标注的分配策略可以包括按照标注员平均分配，以及按照标注员的标注数量数分配等，当然，标注的分配策略可以根据用户需求实时生成，在此不做具体限定。

标注平台后端在接收到该创建标注任务请求后，根据请求中携带的创建参数，创建对应的标注任务，并向标注平台前端发送标注任务创建成功的通知。

步骤S430：标注平台后端开启智能标注，从数据集中获取要标注的语料集。

在本申请实施例中，标注平台后端向标注平台前端发送了标注任务创建成功的通知后，开启智能标注，从数据库中获取用户选择的要进行标注的待标注语料。

作为一种方式，当用户在标注平台前端的显示界面中选择了要标注的待标注语料集后，标注平台前端可以将用户选择的待标注语料集的ID发送给标注平台后端，当标注平台后端接收到该ID后，可以通过该ID查询数据库，得到这个待标注语料集的地址，进而可以通过地址从数据库中获取到要标注的待标注语料。

步骤S440：标注平台后端调用AI平台，进行模型批量预测。

在本申请实施例中，所述AI平台可以理解为一个用于训练标注模型和通过标注模型对待标注语料进行预测的处理服务器。当标注平台后端获取到待标注语料集后，可以通过AI平台提供的训练和预测的openApi，直接调用AI平台执行预测。具体的，AI平台调用标注模型对待标注语料进行批量预测，预测结束后，AI平台可以向标注平台后端返回批量预测结果。

步骤S450：标注平台后端接收AI平台返回的批量预测结果，生成初始标注语料集。

在本申请实施例中，为了记录标注过程。当标注平台接收到AI平台返回的批量预测结果后，可以将该批量预测结果写入到数据库中进行存储，将该批量预测结果作为初始标注语料集。

步骤S460：标注平台后端通过ElasticSearch中间件对所述初始标注语料集按照标签排序。

在本申请实施例中，ElasticSearch简称ES，是一个开源的分布式、RESTful风格的搜索和数据分析引擎，它的底层是开源库Apache Lucene。它能很方便的使大量数据具有搜索、分析和探索的能力。在本申请实施例中可以使用ElasticSearch对初始标注语料按照标签进行排序。

作为一种方式，当获取到初始标注语料集后，可以将初始标注语料集中对应的标签值的最大概率小于预设概率的初始标注语料划分为第一初始标注语料集；将初始标注语料集中对应的标签值的最大概率大于或等于预设概率的初始标注语料划分为第二标注语料集。

然后，可以通过ElasticSearch中间件对第一标注语料集按照标注状态(未标注状态)、标签值(同一标签值)和可信度从大到小或者从小到大的顺序进行排序。

其中，标注状态可以为ElasticSearch中间件为不同的初始标注语料定义的基本属性。在本申请实施例中，基本属性可以包括：标注状态(已标注状态、未标注状态和标注中状态)，标签值(来自标注模型预测)，可信度(语料排序的衡量指标)。

在本申请实施例中，可以将第一标注语料集插入到ElasticSearch中间件中，通过ElasticSearch中间件将第一初始标注语料集的标注状态设置为未标注状态，进而，可以通过ElasticSearch中间件对第一标注语料集按照同一标签值、可信度从大到小或者从小到大的顺序进行排序。

其中，ElasticSearch中间件的插入语句为：

进而可以通过标签值和标注状筛选语料，得到同一标签值的初始标注语料集合。

其中，ElasticSearch中间件的查询语句为：

可选的，还可以通过ElasticSearch中间件对第一初始标注语料集进行切分，给每个客户端创建标注子任务，并把标注子任务的标注语料的标注状态设置为标注中状态。

步骤S470：标注平台后端将排序后的初始标注语料集发送给标注平台前端，以使用户在客户端对所述排序后的初始标注语料集进行核验。

在本申请实施例中，为了标注过程留下记录，标注平台后端可以将排序后的第一初始标注语料集写到数据库中进行存储，如果不存储，排序后的第一初始标注语料集是暂时存放在内存上的，当遇到应用重启时，会把排序后的第一初始标注语料集作为垃圾回收掉。如果将排序后的第一初始标注语料集存储在数据库中，标注员可以随时执行标注任务，随时都可以从数据库中得到排序后的第一初始标注语料库。

再者，每一个语料在进行存储时，一般都是以txt格式进行存储的，即便对几十万条的语料进行存储，也只需几MB大小的存储空间。因此，可以对标注过程中产生的标注语料进行实时存储。

步骤S480：标注平台后端接收标注平台前端发送的核验后的初始标注语料集，生成目标标注语料。

步骤S490：标注平台后端异步调用AI平台，使用所述目标标注语料触发模型训练，得到训练后的标注模型。

在本申请实施例中，由于训练标注模型和标注任务无关，不需要等待标注模型训练和更新完成再通知标注成功。因此，可以异步调用AI平台，通过AI平台提供的模型训练的openApi触发对标注模型进行训练。

作为一种方式，在通过目标标注语料对标注模型进行训练时，模型训练成功的标准可以为通过标注模型跑完目标标注语料，执行完测试验证过程，并且测试验证的指标(精确度，召回率，F1值)满足要求。此时，AI平台提供的openApi中可以提供回调地址，训练成功后，AI平台回调标注平台后端，告知模型训练成功。

作为另一种方式，一般标注模型都是存储在一个模型文件中执行，当通过上述方法训练得到新的标注模型后，可以将新的标注模型的模型文件替代老的模型文件，为后续的标注任务提供批量预测服务。此时，可以将老的模型文件进行回收。

本申请提供的一种语料标注方法，通过上述方法，可以对标注模型输出的初始标注语料进行排序，得到排序后的初始标注语料，进而可以将排序后的初始标注语料发送给客户端进行核验，以便于标注员可以按照排序的顺序对初始标注语料进行标注，以提高对初始标注语料的标注速度。

请参阅图8，本申请实施例提供的一种语料标注装置500，所述装置500包括：

第一标注单元510，用于获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息，所述标注信息包括每个初始标注语料对应的标签值和可信度。

分类单元520，用于基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，所述多个分类语料集中每个分类语料集所包括的初始标注语料的标签值相同。

作为一种方式，所述分类单元520还用于将每个初始标注语料对应的多个标签值中，对应的概率最大的标签值作为每个初始标注语料的分类标签值；基于所述每个标注语料的分类标签值，对所述初始标注语料进行分类。

可选的，所述分类单元520还用于将所述每个初始标注语料对应的多个标签值对应的概率与预设概率进行比较，若所述多个标签值对应的概率中有大于所述预设概率的概率，则将所述多个标签值中对应的概率最大的标签值作为每个初始标注语料的分类标签值。

作为另一种方式，所述分类单元520还用于基于所述标签值，对所述第一初始标注语料进行分类，得到多个第一分类语料集。

排序单元530，用于基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集。

作为一种方式，所述初始标注语料中每个初始标注语料对应多个标签值，每个标签值对应有概率。所述排序单元530还用于基于每个初始标注语料对应的多个标签值各自对应的概率，计算每个初始标注语料对应的可信度。

再者，所述排序单元530还用于基于所述可信度，对所述每个第一分类语料集所包括的第一初始标注语料进行排序，得到排序后的多个第一分类语料集。

第二标注单元540，用于将排序后的所述初始标注语料发送给客户端进行核验。

作为一种方式，所述第二标注单元540用于将排序后的所述多个分类语料集发送给客户端进行核验。

作为另一种方式，所述第二标注单元540还用于将所述排序后的多个分类语料集中，属于同一分类语料集的初始标注语料发送给同一客户端进行核验。

可选的，所述第二标注单元540还用于将排序后的所述多个第一分类语料集发送给客户端进行核验。

语料接收单元550，用于接收所述客户端返回的核验后的初始标注语料作为目标标注语料。

作为一种方式，所述语料接收单元550还用于接收所述客户端返回的核验后的初始标注语料，将所述第二初始标注语料和所述核验后的初始标注语料作为目标标注语料。

请参阅图9，所述装置500还包括：

语料划分单元560，用于基于所述每个初始标注语料对应的多个标签值对应的概率，将所述初始标注语料划分为第一初始标注语料和第二初始标注语料，其中，所述第一初始标注语料为对应的多个标签值对应的概率均小于预设概率的初始标注语料。

模型训练单元570，用于基于所述目标标注语料，对所述标注模型进行训练，得到训练后的标注模型。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图10对本申请提供的一种电子设备进行说明。

请参阅图10，基于上述的语料标注方法、装置，本申请实施例还提供的另一种可以执行前述语料标注方法的电子设备800。电子设备800包括相互耦合的一个或多个(图中仅示出一个)处理器802、存储器804以及网络模块806。其中，该存储器804中存储有可以执行前述实施例中内容的程序，而处理器802可以执行该存储器804中存储的程序。

其中，处理器802可以包括一个或者多个处理核。处理器802利用各种接口和线路连接整个电子设备800内的各个部分，通过运行或执行存储在存储器804内的指令、程序、代码集或指令集，以及调用存储在存储器804内的数据，执行电子设备800的各种功能和处理数据。可选地，处理器802可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器802可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器802中，单独通过一块通信芯片进行实现。

存储器804可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器804可用于存储指令、程序、代码、代码集或指令集。存储器804可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备800在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

所述网络模块806用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。所述网络模块806可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块806可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块806可以与基站进行信息交互。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

本申请提供的一种语料标注方法、装置、电子设备以及存储介质，首先获取待标注语料，通过标注模型对待标注语料进行标注，得到待标注语料对应的初始标注语料和标注信息，然后基于标注信息中的标签值，对初始标注语料进行分类，再基于标注信息中的可信度对分类后的初始标注语料进行排序，接收客户端返回的待标注语料对应的目标标注语料。通过上述方法，可以对标注模型输出的初始标注语料进行分类再排序，得到按类排序后的初始标注语料，进而可以将按类排序后的初始标注语料发送给客户端进行核验，以便于标注员可以按照排序的顺序对初始标注语料进行标注，以提高对初始标注语料的标注速度。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语料标注方法，其特征在于，所述方法包括：

获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息，所述标注信息包括每个初始标注语料对应的标签值和可信度；

基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，所述多个分类语料集中每个分类语料集所包括的初始标注语料的标签值相同；

基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集；

将排序后的所述多个分类语料集发送给客户端进行核验；

接收所述客户端返回的核验后的初始标注语料作为目标标注语料。

2.根据权利要求1所述的方法，其特征在于，所述初始标注语料中每个初始标注语料对应多个标签值，每个标签值对应有概率，所述基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集之前还包括：

基于每个初始标注语料对应的多个标签值各自对应的概率，计算每个初始标注语料对应的可信度。

3.根据权利要求2所述的方法，其特征在于，所述基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，包括：

将每个初始标注语料对应的多个标签值中，对应的概率最大的标签值作为每个初始标注语料的分类标签值；

基于所述每个标注语料的分类标签值，对所述初始标注语料进行分类。

4.根据权利要求3所述的方法，其特征在于，所述将每个初始标注语料对应的多个标签值中，对应的概率最大的标签值作为每个初始标注语料的分类标签值，包括：

将所述每个初始标注语料对应的多个标签值对应的概率与预设概率进行比较，若所述多个标签值对应的概率中有大于所述预设概率的概率，则将所述多个标签值中对应的概率最大的标签值作为每个初始标注语料的分类标签值。

5.根据权利要求1所述的方法，其特征在于，所述将排序后的所述多个分类语料集发送给客户端进行核验，包括：

将所述排序后的多个分类语料集中，属于同一分类语料集的初始标注语料发送给同一客户端进行核验。

6.根据权利要求1所述的方法，其特征在于，所述初始标注语料中每个初始标注语料对应多个标签值，每个标签值对应有概率，所述基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集之前还包括：

基于所述每个初始标注语料对应的多个标签值对应的概率，将所述初始标注语料划分为第一初始标注语料和第二初始标注语料，其中，所述第一初始标注语料为对应的多个标签值对应的概率均小于预设概率的初始标注语料；

所述基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，包括：

基于所述标签值，对所述第一初始标注语料进行分类，得到多个第一分类语料集；

所述基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集，包括：

基于所述可信度，对所述每个第一分类语料集所包括的第一初始标注语料进行排序，得到排序后的多个第一分类语料集；

所述将排序后的所述多个分类语料集发送给客户端进行核验，包括：

将排序后的所述多个第一分类语料集发送给客户端进行核验；

所述接收所述客户端返回的核验后的初始标注语料作为目标标注语料，包括：

接收所述客户端返回的核验后的初始标注语料，将所述第二初始标注语料和所述核验后的初始标注语料作为目标标注语料。

7.根据权利要求1-6任一所述的方法，其特征在于，所述接收所述客户端返回的所述待标注语料对应的目标标注语料之后还包括：

基于所述目标标注语料，对所述标注模型进行训练，得到训练后的标注模型。

8.一种语料标注装置，其特征在于，所述装置包括：

第一标注单元，用于获取待标注语料，通过标注模型对所述待标注语料进行标注，得到所述待标注语料对应的初始标注结果，所述初始标注结果包括所述待标注语料对应的初始标注语料和标注信息，所述标注信息包括每个初始标注语料对应的标签值和可信度；

分类单元，用于基于所述标签值，对所述初始标注语料进行分类，得到多个分类语料集，所述多个分类语料集中每个分类语料集所包括的初始标注语料的标签值相同；

排序单元，用于基于所述可信度，对所述每个分类语料集所包括的初始标注语料进行排序，得到排序后的多个分类语料集；

第二标注单元，用于将排序后的所述多个分类语料集发送给客户端进行核验；

语料接收单元，用于接收所述客户端返回的核验后的初始标注语料作为目标标注语料。

9.一种电子设备，其特征在于，包括一个或多个处理器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-7任一的方法。

11.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-7任一所述的方法的步骤。