CN115858776B

CN115858776B - 一种变体文本分类识别方法、系统、存储介质和电子设备

Info

Publication number: CN115858776B
Application number: CN202211348321.1A
Authority: CN
Inventors: 刘苏楠
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-06-23
Anticipated expiration: 2042-10-31
Also published as: CN115858776A

Abstract

本发明涉及一种变体文本分类识别方法、系统、存储介质和电子设备，包括：根据受监管语料数据集和未受监管语料数据集构建变体纠错文本数据集；基于第一文本数据集和变体纠错文本数据集，对第一原始神经网络模型进行训练，得到用于文本变体纠错与文本分类识别的目标文本分类模型；将待识别文本输入至目标文本分类模型中，得到包含待识别文本的变体纠错与文本分类的目标识别结果。本发明通过受监管与未受监管语料数据集构建变体纠错数据集，通过变体纠错数据集进行变体纠错任务训练，将变体纠错任务作为辅助任务与分类任务一起训练模型，可以对模型的变体语义理解起到正则作用，进而提高分类模型的识别准确率。

Description

一种变体文本分类识别方法、系统、存储介质和电子设备

技术领域

本发明涉及文本分类技术领域，尤其涉及一种变体文本分类识别方法、系统、存储介质和电子设备。

背景技术

通常可以使用神经网络训练得到分类模型，从而实现对违禁内容的识别与拦截。为了躲避网络监管，不良文本内容往往包含了大量的变体，这些变体或是音近、形近，这给互联网内容监管带来了巨大的挑战。为了应对这些变体带来的挑战，通常的解决方案是在训练分类模型的数据集中加入对应的变体样本。但上述方案在提升模型对于变体样本召回率的同时，也会降低分类模型的准确率。

因此，亟需提供一种技术方案解决现有技术中存在问题。

发明内容

为解决上述技术问题，本发明提供了一种变体文本分类识别方法、系统、存储介质和电子设备。

本发明的一种变体文本分类识别方法的技术方案如下：

获取第一文本数据集、受监管语料数据集和未受监管语料数据集，并根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集；

基于所述第一文本数据集和所述变体纠错文本数据集，对第一原始神经网络模型进行训练，得到用于文本变体纠错与文本分类识别的目标文本分类模型；

将待识别文本输入至所述目标文本分类模型中，得到包含所述待识别文本的变体纠错与文本分类的目标识别结果。

本发明的一种变体文本分类识别方法的有益效果如下：

本发明的方法通过受监管与未受监管语料数据集构建变体纠错数据集，并通过变体纠错数据集进行变体纠错任务训练，将变体纠错任务作为辅助任务与分类任务一起训练模型，能够对模型的变体语义理解起到正则作用，进而提高分类模型的识别准确率。

在上述方案的基础上，本发明的一种变体文本分类识别方法还可以做如下改进。

进一步，还包括：

基于所述第一文本数据集，对用于文本分类的第二原始神经网络模型进行训练，得到原始文本分类模型。

进一步，所述根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集的步骤，包括：

利用所述原始文本分类模型对所述受监管语料数据集进行分类，得到受监管语料黑样本集和受监管语料白样本集，并利用所述原始文本分类模型对所述未受监管语料数据集进行分类，得到未受监管语料黑样本集和未受监管语料白样本集；

利用所述受监管语料黑样本集训练生成受监管语言模型，并利用所述未受监管语料黑样本集训练生成未受监管语言模型；

基于关键词提取技术，从所述未受监管语料黑样本集中提取黑样本模板，并根据所述黑样本模板、所述受监管语言模型和所述未受监管语言模型，得到第一变体映射数据集；

对所述第一变体映射数据集进行人工标注，得到目标变体映射数据集，并根据所述目标变体映射数据集、所述受监管语料白样本集和所述未受监管语料白样本集，得到所述变体纠错文本数据集。

采用上述进一步技术方案的有益效果是：进一步通过构建受监管语言模型与未受监管语言模型自动构建变体纠错数据集，相比于完全人工标注的变体纠错数据集，提高了变体纠错数据集的生产效率。

进一步，所述利用所述受监管语料黑样本集训练生成受监管语言模型，并利用所述未受监管语料黑样本集训练生成未受监管语言模型的步骤，包括：

采用Masked LM方式，对所述受监管语料黑样本集进行训练，得到所述受监管语言模型，并对所述未受监管语料黑样本集进行训练，得到所述未受监管语言模型。

本发明的一种变体文本分类识别系统的技术方案如下：

包括：构建模块、训练模块和识别模块；

所述构建模块用于：获取第一文本数据集、受监管语料数据集和未受监管语料数据集，并根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集；

所述训练模块用于：基于所述第一文本数据集和所述变体纠错文本数据集，对第一原始神经网络模型进行训练，得到用于文本变体纠错与文本分类识别的目标文本分类模型；

所述识别模块用于：将待识别文本输入至所述目标文本分类模型中，得到包含所述待识别文本的变体纠错与文本分类的目标识别结果。

本发明的一种变体文本分类识别系统的有益效果如下：

本发明的系统通过受监管与未受监管语料数据集构建变体纠错数据集，并通过变体纠错数据集进行变体纠错任务训练，将变体纠错任务作为辅助任务与分类任务一起训练模型，能够对模型的变体语义理解起到正则作用，进而提高分类模型的识别准确率。

在上述方案的基础上，本发明的一种变体文本分类识别系统还可以做如下改进。

进一步，还包括：处理模块；

所述处理模块用于：基于所述第一文本数据集，对用于文本分类的第二原始神经网络模型进行训练，得到原始文本分类模型。

进一步，所述构建模块具体用于：

本发明的一种存储介质的技术方案如下：

存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的一种变体文本分类识别方法的步骤。

本发明的一种电子设备的技术方案如下：

包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如本发明的一种变体文本分类识别方法的步骤。

附图说明

图1为本发明实施例的一种变体文本分类识别方法的流程示意图；

图2为本发明实施例的一种变体文本分类识别系统的结构示意图。

具体实施方式

如图1所示，本发明实施例的一种变体文本分类识别方法，包括如下步骤：

S1、获取第一文本数据集、受监管语料数据集和未受监管语料数据集，并根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集。

其中，①第一文本数据集为：包含多条文本的数据集，可用于训练文本分类模型，第一文本数据集中的每条数据均标注了分类类型，如：违禁、正常等。②受监管语料数据集包括：多条受监管的语料文本，受监管的语料文本从受监管人群所发送的文本内容中所获取，其包含有大量的变体文本。③未受监管语料数据集包括：多条未受监管的语料文本，不受监管的语料文本从不受监管人群所发送的文本内容中获取，其基本不包含有变体文本。④变体纠错文本数据集用于训练变体纠错任务，变体纠错文本数据集包括多个变体数据对。例如，一个变体数据对为：“你是沙子”(变体文本)与“你是傻子”(本体文本)。

S2、基于所述第一文本数据集和所述变体纠错文本数据集，对第一原始神经网络模型进行训练，得到用于文本变体纠错与文本分类识别的目标文本分类模型。

其中，①第一原始神经网络模型为：能够同时用于文本变体纠错和文本分类识别的神经网络模型，该模型的两部分功能共用一个模型骨干，仅在模型的输出层存在不同。②目标文本分类模型为：经过训练后所得到的用于文本变体纠错与文本分类识别的模型。

需要说明的是，在第一原始神经网络模型的训练过程中，第一文本数据集用于对第一原始神经网络模型的文本分类任务进行训练，变体纠错文本数据集用于对第一原始神经网络模型的变体纠错任务进行训练。

S3、将待识别文本输入至所述目标文本分类模型中，得到包含所述待识别文本的变体纠错与文本分类的目标识别结果。

其中，①待识别文本为：任意选取的文本，可以是变体文本，也可以是本体文本。②目标识别结果包括：变体纠错结果与文本分类结果。例如，待识别文本为：“你是沙子”，则该待识别文本对应的目标识别结果包括：变体纠错结果：“你是傻子”，文本分类结果：“违禁”。

需要说明的是，根据目标文本分类模型的预设阈值对文本分类结果进行判断。例如，假定预设阈值默认设置的违禁概率下限为0.7，当待识别文本输入目标文本分类模型中进行判断，得到的违禁概率为0.8时，则判定待识别文本的文本分类结果为：违禁；当违禁概率为0.3时，则判定待识别文本的文本分类结果为：正常。在本实施例中，预设阈值可以根据需求进行设定，在此不设限制。

较优地，还包括：

其中，①第二原始神经网络模型为：能够用于文本分类的神经网络模型。②原始本文分类模型为：经过训练后所得到的用于本文分类的模型，具体的训练过程在此不过多赘述。

较优地，所述根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集的步骤，包括：

利用所述原始文本分类模型对所述受监管语料数据集进行分类，得到受监管语料黑样本集和受监管语料白样本集，并利用所述原始文本分类模型对所述未受监管语料数据集进行分类，得到未受监管语料黑样本集和未受监管语料白样本集。

其中，原始文本分类模型判断文本是否违禁的预设阈值默认为0.7，则大于等于0.7的为黑样本集，小于0.7的为白样本集，以此通过原始文本分类模型分别对受监管语料数据集和未受监管语料数据集进行分类，分别得到受监管语料黑样本集、受监管语料白样本集、未受监管语料黑样本集和未受监管语料白样本集。

利用所述受监管语料黑样本集训练生成受监管语言模型，并利用所述未受监管语料黑样本集训练生成未受监管语言模型。

具体地，采用Masked LM方式，对所述受监管语料黑样本集进行训练，得到所述受监管语言模型，并对所述未受监管语料黑样本集进行训练，得到所述未受监管语言模型。

其中，①采用Masked LM方式对语料样本集进行训练得到对应的语言模型的过程为现有技术。②受监管语言模型和未受监管语言模型的功能为：根据上下文对缺失的文字进行预测。例如，输入为“今天的_气真好。”，模型对“_”进行预测，并输出“天”。

基于关键词提取技术，从所述未受监管语料黑样本集中提取黑样本模板，并根据所述黑样本模板、所述受监管语言模型和所述未受监管语言模型，得到第一变体映射数据集。

其中，①黑样本模板为：包含违禁词组的文本模板。例如，当黑样本为“你是傻子”时，通过关键词提取技术，提取到关键词“傻子”；此时对关键词中的字进行随机删除，则得到黑样本模板：“你是_子”或“你是傻_”。②第一变体映射数据集包括：多个低精度的变体对。例如，使用受监管语言模型与未受监管语言模型，都会对同一条黑样本模板进行预测(补全)；具体地，受监管语言模型对黑样本模板“你是_子”进行补全，得到“你是沙子”，而未受监管语言模型对黑样本模板“你是_子”进行补全，得到“你是傻子”，以此得到一个变体对。

其中，①目标变体映射数据集包括：多个经过人工标注后的变体对。②由于白样本中一般不包含变体，即在受监管语料白样本集和未受监管语料白样本集所构建的变体映射对中，其本体与变体均为相应的白样本自身。

需要说明的是，由于第一变体映射数据集可能存在错误(因为是模型自动生成的，可能会会存在关键词提取错误、受监管语言模型与未受监管语言模型预测错误、本体与变体无法匹配等问题)，需要通过人工标注的方式，对第一变体映射数据集进行修正，以此得到高精度的目标变体映射数据集。

本实施例的技术方案通过构建受监管语言模型与未受监管语言模型自动构建变体纠错数据集，相比于完全人工标注的变体纠错数据集，提高了变体纠错数据集的生产效率；通过变体纠错数据集可以进行变体纠错任务训练，将变体纠错任务作为辅助任务与分类任务一同训练模型，能够对模型的变体语义理解起到正则作用，进而提高分类模型的识别准确率。

如图2所示，本发明实施例的一种变体文本分类识别系统200，包括：构建模块210、训练模块220和识别模块230；

所述构建模块210用于：获取第一文本数据集、受监管语料数据集和未受监管语料数据集，并根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集；

所述训练模块220用于：基于所述第一文本数据集和所述变体纠错文本数据集，对第一原始神经网络模型进行训练，得到用于文本变体纠错与文本分类识别的目标文本分类模型；

所述识别模块230用于：将待识别文本输入至所述目标文本分类模型中，得到包含所述待识别文本的变体纠错与文本分类的目标识别结果。

较优地，还包括：处理模块；

较优地，所述构建模块210具体用于：

上述关于本实施例的一种变体文本分类识别系统200中的各参数和各个模块实现相应功能的步骤，可参考上文中关于一种变体文本分类识别方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例提供的一种存储介质，包括：存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如一种变体文本分类识别方法的步骤，具体可参考上文中一种变体文本分类识别方法的实施例中的各参数和步骤，在此不做赘述。

计算机存储介质例如：优盘、移动硬盘等。

本发明实施例提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如一种变体文本分类识别方法的步骤，具体可参考上文中一种变体文本分类识别方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为方法、系统、存储介质和电子设备。

因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种变体文本分类识别方法，其特征在于，包括：

将待识别文本输入至所述目标文本分类模型中，得到包含所述待识别文本的变体纠错与文本分类的目标识别结果；

还包括：基于所述第一文本数据集，对用于文本分类的第二原始神经网络模型进行训练，得到原始文本分类模型；

所述根据所述受监管语料数据集和所述未受监管语料数据集构建变体纠错文本数据集的步骤，包括：

对所述第一变体映射数据集进行人工标注，得到目标变体映射数据集，并根据所述目标变体映射数据集、所述受监管语料白样本集和所述未受监管语料白样本集，得到所述变体纠错文本数据集；

其中，所述第一文本数据集为：包含多条文本的数据集，所述第一文本数据集中的每条数据均标注有分类类型；所述受监管语料数据集包括：多条受监管的语料文本，每条受监管的语料文本均从受监管人群所发送的包含有大量的变体文本的文本内容中所获取；未受监管语料数据集包括：多条未受监管的语料文本，不受监管的语料文本从不受监管人群所发送的不含变体文本的文本内容中获取；变体纠错文本数据集包括：多个变体数据对；所述黑样本模板为：包含违禁词组的文本模板；所述第一变体映射数据集包括：多个低精度的变体对；所述目标变体映射数据集包括：多个经过人工标注后的变体对。

2.根据权利要求1所述的一种变体文本分类识别方法，其特征在于，所述利用所述受监管语料黑样本集训练生成受监管语言模型，并利用所述未受监管语料黑样本集训练生成未受监管语言模型的步骤，包括：

采用MaskedLM方式，对所述受监管语料黑样本集进行训练，得到所述受监管语言模型，并对所述未受监管语料黑样本集进行训练，得到所述未受监管语言模型。

3.一种变体文本分类识别系统，其特征在于，包括：构建模块、训练模块和识别模块；

所述识别模块用于：将待识别文本输入至所述目标文本分类模型中，得到包含所述待识别文本的变体纠错与文本分类的目标识别结果；

还包括：处理模块；

所述处理模块用于：基于所述第一文本数据集，对用于文本分类的第二原始神经网络模型进行训练，得到原始文本分类模型；

所述构建模块具体用于：

4.根据权利要求3所述的一种变体文本分类识别系统，其特征在于，所述构建模块具体用于：

5.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1或2所述的一种变体文本分类识别方法。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如权利要求1或2所述的一种变体文本分类识别方法。