CN111461226A

CN111461226A - 对抗样本生成方法、装置、终端及可读存储介质

Info

Publication number: CN111461226A
Application number: CN202010252297.6A
Authority: CN
Inventors: 谭圣琦; 吴泽衡; 朱振文
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-28
Anticipated expiration: 2040-04-01
Also published as: CN111461226B

Abstract

本发明公开了一种对抗样本生成方法、装置、终端及可读存储介质，所述方法包括：基于对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法，基于目标教师模型以及目标攻击算法进行强化学习，得到中间对抗样本，并基于所述中间对抗样本优化对抗样本生成策略，基于中间对抗样本确定参与学生模型训练的对抗样本，基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束。通过强化学习算法针对当前学生模型动态地找到攻击强度最大的一种或几种攻击算法以及对应的参数，进而高效生成包含难样本的对抗样本用来训练学生模型，在加速模型训练的同时，显著提升了模型面对攻击的鲁棒性。

Description

对抗样本生成方法、装置、终端及可读存储介质

技术领域

本发明涉及金融科技领域，尤其涉及一种对抗样本生成方法、装置、终端及可读存储介质。

背景技术

目前在金融领域，人脸核身在业务中使用非常广泛，带来了极大便利。与此同时，这又要求人脸核身的具备极高的准确性和安全性。然而目前基于利益驱动，人脸核身业务极易遭受恶意攻击，攻击手段和方法也是多种多样。近些年深度学习的发展非常迅速，目前主流的人脸识别技术基本基于深度学习技术。在深度学习领域，有一类攻击技术被称为对抗攻击，它通过对输入样本故意添加一些人无法察觉的细微干扰生成新的图像样本(也称为对抗样本)作为输入，从而导致模型以高置信度输出错误的结果。例如：在人脸核身业务中，攻击者通过伪造对抗样本，使得模型对两个不同人的照片，识别成同一个人。

现有模型除了面对对抗攻击时较为脆弱外，另一方面就是模型在精度得到极大提升的同时，模型对计算资源(存储资源和计算能力)的需求越来越大，导致在移动端、嵌入式端难以部署。目前的方法缺少同时考虑二者并进行高效解决的整体方案，模型的训练时间长且鲁棒性差。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种对抗样本生成方法、装置、终端及可读存储介质，旨在解决现有兼顾模型压缩和对抗攻击的集成对抗训练过程中，无法高效的生成难样本，导致模型的训练时间长且鲁棒性差的技术问题。

为实现上述目的，本发明提供一种对抗样本生成方法，所述的对抗样本生成方法包括以下步骤：

获取对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法；

基于所述目标教师模型以及所述目标攻击算法进行强化学习，得到中间对抗样本，并基于所述中间对抗样本优化所述对抗样本生成策略；

基于所述中间对抗样本确定参与学生模型训练的对抗样本；

基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束。

进一步地，所述基于所述目标教师模型以及所述目标攻击算法进行强化学习，得到中间对抗样本的步骤包括：

采用目标攻击算法基于所述目标教师模型生成中间对抗样本；

所述基于所述中间对抗样本优化所述对抗样本生成策略的步骤包括：

计算所述中间对抗样本对所述学生模型的攻破概率，基于所述攻破概率以及生成中间对抗样本的时间确定奖励值；

基于所述奖励值更新对抗样本生成策略。

进一步地，所述基于所述奖励值更新对抗样本生成策略，包括：

基于所述奖励值控制所述控制器采样下次各教师模型的使用概率、各攻击算法的使用概率和使用参数；

根据所述下次各教师模型的使用概率、各攻击算法的使用概率和使用参数，更新所述对抗样本生成策略。

进一步地，所述基于所述中间对抗样本确定参与学生模型训练的对抗样本，包括：

获取中间对抗样本中各个对抗样本子集各自对应的奖励值，其中，所述中间对抗样本由各个对抗样本子集包括的对抗样本组成；

基于各个对抗样本子集各自对应的奖励值，确定被选中的预设数量的奖励值；

将被选中的预设数量的奖励值各自对应的对抗样本子集确定为参与学生模型训练的对抗样本。

进一步地，所述获取对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法的步骤之前，所述方法还包括：

基于本地训练数据对预设的中间教师模型进行训练，得到训练好的教师模型，其中，所述中间教师模型是基于公开样本库训练的教师模型；

所述获取对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法的步骤包括：

基于所述对抗样本生成策略在训练好的教师模型中确定所述目标教师模型，以及在预设的攻击算法表中确定所述目标攻击算法。

进一步地，所述基于所述中间对抗样本确定参与学生模型训练的对抗样本，并基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束的步骤之后，所述方法还包括：

基于本地训练数据、所述对抗样本以及所述训练好的教师模型对所述学生模型同时进行蒸馏学习和对抗训练，得到总损失函数值；

通过所述总损失函数值将所述教师模型的知识迁移到所述学生模型中，获得蒸馏对抗后的学生模型。

进一步地，所述基于本地训练数据、所述对抗样本以及所述训练好的教师模型对所述学生模型同时进行蒸馏学习和对抗训练，得到总损失函数值的步骤包括：

将本地训练数据分别输入所述教师模型和所述学生模型，对所述学生模型使用知识蒸馏算法进行优化训练，并确定所述第一损失函数值；

将所述对抗样本输入所述学生模型，根据对抗样本的真实标签计算所述第二损失函数值；

基于所述第一损失函数值和第二损失函数值，得到所述总损失函数值。

进一步地，所述通过所述总损失函数值将所述教师模型的知识迁移到所述学生模型中，获得蒸馏对抗后的学生模型的步骤包括：

基于所述总损失函数值，利用反向传播算法计算得到所述学生模型对应的梯度信息；

基于所述梯度信息更新所述学生模型，并基于更新后的学生模型进行迭代蒸馏学习和对抗训练；

若基于更新后的总损失函数值小于或者等于预设阈值，则获得所述蒸馏对抗后的学生模型。

进一步地，所述初始化对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法的步骤之前，所述方法还包括：

确定学生模型对应的网络架构搜索空间，其中，所述搜索空间定义网络架构搜索的范围；

初始化学生模型的搜索策略，基于当前的搜索策略在所述搜索空间进行搜索，得到初始的学生模型；

确定模型评估指标，并基于所述模型评估指标更新搜索策略，利用更新后的搜索策略在所述搜索空间继续进行搜索新的学生模型，直到检测到搜索停止条件，得到所述学生模型。

进一步地，所述对抗样本生成装置包括：

确定模块，获取初始化对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法；

强化学习模块，用于基于所述目标教师模型以及所述目标攻击算法进行强化学习，得到中间对抗样本，并基于所述中间对抗样本优化所述对抗样本生成策略；

生成模块，用于基于所述中间对抗样本确定参与学生模型训练的对抗样本；

迭代模块，用于基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束。

此外，为实现上述目的，本发明还提供一种对抗样本生成终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对抗样本生成程序，所述对抗样本生成程序被所述处理器执行时实现上述任一项所述的对抗样本生成方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有对抗样本生成程序，所述对抗样本生成程序被处理器执行时实现上述任一项所述的对抗样本生成方法的步骤。

本发明获取对抗样本生成策略，基于对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法，而后基于目标教师模型以及目标攻击算法进行强化学习，得到中间对抗样本，并基于所述中间对抗样本优化对抗样本生成策略，接下来基于所述中间对抗样本确定参与学生模型训练的对抗样本，最后基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束。通过强化学习算法针对当前学生模型动态地找到攻击强度最大的一种或几种攻击算法以及对应的参数，进而高效生成包含难样本的对抗样本用来训练学生模型，在加速模型训练的同时，显著提升了模型面对攻击的鲁棒性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图；

图2为本发明对抗样本生成方法第一实施例的流程示意图；

图3为本发明对抗样本生成方法一实施例中强化学习的流程示意图；

图4为本发明对抗样本生成方法一实施例中蒸馏对抗的流程示意图；

图5为本发明对抗样本生成方法一实施例中神经结构搜索的流程示意图；

图6为本发明对抗样本生成装置实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI 接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器 (non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的目标检测系统结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及对抗样本生成程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接用户端，与用户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的对抗样本生成程序。

在本实施例中，终端包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的对抗样本生成程序，其中，处理器1001调用存储器1005中存储的对抗样本生成程序时，执行本申请各个实施例提供的对抗样本生成方法的步骤。

本发明还提供一种对抗样本生成方法，参照图2，图2为本发明对抗样本生成方法第一实施例的流程示意图。

本发明实施例提供了对抗样本生成方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中，该对抗样本生成方法包括：

步骤S10，获取对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法；

在本实施例中，随着人工智能技术的发展，基于神经网络的深度学习已经在图像分类，机器翻译和语音识别等多个机器学习任务上取得良好了的性能。当前，为了获得最佳的网络模型输出结果，通常采用包含多个网络层和超大规模的参数的深层神经网络模型，尽管这种复杂的网络结构显著提升了模型的输出结果，但是也导致难以在存储空间较小的移动设备上部署，另一方面也导致在计算性能较差的低功耗移动设备上的推理延迟过大而难以具有实用价值。因此，对复杂神经网络模型进行高效压缩从而降低模型存储开销，提高模型推理速度。对于神经网络模型压缩，常用的方法包括参数量化，矩阵分解，模型剪枝和知识蒸馏，其中，知识蒸馏方法既可以压缩模型减小模型复杂度，又可以同时缓解模型压缩导致的预测精度下降的问题，成为目前主流的神经网络模型压缩方法。

在知识蒸馏模型压缩方法中，一般将具有庞大规模参数和复杂网络结构的模型称为“教师模型”，将具有较少参数和结构相对简单的模型称为“学生模型”，通过获得教师模型在网络中间层的输出信息或者输出层的分类信息，利用教师模型产生的这些额外知识来指导学生模型的训练，其中训练一般采用 KL散度、交叉熵等作为知识蒸馏的优化目标。知识蒸馏可以用来将网络从大网络转化成一个小网络，并保留接近于大网络的性能；也可以将多个网络的学到的知识转移到一个网络中，使得单个网络的性能接近集成的结果。

本发明提出的对抗样本生成方法，是将多个教师模型的学到的知识转移到一个学生模型中，在知识蒸馏过程中通过强化学习算法针对当前学生模型动态地找到攻击强度最大的一种或几种攻击算法以及对应的参数，进而高效生成包含难样本的对抗样本用来训练学生模型，在加速对抗样本生成的同时，显著提升了模型面对攻击的鲁棒性。

具体地，通过强化学习算法利用教师模型，生成参与学生对抗训练的对抗样本。具体地，如图3所示，对抗样本生成策略简称为采样策略S，这个策略包括了每种教师模型的使用概率，每种攻击算法使用的概率以及对应的每种攻击算法的参数选取等。获取采样策略S，根据采样策略S确定本次生成对抗样本对应的每种教师模型的使用概率，即确定生成对抗样本的目标教师模型，以及根据攻击算法使用的概率，在攻击算法中选取目标攻击算法。其中，预设的攻击算法可以为：FGSM(Fast Gradient Sign Method，快速梯度符号法)、PGD(e Projected Gradient Descent，e投影梯度下降)、BIM (Basic IterativeMethod，基本迭代法)、CW attack(The Carlini and Wagner，CW 攻击)等。

步骤S20，基于所述目标教师模型以及所述目标攻击算法进行强化学习，得到中间对抗样本，并基于所述中间对抗样本优化所述对抗样本生成策略；

具体地，步骤S20包括：

步骤S21，采用目标攻击算法基于所述目标教师模型生成中间对抗样本；

在本实施例中，采用目标攻击算法利用目标教师模型生成中间对抗样本的具体过程为：本地训练数据中的每个数据包括图像数据和图像数据对应的结果标签，中间对抗样本是在本地训练数据的图像数据基础上增加小小的扰动数据后得到的，设图像数据为X，对抗样本为X'，扰动为η，则X'＝X+η。其中，扰动η是利用目标攻击算法得到的，将目标教师模型的模型参数、本地训练数据作为目标攻击算法的输入数据，利用目标攻击算法计算得到最优的扰动η。将得到的各个扰动数据分别叠加到对应得本地训练数据中的每个图像数据，即X'＝X+η，得到中间对抗样本。

需要说明的是，对抗样本生成策略包括N个子策略，每个子策略由每种教师模型的使用概率、每种攻击算法的使用概率以及参数组成，N个子策略会生成N组对抗样本子集，这N组对抗样本子集即为中间对抗样本。

步骤S22，计算所述中间对抗样本对所述学生模型的攻破概率，基于所述攻破概率以及生成中间对抗样本的时间确定奖励值；

在本实施例中，计算每组对抗样本子集对当前学生模型的攻破概率和生成对抗样本的时间，根据攻破概率以及生成中间对抗样本的时间得到奖励值 R，其中，对学生模型的攻破概率越高，生成对抗样本所用时间更短，奖励值 R也就越高，说明该策略越有效。

步骤S23，基于所述奖励值更新对抗样本生成策略。

具体地，步骤S23包括：

步骤a，基于所述奖励值控制所述控制器采样下次各教师模型的使用概率、各攻击算法的使用概率和使用参数；

步骤b，根据所述下次各教师模型的使用概率、各攻击算法的使用概率和使用参数，更新所述对抗样本生成策略。

控制器RNN可以通过策略梯度方法更新，进而更新抗样本生成策略。策略梯度方法(Policy Gradient)是强化学习中经常使用的算法，策略梯度方法则是直接优化策略，其通过观测信息直接进行反向传播，通过奖励值R直接对选择的策略的可能性进行增强和减弱，能获取较大奖励值R的策略会被增加下一次被选中的概率，反之亦然。具体地，一种策略由每种教师模型的使用概率、每种攻击算法的使用概率以及相应参数组成，能获取较大奖励值R 的策略会增加这种策略下使用的教师模型的概率、对应攻击算法的概率以及相应的参数。利用奖励值更新对抗样本生成策略的具体过程为：根据奖励值更新控制器的参数，实现控制该控制器更新采样下次各教师模型的使用概率、各攻击算法的使用概率和使用参数，然后进一步根据下次各教师模型的使用概率、各攻击算法的使用概率和使用参数，更新对抗样本生成策略。

步骤S30，基于所述中间对抗样本确定参与学生模型训练的对抗样本；

具体地，步骤S30包括：

步骤S31，获取中间对抗样本中各个对抗样本子集各自对应的奖励值，其中，所述中间对抗样本由各个对抗样本子集包括的对抗样本组成；

在本实施例中，对抗样本生成策略包括N个子策略，每个子策略由每种教师模型的使用概率、每种攻击算法的使用概率以及参数组成，N个子策略会生成N组对抗样本子集，这N组对抗样本子集即为中间对抗样本。如前所述，已经根据每组对抗样本子集对当前学生模型的攻破概率和生成对抗样本的时间，得到各个对抗样本子集各自对应的奖励值，可直接获取。

步骤S32，基于各个对抗样本子集各自对应的奖励值，确定被选中的预设数量的奖励值；

步骤S33，将被选中的预设数量的奖励值各自对应的对抗样本子集确定为参与学生模型训练的对抗样本。

在本实施例中，利用各个对抗样本子集各自对应的奖励值，在所有中间对抗样本中选择部分对抗样本作为参与学生模型训练的对抗样本。

具体地，评估各个对抗样本子集各自对应的奖励值，并选取其中最佳的预设数量的策略。因为对学生模型的攻破概率越高，生成对抗样本所用时间更短，奖励值R也就越高，说明该策略越有效，故在选择最佳奖励值时，应选择奖励值大的。可以设置一个奖励阈值，将奖励值大于奖励阈值的k个奖励值对应的对抗样本子集作为参与学生模型训练的对抗样本；或者将各个奖励值按照从大到小进行排序，选取前k个奖励值对应的对抗样本子集作为参与学生模型训练的对抗样本。

步骤S40，基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束。

在本实施例中，利用优化后的对抗样本生成策略继续确定新的目标教师模型以及目标攻击算法，根据新的目标教师模型以及新的目标攻击算法进行强化学习，得到新的中间对抗样本，基于新的中间对抗样本，更新对抗样本生成策略，并进行下一次的采样及生成新的中间对抗样本，直到检测到迭代停止条件，迭代强化学习训练结束。其中，迭代停止条件为：学生模型进行蒸馏学习以及对抗训练结束时，发送训练停止消息。当检测到该训练停止消息，迭代强化学习训练也结束训练。

如图4所示，根据强化学习算法利用多个教师模型，生成参与学生模型训练的对抗样本，进一步利用本地训练数据以及生成的对抗样本对学生模型进行蒸馏学习和对抗训练，实现将教师模型的知识迁移到所述学生模型中，得到蒸馏对抗后的学生模型。

进一步地，在一实施例中，步骤S10之前，还包括：

步骤S50，确定学生模型对应的网络架构搜索空间，其中，所述搜索空间定义网络架构搜索的范围；

步骤S60，初始化学生模型的搜索策略，基于当前的搜索策略在所述搜索空间进行搜索，得到初始的学生模型；

步骤S70，确定模型评估指标，并基于所述模型评估指标更新搜索策略，利用更新后的搜索策略在所述搜索空间继续进行搜索新的学生模型，直到检测到搜索停止条件，得到所述学生模型。

在本实施例中，学生模型的网络结构可以采用现有一些高效网络的设计，还可以采取另一种方式，即使用NAS(神经结构搜索)的方式去寻找同时具备高效和安全的网络模型。常见的NAS方法包括基于强化学习、遗传学习、基于梯度的优化等。如图5所示，NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用特定策略从中搜索出最优网络结构。搜索出的神经网络结构的好坏用分类精度、计算速度、防御对抗样本的能力等来度量，称为性能评估。

进一步地，在搜索过程的每次迭代中，从搜索空间采样得到样本，即得到一个神经网络结构，称为子网络。通过上述蒸馏的方法训练子网络，使用教师模型生成的对抗样本进行集成训练，与此同时可以计算对抗样本对于子网络的攻破概率，在搜索神经网络结构阶段，攻破概率越低表示网络结构对于对抗样本的鲁棒性更高，再结合分类精度、计算速度等指标综合评估子网络的性能。综合这些指标更新搜索策略，搜索新的子网络结构。循环这个步骤，直至找到最优的子网络。最终可以得到一个计算速度快，同时对于对抗样本鲁棒的学生模型。

本实施例提出的对抗样本生成方法，获取对抗样本生成策略，基于对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法，而后基于目标教师模型以及目标攻击算法进行强化学习，得到中间对抗样本，并基于所述中间对抗样本优化对抗样本生成策略，接下来基于所述中间对抗样本确定参与学生模型训练的对抗样本，最后基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束。通过强化学习算法针对当前学生模型动态地找到攻击强度最大的一种或几种攻击算法以及对应的参数，进而高效生成包含难样本的对抗样本用来训练学生模型，在加速模型训练的同时，显著提升了模型面对攻击的鲁棒性。

基于第一实施例，提出本发明对抗样本生成方法的第二实施例，在本实施例中，步骤S10之前，还包括：

步骤S80，基于本地训练数据对预设的中间教师模型进行训练，得到训练好的教师模型，其中，所述中间教师模型是基于公开样本库训练的教师模型；

在本实施例中，首先确定教师模型以及初始的学生模型，其中，学生模型可以采用设计好的精简、计算量小的高效网络结构，如squeezenet、 mobilenet、shufflenet等；或者也可以使用神经结构搜索(Neural Architecture Search，NAS)的方法自动寻找网络结构。

进一步地，获取一个或多个复杂网络的识别模型(在人脸识别中比如 facenet、arcface等；图像分类中比如Inception、VGG、Resnet等)作为教师模型，如教师模型1，…，教师模型N。利用公开样本库训练初始教师模型，得到中间教师模型，公开样本库根据实际情况选择，例如MegaFace数据集。利用本地训练数据对中间教师模型进行模型测试，如果测试不合格，则进一步利用本地训练数据对中间教师模型进行训练得到训练好的教师模型，以保证输入相同的训练数据时，教师模型的预测输出一致。

所述步骤S10包括：基于所述对抗样本生成策略在训练好的教师模型中确定所述目标教师模型，以及在预设的攻击算法表中确定所述目标攻击算法。

在本实施例中，训练好的教师模型有多个，根据对抗样本生成策略在训练好的教师模型中确定目标教师模型；预设的攻击算法也包括多个，根据对抗样本生成策略在预设的攻击算法表中确定所述目标攻击算法。

进一步地，在一实施例中，步骤S40之后，还包括：

步骤S90，基于本地训练数据、所述对抗样本以及所述训练好的教师模型对所述学生模型同时进行蒸馏学习和对抗训练，得到总损失函数值；

总损失函数值为第一损失函数值和第二损失函数值的和，其中，第一损失函数值基于本地训练数据确定，第二损失函数值基于对抗样本确定。

具体地，步骤S90包括：

步骤S91，将本地训练数据分别输入所述教师模型和所述学生模型，对所述学生模型使用知识蒸馏算法进行优化训练，并确定所述第一损失函数值；

将本地训练数据分别输入教师模型和学生模型，教师模型输出预测结果以及中间结果(中间特征数据)，将教师网络的预测输出除以温度参数 (Temperature,T)之后再进行softmax变换，可以获得软化(取值分布较为缓和)的概率分布(soft label，软目标)。硬目标(hard label)则是本地训练数据的真实标签，可以用独热矢量(one-hot vector)表示。总损失函数值可以表示为：

其中，Q_s表示学生模型的预测输出，

和

分别表示学生模型和教师模型预测输出除以温度参数后再进行softmax变换后的软目标值，Fce和Fkd分别表示交叉熵损失函数值(cross entropy loss)和KL散度损失函数值 (Kullback-Leibler divergenceLoss)，α用来调整F_ce和F_kd间的权重比例，T 为温度参数。

同时还可以引入教师模型网络中间的特征图和相应的学生模型的特征图，计算两个特征图间的L2 loss，来加快学生网络的训练速度，提升蒸馏效果。此时总损失函数值可以表示为：

F_l2表示L2损失函数值，Ws和Wt表示对应的学生模型和教师模型的特征图。需要说明的是，中间的特征图的损失函数值为可选项，如果不需要该项，则β为0。

步骤S92，将所述对抗样本输入所述学生模型，根据对抗样本的真实标签计算所述第二损失函数值；

在本实施例中，根据强化学习算法利用教师模型，生成参与学生对抗样本生成的对抗样本后，将对抗样本输入所述学生模型，并根据对抗样本的真实标签确定损失函数值，从而使学生模型能够对对抗样本做出正确的输出。

步骤S93，基于所述第一损失函数值和第二损失函数值，得到所述总损失函数值。

在本实施例中，总损失函数值等于第一损失函数值和第二损失函数值相加之和，利用总损失函数值实现将教师模型的知识迁移到所述学生模型中。

步骤S100，通过所述总损失函数值将所述教师模型的知识迁移到所述学生模型中，获得蒸馏对抗后的学生模型。

具体地，步骤S100包括：

步骤S110，基于所述总损失函数值，利用反向传播算法计算得到所述学生模型对应的梯度信息；

步骤S120，基于所述梯度信息更新所述学生模型，并基于更新后的学生模型进行迭代蒸馏学习和对抗训练；

步骤S130，若基于更新后的总损失函数值小于或者等于预设阈值，则获得所述蒸馏对抗后的学生模型。

在本实施例中，每一轮训练中，计算本轮的总损失函数值(loss)，根据总损失函数值采用反向传播算法计算确定学生模型对应的梯度信息，并选择优化算法(如SGD，Stochastic Gradient Descent，随机梯度算法))更新学生模型参数值。当达到预设的训练轮次或损失值低于预设值时，训练过程结束，获得蒸馏对抗训练后的学生模型。

具体地，根据总损失函数值，利用反向传播算法计算得到学生模型对应的梯度信息，根据该梯度信息更新学生模型，并根据更新后的学生模型进行迭代蒸馏学习和对抗训练，当更新后的总损失函数值小于或者等于预设阈值，则停止迭代，获得蒸馏对抗后的学生模型。例如预设值可以为0.001，经过多次迭代后总损失函数值会不断减小，进而接近预设阈值，预设阈值根据实际情况确定，一般为接近0的正数。例如，当停止条件为训练轮次时，预设值可以为1000次，或者20000次，若停止条件为损失值。

本实施例提出的对抗样本生成方法，通过强化学习算法针对当前学生模型动态地找到攻击强度最大的一种或几种攻击算法以及对应的参数，进而高效生成包含难样本的对抗样本，利用本地训练数据、对抗样本以及教师模型对学生模型同时进行蒸馏学习和对抗训练，兼顾了模型压缩和对抗训练，在加速模型训练的同时，显著提升了模型面对攻击的鲁棒性。

本发明进一步提供一种对抗样本生成装置，参照图6，图6为本发明对抗样本生成装置实施例的功能模块示意图。

确定模块10，获取初始化对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法；

强化学习模块20，用于基于所述目标教师模型以及所述目标攻击算法进行强化学习，得到中间对抗样本，并基于所述中间对抗样本优化所述对抗样本生成策略；

生成模块30，用于基于所述中间对抗样本确定参与学生模型训练的对抗样本；

迭代模块40，用于基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束。

进一步地，所述强化学习模块20还用于：

基于所述奖励值更新对抗样本生成策略。

进一步地，所述强化学习模块20还用于：

进一步地，所述生成模块30还用于：

进一步地，所述对抗样本生成装置还包括：

训练模块，用于基于本地训练数据对预设的中间教师模型进行训练，得到训练好的教师模型，其中，所述中间教师模型是基于公开样本库训练的教师模型；

所述确定模块10还用于基于所述对抗样本生成策略在训练好的教师模型中确定所述目标教师模型，以及在预设的攻击算法表中确定所述目标攻击算法。

进一步地，所述对抗样本生成装置还包括：

蒸馏对抗模块，用于基于本地训练数据、所述对抗样本以及所述训练好的教师模型对所述学生模型同时进行蒸馏学习和对抗训练，得到总损失函数值；

迁移模块，用于通过所述总损失函数值将所述教师模型的知识迁移到所述学生模型中，获得蒸馏对抗后的学生模型。

进一步地，所述蒸馏对抗模块还用于：

进一步地，所述对抗样本生成装置还包括：

筛选模块，用于确定学生模型对应的网络架构搜索空间，其中，所述搜索空间定义网络架构搜索的范围；

搜索模块，用于初始化学生模型的搜索策略，基于当前的搜索策略在所述搜索空间进行搜索，得到初始的学生模型；

更新训练模块，用于确定模型评估指标，并基于所述模型评估指标更新搜索策略，利用更新后的搜索策略在所述搜索空间继续进行搜索新的学生模型，直到检测到搜索停止条件，得到所述学生模型。

此外，本发明实施例还提出一种可读存储介质，所述可读存储介质上存储有对抗样本生成程序，所述对抗样本生成程序被处理器执行时实现上述各个实施例中对抗样本生成方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个可读存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台系统设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种对抗样本生成方法，其特征在于，包括：

基于所述中间对抗样本确定参与学生模型训练的对抗样本；

2.如权利要求1所述的对抗样本生成方法，其特征在于，所述基于所述目标教师模型以及所述目标攻击算法进行强化学习，得到中间对抗样本的步骤包括：

基于所述奖励值更新对抗样本生成策略。

3.如权利要求2所述的对抗样本生成方法，其特征在于，所述基于所述奖励值更新对抗样本生成策略的步骤包括：

4.如权利要求2所述的对抗样本生成方法，其特征在于，所述基于所述中间对抗样本确定参与学生模型训练的对抗样本，包括：

5.如权利要求1所述的对抗样本生成方法，其特征在于，所述获取对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法的步骤之前，所述方法还包括：

获取对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法的步骤包括：

6.如权利要求1所述的对抗样本生成方法，其特征在于，所述基于优化后的对抗样本生成策略进行迭代强化学习训练，直到检测到迭代停止条件，迭代强化学习训练结束的步骤之后，所述方法还包括：

7.如权利要求6所述的对抗样本生成方法，其特征在于，所述基于本地训练数据、所述对抗样本以及所述训练好的教师模型对所述学生模型同时进行蒸馏学习和对抗训练，得到总损失函数值的步骤包括：

8.如权利要求6所述的对抗样本生成方法，其特征在于，所述通过所述总损失函数值将所述教师模型的知识迁移到所述学生模型中，获得蒸馏对抗后的学生模型的步骤包括：

9.如权利要求1至8中任一项所述的对抗样本生成方法，其特征在于，所述初始化对抗样本生成策略，基于所述对抗样本生成策略确定本次采样对应的目标教师模型以及目标攻击算法的步骤之前，所述方法还包括：

10.一种对抗样本生成装置，其特征在于，所述对抗样本生成装置包括：

11.一种对抗样本生成终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对抗样本生成程序，所述对抗样本生成程序被所述处理器执行时实现如权利要求1至9中任一项所述的对抗样本生成方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储有所述对抗样本生成程序，所述对抗样本生成程序被处理器执行时实现如权利要求1至9中任一项所述的对抗样本生成方法的步骤。