CN113449817B

CN113449817B - 基于幻影梯度的图像分类隐式模型加速训练方法

Info

Publication number: CN113449817B
Application number: CN202110841105.XA
Authority: CN
Inventors: 林宙辰; 耿正阳; 张鑫禹; 白绍杰
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-09-26
Anticipated expiration: 2041-07-23
Also published as: CN113449817A

Abstract

本发明公布了一种基于幻影梯度的图像分类隐式模型加速训练方法，通过定义用于图像分类和特征提取的隐式模型，定义图像分类隐式模型参数的幻影梯度，基于损失函数计算幻影梯度，并基于幻影梯度对图像分类隐式模型进行加速训练，得到训练好的图像分类隐式模型；基于图像分类隐式模型的输出，模型的分类器即可输出预测的图像标签。本发明方法可用于高效训练图像分类与特征提取的深度平衡模型等隐式模型，能够提高模型参数利用率，降低训练图像分类模型的内存开销，可实现训练更大规模的图像分类模型。

Description

基于幻影梯度的图像分类隐式模型加速训练方法

技术领域

本发明属于模式识别、机器学习、人工智能技术领域，涉及用于图像处理的隐式模型训练方法，具体涉及一种用于图像分类和特征提取的基于幻影梯度的隐式模型加速训练方法。

背景技术

传统的神经网络通常是通过明确地将多个线性和非线性算子以前馈的方式堆叠起来构建的。最近，隐式定义的模型已经吸引了越来越多的关注，并能够在计算机视觉和自然语言处理任务上达到或超过显式模型达到最先进的水平。

目前已有的这些隐式模型方法将中间隐藏状态的演变视为某种形式的动态系统，如方程求根或微分方程(ODE)来表示无限的潜伏状态。因此，隐性模型的前向计算被表述为解决这些潜在的动力学问题，并通过黑盒ODE求解器或寻根数值算法来解决。然而，对于反向传播来说，直接通过前向计算的轨迹进行微分可能会引起沉重的内存开销。为此，研究人员开发了基于隐式微分的方法，比如为深度平衡模型(DEQ)的反向传播求解一个基于雅克比矩阵的线性方程。这最终使得反向传播轨迹与前向传递的轨迹无关，仅需要存储模型和模型前向推理的终止状态，不需要任何模型推理的中间状态，从而允许以常数级复杂度的内存消耗来训练这些隐式模型。

为了估计隐式微分所承诺的准确梯度，这些隐式模型仍然必须依靠黑箱求解器(ODE 求解器或方程求根算法)，其迭代性质通常使梯度计算在实践中非常昂贵。对于大规模的深度平衡模型(DEQ)来说，黑箱求解器往往需要超过30步算法迭代来计算准确的隐式微分，从而使得其训练开销相对于显式模型而言变得相当高昂，这限制了隐式模型的研究和应用。

因此，已有的常规图像分类方法，模型参数利用率较低，训练图像分类模型的内存开销高，很难训练大规模的图像分类模型；而基于隐式模型的图像分类方法提供了更高效的参数利用率，极大地降低了训练图像分类模型的内存开销，从而使得训练更大规模的的图像分类模型成为可能。并且，基于隐式模型建立的图像分类模型，提供了更好的可解释性，对于较为敏感的医学影像分类等诸多领域存在潜在研究与应用价值。

发明内容

为了克服上述现有技术的不足，本发明提出了一种基于幻影梯度的图像分类隐式模型加速训练方法，给出了一种新的隐式模型的梯度估计方法，称为幻影梯度(phantomgradient)，用于高效训练图像分类与特征提取的深度平衡模型(DEQ)等隐式模型，能够提高模型参数利用率，降低训练图像分类模型的内存开销，可实现训练更大规模的图像分类模型。

为方便起见，本发明定义如下术语名称及参数：

本发明采用的技术方案是：

一种基于幻影梯度的图像分类隐式模型加速训练方法，包括如下步骤：

S1.定义用于图像分类和特征提取的隐式模型；

本发明将如下形式定义的隐式模型用于图像分类和特征提取，其中，隐式模型可采用已有的深度平衡模型(DEQ)：

其中，为代表定义隐式模型的显式网络，在本专利中为多尺度深度平衡模型(MDEQ)； h^*为隐式模型的输出，z是模型参数θ和隐式模型输入u的并，即/>u作为隐式模型输入图片x在输入变换层M下的投影，即u＝M(x)。基于隐式模型的输出h^*，后续分类器输出预测的图像标签y。

在训练过程中，基于给定的损失函数L可以计算幻影梯度。

s2.定义图像分类隐式模型参数的幻影梯度，并基于幻影梯度对图像分类隐式模型进行加速训练，得到训练好的图像分类隐式模型；

本发明采用的关于参数的幻影梯度表示为如下形式：

幻影梯度针对雅克比矩阵的代替矩阵A满足如下式3的条件，σ_max和σ_min分别是的最大最小特征值，I为单位矩阵，/>为损失函数关于深度平衡模型输出变量的梯度：

此时幻影梯度可以满足与真实梯度/>的夹角小于90度，从而提供优化的理论保证：

本发明提供三种幻影梯度的实现实例，分别记为基于展开迭代的幻影梯度，Neumann 级数的幻影梯度，Broyden求解器的幻影梯度。三种幻影梯度的实例均满足式3以及式4 的要求，具体如下：

A.基于展开迭代的幻影梯度的图像分类隐式模型加速训练方法：

A1.给定输入图片x，执行训练阶段的标准数据增强，如随机裁剪，随机左右反转等；

A2.使用隐式模型的前向求解器求解近似的平衡点h^*，此阶段不使用自动微分引擎存储中间变量；

以近似的平衡点h^*为起点h₀，使用如下公式计算k次迭代后的h_k作为最终输出的平衡点该阶段使用自动微分引擎存储中间变量；

A3.基于隐式模型的输出进行图像分类，并使用自动微分引擎(如采用Pytorch等自动求导工具)计算损失函数L关于模型参数的梯度，此时自动微分引擎计算的幻影梯度中的A满足下式；

其中，为基于展开迭代的幻影梯度针对雅克比矩阵的代替矩阵；

A4.基于幻影梯度，使用随机梯度下降算法对隐式模型的参数执行优化算法迭代。

B.基于Neumann级数的幻影梯度

B1.给定输入图片x，执行训练阶段的标准数据增强，如随机裁剪，随机左右反转等；

B2.使用隐式模型的前向求解器求解近似的平衡点h^*，并基于h^*预测图像的标签y；

B3.计算预测标签y下损失函数L关于平衡点h^*的梯度；

B4.计算损失函数L关于参数的幻影梯度；

具体实施时，该步骤以矩阵-向量乘积的形式计算A与的乘积，使用下式定义的Neumann级数计算幻影梯度中的A；

其中，为基于Neumann级数的幻影梯度针对雅克比矩阵的代替矩阵；B满足下式：

B5.基于幻影梯度，使用随机梯度下降算法对隐式模型的参数执行优化算法迭代。

C.基于Broyden求解器的幻影梯度

C1.给定输入图片x，执行训练阶段的标准数据增强，如随机裁剪，随机左右反转等；

C2.使用隐式模型的前向求解器求解近似的平衡点h^*，并基于h^*预测图像的标签y；

C3.计算预测标签y下损失函数L关于平衡点h^*的梯度；

C4.使用Broyden求解器求解下述方程中的g(基于Broyden求解器的幻影梯度的求解变量)，在k步迭代后进行早停(early stopping)：

此时，早停的Broyden解得的g可以写为如下形式，其中Q基于Broyden求解器求解幻影梯度的中间变量，基于Broyden求解器的幻影梯度的中间梯度：

C5.使用自动微分引擎对g左乘进一步计算幻影梯度如下：

针对基于Broyden求解器的幻影梯度，其定义中的A满足

C6.基于幻影梯度，使用随机梯度下降算法对隐式模型的参数执行优化算法迭代。

具体实施时，上述幻影梯度中的算法执行步数k范围为1～10，基于展开迭代和Neumann 级数的幻影梯度的超参数λ的取值范围为0.1～1.0。

S3.对待分类的图像，利用步骤S2训练好的图像分类隐式模型进行预测，模型输出即为图像分类标签。

S31.给定输入图片x，进行测试阶段的预处理，如图像大小裁剪；

S32.使用步骤S2训练好的图像分类隐式模型的前向求解器求解近似的平衡点h^*，直接基于平衡点h^*进行图像标签预测。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于幻影梯度的图像分类隐式模型加速训练方法。该训练方法在给予优化算法理论保证的同时，以1.4至1.7倍的加速实现了对于已有最先进隐式模型的训练。根据本发明进行隐式模型的训练，可以保持与隐式微分相当的峰值内存开销，甚至进一步降低峰值内存开销至O(1)级别。最后，本发明相对于基于隐式微分的训练策略，可以大幅度提升已有隐式模型在图像识别与特征提取上的精度。

附图说明

图1为本发明的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了基于幻影梯度的图像分类隐式模型加速训练策略，使用本发明提供的策略训练最先进的隐式模型多尺度深度平衡模型(MDEQ)进行图像识别，可以在加速训练的同时取得更好的识别精度。

以基于展开迭代的幻影梯度为例，本发明的示例实施方案包括以下步骤：

步骤1：将图像数据分为训练样本和测试样本。本实施例使用的数据集为CIFAR-10和 ImageNet数据集。CIFAR-10由60,000张大小为的RGB彩色图像组成，其中训练数据50,000张，测试数据10,000张，类别为10类。ImageNet-1K由1330,000张RGB彩色图像组成，其中训练数据1280,000张，测试数据50,000张，类别为1000类。

步骤2：选择给定数据集上使用的隐式模型。对于CIFAR-10，本发明选用MDEQ-Tiny和MDEQ-Large两个隐式模型；对于ImageNet-1K，本发明选用MDEQ这一隐式模型。

步骤3：使用训练样本通过本发明给出的幻影梯度进行加速训练。对于MDEQ-Tiny，本实施例使用基于展开迭代的幻影梯度、基于Neumann级数的幻影梯度、基于Broyden求解器的幻影梯度进行加速训练；对于MDEQ-Large和MDEQ，本发明均使用基于展开迭代的幻影梯度进行加速训练。

在本实施例中，我们选用基于展开迭代的幻影梯度进行说明，以下为本实施例使用 Pytorch实现的基于展开迭代的幻影梯度进行训练的伪代码：

使用基于展开迭代的幻影梯度进行加速训练包括如下步骤：

(1)对训练样本图像进行标准图像增强。标准图像增强操作包括：对图片行随机裁剪，对图片进行随机水平翻转，对图片像素进行减去均值除以标准差的归一化操作；

(2)使用隐式模型的前向求解器求解近似的平衡点h^*，此阶段不存储中间变量用于自动微分；

(3)以近似的平衡点h^*为起点h₀，使用如下公式计算k次迭代后的h_k作为最终输出的平衡点该阶段使用自动微分引擎存储中间变量；

(4)基于预测图像的标签y，并基于自动微分引擎损失函数L关于模型参数的梯度，此时自动微分引擎计算的幻影梯度中的A为：

(5)基于幻影梯度执行优化算法迭代，使用随机梯度下降算法更新隐式模型的参数。

步骤4：使用基于幻影梯度训练好的网络进行测试图片的推断，基于测试集标签计算模型性准确率。

本发明中的模型均使用幻影梯度作为梯度计算方法。

对于CIFAR-10上的MDEQ-Tiny，本发明利用随机梯度下降算法进行训练，动量参数为 0.9，初始学习率为0.1，学习率衰减规则为cosine衰减，权重衰减参数为0.0001。模型训练过程迭代50轮，批处理大小为128，即每128张图片为一个批次。对于基于展开迭代的幻影梯度，超参数λ选择0.5，迭代步数k选择5；对于基于Neumann级数的幻影梯度，超参数λ选择0.5，迭代步数k选择5；对于基于Broyden求解器的幻影梯度，求解器迭代步数选择5。对于基于Broyden求解器的幻影梯度，训练的前3000步采用与基于隐式微分训练步骤相同的预训练技术，即将MDEQ-Tiny网络前向迭代10次，并使用延时间轴反向传播(BPTT)算法计算预训练梯度。

对于CIFAR-10上的MDEQ-Large，本发明利用随机梯度下降算法进行训练，动量参数为 0.9，初始学习率为0.1，学习率衰减规则为cosine衰减，权重衰减参数为0.0001。模型训练过程迭代220轮，批处理大小为128，即每128张图片为一个批次。对于基于展开迭代的幻影梯度，超参数λ选择0.5，迭代步数k选择5。

对于ImageNet-1K上的MDEQ，本发明利用Nesterov随机梯度下降算法进行训练，动量参数为0.9，初始学习率为0.05，学习率衰减规则为cosine衰减，权重衰减参数为0.00005。模型训练过程迭代100轮，批处理大小为128，即每128张图片为一个批次。对于基于展开迭代的幻影梯度，超参数λ选择0.6，迭代步数k选择5。

表1给出了基于本发明中的幻影梯度的三个实例和基于隐式微分训练MDEQ-Tiny在 CIFAR-10数据集上的图像分类错误率比较：

表1

其中，测试集准确率来自6次随机运行的平均值和最优结果，以平均(最优)的格式报道，复杂度记号满足K＞＞k≈1。从表中可以看出，本发明提出的幻影梯度及三种实例，均大幅度降低了隐式模型训练的时间复杂度。同时，基于Neumann级数的幻影梯度进一步降低了训练隐式模型的峰值存储开销，相对于基于隐式微分的标准训练策略，真正实现了常数级的存储复杂度，提升了训练设备的利用效率。最后，本发明提出的训练策略进一步提升了隐式模型在测试集的泛化能力，获得了相对基线策略隐式微分更优的识别准确率。

表2给出了基于本发明中的幻影梯度和基于隐式微分的基线策略，在CIFAR-10数据集训练MDEQ-Large和在ImageNet-1K数据集上训练MDEQ的图像分类错误率：

表2

其中，CIFAR-10数据集的准确率来自3个随机数种子运行的平均，加速比根据1000次迭代的批运行时间平均计算，峰值内存根据内存开销计算。从表中可见，本发明提出的幻影梯度在不同数据集不同模型上均取得了可观的训练加速，并在大尺寸模型和大规模图像识别中提升了隐式模型的泛化能力，从而验证了本发明的有效性。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于幻影梯度的图像分类隐式模型加速训练方法，包括如下步骤：

S1.定义用于图像分类和特征提取的隐式模型；基于图像分类隐式模型的输出h^*，模型的分类器即可输出预测的图像标签y；

图像分类隐式模型采用深度平衡模型DEQ，表示为式1：

其中，代表定义图像分类隐式模型的显式网络；h^*为图像分类隐式模型的输出；z是图像分类隐式模型参数θ和图像分类隐式模型输入u的并，即z^T＝[θ^T,u^T]，u为图像分类隐式模型的输入图片x在输入变换层M下的投影，即u＝M(x)；

S2.定义图像分类隐式模型参数θ的幻影梯度，基于损失函数L计算幻影梯度，并基于幻影梯度对图像分类隐式模型进行加速训练，得到训练好的图像分类隐式模型；

关于图像分类隐式模型参数的幻影梯度表示为如下形式：

其中，为损失函数关于深度平衡模型输出变量的梯度；A为幻影梯度针对雅克比矩阵的代替矩阵；A满足式3的条件：

其中，σ_max和σ_min分别是的最大最小特征值；I为单位矩阵；/>为损失函数关于深度平衡模型输出变量的梯度；

所述幻影梯度满足与真实梯度/>的夹角小于90度，优化为式4：

所述幻影梯度的实例均满足式3和式4；所述幻影梯度包括：基于展开迭代的幻影梯度，Neumann级数的幻影梯度，Broyden求解器的幻影梯度；具体如下：

A.基于展开迭代的幻影梯度的图像分类隐式模型加速训练包括如下过程：

A1.给定输入图片x，进行训练阶段的标准数据增强；

A2.使用隐式模型的前向求解器求解近似的平衡点h^*，且无需使用自动微分引擎存储中间变量；

以近似的平衡点h^*为起点h₀，使用式5计算得到k次迭代后的结果h_k，作为最终输出的平衡点过程中需要使用自动微分引擎存储中间变量；

其中，λ为基于展开迭代和Neumann级数的幻影梯度的超参数；k为幻影梯度中的算法迭代步数；t为用于计数的序号变量；

A3.基于隐式模型的输出进行图像分类，并使用自动微分引擎计算损失函数L关于模型参数的梯度，此时自动微分引擎计算的幻影梯度中的A满足下式；

A4.基于幻影梯度，使用随机梯度下降算法对隐式模型的参数执行优化算法迭代；

B.基于Neumann级数的幻影梯度的图像分类隐式模型加速训练，包括如下过程：

B1.给定输入图片x，进行训练阶段的标准数据增强；

B3.计算预测得到的图像的标签y下，损失函数L关于平衡点h^*的梯度；

B4.计算损失函数L关于参数的幻影梯度；

以矩阵-向量乘积的形式计算A与的乘积,使用式7定义的Neumann级数计算幻影梯度中的A；

其中，为基于Neumann级数的幻影梯度针对雅克比矩阵的代替矩阵；B满足式8：

B5.基于幻影梯度，使用随机梯度下降算法对隐式模型的参数执行优化算法迭代；C.基于Broyden求解器的幻影梯度的图像分类隐式模型加速训练，包括如下过程：

C1.给定输入图片x，进行训练阶段的标准数据增强；

C3.计算预测标签y下、损失函数L关于平衡点h^*的梯度；

C4.使用Broyden求解器求解的幻影梯度求解变量g，在k步迭代后进行早停：

将早停Broyden解得的g表示为式10：

其中Q为基于Broyden求解器求解幻影梯度的中间变量；

C5.使用自动微分引擎对g左乘通过式11进一步计算得到幻影梯度：

Broyden求解器的幻影梯度定义中的A满足

C6.基于幻影梯度，使用随机梯度下降算法对隐式模型的参数执行优化算法迭代；S3.对待分类的图像，利用步骤S2训练好的图像分类隐式模型进行预测，模型输出即为图像分类标签；包括：

S31.给定输入图片，进行测试阶段的预处理；

S32.使用步骤S2训练好的图像分类隐式模型的前向求解器求解近似的平衡点h^*，基于平衡点h^*进行图像分类标签的预测。

2.如权利要求1所述基于幻影梯度的图像分类隐式模型加速训练方法，其特征是，步骤S1的式1中，隐式模型的显式网络具体采用多尺度深度平衡模型MDEQ。

3.如权利要求1所述基于幻影梯度的图像分类隐式模型加速训练方法，其特征是，训练阶段的标准数据增强操作包括随机裁剪和/或随机左右反转。

4.如权利要求1所述基于幻影梯度的图像分类隐式模型加速训练方法，其特征是，步骤S2中，幻影梯度中的算法执行步数k范围为1～10。

5.如权利要求1所述基于幻影梯度的图像分类隐式模型加速训练方法，其特征是，步骤S2中，基于展开迭代的幻影梯度和Neumann级数的幻影梯度的超参数λ的取值范围均为0.1～1.0。

6.如权利要求1所述基于幻影梯度的图像分类隐式模型加速训练方法，其特征是，步骤S31进行测试阶段的预处理包括图像大小裁剪。