CN112598082B

CN112598082B - 基于非校验集预测图像识别模型泛化误差的方法及系统

Info

Publication number: CN112598082B
Application number: CN202110017334.XA
Authority: CN
Inventors: 伍冬睿; 张潇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2022-07-12
Anticipated expiration: 2041-01-07
Also published as: CN112598082A

Abstract

本发明公开了一种基于非校验集预测图像识别模型泛化误差的方法及系统，属于深度学习优化与泛化领域，方法包括：在每一个训练回合结束后，随机采样K组训练图片，使用模型优化器计算K组训练图片对应图像识别模型的参数更新量；利用参数更新量，得到对应的K个更新后的模型，并记录K个更新后的模型对各张训练图片的输出；计算各张训练图片的输出的方差值，使用输出模长对方差值进行归一化，得到输出相对方差；以输出相对方差预测图像识别模型的泛化误差在训练过程中的变化趋势。如此，本发明不需要使用校验集故能够将所有的训练样本投入训练，从而获得更好的泛化性能；另外该过程只需要训练一轮神经网络，减少了多次训练带来的能量与硬件的损耗。

Description

基于非校验集预测图像识别模型泛化误差的方法及系统

技术领域

本发明属于深度学习优化与泛化领域，更具体地，涉及一种基于非校验集预测图像识别模型泛化误差的方法及系统。

背景技术

机器学习作为目前人工智能的研究热点，常用于挖掘数据之间的潜在关系。近几年，基于数据驱动的机器学习算法在生物、医疗、金融、军事等各个领域都取得了卓越的成绩。随着数据与算力的提升，深度学习作为一种能很好处理图像的机器学习算法，成为了目前的研究热点并被广泛应用于各行各业。

虽然深度学习在图像识别的任务上具有良好的表现，但是其尚存在着诸多问题亟待解决与研究。用于图像识别的神经网络模型在训练过程中存在着复杂的泛化现象，如现有技术中提到的训练过程中的测试误差二次下降现象：随着训练回合数的增加，神经网络在图像测试集上的误差先下降，然后由于过拟合开始上升，最后在某个时候又会再次下降。这些复杂的泛化现象使得在训练过程中预测模型泛化误差的变化趋势尤为重要。目前最常用的预测手段为将图像训练集划分出一部分作为校验集，然后图像识别模型在剩下的训练集上进行训练而在校验集上计算误差从而来预测测试误差的变化趋势，最后通过预测的测试误差变化趋势来进行如早停等其他下游处理。

虽然使用校验集信息来预测图像识别模型训练过程中泛化误差曲线的方法简单实用，但是校验集划去了部分的训练图片，往往使得预测的泛化误差曲线跟实际中使用所有训练样本训练时的泛化误差曲线不太一致，从而影响到后续的早停等处理；除此之外，由于划分校验集而导致的训练图片数量的减少也常常会带来泛化性能的下降。后者可以通过两轮的训练来减轻，即先将训练集划分出一部分作为校验集，然后通过检验校验集上的结果来确定训练的回合数，最后将校验集并入训练集整体从而在所有图片上训练同样的回合数；但是由此增加的训练代价又会使得硬件与能源的损耗成为新的问题，同时这种流程依然没有办法保证训练图片数量不同的情况下泛化误差曲线一致变化。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于非校验集预测图像识别模型泛化误差的方法及系统，由此解决现有图像识别模型训练过程中使用校验集预测泛化性能时存在的多次训练代价大、预测不准的技术问题。

为实现上述目的，一方面，本发明提供了一种基于非校验集预测图像识别模型泛化误差的方法，包括以下步骤：

(1)在每一个训练回合结束后，随机采样K组训练图片，使用模型优化器计算所述K组训练图片对应的图像识别模型的参数更新量；

(2)利用所述参数更新量，得到对应的K个更新后的模型，并记录所述K个更新后的模型对各张训练图片的输出；

(3)计算所述各张训练图片的输出的方差值，使用输出模长对所述方差值进行归一化，得到输出相对方差；以所述输出相对方差预测所述图像识别模型的泛化误差在训练过程中的变化趋势。

进一步地，所述图像识别模型的参数更新量为参数更新梯度。

进一步地，所述模型优化器包括ADAM优化器、SGD优化器。

进一步地，所述输出相对方差RV表示为：

其中，n为图片样本数，i＝1,2,……,n，j＝1,2,……,K，f表示图像识别模型。

另一方面，本发明提供了一种基于非校验集预测图像识别模型泛化误差的系统，包括：

第一计算模块，用于在每一个训练回合结束后，随机采样K组训练图片，使用模型优化器计算所述K组训练图片对应的图像识别模型的参数更新量；

更新模块，用于利用所述参数更新量，得到对应的K个更新后的模型，并记录所述K个更新后的模型对各张训练图片的输出；

第二计算模块，用于计算所述各张训练图片的输出的方差值，使用输出模长对所述方差值进行归一化，得到输出相对方差；以所述输出相对方差预测所述图像识别模型的泛化误差在训练过程中的变化趋势。

进一步地，所述模型优化器包括ADAM优化器、SGD优化器。

进一步地，所述输出相对方差RV表示为：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明以输出相对方差来预测图像识别模型的泛化误差在训练过程中的变化趋势，可以直接在训练集上进行估计，并且能够较为准确的判定图像识别模型训练过程中泛化误差曲线的变化趋势。同时，该过程由于并不需要使用校验集故能够将所有的训练图片投入训练，从而获得更好的泛化性能；另外该过程只需要训练一轮神经网络，减少了多次训练带来的能量与硬件的损耗。

附图说明

图1是本发明提出的模型输出相对方差的计算流程简图；

图2是不同标签噪声下(即随机扰乱不同比例的标签)神经网络模型VGG16在数据集CIFAR100上训练时的测试误差曲线以及使用训练集计算出来的RV曲线；

图3是CIFAR10数据集上不同宽度的ResNet18其对应的RV曲线以及测试准确率曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

参阅图1，本发明提供了一种基于非校验集预测图像识别模型泛化误差的方法，包括以下步骤：

具体的，以使用包含n个样本的训练数据集

来训练模型f为例(如CIFAR10中n＝50000)，在每个训练回合之后，从训练数据集D中随机采样K组包含B个训练样本的训练批次(例K＝100～150，B＝128或256)，然后使用训练模型时的如ADAM(学习率为1e-3或1e-4)、SGD(学习率为1e-2或1e-3，动量为0.9)等优化器根据各个训练批次求取对应的模型参数更新量，从而得到对应的K个更新后的模型

计算这K个模型在训练样本上的模型相对方差值：

实验表明，RV的值与模型的泛化性能在训练过程中具有相同的变化趋势，故可以不需要划分验证集而直接通过使用RV的值来预测模型的泛化性能。

上述求取RV指标的过程需要多次计算模型参数更新量，使得计算变得相对繁琐复杂。一种简化的方案是使用直接采样的随机噪声(如神经网络每层使用均值为0且方差为0.001倍该层参数模长的高斯噪声)替代需要计算的模型参数更新量，从而大大降低了计算量。需要指出的是，虽然这种方案具有更加简单的计算方式，但是其在部分数据集上(如CIFAR100)并不有效。该简化方案通常只对类别数较少(一般小于20类)的简单数据集有效。

RV除了可以用来预测训练过程中单一模型的泛化性能曲线，也可以用来预测架构逐渐变化时泛化性能的改变。例如不同宽度的ResNet18在CIFAR10上训练相同的回合数后，使用不带动量的SGD优化器(学习率为1e-3)分别计算其对应的RV，便可以预测相应的测试准确率变化。实验结果表明RV与准确率具有极高的相关性，可一定程度上预测ResNet18随着宽度变化其泛化性能的变化趋势。

图1展示了模型相对方差的计算流程简图。在训练数据集中采样不同的训练批次来计算其对应的模型参数更新量，然后估计分别使用这些参数更新后的各个模型对同一个训练样本点输出的方差，使用输出模长进行归一化后求取该值在训练样本点上的期望，从而得到输出相对方差指标。通过在不同训练阶段估计该指标并记录其在训练过程中的变化趋势，便可以获得泛化误差的变化趋势。

图2展示了不同标签噪声下(即随机扰乱不同比例的标签)神经网络模型VGG16在数据集CIFAR100上训练时的测试误差曲线以及使用训练集计算出来的RV曲线。可以发现这两条曲线在竖直方向上对称，实验结果说明训练过程中RV能够很好的预测模型的泛化性能的变化曲线。

图3展示了CIFAR10数据集上不同宽度的ResNet18其对应的RV以及测试准确率。宽度分别为原始模型宽度的0.25倍-2.0倍，并且使用ADAM优化器(学习率为1e-4)训练100个回合。经过计算RV与测试准确率相关度为-0.94，显著性检验p值为0.0006，该结果表明RV对不同宽度的模型测试准确率也具有较好的预测效果。

上述基于非校验集预测图像识别模型泛化误差的系统中各个模块的划分仅用于举例说明，在其他实施例中，可将基于非校验集预测图像识别模型泛化误差的系统按照需要划分为不同的模块，以完成上述系统的全部或部分功能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非校验集预测图像识别模型泛化误差的方法，其特征在于，包括以下步骤：

(3)计算所述各张训练图片的输出的方差值，使用输出模长对所述方差值进行归一化，得到输出相对方差；以所述输出相对方差预测所述图像识别模型的泛化误差在训练过程中的变化趋势；

所述输出相对方差RV表示为：

2.如权利要求1所述的基于非校验集预测图像识别模型泛化误差的方法，其特征在于，所述图像识别模型的参数更新量为参数更新梯度。

3.如权利要求1所述的基于非校验集预测图像识别模型泛化误差的方法，其特征在于，所述模型优化器包括ADAM优化器、SGD优化器。

4.一种基于非校验集预测图像识别模型泛化误差的系统，其特征在于，包括：

第二计算模块，用于计算所述各张训练图片的输出的方差值，使用输出模长对所述方差值进行归一化，得到输出相对方差；以所述输出相对方差预测所述图像识别模型的泛化误差在训练过程中的变化趋势；

所述输出相对方差RV表示为：

5.如权利要求4所述的基于非校验集预测图像识别模型泛化误差的系统，其特征在于，所述图像识别模型的参数更新量为参数更新梯度。

6.如权利要求4所述的基于非校验集预测图像识别模型泛化误差的系统，其特征在于，所述模型优化器包括ADAM优化器、SGD优化器。