CN111563593A

CN111563593A - 神经网络模型的训练方法和装置

Info

Publication number: CN111563593A
Application number: CN202010383383.0A
Authority: CN
Inventors: 希滕; 张刚; 温圣召
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-08-21
Anticipated expiration: 2040-05-08
Also published as: CN111563593B

Abstract

本申请涉及人工智能领域，公开了神经网络模型的训练方法和装置。该方法包括执行如下搜索操作：根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略，截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数；基于当前的截断策略对待训练的目标神经网络模型进行迭代训练，获取基于当前的截断策略训练完成的目标神经网络模型的性能并生成对应的反馈信息；响应于确定基于当前的截断策略训练完成的目标神经网络模型未达到预设的收敛条件，基于反馈信息迭代更新截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。通过该方法训练得到的神经网络模型在量化后的精度损失较小。

Description

神经网络模型的训练方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及人工智能技术领域，尤其涉及神经网络模型的训练方法和装置。

背景技术

神经网络模型的量化，是将高位宽的模型参数转换为低位宽的模型参数，以此提升模型的计算速度。通常在高位宽的神经网络模型训练完成之后进行量化。通常量化后得到的低位宽神经网络模型被直接用于执行相应的深度学习任务。然而，由于量化后参数的精度损失较大，可能导致量化后的模型的精度损失超过可接受的范围。

发明内容

本公开的实施例提供了神经网络模型的训练方法和装置、电子设备以及计算机可读存储介质。

根据第一方面，提供了一种神经网络模型的训练方法，包括执行如下搜索操作：根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略，其中，截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数；基于当前的截断策略对待训练的目标神经网络模型进行迭代训练，其中，在训练过程中的每一次迭代，按照当前的截断策略对待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，通过将损失函数值前向传播以更新待训练的目标神经网络模型的参数；获取基于当前的截断策略训练完成的目标神经网络模型的性能并生成对应的反馈信息；响应于确定基于当前的截断策略训练完成的目标神经网络模型未达到预设的收敛条件，基于反馈信息迭代更新截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

根据第二方面，提供了一种神经网络模型的训练装置，包括搜索单元，被配置为执行搜索操作；搜索单元包括：确定单元，被配置为执行搜索操作中的如下步骤：根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略，其中，截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数；训练单元，被配置为执行搜索操作中的如下步骤：基于当前的截断策略对待训练的目标神经网络模型进行迭代训练，其中，在训练过程中的每一次迭代，按照当前的截断策略对待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，通过将损失函数值前向传播以更新待训练的目标神经网络模型的参数；获取单元，被配置为执行搜索操作中的如下步骤：获取基于当前的截断策略训练完成的目标神经网络模型的性能并生成对应的反馈信息；更新单元，被配置为执行搜索操作中的如下步骤：响应于确定基于当前的截断策略训练完成的目标神经网络模型未达到预设的收敛条件，基于反馈信息迭代更新截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面提供的神经网络模型的训练方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面提供的神经网络模型的训练方法。

根据本申请的技术通过在神经网络模型的训练过程中搜索最优的截断策略，使得训练得到的神经网络模型对量化不敏感，由此训练得到的神经网络模型在量化后的精度损失较小。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的神经网络模型的训练方法的一个实施例的流程图；

图2是本公开的神经网络模型的训练方法的另一个实施例的流程图；

图3是本公开的神经网络模型的训练方法的又一个实施例的流程图；

图4是本公开的神经网络模型的训练装置的一个实施例的结构示意图；

图5是用来实现本公开的实施例的神经网络模型的训练方法的电子设备的框图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的方法或装置可以应用于终端设备或服务器，或者可以应用于包括终端设备、网络和服务器的系统架构。其中，网络用以在终端设备和服务器之间提供通信链路的介质，可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备可以是用户端设备，其上可以安装有各种客户端应用。例如，图像处理类应用、搜索应用、语音服务类应用等。终端设备可以是硬件，也可以是软件。当终端设备为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器可以是运行各种服务的服务器，例如运行基于图像、视频、语音、文本、数字信号等数据的目标检测与识别、文本或语音识别、信号转换等服务的服务器。服务器可以获取深度学习任务数据来构建训练样本，对用于执行深度学习任务的神经网络模型进行训练。

服务器可以是为终端设备上安装的应用提供后端支持的后端服务器。例如，服务器可以接收终端设备发送的待处理的数据，使用神经网络模型对数据进行处理，并将处理结果返回至终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的神经网络模型的训练方法可以由终端设备或服务器执行，相应地，神经网络模型的训练装置可以设置于终端设备或服务器中。

请参考图1，其示出了根据本公开的神经网络模型的训练方法的一个实施例的流程100。该神经网络模型的训练方法，包括执行搜索操作，搜索操作具体包括如下步骤101、步骤102、步骤103和步骤104：

步骤101，根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略。

截断策略控制器用于生成截断策略。其中，截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数。在参数或中间输出数据的二进制表征中，被截断的位数是二进制表征的最后若干位，也即二进制表征的最后一位向前的若干位，被截断的位数被置为0。例如，在一个8位整型的参数的二进制表征11001011，中，若被截断的位数为3，则将最后2位置为0，截断后二进制表征为11001000。被截断后的参数或中间输出数据的精度降低，例如当截断位数为3时，8位整型的数据11001011和11001110截断后的二进制表征都是11001000。

上述截断策略控制器用于控制神经网络模型的指定层的中间输出数据或参数的截断位数。在这里，中间输出数据可以是中间层输出的数据，例如中间的卷积层、全连接层、池化层等的输出的特征图或者向量数据。

截断策略控制器可以实现为循环神经网络、卷积神经网络等神经网络模型，或者可以实现为概率模型等数学模型，还可以实现为强化学习算法、进化算法、模拟退火算法等，其可以在迭代执行搜索操作的过程中基于其搜索出的截断策略的评估结果进行自动更新，进而更新搜索出的当前截断策略。

截断策略控制器可以生成截断策略序列，按照预先定义的截断策略的编解码规则，对截断策略序列进行解码得到神经网络模型对应层的参数或中间输出数据的截断策略。

预设的截断策略搜索空间可以包括神经网络模型的若干层的参数或中间输出数据的可选截断位数。在每一次搜索操作中，可以利用当前的截断策略控制器，从预设的截断策略搜索空间内搜索出当前的截断策略。

需要说明的是，基于不同截断位数截断后的参数或中间输出数据的精度损失不同。一般地，截断位数越多，截断后的精度损失越大，但截断位数越少，训练完成的神经网络模型对量化的敏感度越高。本实施例的方法通过多次搜索操作可以搜索出目标神经网络模型的最优截断策略。

步骤102，基于当前的截断策略对待训练的目标神经网络模型进行迭代训练。

可以通过多次迭代训练目标神经网络模型。在训练过程中的每一次迭代，按照当前的截断策略对待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，通过将损失函数值前向传播以更新待训练的目标神经网络模型的参数。

具体地，在训练过程中的每一次迭代，将样本数据输入目标神经网络模型，根据当前的截断策略对目标神经网络模型的参数或中间输出数据的二进制表征进行截断，利用截断后的参数或中间输出数据得到待训练的目标神经网络模型对样本数据的预测结果，并利用截断后的参数或中间输出数据计算表征目标神经网络模型的预测误差的损失函数值，根据损失函数值，采用梯度下降法迭代更新待训练的目标神经网络模型的参数。当待训练的目标神经网络模型的参数收敛、或者上述损失函数值收敛时，可以停止训练目标神经网络模型，得到训练完成的目标神经网络模型。

可选地，上述截断策略可以包括神经网络模型的特征提取层输出的特征图的二进制表征中被截断的位数。在这里，特征图的二进制表征是特征图各像素值的二进制表征。这时，可以按照如下方式生成待训练的目标神经网络模型的预测结果和损失函数值：将样本图像数据输入待训练的目标神经网络模型进行特征提取，按照当前的截断策略，对待训练的目标神经网络模型的至少一个特征提取层输出的特征图的二进制表征截断对应的位数，并基于截断后的特征图的二进制表征生成待训练的目标神经网络模型的预测结果和损失函数值。

在确定当前的截断策略，即确定当前的搜索操作中目标神经网络模型的至少一个特征提取层对应的截断位数后，可以将目标神经网络模型针对样本图像数据在对应的特征提取层输出的特征图的二进制表征进行相应位数的截断。并基于截断后的特征图输出目标神经网络模型对样本图像数据的预测结果以及用于监督目标数神经网络模型训练的损失函数的值。

步骤103，获取基于当前的截断策略训练完成的目标神经网络模型的性能并生成对应的反馈信息。

可以利用测试数据对基于当前的截断策略训练完成的目标神经网络模型的性能进行测试。在这里，目标神经网络模型的性能可以包括：准确率、在指定的运行环境下运行的延时、召回率、或者内存占用率，等等。可以根据实践中需求确定测试的性能。例如在实时性需求较高的用户交互场景中，可以测试目标神经网络模型在指定硬件上运行的延时。在准确性需求较高的场景中，例如基于人脸的用户身份认证场景中，可以测试目标神经网络模型的准确率。

可以根据训练完成的目标神经网络模型的性能生成对应的反馈信息。该反馈信息可以用反馈值表示。反馈值的初始值可以设定为0。在每一次搜索操作中获取基于当前的截断策略训练完成的目标神经网络模型的性能之后，可以更新反馈值。该反馈值作为当前的截断策略的评估指标，可以被反馈至预设的截断策略控制器。

步骤104，响应于确定基于当前的截断策略训练完成的目标神经网络模型未达到预设的收敛条件，基于反馈信息迭代更新截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

如果确定在当前的搜索操作中训练完成的目标神经网络模型未达到预设的收敛条件，则基于反馈信息迭代更新截断策略控制器。

上述预设的收敛条件可以包括以下至少一项：搜索操作的次数达到预设的次数阈值，训练完成的目标神经网络模型的性能达到预设的性能阈值，训练完成的目标神经网络模型在连续多次搜索操作中的性能的变化不超过预设的变化阈值，等等。

上述截断策略控制器可以在反馈值的作用下更新。当截断策略控制器实现为循环神经网络或卷积神经网络时，可以基于反馈值更新循环神经网络或卷积神经网络的参数。当截断策略控制器实现为进化算法时，可以将反馈值作为截断策略种群的适应度，对截断策略种群进行进化。当截断策略控制器实现为强化学习算法时，反馈值作为强化学习模型的奖励值(reward)，使得强化学习模型基于奖励值更新参数。

在下一次搜索操作中，更新后的截断策略控制器可以生成新的当前的截断策略。通过多次执行搜索操作可以搜索出最优的截断策略。而由于在最优的截断策略中对目标神经网络模型的参数或中间输出数据进行了截断，使得神经网络模型对量化的敏感度降低，从而缩小了基于最优的截断策略截断后的目标神经网络模型的量化损失。

请参考图2，其示出了本公开的神经网络模型的训练方法的另一个实施例的流程示意图。本实施例的神经网络模型的训练方法的流程200包括执行多次搜索操作，其中，搜索操作包括以下步骤201至步骤204：

步骤201，根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略。

截断策略控制器可以实现为循环神经网络、卷积神经网络等神经网络模型，或者可以实现为概率模型等数学模型，还可以实现为强化学习算法、进化算法、模拟退火算法等，其可以根据基于搜索出的截断策略的评估结果进行自动更新。

在本实施例中，截断策略包括神经网络模型的中间层输出的特征图的二进制表征中被截断的位数。可以预先设定目标神经网络模型的至少一个中间层为指定的进行截断操作的中间层，在每次搜索操作中从截断策略搜索空间中搜索出各个指定的进行截断操作的中间层对应的截断位数，作为当前的截断策略。

可选地，本实施例的神经网络模型的训练方法的流程还可以包括构建预设的截断策略的搜索空间的步骤。在这里，预设的截断策略搜索空间包括待训练的目标神经网络模型中的至少一个中间层输出的特征图对应的候选截断位数。各中间层输出的特征图对应的候选截断位数可以预先设定，例如设定为区间[1，32]中的每一个整数。则在每一次搜索操作中，截断策略控制器可以在该区间内搜索对应的特征图的截断位数，组合不同的而中间层输出的特征图对应的截断位数构成整个目标神经网络模型的当前的截断策略。

步骤202，基于当前的截断策略对待训练的目标神经网络模型进行迭代训练。

步骤202包括执行多次迭代操作，其中每一次迭代操作包括以下步骤2021：

步骤2021，将样本图像数据输入待训练的目标神经网络模型进行特征提取，按照当前的截断策略，对待训练的目标神经网络模型的至少一个中间层输出的特征图的二进制表征截断对应的位数，并基于截断后的特征图的二进制表征生成待训练的目标神经网络模型的预测结果和损失函数值，通过将损失函数值前向传播以更新待训练的目标神经网络模型的参数。

具体地，在上述步骤2021中，将样本图像数据输入待训练的目标神经网络模型之后，根据当前的截断策略，对目标神经网络模型的对应中间层输出的特征图的二进制表征进行截断，并将截断后的特征图替换原特征图，利用目标神经网络模型的得到最终的预测结果，并根据预测结果的误差计算损失函数值。

可选地，上述迭代操作还包括：响应于确定待训练的目标神经网络模型的迭代操作次数未达到预设的阈值，且待训练的目标神经网络模型对应的损失函数值未收敛至预设的范围内，基于损失函数值更新目标神经网络模型的参数，并执行下一次迭代操作；以及响应于确定待训练的目标神经网络模型的迭代操作次数达到预设的阈值，或者待训练的目标神经网络模型对应的损失函数值收敛至预设的范围内，停止执行迭代操作，得到基于当前的截断策略训练完成的目标神经网络模型。

步骤203，获取基于当前的截断策略训练完成的目标神经网络模型的性能并生成对应的反馈信息。

步骤204，响应于确定基于当前的截断策略训练完成的目标神经网络模型未达到预设的收敛条件，基于反馈信息迭代更新截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

本实施例的步骤203和步骤204分别与前述实施例的步骤103和步骤104一致，步骤203和步骤204的具体实现方式可以分别参考前述实施例对步骤103和步骤104的描述，此处不再赘述。

由于神经网络模型的特征图对神经网络模型的最终预测结果和损失函数值具有直接的影响，而不会直接影响神经网络模型参数的精度。本实施例通过对特征图截断来计算损失函数值，使得损失函数值对中间输出数据的精度不敏感，从而基于损失函数更新的神经网络模型对特征图的精度不敏感，从而在确保神经网络模型参数精度的情况下降低了神经网络模型对量化的敏感度。

继续参考图3，其示出了本公开的神经网络模型的训练方法的又一个实施例的流程图。如图3所示，本实施例的神经网络模型的训练方法的流程300，包括执行搜索操作。其中，搜索操作包括以下步骤301至步骤305：

步骤301，根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略，其中，截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数。

步骤302，基于当前的截断策略对待训练的目标神经网络模型进行迭代训练，其中，在训练过程中的每一次迭代，按照当前的截断策略对待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，通过将损失函数值前向传播以更新待训练的目标神经网络模型的参数。

步骤303，获取基于当前的截断策略训练完成的目标神经网络模型的性能并生成对应的反馈信息。

步骤304，响应于确定基于当前的截断策略训练完成的目标神经网络模型未达到预设的收敛条件，基于反馈信息迭代更新截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

上述步骤301至步骤304分别与前述实施例的步骤101至步骤104一致，或者可以与前述实施例的步骤201至步骤204一致。步骤301至步骤304的具体实现方式可以分别参数前述实施例中对应步骤的描述，此处不再赘述。

步骤305，响应于确定基于当前的截断策略训练完成的目标神经网络模型达到预设的收敛条件，对基于当前的截断策略训练完成的目标神经网络模型进行量化，得到量化后的目标神经网络模型。

在搜索操作中确定基于当前的截断策略训练完成的目标神经网络模型达到预设的收敛条件时，可以停止执行搜索操作，这时训练完成的目标神经网络模型可以作为基于最优的截断策略训练完成的目标神经网络模型。可以对基于最优的截断策略训练完成的目标神经网络模型的参数进行量化，得到量化后的目标神经网络模型。

由于基于最优的截断策略训练完成的目标神经网络模型对模型参数或中间输出数据的二进制表征中被截断的位的数值不敏感，因此基于最优的截断策略训练完成的目标神经网络模型对参数量化造成的参数精度损失的敏感程度降低，量化得到的模型能够达到较高的精度。

可选地，上述神经网络模型的训练方法的流程300还可以包括：将量化后的目标神经网络模型发送至终端侧，以在终端侧部署量化后的目标神经网络模型并利用量化后的目标神经网络模型处理对应的任务数据。

通常终端侧对神经网络模型的实时性要求较高，利用量化后的模型可以提升模型的数据处理速度。并且上述量化后的目标神经网络模型能达到较高的精度，能够在终端侧高效地获得较准确的处理结果。

请参考图4，作为对上述神经网络模型的训练方法的实现，本公开提供了一种神经网络模型的训练装置的一个实施例，该装置实施例与上述各方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的神经网络模型的训练装置400包括搜索单元401。搜索单元401被配置为执行搜索操作。搜索单元401包括：确定单元4011，被配置为执行搜索操作中的如下步骤：根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略，其中，截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数；训练单元4012，被配置为执行搜索操作中的如下步骤：基于当前的截断策略对待训练的目标神经网络模型进行迭代训练，其中，在训练过程中的每一次迭代，按照当前的截断策略对待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，通过将损失函数值前向传播以更新待训练的目标神经网络模型的参数；获取单元4013，被配置为执行搜索操作中的如下步骤：获取基于当前的截断策略训练完成的目标神经网络模型的性能并生成对应的反馈信息；更新单元4014，被配置为执行搜索操作中的如下步骤：响应于确定基于当前的截断策略训练完成的目标神经网络模型未达到预设的收敛条件，基于反馈信息迭代更新截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

在一些实施例中，上述截断策略包括神经网络模型的中间层输出的特征图的二进制表征中被截断的位数；以及上述训练单元4012被配置为按照如下方式生成待训练的目标神经网络模型的预测结果和损失函数值：将样本图像数据输入待训练的目标神经网络模型进行特征提取，按照当前的截断策略，对待训练的目标神经网络模型的至少一个中间层输出的特征图的二进制表征截断对应的位数，并基于截断后的特征图的二进制表征生成待训练的目标神经网络模型的预测结果和损失函数值。

在一些实施例中，上述装置还包括：构建单元，被配置为构建预设的截断策略的搜索空间，预设的截断策略搜索空间包括待训练的目标神经网络模型中的至少一个中间层输出的特征图对应的候选截断位数。

在一些实施例中，上述搜索单元401还包括：量化单元，被配置为执行搜索操作中的如下步骤：响应于确定基于当前的截断策略训练完成的目标神经网络模型达到预设的收敛条件，对基于当前的截断策略训练完成的目标神经网络模型进行量化，得到量化后的目标神经网络模型。

在一些实施例中，上述装置还包括：发送单元，被配置为将量化后的目标神经网络模型发送至终端侧，以在终端侧部署量化后的目标神经网络模型并利用量化后的目标神经网络模型处理对应的任务数据。

上述装置400与前述方法实施例中的步骤相对应。由此，上文针对神经网络模型的训练方法描述的操作、特征及所能达到的技术效果同样适用于装置400及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的神经网络模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的神经网络模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的神经网络模型的训练方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的神经网络模型的训练方法对应的程序指令/单元/模块(例如，附图4所示的搜索单元401)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的神经网络模型的训练方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于生成神经网络的结构的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至用于生成神经网络的结构的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

神经网络模型的训练方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线505或者其他方式连接，图5中以通过总线505连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与用于生成神经网络的结构的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种神经网络模型的训练方法，包括执行如下搜索操作：

根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略，其中，所述截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数；

基于所述当前的截断策略对待训练的目标神经网络模型进行迭代训练，其中，在训练过程中的每一次迭代，按照所述当前的截断策略对所述待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，通过将所述损失函数值前向传播以更新所述待训练的目标神经网络模型的参数；

获取基于所述当前的截断策略训练完成的所述目标神经网络模型的性能并生成对应的反馈信息；

响应于确定基于所述当前的截断策略训练完成的所述目标神经网络模型未达到预设的收敛条件，基于所述反馈信息迭代更新所述截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

2.根据权利要求1所述的方法，其中，所述截断策略包括神经网络模型的中间层输出的特征图的二进制表征中被截断的位数；以及

所述按照所述当前的截断策略对所述待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，包括：

将样本图像数据输入待训练的目标神经网络模型进行特征提取，按照当前的截断策略，对所述待训练的目标神经网络模型的至少一个中间层输出的特征图的二进制表征截断对应的位数，并基于截断后的特征图的二进制表征生成所述待训练的目标神经网络模型的预测结果和损失函数值。

3.根据权利要求2所述的方法，其中，在执行所述搜索操作之前，所述方法还包括：

构建所述预设的截断策略的搜索空间，所述预设的截断策略搜索空间包括所述待训练的目标神经网络模型中的至少一个中间层输出的特征图对应的候选截断位数。

4.根据权利要求1-3任一项所述的方法，其中，所述搜索操作还包括：

响应于确定基于所述当前的截断策略训练完成的所述目标神经网络模型达到预设的收敛条件，对所述基于所述当前的截断策略训练完成的所述目标神经网络模型进行量化，得到量化后的目标神经网络模型。

5.根据权利要求4所述的方法，其中，所述方法还包括：

将所述量化后的目标神经网络模型发送至终端侧，以在终端侧部署所述量化后的目标神经网络模型并利用所述量化后的目标神经网络模型处理对应的任务数据。

6.一种神经网络模型的训练装置，包括搜索单元，被配置为执行搜索操作；

所述搜索单元包括：

确定单元，被配置为执行搜索操作中的如下步骤：根据预设的截断策略控制器，从预设的截断策略的搜索空间中确定出当前的截断策略，其中，所述截断策略包括神经网络模型的参数或中间输出数据的二进制表征中被截断的位数；

训练单元，被配置为执行搜索操作中的如下步骤：基于所述当前的截断策略对待训练的目标神经网络模型进行迭代训练，其中，在训练过程中的每一次迭代，按照所述当前的截断策略对所述待训练的目标神经网络模型的参数或中间输出数据的二进制表征进行截断后生成待训练的目标神经网络模型的预测结果和损失函数值，通过将所述损失函数值前向传播以更新所述待训练的目标神经网络模型的参数；

获取单元，被配置为执行搜索操作中的如下步骤：获取基于所述当前的截断策略训练完成的所述目标神经网络模型的性能并生成对应的反馈信息；

更新单元，被配置为执行搜索操作中的如下步骤：响应于确定基于所述当前的截断策略训练完成的所述目标神经网络模型未达到预设的收敛条件，基于所述反馈信息迭代更新所述截断策略控制器，以基于更新后的截断策略控制器执行下一次搜索操作。

7.根据权利要求6所述的装置，其中，所述截断策略包括神经网络模型的中间层输出的特征图的二进制表征中被截断的位数；以及

所述训练单元被配置为按照如下方式生成待训练的目标神经网络模型的预测结果和损失函数值：

8.根据权利要求7所述的装置，其中，所述装置还包括：

构建单元，被配置为构建所述预设的截断策略的搜索空间，所述预设的截断策略搜索空间包括所述待训练的目标神经网络模型中的至少一个中间层输出的特征图对应的候选截断位数。

9.根据权利要求6-8任一项所述的装置，其中，所述搜索单元还包括：

量化单元，被配置为执行搜索操作中的如下步骤：响应于确定基于所述当前的截断策略训练完成的所述目标神经网络模型达到预设的收敛条件，对所述基于所述当前的截断策略训练完成的所述目标神经网络模型进行量化，得到量化后的目标神经网络模型。

10.根据权利要求9所述的装置，其中，所述装置还包括：

发送单元，被配置为将所述量化后的目标神经网络模型发送至终端侧，以在终端侧部署所述量化后的目标神经网络模型并利用所述量化后的目标神经网络模型处理对应的任务数据。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。