CN109976903B

CN109976903B - 一种基于层宽内存分配的深度学习异构计算方法和系统

Info

Publication number: CN109976903B
Application number: CN201910136545.8A
Authority: CN
Inventors: 金海�; 廖小飞; 郑龙; 刘海坤; 葛希
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2021-06-29
Anticipated expiration: 2039-02-22
Also published as: US20200272907A1; US11568268B2; CN109976903A

Abstract

一种基于层宽内存分配的深度学习异构计算方法，包括步骤：遍历神经网络模型以获取其训练操作序列及层数L；计算神经网络模型中第i层操作所涉及的数据在双缓冲配置下所需的内存空间R₁；在第i层操作所需的内存空间R₁大于GPU的内存空间的情况下，改变第i层的层结构并更新所述训练操作序列；在神经网络模型的所有层涉及的所有数据所需的内存空间R₂大于GPU的内存空间的情况下，将所述所有数据按照数据放置方法转移至所述存储介质中进行存储；基于所述训练操作序列按照逐层的方式完成每一层的迭代计算以完成对神经网络的训练。本发明的方法使GPU内存空间不再成为神经网络训练的限制因素，降低了CPU和GPU之间的通信开销，加快神经网络的训练速度。

Description

一种基于层宽内存分配的深度学习异构计算方法和系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种基于层宽内存分配的深度学习异构计算方法和系统。

背景技术

卷积神经网络是深度学习中的典型代表，目前在计算机视觉，自然语言处理，语音识别等领域一枝独秀，其效果远远优于其他方法。由于深度学习的训练过程需要强大的计算能力，所以通常采用GPU来加速训练过程，而且目前主流的深度学习系统都提供了大量的GPU计算支持。由于物理限制，GPU memory容量远远小于Host memory容量，但是随着深度学习的研究不断深入，神经网络朝着更宽更深的方向不断演进，那么在GPU卡上训练神经网络也需要更多的GPU memory支持。所以为了在单块GPU卡上训练神经网络，只能选择更小规模的网络，或者使用多块GPU卡并行计算。

因为神经网络在反向传播的过程中需要使用到前向传播过程产生的中间数据，所以目前流行的深度学习系统都是采用network-wide的内存分配策略，将前向传播过程中产生的中间数据都保存在GPU memory中，以便在反向传播过程中能够及时的利用中间数据计算参数的更新梯度。当神经网络不能被完全装进GPU时，GPU memory就成为了主要的限制因素。神经网络的训练涉及到多个层的执行过程，但是在任意一个时刻，GPU只能执行单个层的计算任务，所以最近的研究提出了layer-wide的内存分配策略，把当前计算不需要的数据offload到Host memory中，为了隐藏通信开销，通常采用Double buffer的内存配置。训练神经网络的内存需求随之大大降低，只需要满足GPU memory的容量大于神经网络中最大层所需内存的两倍。神经网络求解时，常采用批处理的随机梯度下降法。批处理的方法虽然能够帮助神经网路更快的收敛到最优解，但是在训练的过程中需要为其分配更大的内存空间。当批处理的批次大小变大或模型变得更宽时，神经网络中最大层所需要的内存空间也会变得更大，甚至会大于GPU memory的容量，此时layer-wide的内存分配策略也失去了功效。在有限的GPU memory下，神经网络的训练不能得以进行。

发明内容

如本文所用的词语“模块”描述任一种硬件、软件或软硬件组合，其能够执行与“模块”相关联的功能。

针对现有技术之不足，本发明提供一种基于层宽内存分配策略的深度学习异构计算方法，基于CPU和GPU共同执行所述深度学习异构计算方法，基于至少一个存储介质存储CPU和GPU共同执行过程中涉及的数据，所述深度学习异构计算方法至少包括步骤：遍历神经网路模型以获取其训练操作序列及层数L。计算神经网络模型中第i层操作所涉及的数据在双缓冲配置下所需的内存空间R₁，其中，1≤i≤L。在第i层操作所需的内存空间R₁大于GPU的内存空间的情况下，改变第i层的层结构并更新所述训练操作序列。在神经网络模型的所有层涉及的所有数据所需的内存空间R₂大于GPU的内存空间的情况下，将所述所有数据按照数据放置方法分配至CPU的内存空间和GPU的内存空间中。基于所述训练操作序列按照逐层的方式完成每一层的迭代计算以完成对神经网络的训练。

根据一种优选实施方式，改变第i层的层结构的方法至少包括步骤：基于所述训练操作序列获取神经网络模型的每一层对应的操作类型。在第i层是卷积层并进行卷积操作情况下，在该卷积层之前按照插入分割层的方式将其进行卷积操作所需的输入特征图按照高或宽的维度进行分割得到若干个局部输入特征图。基于所述局部输入特征图分别进行卷积操作以获取若干个对应的局部输出特征图。在该卷积层之后按照插入合并层的方式对若干个所述局部输出特征图进行合并操作以形成该卷积层对应的完整的输出特征图。更新所述训练操作序列。

根据一种优选实施方式，改变第i层的层结构的方法还包括步骤：在第i层是池化层、激活层或批处理规范层的情况下，在所述第i层之前按照插入分割层的方式将其操作所需的输入特征图按照通道维度进行分割得到若干个局部输入特征图。基于所述局部输入特征图分别进行对应操作以获取若干个对应的局部输出特征图。在所述第i层之后按照插入合并层的方式对若干个所述局部输出特征图进行合并操作以形成该层对应的完整的输出特征图。更新所述训练操作序列。

根据一种优选实施方式，所述数据放置方法至少包括步骤：遍历所述训练操作序列。将所述分割层和所述合并层所涉及的数据标记为第一数据，其余层所涉及的数据标记为第二数据，初始化GPU的可用内存空间M₁等于其总容量。遍历所述第二数据以获得所需内存最大的层L₁、次最大的层L₂、L₁层计算过程中所涉及的所有数据所需的内存空间R_L1、L₂层计算过程中所涉及的所有数据所需的内存空间R_L2以及L₁层计算过程中所涉及的最大数据块所需的内存空间R₃。在满足关系式(R_L1-R₃)*2+R₃<M₁且R_L2*2+R₃<M₁的情况下，更新所述最大数据块的标记为第三数据。更新所述可用内存空间M₁的容量大小为M₁-R₃。

根据一种优选实施方式，所述数据放置方法还包括步骤：在满足关系式(R_L1-R₃)*2+R₃≥M₁或R_L2*2+R₃≥M₁的情况下，遍历所有第二数据并计算获得其所需的内存空间R₄，其中，在满足关系式R₄<M₁的情况下，更新所述第二数据的标记为第三数据。更新所述可用空间的M₁容量大小为M₁-R₄。

根据一种优选实施方式，所述数据放置方法还包括步骤：遍历所述第二数据以获得所需内存最大的层L₁、次最大的层L₂、L₁层计算过程中所涉及的所有数据所需的内存空间R_L1、L₂层计算过程中所涉及的所有数据所需的内存空间R_L2以及L₁层计算过程中所涉及的最大数据块所需的内存空间R₃。在满足关系式(R_L1-R₃)*2+R₃<M₁且R_L2*2+R₃<M₁的情况下，更新所述最大数据块的标记为第三数据。更新所述可用内存空间M₁的容量大小为M₁-R₃。重复上述步骤直至满足关系式(R_L1-R₃)*2+R₃≥M₁或R_L2*2+R₃≥M₁。在满足关系式(R_L1-R₃)*2+R₃≥M₁或R_L2*2+R₃≥M₁的情况下，遍历所有第二数据并计算获得其所需的内存空间R₄，其中，在满足关系式R₄<M₁的情况下，更新所述第二数据的标记为第三数据。更新所述可用空间的M₁容量大小为M₁-R₄。

根据一种优选实施方式，所述数据放置方法还包括步骤：所述第一数据存储至CPU的内存空间中，所述剩余的第二数据存储至CPU的内存空间中，所述第三数据存储至GPU的内存空间中。

根据一种优选实施方式，计算所述内存空间R₁的方法至少包括步骤：统计神经网络模型中每一层操作所需的输入数据与输出数据的张量形状确定内存空间R₁。

本发明还提供一种基于层宽内存分配策略的深度学习异构计算系统，至少包括CPU和GPU。所述深度学习异构计算系统还包括神经网络调整模块、数据放置模块、任务调度模块和执行引擎模块，其中，所述神经网络调整模块被配置为在第i层操作所需的内存空间R₁大于GPU的内存空间的情况下，基于所述改变第i层的层结构的方法对神经网络模型的层结构进行动态调整的工作模式。所述数据放置模块被配置为在神经网络模型的所有层涉及的所有数据所需的内存空间R₂大于GPU的内存空间的情况下，基于所述数据放置方法对神经网络模型训练所需的数据进行动态调整的工作模式。所述任务调度模块被配置为将所述分割层和所述合并层的计算任务分配至所述CPU的工作模式。所述执行引擎模块被配置为在神经网络训练过程中控制各层的计算按照所述训练操作序列进行执行的工作模式。

根据一种优选实施方式，所述深度异构计算系统还包括主存储器，其中，所述CPU被配置为在其执行分割层或合并层的计算任务时，计算获得的局部输入特征图预存至GPU的内存空间中的工作模式。所述GPU被配置为在计算当前局部输入特征图的过程中将上一个局部输入特征图预存至所述主存储器的工作模式，其中，在GPU基于局部输入特征图不断计算获得局部输出特征图的同时，所述CPU将所述局部输出特征图进行合并以得到完整的输出特征图。

本发明的有益技术效果：

(1)通过神经网络调整策略对神经网络结构的调整，使GPU内存空间不再成为神经网络训练的限制因素。

(2)当GPU内存空间满足训练需求时，本发明采用一种更有效的数据放置方法，使更多更有效的数据被放置在GPU内存空间中，减少通信开销，加快神经网络的训练速度。

(3)利用闲置的CPU计算资源处理因神经网络调整而插入的拆分与合并操作，充分发挥硬件资源的效率。

附图说明

图1是本发明优选的深度学习异构计算方法的流程示意图；

图2是本发明优选的卷积神经网络的架构示意图；

图3是本发明优选的基于图2所示的卷积神经网络架构下的神经网络结构调整的流程示意图；

图4是本发明优选的基于图2所示的卷积神经网络架构下的数据放置方法；

图5是本发明优选的任务调度流程图；和

图6是本发明优选的深度学习异构计算系统的模块化示意图。

附图标记列表

1：CPU 2：GPU 3：ROM

4：RAM 5：总线 6：输入/输出接口

7：神经网络调整模块 8：数据放置模块 9：任务调度模块

10：执行引擎模块 11：通信模块 12：存储模块

13：驱动器 14：可拆卸介质

具体实施方式

下面结合附图进行详细说明。

为了便于理解，在可能的情况下，使用相同附图标记来表示各附图中共同的相似元件。

如在整篇本申请中所使用的那样，词语“可以”系容许含义(即，意味着有可能的)而不是强制性含义(即，意味着必须的)。类似地，词语“包括”意味着包括但不限于。

短语“至少一个”、“一个或多个”以及“和/或”系开放式表达，它们涵盖操作中的关联与分离两者。例如，表述“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或更多个”、“A、B或C”和“A、B和/或C”中的每个分别指单独A、单独B、单独C、A和B一起、A和C一起、B和C一起或A、B和C一起。

术语“一种”或“一个”实体指的是该实体中的一个或多个。这样，术语“一”(或“一”)、“一个或多个”以及“至少一个”在本文中可以交换地使用。还应该注意，术语“包括”、“包含”和“具有”可以交换地使用。

如本文中所使用的那样，术语“自动的”及其变型是指当执行过程或操作时在没有实质性人工输入的情况下完成的任何过程或操作。然而，如果在执行该过程或操作之前接收到该输入，则该过程或操作可以是自动的，即使该过程或操作的执行使用了实质性或非实质性的人工输入。如果这样的输入影响该过程或操作的执行方式，则该人工输入被认为是实质性的。准予执行该过程或操作的人工输入不被视为“实质性的”。

实施例1

如图1所示，本发明提供一种神经网络结构调整方法以改变神经网络选定层的层结构。具体包括以下步骤：

S1：在layer[i]是卷积层，且layer[i+1]不是激活层或池化层的情况下，插入segment层对该卷积层的输入特征图按照高或宽的维度进行分割，把卷积层替换成许多小卷积层，小卷积层以局部输入特征图为输入，输出对应的局部输出特征图，最后插入merge层将局部输出特征图进行合并，产生完整的输出特征图，流程结束，否则转步骤S2；其中，layer[i]表示神经网络的第i层；

S2：在layer[i]是卷积层，且layer[i+1]是激活层或池化层的情况下，插入segment层对该卷积层的输入特征图按照高或宽的维度进行分割，把卷积层替换成许多小卷积层，然后直接对小卷积层的局部输出特征图进行激活或池化，最后插入merge层将局部输出特征图进行合并，流程结束，否则转步骤S3；

S3：在layer[i]是卷积层，layer[i+1]是激活层，且layer[i+2]是池化层的情况下，插入segment层对该卷积层的输入特征图按照高或宽的维度进行分割，把卷积层替换成许多小卷积层，然后直接对小卷积层的局部输出特征图进行激活和池化，最后插入merge层将局部输出特征图进行合并，产生完整的输出特征图，流程结束，否则转步骤S4；

S4：在layer[i]是激活层、池化层或batchnorm层的情况下，插入segment层对该层的输入特征图按照通道维度进行分割，对分割后的局部输入特征图分别进行激活、池化或batchnorm，最后插入merge层将局部输出特征图进行合并，流程结束。

为了便于理解，下面以卷积神经网络对上述步骤进行详细论述。

卷积神经网络由三部分组成，第一部分为输入层，第二部分由若干个卷基层、池化层和激活层组成，第三部分由一个全连接的多层感知分类器构成。按照不同的方式可以构建出各种不同的卷积神经网络架构模式，通常按照如下方式进行表示：

INPUT->[[CONV]*N->[POOLING]*M->[FC]*K

其中，上述表达式所表示的卷积神经网络结构为：N个卷积层叠加后，按照可选的方式叠加一个池化层，重复该结构M次后，最后再叠加K个全连接层。

优选的，图2示出了当N＝1，M＝2，K＝2时的卷积神经网络的层结构示意图。输入层的宽度和高度分别对应于输入图像的宽度和高度，输入图像的深度为1。优选的，第一个卷积层包含有三个卷积核，基于三个卷积核对输入图像同时进行卷积操作从而得到三个第一输出特征图。三个第一输出特征图作为第一卷积层的第一池化层的输入特征图，基于第一池化层对三个第一输出特征图的池化处理得到三个第二输出特征图。

再次参见图2，基于M＝2，需要将按照上述结构进行循环以再次对三个第二输出特征图进行再次卷积处理和池化处理，其中，第二卷积层可以与第一卷积层具有不同数量的卷积核。第二卷积层的卷积核的数量可以是五个，其中，第二卷积层的每一个卷积核均将三个第二输出特征图同时卷积在一起以得到一个新的第三输出特征图，从而经第二卷积层的五个卷积核对三个第二输出特征图的卷积处理可以得到五个第三输出特征图。随即五个第三输出特征图经第二池化层的池化处理得到五个第四输出特征图。

再次参见图2，基于K＝2，卷积神经网络具有第一全连接层和第二全连接层，其中，第一全连接层的每一个神经元和上一层的五个第四输出特征图中的每一个神经元彼此相连。第二全连接层和第一全连接层的每一神经元相连，第二全连接层即是神经网络的输出层，从而按照此方式得到了整个神经网络完整的输入和输出。

神经网络在进行训练的过程中，按照逐层进行计算的方式由输入层开始对输入特征图进行例如是卷积、池化和激活等处理。S1～S4的本质是在进行每一层的计算之前，对该层的类型或对每层的输入特征图的计算处理类型进行识别后，按照不同的方式对当前计算层的输入特征图进行对应处理。具体的，当前计算层为卷积层或者需要对输入特征图进行卷积操作，则在当前层之前插入segment层以实现在对该卷积层的输入特征图进行卷积操作之前对其输入特征图按照高或宽的维度进行分割以得到若干个局部输入特征图。当前计算层为池化层、激活层和batchnorm层中的任意一种时，则在当前层之前插入segment层对其输入特征图按照通道维度进行分割以得到若干个局部输入特征图。其中，在对上述若干个局部输入特征图按照神经网络的层结构进行相应计算处理得到若干个局部输出特征图后，按照插入merge层的方式随即对若干个局部输出特征图进行合并以得到一个完整的输出特征图。

再次参见图2，图2所示的卷积神经网络按照从左向右分布的方式一共具有7层结构。其中，遍历神经网络以获得卷积神经网络的层结构，例如，针对一个具有N层的卷积神经网络，自动设定第一层为输入层，第N层为输出层，故而设定i为2≤i＜N的整数。优选的，如图3所示，在进行卷积操作时，输入特征图的尺寸为[6*6*3]，表示输入特征图具有6像素的宽度，6像素的高度和RGB三个颜色通道，输入特征图可以是一个RGB的Cifar-10图片。当i＝2时，当前计算层为第一卷积层，不对其对应的输入特征图进行分割的情况，第一卷积层中的三个卷积核的尺寸为[2*2]，卷积操作采用的步长Stride＝1，Padding＝1,输入特征图经过第一卷积层卷积处理后能够得到三个大小均为[6*6*1]的输出特征图。在对第一卷积层对应的输入特征图按照长或宽的维度进行分割的情况下，可以得到不同尺寸大小的若干个局部输入特征图，例如，按照在宽度方向进行分割的方式，可以将大小为[6*6*1]的输入特征图分割为两个大小为[6*4*1]的局部输入特征图(一定的数据冗余保证结果正确性)，其中，三个卷积核同时对上述两个局部输入特征图进行卷积处理，可以得到六个大小为[6*4*1]的输出特征图。上述六个输出特征图可以直接按照在卷积层的插入merge层的方式进行合并，也可以在其经过激活处理、池化处理后得到若干个新输出特征图的情况下再按照插入merge层的方式对新输出特征图进行合并。优选的，输出特征图的合并方式与其输入特征图的分割方式是彼此相互对应的。即如果输入特征图是按照在宽度的方向上进行分割，则输出特征图也按照在宽度的方向上进行合并。

优选的，再次参见图3，当i＝3时，当前计算层为池化层，需要对经过第一卷积层卷积处理得到的三个大小为[6*6*1]的输出特征图进行分割处理，其中，输出特征图按照通道维度进行分割。具体的，很多特征图的通道数都是大于1的，所以以[6*6*64]的输入特征图为例，按照在通道方向进行分割的方式，可以将大小为[6*6*64]的输入特征图分割成两个大小为[6*6*32]的局部输入特征图，对两个局部输入特征图进行池化处理，池化的步长Stride＝2，得到两个大小为[3*3*32]的局部输出特征图，然后对局部输出特征图进行合并。

实施例2

本实施例是对实施例1的进一步改进，重复的内容不再进行赘述。

本发明还提供一种数据放置的方法，如图4所示，具体包括以下步骤：

S5：设定第一存储空间和第二存储空间，遍历神经网络的操作序列，将神经网络的segment层和merge层计算所涉及的数据标记为第一数据，其他层计算所涉及的数据标记为第二数据，其中，第一数据由第二存储空间存储并初始化第一存储空间的可用空间R_available等于其总容量。优选的，由于将segment层和merge层的训练计算需要较大的内存空间，将其训练转移到CPU上进行能够有效地降低GPU的内存开销，减缓神经网络调整所带来的性能影响。

S6：统计神经网络中所有第二数据，据此找到所需内存空间最大的层L₁和次最大层L₂，L₁层计算过程所涉及到的所有数据占用的内存空间为R_L1，其中最大的数据块大小为R_biggest，L₂层计算过程所涉及到的所有数据占用的内存空间为R_L2；

S7：在(R_L1–R_biggest)*2+R_biggest<R_available且R_L2*2+R_biggest<R_available的情况下，则将L₁层中最大数据块标记为第三数据并将其存储至第一存储空间，同时动态调整第一存储空间的可用空间为R_available＝R_available-R_biggest，并返回至步骤S6；在(R_L1–R_biggest)*2+R_biggest>R_available或R_L2*2+R_biggest>R_available的情况下，进入步骤S8进行下一步处理；

S8：遍历所有由第二数据构成的数据块，在数据块大小为R_data<R_available的情况下，将该数据块存储至第一存储空间中，且动态调整第一存储空间的可用空间为R_available＝R_available–R_data。优选的，为了减少训练过程中需要卸载和预取的总的数据量，将segment层与merge层需要的数据放置到主存储器中，在满足最大层进行双缓冲配置的内存需求之外，将剩余的数据尽可能多的放置到GPU内存中，以此减少通信开销。

优选的，第一存储空间是GPU的内存空间，第二存储空间是CPU的内存空间。segment层计算所涉及的所有数据至少包括进行分割处理前的输入特征图及产生的输出特征图。merge层计算所涉及的所有数据至少包括进行合并处理前的输入特征图及产生的输出特征图。

优选的，如图4所示，卷积神经网络在训练的前向传播计算过程中，针对每一层，其涉及的数据至少包括输入特征图、中间数据、输出特征图。在卷积神经网络训练的反向传播计算过程中，基于中间数据重新计算误差并修改权重，该过程中涉及的数据至少包括中间数据和参数数据。其中，CPU的内存空间和GPU的内存空间均基于多个并行的缓冲池(bufferpool)对其内存进行管理以实现对其内存空间的并行读写。CPU的内存空间分为至少三个公共池(common pool)以分别用于存储训练样本数据、segment层和merge层涉及的中间数据以及segment层和merge层涉及的参数数据。GPU的内存空间分为一个双缓冲池(doublebuffer pool)和两个公共池，其中，公共池分别用于存储第三数据中的中间数据和参数数据。CPU内存空间中的中间数据(intermediate data)和参数数据(parameter data)不是仅用于存储segment层和merge层的中间数据和参数。当整个网络模型涉及到的数据总量R大于GPU的容量时，在执行完步骤S8后，仍然有一部分数据是不能被固定于GPU中，所以这部分数据被固定于CPU中，这部分数据中既包含中间数据，又包含参数数据。以中间数据为例，部分数据在前向传播过程中产生，然后被转移到主存储器中，在反向传播过程中又被提前加载到双缓冲池中，所以中间数据和参数数据彼此之间会产生交互。

实施例3

本实施例是对实施例1和实施例2的进一步改进，重复的内容不再赘述。

本发明还提供一种基于层宽内存分配的深度学习异构计算方法，如图1所示，具体包括如下步骤：

S9：通过一次虚拟化迭代收集神经网络的训练操作序列，并统计神经网络中每层操作需要输入和输出的数据的张量形状，其中，基于张量形状计算每层满足双缓冲配置所需的内存空间；

S10：在第一存储空间的容量大于每层所需的内存空间的情况下，神经网络的结构保持原状并进入步骤S12，在神经网络存在一个及以上的层所需的内存空间大于第一存储空间的容量的情况下，进入步骤S11进行下一步处理；

S11：根据实施例1所述的神经网络结构调整方法对所需内存空间大于第一存储空间容量的层进行结构调整，且对调整后的神经网络进行虚拟化迭代以重新收集其训练操作序列；

S12：在神经网络所有层的计算所涉及的数据的总量小于第一存储空间的容量的情况下，神经网络在训练过程中所涉及的所有数据均存储至第一存储空间；在神经网络的所有层的计算所涉及的数据的总量大于第一存储空间的容量的情况下，神经网络在训练过程中将所有层计算所涉及的数据中的部分数据卸载至主存储空间中，其中，基于实施例2所述的数据放置的方法判断是否需要将数据卸载至主存储空间中；

S13：根据神经网络的训练操作序列调度CPU和GPU的计算资源以完成神经网络的训练。

为了便于理解，对步骤S9、S12和S13进行如下详细论述。

S9：通过一次虚拟化迭代收集神经网络的训练操作序列，并统计神经网络中每层操作需要输入和输出的数据的张量形状，其中，基于张量形状计算每层满足双缓冲配置所需的内存空间。

优选的，第一存储空间可以是GPU的内存空间，第二存储空间可以是CPU的内存空间，主存储空间可以是高速缓冲存储器。数据均以张量的形式进行表示，张量形状表示张量的维数和每一维的长度，例如shape[2，3]表示数组时，其代表数组的第一维有两个元素，第二维有三个元素，数组的具体表现形式可以是[[1，2，3]，[4，5，6]]。假设张量形状表示为[N,C,H,W]，那么张量所需要的内存空间R＝S*(N*C*H*W)，其中，S为张量中每个数据占用的字节数。N、C、H和W分别代表张量的批大小(batch size)、通道数、高和宽。

优选的，虚拟化迭代仅发生在对神经网络进行训练开始之前，其中，虚拟化迭代仅统计神经网络的训练操作序列，并不执行每个层操作的计算任务。

S12：在神经网络所有层的计算所涉及的数据的总量小于第一存储空间的容量的情况下，神经网络在训练过程中所涉及的所有数据均存储至第一存储空间；在神经网络的所有层的计算所涉及的数据的总量大于第一存储空间的容量的情况下，神经网络在训练过程中将所有层计算所涉及的数据中的部分数据卸载至主存储空间中，其中，基于实施例2所述的数据放置的方法判断是否需要将数据卸载至主存储空间中。

优选的，神经网络按照数据双缓冲的方式进行配置可以隐藏通信开销并加快神经网络的训练速度，其中，在神经网络完成一次迭代训练所需的所有数据所需占用的存储空间大于GPU的内存空间的情况下，神经网络的前向传播过程中，将当前层计算不需要的数据卸载至主存储空间中。神经网络的反向传播过程中，将当前层计算所需的数据预存至GPU的内存空间中。利用神经网络训练过程中的计算开销可以隐藏卸载和预存数据所产生的通信开销。

优选的，利用CPU的计算资源完成segment层和merge层的计算任务。在前向传播中，CPU在执行segment层的计算任务时会不断产生局部输入特征图，并把这些局部输入特征图预取到GPU的内存空间中。随后利用GPU的计算资源得到局部输出特征图，GPU在计算当前局部特征图的过程中把上一个局部输出特征图卸载到CPU的内存空间中，GPU执行计算任务的同时，CPU将不断产生的局部输出特征图合并为完整的输出特征图，从而使得GPU的计算开销隐藏大部分的通信开销和CPU计算开销，减少拆分与合并对整体训练速度的影响。为了减少训练过程中需要卸载和预取的总的数据量，将segment层与merge层需要的数据放置到CPU的内存空间中。在满足最大层进行双缓冲配置的内存需求之外，将剩余的数据尽可能多的放置到GPU的内存空间中，以此减少通信开销。segment层和merge层的训练仍需要较大的内存空间，因此将其计算操作调度到CPU。

优选的，图5示出了计算任务调度的流程图。图5的横坐标表示时间，纵坐标表示3个执行流，明显的看到CPU端执行segment层和merge层的计算任务，而且CPU_computer执行流执行SEG(2)会在CPU端连续的产生多个局部输入特征图，然后memory执行流执行(P0，P1…Pm)将多个局部输入特征图连续的传输到GPU memory中，然后GPU_computer执行流在GPU端进行卷积操作，卷积产生的局部输入特征图紧接着被memory执行流卸载到主存中，然后被CPU_computer执行流的MER(2)任务使用以产生完整的输出特征图。这三个执行流是完全并行的，所以在时间轴上是完全重叠的。

实施例4

本实施例是对前述实施例的进一步改进，重复的部分不再赘述。

本发明还提供一种基于层宽内存分配的深度学习异构计算系统，至少包括神经网络调整模块、数据放置模块、任务调度模块、执行引擎模块、CPU、GPU和主存储器，其中，神经网络调整模块用于调整网络结构，在保证训练正确的前提下，使神经网络能够采用层宽内存分配方法在有限的GPU内存上进行训练。数据放置策略将GPU内存作为主存储器的缓存，尽可能的将更多的数据放置在GPU内存中，减少通信开销。任务调度模块统筹CPU和GPU的计算资源，将segment层和merge层的计算任务分配给CPU，充分利用更多的计算资源，减缓神经网络调整所带来的性能影响。执行引擎模块控制神经网络训练中各个层的执行顺序，其依据为虚拟化迭代过程所产生的训练操作序列。

优选的，若神经网络中存在某一层，其训练所需的内存空间大于GPU内存容量，则神经网络调整模块发挥作用。神经网络调整模块将某一层的计算转换成多个小层的计算，以此突破GPU的内存限制。数据放置策略关系到训练过程中的通信开销，为了减少训练过程中需要卸载和预取的总的数据量，将segment层与merge层需要的数据放置到主存储器中，在满足最大层进行双缓冲配置的内存需求之外，将剩余的数据尽可能多的放置到GPU内存中，以此减少通信开销。将segment层和merge层的训练计算操作转移到CPU上进行以满足其仍需要较大的内存空间。任务调度模块统筹CPU和GPU的计算资源，使其计算相互配合，加速训练。执行引擎负责实际的训练任务，并根据虚拟化迭代得到的训练操作序列控制训练流程。神经网络的训练需要多次迭代，每次迭代的操作序列完全相同，训练结束之后得到可以用于预测的网络模型。

优选的，神经网络调整模块被配置为在第i层操作所需的内存空间R₁大于GPU的内存空间的情况下，基于改变第i层的层结构的方法对神经网络模型的层结构进行动态调整的工作模式。数据放置模块被配置为在神经网络模型的所有层涉及的所有数据所需的内存空间R₂大于GPU的内存空间的情况下，基于数据放置方法对神经网络模型训练所需的数据进行动态调整的工作模式。任务调度模块被配置为将分割层和合并层的计算任务分配至CPU的工作模式。执行引擎模块被配置为在神经网络训练过程中控制各层的计算按照训练操作序列进行执行的工作模式。

优选的，深度异构计算系统还包括主存储器，其中，CPU被配置为在其执行分割层或合并层的计算任务时，计算获得的局部输入特征图预存至GPU的内存空间中的工作模式。GPU被配置为在计算当前局部输入特征图的过程中将上一个局部输入特征图预存至所述主存储器的工作模式，其中，在GPU基于局部输入特征图不断计算获得局部输出特征图的同时，CPU将局部输出特征图进行合并以得到完整的输出特征图。

为了便于理解，结合图6对本发明的深度学习异构计算系统的模块化连接关系进行论述。

如图6所示，中央处理器(CPU 1)和图像处理器(GPU 2)共同根据只读存储器(ROM3)中存储的程序或从存储模块12加载到随机存取存储器(RAM 4)的程序对数据执行各种处理。CPU 1、GPU 2、ROM 3、RAM4和输入/输出接口6经由总线5彼此连接。神经网络调整模块7、数据放置模块8、任务调度模块9、执行引擎模块10、通信模块11、存储模块12和驱动器13均连接至输入/输出接口6，其中，通信模块11包括例如是LAN卡、调制解调器的网络接口卡。通信模块11可以基于互联网执行数据的传输处理。存储模块12可以是硬盘、存储卡、高速缓冲存储器等。例如是移动硬盘、U盘等的可拆卸介质14中存储的计算机程序可以经由驱动器13被安装至存储模块12中。优选的，本发明的异构计算方法按照编制形成计算机程序的方式通过可拆卸介质14植入到存储模块12中以供RAM 4执行调用，使得CPU 1和GPU 2按照植入的计算机程序对数据进行处理。

实施例5

优选的，实验配置：ubuntu16.04，Intel(R)Xeon(R)CPU E5-2680，nvidia K80显卡，网络模型采用ZFnet，VGG，siftflow-fcn32，WRN-37-4。通过如上配置获取如下表所示的实验数据。网络模型后面的数据表示batchsize的大小，比如vgg(32)表示vgg网络的batch_size＝32。选择caffe作为对比系统，my_system表示本发明的系统。表格中的数据为10次迭代训练的时间开销单位为秒，空格表示caffe系统不能训练该模型。通过试验数据表明本发明的系统能够打破层宽的限制，具有更好的模型扩展性，能够训练更大更宽的网络模型。

虽然已经详细描述了本发明，但是在本发明的精神和范围内的修改对于本领域技术人员将是显而易见的。这样的修改也被认为是本公开的一部分。鉴于前面的讨论、本领域的相关知识以及上面结合背景讨论的参考或信息(均通过引用并入本文)，进一步的描述被认为是不必要的。此外，应该理解，本发明的各个方面和各个实施例的各部分均可以整体或部分地组合或互换。而且，本领域的普通技术人员将会理解，前面的描述仅仅是作为示例，并不意图限制本发明。

已经出于示例和描述的目的给出了本公开的前述讨论。这并不意图将本公开限制于本文公开的形式。在前述的具体实施方式中，例如，为了简化本公开的目的，本公开的各种特征在一个或多个实施例、配置或方面中被组合在一起。实施例、配置或方面的特征可以以除上面讨论的那些之外的替代实施例、配置或方面组合。本公开的该方法不应被解释为反映本公开需要比每个权利要求中明确记载的更多特征的意图。相反，如以下权利要求所反映的，创造性方面在于少于单个前述公开的实施例、配置或方面的所有特征。因此，以下权利要求由此被并入本具体实施方式中，其中每个权利要求其自身作为本公开的单独实施例。

而且，虽然本公开的描述已经包括对一个或多个实施例、配置或方面以及某些变型和修改的描述，但是其他变型、组合和修改也在本公开的范围内，例如在本领域技术人员的技能和知识范围内，在理解了本公开之后。旨在获得在允许的程度上包括替代实施例、配置或方面的权利，所述权利包括那些要求保护的替代的、可互换的和/或等效的结构、功能、范围或步骤的权利，无论这种替代的、可互换的和/或等效的结构、功能、范围或步骤是否在本文中公开，并且无意公开奉献任何可专利的主题。

Claims

1.一种基于层宽内存分配的深度学习异构计算方法，基于CPU和GPU共同执行所述深度学习异构计算方法，其特征在于，所述深度学习异构计算方法至少包括步骤：

遍历神经网络模型以获取其训练操作序列及层数L；

计算神经网络模型中第i层操作所涉及的数据在双缓冲配置下所需的内存空间R₁，其中，1≤i≤L；

在第i层操作所需的内存空间R₁大于GPU的内存空间的情况下，改变第i层的层结构并更新所述训练操作序列；

在神经网络模型的所有层涉及的所有数据所需的内存空间R₂大于GPU的内存空间的情况下，将所述所有数据按照数据放置方法分配至CPU的内存空间和GPU的内存空间中；

基于所述训练操作序列按照逐层的方式完成每一层的迭代计算以完成对神经网络的训练。

2.如权利要求1所述的深度学习异构计算方法，其特征在于，改变第i层的层结构的方法至少包括步骤：

基于所述训练操作序列获取神经网络模型的每一层对应的操作类型；

在第i层是卷积层并进行卷积操作情况下，在该卷积层之前按照插入分割层的方式将其进行卷积操作所需的输入特征图按照高或宽的维度进行分割得到若干个局部输入特征图；

基于所述局部输入特征图分别进行卷积操作以获取若干个对应的局部输出特征图；

在该卷积层之后按照插入合并层的方式对若干个所述局部输出特征图进行合并操作以形成该卷积层对应的完整的输出特征图；

更新所述训练操作序列。

3.如权利要求2所述的深度学习异构计算方法，其特征在于，改变第i层的层结构的方法还包括步骤：

在第i层是池化层、激活层或批处理规范层的情况下，在所述第i层之前按照插入分割层的方式将其操作所需的输入特征图按照通道维度进行分割得到若干个局部输入特征图；

基于所述局部输入特征图分别进行对应操作以获取若干个对应的局部输出特征图；

在所述第i层之后按照插入合并层的方式对若干个所述局部输出特征图进行合并操作以形成该层对应的完整的输出特征图；

更新所述训练操作序列。

4.如权利要求2或3所述的深度学习异构计算方法，其特征在于，所述数据放置方法至少包括步骤：

遍历所述训练操作序列；

将所述分割层和所述合并层所涉及的数据标记为第一数据，其余层所涉及的数据标记为第二数据，初始化GPU的可用内存空间M₁等于其总容量；

遍历所述第二数据以获得所需内存最大的层L₁、次最大的层L₂、L₁层计算过程中所涉及的所有数据所需的内存空间R_L1、L₂层计算过程中所涉及的所有数据所需的内存空间R_L2以及L₁层计算过程中所涉及的最大数据块所需的内存空间R₃；

在满足关系式(R_L1-R₃)*2+R₃<M₁且R_L2*2+R₃<M₁的情况下，更新所述最大数据块的标记为第三数据；

更新所述可用内存空间M₁的容量大小为M₁-R₃。

5.如权利要求4所述的深度学习异构计算方法，其特征在于，所述数据放置方法还包括步骤：

在满足关系式(R_L1-R₃)*2+R₃≥M₁或R_L2*2+R₃≥M₁的情况下，更新所述可用内存空间的M₁容量大小为M₁-R_L1*2，并遍历所有第二数据并计算获得其所需的内存空间R₄，其中：

在满足关系式R₄<M₁的情况下，更新所述第二数据的标记为第三数据；

更新所述可用内存空间的M₁容量大小为M₁-R₄。

6.如权利要求5所述的深度学习异构计算方法，其特征在于，所述数据放置方法还包括步骤：

更新所述可用内存空间M₁的容量大小为M₁-R₃；

重复上述步骤直至满足关系式(R_L1-R₃)*2+R₃≥M₁或R_L2*2+R₃≥M₁；

在满足关系式(R_L1-R₃)*2+R₃≥M₁或R_L2*2+R₃≥M₁的情况下，遍历所有第二数据并计算获得其所需的内存空间R₄，其中，

更新所述可用内存空间的M₁容量大小为M₁-R₄。

7.如权利要求6所述的深度学习异构计算方法，其特征在于，所述数据放置方法还包括步骤：

所述第一数据存储至CPU的内存空间中，剩余的所述第二数据存储至CPU的内存空间中，所述第三数据存储至GPU的内存空间中。

8.如权利要求4所述的深度学习异构计算方法，其特征在于，计算所述内存空间R₁的方法至少包括步骤：

统计神经网络模型中每一层操作所需的输入数据与输出数据的张量形状确定内存空间R₁。

9.一种基于层宽内存分配的深度学习异构计算系统，至少包括CPU和GPU，其特征在于，所述深度学习异构计算系统还包括神经网络调整模块、数据放置模块、任务调度模块和执行引擎模块，其中，

所述神经网络调整模块被配置为在第i层操作所需的内存空间R₁大于GPU的内存空间的情况下，基于改变第i层的层结构的方法对神经网络模型的层结构进行动态调整的工作模式；

所述数据放置模块被配置为在神经网络模型的所有层涉及的所有数据所需的内存空间R₂大于GPU的内存空间的情况下，基于数据放置方法对神经网络模型训练所需的数据进行动态调整的工作模式；

所述任务调度模块被配置为将分割层和合并层的计算任务分配至所述CPU的工作模式；

所述执行引擎模块被配置为在神经网络训练过程中控制各层的计算按照训练操作序列进行执行的工作模式。

10.如权利要求9所述的深度学习异构计算系统，其特征在于，所述深度学习异构计算系统还包括主存储器，其中，

所述CPU被配置为在其执行分割层或合并层的计算任务时，计算获得的局部输入特征图预存至GPU的内存空间中的工作模式；

所述GPU被配置为在计算当前局部输入特征图的过程中将上一个局部输入特征图预存至所述主存储器的工作模式；其中，

在GPU基于局部输入特征图不断计算获得局部输出特征图的同时，所述CPU将所述局部输出特征图进行合并以得到完整的输出特征图。