CN113743602B

CN113743602B - 一种提高模型后处理速度的方法

Info

Publication number: CN113743602B
Application number: CN202010460920.7A
Authority: CN
Inventors: 张东
Original assignee: Hefei Ingenic Technology Co ltd
Current assignee: Hefei Ingenic Technology Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2024-05-03
Anticipated expiration: 2040-05-27
Also published as: CN113743602A

Abstract

本发明提供一种提高模型后处理速度的方法，所述方法对于检测模型的后处理部分采用通道重排，提高了CPU CACHE的命中率，减少了读取数据的时间，利用SIMD技术同时完成对8个数据点的计算，提高了计算效率，减少检测模型的后处理时间，从而提高检测模型的整体运行效率。

Description

一种提高模型后处理速度的方法

技术领域

本发明涉及卷积神经网络加速领域，特别涉及一种提高模型后处理速度的方法。

背景技术

随着计算机技术的快速发展，基于卷积神经网络的算法成功应用于各个识别领域。近年来，随着科技的飞速发展，大数据时代也已经到来。深度学习以深度神经网络(DNN)作为模型，在许多人工智能的关键领域取得了十分显著的成果，如图像识别、增强学习、语义分析等。卷积神经网络(CNN)作为一种典型的DNN结构，能有效提取出图像的隐层特征，并对图像进行准确分类，在近几年的图像识别和检测领域得到了广泛的应用。目前现有的技术都是通过依次遍历数据来进行相应的计算，从而完成获得最终的目标框。

现有技术中由于是通过依次遍历数据来进行相应的计算，基于预设anchor(锚点)的检测模型(yoloV3)最后一层卷积的通道分布一般为(x,y,w,h,confidence,pred_class)*anchores_num，在计算最终结果时，首先计算confidence的得分，如果大于预设的得分再计算相应的坐标，由于confidence(置信)的分布比较离散，所以计算时效率很低下，从而拖慢整个检测模型的效率。

此外，现有技术中常用的技术术语如下：

卷积神经网络(Convolutional Neural Networks,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络。

检测模型后处理：由于目前有的检测模型训练时，以真实的边框位置相对于预设边框的偏移来训练模型的，在推理模型时也需要根据预设的边框来求出预测的边框位置。

batch size(批尺寸)是卷积网络里的重要参数。

feature map：在每个卷积层，数据以三维形式存在。可以看成多个二维图片重叠在一起，其中每一个称为一个feature map。在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片，一般就是3个feature map(红绿蓝)。层与层之间会有若干个卷积核(kernel)，上一层和每个feature map跟每个卷积核做卷积，都会产生下一层的一个feature map。

SIMD单指令流多数据流(SingleInstruction Multiple Data,SIMD)是一种采用一个控制器来控制多个处理器，同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作从而实现空间上的并行性的技术。

发明内容

为了解决现有技术中的问题，本发明的目的在于：为了提高检测模型后处理的效率，优化模型后处理计算的流程减少计算检测框的时间。解决现有方案中检测模型后处理对于系统资源利用不充分计算流程可优化的问题。

具体地，本发明提供一种提高模型后处理速度的方法，所述方法包括以下步骤：

S1,对于后处理部分做以下操作：

最后一层输出的结果是：[N,H,W,C]，其中N为batch size的大小，

H,W为FeatureMap的长宽，C为通道数，通道的分布为

[x,y,w,h,confidence,classess1,classess2]总共有9个通道，即9个anchors；

总共有9个anchors每个anchor的通道分布为

[x,y,w,h,confidence1,classess1,classess2],总共有7*9＝63个通道数；

S2，进行通道重排，将S1后处理部分操作的最后一层中，将表示每一个数据点的每一个anchor的confidence的通道放在一起，使得最里面的循环的取数是连续的；每个anchor的通道分布为[x,y,w,h,confidence1,classess1,classess2]，将每个anchor的confidence取出来放到一起连续排列即[confidence1,confidence2...confidence9]；

S3，利用SIMD进行优化，通过统计最后一层卷积的输出得到规律，根据Sigmoid函数的特性，将原有sigmoid(confidence)与0.5的比较直接转化为confidence与0比较；又因为scale是大于0的，所以最终转化为confidence+bias与0比较；由于最后一层卷积的输出结果是用16bit保存的，所以能够同时比较8个confidence，如果8个confidence都小于0就直接跳过，当不满足时，再依次对这8个confidence做比较。

所述的S1中由于检测模型的损失函数部分采用的YOLOV3的损失函数，所以对于后处理部分采用和YOLOV3损失函数相同的操作。

所述的S1中最后一层输出的数据分布，每一个数据点的每一个anchor的confidence是不连续的，每一次运算都需要从内存中读取数据。

所述的S1中，假设检测模型的输入图像的分辨率为1920x1080，模型的输出为240x135x63，降采样3次，每次stride为2，其中有240x135x9个数据需要与0.5比较。

所述的S3中，所述的统计最后一层卷积的输出得到规律如下：

a)confidence小于0的数目占confidence总数的99.75％；

b)特征点的所有confidence都小于0的占总特征点的98.95％。

步骤S3还进一步包括：由于总共有9个confidence，所以还需要额外的做一次判断。

由此，本申请的优势在于：对于检测模型的后处理部分采用通道重排，提高了CPUCACHE的命中率，减少了读取数据的时间，利用SIMD技术同时完成对8个数据点的计算，提高了计算效率，减少检测模型的后处理时间，从而提高检测模型的整体运行效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1是本发明方法的流程示意图。

图2是现有技术中Sigmoid函数的S曲线。

具体实施方式

为了能够更清楚地理解本发明的技术内容及优点，现结合附图对本发明进行进一步的详细说明。

如图1所示，本发明涉及一种提高模型后处理速度的方法，所述方法包括以下步骤：

S1,对于后处理部分做以下操作：

最后一层输出的结果是：[N,H,W,C]，其中N为batch size的大小，

H,W为FeatureMap的长宽，C为通道数，通道的分布为

[x,y,w,h,confidence,classess1,classess2]总共有9个通道，即9个anchors；

总共有9个anchors每个anchor的通道分布为

[x,y,w,h,confidence1,classess1,classess2],总共有7*9＝63个通道数；

本发明还可以解释为以下内容：

1.后处理部分具体操作：

由于检测模型的损失函数部分采用的YOLOV3的损失函数，所以对于后处理部分采用和YOLOV3相同的操作，对于后处理部分主要需要做以下操作：

最后一层输出的结果是：[N,H,W,C]，其中N为batch size的大小，H,W为FeatureMap的长宽，C为通道数，通道的分布为[x,y,w,h,confidence,classess1,classess2]总共有9个通道，即9个anchors；

2.具体优化细节：

观察最后一层输出的数据分布可以发现，每一个数据点的每一个anchor的confidence是不连续的，这样直接做运算的话大大降低了CPU的cache命中率，几乎每一次运算都需要从内存中读取数据。假设检测模型的输入图像的分辨率为1920x1080，模型的输出为240x135x63(降采样3次，每次stride为2)，其中大概有240x135x9个数据需要与0.5比较这一块将成为优化的瓶颈。

针对上述问题提出以下优化方案：

将表示每个anchor的confidence的通道放在一起，这样最里面的循环的取数是连续的从而可以提高CPU的cache命中率，从而提高运算效率。

通过统计最后一层卷积的输出发现如下规律(输入图片中平均有55个目标)：

a)confidence小于0的数目占confidence总数的99.75％(290871/(240*135*9))

b)特征点的所有confidence都小于0的占总特征点的98.95％(32059/(240*135))

由于Sigmoid函数的特性，与0.5的比较可以直接转化为confidence与0比较(从而避免了指数运算)，又因为scale是大于0的，所以最终可以转化为confidence+bias与0比较，对此我们还可以在之前的基础上利用SIMD进一步优化，由于最后一层卷积的输出结果是用16bit保存的，所以我们可以同时比较8个confidence，如果8个confidence都小于0就直接跳过，当不满足时，再依次对这8个confidence做比较，(由于总共有9个confidence，所以我们还需要额外的做一次判断)。

通过利用通道重排和SIMD优化，后处理时间由之前的78ms降到20m左右。

此外，Sigmoid函数由下列公式定义：

其对x的导数可以用自身表示：

Sigmoid函数的图形如S曲线，如图2所示。可以看到在趋于正无穷或负无穷时，函数趋近平滑状态，sigmoid函数因为输出范围(0，1)，所以二分类的概率常常用这个函数，事实上logisti回归采用这个函数有以下几个优点：

1值域在0和1之间

2函数具有非常好的对称性

因此，函数对输入超过一定范围就会不敏感。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高模型后处理速度的方法，其特征在于，所述方法包括以下步骤：

S1,对于后处理部分做以下操作：

最后一层输出的结果是：[N,H,W,C]，其中N为batch size的大小，H,W为FeatureMap的长宽，C为通道数，通道的分布为[x,y,w,h, confidence,classes1,classes2]总共有9个通道，即9个anchors；总共有9个anchors每个anchor的通道分布为[x,y,w,h,confidence1,classes1,classes2],总共有7*9=63个通道数；具体操作过程如下：

第一步：判断h的取值是否在0到H的范围中，若是则执行第二步；

第二步：判断w的取值是否在0到W的范围中，若是则执行第三步；

第三步：判断tag的取值是否在0到anchorNum的范围中，若是则执行第四步；

第四步：将FeatureMap[0,h,w,tag×7+4]赋值给变量confidence，执行第五步；

第五步：基于第四步求得的confidence计算confidence+bias并赋值给变量confidence，执行第六步；

第六步：基于第五步求得的confidence计算confidence×scale并赋值给变量confidence，执行第七步；

第七步：将第六步求得的confidence输入到函数sigmoid中，若sigmoid(confidence)>0.5，求解坐标；

S2，进行通道重排，将S1后处理部分操作的最后一层中，将表示每一个数据点的每一个anchor的confidence的通道放在一起，使得最里面的循环的取数是连续的；每个anchor的通道分布为[x,y,w,h,confidence1,classes1,classes2]，将每个anchor的confidence取出来放到一起连续排列即[confidence1,confidence2...confidence9]；

S3，利用SIMD进行优化，通过统计最后一层卷积的输出得到规律，根据Sigmoid函数的特性，将原有sigmoid(confidence)与0.5的比较直接转化为confidence与0比较；又因为scale是大于0的，所以最终转化为confidence+bias与0比较；由于最后一层卷积的输出结果是用16bit保存的，所以能够同时比较8个confidence，如果8个confidence都小于0就直接跳过，当不满足时，再依次对这8个confidence做比较，所述的S1中由于检测模型的损失函数部分采用的YOLOV3的损失函数，所以对于后处理部分采用和YOLOV3损失函数相同的操作，所述的S1中最后一层输出的数据分布，每一个数据点的每一个anchor的confidence是不连续的，每一次运算都需要从内存中读取数据，所述的S1中，检测模型的输入图像的分辨率为1920x1080，模型的输出为240x135x63，降采样3次，每次stride为2，其中有240x135x9个数据需要与0.5比较，所述的S3中，所述的统计最后一层卷积的输出得到规律如下：

a)confidence小于0的数目占confidence总数的99.75%；

b)特征点的所有confidence都小于0的占总特征点的98.95%。

2.根据权利要求1所述的一种提高模型后处理速度的方法，其特征在于，所述方法，S3还进一步包括：由于总共有9个confidence，所以还需要额外的做一次判断。