CN107657226B

CN107657226B - 一种基于深度学习的人数估计方法

Info

Publication number: CN107657226B
Application number: CN201710862828.1A
Authority: CN
Inventors: 解梅; 秦方; 李佩伦; 苏星霖
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2020-12-29
Anticipated expiration: 2037-09-22
Also published as: CN107657226A

Abstract

本发明公开了一种基于深度学习的人数估计方法，属于基于深度学习的人群密度估计。本发明采用一种基于卷积层和池化层的单列卷积神经网络，通过大量样本的训练，学习人群特征，从而估计输入图像的人群密度图，进而对密度图进行积分，得到该图像上人群的人数估计。对比目前的其他深度学习算法，本发明所采用的卷积神经网络，结构简单，复杂度低，训练时间短，且估计精确度更高。

Description

一种基于深度学习的人数估计方法

技术领域

本发明属于数字图像技术领域，具体涉及基于深度学习的人群密度估计。

背景技术

随着科学技术的快速发展和经济水平的不断提高，人们的生活需求也越来越高，从而促使了人工智能的快速发展，目前人工智能技术已经逐渐应用到各个领域，包括智能驾驶、智能监控、安防等等。通过视频图像实现人数估计在智能监控、安防领域有重要的应用价值，在大型公共场合，比如大型活动现场，火车站等地方，通过图像及时估计人数，有助于及时疏散过密人群，防止踩踏等安全事故的发生等。另外，还可用于异常警示信号等等。

目前的人数统计算法可以概括为3类：

(1)基于目标检测的方法：

根据行人目标特征建立检测模型，选择的目标特征有多种，包括人头、整体行人目标、或者头部和肩部轮廓相结合等等，根据这些特征训练检测器，并结合滑窗的方法进行目标检测，统计检测到的目标个数，即为人数。其中，检测器主要是特征加分类器的形式，特征主要采取HOG(梯度方向直方图)、LBP等特征，分类器主要采用Adaboost、SVM等。这种基于检测的方法对所使用的目标检测方法的准确度依赖性很高，且只适用于背景简单，人数稀疏、行人之间没有遮挡或者遮挡较少的场景，实用性及可推广性较低。

(2)基于密度图或人数回归的方法：

这种方法通过建立图像特征和人数之间的回归模型，或者通过建立图像特征与人群密度图之间的回归模型来估计图像中的人数。常用的特征有边缘特征，纹理特征等，常用的回归函数主要有高斯回归，线性回归等。这类方法多用于监控视频场景，利用前景分割提取视频图像中的目标区域，以提取有效特征。但是由于此类算法主要依赖于特征的选取，目前基于边缘信息、纹理信息以及融合多种特征信息等方法准确性较差，如何设计有效特征仍然是该类算法的主要问题，且该类方法对场景依赖性高，不同场景之间的可迁移能力差，即泛化能力差。

(3)基于深度学习的方法：

目前深度学习在计算机视觉的众多研究领域都表现出了惊人的优越性，虽然深度学习算法在人数统计方面的应用不多，但是此类算法在准确度上和推广性上相比较于传统算法具有显著的进步。此类方法利用深度卷积神经网络，通过大量的标记样本来训练该网络学习人群特征，从而输出图像中的人数，此类方法不用人为设计特征，并且算法简单，易于训练。但是目前的深度学习算法多采用多列卷积神经网络，存在复杂度高，样本需要量大，训练时间长的问题。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于单列卷积神经网络的深度学习的人数估计方法。

本发明的基于深度学习的人数估计方法，包括下列步骤：

构建深度神经网络模型：基于10个卷积层和2个池化层的单列卷积神经网络，其中前6个卷积层的卷积核大小均为5x5，第7～9个卷积层的卷积核大小均为3x3，最后一个卷积层的卷积核大小为1x1；2个池化层的池化方式采用最大池化，且池化核大小均为2x2；

采集训练样数据对所构建的深度神经网络模型进行训练，获得训练好的深度神经网络模型，所述深度神经网络模型的损失函数

其中

为网络前向计算所得到的密度图，M为训练样本数目，输入图像的真实密度图

其中δ(x-x_i)为图像中人头位置的冲击函数，x_i表示人头位置，N为人头总数，G为高斯核；

将待估计图像输入训练好的深度神经网络模型中，得到待估计图像的估计密度图，对所述估计密度图进行积分，得到待估计图像的估计人数。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明基于单列卷积神经网络，单一使用密度图构建损失函数，简单有效的网络结构，提高了估计准确度，降低了网络复杂度，减少了模型训练时间，同时降低了网络的过拟合风险。

附图说明

图1：基于深度学习的人数估计处理流程示意图。

图2：人数估计卷积神经网络结构图。

图3：现有人数估计网络MCNN(Multi-Column Convolutional Neural Network)与本发明的神经网络Crowd-CNN的网络结构对比图，其中3-a为现有的MCNN网络结构，3-b为本发明的Crowd-CNN网络结构。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明公开了一种基于10个卷积层和2个池化层的单列卷积神经网络，简称为Crowd-CNN，简化了现有的深度学习网络结构，实现了对图像中人数的估计。参见图1，本发明的具体实施步骤如下：

步骤1.构建深度神经网络并训练：

步骤1-1准备训练数据：针对本发明的Crowd-CNN网络结构，本具体实施方式中，采用目前人数统计领域常用的数据库UCSD、Shanghaitech PartA与Shanghaitech PartB，样本的标注信息(ground truth)为图像样本中的人头位置信息(x，y)，即人头中心像素在图像中的坐标。然后根据该人头坐标计算密度图作为网络的标签(label)信息，并利用Caffe框架下的工具将样本图像和label信息生成LMDB数据文件(包括训练和测试样本数据)。

计算密度图：根据训练图像样本中的人头位置信息，计算样本的基于高斯核的密度图。基于几何适应高斯核的密度图的计算为：

其中δ(x-x_i)为图像中人头位置的冲击函数，x_i为人头位置向量，即人头位置信息(x，y)，N为人头总数，G为高斯核。

步骤1-2构建网络：本发明的深度学习网络整体结构如图2所示，详细结构图见图3-b。其共有10个卷积层，2个池化层，采用最大池化，损失函数采用欧氏距离损失函数。欧式距离损失函数(Euclidean Loss)的计算为：

其中

为网络前向计算所得到的密度图，而F_n为输入图像由公

式计算出的真实密度图F(x)，即输入网络的label信息，M为训练样本数目。

步骤1-3训练网络：利用Caffe框架将步骤1-2生成的训练数据和测试数据(LMDB文件)以及步骤1-2构建的网络文件载入Caffe的训练执行过程，通过网络的前向计算，以及损失函数公式(2)计算网络误差，并将该误差反向传播，计算网络每一层权重的误差梯度，并进行权值更新，逐渐缩小网络误差值。不断循环执行上述过程，寻找最有效的网络训练参数，使得网络损失降低至最小或者降至符合要求的值，即完成网络的训练过程，获得网络模型，此过程可以简单概括为参数寻优。

步骤2.测试：

将待检测图像送入到步骤1中构建的网络结构，载入步骤1中训练好的网络模型参数进行前向计算，得到该图像的估计密度图

对该密度图进行积分，得到估计人数

本发明在测试实验中采用两种人数统计领域通用的算法衡量标准，平均绝对误差(MAE)和均方误差(MSE)，分别用于衡量算法的准确性和稳定性。

平均绝对误差(MAE)定义：

均方误差(MSE)定义：

其中，M为测试样本数量，Z_i为测试样本i的实际人数，

为网络计算出的测试样本i的人数。

通过在通用的人数统计数据库UCSD、Shanghaitech PartA与Shanghaitech PartB数据库上实验测试，对比现有性能较好的MCNN网络(其网络结构如图3‐a所示)与本发明所提出的简单结构网络，本发明所采用的网络结构简单，训练时间大大降低，同时保证了准确率。实验对比结果如表1、表2、表3所示。

表1网络训练迭代次数对比

表2MCNN网络测试结果

	MSE	MAE
			Shanghaitech PartA	173.2	110.2
Shanghaitech PartB	41.3	26.4
			UCSD	1.35	1.07

表3Crowd-CNN网络测试结果

	MSE	MAE
			Shanghaitech PartA	170.38	109.05
Shanghaitech PartB	42.1	26.04
			UCSD	1.21	1.03

对比验证表明，本发明所提出的基于Crowd-CNN网络结构的人数估计的准确性高，相比于MCNN网络结构，本发明具有更简单的网络结构，网络参数和训练时间都大大减少，从而对训练数据量的要求大大降低，并降低了网络过拟合的风险。同时误差也有所降低。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于深度学习的人数估计方法，其特征在于，包括下列步骤：

构建深度神经网络模型：

基于10个卷积层和2个池化层的单列卷积神经网络，其中前6个卷积层的卷积核大小均为5x5，第7～9个卷积层的卷积核大小均为3x3，最后一个卷积层的卷积核大小为1x1；2个池化层的池化方式采用最大池化，且池化核大小均为2x2；

准备训练数据：

采用人数统计领域常用的人数统计数据库UCSD、Shanghaitech PartA与ShanghaitechPartB，样本的标注信息为图像样本中的人头位置信息(x,y)，即人头中心像素在图像中的坐标；然后根据该人头坐标计算密度图作为网络的标签信息，并利用Caffe框架下的工具将样本图像和标签信息生成LMDB数据文件，包括训练数据和测试数据；

计算密度图：根据训练图像样本中的人头位置信息，计算样本的基于高斯核的密度图；基于几何适应高斯核的密度图的计算为：

其中，δ(x-x_i)为图像中人头位置的冲击函数，x_i为人头位置向量，即人头位置信息(x,y)，N为人头总数，G为高斯核；

基于训练样数据对所构建的深度神经网络模型进行训练，获得训练好的深度神经网络模型：

利用Caffe框架将生成的训练数据和测试数据，以及构建的深度神经网络模型的网络文件载入Caffe的训练执行过程，通过网络的前向计算，以及损失函数L(Θ)计算网络误差，并将该误差反向传播，计算网络每一层权重的误差梯度，并进行权值更新，逐渐缩小网络误差值；不断循环执行该过程，寻找最有效的网络训练参数，使得网络损失降低至最小或者降至符合要求的值；其中，所述深度神经网络模型的损失函数

其中

为网络前向计算所得到的密度图，M为训练样本数目，F_n为输入图像根据公式

计算得到的真实密度图F(x)，即输入网络的标签信息；

且训练时，一次训练样本所选取的样本数batch size设置为1，学习率base_lr设置为1e-7，获得训练好的深度神经网络模型的训练迭代次数为80万次；

将待估计图像输入训练好的深度神经网络模型中，得到待估计图像的估计密度图，对所述估计密度图进行积分，得到待估计图像的估计人数；

将训练好的深度神经网络模型在人数统计数据库UCSD、Shanghaitech PartA与Shanghaitech PartB进行测试，各人数统计数据库所对应的平均绝对误差和均方误差具体为：

人数统计数据库UCSD的平均绝对误差和均方误差分别为：1.03、1.21；

人数统计数据库Shanghaitech PartA的平均绝对误差和均方误差分别为：109.05、170.38；

人数统计数据库Shanghaitech PartB的平均绝对误差和均方误差分别为26.04、42.1。