CN107657226B - 一种基于深度学习的人数估计方法 - Google Patents
一种基于深度学习的人数估计方法 Download PDFInfo
- Publication number
- CN107657226B CN107657226B CN201710862828.1A CN201710862828A CN107657226B CN 107657226 B CN107657226 B CN 107657226B CN 201710862828 A CN201710862828 A CN 201710862828A CN 107657226 B CN107657226 B CN 107657226B
- Authority
- CN
- China
- Prior art keywords
- training
- image
- neural network
- network
- people
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的人数估计方法,属于基于深度学习的人群密度估计。本发明采用一种基于卷积层和池化层的单列卷积神经网络,通过大量样本的训练,学习人群特征,从而估计输入图像的人群密度图,进而对密度图进行积分,得到该图像上人群的人数估计。对比目前的其他深度学习算法,本发明所采用的卷积神经网络,结构简单,复杂度低,训练时间短,且估计精确度更高。
Description
技术领域
本发明属于数字图像技术领域,具体涉及基于深度学习的人群密度估计。
背景技术
随着科学技术的快速发展和经济水平的不断提高,人们的生活需求也越来越高,从而促使了人工智能的快速发展,目前人工智能技术已经逐渐应用到各个领域,包括智能驾驶、智能监控、安防等等。通过视频图像实现人数估计在智能监控、安防领域有重要的应用价值,在大型公共场合,比如大型活动现场,火车站等地方,通过图像及时估计人数,有助于及时疏散过密人群,防止踩踏等安全事故的发生等。另外,还可用于异常警示信号等等。
目前的人数统计算法可以概括为3类:
(1)基于目标检测的方法:
根据行人目标特征建立检测模型,选择的目标特征有多种,包括人头、整体行人目标、或者头部和肩部轮廓相结合等等,根据这些特征训练检测器,并结合滑窗的方法进行目标检测,统计检测到的目标个数,即为人数。其中,检测器主要是特征加分类器的形式,特征主要采取HOG(梯度方向直方图)、LBP等特征,分类器主要采用Adaboost、SVM等。这种基于检测的方法对所使用的目标检测方法的准确度依赖性很高,且只适用于背景简单,人数稀疏、行人之间没有遮挡或者遮挡较少的场景,实用性及可推广性较低。
(2)基于密度图或人数回归的方法:
这种方法通过建立图像特征和人数之间的回归模型,或者通过建立图像特征与人群密度图之间的回归模型来估计图像中的人数。常用的特征有边缘特征,纹理特征等,常用的回归函数主要有高斯回归,线性回归等。这类方法多用于监控视频场景,利用前景分割提取视频图像中的目标区域,以提取有效特征。但是由于此类算法主要依赖于特征的选取,目前基于边缘信息、纹理信息以及融合多种特征信息等方法准确性较差,如何设计有效特征仍然是该类算法的主要问题,且该类方法对场景依赖性高,不同场景之间的可迁移能力差,即泛化能力差。
(3)基于深度学习的方法:
目前深度学习在计算机视觉的众多研究领域都表现出了惊人的优越性,虽然深度学习算法在人数统计方面的应用不多,但是此类算法在准确度上和推广性上相比较于传统算法具有显著的进步。此类方法利用深度卷积神经网络,通过大量的标记样本来训练该网络学习人群特征,从而输出图像中的人数,此类方法不用人为设计特征,并且算法简单,易于训练。但是目前的深度学习算法多采用多列卷积神经网络,存在复杂度高,样本需要量大,训练时间长的问题。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于单列卷积神经网络的深度学习的人数估计方法。
本发明的基于深度学习的人数估计方法,包括下列步骤:
构建深度神经网络模型:基于10个卷积层和2个池化层的单列卷积神经网络,其中前6个卷积层的卷积核大小均为5x5,第7~9个卷积层的卷积核大小均为3x3,最后一个卷积层的卷积核大小为1x1;2个池化层的池化方式采用最大池化,且池化核大小均为2x2;
采集训练样数据对所构建的深度神经网络模型进行训练,获得训练好的深度神经网络模型,所述深度神经网络模型的损失函数其中为网络前向计算所得到的密度图,M为训练样本数目,输入图像的真实密度图其中δ(x-xi)为图像中人头位置的冲击函数,xi表示人头位置,N为人头总数,G为高斯核;
将待估计图像输入训练好的深度神经网络模型中,得到待估计图像的估计密度图,对所述估计密度图进行积分,得到待估计图像的估计人数。
综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明基于单列卷积神经网络,单一使用密度图构建损失函数,简单有效的网络结构,提高了估计准确度,降低了网络复杂度,减少了模型训练时间,同时降低了网络的过拟合风险。
附图说明
图1:基于深度学习的人数估计处理流程示意图。
图2:人数估计卷积神经网络结构图。
图3:现有人数估计网络MCNN(Multi-Column Convolutional Neural Network)与本发明的神经网络Crowd-CNN的网络结构对比图,其中3-a为现有的MCNN网络结构,3-b为本发明的Crowd-CNN网络结构。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明公开了一种基于10个卷积层和2个池化层的单列卷积神经网络,简称为Crowd-CNN,简化了现有的深度学习网络结构,实现了对图像中人数的估计。参见图1,本发明的具体实施步骤如下:
步骤1.构建深度神经网络并训练:
步骤1-1准备训练数据:针对本发明的Crowd-CNN网络结构,本具体实施方式中,采用目前人数统计领域常用的数据库UCSD、Shanghaitech PartA与Shanghaitech PartB,样本的标注信息(ground truth)为图像样本中的人头位置信息(x,y),即人头中心像素在图像中的坐标。然后根据该人头坐标计算密度图作为网络的标签(label)信息,并利用Caffe框架下的工具将样本图像和label信息生成LMDB数据文件(包括训练和测试样本数据)。
计算密度图:根据训练图像样本中的人头位置信息,计算样本的基于高斯核的密度图。基于几何适应高斯核的密度图的计算为:其中δ(x-xi)为图像中人头位置的冲击函数,xi为人头位置向量,即人头位置信息(x,y),N为人头总数,G为高斯核。
步骤1-2构建网络:本发明的深度学习网络整体结构如图2所示,详细结构图见图3-b。其共有10个卷积层,2个池化层,采用最大池化,损失函数采用欧氏距离损失函数。欧式距离损失函数(Euclidean Loss)的计算为:其中为网络前向计算所得到的密度图,而Fn为输入图像由公式计算出的真实密度图F(x),即输入网络的label信息,M为训练样本数目。
步骤1-3训练网络:利用Caffe框架将步骤1-2生成的训练数据和测试数据(LMDB文件)以及步骤1-2构建的网络文件载入Caffe的训练执行过程,通过网络的前向计算,以及损失函数公式(2)计算网络误差,并将该误差反向传播,计算网络每一层权重的误差梯度,并进行权值更新,逐渐缩小网络误差值。不断循环执行上述过程,寻找最有效的网络训练参数,使得网络损失降低至最小或者降至符合要求的值,即完成网络的训练过程,获得网络模型,此过程可以简单概括为参数寻优。
步骤2.测试:
本发明在测试实验中采用两种人数统计领域通用的算法衡量标准,平均绝对误差(MAE)和均方误差(MSE),分别用于衡量算法的准确性和稳定性。
通过在通用的人数统计数据库UCSD、Shanghaitech PartA与Shanghaitech PartB数据库上实验测试,对比现有性能较好的MCNN网络(其网络结构如图3‐a所示)与本发明所提出的简单结构网络,本发明所采用的网络结构简单,训练时间大大降低,同时保证了准确率。实验对比结果如表1、表2、表3所示。
表1网络训练迭代次数对比
表2MCNN网络测试结果
MSE | MAE | |
Shanghaitech PartA | 173.2 | 110.2 |
Shanghaitech PartB | 41.3 | 26.4 |
UCSD | 1.35 | 1.07 |
表3Crowd-CNN网络测试结果
MSE | MAE | |
Shanghaitech PartA | 170.38 | 109.05 |
Shanghaitech PartB | 42.1 | 26.04 |
UCSD | 1.21 | 1.03 |
对比验证表明,本发明所提出的基于Crowd-CNN网络结构的人数估计的准确性高,相比于MCNN网络结构,本发明具有更简单的网络结构,网络参数和训练时间都大大减少,从而对训练数据量的要求大大降低,并降低了网络过拟合的风险。同时误差也有所降低。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (1)
1.一种基于深度学习的人数估计方法,其特征在于,包括下列步骤:
构建深度神经网络模型:
基于10个卷积层和2个池化层的单列卷积神经网络,其中前6个卷积层的卷积核大小均为5x5,第7~9个卷积层的卷积核大小均为3x3,最后一个卷积层的卷积核大小为1x1;2个池化层的池化方式采用最大池化,且池化核大小均为2x2;
准备训练数据:
采用人数统计领域常用的人数统计数据库UCSD、Shanghaitech PartA与ShanghaitechPartB,样本的标注信息为图像样本中的人头位置信息(x,y),即人头中心像素在图像中的坐标;然后根据该人头坐标计算密度图作为网络的标签信息,并利用Caffe框架下的工具将样本图像和标签信息生成LMDB数据文件,包括训练数据和测试数据;
计算密度图:根据训练图像样本中的人头位置信息,计算样本的基于高斯核的密度图;基于几何适应高斯核的密度图的计算为:其中,δ(x-xi)为图像中人头位置的冲击函数,xi为人头位置向量,即人头位置信息(x,y),N为人头总数,G为高斯核;
基于训练样数据对所构建的深度神经网络模型进行训练,获得训练好的深度神经网络模型:
利用Caffe框架将生成的训练数据和测试数据,以及构建的深度神经网络模型的网络文件载入Caffe的训练执行过程,通过网络的前向计算,以及损失函数L(Θ)计算网络误差,并将该误差反向传播,计算网络每一层权重的误差梯度,并进行权值更新,逐渐缩小网络误差值;不断循环执行该过程,寻找最有效的网络训练参数,使得网络损失降低至最小或者降至符合要求的值;其中,所述深度神经网络模型的损失函数其中为网络前向计算所得到的密度图,M为训练样本数目,Fn为输入图像根据公式 计算得到的真实密度图F(x),即输入网络的标签信息;
且训练时,一次训练样本所选取的样本数batch size设置为1,学习率base_lr设置为1e-7,获得训练好的深度神经网络模型的训练迭代次数为80万次;
将待估计图像输入训练好的深度神经网络模型中,得到待估计图像的估计密度图,对所述估计密度图进行积分,得到待估计图像的估计人数;
将训练好的深度神经网络模型在人数统计数据库UCSD、Shanghaitech PartA与Shanghaitech PartB进行测试,各人数统计数据库所对应的平均绝对误差和均方误差具体为:
人数统计数据库UCSD的平均绝对误差和均方误差分别为:1.03、1.21;
人数统计数据库Shanghaitech PartA的平均绝对误差和均方误差分别为:109.05、170.38;
人数统计数据库Shanghaitech PartB的平均绝对误差和均方误差分别为26.04、42.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710862828.1A CN107657226B (zh) | 2017-09-22 | 2017-09-22 | 一种基于深度学习的人数估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710862828.1A CN107657226B (zh) | 2017-09-22 | 2017-09-22 | 一种基于深度学习的人数估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107657226A CN107657226A (zh) | 2018-02-02 |
CN107657226B true CN107657226B (zh) | 2020-12-29 |
Family
ID=61130780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710862828.1A Active CN107657226B (zh) | 2017-09-22 | 2017-09-22 | 一种基于深度学习的人数估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107657226B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229452B (zh) * | 2018-03-20 | 2024-05-03 | 东北大学 | 基于深度神经网络和dsp芯片的人数统计装置和方法 |
CN108647637B (zh) * | 2018-05-09 | 2020-06-30 | 广州飞宇智能科技有限公司 | 一种基于人群识别的视频采集分析装置和方法 |
CN108876774A (zh) * | 2018-06-07 | 2018-11-23 | 浙江大学 | 一种基于卷积神经网络的人群计数方法 |
CN109166100A (zh) * | 2018-07-24 | 2019-01-08 | 中南大学 | 基于卷积神经网络的多任务学习细胞计数方法 |
CN109117791A (zh) * | 2018-08-14 | 2019-01-01 | 中国电子科技集团公司第三十八研究所 | 一种基于膨胀卷积的人群密度图生成方法 |
CN109101930B (zh) * | 2018-08-18 | 2020-08-18 | 华中科技大学 | 一种人群计数方法及系统 |
CN109191440A (zh) * | 2018-08-24 | 2019-01-11 | 上海应用技术大学 | 玻璃气泡检测与计数方法 |
CN109359520B (zh) * | 2018-09-04 | 2021-12-17 | 汇纳科技股份有限公司 | 人群计数方法、系统、计算机可读存储介质及服务器 |
CN109447008B (zh) * | 2018-11-02 | 2022-02-15 | 中山大学 | 基于注意力机制和可变形卷积神经网络的人群分析方法 |
CN109858388A (zh) * | 2019-01-09 | 2019-06-07 | 武汉中联智诚科技有限公司 | 一种智慧旅游管理系统 |
CN109934148A (zh) * | 2019-03-06 | 2019-06-25 | 华瑞新智科技(北京)有限公司 | 一种基于无人机的实时人群计数方法、装置及无人机 |
CN110598672B (zh) * | 2019-09-23 | 2023-07-04 | 天津天地伟业机器人技术有限公司 | 一种基于单台摄像机的多区域人数统计方法 |
CN110991225A (zh) * | 2019-10-22 | 2020-04-10 | 同济大学 | 基于多列卷积神经网络的人群计数与密度估计方法及装置 |
CN110879990A (zh) * | 2019-11-22 | 2020-03-13 | 成都考拉悠然科技有限公司 | 一种预计机场安检旅客排队等候时长的方法及其应用 |
CN111178276B (zh) * | 2019-12-30 | 2024-04-02 | 上海商汤智能科技有限公司 | 图像处理方法、图像处理设备及计算机可读存储介质 |
CN111723693B (zh) * | 2020-06-03 | 2022-05-27 | 云南大学 | 一种基于小样本学习的人群计数方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195598B2 (en) * | 2007-11-16 | 2012-06-05 | Agilence, Inc. | Method of and system for hierarchical human/crowd behavior detection |
CN104077613B (zh) * | 2014-07-16 | 2017-04-12 | 电子科技大学 | 一种基于级联多级卷积神经网络的人群密度估计方法 |
CN104320617B (zh) * | 2014-10-20 | 2017-09-01 | 中国科学院自动化研究所 | 一种基于深度学习的全天候视频监控方法 |
CN107624189B (zh) * | 2015-05-18 | 2020-11-20 | 北京市商汤科技开发有限公司 | 用于生成预测模型的方法和设备 |
CN104992223B (zh) * | 2015-06-12 | 2018-02-16 | 安徽大学 | 基于深度学习的密集人数估计方法 |
CN105528589B (zh) * | 2015-12-31 | 2019-01-01 | 上海科技大学 | 基于多列卷积神经网络的单张图像人群计数算法 |
CN106203331B (zh) * | 2016-07-08 | 2019-05-17 | 苏州平江历史街区保护整治有限责任公司 | 一种基于卷积神经网络的人群密度估算方法 |
CN106326937B (zh) * | 2016-08-31 | 2019-08-09 | 郑州金惠计算机系统工程有限公司 | 基于卷积神经网络的人群密度分布估计方法 |
CN106845621B (zh) * | 2017-01-18 | 2019-04-30 | 山东大学 | 基于深度卷积神经网络的密集人群人数计数方法及系统 |
-
2017
- 2017-09-22 CN CN201710862828.1A patent/CN107657226B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107657226A (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657226B (zh) | 一种基于深度学习的人数估计方法 | |
CN107563349A (zh) | 一种基于VGGNet的人数估计方法 | |
CN107016357B (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN112767485B (zh) | 一种基于静态语义信息的点云地图创建与场景辨识方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
CN108830145B (zh) | 一种基于深度神经网络的人数统计方法及存储介质 | |
CN111611874B (zh) | 基于ResNet和Canny的人脸口罩佩戴检测方法 | |
CN103824070B (zh) | 一种基于计算机视觉的快速行人检测方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN111191667B (zh) | 基于多尺度生成对抗网络的人群计数方法 | |
CN109034035A (zh) | 基于显著性检测和特征融合的行人重识别方法 | |
CN105678231A (zh) | 一种基于稀疏编码和神经网络的行人图片检测方法 | |
CN105022982A (zh) | 手部运动识别方法和装置 | |
CN105701448B (zh) | 三维人脸点云鼻尖检测方法及应用其的数据处理装置 | |
CN104504395A (zh) | 基于神经网络实现人车分类的方法和系统 | |
CN104077605A (zh) | 一种基于颜色拓扑结构的行人搜索识别方法 | |
CN111915583B (zh) | 复杂场景中基于车载红外热像仪的车辆和行人检测方法 | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN103927511A (zh) | 基于差异特征描述的图像识别方法 | |
CN104376334B (zh) | 一种多尺度特征融合的行人比对方法 | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
Ding et al. | Efficient vanishing point detection method in complex urban road environments | |
CN104392459A (zh) | 基于改进的fcm和均值漂移的红外图像分割方法 | |
CN110516533A (zh) | 一种基于深度度量的行人再辨识方法 | |
CN103413154A (zh) | 基于归一化类谷歌量度矩阵的人体运动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |