Nothing Special   »   [go: up one dir, main page]

CN109522857B - 一种基于生成式对抗网络模型的人数估计方法 - Google Patents

一种基于生成式对抗网络模型的人数估计方法 Download PDF

Info

Publication number
CN109522857B
CN109522857B CN201811415565.0A CN201811415565A CN109522857B CN 109522857 B CN109522857 B CN 109522857B CN 201811415565 A CN201811415565 A CN 201811415565A CN 109522857 B CN109522857 B CN 109522857B
Authority
CN
China
Prior art keywords
image
network
people
convolution
adopting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811415565.0A
Other languages
English (en)
Other versions
CN109522857A (zh
Inventor
元辉
贺黎恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811415565.0A priority Critical patent/CN109522857B/zh
Publication of CN109522857A publication Critical patent/CN109522857A/zh
Application granted granted Critical
Publication of CN109522857B publication Critical patent/CN109522857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于生成式对抗网络模型的人数估计方法,涉及深度学习中的特征自动提取技术和多元回归模型,充分利用了生成对抗式网络模型(GANs,Generative Adversarial Nets)特征表示能力,并且把指示局部人群密度的密度图充当第二监督信号,把图像中人的数量充当第一监督信号,用反向传播算法训练网络,然后用得到的网络参数初始化网络,就可以预测未知图像中人的数量,该方法不断降低了预测的误差,而且减少了训练阶段的时间消耗。

Description

一种基于生成式对抗网络模型的人数估计方法
技术领域
本发明涉及一种基于生成式对抗网络模型的人数估计方法,属于图像处理技术领域。
背景技术
由于受到光照变化、透视失真和嘈杂环境干扰(如背景是树林,或者反光很强的墙面)等因素的影响,一直以来,直接从图像中估计出人的数量是相当具有挑战性的。然而,近些年深度学习技术的觉醒使研究者和工程师们的项目大范围地利用和开发深度网络模型。虽然这些基于深度网络模型的人数自动估计方法,在自然场景下取得了相当好的成绩。
Zhang[1]等人提出了多列卷积网络,如图1所示。该方案提出了一种基于多列卷积神经网络的单张图像人群计数算法,其中的多列卷积神经网络有三个子网络,每个子网络的结构不同,并且每个子网络用到卷积核的大小不同,每个子网络的输入为同一张图像,在经过四次卷积和两次池化后,三个子网络输出的特征图在“通道”维度上链接在一起,再用一个1×1的核卷积得到人群的密度图。但是,该方案只在网络的高层链接在一起,在网络浅层的多尺度特征没有被充分融合,造成了几何特征丢失,影响了人数估计的精度;该方案在训练整个网络之前,需要先训练三个子网络,且每个子网络的训练时间不小于十个小时。
Daniel[2]等人提出了一种基于多尺度块的多分支卷积网络,如图2所示。该方案由三个不同的子网组成,虽然输入块有不同的尺度。但是,该方案的三个子网络的结构是一样的,并且这三个子网络只在网络的高层链接在一起,在网络浅层的多尺度特征没有被充分融合,造成了几何特征丢失,影响了人数估计的精度;该方案在训练整个网络之前,需要先训练三个子网络,且每个子网络的训练时间不小于十个小时。
Han[3]等人提出了基于残差网络(ResNet)和全连接网络相结合的方法,如图3所示。该方案首先从每张图像中有重叠地采样出若干个块,然后用残差网络计算出每个块的预测值,然后把这些块的预测值送到条件随机场计算图像中人数的预测值。但是,该方案必须先用残差网络计算出每个块的预测值,然后才能利用条件随机场预测出图像中的人数;也就是说,该方案是分步执行的,并且这两个步骤不能合并成一个步骤。
但是,通过实验发现,在训练这些网络的时候会花费很长的时间,随着网络结构的不断加深,训练时长也在不停地增加。像Han[3]等人这样的深层次的网络,网络结构很深,需要学习的参数数量很多,不仅训练花费的时间长而且有过拟合的危险;像Zhang[1]等人和Daniel[2]等人提出的方案,虽然没有Han[3]等人提出的方案网络结构深,但是增加了网络的宽度,并且每个子网络都需要事先预训练。
发明内容
针对现有基于深度网络模型的人数自动估计技术的不足,本发明提出了一种基于生成式对抗网络模型的人数估计方法;
为了减少网络参数,本发明提出的方案的卷积核尺寸大小至多不超过3;为了减少网络宽度,本发明只使用单列的网络结构;为了保证本发明提出的方案的性能,本发明给回归网络的输入赋予不同的权重以区分不同特征的重要程度。
本发明涉及深度学习中的特征自动提取技术和多元回归模型,充分利用了生成对抗式网络模型(GANs,Generative Adversarial Nets)的特征表示能力,并且把指示局部人群密度的密度图充当第二监督信号,把图像中人的数量充当第一监督信号,用反向传播算法训练网络,然后用得到的网络参数初始化网络,就可以预测未知图像中人的数量,该方法不断降低了预测的误差,而且减少了训练阶段的时间消耗。
术语解释:
1、批规范化(Batch Normalization)处理,包括如下四个步骤:求每一个训练批次数据的均值;求每一个训练批次数据的方差;使用求得的均值和方差对该批次的训练数据做规范化,即把该批次的每一个训练数据减去均值后再除以标准差;然后乘以尺度因子γ,再加上平移因子β。
2、线性整流(ReLU)激活函数,是指f(x)=max(0,x)。
3、最大池化(即“下采样”)操作,是指对邻域内的特征点取最大。
4、S函数(sigmoid)激活函数,是指
Figure BDA0001879368540000021
5、RMSprop优化算法,首先,计算前t次的梯度平方的平均值;然后,用第t次的梯度除以前t次的梯度的平方的平均值,作为学习率的更新比例;最后,根据此比例去得到新的学习率。
6、Adam优化算法,是指根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。
本发明的技术方案为:
一种基于生成式对抗网络模型的人数估计方法,
所述生成式对抗网络模型包括三个子网络,包括生成器网络
Figure BDA0001879368540000022
判别网络
Figure BDA0001879368540000023
回归网络
Figure BDA0001879368540000024
生成器网络
Figure BDA0001879368540000025
包括四个连续的卷积+批归一化+最大池化和一个卷积+批归一化;
判别网络
Figure BDA0001879368540000026
包括四个连续的上采样+卷积组成,在判别网络
Figure BDA0001879368540000027
的输出得到密度图的估计值;
回归网络
Figure BDA0001879368540000031
是一个全连接网络;回归网络R有四个不同的输入,包括:生成器网络
Figure BDA0001879368540000032
经过第二个卷积+批归一化+最大池化之后的输出,生成器网络
Figure BDA0001879368540000033
经过第三个卷积+批归一化+最大池化之后的输出,生成器网络
Figure BDA0001879368540000034
经过第四个卷积+批归一化+最大池化之后的输出,生成器网络
Figure BDA0001879368540000035
经过最后一个卷积+批归一化之后的输出;回归网络
Figure BDA0001879368540000036
的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入,将这四个被重赋权重的输入输入到一个三层的全连接网络,得到了人数的预测值;
生成式对抗网络模型启发自博弈论中的二人零和博弈,包含一个生成模型(generative model)(生成器网络
Figure BDA0001879368540000037
)和一个判别模型(discriminative model)(判别网络
Figure BDA0001879368540000038
)。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈(minimax two-playergame)”问题,训练时固定一方,更新另一个模型的参数,交替迭代。
包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
根据本发明优选的,所述步骤(1),获取多尺度数据,包括:
(ⅰ)对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
进一步优选的,所述步骤(ⅰ)中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块。
(ii)将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
进一步优选的,所述步骤(ii)中,将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240。
(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加,共4种操作,获得新的图像集合,记为I;
(iv)对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
(ⅴ)通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
Figure BDA0001879368540000041
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0dxc表示尺寸为e×f的全零矩阵;
进一步优选的,σ=3.0。
(ⅵ)获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
(2)用生成器网络
Figure BDA0001879368540000042
产生图像的特征图集合:
a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,随机正交矩阵是由[0,1]上的均匀分布的随机数矩阵经过SVD(奇异值分解)分解所得;分别采用不同的卷积核对新的图像集合I的输入图像进行卷积,并分别依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure BDA0001879368540000044
b、采用32个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure BDA0001879368540000045
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure BDA0001879368540000046
c、采用64个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure BDA0001879368540000047
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure BDA0001879368540000048
d、采用128个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure BDA0001879368540000049
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合Ig
(3)用判别网络
Figure BDA0001879368540000043
产生估计密度图:
采用64个尺度为3×3、32个尺度为3×3、16个尺度为3×3、8个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化这些卷积核;对特征图集合Ig进行上采样处理,并分别采用不同的卷积核对上采样处理后的特征图集合Ig进行卷积,得到输出的图像
Figure BDA0001879368540000051
即新的图像集合I的输入图像对应的估计密度图;
(4)用SE-Net提取注意力特征:
e、用全局平均池化(global average pooling)处理
Figure BDA00018793685400000529
得到特征向量
Figure BDA00018793685400000530
用全局平均池化处理
Figure BDA00018793685400000531
得到特征向量
Figure BDA00018793685400000532
用全局平均池化处理
Figure BDA00018793685400000533
得到特征向量
Figure BDA00018793685400000534
用全局平均池化处理Ig,得到特征向量vg
f、利用一个输入有16个神经单元,隐含层有1个神经单元,输出有16个神经单元的多层感知机
Figure BDA00018793685400000535
在第二层,用最小值为
Figure BDA0001879368540000052
最大值为
Figure BDA0001879368540000053
的均匀分布初始化多层感知机
Figure BDA00018793685400000536
的权重矩阵
Figure BDA00018793685400000537
并将偏置项
Figure BDA00018793685400000538
初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA0001879368540000054
最大值为
Figure BDA0001879368540000055
的均匀分布初始化多层感知机
Figure BDA00018793685400000540
的权重矩阵
Figure BDA00018793685400000539
并将偏置项
Figure BDA00018793685400000542
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到16维的特征向量
Figure BDA00018793685400000541
同时,利用一个输入有32个神经单元,隐含层有1个神经单元,输出有32个神经单元的多层感知机
Figure BDA00018793685400000543
用最小值为
Figure BDA0001879368540000056
最大值为
Figure BDA0001879368540000057
的均匀分布初始化多层感知机
Figure BDA0001879368540000058
的权重矩阵
Figure BDA0001879368540000059
并将偏置项
Figure BDA00018793685400000510
初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA00018793685400000511
最大值为
Figure BDA00018793685400000512
的均匀分布初始化多层感知机
Figure BDA00018793685400000513
的权重矩阵
Figure BDA00018793685400000514
并将偏置项
Figure BDA00018793685400000515
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到32维的特征向量
Figure BDA00018793685400000516
同时,利用一个输入有64个神经单元,隐含层有1个神经单元,输出有64个神经单元的多层感知机
Figure BDA00018793685400000517
用最小值为
Figure BDA00018793685400000518
最大值为
Figure BDA00018793685400000519
的均匀分布初始化多层感知机
Figure BDA00018793685400000520
的权重矩阵
Figure BDA00018793685400000521
并将偏置项
Figure BDA00018793685400000522
初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA00018793685400000523
最大值为
Figure BDA00018793685400000524
的均匀分布初始化多层感知机
Figure BDA00018793685400000525
的权重矩阵
Figure BDA00018793685400000526
并将偏置项
Figure BDA00018793685400000527
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到64维的特征向量
Figure BDA00018793685400000528
同时,利用一个输入有128个神经单元,隐含层有1个神经单元,输出有128个神经单元的多层感知机MLPg;用最小值为
Figure BDA0001879368540000061
最大值为
Figure BDA0001879368540000062
的均匀分布初始化多层感知机MLPg的权重矩阵
Figure BDA0001879368540000063
并将偏置项
Figure BDA0001879368540000064
初始化为0,并且经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA0001879368540000065
最大值为
Figure BDA0001879368540000066
的均匀分布初始化多层感知机MLPg的权重矩阵
Figure BDA0001879368540000067
并将偏置项
Figure BDA0001879368540000068
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到128维的特征向量v′g
提取到的注意力特征包括:16维的特征向量
Figure BDA0001879368540000069
32维的特征向量
Figure BDA00018793685400000610
64维的特征向量
Figure BDA00018793685400000611
128维的特征向量v′g
(5)用注意力特征给特征图重新赋予权重;
将特征图集合
Figure BDA00018793685400000612
的每一幅图像的所有像素乘以特征向量
Figure BDA00018793685400000613
的对应分量;得到重新赋予权重之后的特征图集合为
Figure BDA00018793685400000614
将特征图集合
Figure BDA00018793685400000615
的每一幅图像的所有像素乘以特征向量
Figure BDA00018793685400000616
的对应分量;得到重新赋予权重之后的特征图集合为
Figure BDA00018793685400000617
将特征图集合
Figure BDA00018793685400000618
的每一幅图像的所有像素乘以特征向量
Figure BDA00018793685400000619
的对应分量;得到重新赋予权重之后的特征图集合为
Figure BDA00018793685400000620
将特征图集合Ig的每一幅图像的所有像素乘以特征向量v′g的对应分量;得到重新赋予权重之后的特征图集合为I′g
(6)用回归网络R计算图像中人的数量;
g、利用一个输入有26400个神经单元,输出有1个神经单元的全连接层MLPR,用最小值为
Figure BDA00018793685400000621
最大值为
Figure BDA00018793685400000622
的均匀分布初始化全连接层的权重矩阵WR,并将偏置项b初始化为0;
h、用全连接层MLPR同时处理
Figure BDA00018793685400000623
和I′g,并经过线性整流(ReLU)激活函数,得到1维的标量
Figure BDA00018793685400000624
标量
Figure BDA00018793685400000625
就是图像中的人数;
(7)网络训练;
i、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
Figure BDA0001879368540000071
式(Ⅰ)中,Loss表示损失函数的值,λ1表示判别器产生的误差所占的权重,
Figure BDA0001879368540000072
表示图像Ii经过生成器网络
Figure BDA0001879368540000073
的输出,λ2表示生成器产生的误差所占的权重,
Figure BDA0001879368540000074
表示
Figure BDA0001879368540000075
经过判别器网络
Figure BDA0001879368540000076
的输出,m表示训练集增广后的样本数量,即m=70400。Ii表示输入图像,ci表示图像中人的数量,Mi表示图像对应的密度图;ci表示主要监督信号,Mi表示次要监督信号;
j、生成器网络
Figure BDA0001879368540000077
选择Adam优化算法,初始学习率为g_base_lr,判别网络
Figure BDA0001879368540000078
选择RMSprop优化算法,初始学习率为d_base_lr,回归网络
Figure BDA0001879368540000079
选择Adam优化算法,初始学习率为r_base_lr;g_base_lr的取值范围为0.000001~1,d_base_lr的取值范围为0.000001~1,r_base_lr的取值范围为0.000001~1;
进一步优选的,g_base_lr的取值为0.00001,d_base_lr的取值为0.0002,r_base_lr的取值为0.0001。
k、执行以下步骤①至步骤
Figure BDA00018793685400000710
迭代m次,包括步骤如下:
①从训练集中随机采集m幅图像{I1,I2,…,Im};
②从训练集中随机采样m幅图像对应的密度图{M1,M2,…,Mm};
③计算判别网络
Figure BDA00018793685400000711
的梯度:
Figure BDA00018793685400000712
Figure BDA00018793685400000713
是指判别网络
Figure BDA00018793685400000714
的训练误差相对判别网络
Figure BDA00018793685400000715
的参数θd的梯度;
④采用RMSprop优化算法更新判别网络
Figure BDA00018793685400000716
的参数;
⑤从训练集中随机采集m幅图像{I1,I2,…,Im};
⑥从训练集中随机采样m幅图像对应的密度图{C1,C2,…,Cm};
⑦计算生成器网络
Figure BDA00018793685400000717
的梯度:
Figure BDA0001879368540000081
Figure BDA0001879368540000082
是指生成器网络
Figure BDA0001879368540000083
的训练误差相对于网络
Figure BDA0001879368540000084
的参数θg的梯度;
⑧采用Adam优化算法更新生成器网络
Figure BDA0001879368540000085
的参数;
⑨从训练集中随机采集m幅图像{I1,I2,…,Im};
⑩从训练集中随机采样m幅图像对应的人数标签{C1,C2,…,Cm};
Figure BDA0001879368540000086
计算回归网络
Figure BDA0001879368540000087
的梯度:
Figure BDA0001879368540000088
Figure BDA0001879368540000089
是指回归网络
Figure BDA00018793685400000810
的训练误差相对于回归网络
Figure BDA00018793685400000811
的参数θr的梯度;
Figure BDA00018793685400000812
采用Adam优化算法更新回归网络
Figure BDA00018793685400000813
的参数;
B、测试过程:
利用步骤(7)所得的网络参数初始化网络,把测试图像作为网络的输入,网络直接输出图像中的人数。
本发明的有益效果为:
1.本发明提出了一种基于生成式对抗网络的特征提取算法,充分利用了生成式网络的隐含特征表示能力,并且应用了多任务学习技术,使模型的泛化能力更强;
2.本发明利用了注意力模型,使网络参数的调整更加关注影响准确率的特征;
3.本发明提出的对抗式回归模型的训练算法采用交替训练和随机采样,避免了过拟合的发生。
附图说明
图1是Zhang等人提出的多列卷积网络的架构图。
图2是Daniel等人提出的一种基于多尺度块的多分支卷积网络的架构图。
图3是Han等人提出的一种将残差网络(ResNet)、全连接网络和马尔可夫随机场相结合的架构图。
图4是本发明提出的一种基于生成式对抗网络模型的结构框图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于生成式对抗网络模型的人数估计方法,生成式对抗网络模型包括三个子网络,如图4所示,包括生成器网络
Figure BDA0001879368540000091
判别网络
Figure BDA0001879368540000092
回归网络
Figure BDA0001879368540000093
生成器网络
Figure BDA0001879368540000094
包括四个连续的卷积+批归一化+最大池化和一个卷积+批归一化;
判别网络
Figure BDA0001879368540000095
包括四个连续的上采样+卷积组成,在判别网络
Figure BDA0001879368540000096
的输出得到密度图的估计值;
回归网络
Figure BDA0001879368540000097
是一个全连接网络;回归网络
Figure BDA0001879368540000098
有四个不同的输入,包括:生成器网络
Figure BDA0001879368540000099
经过第二个卷积+批归一化+最大池化之后的输出,生成器网络
Figure BDA00018793685400000910
经过第三个卷积+批归一化+最大池化之后的输出,生成器网络
Figure BDA00018793685400000911
经过第四个卷积+批归一化+最大池化之后的输出,生成器网络
Figure BDA00018793685400000912
经过最后一个卷积+批归一化之后的输出;回归网络
Figure BDA00018793685400000913
的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入,将这四个被重赋权重的输入输入到一个三层的全连接网络,得到了人数的预测值;
生成式对抗网络模型启发自博弈论中的二人零和博弈,包含一个生成模型(generative model)(生成器网络
Figure BDA00018793685400000914
)和一个判别模型(discriminative model)(判别网络
Figure BDA00018793685400000915
)。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈(minimax two-playergame)”问题,训练时固定一方,更新另一个模型的参数,交替迭代。
包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;包括:
(ⅰ)对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
(ii)将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加,共4种操作,获得新的图像集合,记为I;
(iv)对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
(ⅴ)通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
Figure BDA0001879368540000101
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0dxc表示尺寸为e×f的全零矩阵;σ=3.0。
(ⅵ)获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
(2)用生成器网络
Figure BDA0001879368540000102
产生图像的特征图集合:
a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,随机正交矩阵是由[0,1]上的均匀分布的随机数矩阵经过SVD(奇异值分解)分解所得;分别采用不同的卷积核对新的图像集合I的输入图像进行卷积,并分别依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure BDA0001879368540000103
b、采用32个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure BDA0001879368540000104
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure BDA0001879368540000105
c、采用64个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure BDA0001879368540000106
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure BDA0001879368540000107
d、采用128个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure BDA0001879368540000108
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合Ig
(3)用判别网络
Figure BDA0001879368540000109
产生估计密度图:采用64个尺度为3×3、32个尺度为3×3、16个尺度为3×3、8个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化这些卷积核;对特征图集合Ig进行上采样处理,并分别采用不同的卷积核对上采样处理后的特征图集合Ig进行卷积,得到输出的图像
Figure BDA00018793685400001010
即新的图像集合I的输入图像对应的估计密度图;
(4)用SE-Net提取注意力特征:
e、用全局平均池化(global average pooling)处理
Figure BDA0001879368540000111
得到特征向量
Figure BDA0001879368540000112
用全局平均池化处理
Figure BDA0001879368540000113
得到特征向量
Figure BDA0001879368540000114
用全局平均池化处理
Figure BDA0001879368540000115
得到特征向量
Figure BDA0001879368540000116
用全局平均池化处理Ig,得到特征向量vg
f、利用一个输入有16个神经单元,隐含层有1个神经单元,输出有16个神经单元的多层感知机
Figure BDA0001879368540000117
在第二层,用最小值为
Figure BDA0001879368540000118
最大值为
Figure BDA0001879368540000119
的均匀分布初始化多层感知机
Figure BDA00018793685400001110
的权重矩阵
Figure BDA00018793685400001111
并将偏置项
Figure BDA00018793685400001112
初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA00018793685400001113
最大值为
Figure BDA00018793685400001114
的均匀分布初始化多层感知机
Figure BDA00018793685400001115
的权重矩阵
Figure BDA00018793685400001116
并将偏置项
Figure BDA00018793685400001117
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到16维的特征向量
Figure BDA00018793685400001118
同时,利用一个输入有32个神经单元,隐含层有1个神经单元,输出有32个神经单元的多层感知机
Figure BDA00018793685400001119
用最小值为
Figure BDA00018793685400001120
最大值为
Figure BDA00018793685400001121
的均匀分布初始化多层感知机
Figure BDA00018793685400001122
的权重矩阵
Figure BDA00018793685400001123
并将偏置项
Figure BDA00018793685400001124
初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA00018793685400001125
最大值为
Figure BDA00018793685400001126
的均匀分布初始化多层感知机
Figure BDA00018793685400001127
的权重矩阵
Figure BDA00018793685400001128
并将偏置项
Figure BDA00018793685400001129
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到32维的特征向量
Figure BDA00018793685400001130
同时,利用一个输入有64个神经单元,隐含层有1个神经单元,输出有64个神经单元的多层感知机
Figure BDA00018793685400001131
用最小值为
Figure BDA00018793685400001132
最大值为
Figure BDA00018793685400001133
的均匀分布初始化多层感知机
Figure BDA00018793685400001134
的权重矩阵
Figure BDA00018793685400001135
并将偏置项
Figure BDA00018793685400001136
初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA00018793685400001137
最大值为
Figure BDA00018793685400001138
的均匀分布初始化多层感知机
Figure BDA00018793685400001139
的权重矩阵
Figure BDA00018793685400001140
并将偏置项
Figure BDA00018793685400001141
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到64维的特征向量
Figure BDA00018793685400001142
同时,利用一个输入有128个神经单元,隐含层有1个神经单元,输出有128个神经单元的多层感知机MLPg;用最小值为
Figure BDA00018793685400001143
最大值为
Figure BDA00018793685400001144
的均匀分布初始化多层感知机MLPg的权重矩阵
Figure BDA0001879368540000121
并将偏置项
Figure BDA0001879368540000122
初始化为0,并且经过线性整流(ReLU)激活函数;接着,用最小值为
Figure BDA0001879368540000123
最大值为
Figure BDA0001879368540000124
的均匀分布初始化多层感知机MLPg的权重矩阵
Figure BDA0001879368540000125
并将偏置项
Figure BDA0001879368540000126
初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到128维的特征向量v′g
提取到的注意力特征包括:16维的特征向量
Figure BDA0001879368540000127
32维的特征向量
Figure BDA0001879368540000128
64维的特征向量
Figure BDA0001879368540000129
128维的特征向量v′g
(5)用注意力特征给特征图重新赋予权重;
将特征图集合
Figure BDA00018793685400001210
的每一幅图像的所有像素乘以特征向量
Figure BDA00018793685400001211
的对应分量;得到重新赋予权重之后的特征图集合为
Figure BDA00018793685400001212
将特征图集合
Figure BDA00018793685400001213
的每一幅图像的所有像素乘以特征向量
Figure BDA00018793685400001214
的对应分量;得到重新赋予权重之后的特征图集合为
Figure BDA00018793685400001215
将特征图集合
Figure BDA00018793685400001216
的每一幅图像的所有像素乘以特征向量
Figure BDA00018793685400001217
的对应分量;得到重新赋予权重之后的特征图集合为
Figure BDA00018793685400001218
将特征图集合Ig的每一幅图像的所有像素乘以特征向量v′g的对应分量;得到重新赋予权重之后的特征图集合为I′g
(6)用回归网络
Figure BDA00018793685400001219
计算图像中人的数量;
g、利用一个输入有26400个神经单元,输出有1个神经单元的全连接层MLPR,用最小值为
Figure BDA00018793685400001220
最大值为
Figure BDA00018793685400001221
的均匀分布初始化全连接层的权重矩阵WR,并将偏置项b初始化为0;
h、用全连接层MLPR同时处理
Figure BDA00018793685400001222
Figure BDA00018793685400001223
并经过线性整流(ReLU)激活函数,得到1维的标量
Figure BDA00018793685400001224
标量
Figure BDA00018793685400001225
就是图像中的人数;
(7)网络训练;
i、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
Figure BDA0001879368540000131
式(Ⅰ)中,Loss表示损失函数的值,λ1表示判别器产生的误差所占的权重,
Figure BDA0001879368540000132
表示图像Ii经过生成器网络
Figure BDA0001879368540000133
的输出,λ2表示生成器产生的误差所占的权重,
Figure BDA0001879368540000134
表示
Figure BDA0001879368540000135
经过判别器网络
Figure BDA0001879368540000136
的输出,m表示训练集增广后的样本数量,即m=70400。Ii表示输入图像,ci表示图像中人的数量,Mi表示图像对应的密度图;ci表示主要监督信号,Mi表示次要监督信号;
j、生成器网络
Figure BDA0001879368540000137
选择Adam优化算法,初始学习率为g_base_lr,判别网络
Figure BDA0001879368540000138
选择RMSprop优化算法,初始学习率为d_base_lr,回归网络
Figure BDA0001879368540000139
选择Adam优化算法,初始学习率为r_base_lr;g_base_lr的取值范围为0.000001~1,d_base_lr的取值范围为0.000001~1,r_base_lr的取值范围为0.000001~1;
k、执行以下步骤①至步骤
Figure BDA00018793685400001310
迭代m次,包括步骤如下:
①从训练集中随机采集m幅图像{I1,I2,…,Im};
②从训练集中随机采样m幅图像对应的密度图{M1,M2,…,Mm};
③计算判别网络
Figure BDA00018793685400001311
的梯度:
Figure BDA00018793685400001312
Figure BDA00018793685400001313
是指判别网络
Figure BDA00018793685400001314
的训练误差相对判别网络
Figure BDA00018793685400001315
的参数θd的梯度;
④采用RMSprop优化算法更新判别网络
Figure BDA00018793685400001316
的参数;
⑤从训练集中随机采集m幅图像{I1,I2,…,Im};
⑥从训练集中随机采样m幅图像对应的密度图{C1,C2,…,Cm};
⑦计算生成器网络
Figure BDA00018793685400001317
的梯度:
Figure BDA00018793685400001318
Figure BDA00018793685400001319
是指生成器网络
Figure BDA00018793685400001320
的训练误差相对于网络
Figure BDA00018793685400001321
的参数θg的梯度;
⑧采用Adam优化算法更新生成器网络
Figure BDA00018793685400001322
的参数;
⑨从训练集中随机采集m幅图像{I1,I2,…,Im};
⑩从训练集中随机采样m幅图像对应的人数标签{C1,C2,…,Cm};
Figure BDA0001879368540000141
计算回归网络
Figure BDA0001879368540000142
的梯度:
Figure BDA0001879368540000143
Figure BDA0001879368540000144
是指回归网络
Figure BDA0001879368540000145
的训练误差相对于回归网络
Figure BDA0001879368540000146
的参数θr的梯度;
Figure BDA0001879368540000147
采用Adam优化算法更新回归网络
Figure BDA0001879368540000148
的参数;
B、测试过程:
利用步骤(7)所得的网络参数初始化网络,把测试图像作为网络的输入,网络直接输出图像中的人数。
实施例2
根据实施例1所述一种基于生成式对抗网络模型的人数估计方法,其区别在于:
步骤(ⅰ)中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块。该步骤仅对训练集有效,对测试集无效。
步骤(ii)中,将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240。
g_base_lr的取值为0.00001,d_base_lr的取值为0.0002,r_base_lr的取值为0.0001。
应用算法1训练生成式对抗网络模型。
Figure BDA0001879368540000151
本发明充分利用了生成式网络的隐含特征表示能力,并且应用了多任务学习技术,使模型的泛化能力更强;利用了注意力模型,使网络参数的调整更加关注影响准确率的特征;法采用交替训练和随机采样,避免了过拟合的发生。
本发明的效果可以通过实验进一步说明。表1比较了采用本发明与Zhang等人的方法、Daniel等人的方法和Han等人的方法在MALL测试集上的预测误差,表1中,“(用真实密度图计算)”是指:把真实密度图的像素和看作是对应图像中的真实人数。
表1
Figure BDA0001879368540000161
由表1可知,本发明的方法比其它四种方法更准确。

Claims (10)

1.一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述生成式对抗网络模型包括三个子网络,包括生成器网络
Figure FDA0002937065680000011
判别网络
Figure FDA0002937065680000012
回归网络
Figure FDA0002937065680000013
生成器网络
Figure FDA0002937065680000014
包括四个连续的卷积+批归一化+最大池化和一个卷积+批归一化;判别网络
Figure FDA0002937065680000015
包括四个连续的上采样+卷积组成,在判别网络
Figure FDA0002937065680000016
的输出得到密度图的估计值;回归网络
Figure FDA0002937065680000017
是一个全连接网络;回归网络
Figure FDA0002937065680000018
有四个不同的输入,包括:生成器网络
Figure FDA0002937065680000019
经过第二个卷积+批归一化+最大池化之后的输出,生成器网络
Figure FDA00029370656800000110
经过第三个卷积+批归一化+最大池化之后的输出,生成器网络
Figure FDA00029370656800000111
经过第四个卷积+批归一化+最大池化之后的输出,生成器网络
Figure FDA00029370656800000112
经过最后一个卷积+批归一化之后的输出;回归网络
Figure FDA00029370656800000113
的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入,将这四个被重赋权重的输入输入到一个三层的全连接网络,得到人数的预测值;包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
(2)用生成器网络
Figure FDA00029370656800000114
产生图像的特征图集合:
(3)用判别网络
Figure FDA00029370656800000115
产生估计密度图:
(4)用SE-Net提取注意力特征:
(5)用注意力特征给特征图重新赋予权重;
(6)用回归网络
Figure FDA00029370656800000116
计算图像中人的数量;
(7)网络训练;
B、测试过程:
利用步骤(7)所得的网络参数初始化网络,把测试图像作为网络的输入,网络直接输出图像中的人数。
2.根据权利要求1所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(2)中,用生成器网络
Figure FDA00029370656800000117
产生图像的特征图集合,包括步骤如下:
a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,随机正交矩阵是由[0,1]上的均匀分布的随机数矩阵经过SVD分解所得;分别采用不同的卷积核对新的图像集合I的输入图像进行卷积,并分别依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure FDA0002937065680000021
b、采用32个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure FDA0002937065680000022
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure FDA0002937065680000023
c、采用64个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure FDA0002937065680000024
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
Figure FDA0002937065680000025
d、采用128个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合
Figure FDA0002937065680000026
进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合Ig
3.根据权利要求2所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(3)中,用判别网络
Figure FDA00029370656800000224
产生估计密度图,包括步骤如下:
采用64个尺度为3×3、32个尺度为3×3、16个尺度为3×3、8个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化这些卷积核;对特征图集合Ig进行上采样处理,并分别采用不同的卷积核对上采样处理后的特征图集合Ig进行卷积,得到输出的图像
Figure FDA0002937065680000027
即新的图像集合I的输入图像对应的估计密度图。
4.根据权利要求2所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(4)中,用SE-Net提取注意力特征,包括步骤如下:
e、用全局平均池化处理
Figure FDA0002937065680000028
得到特征向量
Figure FDA0002937065680000029
用全局平均池化处理
Figure FDA00029370656800000210
得到特征向量
Figure FDA00029370656800000211
用全局平均池化处理
Figure FDA00029370656800000212
得到特征向量
Figure FDA00029370656800000213
用全局平均池化处理Ig,得到特征向量vg
f、利用一个输入有16个神经单元,隐含层有1个神经单元,输出有16个神经单元的多层感知机
Figure FDA00029370656800000214
在第二层,用最小值为
Figure FDA00029370656800000215
最大值为
Figure FDA00029370656800000216
的均匀分布初始化多层感知机
Figure FDA00029370656800000217
的权重矩阵
Figure FDA00029370656800000218
并将偏置项
Figure FDA00029370656800000219
初始化为0,并经过线性整流激活函数;接着,用最小值为
Figure FDA00029370656800000220
最大值为
Figure FDA00029370656800000221
的均匀分布初始化多层感知机
Figure FDA00029370656800000222
的权重矩阵
Figure FDA00029370656800000223
并将偏置项
Figure FDA0002937065680000031
初始化为0,并经过S函数激活函数,得到16维的特征向量
Figure FDA0002937065680000032
同时,利用一个输入有32个神经单元,隐含层有1个神经单元,输出有32个神经单元的多层感知机
Figure FDA0002937065680000033
用最小值为
Figure FDA0002937065680000034
最大值为
Figure FDA0002937065680000035
的均匀分布初始化多层感知机
Figure FDA0002937065680000036
的权重矩阵
Figure FDA0002937065680000037
并将偏置项
Figure FDA0002937065680000038
初始化为0,并经过线性整流激活函数;接着,用最小值为
Figure FDA0002937065680000039
最大值为
Figure FDA00029370656800000310
的均匀分布初始化多层感知机
Figure FDA00029370656800000311
的权重矩阵
Figure FDA00029370656800000312
并将偏置项
Figure FDA00029370656800000313
初始化为0,并经过一种常见的S函数激活函数,得到32维的特征向量
Figure FDA00029370656800000314
同时,利用一个输入有64个神经单元,隐含层有1个神经单元,输出有64个神经单元的多层感知机
Figure FDA00029370656800000315
用最小值为
Figure FDA00029370656800000316
最大值为
Figure FDA00029370656800000317
的均匀分布初始化多层感知机
Figure FDA00029370656800000318
的权重矩阵
Figure FDA00029370656800000319
并将偏置项
Figure FDA00029370656800000320
初始化为0,并经过线性整流激活函数;接着,用最小值为
Figure FDA00029370656800000321
最大值为
Figure FDA00029370656800000322
的均匀分布初始化多层感知机
Figure FDA00029370656800000323
的权重矩阵
Figure FDA00029370656800000324
并将偏置项
Figure FDA00029370656800000325
初始化为0,并经过S函数激活函数,得到64维的特征向量
Figure FDA00029370656800000326
同时,利用一个输入有128个神经单元,隐含层有1个神经单元,输出有128个神经单元的多层感知机MLPg;用最小值为
Figure FDA00029370656800000327
最大值为
Figure FDA00029370656800000328
的均匀分布初始化多层感知机MLPg的权重矩阵
Figure FDA00029370656800000329
并将偏置项
Figure FDA00029370656800000330
初始化为0,并且经过线性整流激活函数;接着,用最小值为
Figure FDA00029370656800000331
最大值为
Figure FDA00029370656800000332
的均匀分布初始化多层感知机MLPg的权重矩阵
Figure FDA00029370656800000333
并将偏置项
Figure FDA00029370656800000334
初始化为0,并经过S函数激活函数,得到128维的特征向量v′g
提取到的注意力特征包括:16维的特征向量
Figure FDA00029370656800000335
32维的特征向量
Figure FDA00029370656800000336
64维的特征向量
Figure FDA00029370656800000337
128维的特征向量v′g
5.根据权利要求4所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(5)中,用注意力特征给特征图重新赋予权重,包括步骤如下:
将特征图集合
Figure FDA0002937065680000041
的每一幅图像的所有像素乘以特征向量
Figure FDA0002937065680000042
的对应分量;得到重新赋予权重之后的特征图集合为
Figure FDA0002937065680000043
将特征图集合
Figure FDA0002937065680000044
的每一幅图像的所有像素乘以特征向量
Figure FDA0002937065680000045
的对应分量;得到重新赋予权重之后的特征图集合为
Figure FDA0002937065680000046
将特征图集合
Figure FDA0002937065680000047
的每一幅图像的所有像素乘以特征向量
Figure FDA0002937065680000048
的对应分量;得到重新赋予权重之后的特征图集合为
Figure FDA0002937065680000049
将特征图集合Ig的每一幅图像的所有像素乘以特征向量v′g的对应分量;得到重新赋予权重之后的特征图集合为I′g
6.根据权利要求5所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(6)中,用回归网络
Figure FDA00029370656800000421
计算图像中人的数量,包括步骤如下:
g、利用一个输入有26400个神经单元,输出有1个神经单元的全连接层MLPR,用最小值为
Figure FDA00029370656800000410
最大值为
Figure FDA00029370656800000411
的均匀分布初始化全连接层的权重矩阵WR,并将偏置项b初始化为0;
h、用全连接层MLPR同时处理
Figure FDA00029370656800000412
和I′g,并经过线性整流激活函数,得到1维的标量
Figure FDA00029370656800000413
标量
Figure FDA00029370656800000414
就是图像中的人数。
7.根据权利要求6所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(7)中,网络训练,包括步骤如下:
i、定义损失函数,即待优化的目标函数如式(II)所示:
Figure FDA00029370656800000415
式(II)中,Loss表示损失函数的值,λ1表示判别器产生的误差所占的权重,
Figure FDA00029370656800000416
表示图像Ii经过生成器网络
Figure FDA00029370656800000417
的输出,λ2表示生成器产生的误差所占的权重,
Figure FDA00029370656800000418
表示
Figure FDA00029370656800000419
经过判别器网络
Figure FDA00029370656800000420
的输出,m表示训练集增广后的样本数量,Ii表示输入图像,ci表示图像中人的数量,Mi表示图像对应的密度图;
j、生成器网络
Figure FDA0002937065680000051
选择Adam优化算法,初始学习率为g_base_lr,判别网络
Figure FDA0002937065680000052
选择RMSprop优化算法,初始学习率为d_base_lr,回归网络
Figure FDA0002937065680000053
选择Adam优化算法,初始学习率为r_base_lr;g_base_lr的取值范围为0.000001~1,d_base_lr的取值范围为0.000001~1,r_base_lr的取值范围为0.000001~1;
k、执行以下步骤①至步骤
Figure FDA0002937065680000054
迭代m次,包括步骤如下:
①从训练集中随机采集m幅图像{I1,I2,…,Im};
②从训练集中随机采样m幅图像对应的密度图{M1,M2,…,Mm};
③计算判别网络
Figure FDA0002937065680000055
的梯度:
Figure FDA0002937065680000056
Figure FDA0002937065680000057
是指判别网络
Figure FDA0002937065680000058
的训练误差相对判别网络
Figure FDA0002937065680000059
的参数θd的梯度;
④采用RMSprop优化算法更新判别网络
Figure FDA00029370656800000510
的参数;
⑤从训练集中随机采集m幅图像{I1,I2,…,Im};
⑥从训练集中随机采样m幅图像对应的密度图{C1,C2,…,Cm};
⑦计算生成器网络
Figure FDA00029370656800000511
的梯度:
Figure FDA00029370656800000512
Figure FDA00029370656800000513
是指生成器网络
Figure FDA00029370656800000514
的训练误差相对于网络
Figure FDA00029370656800000515
的参数θg的梯度;
⑧采用Adam优化算法更新生成器网络
Figure FDA00029370656800000516
的参数;
⑨从训练集中随机采集m幅图像{I1,I2,…,Im};
⑩从训练集中随机采样m幅图像对应的人数标签{C1,C2,…,Cm};
Figure FDA00029370656800000517
计算回归网络
Figure FDA00029370656800000518
的梯度:
Figure FDA00029370656800000519
Figure FDA00029370656800000520
是指回归网络
Figure FDA00029370656800000521
的训练误差相对于回归网络
Figure FDA00029370656800000522
的参数θr的梯度;
Figure FDA0002937065680000061
采用Adam优化算法更新回归网络
Figure FDA0002937065680000062
的参数。
8.根据权利要求1所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(1),获取多尺度数据,包括:
(ⅰ)对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
(ⅱ)将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加,获得新的图像集合,记为I;
(ⅳ)对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
(v)通过式(Ⅰ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
Figure FDA0002937065680000063
式(Ⅰ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0e×f表示尺寸为e×f的全零矩阵;
(vi)获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数。
9.根据权利要求8所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,
所述步骤(ⅰ)中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块;
所述步骤(ⅱ)中,将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240;σ=3.0。
10.根据权利要求7所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,g_base_lr的取值为0.00001,d_base_lr的取值为0.0002,r_base_lr的取值为0.0001。
CN201811415565.0A 2018-11-26 2018-11-26 一种基于生成式对抗网络模型的人数估计方法 Active CN109522857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811415565.0A CN109522857B (zh) 2018-11-26 2018-11-26 一种基于生成式对抗网络模型的人数估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811415565.0A CN109522857B (zh) 2018-11-26 2018-11-26 一种基于生成式对抗网络模型的人数估计方法

Publications (2)

Publication Number Publication Date
CN109522857A CN109522857A (zh) 2019-03-26
CN109522857B true CN109522857B (zh) 2021-04-23

Family

ID=65793346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811415565.0A Active CN109522857B (zh) 2018-11-26 2018-11-26 一种基于生成式对抗网络模型的人数估计方法

Country Status (1)

Country Link
CN (1) CN109522857B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446302A (zh) * 2018-01-29 2018-08-24 东华大学 一种结合TensorFlow与Spark的个性化推荐系统
CN110008554B (zh) * 2019-03-27 2022-10-18 哈尔滨工业大学 一种基于数值模拟和深度学习的搅拌摩擦焊缝成形预测的工艺参数、焊具结构优化方法
CN110097185B (zh) * 2019-03-29 2021-03-23 北京大学 一种基于生成对抗网络的优化模型方法及应用
CN109978807B (zh) * 2019-04-01 2020-07-14 西北工业大学 一种基于生成式对抗网络的阴影去除方法
CN110033043B (zh) * 2019-04-16 2020-11-10 杭州电子科技大学 基于条件生成式对抗网络的雷达一维距离像拒判方法
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110335212B (zh) * 2019-06-28 2021-01-15 西安理工大学 基于条件对抗网络的缺损古籍汉字修复方法
CN110705340B (zh) * 2019-08-12 2023-12-26 广东石油化工学院 一种基于注意力神经网络场的人群计数方法
CN110503049B (zh) * 2019-08-26 2022-05-03 重庆邮电大学 基于生成对抗网络的卫星视频车辆数目估计方法
CN111080501B (zh) * 2019-12-06 2024-02-09 中国科学院大学 基于手机信令数据的真实人群密度时空分布估算方法
CN111429436B (zh) * 2020-03-29 2022-03-15 西北工业大学 一种基于多尺度注意力和标签损失的本质图像分析方法
CN112326276B (zh) * 2020-10-28 2021-07-16 北京航空航天大学 一种基于生成对抗网络的高铁转向系统故障检测lstm方法
CN112818945A (zh) * 2021-03-08 2021-05-18 北方工业大学 适用于地铁车站人群计数的卷积网络构建方法
CN113421192B (zh) * 2021-08-24 2021-11-19 北京金山云网络技术有限公司 对象统计模型的训练方法、目标对象的统计方法和装置
CN114972111B (zh) * 2022-06-16 2023-01-10 慧之安信息技术股份有限公司 一种基于gan图像修复的密集人群计数方法
CN115357218A (zh) * 2022-08-02 2022-11-18 北京航空航天大学 一种基于混沌预测对抗学习的高熵随机数生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423701A (zh) * 2017-07-17 2017-12-01 北京智慧眼科技股份有限公司 基于生成式对抗网络的人脸非监督特征学习方法及装置
CN107451619A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于感知生成对抗网络的小目标检测方法
CN108764085A (zh) * 2018-05-17 2018-11-06 上海交通大学 基于生成对抗网络的人群计数方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474881B2 (en) * 2017-03-15 2019-11-12 Nec Corporation Video retrieval system based on larger pose face frontalization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423701A (zh) * 2017-07-17 2017-12-01 北京智慧眼科技股份有限公司 基于生成式对抗网络的人脸非监督特征学习方法及装置
CN107451619A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于感知生成对抗网络的小目标检测方法
CN108764085A (zh) * 2018-05-17 2018-11-06 上海交通大学 基于生成对抗网络的人群计数方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Squeeze-and-Excitation Networks;Jie Hu et al;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20180623;第7132-7141页 *
非重叠域行人再识别算法研究;何晴 等;《信息技术》;20180731(第7期);第34-38页 *

Also Published As

Publication number Publication date
CN109522857A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522857B (zh) 一种基于生成式对抗网络模型的人数估计方法
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN108717568B (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
CN110335261B (zh) 一种基于时空循环注意力机制的ct淋巴结检测系统
CN114429156B (zh) 雷达干扰多域特征对抗学习与检测识别方法
CN106295124B (zh) 多种图像检测技术综合分析基因子图相似概率量的方法
CN106295694B (zh) 一种迭代重约束组稀疏表示分类的人脸识别方法
CN112818764B (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN109190537A (zh) 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN109145992A (zh) 协作生成对抗网络和空谱联合的高光谱图像分类方法
CN109002848B (zh) 一种基于特征映射神经网络的弱小目标检测方法
CN110728629A (zh) 一种用于对抗攻击的图像集增强方法
CN109919241B (zh) 基于概率模型和深度学习的高光谱未知类别目标检测方法
CN113780242A (zh) 一种基于模型迁移学习的跨场景水声目标分类方法
CN109598220A (zh) 一种基于多元输入多尺度卷积的人数统计方法
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN107729926A (zh) 一种基于高维空间变换的数据扩增方法、机器识别系统
CN114428234A (zh) 基于gan和自注意力的雷达高分辨距离像降噪识别方法
CN116482618B (zh) 基于多损失特征自校准网络的雷达有源干扰识别方法
CN115496720A (zh) 基于ViT机制模型的胃肠癌病理图像分割方法及相关设备
CN104778466A (zh) 一种联合多种上下文线索的图像关注区域检测方法
CN113435276A (zh) 一种基于对抗残差网络的水声目标识别方法
CN113344045A (zh) 一种结合hog特征提高sar船只分类精度的方法
CN109389101A (zh) 一种基于去噪自编码网络的sar图像目标识别方法
Yow et al. Iris recognition system (IRS) using deep learning technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant