CN109522857B - 一种基于生成式对抗网络模型的人数估计方法 - Google Patents
一种基于生成式对抗网络模型的人数估计方法 Download PDFInfo
- Publication number
- CN109522857B CN109522857B CN201811415565.0A CN201811415565A CN109522857B CN 109522857 B CN109522857 B CN 109522857B CN 201811415565 A CN201811415565 A CN 201811415565A CN 109522857 B CN109522857 B CN 109522857B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- people
- convolution
- adopting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于生成式对抗网络模型的人数估计方法,涉及深度学习中的特征自动提取技术和多元回归模型,充分利用了生成对抗式网络模型(GANs,Generative Adversarial Nets)特征表示能力,并且把指示局部人群密度的密度图充当第二监督信号,把图像中人的数量充当第一监督信号,用反向传播算法训练网络,然后用得到的网络参数初始化网络,就可以预测未知图像中人的数量,该方法不断降低了预测的误差,而且减少了训练阶段的时间消耗。
Description
技术领域
本发明涉及一种基于生成式对抗网络模型的人数估计方法,属于图像处理技术领域。
背景技术
由于受到光照变化、透视失真和嘈杂环境干扰(如背景是树林,或者反光很强的墙面)等因素的影响,一直以来,直接从图像中估计出人的数量是相当具有挑战性的。然而,近些年深度学习技术的觉醒使研究者和工程师们的项目大范围地利用和开发深度网络模型。虽然这些基于深度网络模型的人数自动估计方法,在自然场景下取得了相当好的成绩。
Zhang[1]等人提出了多列卷积网络,如图1所示。该方案提出了一种基于多列卷积神经网络的单张图像人群计数算法,其中的多列卷积神经网络有三个子网络,每个子网络的结构不同,并且每个子网络用到卷积核的大小不同,每个子网络的输入为同一张图像,在经过四次卷积和两次池化后,三个子网络输出的特征图在“通道”维度上链接在一起,再用一个1×1的核卷积得到人群的密度图。但是,该方案只在网络的高层链接在一起,在网络浅层的多尺度特征没有被充分融合,造成了几何特征丢失,影响了人数估计的精度;该方案在训练整个网络之前,需要先训练三个子网络,且每个子网络的训练时间不小于十个小时。
Daniel[2]等人提出了一种基于多尺度块的多分支卷积网络,如图2所示。该方案由三个不同的子网组成,虽然输入块有不同的尺度。但是,该方案的三个子网络的结构是一样的,并且这三个子网络只在网络的高层链接在一起,在网络浅层的多尺度特征没有被充分融合,造成了几何特征丢失,影响了人数估计的精度;该方案在训练整个网络之前,需要先训练三个子网络,且每个子网络的训练时间不小于十个小时。
Han[3]等人提出了基于残差网络(ResNet)和全连接网络相结合的方法,如图3所示。该方案首先从每张图像中有重叠地采样出若干个块,然后用残差网络计算出每个块的预测值,然后把这些块的预测值送到条件随机场计算图像中人数的预测值。但是,该方案必须先用残差网络计算出每个块的预测值,然后才能利用条件随机场预测出图像中的人数;也就是说,该方案是分步执行的,并且这两个步骤不能合并成一个步骤。
但是,通过实验发现,在训练这些网络的时候会花费很长的时间,随着网络结构的不断加深,训练时长也在不停地增加。像Han[3]等人这样的深层次的网络,网络结构很深,需要学习的参数数量很多,不仅训练花费的时间长而且有过拟合的危险;像Zhang[1]等人和Daniel[2]等人提出的方案,虽然没有Han[3]等人提出的方案网络结构深,但是增加了网络的宽度,并且每个子网络都需要事先预训练。
发明内容
针对现有基于深度网络模型的人数自动估计技术的不足,本发明提出了一种基于生成式对抗网络模型的人数估计方法;
为了减少网络参数,本发明提出的方案的卷积核尺寸大小至多不超过3;为了减少网络宽度,本发明只使用单列的网络结构;为了保证本发明提出的方案的性能,本发明给回归网络的输入赋予不同的权重以区分不同特征的重要程度。
本发明涉及深度学习中的特征自动提取技术和多元回归模型,充分利用了生成对抗式网络模型(GANs,Generative Adversarial Nets)的特征表示能力,并且把指示局部人群密度的密度图充当第二监督信号,把图像中人的数量充当第一监督信号,用反向传播算法训练网络,然后用得到的网络参数初始化网络,就可以预测未知图像中人的数量,该方法不断降低了预测的误差,而且减少了训练阶段的时间消耗。
术语解释:
1、批规范化(Batch Normalization)处理,包括如下四个步骤:求每一个训练批次数据的均值;求每一个训练批次数据的方差;使用求得的均值和方差对该批次的训练数据做规范化,即把该批次的每一个训练数据减去均值后再除以标准差;然后乘以尺度因子γ,再加上平移因子β。
2、线性整流(ReLU)激活函数,是指f(x)=max(0,x)。
3、最大池化(即“下采样”)操作,是指对邻域内的特征点取最大。
5、RMSprop优化算法,首先,计算前t次的梯度平方的平均值;然后,用第t次的梯度除以前t次的梯度的平方的平均值,作为学习率的更新比例;最后,根据此比例去得到新的学习率。
6、Adam优化算法,是指根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。
本发明的技术方案为:
一种基于生成式对抗网络模型的人数估计方法,
回归网络是一个全连接网络;回归网络R有四个不同的输入,包括:生成器网络经过第二个卷积+批归一化+最大池化之后的输出,生成器网络经过第三个卷积+批归一化+最大池化之后的输出,生成器网络经过第四个卷积+批归一化+最大池化之后的输出,生成器网络经过最后一个卷积+批归一化之后的输出;回归网络的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入,将这四个被重赋权重的输入输入到一个三层的全连接网络,得到了人数的预测值;
生成式对抗网络模型启发自博弈论中的二人零和博弈,包含一个生成模型(generative model)(生成器网络)和一个判别模型(discriminative model)(判别网络)。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈(minimax two-playergame)”问题,训练时固定一方,更新另一个模型的参数,交替迭代。
包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
根据本发明优选的,所述步骤(1),获取多尺度数据,包括:
(ⅰ)对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
进一步优选的,所述步骤(ⅰ)中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块。
(ii)将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
进一步优选的,所述步骤(ii)中,将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240。
(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加,共4种操作,获得新的图像集合,记为I;
(iv)对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
(ⅴ)通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0dxc表示尺寸为e×f的全零矩阵;
进一步优选的,σ=3.0。
(ⅵ)获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,随机正交矩阵是由[0,1]上的均匀分布的随机数矩阵经过SVD(奇异值分解)分解所得;分别采用不同的卷积核对新的图像集合I的输入图像进行卷积,并分别依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
d、采用128个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合Ig;
采用64个尺度为3×3、32个尺度为3×3、16个尺度为3×3、8个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化这些卷积核;对特征图集合Ig进行上采样处理,并分别采用不同的卷积核对上采样处理后的特征图集合Ig进行卷积,得到输出的图像即新的图像集合I的输入图像对应的估计密度图;
(4)用SE-Net提取注意力特征:
f、利用一个输入有16个神经单元,隐含层有1个神经单元,输出有16个神经单元的多层感知机在第二层,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到16维的特征向量
同时,利用一个输入有32个神经单元,隐含层有1个神经单元,输出有32个神经单元的多层感知机用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到32维的特征向量
同时,利用一个输入有64个神经单元,隐含层有1个神经单元,输出有64个神经单元的多层感知机用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到64维的特征向量
同时,利用一个输入有128个神经单元,隐含层有1个神经单元,输出有128个神经单元的多层感知机MLPg;用最小值为最大值为的均匀分布初始化多层感知机MLPg的权重矩阵并将偏置项初始化为0,并且经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机MLPg的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到128维的特征向量v′g;
(5)用注意力特征给特征图重新赋予权重;
将特征图集合Ig的每一幅图像的所有像素乘以特征向量v′g的对应分量;得到重新赋予权重之后的特征图集合为I′g;
(6)用回归网络R计算图像中人的数量;
(7)网络训练;
i、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
式(Ⅰ)中,Loss表示损失函数的值,λ1表示判别器产生的误差所占的权重,表示图像Ii经过生成器网络的输出,λ2表示生成器产生的误差所占的权重,表示经过判别器网络的输出,m表示训练集增广后的样本数量,即m=70400。Ii表示输入图像,ci表示图像中人的数量,Mi表示图像对应的密度图;ci表示主要监督信号,Mi表示次要监督信号;
j、生成器网络选择Adam优化算法,初始学习率为g_base_lr,判别网络选择RMSprop优化算法,初始学习率为d_base_lr,回归网络选择Adam优化算法,初始学习率为r_base_lr;g_base_lr的取值范围为0.000001~1,d_base_lr的取值范围为0.000001~1,r_base_lr的取值范围为0.000001~1;
进一步优选的,g_base_lr的取值为0.00001,d_base_lr的取值为0.0002,r_base_lr的取值为0.0001。
①从训练集中随机采集m幅图像{I1,I2,…,Im};
②从训练集中随机采样m幅图像对应的密度图{M1,M2,…,Mm};
⑤从训练集中随机采集m幅图像{I1,I2,…,Im};
⑥从训练集中随机采样m幅图像对应的密度图{C1,C2,…,Cm};
⑨从训练集中随机采集m幅图像{I1,I2,…,Im};
⑩从训练集中随机采样m幅图像对应的人数标签{C1,C2,…,Cm};
B、测试过程:
利用步骤(7)所得的网络参数初始化网络,把测试图像作为网络的输入,网络直接输出图像中的人数。
本发明的有益效果为:
1.本发明提出了一种基于生成式对抗网络的特征提取算法,充分利用了生成式网络的隐含特征表示能力,并且应用了多任务学习技术,使模型的泛化能力更强;
2.本发明利用了注意力模型,使网络参数的调整更加关注影响准确率的特征;
3.本发明提出的对抗式回归模型的训练算法采用交替训练和随机采样,避免了过拟合的发生。
附图说明
图1是Zhang等人提出的多列卷积网络的架构图。
图2是Daniel等人提出的一种基于多尺度块的多分支卷积网络的架构图。
图3是Han等人提出的一种将残差网络(ResNet)、全连接网络和马尔可夫随机场相结合的架构图。
图4是本发明提出的一种基于生成式对抗网络模型的结构框图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
回归网络是一个全连接网络;回归网络有四个不同的输入,包括:生成器网络经过第二个卷积+批归一化+最大池化之后的输出,生成器网络经过第三个卷积+批归一化+最大池化之后的输出,生成器网络经过第四个卷积+批归一化+最大池化之后的输出,生成器网络经过最后一个卷积+批归一化之后的输出;回归网络的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入,将这四个被重赋权重的输入输入到一个三层的全连接网络,得到了人数的预测值;
生成式对抗网络模型启发自博弈论中的二人零和博弈,包含一个生成模型(generative model)(生成器网络)和一个判别模型(discriminative model)(判别网络)。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈(minimax two-playergame)”问题,训练时固定一方,更新另一个模型的参数,交替迭代。
包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;包括:
(ⅰ)对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
(ii)将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加,共4种操作,获得新的图像集合,记为I;
(iv)对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
(ⅴ)通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0dxc表示尺寸为e×f的全零矩阵;σ=3.0。
(ⅵ)获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,随机正交矩阵是由[0,1]上的均匀分布的随机数矩阵经过SVD(奇异值分解)分解所得;分别采用不同的卷积核对新的图像集合I的输入图像进行卷积,并分别依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
d、采用128个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,采用该卷积核对特征图集合进行卷积,并依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合Ig;
(3)用判别网络产生估计密度图:采用64个尺度为3×3、32个尺度为3×3、16个尺度为3×3、8个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化这些卷积核;对特征图集合Ig进行上采样处理,并分别采用不同的卷积核对上采样处理后的特征图集合Ig进行卷积,得到输出的图像即新的图像集合I的输入图像对应的估计密度图;
(4)用SE-Net提取注意力特征:
f、利用一个输入有16个神经单元,隐含层有1个神经单元,输出有16个神经单元的多层感知机在第二层,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到16维的特征向量
同时,利用一个输入有32个神经单元,隐含层有1个神经单元,输出有32个神经单元的多层感知机用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到32维的特征向量
同时,利用一个输入有64个神经单元,隐含层有1个神经单元,输出有64个神经单元的多层感知机用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到64维的特征向量
同时,利用一个输入有128个神经单元,隐含层有1个神经单元,输出有128个神经单元的多层感知机MLPg;用最小值为最大值为的均匀分布初始化多层感知机MLPg的权重矩阵并将偏置项初始化为0,并且经过线性整流(ReLU)激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机MLPg的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数(sigmoid)激活函数,得到128维的特征向量v′g;
(5)用注意力特征给特征图重新赋予权重;
将特征图集合Ig的每一幅图像的所有像素乘以特征向量v′g的对应分量;得到重新赋予权重之后的特征图集合为I′g;
(7)网络训练;
i、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
式(Ⅰ)中,Loss表示损失函数的值,λ1表示判别器产生的误差所占的权重,表示图像Ii经过生成器网络的输出,λ2表示生成器产生的误差所占的权重,表示经过判别器网络的输出,m表示训练集增广后的样本数量,即m=70400。Ii表示输入图像,ci表示图像中人的数量,Mi表示图像对应的密度图;ci表示主要监督信号,Mi表示次要监督信号;
j、生成器网络选择Adam优化算法,初始学习率为g_base_lr,判别网络选择RMSprop优化算法,初始学习率为d_base_lr,回归网络选择Adam优化算法,初始学习率为r_base_lr;g_base_lr的取值范围为0.000001~1,d_base_lr的取值范围为0.000001~1,r_base_lr的取值范围为0.000001~1;
①从训练集中随机采集m幅图像{I1,I2,…,Im};
②从训练集中随机采样m幅图像对应的密度图{M1,M2,…,Mm};
⑤从训练集中随机采集m幅图像{I1,I2,…,Im};
⑥从训练集中随机采样m幅图像对应的密度图{C1,C2,…,Cm};
⑨从训练集中随机采集m幅图像{I1,I2,…,Im};
⑩从训练集中随机采样m幅图像对应的人数标签{C1,C2,…,Cm};
B、测试过程:
利用步骤(7)所得的网络参数初始化网络,把测试图像作为网络的输入,网络直接输出图像中的人数。
实施例2
根据实施例1所述一种基于生成式对抗网络模型的人数估计方法,其区别在于:
步骤(ⅰ)中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块。该步骤仅对训练集有效,对测试集无效。
步骤(ii)中,将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240。
g_base_lr的取值为0.00001,d_base_lr的取值为0.0002,r_base_lr的取值为0.0001。
应用算法1训练生成式对抗网络模型。
本发明充分利用了生成式网络的隐含特征表示能力,并且应用了多任务学习技术,使模型的泛化能力更强;利用了注意力模型,使网络参数的调整更加关注影响准确率的特征;法采用交替训练和随机采样,避免了过拟合的发生。
本发明的效果可以通过实验进一步说明。表1比较了采用本发明与Zhang等人的方法、Daniel等人的方法和Han等人的方法在MALL测试集上的预测误差,表1中,“(用真实密度图计算)”是指:把真实密度图的像素和看作是对应图像中的真实人数。
表1
由表1可知,本发明的方法比其它四种方法更准确。
Claims (10)
1.一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述生成式对抗网络模型包括三个子网络,包括生成器网络判别网络回归网络生成器网络包括四个连续的卷积+批归一化+最大池化和一个卷积+批归一化;判别网络包括四个连续的上采样+卷积组成,在判别网络的输出得到密度图的估计值;回归网络是一个全连接网络;回归网络有四个不同的输入,包括:生成器网络经过第二个卷积+批归一化+最大池化之后的输出,生成器网络经过第三个卷积+批归一化+最大池化之后的输出,生成器网络经过第四个卷积+批归一化+最大池化之后的输出,生成器网络经过最后一个卷积+批归一化之后的输出;回归网络的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入,将这四个被重赋权重的输入输入到一个三层的全连接网络,得到人数的预测值;包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
(4)用SE-Net提取注意力特征:
(5)用注意力特征给特征图重新赋予权重;
(7)网络训练;
B、测试过程:
利用步骤(7)所得的网络参数初始化网络,把测试图像作为网络的输入,网络直接输出图像中的人数。
a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核,采用随机正交矩阵初始化所述卷积核,随机正交矩阵是由[0,1]上的均匀分布的随机数矩阵经过SVD分解所得;分别采用不同的卷积核对新的图像集合I的输入图像进行卷积,并分别依次进行批规范化处理、线性整流激活函数、最大池化,得到输出图像集合即特征图集合
4.根据权利要求2所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(4)中,用SE-Net提取注意力特征,包括步骤如下:
f、利用一个输入有16个神经单元,隐含层有1个神经单元,输出有16个神经单元的多层感知机在第二层,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过S函数激活函数,得到16维的特征向量
同时,利用一个输入有32个神经单元,隐含层有1个神经单元,输出有32个神经单元的多层感知机用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过一种常见的S函数激活函数,得到32维的特征向量
同时,利用一个输入有64个神经单元,隐含层有1个神经单元,输出有64个神经单元的多层感知机用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过线性整流激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机的权重矩阵并将偏置项初始化为0,并经过S函数激活函数,得到64维的特征向量
同时,利用一个输入有128个神经单元,隐含层有1个神经单元,输出有128个神经单元的多层感知机MLPg;用最小值为最大值为的均匀分布初始化多层感知机MLPg的权重矩阵并将偏置项初始化为0,并且经过线性整流激活函数;接着,用最小值为最大值为的均匀分布初始化多层感知机MLPg的权重矩阵并将偏置项初始化为0,并经过S函数激活函数,得到128维的特征向量v′g;
7.根据权利要求6所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(7)中,网络训练,包括步骤如下:
i、定义损失函数,即待优化的目标函数如式(II)所示:
式(II)中,Loss表示损失函数的值,λ1表示判别器产生的误差所占的权重,表示图像Ii经过生成器网络的输出,λ2表示生成器产生的误差所占的权重,表示经过判别器网络的输出,m表示训练集增广后的样本数量,Ii表示输入图像,ci表示图像中人的数量,Mi表示图像对应的密度图;
j、生成器网络选择Adam优化算法,初始学习率为g_base_lr,判别网络选择RMSprop优化算法,初始学习率为d_base_lr,回归网络选择Adam优化算法,初始学习率为r_base_lr;g_base_lr的取值范围为0.000001~1,d_base_lr的取值范围为0.000001~1,r_base_lr的取值范围为0.000001~1;
①从训练集中随机采集m幅图像{I1,I2,…,Im};
②从训练集中随机采样m幅图像对应的密度图{M1,M2,…,Mm};
⑤从训练集中随机采集m幅图像{I1,I2,…,Im};
⑥从训练集中随机采样m幅图像对应的密度图{C1,C2,…,Cm};
⑨从训练集中随机采集m幅图像{I1,I2,…,Im};
⑩从训练集中随机采样m幅图像对应的人数标签{C1,C2,…,Cm};
8.根据权利要求1所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,所述步骤(1),获取多尺度数据,包括:
(ⅰ)对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
(ⅱ)将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加,获得新的图像集合,记为I;
(ⅳ)对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
(v)通过式(Ⅰ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
式(Ⅰ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0e×f表示尺寸为e×f的全零矩阵;
(vi)获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数。
9.根据权利要求8所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,
所述步骤(ⅰ)中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块;
所述步骤(ⅱ)中,将图像数据库中的每一幅图像,以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240;σ=3.0。
10.根据权利要求7所述的一种基于生成式对抗网络模型的人数估计方法,其特征在于,g_base_lr的取值为0.00001,d_base_lr的取值为0.0002,r_base_lr的取值为0.0001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811415565.0A CN109522857B (zh) | 2018-11-26 | 2018-11-26 | 一种基于生成式对抗网络模型的人数估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811415565.0A CN109522857B (zh) | 2018-11-26 | 2018-11-26 | 一种基于生成式对抗网络模型的人数估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522857A CN109522857A (zh) | 2019-03-26 |
CN109522857B true CN109522857B (zh) | 2021-04-23 |
Family
ID=65793346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811415565.0A Active CN109522857B (zh) | 2018-11-26 | 2018-11-26 | 一种基于生成式对抗网络模型的人数估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522857B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446302A (zh) * | 2018-01-29 | 2018-08-24 | 东华大学 | 一种结合TensorFlow与Spark的个性化推荐系统 |
CN110008554B (zh) * | 2019-03-27 | 2022-10-18 | 哈尔滨工业大学 | 一种基于数值模拟和深度学习的搅拌摩擦焊缝成形预测的工艺参数、焊具结构优化方法 |
CN110097185B (zh) * | 2019-03-29 | 2021-03-23 | 北京大学 | 一种基于生成对抗网络的优化模型方法及应用 |
CN109978807B (zh) * | 2019-04-01 | 2020-07-14 | 西北工业大学 | 一种基于生成式对抗网络的阴影去除方法 |
CN110033043B (zh) * | 2019-04-16 | 2020-11-10 | 杭州电子科技大学 | 基于条件生成式对抗网络的雷达一维距离像拒判方法 |
CN110120020A (zh) * | 2019-04-30 | 2019-08-13 | 西北工业大学 | 一种基于多尺度空洞残差注意力网络的sar图像去噪方法 |
CN110335212B (zh) * | 2019-06-28 | 2021-01-15 | 西安理工大学 | 基于条件对抗网络的缺损古籍汉字修复方法 |
CN110705340B (zh) * | 2019-08-12 | 2023-12-26 | 广东石油化工学院 | 一种基于注意力神经网络场的人群计数方法 |
CN110503049B (zh) * | 2019-08-26 | 2022-05-03 | 重庆邮电大学 | 基于生成对抗网络的卫星视频车辆数目估计方法 |
CN111080501B (zh) * | 2019-12-06 | 2024-02-09 | 中国科学院大学 | 基于手机信令数据的真实人群密度时空分布估算方法 |
CN111429436B (zh) * | 2020-03-29 | 2022-03-15 | 西北工业大学 | 一种基于多尺度注意力和标签损失的本质图像分析方法 |
CN112326276B (zh) * | 2020-10-28 | 2021-07-16 | 北京航空航天大学 | 一种基于生成对抗网络的高铁转向系统故障检测lstm方法 |
CN112818945A (zh) * | 2021-03-08 | 2021-05-18 | 北方工业大学 | 适用于地铁车站人群计数的卷积网络构建方法 |
CN113421192B (zh) * | 2021-08-24 | 2021-11-19 | 北京金山云网络技术有限公司 | 对象统计模型的训练方法、目标对象的统计方法和装置 |
CN114972111B (zh) * | 2022-06-16 | 2023-01-10 | 慧之安信息技术股份有限公司 | 一种基于gan图像修复的密集人群计数方法 |
CN115357218A (zh) * | 2022-08-02 | 2022-11-18 | 北京航空航天大学 | 一种基于混沌预测对抗学习的高熵随机数生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423701A (zh) * | 2017-07-17 | 2017-12-01 | 北京智慧眼科技股份有限公司 | 基于生成式对抗网络的人脸非监督特征学习方法及装置 |
CN107451619A (zh) * | 2017-08-11 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种基于感知生成对抗网络的小目标检测方法 |
CN108764085A (zh) * | 2018-05-17 | 2018-11-06 | 上海交通大学 | 基于生成对抗网络的人群计数方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474881B2 (en) * | 2017-03-15 | 2019-11-12 | Nec Corporation | Video retrieval system based on larger pose face frontalization |
-
2018
- 2018-11-26 CN CN201811415565.0A patent/CN109522857B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423701A (zh) * | 2017-07-17 | 2017-12-01 | 北京智慧眼科技股份有限公司 | 基于生成式对抗网络的人脸非监督特征学习方法及装置 |
CN107451619A (zh) * | 2017-08-11 | 2017-12-08 | 深圳市唯特视科技有限公司 | 一种基于感知生成对抗网络的小目标检测方法 |
CN108764085A (zh) * | 2018-05-17 | 2018-11-06 | 上海交通大学 | 基于生成对抗网络的人群计数方法 |
Non-Patent Citations (2)
Title |
---|
Squeeze-and-Excitation Networks;Jie Hu et al;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20180623;第7132-7141页 * |
非重叠域行人再识别算法研究;何晴 等;《信息技术》;20180731(第7期);第34-38页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109522857A (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522857B (zh) | 一种基于生成式对抗网络模型的人数估计方法 | |
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
CN108717568B (zh) | 一种基于三维卷积神经网络的图像特征提取与训练方法 | |
CN110335261B (zh) | 一种基于时空循环注意力机制的ct淋巴结检测系统 | |
CN114429156B (zh) | 雷达干扰多域特征对抗学习与检测识别方法 | |
CN106295124B (zh) | 多种图像检测技术综合分析基因子图相似概率量的方法 | |
CN106295694B (zh) | 一种迭代重约束组稀疏表示分类的人脸识别方法 | |
CN112818764B (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN109190537A (zh) | 一种基于掩码感知深度强化学习的多人物姿态估计方法 | |
CN109145992A (zh) | 协作生成对抗网络和空谱联合的高光谱图像分类方法 | |
CN109002848B (zh) | 一种基于特征映射神经网络的弱小目标检测方法 | |
CN110728629A (zh) | 一种用于对抗攻击的图像集增强方法 | |
CN109919241B (zh) | 基于概率模型和深度学习的高光谱未知类别目标检测方法 | |
CN113780242A (zh) | 一种基于模型迁移学习的跨场景水声目标分类方法 | |
CN109598220A (zh) | 一种基于多元输入多尺度卷积的人数统计方法 | |
CN114241422A (zh) | 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法 | |
CN107729926A (zh) | 一种基于高维空间变换的数据扩增方法、机器识别系统 | |
CN114428234A (zh) | 基于gan和自注意力的雷达高分辨距离像降噪识别方法 | |
CN116482618B (zh) | 基于多损失特征自校准网络的雷达有源干扰识别方法 | |
CN115496720A (zh) | 基于ViT机制模型的胃肠癌病理图像分割方法及相关设备 | |
CN104778466A (zh) | 一种联合多种上下文线索的图像关注区域检测方法 | |
CN113435276A (zh) | 一种基于对抗残差网络的水声目标识别方法 | |
CN113344045A (zh) | 一种结合hog特征提高sar船只分类精度的方法 | |
CN109389101A (zh) | 一种基于去噪自编码网络的sar图像目标识别方法 | |
Yow et al. | Iris recognition system (IRS) using deep learning technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |