CN109522857B

CN109522857B - 一种基于生成式对抗网络模型的人数估计方法

Info

Publication number: CN109522857B
Application number: CN201811415565.0A
Authority: CN
Inventors: 元辉; 贺黎恒
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-04-23
Anticipated expiration: 2038-11-26
Also published as: CN109522857A

Abstract

本发明涉及一种基于生成式对抗网络模型的人数估计方法，涉及深度学习中的特征自动提取技术和多元回归模型，充分利用了生成对抗式网络模型(GANs,Generative Adversarial Nets)特征表示能力，并且把指示局部人群密度的密度图充当第二监督信号，把图像中人的数量充当第一监督信号，用反向传播算法训练网络，然后用得到的网络参数初始化网络，就可以预测未知图像中人的数量，该方法不断降低了预测的误差，而且减少了训练阶段的时间消耗。

Description

一种基于生成式对抗网络模型的人数估计方法

技术领域

本发明涉及一种基于生成式对抗网络模型的人数估计方法，属于图像处理技术领域。

背景技术

由于受到光照变化、透视失真和嘈杂环境干扰(如背景是树林，或者反光很强的墙面)等因素的影响，一直以来，直接从图像中估计出人的数量是相当具有挑战性的。然而，近些年深度学习技术的觉醒使研究者和工程师们的项目大范围地利用和开发深度网络模型。虽然这些基于深度网络模型的人数自动估计方法，在自然场景下取得了相当好的成绩。

Zhang[1]等人提出了多列卷积网络,如图1所示。该方案提出了一种基于多列卷积神经网络的单张图像人群计数算法，其中的多列卷积神经网络有三个子网络，每个子网络的结构不同，并且每个子网络用到卷积核的大小不同，每个子网络的输入为同一张图像，在经过四次卷积和两次池化后，三个子网络输出的特征图在“通道”维度上链接在一起，再用一个1×1的核卷积得到人群的密度图。但是，该方案只在网络的高层链接在一起，在网络浅层的多尺度特征没有被充分融合，造成了几何特征丢失，影响了人数估计的精度；该方案在训练整个网络之前，需要先训练三个子网络，且每个子网络的训练时间不小于十个小时。

Daniel[2]等人提出了一种基于多尺度块的多分支卷积网络，如图2所示。该方案由三个不同的子网组成，虽然输入块有不同的尺度。但是，该方案的三个子网络的结构是一样的，并且这三个子网络只在网络的高层链接在一起，在网络浅层的多尺度特征没有被充分融合，造成了几何特征丢失，影响了人数估计的精度；该方案在训练整个网络之前，需要先训练三个子网络，且每个子网络的训练时间不小于十个小时。

Han[3]等人提出了基于残差网络(ResNet)和全连接网络相结合的方法，如图3所示。该方案首先从每张图像中有重叠地采样出若干个块，然后用残差网络计算出每个块的预测值，然后把这些块的预测值送到条件随机场计算图像中人数的预测值。但是，该方案必须先用残差网络计算出每个块的预测值，然后才能利用条件随机场预测出图像中的人数；也就是说，该方案是分步执行的，并且这两个步骤不能合并成一个步骤。

但是，通过实验发现，在训练这些网络的时候会花费很长的时间，随着网络结构的不断加深，训练时长也在不停地增加。像Han[3]等人这样的深层次的网络，网络结构很深，需要学习的参数数量很多，不仅训练花费的时间长而且有过拟合的危险；像Zhang[1]等人和Daniel[2]等人提出的方案，虽然没有Han[3]等人提出的方案网络结构深，但是增加了网络的宽度，并且每个子网络都需要事先预训练。

发明内容

针对现有基于深度网络模型的人数自动估计技术的不足，本发明提出了一种基于生成式对抗网络模型的人数估计方法；

为了减少网络参数，本发明提出的方案的卷积核尺寸大小至多不超过3；为了减少网络宽度，本发明只使用单列的网络结构；为了保证本发明提出的方案的性能，本发明给回归网络的输入赋予不同的权重以区分不同特征的重要程度。

本发明涉及深度学习中的特征自动提取技术和多元回归模型，充分利用了生成对抗式网络模型(GANs,Generative Adversarial Nets)的特征表示能力，并且把指示局部人群密度的密度图充当第二监督信号，把图像中人的数量充当第一监督信号，用反向传播算法训练网络，然后用得到的网络参数初始化网络，就可以预测未知图像中人的数量，该方法不断降低了预测的误差，而且减少了训练阶段的时间消耗。

术语解释：

1、批规范化(Batch Normalization)处理，包括如下四个步骤：求每一个训练批次数据的均值；求每一个训练批次数据的方差；使用求得的均值和方差对该批次的训练数据做规范化，即把该批次的每一个训练数据减去均值后再除以标准差；然后乘以尺度因子γ，再加上平移因子β。

2、线性整流(ReLU)激活函数，是指f(x)＝max(0,x)。

3、最大池化(即“下采样”)操作，是指对邻域内的特征点取最大。

4、S函数(sigmoid)激活函数，是指

5、RMSprop优化算法，首先，计算前t次的梯度平方的平均值；然后，用第t次的梯度除以前t次的梯度的平方的平均值，作为学习率的更新比例；最后，根据此比例去得到新的学习率。

6、Adam优化算法，是指根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。

本发明的技术方案为：

一种基于生成式对抗网络模型的人数估计方法，

所述生成式对抗网络模型包括三个子网络，包括生成器网络

判别网络

回归网络

生成器网络

包括四个连续的卷积+批归一化+最大池化和一个卷积+批归一化；

判别网络

包括四个连续的上采样+卷积组成，在判别网络

的输出得到密度图的估计值；

回归网络

是一个全连接网络；回归网络R有四个不同的输入，包括：生成器网络

经过第二个卷积+批归一化+最大池化之后的输出，生成器网络

经过第三个卷积+批归一化+最大池化之后的输出，生成器网络

经过第四个卷积+批归一化+最大池化之后的输出，生成器网络

经过最后一个卷积+批归一化之后的输出；回归网络

的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入，将这四个被重赋权重的输入输入到一个三层的全连接网络，得到了人数的预测值；

生成式对抗网络模型启发自博弈论中的二人零和博弈，包含一个生成模型(generative model)(生成器网络

)和一个判别模型(discriminative model)(判别网络

)。生成模型捕捉样本数据的分布，判别模型是一个二分类器，判别输入是真实数据还是生成的样本。这个模型的优化过程是一个“二元极小极大博弈(minimax two-playergame)”问题，训练时固定一方，更新另一个模型的参数，交替迭代。

包括步骤如下：

A、训练过程

(1)获取多尺度数据，多尺度数据是指多尺度数据训练集(I,M,C)，每个样本用(I_i,M_i,C_i)表示，即I_i表示图像i，M_i表示图像i的密度图，C_i表示图像i中的人数；

根据本发明优选的，所述步骤(1)，获取多尺度数据，包括：

(ⅰ)对图像数据库中的每一幅图像做随机裁剪，得到M个大小为a×b、N个大小为c×d的图像块，M取值范围是1-100，N的取值范围是1-100，a的取值范围是1-320，b的取值范围是1-240，c的取值范围是1-320，d的取值范围是1-240，a、b、c、d的单位为像素；

进一步优选的，所述步骤(ⅰ)中，对图像数据库中的每一幅图像做随机裁剪，得到5个大小为120×80、5个大小为150×100的图像块。

(ii)将图像数据库中的每一幅图像，以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f，e的取值范围是80-640，f的取值范围是60-480；

进一步优选的，所述步骤(ii)中，将图像数据库中的每一幅图像，以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240。

(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加，共4种操作，获得新的图像集合，记为I；

(iv)对新的图像集合I中的每一幅图像的人头位置进行标注，得到图像集合I的标注模板图集合，记为L，以及新的图像集合I中所有图像中人数的集合C；

(ⅴ)通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理，得到图像集合I的密度图集合，记为M：

式(Ⅱ)中，{(x_k,y_k),0≤k≤C_i}表示图像i中标记出的人的像素位置，C_i表示图像i中的人数，M_i(x,y)表示图像i对应的密度图，σ是标准差，i表示图像的编号，0_dxc表示尺寸为e×f的全零矩阵；

进一步优选的，σ＝3.0。

(ⅵ)获得多尺度数据训练集(I,M,C)，每个样本用(I_i,M_i,C_i)表示，即I_i表示图像i，M_i表示图像i的密度图，C_i表示图像i中的人数；

(2)用生成器网络

产生图像的特征图集合：

a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核，采用随机正交矩阵初始化所述卷积核，随机正交矩阵是由[0，1]上的均匀分布的随机数矩阵经过SVD(奇异值分解)分解所得；分别采用不同的卷积核对新的图像集合I的输入图像进行卷积，并分别依次进行批规范化处理、线性整流激活函数、最大池化，得到输出图像集合即特征图集合

b、采用32个尺度为3×3的矩阵作为卷积核，采用随机正交矩阵初始化所述卷积核，采用该卷积核对特征图集合

进行卷积，并依次进行批规范化处理、线性整流激活函数、最大池化，得到输出图像集合即特征图集合

c、采用64个尺度为3×3的矩阵作为卷积核，采用随机正交矩阵初始化所述卷积核，采用该卷积核对特征图集合

d、采用128个尺度为3×3的矩阵作为卷积核，采用随机正交矩阵初始化所述卷积核，采用该卷积核对特征图集合

进行卷积，并依次进行批规范化处理、线性整流激活函数、最大池化，得到输出图像集合即特征图集合I_g；

(3)用判别网络

产生估计密度图：

采用64个尺度为3×3、32个尺度为3×3、16个尺度为3×3、8个尺度为3×3的矩阵作为卷积核，采用随机正交矩阵初始化这些卷积核；对特征图集合I_g进行上采样处理，并分别采用不同的卷积核对上采样处理后的特征图集合I_g进行卷积，得到输出的图像

即新的图像集合I的输入图像对应的估计密度图；

(4)用SE-Net提取注意力特征：

e、用全局平均池化(global average pooling)处理

得到特征向量

用全局平均池化处理

得到特征向量

用全局平均池化处理

得到特征向量

用全局平均池化处理I_g，得到特征向量v_g；

f、利用一个输入有16个神经单元，隐含层有1个神经单元，输出有16个神经单元的多层感知机

在第二层，用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过线性整流(ReLU)激活函数；接着，用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过一种常见的S函数(sigmoid)激活函数，得到16维的特征向量

同时，利用一个输入有32个神经单元，隐含层有1个神经单元，输出有32个神经单元的多层感知机

用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过一种常见的S函数(sigmoid)激活函数，得到32维的特征向量

同时，利用一个输入有64个神经单元，隐含层有1个神经单元，输出有64个神经单元的多层感知机

用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过一种常见的S函数(sigmoid)激活函数，得到64维的特征向量

同时，利用一个输入有128个神经单元，隐含层有1个神经单元，输出有128个神经单元的多层感知机MLP_g；用最小值为

最大值为

的均匀分布初始化多层感知机MLP_g的权重矩阵

并将偏置项

初始化为0，并且经过线性整流(ReLU)激活函数；接着，用最小值为

最大值为

的均匀分布初始化多层感知机MLP_g的权重矩阵

并将偏置项

初始化为0，并经过一种常见的S函数(sigmoid)激活函数，得到128维的特征向量v′_g；

提取到的注意力特征包括：16维的特征向量

32维的特征向量

64维的特征向量

128维的特征向量v′_g；

(5)用注意力特征给特征图重新赋予权重；

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合I_g的每一幅图像的所有像素乘以特征向量v′_g的对应分量；得到重新赋予权重之后的特征图集合为I′_g；

(6)用回归网络R计算图像中人的数量；

g、利用一个输入有26400个神经单元，输出有1个神经单元的全连接层MLP_R，用最小值为

最大值为

的均匀分布初始化全连接层的权重矩阵W_R，并将偏置项b初始化为0；

h、用全连接层MLP_R同时处理

和I′_g，并经过线性整流(ReLU)激活函数，得到1维的标量

标量

就是图像中的人数；

(7)网络训练；

i、定义损失函数，即待优化的目标函数如式(Ⅰ)所示：

式(Ⅰ)中，Loss表示损失函数的值，λ₁表示判别器产生的误差所占的权重，

表示图像I_i经过生成器网络

的输出，λ₂表示生成器产生的误差所占的权重，

表示

经过判别器网络

的输出，m表示训练集增广后的样本数量，即m＝70400。I_i表示输入图像，c_i表示图像中人的数量，M_i表示图像对应的密度图；c_i表示主要监督信号，M_i表示次要监督信号；

j、生成器网络

选择Adam优化算法，初始学习率为g_base_lr，判别网络

选择RMSprop优化算法，初始学习率为d_base_lr，回归网络

选择Adam优化算法，初始学习率为r_base_lr；g_base_lr的取值范围为0.000001～1，d_base_lr的取值范围为0.000001～1，r_base_lr的取值范围为0.000001～1；

进一步优选的，g_base_lr的取值为0.00001，d_base_lr的取值为0.0002，r_base_lr的取值为0.0001。

k、执行以下步骤①至步骤

迭代m次，包括步骤如下：

①从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

②从训练集中随机采样m幅图像对应的密度图{M₁，M₂，…，M_m}；

③计算判别网络

的梯度：

是指判别网络

的训练误差相对判别网络

的参数θ_d的梯度；

④采用RMSprop优化算法更新判别网络

的参数；

⑤从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

⑥从训练集中随机采样m幅图像对应的密度图{C₁，C₂，…，C_m}；

⑦计算生成器网络

的梯度：

是指生成器网络

的训练误差相对于网络

的参数θ_g的梯度；

⑧采用Adam优化算法更新生成器网络

的参数；

⑨从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

⑩从训练集中随机采样m幅图像对应的人数标签{C₁，C₂，…，C_m}；

计算回归网络

的梯度：

是指回归网络

的训练误差相对于回归网络

的参数θ_r的梯度；

采用Adam优化算法更新回归网络

的参数；

B、测试过程：

利用步骤(7)所得的网络参数初始化网络，把测试图像作为网络的输入，网络直接输出图像中的人数。

本发明的有益效果为：

1.本发明提出了一种基于生成式对抗网络的特征提取算法，充分利用了生成式网络的隐含特征表示能力，并且应用了多任务学习技术，使模型的泛化能力更强；

2.本发明利用了注意力模型，使网络参数的调整更加关注影响准确率的特征；

3.本发明提出的对抗式回归模型的训练算法采用交替训练和随机采样，避免了过拟合的发生。

附图说明

图1是Zhang等人提出的多列卷积网络的架构图。

图2是Daniel等人提出的一种基于多尺度块的多分支卷积网络的架构图。

图3是Han等人提出的一种将残差网络(ResNet)、全连接网络和马尔可夫随机场相结合的架构图。

图4是本发明提出的一种基于生成式对抗网络模型的结构框图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于生成式对抗网络模型的人数估计方法，生成式对抗网络模型包括三个子网络，如图4所示，包括生成器网络

判别网络

回归网络

生成器网络

判别网络

包括四个连续的上采样+卷积组成，在判别网络

的输出得到密度图的估计值；

回归网络

是一个全连接网络；回归网络

有四个不同的输入，包括：生成器网络

经过最后一个卷积+批归一化之后的输出；回归网络

)和一个判别模型(discriminative model)(判别网络

包括步骤如下：

A、训练过程

(1)获取多尺度数据，多尺度数据是指多尺度数据训练集(I,M,C)，每个样本用(I_i,M_i,C_i)表示，即I_i表示图像i，M_i表示图像i的密度图，C_i表示图像i中的人数；包括：

式(Ⅱ)中，{(x_k,y_k),0≤k≤C_i}表示图像i中标记出的人的像素位置，C_i表示图像i中的人数，M_i(x,y)表示图像i对应的密度图，σ是标准差，i表示图像的编号，0_dxc表示尺寸为e×f的全零矩阵；σ＝3.0。

(2)用生成器网络

产生图像的特征图集合：

(3)用判别网络

产生估计密度图：采用64个尺度为3×3、32个尺度为3×3、16个尺度为3×3、8个尺度为3×3的矩阵作为卷积核，采用随机正交矩阵初始化这些卷积核；对特征图集合I_g进行上采样处理，并分别采用不同的卷积核对上采样处理后的特征图集合I_g进行卷积，得到输出的图像

即新的图像集合I的输入图像对应的估计密度图；

(4)用SE-Net提取注意力特征：

e、用全局平均池化(global average pooling)处理

得到特征向量

用全局平均池化处理

得到特征向量

用全局平均池化处理

得到特征向量

用全局平均池化处理I_g，得到特征向量v_g；

在第二层，用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

最大值为

的均匀分布初始化多层感知机MLP_g的权重矩阵

并将偏置项

最大值为

的均匀分布初始化多层感知机MLP_g的权重矩阵

并将偏置项

提取到的注意力特征包括：16维的特征向量

32维的特征向量

64维的特征向量

128维的特征向量v′_g；

(5)用注意力特征给特征图重新赋予权重；

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

(6)用回归网络

计算图像中人的数量；

最大值为

h、用全连接层MLP_R同时处理

和

并经过线性整流(ReLU)激活函数，得到1维的标量

标量

就是图像中的人数；

(7)网络训练；

i、定义损失函数，即待优化的目标函数如式(Ⅰ)所示：

表示图像I_i经过生成器网络

的输出，λ₂表示生成器产生的误差所占的权重，

表示

经过判别器网络

j、生成器网络

选择Adam优化算法，初始学习率为g_base_lr，判别网络

选择RMSprop优化算法，初始学习率为d_base_lr，回归网络

k、执行以下步骤①至步骤

迭代m次，包括步骤如下：

①从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

③计算判别网络

的梯度：

是指判别网络

的训练误差相对判别网络

的参数θ_d的梯度；

④采用RMSprop优化算法更新判别网络

的参数；

⑤从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

⑦计算生成器网络

的梯度：

是指生成器网络

的训练误差相对于网络

的参数θ_g的梯度；

⑧采用Adam优化算法更新生成器网络

的参数；

⑨从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

计算回归网络

的梯度：

是指回归网络

的训练误差相对于回归网络

的参数θ_r的梯度；

采用Adam优化算法更新回归网络

的参数；

B、测试过程：

实施例2

根据实施例1所述一种基于生成式对抗网络模型的人数估计方法，其区别在于：

步骤(ⅰ)中，对图像数据库中的每一幅图像做随机裁剪，得到5个大小为120×80、5个大小为150×100的图像块。该步骤仅对训练集有效，对测试集无效。

步骤(ii)中，将图像数据库中的每一幅图像，以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240。

g_base_lr的取值为0.00001，d_base_lr的取值为0.0002，r_base_lr的取值为0.0001。

应用算法1训练生成式对抗网络模型。

本发明充分利用了生成式网络的隐含特征表示能力，并且应用了多任务学习技术，使模型的泛化能力更强；利用了注意力模型，使网络参数的调整更加关注影响准确率的特征；法采用交替训练和随机采样，避免了过拟合的发生。

本发明的效果可以通过实验进一步说明。表1比较了采用本发明与Zhang等人的方法、Daniel等人的方法和Han等人的方法在MALL测试集上的预测误差，表1中，“(用真实密度图计算)”是指：把真实密度图的像素和看作是对应图像中的真实人数。

表1

由表1可知，本发明的方法比其它四种方法更准确。

Claims

1.一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述生成式对抗网络模型包括三个子网络，包括生成器网络

判别网络

回归网络

生成器网络

包括四个连续的卷积+批归一化+最大池化和一个卷积+批归一化；判别网络

包括四个连续的上采样+卷积组成，在判别网络

的输出得到密度图的估计值；回归网络

是一个全连接网络；回归网络

有四个不同的输入，包括：生成器网络

经过最后一个卷积+批归一化之后的输出；回归网络

的四个不同的输入分别经过不同的SE-Net之后得到四个被重赋权重的输入，将这四个被重赋权重的输入输入到一个三层的全连接网络，得到人数的预测值；包括步骤如下：

A、训练过程

(2)用生成器网络

产生图像的特征图集合：

(3)用判别网络

产生估计密度图：

(4)用SE-Net提取注意力特征：

(5)用注意力特征给特征图重新赋予权重；

(6)用回归网络

计算图像中人的数量；

(7)网络训练；

B、测试过程：

2.根据权利要求1所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述步骤(2)中，用生成器网络

产生图像的特征图集合，包括步骤如下：

a、采用8个尺度为3×3、16个尺度为3×3的矩阵作为卷积核，采用随机正交矩阵初始化所述卷积核，随机正交矩阵是由[0，1]上的均匀分布的随机数矩阵经过SVD分解所得；分别采用不同的卷积核对新的图像集合I的输入图像进行卷积，并分别依次进行批规范化处理、线性整流激活函数、最大池化，得到输出图像集合即特征图集合

进行卷积，并依次进行批规范化处理、线性整流激活函数、最大池化，得到输出图像集合即特征图集合I_g。

3.根据权利要求2所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述步骤(3)中，用判别网络

产生估计密度图，包括步骤如下：

即新的图像集合I的输入图像对应的估计密度图。

4.根据权利要求2所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述步骤(4)中，用SE-Net提取注意力特征，包括步骤如下：

e、用全局平均池化处理

得到特征向量

用全局平均池化处理

得到特征向量

用全局平均池化处理

得到特征向量

用全局平均池化处理I_g，得到特征向量v_g；

在第二层，用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过线性整流激活函数；接着，用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过S函数激活函数，得到16维的特征向量

用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过线性整流激活函数；接着，用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过一种常见的S函数激活函数，得到32维的特征向量

用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过线性整流激活函数；接着，用最小值为

最大值为

的均匀分布初始化多层感知机

的权重矩阵

并将偏置项

初始化为0，并经过S函数激活函数，得到64维的特征向量

最大值为

的均匀分布初始化多层感知机MLP_g的权重矩阵

并将偏置项

初始化为0，并且经过线性整流激活函数；接着，用最小值为

最大值为

的均匀分布初始化多层感知机MLP_g的权重矩阵

并将偏置项

初始化为0，并经过S函数激活函数，得到128维的特征向量v′_g；

提取到的注意力特征包括：16维的特征向量

32维的特征向量

64维的特征向量

128维的特征向量v′_g。

5.根据权利要求4所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述步骤(5)中，用注意力特征给特征图重新赋予权重，包括步骤如下：

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合

的每一幅图像的所有像素乘以特征向量

的对应分量；得到重新赋予权重之后的特征图集合为

将特征图集合I_g的每一幅图像的所有像素乘以特征向量v′_g的对应分量；得到重新赋予权重之后的特征图集合为I′_g。

6.根据权利要求5所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述步骤(6)中，用回归网络

计算图像中人的数量，包括步骤如下：

最大值为

h、用全连接层MLP_R同时处理

和I′_g，并经过线性整流激活函数，得到1维的标量

标量

就是图像中的人数。

7.根据权利要求6所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述步骤(7)中，网络训练，包括步骤如下：

i、定义损失函数，即待优化的目标函数如式(II)所示：

式(II)中，Loss表示损失函数的值，λ₁表示判别器产生的误差所占的权重，

表示图像I_i经过生成器网络

的输出，λ₂表示生成器产生的误差所占的权重，

表示

经过判别器网络

的输出，m表示训练集增广后的样本数量，I_i表示输入图像，c_i表示图像中人的数量，M_i表示图像对应的密度图；

j、生成器网络

选择Adam优化算法，初始学习率为g_base_lr，判别网络

选择RMSprop优化算法，初始学习率为d_base_lr，回归网络

k、执行以下步骤①至步骤

迭代m次，包括步骤如下：

①从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

③计算判别网络

的梯度：

是指判别网络

的训练误差相对判别网络

的参数θ_d的梯度；

④采用RMSprop优化算法更新判别网络

的参数；

⑤从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

⑦计算生成器网络

的梯度：

是指生成器网络

的训练误差相对于网络

的参数θ_g的梯度；

⑧采用Adam优化算法更新生成器网络

的参数；

⑨从训练集中随机采集m幅图像{I₁，I₂，…，I_m}；

计算回归网络

的梯度：

是指回归网络

的训练误差相对于回归网络

的参数θ_r的梯度；

采用Adam优化算法更新回归网络

的参数。

8.根据权利要求1所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，所述步骤(1)，获取多尺度数据，包括：

(ⅱ)将图像数据库中的每一幅图像，以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为e×f，e的取值范围是80-640，f的取值范围是60-480；

(ⅲ)将图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加，获得新的图像集合，记为I；

(ⅳ)对新的图像集合I中的每一幅图像的人头位置进行标注，得到图像集合I的标注模板图集合，记为L，以及新的图像集合I中所有图像中人数的集合C；

(v)通过式(Ⅰ)对标注模板集合L中每一幅图像进行处理，得到图像集合I的密度图集合，记为M：

式(Ⅰ)中，{(x_k,y_k),0≤k≤C_i}表示图像i中标记出的人的像素位置，C_i表示图像i中的人数，M_i(x,y)表示图像i对应的密度图，σ是标准差，i表示图像的编号，0_e×f表示尺寸为e×f的全零矩阵；

(vi)获得多尺度数据训练集(I,M,C)，每个样本用(I_i,M_i,C_i)表示，即I_i表示图像i，M_i表示图像i的密度图，C_i表示图像i中的人数。

9.根据权利要求8所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，

所述步骤(ⅰ)中，对图像数据库中的每一幅图像做随机裁剪，得到5个大小为120×80、5个大小为150×100的图像块；

所述步骤(ⅱ)中，将图像数据库中的每一幅图像，以及步骤(ⅰ)随机截取的每个图像块的分辨率调整为320×240；σ＝3.0。

10.根据权利要求7所述的一种基于生成式对抗网络模型的人数估计方法，其特征在于，g_base_lr的取值为0.00001，d_base_lr的取值为0.0002，r_base_lr的取值为0.0001。