CN110516533B

CN110516533B - 一种基于深度度量的行人再辨识方法

Info

Publication number: CN110516533B
Application number: CN201910626883.XA
Authority: CN
Inventors: 苗夺谦; 王倩倩
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2023-06-02
Anticipated expiration: 2039-07-11
Also published as: CN110516533A

Abstract

本发明涉及一种基于深度度量的行人再辨识方法，包括以下步骤：1)将ImageNet数据集作为训练数据集，训练一个ResNet‑50网络，使其具有初始值；2)移除ResNet‑50网络的softmax层以及最后一个全连接层；3)使用多个非线性全连接层构成深度度量网络，并在输出后增加欧氏距离计算单元；4)在调整后的ResNet‑50网络后连接深度度量网络，组成本发明最终的网络模型；5)对行人再辨识训练数据集中的图像进行随机剪裁，得到一组尺寸为224×224的训练数据集，从中随机选择P位不同的行人，并为每个行人随机选择K张图像，组成小的训练批；6)使用5)中所得的训练数据通过最小化Hard Triplet Loss损失函数对4)中的网络进行优化，循环执行此步骤，直至损失值收敛；7)将待辨识行人图像和候选库中的图像输入到已优化的模型中，获取行人图像在同一个特征空间上的特征向量；8)计算特征向量间的欧氏距离，并对距离进行排序，最终获取待辨识行人图像和对比图像的匹配率。

Description

一种基于深度度量的行人再辨识方法

技术领域

本发明涉及监控视频智能分析领域，尤其是涉及一种基于深度度量的行人再辨识方法。

背景技术

行人再辨识是指在一个多摄像机组成的系统中，针对不同摄像机视角下的行人进行匹配的问题，涉及到特征选择、显著性提取、距离度量学习、深度学习等众多研究热点。行人再辨识技术对行人身份、跟踪等不同方面的分析提供了关键性帮助，并发展成为智能视频监控领域的关键组成部分。

行人再辨识领域中主要的方法可以分为以下两类：1)基于特征表示的行人再辨识方法；2)基于距离度量学习的方法。

前者旨在设计或学习对光照和视角等变化鲁棒的特征，该类型的方法通常会选用多种底层视觉特征进行组合，其中底层次特征通常为颜色(颜色空间、直方图，主颜色等)与纹理(LBP，Gabor，共生矩阵等)特征。例如：基于对称性的累积特征描述符，协方差描述符，基于水平条纹的划分描述符，金字塔匹配描述符，图形匹配，显著性匹配，深度学习模型等等。这些方法在一定程度上解决了光照、视角等问题，但其仅能提取底层视觉信息，且特征提取规则固定不变，特征的鲁棒性和适应性都有一定的局限性。

后者则专注于设计适合于行人再辨识的相似度度量模型。现有的距离度量模型主要分为非学习方法和学习方法两类。一阶距离、二阶距离、巴氏距离等都是非学习方法，这类方法通常在数学计算上都较为简单。然而，由于提取出的行人特征的冗余性、鲁棒性等问题的影响，辨识结果并不理想。而基于学习的度量方法，通常学习不同摄像机下相同行人与不同行人外观特征的鉴别信息，最优化样本之间的差异性和相似性，因此，辨识效果往往相对较好。这种方法主要包括RankSVM，相对距离比较，基于核方法的度量学习，马氏距离学习，深度度量学习以及度量集成等等。

总体来看，上述方法都将行人再辨识的过程分为两步：特征表示和距离度量，然后分别对两个步骤进行优化。这些将特征表示和度量割裂开来，而实际上距离度量效果和特征表示有紧密的联系，不可完全切割。

中国发明申请CN108171184A提出了一种基于Siamese网络的行人重识别方法，使用两个完全相同的ResNet-50网络构成一个Siamese网络，并用成对的训练数据对网络进行优化。该方法虽然采用了卷积神经网络来自动学习图像特征，但其训练时必须进行成对的输入，训练时间过长。进一步，由于光照变化、姿态、视角、遮挡、图像分辨率等各方面因素的影响，这使得在监控视频智能分析中行人再辨识性能依然不佳。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度度量的行人再辨识方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度度量的行人再辨识方法，包括以下步骤：

一、构建网络

1)预训练ResNet-50网络，

将ImageNet数据集作为训练数据集，训练一个ResNet-50网络，使其具有初始值；

2)调整步骤1)ResNet-50网络，移除ResNet-50网络中的softmax层以及最后一个全连接层；提供步骤4)；

3)采用多个非线性全连接层构成深度度量网络，并在输出后增加欧氏距离计算单元，该部分网络参数采用随机初始化方法；提供步骤4)；

4)构建行人再辨识网络模型，

在步骤2)调整后的ResNet-50网络后连接步骤3)所述的深度度量网络，组成本发明最终的网络模型；

二、训练

5)预处理行人再辨识训练数据集，将训练数据集中的图像进行随机剪裁，得到一组尺寸为224×224的训练数据集，从中随机选择P位不同的行人，并为每个行人随机选择K张图像，组成小的训练批；

6)训练网络模型，

通过最小化Hard Triplet Loss损失函数对步骤4)中最终构建的网络模型进行优化，使用步骤5)中所得的训练数据输入该优化的网络模型，循环执行此步骤，直至损失值收敛；

三、识别

7)进行行人再辨识，将待辨识行人图像和候选库中的图像分别输入到步骤6)已优化的网络模型中，获取行人图像在同一个特征空间上的特征向量；

8)计算待辨识图像与候选库中所有图像的相似度，即计算待辨识图像与候选库图像间特征向量的欧氏距离，其中特征向量由步骤7)获取。然后按照相似度从小到大的规则，对候选库中的图像进行排序，排位越靠前图像与待辨识图像越相似。其中相似指的是两张行人图像为同一行人的图像。排位第一的图像即为待辨识行人图像的同一行人图像。

进一步地，步骤1)所述的预训练ResNet-50网络，采用dropout或BatchNormalization方法对训练进行优化，使得ResNet-50网络具备图像特征提取能力。

进一步地，步骤2)所述的调整ResNet-50，是将ResNet-50网络的softmax层和最后一个全连接层删去，获得最终输出为2048维的向量。

进一步地，步骤3)所述的深度度量网络，

步骤3)，为本发明关键的创新步骤，所述的深度度量网络模块为本发明的创新之一，其接入所述2048维特征向量，输出非线性投影后的欧式空间特征向量。所述深度度量网络结构具体为：

在一个由M个非线性全连接层构成的神经网络后，增加一个欧式距离计算层。其中第一个全连接层的深度为2048，各个层的参数初始化采用随机初始化的方法，计算公式如下：

其中1≤m≤M，r^(m)为第m层的深度，且r⁽⁰⁾＝2048，

是第m层的权重，每层的偏置

初始化为零向量，M为深度度量网络中全连接层的总层数，为超参数。

进一步地，步骤4)所述的构建行人再辨识网络模型，具体如下：

将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接，即将ResNet-50网络的输出输入到深度度量网络中，构建本发明的行人再辨识网络模型。

进一步地，步骤6)所述的训练网络模型，具体指在步骤5)中生成的新训练集中，随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批，输入到网络中进行训练，损失函数采用Hard Triplet Loss，计算公式如下：

61)获取训练批中每个样本经过ResNet-50网络所提取到的特征

(1≤i≤P,1≤a≤K)，

表示训练批中第i位行人的第a张图像，r(·)表示ResNet-50网络的输出。

62)获取每个特征向量

经过深度度量网络的输出，具体计算如下：

其中1≤m≤M，h^(m)为深度度量网络中第m层的输出，

为非线性激活函数，f(·)为深度度量网络参数化的非线性映射函数。

表示深度度量网络中第m层的偏置向量。

为深度度量网络中第m层的权重。r^(m)为深度度量网络第m层的深度，且r⁽⁰⁾＝2048。

表示含有数量为r^(m)的向量，且向量中每个元素为实数值。R为实数集。

63)计算损失函数值：

其中

表示训练批中第i位行人的第a张图像，r(·)表示ResNet-50网络的输出，P、K分别为Batch中不同行人的数量和每个行人图像的张数。X表示Batch的输入，σ为阈值，θ为网络的参数，

为非线性激活函数，f(·)为深度度量网络参数化的非线性映射函数。d_f(p₁,p₂)表示p₁与p₂间的深度度量距离，其中p₁与p₂均为向量。

然后使用随机梯度下降法对损失函数求最优解，从而对相应参数更新优化。

进一步地，步骤7)所述的进行行人再辨识，具体指将待辨识行人图像和候选库中的图像输入到网络中，获得每张图像x的输出f(r(x))，其中x表示待辨识图像和候选库中的任意一张图像。

进一步地，步骤8)中，待辨识行人图像和对比图像之间的距离为：

d_f(r(x),r(y))＝d(f(r(x)),f(r(y)))＝||f(r(x))-f(r(y))||₂

其中，x表示任意一张待辨识图像，y表示候选库中的任意一张图像。r(·)表示ResNet-50网络的输出。f(·)为深度度量网络参数化的非线性映射函数。d_f(p₁,p₂)表示p₁与p₂间的深度度量距离，其中p₁与p₂均为向量。其中r(x)，r(y)分别为待辨识图像和对比图像的特征向量，f(r(x))、f(r(y))分别为待辨识图像和对比图像经过深度度量网络的非线性映射后得到的在同一个特征空间上的特征向量。d_f(r(x),r(y))表示待辨识图像x和候选库中任意一张图像y的深度度量距离。

上述技术方案，本发明将特征提取和度量学习融合在统一的框架中，使其能够在统一的目标下进行优化，提升了行人再辨识的准确率。

与现有技术相比，本发明具有以下优点：

一、利用在大型图像数据库上训练好的优秀网络模型，通过在行人再辨识数据库上进行微调，在提取图像特征时，不需要进行复杂的预处理操作，就能够通过网络模型自动学习图像的特征。

二、使用多层非线性前馈神经网络，学习一个潜在的非线性映射函数，将ResNet-50提取的图像特征映射到低维的特征空间中，并在该特征空间中计算映射后特征的欧氏距离，以此作为图像的相似度度量。相较于传统的马氏距离，深度度量可以捕获到数据点间的非线性关系；

三、将特征提取和度量学习融合在一个框架下，在统一的目标下进行优化，可以使得提取的特征更加适用于再辨识问题。

附图说明

图1为本发明方法的流程示意图。

图2为本发明系统结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，具体如图1和图2所示的流程图和结构图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，但并不限定本发明。

步骤一：预训练ResNet-50网络，将ImageNet数据集作为训练数据集，训练一个ResNet-50网络，使得ResNet-50网络的参数进行有效的初始化；有效的初始化指的是具备一定学习图像特征的能力；

步骤二：微调ResN-50网络，将ResNet-50网络的softmax层和最后一个全连接层删去，删减后网络的输出为2048维的向量；

步骤三：构建深度度量网络，本实施例采用2个非线性全连接层连接构成深度度量网络，并在输出后增加欧氏距离计算单元，这两层的全连接层的深度分别为512和128，激活函数采用tanh函数，网络参数采用随机初始化方法，具体公式如下：

其中1≤m≤2，r⁽⁰⁾＝2048，r⁽¹⁾＝512，r⁽²⁾＝128，两层网络的偏置初始化为零向量。

步骤四：构建行人再辨识网络模型，具体为：

步骤五：预处理行人再辨识训练数据集，将训练数据集中的所有图像进行随机裁剪，得到图像尺寸统一为225×225的训练数据集，将裁剪后得到的训练数据集顺序打乱，从中随机选择P＝25位行人，并为每个行人随机选择其K＝4张图像，构成小型的训练批；

步骤六：训练行人再辨识网络模型，使用步骤五中得到的训练数据，利用随机梯度下降法求解Hard Triplet Loss损失函数，对网络参数进行更新，循环执行此步骤，直至损失函数收敛，具体计算如下：

首先获取训练批中每个样本经过ResNet-50网络所提取到的特征

表示训练批中第i位行人的第a张图像，r(·)表示ResNet-50网络的输出。然后获取每个特征向量

经过深度度量网络的输出，具体计算如下：

其中1≤m≤M，h^(m)为深度度量网络中第m层的输出，

为非线性激活函数，f(·)为深度度量网络参数化的非线性映射函数。最后计算损失函数值：

其中

表示

和

间的欧式距离。d_f(p₁,p₂)表示p₁与p₂间的深度度量距离，其中p₁与p₂均为向量。

步骤七：进行行人再辨识，将待辨识图像与候选库中的图像输入到训练好的网络中，并提取深度度量网络最后一个全连接层的输出，得到行人图像在同一个特征空间上的特征向量。

步骤八：计算待辨识行人图像和候选库图像特征向量间的欧氏距离，并对距离进行排序，排名越靠前的图像即为与待辨识图像越是同一类的图像，同一类指的是同一行人的图像。

结合附图进一步介绍。

图1是本发明算法实现流程图，具体实施方式如下：

1、预训练ResNet-50网络，采用dropout或Batch Normalization方法对训练进行优化，使得ResNet-50网络具备图像特征提取的能力；

2、微调ResN-50网络，将ResNet-50网络的softmax层和最后一个全连接层删去，删减后网络的输出为2048维的向量；

3、采用多个非线性全连接层构成深度度量网络，并在输出后增加欧氏距离计算单元，网络参数采用随机初始化方法，具体公式为：

其中1≤m≤M，r^(m)为第m层的深度，且r⁽⁰⁾＝2048，

是第m层的权重，每层的偏置b^(m)∈R^r(m)初始化为零向量。

4、构建行人再辨识网络模型，在调整后的ResNet-50网络后连接深度度量网络，组成本发明最终的网络模型，如图2所示；

5、预处理行人再辨识训练数据，将训练数据集中的图像进行随机剪裁，得到一组尺寸为224×224的训练数据集，从中随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批；

6、训练网络模型，使用5)中所得的训练数据通过最小化Hard Triplet Loss损失函数对4)中的网络进行优化，循环执行此步骤，直至损失值收敛；

7、进行行人再辨识，将待辨识行人图像和候选库中的图像输入到已优化的模型中，获取行人图像在同一个特征空间上的特征向量；

8、计算待辨识样本特征向量同行人图像库特征向量的欧氏距离；

9、按照距离从小到大的顺序对候候选库中的图像进行排序，排位第1的图像即为与待辨识图像为同一行人的图像。

表1-表3为本发明实施例算法与其他算法运行后的性能比较。

表1本发明算法同其它算法在VIPeR行人再辨识公开数据集上性能比较

方法	rank-1	rank-10	rank-20
				Our	56.34	90.25	98.45
DDML	46.50	87.53	96.13
				XQDA	40.50	80.42	91.03
KISSME	19.73	61.20	77.01
				DML	29.73	71.20	86.01

表2本发明算法同其它算法在Market-1501行人再辨识公开数据集上性能比较

方法	rank-1	mAP
			Our	73.8	89.4
DDML	32.6	57.4
			DML	29.4	53.7
Gated	39.6	65.9
			Pose	56.0	79.3
Scalable	68.8	82.2

表3本发明算法同其它算法在CUHK03行人再辨识公开数据集上性能比较

方法	rank-1	rank-5	rank-10
				Our	75.5	90.6	98.4
DDML	56.8	87.3	90.2
				XQDA	46.3	78.9	88.6
KISSME	11.7	33.3	48.0
				DML	35.7	60.9	73.4
Re-ranking	64.0	86.4	93.7

从三个常用的行人再辨识公开数据集上实验得到的结果可以看出本实施例的CMC曲线的rank-1值和mAP值都优于其它算法，这表明本实施例通过构建基于深度度量的网络模型以及引用困难样本选择的三重损失函数，可以取得不错的行人再辨识性能。

显然，上述实例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于深度度量的行人再辨识方法，其特征在于，包括以下步骤：

一、构建网络

1)预训练ResNet-50网络，

2)调整步骤1)ResNet-50网络，移除ResNet-50网络中的softmax层以及最后一个全连接层；提供给步骤4)；

步骤4)构建行人再辨识网络模型，具体如下：

将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接，即将ResNet-50网络的输出输入到深度度量网络中，构建的行人再辨识网络模型；

二、训练

6)训练网络模型，

三、识别

8)计算待辨识图像与候选库中所有图像的相似度，即计算待辨识图像与候选库图像间特征向量的欧氏距离，其中特征向量由步骤7)获取；然后按照相似度从小到大的规则，对候选库中的图像进行排序，排位越靠前图像与待辨识图像越相似；其中相似指的是两张行人图像为同一行人的图像。

2.根据权利要求1所述的一种基于深度度量的行人再辨识方法，其特征在于，步骤1)所述的预训练ResNet-50网络，采用dropout或Batch Normalization方法对训练进行优化，使得ResNet-50网络具备图像特征提取能力。

3.根据权利要求1所述的一种基于深度度量的行人再辨识方法，其特征在于，步骤2)所述的调整ResNet-50，是将ResNet-50网络的softmax层和最后一个全连接层删去，获得最终输出为2048维的向量。

4.根据权利要求3所述的一种基于深度度量的行人再辨识方法，其特征在于，步骤3)所述的深度度量网络其接入所述的2048维特征向量，输出非线性投影后的欧式空间特征向量；所述深度度量网络结构具体为：

在一个由M个非线性全连接层构成的神经网络后，增加一个欧式距离计算层；其中第一个全连接层的深度为2048，各个层的参数初始化采用随机初始化的方法，计算公式如下：

其中1≤m≤M，r^(m)为第m层的深度，且r⁽⁰⁾＝2048，

是第m层的权重，每层的偏置

5.根据权利要求1所述的一种基于深度度量的行人再辨识方法，其特征在于，步骤6)所述的训练网络模型，具体指在步骤5)中生成的新训练集中，随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批，输入到网络中进行训练，损失函数采用HardTriplet Loss，计算公式如下：

61)获取训练批中每个样本经过ResNet-50网络所提取到的特征

表示训练批中第i位行人的第a张图像，r(·)表示ResNet-50网络的输出；

62)获取每个特征向量

经过深度度量网络的输出，具体计算如下：

其中1≤m≤M，h^(m)为深度度量网络中第m层的输出，

为非线性激活函数，f(·)为深度度量网络参数化的非线性映射函数；

表示深度度量网络中第m层的偏置向量；

为深度度量网络中第m层的权重；r^(m)为深度度量网络第m层的深度，且r⁽⁰⁾＝2048；

表示含有数量为r^(m)的向量，且向量中每个元素为实数值；R为实数集；

63)计算损失函数值：

其中

表示训练批中第i位行人的第a张图像，r(·)表示ResNet-50网络的输出，P、K分别为Batch中不同行人的数量和每个行人图像的张数；X表示Batch的输入，σ为阈值，θ为网络的参数，

为非线性激活函数，f(·)为深度度量网络参数化的非线性映射函数；d_f(p₁,p₂)表示p₁与p₂间的深度度量距离，其中p₁与p₂均为向量；L_BH(θ；X)为训练单批次的网络损失值；

6.根据权利要求1所述的一种基于深度度量的行人再辨识方法，其特征在于，步骤7)所述的进行行人再辨识，具体指将待辨识行人图像和候选库中的图像输入到网络中，获得每张图像x的输出f(r(x))。

7.根据权利要求1所述的一种基于深度度量的行人再辨识方法，其特征在于，步骤8)中，待辨识行人图像和对比图像之间的距离为：

d_f(r(x),r(y))＝d(f(r(x)),f(r(y)))＝||f(r(x))-f(r(y))||₂

其中，x表示任意一张待辨识图像，y表示候选库中的任意一张图像；r(·)表示ResNet-50网络的输出；f(·)为深度度量网络参数化的非线性映射函数；

d_f(p₁,p₂)表示p₁与p₂间的深度度量距离，其中p₁与p₂均为向量；r(x)，r(y)分别为待辨识图像和对比图像的特征向量，f(r(x))、f(r(y))分别为待辨识图像和对比图像经过深度度量网络的非线性映射后得到的在同一个特征空间上的特征向量，d_f(r(x),r(y))表示待辨识图像x和候选库中图像y之间的深度度量距离。