CN110516533B - 一种基于深度度量的行人再辨识方法 - Google Patents
一种基于深度度量的行人再辨识方法 Download PDFInfo
- Publication number
- CN110516533B CN110516533B CN201910626883.XA CN201910626883A CN110516533B CN 110516533 B CN110516533 B CN 110516533B CN 201910626883 A CN201910626883 A CN 201910626883A CN 110516533 B CN110516533 B CN 110516533B
- Authority
- CN
- China
- Prior art keywords
- network
- pedestrian
- image
- depth measurement
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005259 measurement Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011423 initialization method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 22
- 230000000007 visual effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 241000271897 Viperidae Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度度量的行人再辨识方法,包括以下步骤:1)将ImageNet数据集作为训练数据集,训练一个ResNet‑50网络,使其具有初始值;2)移除ResNet‑50网络的softmax层以及最后一个全连接层;3)使用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元;4)在调整后的ResNet‑50网络后连接深度度量网络,组成本发明最终的网络模型;5)对行人再辨识训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人,并为每个行人随机选择K张图像,组成小的训练批;6)使用5)中所得的训练数据通过最小化Hard Triplet Loss损失函数对4)中的网络进行优化,循环执行此步骤,直至损失值收敛;7)将待辨识行人图像和候选库中的图像输入到已优化的模型中,获取行人图像在同一个特征空间上的特征向量;8)计算特征向量间的欧氏距离,并对距离进行排序,最终获取待辨识行人图像和对比图像的匹配率。
Description
技术领域
本发明涉及监控视频智能分析领域,尤其是涉及一种基于深度度量的行人再辨识方法。
背景技术
行人再辨识是指在一个多摄像机组成的系统中,针对不同摄像机视角下的行人进行匹配的问题,涉及到特征选择、显著性提取、距离度量学习、深度学习等众多研究热点。行人再辨识技术对行人身份、跟踪等不同方面的分析提供了关键性帮助,并发展成为智能视频监控领域的关键组成部分。
行人再辨识领域中主要的方法可以分为以下两类:1)基于特征表示的行人再辨识方法;2)基于距离度量学习的方法。
前者旨在设计或学习对光照和视角等变化鲁棒的特征,该类型的方法通常会选用多种底层视觉特征进行组合,其中底层次特征通常为颜色(颜色空间、直方图,主颜色等)与纹理(LBP,Gabor,共生矩阵等)特征。例如:基于对称性的累积特征描述符,协方差描述符,基于水平条纹的划分描述符,金字塔匹配描述符,图形匹配,显著性匹配,深度学习模型等等。这些方法在一定程度上解决了光照、视角等问题,但其仅能提取底层视觉信息,且特征提取规则固定不变,特征的鲁棒性和适应性都有一定的局限性。
后者则专注于设计适合于行人再辨识的相似度度量模型。现有的距离度量模型主要分为非学习方法和学习方法两类。一阶距离、二阶距离、巴氏距离等都是非学习方法,这类方法通常在数学计算上都较为简单。然而,由于提取出的行人特征的冗余性、鲁棒性等问题的影响,辨识结果并不理想。而基于学习的度量方法,通常学习不同摄像机下相同行人与不同行人外观特征的鉴别信息,最优化样本之间的差异性和相似性,因此,辨识效果往往相对较好。这种方法主要包括RankSVM,相对距离比较,基于核方法的度量学习,马氏距离学习,深度度量学习以及度量集成等等。
总体来看,上述方法都将行人再辨识的过程分为两步:特征表示和距离度量,然后分别对两个步骤进行优化。这些将特征表示和度量割裂开来,而实际上距离度量效果和特征表示有紧密的联系,不可完全切割。
中国发明申请CN108171184A提出了一种基于Siamese网络的行人重识别方法,使用两个完全相同的ResNet-50网络构成一个Siamese网络,并用成对的训练数据对网络进行优化。该方法虽然采用了卷积神经网络来自动学习图像特征,但其训练时必须进行成对的输入,训练时间过长。进一步,由于光照变化、姿态、视角、遮挡、图像分辨率等各方面因素的影响,这使得在监控视频智能分析中行人再辨识性能依然不佳。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度度量的行人再辨识方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度度量的行人再辨识方法,包括以下步骤:
一、构建网络
1)预训练ResNet-50网络,
将ImageNet数据集作为训练数据集,训练一个ResNet-50网络,使其具有初始值;
2)调整步骤1)ResNet-50网络,移除ResNet-50网络中的softmax层以及最后一个全连接层;提供步骤4);
3)采用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元,该部分网络参数采用随机初始化方法;提供步骤4);
4)构建行人再辨识网络模型,
在步骤2)调整后的ResNet-50网络后连接步骤3)所述的深度度量网络,组成本发明最终的网络模型;
二、训练
5)预处理行人再辨识训练数据集,将训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人,并为每个行人随机选择K张图像,组成小的训练批;
6)训练网络模型,
通过最小化Hard Triplet Loss损失函数对步骤4)中最终构建的网络模型进行优化,使用步骤5)中所得的训练数据输入该优化的网络模型,循环执行此步骤,直至损失值收敛;
三、识别
7)进行行人再辨识,将待辨识行人图像和候选库中的图像分别输入到步骤6)已优化的网络模型中,获取行人图像在同一个特征空间上的特征向量;
8)计算待辨识图像与候选库中所有图像的相似度,即计算待辨识图像与候选库图像间特征向量的欧氏距离,其中特征向量由步骤7)获取。然后按照相似度从小到大的规则,对候选库中的图像进行排序,排位越靠前图像与待辨识图像越相似。其中相似指的是两张行人图像为同一行人的图像。排位第一的图像即为待辨识行人图像的同一行人图像。
进一步地,步骤1)所述的预训练ResNet-50网络,采用dropout或BatchNormalization方法对训练进行优化,使得ResNet-50网络具备图像特征提取能力。
进一步地,步骤2)所述的调整ResNet-50,是将ResNet-50网络的softmax层和最后一个全连接层删去,获得最终输出为2048维的向量。
进一步地,步骤3)所述的深度度量网络,
步骤3),为本发明关键的创新步骤,所述的深度度量网络模块为本发明的创新之一,其接入所述2048维特征向量,输出非线性投影后的欧式空间特征向量。所述深度度量网络结构具体为:
在一个由M个非线性全连接层构成的神经网络后,增加一个欧式距离计算层。其中第一个全连接层的深度为2048,各个层的参数初始化采用随机初始化的方法,计算公式如下:
进一步地,步骤4)所述的构建行人再辨识网络模型,具体如下:
将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接,即将ResNet-50网络的输出输入到深度度量网络中,构建本发明的行人再辨识网络模型。
进一步地,步骤6)所述的训练网络模型,具体指在步骤5)中生成的新训练集中,随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批,输入到网络中进行训练,损失函数采用Hard Triplet Loss,计算公式如下:
其中1≤m≤M,h(m)为深度度量网络中第m层的输出,为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数。表示深度度量网络中第m层的偏置向量。为深度度量网络中第m层的权重。r(m)为深度度量网络第m层的深度,且r(0)=2048。表示含有数量为r(m)的向量,且向量中每个元素为实数值。R为实数集。
63)计算损失函数值:
其中 表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出,P、K分别为Batch中不同行人的数量和每个行人图像的张数。X表示Batch的输入,σ为阈值,θ为网络的参数,为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数。df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量。
然后使用随机梯度下降法对损失函数求最优解,从而对相应参数更新优化。
进一步地,步骤7)所述的进行行人再辨识,具体指将待辨识行人图像和候选库中的图像输入到网络中,获得每张图像x的输出f(r(x)),其中x表示待辨识图像和候选库中的任意一张图像。
进一步地,步骤8)中,待辨识行人图像和对比图像之间的距离为:
df(r(x),r(y))=d(f(r(x)),f(r(y)))=||f(r(x))-f(r(y))||2
其中,x表示任意一张待辨识图像,y表示候选库中的任意一张图像。r(·)表示ResNet-50网络的输出。f(·)为深度度量网络参数化的非线性映射函数。df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量。其中r(x),r(y)分别为待辨识图像和对比图像的特征向量,f(r(x))、f(r(y))分别为待辨识图像和对比图像经过深度度量网络的非线性映射后得到的在同一个特征空间上的特征向量。df(r(x),r(y))表示待辨识图像x和候选库中任意一张图像y的深度度量距离。
上述技术方案,本发明将特征提取和度量学习融合在统一的框架中,使其能够在统一的目标下进行优化,提升了行人再辨识的准确率。
与现有技术相比,本发明具有以下优点:
一、利用在大型图像数据库上训练好的优秀网络模型,通过在行人再辨识数据库上进行微调,在提取图像特征时,不需要进行复杂的预处理操作,就能够通过网络模型自动学习图像的特征。
二、使用多层非线性前馈神经网络,学习一个潜在的非线性映射函数,将ResNet-50提取的图像特征映射到低维的特征空间中,并在该特征空间中计算映射后特征的欧氏距离,以此作为图像的相似度度量。相较于传统的马氏距离,深度度量可以捕获到数据点间的非线性关系;
三、将特征提取和度量学习融合在一个框架下,在统一的目标下进行优化,可以使得提取的特征更加适用于再辨识问题。
附图说明
图1为本发明方法的流程示意图。
图2为本发明系统结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,具体如图1和图2所示的流程图和结构图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,但并不限定本发明。
步骤一:预训练ResNet-50网络,将ImageNet数据集作为训练数据集,训练一个ResNet-50网络,使得ResNet-50网络的参数进行有效的初始化;有效的初始化指的是具备一定学习图像特征的能力;
步骤二:微调ResN-50网络,将ResNet-50网络的softmax层和最后一个全连接层删去,删减后网络的输出为2048维的向量;
步骤三:构建深度度量网络,本实施例采用2个非线性全连接层连接构成深度度量网络,并在输出后增加欧氏距离计算单元,这两层的全连接层的深度分别为512和128,激活函数采用tanh函数,网络参数采用随机初始化方法,具体公式如下:
其中1≤m≤2,r(0)=2048,r(1)=512,r(2)=128,两层网络的偏置初始化为零向量。
步骤四:构建行人再辨识网络模型,具体为:
将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接,即将ResNet-50网络的输出输入到深度度量网络中,构建本发明的行人再辨识网络模型。
步骤五:预处理行人再辨识训练数据集,将训练数据集中的所有图像进行随机裁剪,得到图像尺寸统一为225×225的训练数据集,将裁剪后得到的训练数据集顺序打乱,从中随机选择P=25位行人,并为每个行人随机选择其K=4张图像,构成小型的训练批;
步骤六:训练行人再辨识网络模型,使用步骤五中得到的训练数据,利用随机梯度下降法求解Hard Triplet Loss损失函数,对网络参数进行更新,循环执行此步骤,直至损失函数收敛,具体计算如下:
首先获取训练批中每个样本经过ResNet-50网络所提取到的特征 表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出。然后获取每个特征向量经过深度度量网络的输出,具体计算如下:
其中 表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出,P、K分别为Batch中不同行人的数量和每个行人图像的张数。X表示Batch的输入,σ为阈值,θ为网络的参数,为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数。表示和间的欧式距离。df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量。
然后使用随机梯度下降法对损失函数求最优解,从而对相应参数更新优化。
步骤七:进行行人再辨识,将待辨识图像与候选库中的图像输入到训练好的网络中,并提取深度度量网络最后一个全连接层的输出,得到行人图像在同一个特征空间上的特征向量。
步骤八:计算待辨识行人图像和候选库图像特征向量间的欧氏距离,并对距离进行排序,排名越靠前的图像即为与待辨识图像越是同一类的图像,同一类指的是同一行人的图像。
结合附图进一步介绍。
图1是本发明算法实现流程图,具体实施方式如下:
1、预训练ResNet-50网络,采用dropout或Batch Normalization方法对训练进行优化,使得ResNet-50网络具备图像特征提取的能力;
2、微调ResN-50网络,将ResNet-50网络的softmax层和最后一个全连接层删去,删减后网络的输出为2048维的向量;
3、采用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元,网络参数采用随机初始化方法,具体公式为:
4、构建行人再辨识网络模型,在调整后的ResNet-50网络后连接深度度量网络,组成本发明最终的网络模型,如图2所示;
5、预处理行人再辨识训练数据,将训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批;
6、训练网络模型,使用5)中所得的训练数据通过最小化Hard Triplet Loss损失函数对4)中的网络进行优化,循环执行此步骤,直至损失值收敛;
7、进行行人再辨识,将待辨识行人图像和候选库中的图像输入到已优化的模型中,获取行人图像在同一个特征空间上的特征向量;
8、计算待辨识样本特征向量同行人图像库特征向量的欧氏距离;
9、按照距离从小到大的顺序对候候选库中的图像进行排序,排位第1的图像即为与待辨识图像为同一行人的图像。
表1-表3为本发明实施例算法与其他算法运行后的性能比较。
表1本发明算法同其它算法在VIPeR行人再辨识公开数据集上性能比较
方法 | rank-1 | rank-10 | rank-20 |
Our | 56.34 | 90.25 | 98.45 |
DDML | 46.50 | 87.53 | 96.13 |
XQDA | 40.50 | 80.42 | 91.03 |
KISSME | 19.73 | 61.20 | 77.01 |
DML | 29.73 | 71.20 | 86.01 |
表2本发明算法同其它算法在Market-1501行人再辨识公开数据集上性能比较
方法 | rank-1 | mAP |
Our | 73.8 | 89.4 |
DDML | 32.6 | 57.4 |
DML | 29.4 | 53.7 |
Gated | 39.6 | 65.9 |
Pose | 56.0 | 79.3 |
Scalable | 68.8 | 82.2 |
表3本发明算法同其它算法在CUHK03行人再辨识公开数据集上性能比较
方法 | rank-1 | rank-5 | rank-10 |
Our | 75.5 | 90.6 | 98.4 |
DDML | 56.8 | 87.3 | 90.2 |
XQDA | 46.3 | 78.9 | 88.6 |
KISSME | 11.7 | 33.3 | 48.0 |
DML | 35.7 | 60.9 | 73.4 |
Re-ranking | 64.0 | 86.4 | 93.7 |
从三个常用的行人再辨识公开数据集上实验得到的结果可以看出本实施例的CMC曲线的rank-1值和mAP值都优于其它算法,这表明本实施例通过构建基于深度度量的网络模型以及引用困难样本选择的三重损失函数,可以取得不错的行人再辨识性能。
显然,上述实例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (7)
1.一种基于深度度量的行人再辨识方法,其特征在于,包括以下步骤:
一、构建网络
1)预训练ResNet-50网络,
将ImageNet数据集作为训练数据集,训练一个ResNet-50网络,使其具有初始值;
2)调整步骤1)ResNet-50网络,移除ResNet-50网络中的softmax层以及最后一个全连接层;提供给步骤4);
3)采用多个非线性全连接层构成深度度量网络,并在输出后增加欧氏距离计算单元,该部分网络参数采用随机初始化方法;提供步骤4);
步骤4)构建行人再辨识网络模型,具体如下:
将步骤2)中调整后的ResNet-50网络与步骤3)中获得的深度度量网络相连接,即将ResNet-50网络的输出输入到深度度量网络中,构建的行人再辨识网络模型;
二、训练
5)预处理行人再辨识训练数据集,将训练数据集中的图像进行随机剪裁,得到一组尺寸为224×224的训练数据集,从中随机选择P位不同的行人,并为每个行人随机选择K张图像,组成小的训练批;
6)训练网络模型,
通过最小化Hard Triplet Loss损失函数对步骤4)中最终构建的网络模型进行优化,使用步骤5)中所得的训练数据输入该优化的网络模型,循环执行此步骤,直至损失值收敛;
三、识别
7)进行行人再辨识,将待辨识行人图像和候选库中的图像分别输入到步骤6)已优化的网络模型中,获取行人图像在同一个特征空间上的特征向量;
8)计算待辨识图像与候选库中所有图像的相似度,即计算待辨识图像与候选库图像间特征向量的欧氏距离,其中特征向量由步骤7)获取;然后按照相似度从小到大的规则,对候选库中的图像进行排序,排位越靠前图像与待辨识图像越相似;其中相似指的是两张行人图像为同一行人的图像。
2.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤1)所述的预训练ResNet-50网络,采用dropout或Batch Normalization方法对训练进行优化,使得ResNet-50网络具备图像特征提取能力。
3.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤2)所述的调整ResNet-50,是将ResNet-50网络的softmax层和最后一个全连接层删去,获得最终输出为2048维的向量。
5.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤6)所述的训练网络模型,具体指在步骤5)中生成的新训练集中,随机选择P位不同的行人并为每个行人随机选择K张图像组成小的训练批,输入到网络中进行训练,损失函数采用HardTriplet Loss,计算公式如下:
其中1≤m≤M,h(m)为深度度量网络中第m层的输出,为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数;表示深度度量网络中第m层的偏置向量;为深度度量网络中第m层的权重;r(m)为深度度量网络第m层的深度,且r(0)=2048;表示含有数量为r(m)的向量,且向量中每个元素为实数值;R为实数集;
63)计算损失函数值:
其中 表示训练批中第i位行人的第a张图像,r(·)表示ResNet-50网络的输出,P、K分别为Batch中不同行人的数量和每个行人图像的张数;X表示Batch的输入,σ为阈值,θ为网络的参数,为非线性激活函数,f(·)为深度度量网络参数化的非线性映射函数;df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量;LBH(θ;X)为训练单批次的网络损失值;
然后使用随机梯度下降法对损失函数求最优解,从而对相应参数更新优化。
6.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤7)所述的进行行人再辨识,具体指将待辨识行人图像和候选库中的图像输入到网络中,获得每张图像x的输出f(r(x))。
7.根据权利要求1所述的一种基于深度度量的行人再辨识方法,其特征在于,步骤8)中,待辨识行人图像和对比图像之间的距离为:
df(r(x),r(y))=d(f(r(x)),f(r(y)))=||f(r(x))-f(r(y))||2
其中,x表示任意一张待辨识图像,y表示候选库中的任意一张图像;r(·)表示ResNet-50网络的输出;f(·)为深度度量网络参数化的非线性映射函数;
df(p1,p2)表示p1与p2间的深度度量距离,其中p1与p2均为向量;r(x),r(y)分别为待辨识图像和对比图像的特征向量,f(r(x))、f(r(y))分别为待辨识图像和对比图像经过深度度量网络的非线性映射后得到的在同一个特征空间上的特征向量,df(r(x),r(y))表示待辨识图像x和候选库中图像y之间的深度度量距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626883.XA CN110516533B (zh) | 2019-07-11 | 2019-07-11 | 一种基于深度度量的行人再辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626883.XA CN110516533B (zh) | 2019-07-11 | 2019-07-11 | 一种基于深度度量的行人再辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516533A CN110516533A (zh) | 2019-11-29 |
CN110516533B true CN110516533B (zh) | 2023-06-02 |
Family
ID=68622686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910626883.XA Active CN110516533B (zh) | 2019-07-11 | 2019-07-11 | 一种基于深度度量的行人再辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516533B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667050B (zh) * | 2020-04-21 | 2021-11-30 | 佳都科技集团股份有限公司 | 度量学习方法、装置、设备及存储介质 |
CN111786999B (zh) * | 2020-06-30 | 2023-03-24 | 中国电子科技集团公司电子科学研究院 | 一种入侵行为的检测方法、装置、设备和存储介质 |
CN111814705B (zh) * | 2020-07-14 | 2022-08-02 | 广西师范大学 | 一种基于批次分块遮挡网络的行人再辨识方法 |
CN112329833B (zh) * | 2020-10-28 | 2022-08-12 | 浙江大学 | 一种基于球面嵌入的图像度量学习方法 |
CN112686200A (zh) * | 2021-01-11 | 2021-04-20 | 中山大学 | 一种基于多方案并联关注机制的行人重识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416295A (zh) * | 2018-03-08 | 2018-08-17 | 天津师范大学 | 一种基于局部嵌入深度特征的行人再识别方法 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10699151B2 (en) * | 2016-06-03 | 2020-06-30 | Miovision Technologies Incorporated | System and method for performing saliency detection using deep active contours |
CN108009528B (zh) * | 2017-12-26 | 2020-04-07 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN108171184B (zh) * | 2018-01-03 | 2020-04-10 | 南京理工大学 | 基于Siamese网络的用于行人重识别的方法 |
US10685446B2 (en) * | 2018-01-12 | 2020-06-16 | Intel Corporation | Method and system of recurrent semantic segmentation for image processing |
CN108491884A (zh) * | 2018-03-27 | 2018-09-04 | 中山大学 | 基于轻量级网络的行人再识别系统及实现方法 |
CN108537181A (zh) * | 2018-04-13 | 2018-09-14 | 盐城师范学院 | 一种基于大间距深度度量学习的步态识别方法 |
CN108960127B (zh) * | 2018-06-29 | 2021-11-05 | 厦门大学 | 基于自适应深度度量学习的遮挡行人重识别方法 |
CN108960141B (zh) * | 2018-07-04 | 2021-04-23 | 国家新闻出版广电总局广播科学研究院 | 基于增强型深度卷积神经网络的行人再识别方法 |
CN109190446A (zh) * | 2018-07-06 | 2019-01-11 | 西北工业大学 | 基于三元组聚焦损失函数的行人再识别方法 |
CN109034035A (zh) * | 2018-07-18 | 2018-12-18 | 电子科技大学 | 基于显著性检测和特征融合的行人重识别方法 |
CN109446898B (zh) * | 2018-09-20 | 2021-10-15 | 暨南大学 | 一种基于迁移学习和特征融合的行人重识别方法 |
CN109711281B (zh) * | 2018-12-10 | 2023-05-02 | 复旦大学 | 一种基于深度学习的行人重识别与特征识别融合方法 |
CN109815908A (zh) * | 2019-01-25 | 2019-05-28 | 同济大学 | 一种基于深度学习和重叠图像块间度量的行人再辨识方法 |
CN109829414B (zh) * | 2019-01-25 | 2020-11-24 | 华南理工大学 | 一种基于标签不确定性和人体组件模型的行人再识别方法 |
CN109993070B (zh) * | 2019-03-13 | 2021-06-08 | 华南理工大学 | 一种基于全局距离尺度损失函数的行人再识别方法 |
-
2019
- 2019-07-11 CN CN201910626883.XA patent/CN110516533B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416295A (zh) * | 2018-03-08 | 2018-08-17 | 天津师范大学 | 一种基于局部嵌入深度特征的行人再识别方法 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
Non-Patent Citations (1)
Title |
---|
改进的单尺度Retinex和LBP结合的人脸识别;段红燕;何文思;李世杰;;计算机工程与应用(第23期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110516533A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN109961051B (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
CN111178432A (zh) | 多分支神经网络模型的弱监督细粒度图像分类方法 | |
CN104268593B (zh) | 一种小样本情况下多稀疏表示的人脸识别方法 | |
CN111126360A (zh) | 基于无监督联合多损失模型的跨域行人重识别方法 | |
CN109711366B (zh) | 一种基于群组信息损失函数的行人重识别方法 | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN108509854B (zh) | 一种基于投影矩阵约束结合判别字典学习的行人再识别方法 | |
CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
CN109447123B (zh) | 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN109543723B (zh) | 一种鲁棒的图像聚类方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN109544603B (zh) | 基于深度迁移学习的目标跟踪方法 | |
Wang et al. | Head pose estimation with combined 2D SIFT and 3D HOG features | |
CN107944459A (zh) | 一种rgb‑d物体识别方法 | |
CN108345866B (zh) | 一种基于深度特征学习的行人再识别方法 | |
CN111125397B (zh) | 一种基于卷积神经网络的布料图像检索方法 | |
CN110321801B (zh) | 一种基于自编码网络的换衣行人重识别方法及系统 | |
CN109840518B (zh) | 一种结合分类与域适应的视觉追踪方法 | |
CN104462818B (zh) | 一种基于Fisher准则的嵌入流形回归模型 | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN116740763A (zh) | 一种基于双注意力感知融合网络的跨模态行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |