CN107301376B

CN107301376B - 一种基于深度学习多层刺激的行人检测方法

Info

Publication number: CN107301376B
Application number: CN201710385952.3A
Authority: CN
Inventors: 李玺; 李健
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2021-04-13
Anticipated expiration: 2037-05-26
Also published as: CN107301376A

Abstract

本发明公开了一种基于深度学习多层刺激的行人检测方法，用于在给定视频监控和需检测的目标后，标出目标在视频里出现的位置。具体包括如下步骤：获取用于训练目标检测模型的行人数据集，并定义算法目标；对行人目标的位置偏差和表观语义进行建模；根据步骤S2中的建模结果建立行人多层刺激网络模型；使用所述检测模型检测监控图像中的行人位置。本发明适用于真实视频监控图像中的行人检测，面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于深度学习多层刺激的行人检测方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于深度学习多层刺激的行人检测方法。

背景技术

20世纪末以来，随着计算机视觉的发展，智能视频处理技术得到广泛的关注和研究。行人检测是其中一项重要和具有挑战性的任务，其目标是准确检测出视频监控图像里行人的位置。该问题在视频监控和智能机器人等领域具有很高的应用价值，是大量高级视觉任务的基础。但同样，该问题具有较大的挑战性，一是如何表达目标区域信息；二是如何将候选区域的提取与目标分类统一建模优化，这些挑战对相应算法的性能和鲁棒性提出了较高的要求。

一般行人检测算法分为三个部分：1、找出输入图像中包含目标的候选区域。2、基于候选区域手工提取目标特征。3、对特征使用分类算法实现检测任务。该种方法主要存在以下几个问题：1)它基于传统的视觉特征，这些视觉特征只能表达较低层的视觉信息，但行人检测任务需要模型具备高层抽象的语义理解能力；2)候选区域的提取和特征的分类没有端到端学习优化；3)基于深度学习提取的特征没有经过多层刺激组合，目标特征不够抽象丰富。

发明内容

为解决上述问题，本发明的目的在于提供一种基于深度学习多层刺激的行人检测方法，用于检测给定监控图像里的行人位置。该方法基于深度神经网络，利用多层刺激的深度视觉特征表征目标区域信息，采用Faster R-CNN框架建模行人检测，能够更好地适应真实视频监控场景中的复杂情况。

为实现上述目的，本发明的技术方案为：

一种基于深度学习多层刺激的行人检测方法，包括以下步骤：

S1、获取用于训练目标检测模型的行人数据集，并定义算法目标；

S2、对行人目标的位置偏差和表观语义进行建模；

S3、根据步骤S2中的建模结果建立行人多层刺激网络模型；

S4、使用所述检测模型检测监控图像中的行人位置。

进一步的，步骤S1中，所述的用于训练目标检测模型的行人数据集，包括行人图像X_train，人工标注的行人位置B；

定义算法目标为：检测一幅监控图像X中的行人位置P。

进一步的，步骤S2中，对行人目标的位置偏差和表观语义进行建模具体包括：

S21、根据行人数据集X_train和行人位置P建模位置偏差：

其中，x,y是行人框标签的中点坐标，w,h是行人框标签的宽度与长度，x_a,y_a是行人候选框的坐标，w_a,h_a是行人候选框的宽度与长度；t_x为行人框的x坐标相对于标注框x坐标的偏差对应标注框宽度的比例，t_y为行人框的y坐标相对于标注框y坐标的偏差对应标注框长度的比例，t_w为行人框的宽度相对于标注框宽度的比例，t_h为行人框的长度相对于标注框长度的比例；

S22、根据行人数据集X_train和行人位置P建模表观语义：

s＝<w,d>

其中s表示特征d在投影向量w上的投影值，w是行人权重投影向量，d是行人特征描述子，<.,.>是内积运算符，p(C＝k|d)是softmax函数，表示属于第k类的概率值；s_j为特征d在第j个投影向量w上的投影值；C为取值个数为k的离散随机变量；j为全部投影向量w的第j个w的索引。

进一步的，步骤S3中，根据步骤S2中的建模结果建立行人多层刺激网络模型具体包括：

S31、建立多层刺激卷积神经网络，神经网络的输入为一幅监控图像X和行人标注框B，输出为对应行人候选框的概率值p，以及X中的行人位置偏差O；神经网络的结构表示为映射X→(p,O)；

S32、子映射X→p使用软最大Softmax损失函数，表示为

L_cls(X,Y；θ)＝-∑_jY_jlogp(C|d) 公式(3)

其中Y是二值向量，如果属于第k类，对应值为1，其余为0；L_cls(X,Y；θ)表示整个训练数据集的softmax损失函数；

S33、子映射X→O使用欧几里得损失函数，表示为

L_loc(t,v)＝∑_ismooth(t_i,v_i)

其中t_i是行人位置偏差标签，v_i是行人位置偏差预测值；i表示第i个训练样本；

S34、整个多层刺激神经网络的损失函数为

L＝L_cls+L_loc 公式(5)

使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。

进一步的，步骤S4中，检测监控图像中的行人位置包括：将待检测的监控图像X输入训练好的神经网络，依据其输出的候选框概率值判断是否为行人，最后根据预测的位置偏差O校正得到行人位置P。

本发明应用于视频监控场景的行人检测方法，相比于现有的行人检测方法，具有以下有益效果：

首先，本发明的行人检测方法基于深度卷积神经网络建立模型。本发明将候选区域的产生和特征的分类统一在同一个网络框架里学习优化，提高了方法的最终效果。

其次，本发明提出的多层刺激算法可以更加丰富特征抽象能力，同时该算法学习出的特征使得分类器学习出更加鲁棒的分类规则。

本发明应用于视频监控场景的行人检测方法，在智能视频分析系统里具有良好的应用价值，能够有效提高行人检测的效率和准确度。例如，在交通视频监控里，本发明的行人检测方法可以快速和准确地检测所有行人位置，为之后的行人搜索任务提供数据，极大释放了人力资源。

附图说明

图1为本发明的应用于视频监控场景的行人检测方法的流程示意图；

图2为本发明整个多层刺激神经网络的损失函数示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，一种基于深度学习多层刺激的行人检测方法，包括以下步骤：

首先，获取用于训练目标检测模型的行人数据集，包括行人图像X_train，人工标注的行人位置B；

定义算法目标为：检测一幅监控图像X中的行人位置P。

其次，对行人目标的位置偏差和表观语义进行建模具体包括：

第一步，根据行人数据集X_train和行人位置P建模位置偏差：

第二步，根据行人数据集X_train和行人位置P建模表观语义：

s＝<w,d>

之后，根据上诉建模结果预训练广告牌目标的检测模型。具体包括：

第一步，建立多层刺激卷积神经网络，神经网络的输入为一幅监控图像X和行人标注框B，输出为对应行人候选框的概率值p，以及X中的行人位置偏差O；从而，神经网络的结构可以表示为映射X→(p,O)；

第二步，子映射X→p使用软最大(Softmax)损失函数，表示为

L_cls(X,Y；θ)＝-∑_jY_jlogp(C|d) 公式(3)

第三步，子映射X→O使用欧几里得损失函数，表示为

L_loc(t,v)＝∑_ismooth(t_i,v_i)

其中t_i是行人位置偏差标签，v_i是行人位置偏差预测值，i表示第i个训练样本。

第四步，参考图2，整个多层刺激神经网络的损失函数为

L＝L_cls+L_loc 公式(5)

最后，使用训练好的检测模型对监控图像中的行人进行检测。具体包括：将预处理好的图像放入多层刺激检测框架上计算。多层刺激检测框架用3个RPN网络来提取候选框，每个RPN网络利用的特征信息不同，从而得到的候选框大小及尺度也不一样。先得到每个RPN网络提取的候选框，按照各自置信度大小过滤得到300个候选区域。然后将3个RPN网络中的候选区域合并，得到900个候选区域。接着按照分类置信度从大到小排列，过滤得到最终的300个目标候选区域。依据其输出的候选框分类概率值是否大于给定阈值过滤候选框，同时采用非极大值抑制算法来消除交叉重复的检测框，最后根据预测的位置偏差O校正得到行人位置P。

上述实施例中，本发明的行人检测方法首先对行人目标的位置偏差和表观语义进行建模。在此基础上，将原问题转化为多任务学习问题，并基于深度神经网络建立行人检测模型。最后，使用训练好的检测模型检测监控图像中的行人位置。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种基于深度学习多层刺激的行人检测算法。本发明可以同时有效建模目标的位置偏差和表观语义信息，从而检测准确的行人位置。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习多层刺激的行人检测方法，其特征在于，包括以下步骤：

S1、获取用于训练目标检测模型的行人数据集，并定义算法目标；所述的用于训练目标检测模型的行人数据集，包括行人图像X_train，人工标注的行人位置B；定义算法目标为：检测一幅监控图像X中的行人位置P；

S2、对行人目标的位置偏差和表观语义进行建模，具体包括：

S21、根据行人数据集X_train和行人位置P建模位置偏差：

S22、根据行人数据集X_train和行人位置P建模表观语义：

s＝<w，d>

其中s表示特征d在投影向量w上的投影值，w是行人权重投影向量，d是行人特征描述子，<.，.>是内积运算符，p(C＝k|d)是softmax函数，表示属于第k类的概率值；s_j为特征d在第j个投影向量w上的投影值；C为取值个数为k的离散随机变量；j为全部投影向量w的第j个w的索引；

S3、根据步骤S2中的建模结果建立行人多层刺激网络模型，具体包括：

S31、建立多层刺激卷积神经网络，神经网络的输入为一幅监控图像X和行人标注框B，输出为对应行人候选框的概率值p，以及X中的行人位置偏差O；神经网络的结构表示为映射X→(p，O)；

S32、子映射X→p使用软最大Softmax损失函数，表示为

L_cls(X，Y；θ)＝-∑_jY_jlog p(C|d) 公式(3)

其中Y是二值向量，如果属于第k类，对应值为1，其余为0；L_cls(X，Y；θ)表示整个训练数据集的softmax损失函数；

S33、子映射X→O使用欧几里得损失函数，表示为

L_loc(t，v)＝∑_ismooth(t_i，v_i)

S34、整个多层刺激神经网络的损失函数为

L＝L_cls+L_loc 公式(5)

使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络；

所述多层刺激神经网络用3个RPN网络来提取候选框，每个RPN网络利用的特征信息不同，从而得到的候选框大小及尺度也不一样，且每个RPN网络均引入一个损失函数L；检测过程中先得到每个RPN网络提取的候选框，按照各自置信度大小过滤得到300个候选区域；然后将3个RPN网络中的候选区域合并，得到900个候选区域；接着按照分类置信度从大到小排列，过滤得到最终的300个目标候选区域；依据其输出的候选框分类概率值是否大于给定阈值过滤候选框，同时采用非极大值抑制算法来消除交叉重复的检测框，最后根据预测的位置偏差O校正得到行人位置P；

S4、使用所述检测模型检测监控图像中的行人位置；其中检测监控图像中的行人位置包括：将待检测的监控图像X输入训练好的神经网络，依据其输出的候选框概率值判断是否为行人，最后根据预测的位置偏差O校正得到行人位置P。