CN112215188A - 交警姿态识别方法、装置、设备及存储介质 - Google Patents
交警姿态识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112215188A CN112215188A CN202011132576.5A CN202011132576A CN112215188A CN 112215188 A CN112215188 A CN 112215188A CN 202011132576 A CN202011132576 A CN 202011132576A CN 112215188 A CN112215188 A CN 112215188A
- Authority
- CN
- China
- Prior art keywords
- neural network
- deep learning
- network model
- traffic police
- learning neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013135 deep learning Methods 0.000 claims abstract description 62
- 238000003062 neural network model Methods 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 51
- 238000002372 labelling Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000036544 posture Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种交警姿态识别方法、装置、设备及存储介质,该方法包括:采集多种交通环境下的图像并对所述图像进行预处理;基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框;构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练YOLOv3深度学习神经网络模型,获得EIOU‑YOLOv3深度学习神经网络模型;利用EIOU‑YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图;利用锚框在特征图上进行交警姿态特征提取及识别,获得预测框;采用Soft‑NMS算法去除冗余的预测框,获得目标预测框及识别结果。通过上述方式,本发明能够有效提高交警姿态识别的整体准确率和召回率。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种交警姿态识别方法、装置、设备及存储介质。
背景技术
交警是维护城市道路交通秩序,保证交通运输畅通与安全的国家公职人员,在城市道路交通安全中扮演着十分重要的角色。交警姿态的自动检测识别,成为智能交通安全监控系统中重要的环节之一。常用的道路上交警姿态检测方法主要包括基于LBP、Haar、HOG等特征建立形变部位模型结合分类器的方法、基于深度学习的方法。基于形变部位模型的识别方法需要建立多个行人的局部模型,计算量大且在复杂的道路环境中鲁棒性较差。基于深度学习的方法利用卷积神经网络能有效提取数据本质的隐性特征,且权值共享,对道路环境中交警姿态具有较好的鲁棒性和识别精度。其中,基于YOLOv3的深度学习方法,由于其检测速度快,成为目前业内比较流行的交警姿态识别算法之一。
基于YOLOv3的深度学习方法在晴天、白天等简单场景下识别目标的准确率较高,但在雾霾、雨天、夜间等困难场景下,其准确率和召回率都还相对较低,仍存在较大的提升空间。
发明内容
本发明提供一种交警姿态识别方法、装置、设备及存储介质,能够有效提高交警姿态识别的整体准确率和召回率。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种交警姿态识别方法,包括:
采集多种交通环境下的图像并对所述图像进行预处理;
基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框;
构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型;
利用所述EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图;
利用所述锚框在所述特征图上进行交警姿态特征提取及识别,获得预测框;
采用Soft-NMS算法去除冗余的所述预测框,获得目标预测框及识别结果。
根据本发明的一个实施例,所述采集多种交通环境下的图像并对所述图像进行预处理的步骤包括:
实时采集多种交通环境下的图像集合;
从所述图像集合中选取待识别图像;
利用标注工具对所述待识别图像中的交警进行标注处理,获得标注框;
按照预设比例将标注处理后的所述待识别图像随机分成训练集和测试集。
根据本发明的一个实施例,所述基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框的步骤包括:
从所述训练集中随机选取一个所述标注框作为初始聚类中心;
根据预设距离公式计算每个所述标注框与所述初始聚类中心之间的距离,并根据距离计算结果选出下一个聚类中心;
将所述下一个聚类中心作为初始聚类中心并重复执行根据预设距离公式计算每个所述标注框与初始聚类中心之间的距离,并根据距离计算结果选出下一个聚类中心的步骤,直到选出九个初始聚类中心,将所述初始聚类中心作为锚框。
根据本发明的一个实施例,所述构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型的步骤包括:
构建YOLOv3深度学习神经网络模型,将所述YOLOv3深度学习神经网络模型的残差连接结构由两次拼接改进为三次加权求和处理;
计算所述交叉熵损失函数与所述EIOU损失函数之和,获得总损失函数;
采用所述总损失函数训练改进后的所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型。
根据本发明的一个实施例,所述利用所述EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图的步骤包括:
将预处理后的图像的尺寸转换为预设尺寸;
采用DarkNet53网络对转换尺寸后的图像进行交警姿态特征提取;
对交警姿态特征提取结果进行上采样处理、加权求和处理以及多次卷积处理,获得多个不同尺度的特征图。
根据本发明的一个实施例,所述对交警姿态特征提取结果进行上采样处理、加权求和处理以及多次卷积处理,获得多个不同尺度的特征图的步骤包括:
对所述DarkNet53网络输出的第一特征矩阵进行上采样处理,获得第二特征矩阵;
对所述第一特征矩阵和所述第二特征矩阵进行第一次加权求和处理以及多次卷积处理,获得第一尺度特征图;
对第一次加权求和处理结果进行上采样处理,获得第三特征矩阵;
对所述第一特征矩阵和所述第三特征矩阵进行第二次加权求和处理以及多次卷积处理,获得第二尺度特征图;
对第二次加权求和处理结果进行上采样处理,获得第四特征矩阵;
对所述第一特征矩阵和所述第四特征矩阵进行第三次加权求和处理以及多次卷积处理,获得第三尺度特征图。
根据本发明的一个实施例,所述采用Soft-NMS算法去除冗余的所述预测框,获得目标预测框及识别结果的步骤包括:
根据所述预测框的置信度计算得分,并选择所有所述预测框中置信度得分最高的预测框;
遍历剩余的所述预测框,计算当前预测框与置信度得分最高的预测框的IOU值;
将所述IOU值与IOU预设阈值进行比较,根据比较结果更新所述当前预测框的置信度得分;
将各个所述预测框更新后的置信度得分与置信度得分阈值进行比较,将高于所述置信度得分阈值的所述预测框保留并确定为目标预测框。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种交警姿态识别装置,包括:
采集及预处理模块,用于采集多种交通环境下的图像并对所述图像进行预处理;
聚类模块,用于基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框;
构建及训练模块,用于构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型;
特征提取及检测模块,用于利用所述EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图;
预测模块,用于利用所述锚框在所述特征图上进行交警姿态特征提取及识别,获得预测框;
筛选模块,用于采用Soft-NMS算法去除冗余的所述预测框,获得目标预测框及识别结果。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的交警姿态识别方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述交警姿态识别方法的程序文件。
本发明的有益效果是:通过将传统的kmeans聚类算法改进为kmeans++聚类算法,改善了锚框生成的质量,提高了交警检测框的定位精度,在训练YOLOv3深度学习神经网络模型时,将传统的回归损失由平方损失改进为EIOU损失,大大提高了预测框坐标的回归精度,同时将预测框去重的NMS算法改进为Soft-NMS算法,有效缓解了交警检测框的漏召和误检问题,从而有效提高了交警姿态识别的整体准确率和召回率。
附图说明
图1是本发明第一实施例的交警姿态识别方法的流程示意图;
图2是本发明第一实施例中步骤S101的流程示意图;
图3是本发明第一实施例中步骤S102的流程示意图;
图4是本发明第一实施例的EIOU-YOLOv3深度学习神经网络模型的结构示意图;
图5是本发明实施例的预测框、标注框以及同时包围候选框与标注框的最小外接矩阵的分布示意图;
图6是本发明第一实施例中步骤S106的流程示意图;
图7是本发明第二实施例的交警姿态识别方法的流程示意图;
图8是本发明第二实施例的EIOU-YOLOv3深度学习神经网络模型的结构示意图;
图9是本发明第二实施例中步骤S706的流程示意图;
图10是本发明实施例的交警姿态识别装置的结构示意图;
图11是本发明实施例的计算机设备的结构示意图;
图12是本发明实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的交警姿态识别方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:采集多种交通环境下的图像并对图像进行预处理。
在步骤S101中,交通环境指的是在晴天、白天、雾霾、雨天以及夜间等场景中交通状况,其中包括交警在道路上指挥交通,维护交通秩序,因此,图像中应当至少包含有交警姿态特征。图像的预处理包括对不同场景下的图像进行针对性的筛选,例如,本发明的交警姿态识别方法主要针对雾霾、雨天以及夜间等场景下的图像进行识别,应针对性筛选这些场景下的图像。图像的预处理还包括对图像中的交警进行标注以及对图像进行分类处理。在其他优选地实施方式中,图像的预处理还包括对图像进行去噪、锐化等处理,以及对图像的质量进行筛选。
进一步地,请参见图2,步骤S101还包括以下步骤:
步骤S201:实时采集多种交通环境下的图像集合。
步骤S202:从图像集合中选取待识别图像。
在步骤S202中,对图像集合进行筛选,选取雾霾、雨天以及夜间场景下的图像。
步骤S203:利用标注工具对待识别图像中的交警进行标注处理,获得标注框。
在步骤S203中,利用标注工具在待识别图像中对所有交警所在的位置标注矩形的标注框。
步骤S204:按照预设比例将标注处理后的待识别图像随机分成训练集和测试集。
在步骤S204中,训练集用于后续步骤中的聚类以及模型训练,测试集用于后续步骤中交警姿态特征提取及检测。
步骤S102:基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框。
在步骤S102中,相对于传统的kmeans聚类算法,本实施例的kmeans++聚类算法采用轮盘方式选择初始聚类中心,改善了锚框生成的质量,提高了交警检测框的定位精度,从而提高了交警姿态识别的整体准确率和召回率。
进一步地,请参见图3,步骤S102还包括以下步骤:
步骤S301:从训练集中随机选取一个标注框作为初始聚类中心。
步骤S302:根据预设距离公式计算每个标注框与初始聚类中心之间的距离,并根据距离计算结果选出下一个聚类中心。
在步骤S302中,预设距离公式为Dis=1-IOU,其中,Dis为标注框与初始聚类中心之间的距离,IOU为标注框与初始聚类中心之间的交并比,其中,I为标注框与初始聚类中心的交集的面积,U为标注框与初始聚类中心的并集的面积。本实施例中,当IOU值不低于0.5时,将标注框作为下一个聚类中心。
步骤S303:将下一个聚类中心作为初始聚类中心并重复执行步骤S302,直到选出九个初始聚类中心,将初始聚类中心作为锚框。
步骤S103:构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型。
在步骤S103中,请参见图4,EIOU-YOLOv3深度学习神经网络模型包括输入模块41、与输入模块41连接的特征提取模块42、第一生成模块43、第二生成模块44以及第三生成模块45,第一生成模块43、第二生成模块44以及第三生成模块45依次连接并均与特征提取模块43连接,第一生成模块43、第二生成模块44以及第三生成模块45分别输出三个不同尺度的特征图。在训练YOLOv3深度学习神经网络模型时,将回归损失由平方损失改进为EIOU损失,大大提高了预测框坐标的回归精度,从而提高了交警姿态识别的整体准确率和召回率。
具体地,训练YOLOv3深度学习神经网络模型的总损失函数由回归损失和分类损失两部分组成,总损失函数按照如下公式进行计算:loss=lossreg+losscls,其中,loss为总损失函数,lossreg为回归损失,losscls为分类损失。进一步地,lossreg按照如下公式计算: 其中,IOU为预测框与标注框的交并比,I表示预测框与标注框之间的交集的面积,U表示预测框与标注框之间的并集的面积,α为衰减系数,α的取值范围为0.5~1,优选地,α取0.9,d表示预测框与标注框的中心点之间的距离,c表示同时包围预选框与标注框的最小外接矩阵的对角线的长度,如图5所示,图中P表示预测框,T表示标注框,C表示同时包围候选框与标注框的最小外接矩阵。
步骤S104:利用EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图。
在步骤S104中,首先将预处理后的图像的尺寸转换为预设尺寸再输入DarkNet53网络中,采用DarkNet53网络对转换尺寸后的图像进行交警姿态特征提取,基于交警姿态特征提取结果获得多个不同尺度的特征图。
其中,预处理后的图像的尺寸可以为任意大小,针对一个任意尺寸大小为P*Q的图像,在输入图像之前,先对图像的尺寸进行调整,将图像尺寸缩放至预设尺寸大小M*N,在调整尺寸时保证图像的宽高比不变。DarkNet53网络包括52层卷积层和1层全连接层,其中,52层卷积层用于对输入图像进行交警姿态特征提取,全连接层用于输出特征图矩阵,基于DarkNet53网络的输出结果获得不同尺度的特征图。
步骤S105:利用锚框在特征图上进行交警姿态特征提取及识别,获得预测框。
在步骤S105中,九个锚框分别在得到的三种不同尺度的特征图上进行交警姿态的检测与识别,每种特征图上分别预测三个不同锚框的坐标(即交警坐标)和类别(即是否为交警),预测结果即为预测框。预测框信息包括预测框坐标以及置信度。
步骤S106:采用Soft-NMS算法去除冗余的预测框,获得目标预测框及识别结果。
在步骤S106中,使用Soft-NMS算法进行非极大值抑制操作,当两个目标相近且预测框交并比大于或等于预设阈值时,通过降低两个预测框中置信度得分较低的预测框的得分,使降低得分后的预测框保留在排序列表内进行二次筛选,最后将得分高于置信度得分阈值的预测框确定为目标预测框。
进一步地,请参见图6,步骤S106还包括以下步骤:
步骤S601:根据预测框的置信度计算得分,并选择所有预测框中置信度得分最高的预测框。
步骤S602:遍历剩余的预测框,计算当前预测框与置信度得分最高的预测框的IOU值。
在步骤S602中,IOU=I/U,I表示当前预测框与置信度得分最高的预测框的交集的面积,U表示当前预测框与置信度得分最高的预测框的并集的面积。
步骤S603:将IOU值与IOU预设阈值进行比较,根据比较结果更新当前预测框的置信度得分。
在步骤S603中,当IOU小于IOU阈值时,保留当前预测框以及其置信度得分,当IOU大于或等于IOU阈值时,更新当前预测框的置信度得分。更具体地,根据比较结果更新当前预测框的置信度得分的步骤按照如下公式进行:
其中,IOU表示当前预测框与置信度得分最高的预测框的交并比;IOUthreshold表示IOU阈值,优选为0.5,score表示当前预测框的置信度得分。在该步骤中,需重复执行步骤S601-S603,直到所有预测框的置信度得分被更新为止,其中,重复执行步骤S601时,所有预测框指的是IOU小于IOU阈值时,保留下来的当前预测框及其置信度得分的集合。
步骤S604:将各个预测框更新后的置信度得分与置信度得分阈值进行比较,将高于置信度得分阈值的预测框保留并确定为目标预测框。
在步骤S604中,置信度得分阈值优选为0.45,对置信度得分更新后的预测框进一步筛选,能够进一步提高交警姿态识别的整体准确率和召回率。
本发明第一实施例的交警姿态识别方法通过将传统的kmeans聚类算法改进为kmeans++聚类算法,改善了锚框生成的质量,提高了交警检测框的定位精度,在训练YOLOv3深度学习神经网络模型时,将传统的回归损失由平方损失改进为EIOU损失,大大提高了预测框坐标的回归精度,同时将预测框去重的NMS算法改进为Soft-NMS算法,有效缓解了交警检测框的漏召和误检问题,从而有效提高了交警姿态识别的整体准确率和召回率。
图7是本发明第二实施例的交警姿态识别方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图7所示的流程顺序为限。如图7所示,该方法包括步骤:
步骤S701:采集多种交通环境下的图像并对图像进行预处理。
在本实施例中,图7中的步骤S701和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S702:基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框。
在本实施例中,图7中的步骤S702和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S703:构建YOLOv3深度学习神经网络模型,将YOLOv3深度学习神经网络模型的残差连接结构由两次拼接改进为三次加权求和处理。
在步骤S703中,将YOLOv3深度学习神经网络模型的残差连接结构由两次拼接改进为三次加权求和处理,有效减少了信息损失,改善了提取特征的完整性,从而提高了交警姿态识别的整体准确率和召回率。
步骤S704:计算交叉熵损失函数与EIOU损失函数之和,获得总损失函数。
在步骤S704中,总损失函数由回归损失和分类损失两部分组成,具体地,loss=lossreg+losscls,其中,loss为总损失函数,lossreg为回归损失,losscls为分类损失。进一步地,lossreg按照如下公式计算:其中,IOU为预测框与标注框的交并比,I表示预测框与标注框之间的交集的面积,U表示预测框与标注框之间的并集的面积,α为衰减系数,α的取值范围为0.5~1,优选地,α取0.9,d表示预测框与标注框的中心点之间的距离,c表示同时包围预选框与标注框的最小外接矩阵的对角线的长度,如图5所示。
步骤S705:采用总损失函数训练改进后的YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型。
在步骤S705中,请参见图8,EIOU-YOLOv3深度学习神经网络模型包括输入模块81、与输入模块81连接的特征提取模块82、第一生成模块83、第二生成模块84以及第三生成模块85,第一生成模块83、第二生成模块84以及第三生成模块85依次连接并均与特征提取模块82连接。其中,每个生成模块均包括多个卷积层、上采样层、加权求和层以及输出层。具体地,第一生成模块83包括依次连接的第一卷积层831、第一上采样层832、第一加权求和层833、第二卷积层834以及第一输出层835;第二生成模块84包括依次连接的第三卷积层841、第二上采样层842、第二加权求和层843、第四卷积层844以及第二输出层845;第三生成模块85包括依次连接的第五卷积层851、第三上采样层852、第三加权求和层853、第六卷积层854以及第三输出层855,第一加权求和层833、第二加权求和层843以及第三加权求和层853还分别与特征提取模块82连接,第二卷积层834连接第三卷积层841,第四卷积层844连接第五卷积层851,第一输出层835、第二输出层845以及第三输出层855分别输出不同尺度的特征图。
步骤S706:利用EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图。
在步骤S706中,进一步地,请参见图9,还包括以下步骤:
步骤S901:将预处理后的图像的尺寸转换为预设尺寸。
在步骤S901中,预处理后的图像的尺寸可以为任意大小,针对一个任意尺寸大小为P*Q的图像,在输入图像之前,先对图像的尺寸进行调整,将图像尺寸缩放至预设尺寸大小M*N,在调整尺寸时保证图像的宽高比不变。
步骤S902:采用DarkNet53网络对转换尺寸后的图像进行交警姿态特征提取。
在步骤S902中,DarkNet53网络包括52层卷积层和1层全连接层,其中,52层卷积层用于对图像进行交警姿态特征提取,获得特征图矩阵,全连接层用于输出特征图矩阵。
步骤S903:对交警姿态特征提取结果进行上采样处理、加权求和处理以及多次卷积处理,获得多个不同尺度的特征图。
在步骤S903中,上采样处理对交警姿态特征提取结果的尺寸大小放大两倍,通道数保持不变。加权求和处理要求两个输入矩阵的尺寸大小一致,且加权求和处理不改变矩阵的尺寸大小和通道数。多次卷积用于进一步抽取特征,提高特征精度。在进行加权求和处理过程中,将上采样后的输出矩阵与DarkNet53网络中相应的Block进行加权求和。Block是指DarkNet53网络的中间某一层的特征图矩阵,主要是为了与上采样后的矩阵大小保持一致,否则无法进行加权求和操作。例如:假设图中经过上采样后的输出矩阵大小(即加权求和处理的其中一个输入)为26*26*128,再假设DarkNet53网络中的第120层、第130层、第140层的输出矩阵大小分别为13*13*128,26*26*128,26*26*256,则加权求和处理的另一个输入只能是第130层的输出矩阵(即特征图矩阵,矩阵大小必须相同,都为26*26*128),而不能是第120层、第140层的特征图矩阵。
另外,加权求和处理过程中,上采样的权重优选为0.6、特征提取结果的权重优选为0.4,在其他实施例中,可配置其他权重。
具体地,首先对DarkNet53网络输出的第一特征矩阵进行上采样处理,获得第二特征矩阵;然后对第一特征矩阵和第二特征矩阵进行第一次加权求和处理以及多次卷积处理,获得第一尺度特征图;接着对第一次加权求和处理结果进行上采样处理,获得第三特征矩阵;再接着对第一特征矩阵和第三特征矩阵进行第二次加权求和处理以及多次卷积处理,获得第二尺度特征图;再接着对第二次加权求和处理结果进行上采样处理,获得第四特征矩阵;最后对第一特征矩阵和第四特征矩阵进行第三次加权求和处理以及多次卷积处理,获得第三尺度特征图。
更具体地,如图8所示,DarkNet53网络输出的第一特征矩阵执行CBL操作(3*3卷积+批归一化+Leaky Relu激活函数),输出3*3*10的矩阵(尺寸大小为3*3,通道数为10),然后执行Upsample(上采样)操作,输出尺寸大小放大2倍的矩阵,即为6*6*10的矩阵,然后选取DarkNet53网络中与上采样后的矩阵大小一致的矩阵和上采样后的输出矩阵进行Sum(加权求和计算),输出尺寸大小和通道数不变的矩阵,在将该矩阵进行5次CBL处理,进一步抽取特征,然后经过Conv(1*1卷积),获得第一尺度特征图y1。生成第二尺度特征图y2和第三尺度特征图y3的详细步骤流程与生成第一尺度特征图的步骤流程类似,值得注意的是,生成第二尺度特征图的过程中,上采样的输入是生成第一尺度特征图的加权求和计算结果,生成第三尺度特征图的过程中,上采样的输入是生成第二尺度特征图的加权求和计算结果,其余步骤相同,在此不再一一赘述。在该实施例中,第一尺度特征图y1、第二尺度特征图y2以及第三尺度特征图y3的大小分别为6*6*10、12*12*10、24*24*10。
步骤S707:利用锚框在特征图上进行交警姿态特征提取及识别,获得预测框。
在本实施例中,图7中的步骤S707和图1中的步骤S105类似,为简约起见,在此不再赘述。
步骤S708:采用Soft-NMS算法去除冗余的预测框,获得目标预测框及识别结果。
在本实施例中,图7中的步骤S708和图1中的步骤S106类似,为简约起见,在此不再赘述。
本发明第二实施例的交警姿态识别方法在第一实施例的基础上,通过将原先的残差连接结构由两次拼接改进为三次加权求和处理,有效减少了信息损失,改善了提取特征的完整性,从而提高了交警姿态识别的整体准确率和召回率。
图10是本发明实施例的交警姿态识别装置的结构示意图。如图10所示,该装置100包括采集及预处理模块101、聚类模块102、构建及训练模块103、特征提取及检测模块104、预测模块105以及筛选模块106。
采集及预处理模块101,用于采集多种交通环境下的图像并对图像进行预处理;
聚类模块102,用于基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框;
构建及训练模块103,用于构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型;
特征提取及检测模块104,用于利用EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图;
预测模块105,用于利用锚框在特征图上进行交警姿态特征提取及识别,获得预测框;
筛选模块106,用于采用Soft-NMS算法去除冗余的预测框,获得目标预测框及识别结果。
请参阅图11,图11为本发明实施例的计算机设备的结构示意图。如图11所示,该计算机设备110包括处理器111及和处理器111耦接的存储器112。
存储器112存储有用于实现上述任一实施例所述的交警姿态识别方法的程序指令。
处理器111用于执行存储器112存储的程序指令以识别交警姿态。
其中,处理器111还可以称为CPU(Central Processing Unit,中央处理单元)。处理器111可能是一种集成电路芯片,具有信号的处理能力。处理器111还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图12,图12为本发明实施例的计算机可读存储介质的结构示意图。本发明实施例的计算机可读存储介质存储有能够实现上述所有方法的程序文件121,其中,该程序文件121可以以软件产品的形式存储在上述计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种交警姿态识别方法,其特征在于,包括:
采集多种交通环境下的图像并对所述图像进行预处理;
基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框;
构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型;
利用所述EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图;
利用所述锚框在所述特征图上进行交警姿态特征提取及识别,获得预测框;
采用Soft-NMS算法去除冗余的所述预测框,获得目标预测框及识别结果。
2.根据权利要求1所述的交警姿态识别方法,其特征在于,所述采集多种交通环境下的图像并对所述图像进行预处理的步骤包括:
实时采集多种交通环境下的图像集合;
从所述图像集合中选取待识别图像;
利用标注工具对所述待识别图像中的交警进行标注处理,获得标注框;
按照预设比例将标注处理后的所述待识别图像随机分成训练集和测试集。
3.根据权利要求2所述的交警姿态识别方法,其特征在于,所述基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框的步骤包括:
从所述训练集中随机选取一个所述标注框作为初始聚类中心;
根据预设距离公式计算每个所述标注框与所述初始聚类中心之间的距离,并根据距离计算结果选出下一个聚类中心;
将所述下一个聚类中心作为初始聚类中心并重复执行根据预设距离公式计算每个所述标注框与初始聚类中心之间的距离,并根据距离计算结果选出下一个聚类中心的步骤,直到选出九个初始聚类中心,将所述初始聚类中心作为锚框。
4.根据权利要求1所述的交警姿态识别方法,其特征在于,所述构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型的步骤包括:
构建YOLOv3深度学习神经网络模型,将所述YOLOv3深度学习神经网络模型的残差连接结构由两次拼接改进为三次加权求和处理;
计算所述交叉熵损失函数与所述EIOU损失函数之和,获得总损失函数;
采用所述总损失函数训练改进后的所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型。
5.根据权利要求4所述的交警姿态识别方法,其特征在于,所述利用所述EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图的步骤包括:
将预处理后的图像的尺寸转换为预设尺寸;
采用DarkNet53网络对转换尺寸后的图像进行交警姿态特征提取;
对交警姿态特征提取结果进行上采样处理、加权求和处理以及多次卷积处理,获得多个不同尺度的特征图。
6.根据权利要求5所述的交警姿态识别方法,其特征在于,所述对交警姿态特征提取结果进行上采样处理、加权求和处理以及多次卷积处理,获得多个不同尺度的特征图的步骤包括:
对所述DarkNet53网络输出的第一特征矩阵进行上采样处理,获得第二特征矩阵;
对所述第一特征矩阵和所述第二特征矩阵进行第一次加权求和处理以及多次卷积处理,获得第一尺度特征图;
对第一次加权求和处理结果进行上采样处理,获得第三特征矩阵;
对所述第一特征矩阵和所述第三特征矩阵进行第二次加权求和处理以及多次卷积处理,获得第二尺度特征图;
对第二次加权求和处理结果进行上采样处理,获得第四特征矩阵;
对所述第一特征矩阵和所述第四特征矩阵进行第三次加权求和处理以及多次卷积处理,获得第三尺度特征图。
7.根据权利要求1所述的交警姿态识别方法,其特征在于,所述采用Soft-NMS算法去除冗余的所述预测框,获得目标预测框及识别结果的步骤包括:
根据所述预测框的置信度计算得分,并选择所有所述预测框中置信度得分最高的预测框;
遍历剩余的所述预测框,计算当前预测框与置信度得分最高的预测框的IOU值;
将所述IOU值与IOU预设阈值进行比较,根据比较结果更新所述当前预测框的置信度得分;
将各个所述预测框更新后的置信度得分与置信度得分阈值进行比较,将高于所述置信度得分阈值的所述预测框保留并确定为目标预测框。
8.一种交警姿态识别装置,其特征在于,包括:
采集及预处理模块,用于采集多种交通环境下的图像并对所述图像进行预处理;
聚类模块,用于基于kmeans++聚类算法在预处理后的图像上进行聚类,生成多个锚框;
构建及训练模块,用于构建YOLOv3深度学习神经网络模型并采用交叉熵损失函数与EIOU损失函数训练所述YOLOv3深度学习神经网络模型,获得EIOU-YOLOv3深度学习神经网络模型;
特征提取及检测模块,用于利用所述EIOU-YOLOv3深度学习神经网络模型对预处理后的图像进行交警姿态特征提取及检测,获得多个不同尺度的特征图;
预测模块,用于利用所述锚框在所述特征图上进行交警姿态特征提取及识别,获得预测框;
筛选模块,用于采用Soft-NMS算法去除冗余的所述预测框,获得目标预测框及识别结果。
9.一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的交警姿态识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的交警姿态识别方法的程序文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011132576.5A CN112215188B (zh) | 2020-10-21 | 2020-10-21 | 交警姿态识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011132576.5A CN112215188B (zh) | 2020-10-21 | 2020-10-21 | 交警姿态识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215188A true CN112215188A (zh) | 2021-01-12 |
CN112215188B CN112215188B (zh) | 2024-08-13 |
Family
ID=74056312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011132576.5A Active CN112215188B (zh) | 2020-10-21 | 2020-10-21 | 交警姿态识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215188B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191335A (zh) * | 2021-05-31 | 2021-07-30 | 景德镇陶瓷大学 | 基于深度学习的日用陶瓷类型识别方法 |
CN113553936A (zh) * | 2021-07-19 | 2021-10-26 | 河北工程大学 | 一种基于改进型YOLOv3的口罩佩戴检测方法 |
CN113936294A (zh) * | 2021-09-13 | 2022-01-14 | 微特技术有限公司 | 建筑工地人员识别方法、可读存储介质和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135267A (zh) * | 2019-04-17 | 2019-08-16 | 电子科技大学 | 一种大场景sar图像细微目标检测方法 |
CN111222474A (zh) * | 2020-01-09 | 2020-06-02 | 电子科技大学 | 一种任意尺度的高分辨率图像小目标检测方法 |
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN111652321A (zh) * | 2020-06-10 | 2020-09-11 | 江苏科技大学 | 一种基于改进yolov3算法的海上船舶检测方法 |
-
2020
- 2020-10-21 CN CN202011132576.5A patent/CN112215188B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020173036A1 (zh) * | 2019-02-26 | 2020-09-03 | 博众精工科技股份有限公司 | 基于深度学习的定位方法和系统 |
CN110135267A (zh) * | 2019-04-17 | 2019-08-16 | 电子科技大学 | 一种大场景sar图像细微目标检测方法 |
CN111222474A (zh) * | 2020-01-09 | 2020-06-02 | 电子科技大学 | 一种任意尺度的高分辨率图像小目标检测方法 |
CN111652321A (zh) * | 2020-06-10 | 2020-09-11 | 江苏科技大学 | 一种基于改进yolov3算法的海上船舶检测方法 |
Non-Patent Citations (3)
Title |
---|
姚万业;冯涛明;: "基于改进YOLOv3的变压器定位检测研究", 电力科学与工程, no. 08 * |
许金逗: "基于深度学习的航拍图像目标检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 7, pages 138 - 935 * |
马健;史文旭;鲍胜利;: "基于特征融合SSD的遥感图像舰船目标检测", 计算机应用, no. 2 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191335A (zh) * | 2021-05-31 | 2021-07-30 | 景德镇陶瓷大学 | 基于深度学习的日用陶瓷类型识别方法 |
CN113553936A (zh) * | 2021-07-19 | 2021-10-26 | 河北工程大学 | 一种基于改进型YOLOv3的口罩佩戴检测方法 |
CN113936294A (zh) * | 2021-09-13 | 2022-01-14 | 微特技术有限公司 | 建筑工地人员识别方法、可读存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112215188B (zh) | 2024-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944450B (zh) | 一种车牌识别方法及装置 | |
CN112380921A (zh) | 一种基于车联网的道路检测方法 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
WO2022141962A1 (zh) | 入侵检测方法、装置、设备、存储介质和程序产品 | |
WO2020258077A1 (zh) | 一种行人检测方法及装置 | |
CN112215188B (zh) | 交警姿态识别方法、装置、设备及存储介质 | |
CN112287983B (zh) | 一种基于深度学习的遥感图像目标提取系统和方法 | |
CN112861970B (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN112016467A (zh) | 交通标志识别模型训练方法、识别方法、系统、设备及介质 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN111985374A (zh) | 人脸定位方法、装置、电子设备及存储介质 | |
CN111127516A (zh) | 无搜索框的目标检测和跟踪方法及系统 | |
CN117611994A (zh) | 基于注意力机制加权特征融合的遥感图像目标检测方法 | |
CN112288702A (zh) | 一种基于车联网的道路图像检测方法 | |
CN115100741A (zh) | 一种点云行人距离风险检测方法、系统、设备和介质 | |
CN113902898A (zh) | 目标检测模型的训练、目标检测方法、装置、设备和介质 | |
US20240037911A1 (en) | Image classification method, electronic device, and storage medium | |
CN111709377B (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
CN118115952B (zh) | 一种城市低空复杂背景下无人机图像全天候检测方法及系统 | |
CN113158954B (zh) | 交通非现场的基于ai技术的斑马线区域自动检测方法 | |
CN114283326A (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
CN114155524A (zh) | 单阶段3d点云目标检测方法及装置、计算机设备、介质 | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN110942008A (zh) | 一种基于深度学习的面单信息定位方法和系统 | |
CN114724128B (zh) | 一种车牌识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |