发明内容
本发明实施例提供了一种道路目标检测方法、装置、电子设备及存储介质,用以解决现有的用于道路目标检测的模型训练过程效率较低,并且道路目标检测的准确率也较低的问题。
本发明实施例提供了一种道路目标检测方法,所述方法包括:
针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;
根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;
根据每组预测框和真实框的损失值,完成对目标检测模型的训练;
将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
进一步地,所述针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型之前,所述方法还包括:
针对训练集中的每张样本图像,生成与该样本图像对应的标签信息,其中,该标签信息中记录有每个目标的类别,以及每个目标的目标真实框的中心点横坐标相对该样本图像的宽的归一化值,目标真实框的中心点纵坐标相对该样本图像的高的归一化值,目标真实框的宽相对该样本图像的宽的归一化值,目标真实框的高相对该样本图像的高的归一化值。
进一步地,所述针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型之前,所述方法还包括:
对训练集中的样本图像进行样本增强处理,生成新的样本图像;其中,所述样本增强处理包括对样本图像的尺寸进行随机增大或缩小、对样本图像进行随机概率水平翻转、对样本图像的亮度进行随机调整、对样本图像的色度进行随机调整、对样本图像的对比度进行随机调整。
进一步地,所述将该样本图像和对应的标签信息输入目标检测模型之后,所述方法还包括:
基于所述目标检测模型计算预先确定的锚框的预测类别和偏移量,调整锚框位置,输出该样本图像的预测框;
其中,预先确定锚框的过程包括:
预先设置锚框的数量,采用Kmeans聚类算法对训练集中的样本图像的真实框进行聚类,得到目标检测模型的锚框,其中,聚类过程中真实框与聚类中心框的距离表示为d=1-IoU。
进一步地,所述针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型包括:
所述针对训练集中的每张样本图像,将该样本图像与训练集中的任一其他样本图像按照预设的权重进行相加,生成混合处理后的图像,并将该样本图像与该任一其他样本图像的标签信息进行合并,将混合处理后的图像和合并后的标签信息输入到目标检测模型。
进一步地,所述将该样本图像与训练集中的任一其他样本图像按照预设的权重进行相加包括:
根据β(1.5,1.5)分布,分别确定该样本图像的第一权重值和训练集中的任一其他样本图像的第二权重值,根据所述第一权重值和第二权重值,对该样本图像和该任一其他样本图像的像素点进行相加。
进一步地,所述根据每组预测框和真实框的损失值,完成对目标检测模型的训练包括:
根据每组预测框和真实框的损失值,计算总损失值;
判断相邻两次迭代训练得到的总损失值是否满足|Lt-Lt-1|/Lt-1≤ε,或者判断迭代训练次数是否达到预设的次数阈值,如果满足上述任一条件,目标检测模型训练完成;ε为预设的收敛阈值;其中,总损失函数为
式中,坐标回归采用LrIoU损失函数,置信度及类别概率采用二元交叉熵损失函数Lbce,λcoord为坐标预测的惩罚系数,λnoobj为非类别目标时的惩罚系数,S表示特征层的网格数,nA表示特征层的锚框数,则S2×nA表示图像中所有候选框数,表示第i个候选框负责检测目标,/>表示第i个候选框不负责检测目标,/>表示第i个候选框负责的目标真实框的左上角和右下角的坐标值,/>表示第i个候选框预测的左上角和右下角的坐标值,/>Ci分别表示第i个候选框负责的目标真实置信度和预测置信度,/>pi(c)分别表示第i个候选框负责的目标属于某一类别的真实概率值和预测概率值,c代表某个类别标号,classes表示类别标号集合。
进一步地,所述目标检测模型训练完成之后,所述方法还包括:
将每次迭代训练得到的目标检测模型中,总损失值小于预设的损失阈值的目标检测模型作为候选目标检测模型;
将验证集中的每张验证样本图像输入每个候选目标检测模型,根据验证集中的每张验证样本图像对应的验证标签信息和每个候选目标检测模型输出的预测框及预测类别,确定每个候选目标检测模型的平均精度均值;
将平均精度均值最高的候选目标检测模型确定为训练完成的目标检测模型。
另一方面,本发明实施例提供了一种道路目标检测装置,所述装置包括:
训练模块,用于针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;根据每组预测框和真实框的损失值,完成对目标检测模型的训练;
检测模块,用于将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
进一步地,所述装置还包括:
标签信息生成模块,用于针对训练集中的每张样本图像,生成与该样本图像对应的标签信息,其中,该标签信息中记录有每个目标的类别,以及每个目标的目标真实框的中心点横坐标相对该样本图像的宽的归一化值,目标真实框的中心点纵坐标相对该样本图像的高的归一化值,目标真实框的宽相对该样本图像的宽的归一化值,目标真实框的高相对该样本图像的高的归一化值。
进一步地,所述装置还包括:
样本增强模块,用于对训练集中的样本图像进行样本增强处理,生成新的样本图像;其中,所述样本增强处理包括对样本图像的尺寸进行随机增大或缩小、对样本图像进行随机概率水平翻转、对样本图像的亮度进行随机调整、对样本图像的色度进行随机调整、对样本图像的对比度进行随机调整。
进一步地,所述训练模块,还用于基于所述目标检测模型计算预先确定的锚框的预测类别和偏移量,调整锚框位置,输出该样本图像的预测框;
其中,预先确定锚框的过程包括:
预先设置锚框的数量,采用Kmeans聚类算法对训练集中的样本图像的真实框进行聚类,得到目标检测模型的锚框,其中,聚类过程中真实框与聚类中心框的距离表示为d=1-IoU。
进一步地,所述训练模块,具体用于所述针对训练集中的每张样本图像,将该样本图像与训练集中的任一其他样本图像按照预设的权重进行相加,生成混合处理后的图像,并将该样本图像与该任一其他样本图像的标签信息进行合并,将混合处理后的图像和合并后的标签信息输入到目标检测模型。
进一步地,所述训练模块,具体用于根据β(1.5,1.5)分布,分别确定该样本图像的第一权重值和训练集中的任一其他样本图像的第二权重值,根据所述第一权重值和第二权重值,对该样本图像和该任一其他样本图像的像素点进行相加。
进一步地,所述训练模块,具体用于根据每组预测框和真实框的损失值,计算总损失值;判断相邻两次迭代训练得到的总损失值是否满足|Lt-Lt-1|/Lt-1≤ε,或者判断迭代训练次数是否达到预设的次数阈值,如果满足上述任一条件,目标检测模型训练完成;ε为预设的收敛阈值;其中,总损失函数为
式中,坐标回归采用LrIoU损失函数,置信度及类别概率采用二元交叉熵损失函数Lbce,λcoord为坐标预测的惩罚系数,λnoobj为非类别目标时的惩罚系数,S表示特征层的网格数,nA表示特征层的锚框数,则S2×nA表示图像中所有候选框数,表示第i个候选框负责检测目标,/>表示第i个候选框不负责检测目标,/>表示第i个候选框负责的目标真实框的左上角和右下角的坐标值,/>表示第i个候选框预测的左上角和右下角的坐标值,/>Ci分别表示第i个候选框负责的目标真实置信度和预测置信度,/>pi(c)分别表示第i个候选框负责的目标属于某一类别的真实概率值和预测概率值,c代表某个类别标号,classes表示类别标号集合。
进一步地,所述训练模块,还用于将每次迭代训练得到的目标检测模型中,总损失值小于预设的损失阈值的目标检测模型作为候选目标检测模型;将验证集中的每张验证样本图像输入每个候选目标检测模型,根据验证集中的每张验证样本图像对应的验证标签信息和每个候选目标检测模型输出的预测框及预测类别,确定每个候选目标检测模型的平均精度均值;将平均精度均值最高的候选目标检测模型确定为训练完成的目标检测模型。
另一方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法步骤。
另一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。
本发明实施例提供了一种道路目标检测方法、装置、电子设备及存储介质,所述方法包括:针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;根据每组预测框和真实框的损失值,完成对目标检测模型的训练;将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
由于在本发明实施例中,将待检测的图像输入到目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标,并且在训练目标检测模型时,采用改进的交并比损失函数LrIoU=-In(rIoU)计算损失值,替代原始的对四个坐标偏移量的分别进行的损失函数计算,解决了标框不准的问题,rIoU=0.5×(IoU+U/C),可知rIoU的范围为大于0小于等于1,解决了当预测框和真实框没有重叠时,IoU始终为0而无法对模型优化的问题,并且,本发明实施例提供的改进的交并比损失函数LrIoU=-In(rIoU),其梯度随着rIoU的减小而逐渐增大,使得损失函数更加合理并加快了坐标回归的收敛速度。因此,本发明实施例提供的用于道路目标检测的模型训练过程效率较高,并且道路目标检测的准确率较高。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的道路目标检测过程示意图,该过程包括以下步骤:
S101:针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别。
本发明实施例提供的模型训练方法应用于电子设备,该电子设备可以是PC、平板电脑等设备,也可以是服务器。
电子设备中预先保存有用于训练模型的训练集,训练集中的每张样本图像存在对应的标签信息。
具体的,可以采用txt文件记录标签信息,标签信息包括目标真实框的坐标信息和类别,目标真实框的坐标信息可以用目标真实框左上角像素点和右下角像素点的坐标来表示,或者用右上角像素点和左下角像素点的坐标来表示,再或者用目标真实框四个拐点的坐标来表示。本发明实施例中的类别包括汽车,公交,人,自行车,卡车,摩托车,交通灯,交通标志等,可以为每个类别分配对应的标号,例如,汽车,公交,人,自行车,卡车,摩托车,交通灯,交通标志对应的标号分别为0,1,2,3,4,5,6,7。
另外,标签信息可以采用如下方式进行记录。
针对训练集中的每张样本图像,生成与该样本图像对应的标签信息,其中,该标签信息中记录有每个目标的类别,以及每个目标的目标真实框的中心点横坐标相对该样本图像的宽的归一化值,目标真实框的中心点纵坐标相对该样本图像的高的归一化值,目标真实框的宽相对该样本图像的宽的归一化值,目标真实框的高相对该样本图像的高的归一化值。
具体的,txt文件的每行表示一个目标,格式为:[类别标号x y w h],其中x表示目标真实框的中心点横坐标相对该样本图像的宽的归一化值,y表示目标真实框的中心点纵坐标相对该样本图像的高的归一化值,w表示目标真实框的宽相对该样本图像的宽的归一化值,h表示目标真实框的高相对该样本图像的高的归一化值。
电子设备将训练集中的每张样本图像和对应的标签信息输入目标检测模型,对目标检测模型进行训练。
S102:根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形。
目标检测模型接收到输入的每张样本图像后,输出目标的预测框,然后根据预测框和真实框的差异,修改模型训练的参数,这样一直迭代计算,得到最终的目标检测模型。
损失函数的作用是量化预测框和真实框的差异。在本发明实施例中,对传统的损失函数进行了改进,改进后的损失函数为LrIoU=-In(rIoU),根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形。
S103:根据每组预测框和真实框的损失值,完成对目标检测模型的训练。
根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,电子设备中可以保存预设的损失阈值,当每组预测框和真实框的损失值都小于预设的损失阈值时,可以认为得到的目标检测模型输出的预测框与真实框的差异很小,此时认为对目标检测模型的训练完成。
需要说明的是,为了提高对模型训练的效率,在本发明实施例中,可以采用yolov3模型前53层在ImageNet上得到的预训练权重作为模型训练初始参数,以便加快训练速度,对输入数据进行前向传播计算得到输出即预测值。
S104:将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
由于在本发明实施例中,将待检测的图像输入到目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标,并且在训练目标检测模型时,采用改进的交并比损失函数LrIoU=-In(rIoU)计算损失值,替代原始的对四个坐标偏移量的分别进行的损失函数计算,解决了标框不准的问题,rIoU=0.5×(IoU+U/C),可知rIoU的范围为大于0小于等于1,解决了当预测框和真实框没有重叠时,IoU始终为0而无法对模型优化的问题,并且,本发明实施例提供的改进的交并比损失函数LrIoU=-In(rIoU),其梯度随着rIoU的减小而逐渐增大,使得损失函数更加合理并加快了坐标回归的收敛速度。因此,本发明实施例提供的用于道路目标检测的模型训练过程效率较高,并且道路目标检测的准确率较高。
实施例2:
为了避免样本图像过少而造成的模型过拟合现象,在上述实施例的基础上,在本发明实施例中,所述针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型之前,所述方法还包括:
对训练集中的样本图像进行样本增强处理,生成新的样本图像;其中,所述样本增强处理包括对样本图像的尺寸进行随机增大或缩小、对样本图像进行随机概率水平翻转、对样本图像的亮度进行随机调整、对样本图像的色度进行随机调整、对样本图像的对比度进行随机调整。
在本发明实施例中,通过对训练集中的样本图像进行随机增强处理,来丰富样本图像。样本增强处理包括对样本图像的尺寸进行随机增大或缩小、对样本图像进行随机概率水平翻转、对样本图像的亮度进行随机调整、对样本图像的色度进行随机调整、对样本图像的对比度进行随机调整。
具体的,对样本图像的尺寸进行随机增大或缩小时,裁剪尺寸范围可以是原样本图像尺寸的-0.3至0.3内的随机值。如果是正值,则表示将原图像进行缩小处理,如果是负值,则表示将原图像进行放大处理,放大后空白处的像素值可以设置为0。例如,样本图像的尺寸为100×100,裁剪尺寸随机到的值为0.1,则将样本图像每个边缘由外到内裁剪10个像素点,得到90×90的新的样本图像并加入训练集。需要说明的是,对图像进行裁剪时,每条边对应的裁剪尺寸的随机值可以相同也可以不同。
对样本图像进行随机概率水平翻转时,随机概率例如可以是0.5,也就是针对每个样本图像,有一半的概率进行水平翻转,得到新的样本图像。对样本图像的亮度、色度和对比度进行随机调整时,可以预设调整的范围,在预设调整的范围内,随机增大或缩小样本图像的亮度、色度和对比度,得到新的样本图像。
采用本发明实施例提供的方法可以丰富训练集的样本图像,从而避免样本图像过少而造成的模型过拟合现象。
另外,在本发明实施例中,电子设备可以预先保存验证集,用于对训练好的目标检测模型进行检验,也可以随机将训练集中的小部分图像作为验证集中的验证样本图像,例如随机将训练集中的10%的图像作为验证集中的验证样本图像。
实施例3:
在训练模型的过程中,需要预先确定锚框,目标检测模型计算预先确定的锚框的预测类别和偏移量,调整锚框位置,输出该样本图像的预测框。
本发明实施例中,预先确定锚框的过程包括:
预先设置锚框的数量,采用Kmeans聚类算法对训练集中的样本图像的真实框进行聚类,得到目标检测模型的锚框,其中,聚类过程中真实框与聚类中心框的距离表示为d=1-IoU。
在本发明实施例中,采用Kmeans聚类算法对训练集中的样本图像的真实框进行聚类,预先设置锚框的数量即为Kmeans聚类算法中的K值,例如,预先设置锚框的数量为9,则经过Kmeans聚类算法得到9个锚框。聚类过程中真实框与聚类中心框的距离表示为d=1-IoU,代替传统的欧式距离作为真实框和聚类中心框的距离,使生成的锚框不受尺度大小的影响。例如,真实框A的宽高分别为wA,hA,聚类中心框B的宽高分别为wB,hB,I=|A∩B|=min(wA,wB)×min(hA,hB),U=|A∪B|=wA×hA+wB×hB-I。
在本发明实施例中,通过Kmeans聚类算法对训练集中的样本图像的真实框进行聚类,得到目标检测模型的锚框,相较于现有技术中的采用经验设置固定比例尺寸的锚框,可更灵活地基于当前训练集的目标特征分布生成适合的锚框,加快训练收敛速度的同时提高了标框的准确度。
实施例4:
为了降低模型训练过程中的对抗性干扰,在上述各实施例的基础上,在本发明实施例中,所述针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型包括:
所述针对训练集中的每张样本图像,将该样本图像与训练集中的任一其他样本图像按照预设的权重进行相加,生成混合处理后的图像,并将该样本图像与该任一其他样本图像的标签信息进行合并,将混合处理后的图像和合并后的标签信息输入到目标检测模型。
在本发明实施例中,针对训练集中的每张样本图像,将该样本图像与训练集中的任一其他样本图像按照预设的权重进行相加,生成混合处理后的图像。其中,可以预先设定该样本图像的第一权重值和该任一其他样本图像第二权重值,然后根据该样本图像的第一权重值和该任一其他样本图像第二权重值对该样本图像与该任一其他样本图像中的像素点进行加权求和,得到混合处理后的图像。较佳的,可以根据β(1.5,1.5)分布,分别确定该样本图像的第一权重值和训练集中的任一其他样本图像的第二权重值,根据所述第一权重值和第二权重值,对该样本图像和该任一其他样本图像的像素点进行相加。混合处理后的图像的宽和高为该样本图像和该任一其他样本图像中较大的宽和较大的高,对于空白处的像素点,像素值可以设置为0。
在对两幅图像进行混合处理之后,还需要对两幅图像的标签信息进行合并,包括对真实框的坐标信息的合并以及类别的合并,然后将混合处理后的图像和合并后的标签信息输入到目标检测模型,对模型进行训练。
在本发明实施例中,使用混合处理后的图像作为训练模型的输入,缓解了模型训练过程中的对抗性干扰的敏感性。
实施例5:
为了使训练得到的模型更准确,在上述各实施例的基础上,在本发明实施例中,所述根据每组预测框和真实框的损失值,完成对目标检测模型的训练包括:
根据每组预测框和真实框的损失值,计算总损失值;
判断相邻两次迭代训练得到的总损失值是否满足|Lt-Lt-1|/Lt-1≤ε,或者判断迭代训练次数是否达到预设的次数阈值,如果满足上述任一条件,目标检测模型训练完成;ε为预设的收敛阈值;其中,总损失函数为
式中,坐标回归采用LrIoU损失函数,置信度及类别概率采用二元交叉熵损失函数Lbce,λcoord为坐标预测的惩罚系数,λnoobj为非类别目标时的惩罚系数,S表示特征层的网格数,nA表示特征层的锚框数,则S2×nA表示图像中所有候选框数,表示第i个候选框负责检测目标,/>表示第i个候选框不负责检测目标,/>表示第i个候选框负责的目标真实框的左上角和右下角的坐标值,/>表示第i个候选框预测的左上角和右下角的坐标值,/>Ci分别表示第i个候选框负责的目标真实置信度和预测置信度,/>pi(c)分别表示第i个候选框负责的目标属于某一类别的真实概率值和预测概率值,c代表某个类别标号,classes表示类别标号集合。
具体的,已知真实框坐标和预测框坐标x1y1x2y2。
在本发明实施例中,每次迭代训练之后,计算当前的总损失值L,判断相邻两次迭代训练得到的总损失值是否满足|Lt-Lt-1|/Lt-1≤ε,其中,ε为预设的收敛阈值,可以为10-5。如果满足,可以将最后一次得到的模型作为训练完成的模型。或者是判断迭代训练次数是否达到预设的次数阈值,如果是,可以将最后一次得到的模型作为训练完成的模型。
为了进一步使确定的目标检测模型更准确,在本发明实施例中,所述目标检测模型训练完成之后,所述方法还包括:
将每次迭代训练得到的目标检测模型中,总损失值小于预设的损失阈值的目标检测模型作为候选目标检测模型;
将验证集中的每张验证样本图像输入每个候选目标检测模型,根据验证集中的每张验证样本图像对应的验证标签信息和每个第一候选目标检测模型输出的预测框及预测类别,确定每个候选目标检测模型的平均精度均值;
将平均精度均值最高的候选目标检测模型确定为训练完成的目标检测模型。
在本发明实施例中,每次迭代训练得到目标检测模型之后,判断当次的目标检测模型的总损失值是否小于预设的损失阈值,如果是,将当次的目标检测模型作为候选目标检测模型,并继续进行迭代训练,直至相邻两次迭代训练得到的总损失值满足|Lt-Lt-1|/Lt-1≤ε,或者迭代训练次数达到预设的次数阈值,停止进行迭代训练。
然后针对每个候选目标检测模型,将验证集中的每张验证样本图像输入该候选目标检测模型,根据验证集中的每张验证样本图像对应的验证标签信息和该候选目标检测模型输出的预测框及预测类别,确定该候选目标检测模型的平均精度均值mAP。其中,确定候选目标检测模型的平均精度均值mAP的过程属于现有技术,在此不再对该过程进行赘述。
然后在候选目标检测模型中,选取平均精度均值最高的候选目标检测模型作为训练完成的目标检测模型。
在本发明实施例中,定义了道路目标检测需要识别的目标类别,通过标注车载摄像视频解码得到的若干道路样本图像生成的对应标签文件,再进行几何变换和色彩抖动等数据增强方法扩增样本,形成待使用的道路目标检测训练集;使用mixup图像混合技术生成道路视觉相干图像及对应的合并标签信息输入模型进行训练,解决了复杂路况下目标堆叠时检测精度低的问题;提出使用改进的交并比损失函数,减小了不同尺度目标对损失函数的影响,简化了坐标回归迭代的过程,在加速迭代的同时提高了标框位置的准确性。
图2为本发明实施例提供的道路目标检测流程示意图,如图2所示,针对训练集中的每张样本图像,生成与该样本图像对应的标签文件,其中,训练集中的样本图像可以是车载摄像视频解码得到的图像。对训练集中的样本图像进行样本增强处理,生成新的样本图像,作为道路目标检测训练集中的样本图像。生成视觉相干图像并合并对应标签,具体的,针对训练集中的每张样本图像,将该样本图像与训练集中的任一其他样本图像按照预设的权重进行相加,生成混合处理后的图像,并将该样本图像与该任一其他样本图像的标签信息进行合并。采用Kmeans聚类算法对训练集中的样本图像的真实框进行聚类,得到目标检测模型的锚框,yolov3前向网络基于锚框输出样本图像的预测框。根据每组预测框和真实框的损失值,计算总损失值;判断相邻两次迭代训练得到的总损失值是否满足|Lt-Lt-1|/Lt-1≤ε,或者判断迭代训练次数是否达到预设的次数阈值,如果满足上述任一条件,目标检测模型训练完成,如果都不满足,则更新模型参数。将每次迭代训练得到的目标检测模型中,总损失值小于预设的损失阈值的目标检测模型作为候选目标检测模型;将验证集中的每张验证样本图像输入每个候选目标检测模型,根据验证集中的每张验证样本图像对应的验证标签信息和每个候选目标检测模型输出的预测框及预测类别,确定每个候选目标检测模型的平均精度均值;将平均精度均值最高的候选目标检测模型确定为训练完成的目标检测模型。
实施例6:
图3为本发明实施例提供的道路目标检测装置结构示意图,该装置包括:
训练模块31,用于针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;根据每组预测框和真实框的损失值,完成对目标检测模型的训练;
检测模块32,用于将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
所述装置还包括:
标签信息生成模块33,用于针对训练集中的每张样本图像,生成与该样本图像对应的标签信息,其中,该标签信息中记录有每个目标的类别,以及每个目标的目标真实框的中心点横坐标相对该样本图像的宽的归一化值,目标真实框的中心点纵坐标相对该样本图像的高的归一化值,目标真实框的宽相对该样本图像的宽的归一化值,目标真实框的高相对该样本图像的高的归一化值。
所述装置还包括:
样本增强模块34,用于对训练集中的样本图像进行样本增强处理,生成新的样本图像;其中,所述样本增强处理包括对样本图像的尺寸进行随机增大或缩小、对样本图像进行随机概率水平翻转、对样本图像的亮度进行随机调整、对样本图像的色度进行随机调整、对样本图像的对比度进行随机调整。
所述训练模块31,还用于基于所述目标检测模型计算预先确定的锚框的预测类别和偏移量,调整锚框位置,输出该样本图像的预测框;
其中,预先确定锚框的过程包括:
预先设置锚框的数量,采用Kmeans聚类算法对训练集中的样本图像的真实框进行聚类,得到目标检测模型的锚框,其中,聚类过程中真实框与聚类中心框的距离表示为d=1-IoU。
所述训练模块31,具体用于所述针对训练集中的每张样本图像,将该样本图像与训练集中的任一其他样本图像按照预设的权重进行相加,生成混合处理后的图像,并将该样本图像与该任一其他样本图像的标签信息进行合并,将混合处理后的图像和合并后的标签信息输入到目标检测模型。
所述训练模块31,具体用于根据β(1.5,1.5)分布,分别确定该样本图像的第一权重值和训练集中的任一其他样本图像的第二权重值,根据所述第一权重值和第二权重值,对该样本图像和该任一其他样本图像的像素点进行相加。
所述训练模块31,具体用于根据每组预测框和真实框的损失值,计算总损失值;判断相邻两次迭代训练得到的总损失值是否满足|Lt-Lt-1|/Lt-1≤ε,或者判断迭代训练次数是否达到预设的次数阈值,如果满足上述任一条件,目标检测模型训练完成;ε为预设的收敛阈值;其中,总损失函数为
式中,坐标回归采用LrIoU损失函数,置信度及类别概率采用二元交叉熵损失函数Lbce,λcoord为坐标预测的惩罚系数,λnoobj为非类别目标时的惩罚系数,S表示特征层的网格数,nA表示特征层的锚框数,则S2×nA表示图像中所有候选框数,表示第i个候选框负责检测目标,/>表示第i个候选框不负责检测目标,/>表示第i个候选框负责的目标真实框的左上角和右下角的坐标值,/>表示第i个候选框预测的左上角和右下角的坐标值,/>Ci分别表示第i个候选框负责的目标真实置信度和预测置信度,/>pi(c)分别表示第i个候选框负责的目标属于某一类别的真实概率值和预测概率值,c代表某个类别标号,classes表示类别标号集合。
所述训练模块31,还用于将每次迭代训练得到的目标检测模型中,总损失值小于预设的损失阈值的目标检测模型作为候选目标检测模型;将验证集中的每张验证样本图像输入每个候选目标检测模型,根据验证集中的每张验证样本图像对应的验证标签信息和每个候选目标检测模型输出的预测框及预测类别,确定每个候选目标检测模型的平均精度均值;将平均精度均值最高的候选目标检测模型确定为训练完成的目标检测模型。
实施例7:
在上述各实施例的基础上,本发明实施例中还提供了一种电子设备,如图4所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;
根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;
根据每组预测框和真实框的损失值,完成对目标检测模型的训练;
将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与道路目标检测方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、网络侧设备等。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中处理器执行存储器上所存放的程序时,实现针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;根据每组预测框和真实框的损失值,完成对目标检测模型的训练;将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
由于在本发明实施例中,将待检测的图像输入到目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标,并且在训练目标检测模型时,采用改进的交并比损失函数LrIoU=-In(rIoU)计算损失值,替代原始的对四个坐标偏移量的分别进行的损失函数计算,解决了标框不准的问题,rIoU=0.5×(IoU+U/C),可知rIoU的范围为大于0小于等于1,解决了当预测框和真实框没有重叠时,IoU始终为0而无法对模型优化的问题,并且,本发明实施例提供的改进的交并比损失函数LrIoU=-In(rIoU),其梯度随着rIoU的减小而逐渐增大,使得损失函数更加合理并加快了坐标回归的收敛速度。因此,本发明实施例提供的用于道路目标检测的模型训练过程效率较高,并且道路目标检测的准确率较高。
实施例8:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;
根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;
根据每组预测框和真实框的损失值,完成对目标检测模型的训练;
将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与道路目标检测方法相似,因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储计算机程序,计算机程序被处理器执行时实现针对训练集中的每张样本图像,将该样本图像和对应的标签信息输入目标检测模型;其中,该标签信息中记录有目标真实框的坐标信息和类别;根据损失函数LrIoU=-In(rIoU)计算目标检测模型输出的每组预测框和真实框的损失值,其中,rIoU=0.5×(IoU+U/C),IoU=I/U,I为预测框和真实框的交集,U为预测框和真实框的并集,C为能包围预测框和真实框的最小矩形;根据每组预测框和真实框的损失值,完成对目标检测模型的训练;将待检测的图像输入到所述目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标。
由于在本发明实施例中,将待检测的图像输入到目标检测模型中,基于所述目标检测模型检测出所述待检测的图像中的道路目标,并且在训练目标检测模型时,采用改进的交并比损失函数LrIoU=-In(rIoU)计算损失值,替代原始的对四个坐标偏移量的分别进行的损失函数计算,解决了标框不准的问题,rIoU=0.5×(IoU+U/C),可知rIoU的范围为大于0小于等于1,解决了当预测框和真实框没有重叠时,IoU始终为0而无法对模型优化的问题,并且,本发明实施例提供的改进的交并比损失函数LrIoU=-In(rIoU),其梯度随着rIoU的减小而逐渐增大,使得损失函数更加合理并加快了坐标回归的收敛速度。因此,本发明实施例提供的用于道路目标检测的模型训练过程效率较高,并且道路目标检测的准确率较高。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。