CN110765886B

CN110765886B - 一种基于卷积神经网络的道路目标检测方法及装置

Info

Publication number: CN110765886B
Application number: CN201910931498.6A
Authority: CN
Inventors: 李国法; 杨一帆; 赖伟鉴; 朱方平; 陈耀昱; 曲行达
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-05-03
Anticipated expiration: 2039-09-29
Also published as: CN110765886A

Abstract

本申请适用于图像处理技术领域，提供了一种基于卷积神经网络的目标检测方法及装置，方法包括：将实时图像导入目标检测网络，输出所述实时图像包含的目标对象；所述目标检测网络包括卷积层，逆卷积层，特征增强快，特征融合块，第一回归器以及第二回归器。本申请的方法能解决现有技术中基于卷积神经网络的目标检测方法存在对小尺度物体检测不敏感的问题。

Description

一种基于卷积神经网络的道路目标检测方法及装置

技术领域

本申请属于图像处理技术领域，尤其涉及一种基于卷积神经网络的道路目标检测方法及装置。

背景技术

对于自动驾驶车辆，视觉感知单元对于自动驾驶车辆感知周边环境具有重要意义，其中，道路目标检测任务是自动驾驶车辆视觉感知单元中最基础且至关重要的任务。对于车载摄像头拍摄的驾驶场景画面，里面绝大多数物体都是尺度较小的，有效的对这些小物体进行识别将进一步提升自动驾驶车辆安全驾驶问题，因此一种适用于自主驾驶的道路目标检测方法应具有较高的准确性和高效性，具有较强的检测小尺度目标的能力。

近年来，现有技术中基于深度神经网络的目标检测方法检测精度在不断提高，然而，一般而言，大多数检测方法并没有对小尺度目标检测做出较好的优化，检测小尺度目标的能力有待提高。

发明内容

为了解决现有技术中基于深度神经网络的目标检测方法存在对小尺度物体检测不敏感的问题，本申请实施例提供了一种基于卷积神经网络的道路目标检测方法及装置，并且提高了对小尺度物体检测的准确率，可以对道路环境上的私家车，公交车，卡车，行人，摩托，自行车，骑手，交通灯及交通标志等9 种常见道路交通物体进行有效检测。

第一方面，本申请实施例提供了一种目标检测方法，包括：获取训练场景图像；所述训练场景图像内包含各个训练目标的真值框；

通过卷积神经网络内的N层卷积层输出所述训练场景图像的N层卷积图像，并对第N层卷积图像执行第一特征融合操作，得到各个层级对应的逆卷积图像；所述N为大于2的正整数；

基于预设的特征增强算法，输出第一层卷积图像对应的第一增强图像以及第二层卷积图像对应的第二增强图像；

根据所述N层卷积图像，在所述训练场景图像内按预设锚点框定位算法生成多个初始锚点框；

根据所述第一增强图像、所述第二增强图像、剩余卷积图像、所述初始锚点框以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第一损失参数；所述剩余卷积图像为除所述第一层卷积图像以及所述第二层卷积图像外其他层级对应的卷积图像；

根据所述第一损失参数，调整所述初始锚点框，得到第一调整框；

对所有所述逆卷积图像、所述第一增强图像、所述第二增强图像以及所述剩余卷积图像执行第二特征融合操作，得到各个层级对应的融合特征图；

根据所有所述融合特征图、所述第一调整框、以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第二损失参数；

基于所述第一损失参数以及所述第二损失参数，调整所述卷积神经网络的参数，得到目标检测网络；

将实时图像导入所述目标检测网络，输出所述实时图像包含的目标对象。

在第一方面的一种可能的实现方式中，在获取训练场景图像之后，对所述训练场景图像进行图像增强，包括通过随机的裁剪、翻转、颜色改变、仿射变换和/或高斯噪音来进行图像增强，以便于扩充训练场景图像的数量。

示例性的，所述卷积神经网络可以为Vgg，Resenet，Mobilenet系列网络中的一种或多种的结合；所述目标检测网络可以基于tensorflow或其他深度学习框架搭建。

应理解，所述卷积神经网络可以是现有技术中的任一种；根据所述卷积神经网络对应的卷积设置对应的卷积参数，通过深度学习框架里的api设置，得到卷积核；通过所述卷积核对图像进行处理后，处理后的图像的图像尺寸为处理前图像尺寸的一半。

第二方面，本申请实施例提供了一种装置，包括：

获取图像模块，用于获取训练场景图像；所述训练场景图像内包含各个训练目标的真值框；

卷积层模块，用于通过卷积神经网络内的N层卷积层输出所述训练场景图像的多个卷积图像；所述N为大于2的正整数；

逆卷积层模块，用于对第N层卷积图像执行第一特征融合操作，得到各个层级对应的逆卷积图像；

特征增强模块，用于基于预设的特征增强算法，输出第一层卷积图像对应的第一增强图像以及第二层卷积图像对应的第二增强图像；

锚点框预设模块，用于根据所述N层卷积图像，在所述训练场景图像内按预设锚点框定位算法生成多个初始锚点框；

第一损失模块，用于根据所述第一增强图像、所述第二增强图像、剩余卷积图像、所述初始锚点框以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第一损失参数；所述剩余卷积图像为除所述第一层卷积图像以及所述第二层卷积图像外其他层级对应的卷积图像；

第一回归模块，用于根据所述第一损失参数，调整所述初始锚点框，得到第一调整框；

特征融合模块，用于对所有所述逆卷积图像、所述第一增强图像、所述第二增强图像以及所述剩余卷积图像执行第二特征融合操作，得到各个层级对应的融合特征图；

第二损失模块，用于根据所有所述融合特征图、所述第一调整框、以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第二损失参数；

第二回归模块，用于基于所述第一损失参数以及所述第二损失参数，调整所述卷积神经网络的参数，得到目标检测网络；

目标检测模块，用于将实时图像导入所述目标检测网络，输出所述实时图像包含的目标对象。

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面所述的目标检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的目标检测方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面所述的目标检测方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：通过本申请所述的目标检测方法，包括对卷积神经网络的深度学习训练，以及将实时图像导入训练后的卷积神经网络，得到目标检测的结果，可以解决现有技术中，对小尺度目标的检测不敏感的问题。本申请所述目标检测方法，通过利用更小的锚点框进行锚点框预测，以及通过两级边框回归，使得训练后的卷积神经网络，兼顾目标检测速度的同时，其预测的目标检测结果，特别是小尺度目标的检测结果，相较于现有技术，更加接近真值。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例提供的目标检测方法的实现流程图；

图2是本申请一实施例提供的应用场景示意图；

图3是本申请一实施例提供的卷积神经网络的结构示意图；

图4是本申请一实施例提供的特征融合方法的示意图；

图5是本申请第二实施例提供的目标检测方法S103的实现流程图；

图6是本申请一实施例提供的注意力机制的示意图；

图7是本申请第三实施例提供的目标检测方法S104的实现流程图；

图8是本申请第四实施例提供的目标检测方法S105的实现流程图；

图9是本申请第五实施例提供的目标检测方法S106的实现流程图；

图10是本申请第六实施例提供的目标检测方法S108的实现流程图；

图11是本申请第七实施例提供的目标检测方法S109的实现流程图；

图12是本申请实施例提供的目标检测装置的结构示意图；

图13是本申请实施例提供的网络设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在本发明实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行目标检测方法的设备。优选地，该终端设备具体为一目标检测装置，该终端设备能够通过输入训练图像基于卷积神经网络训练目标检测网络，将实时图像导入该目标检测网络从而实现目标检测。图1示出了本发明第一实施例提供的目标检测方法的实现流程图，详述如下：

在S101中，获取训练场景图像；所述训练场景图像内包含各个训练目标的真值框。

在本实施例中，获取训练场景图像，可选地，在获取训练场景图像之后，对所述训练场景图像进行图像增强，包括通过随机的裁剪、翻转、颜色改变、仿射变换和/或高斯噪音来进行图像增强，以便于扩充训练场景图像的数量。将训练场景图像导入终端设备，或者终端设备可以从训练数据库内随机提取多个训练场景图像，训练场景图像可以为预先拍摄得到的实时场景图像，即该训练场景图像中存在需要目标检测网络识别的检测对象，即上述的训练对象，管理员可以手动标记训练场景图像中各个训练对象的区域，即上述的真值框，每个真值框对应一个框信息，该框信息可以包括真值框的尺寸信息，例如中心位置、大小、高宽比等，该框信息还可以包括训练目标的种类。上述真值框用于作为后续判断目标检测网络的预测准确性的标准。

在本实施例中，训练目标的种类采用one-hot编码决定，本实施例提供的目标检测方法可检测至少9种目标种类，包括道路环境上的私家车，公交车，卡车，行人，摩托，自行车，骑手，交通灯及交通标志，再加上背景类，一共可以采用至少10种one-hot编码表示。

在S102中，通过卷积神经网络内的N层卷积层输出所述训练场景图像的 N层卷积图像。

在本实施例中，N为大于2的正整数，示例性地，以N的数值为6进行说明。通过卷积神经网络内的6层卷积层输出所述训练场景图像的6层卷积图像，具体地，通过对训练场景图像进行一次卷积得到第一层卷积层图像，再通过第一层卷积层图像进行再一次卷积得到第二层卷积层图像，以此类推得到一共6 层卷积层图像，上述的6层卷积层用于捕获训练场景图像中的各个不同尺度大小的训练目标的特征。

在本实施例中，每次卷积的卷积核通过深度学习框架里的API设置得到，每层卷积核卷积前后图像尺寸的比例一致，一般而言，上述图像尺寸指的是图像的高和宽。示例性地，卷积前后图像尺寸的比例为两倍。

在S103中，通过对第N层卷积图像执行第一特征融合操作，得到各个层级对应的逆卷积图像。

在本实施例中，示例性地，以N的数值为6进行说明，作为示例而非限定，可以是通过对第6层卷积图像执行一次卷积得到第6层逆卷积图像，通过对该第6层逆卷积图像进行一次标准逆卷积得到第5层逆卷积图像，该第5层逆卷积图像再进行一次标准逆卷积得到第4层逆卷积图像，以此类推得到各个层级对应的逆卷积图像，即可以得到6层逆卷积图像。上述逆卷积图像包含了卷积图像的特征信息，使得特征信息得到汇总，以便于后续进行第二特征融合，增加目标检测的准确性。

在S104中，基于预设的特征增强算法，输出第一层卷积图像对应的第一增强图像以及第二层卷积图像对应的第二增强图像。

在本实施例中，由于第一层卷积图像和第二层卷积图像的图像大小比较大，即图像中小尺度目标的特征较明显，因此本申请基于预设的特征增强对算法第一层卷积图像和第二层卷积图像进行特征增强，得到对应的第一增强图像和第二增强图像，以便于进一步放大第一层卷积图像和第二层卷积图像中的小尺度目标的特征，从而提高针对小尺度目标检测的准确性。为了使得目标检测网络对小尺度目标检测的精度更高同时兼顾目标检测网络的检测速度，特别地，只对第一层卷积层图像和第二层卷积层图像进行特征增强以放大小尺度目标的特征信息。

在S105中，根据所述N层卷积图像，在所述训练场景图像内按预设锚点框定位算法生成多个初始锚点框。

在本实施例中，示例性地，以N的数值为6进行说明，根据所述6层卷积图像，在所述训练场景图像内按预设的锚点框定位算法生成多个初始锚点框，该初始锚点框具体用于基于初始锚点框筛选符合预设条件的锚点框，以便于计算后续预测锚点框与真值框之间的偏移量。

在S106中，根据所述第一增强图像、所述第二增强图像、剩余卷积图像、所述初始锚点框以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第一损失参数。

在本实施例中，由于第一增强图像和第二增强图像放大了小尺度目标的特征信息，因此在S106中输入上述第一增强图像以及上述第二增强图像，以代替第一层卷积图像以及第二层卷积图像，从而提高了对于小尺度目标检测的准确性。示例性地，上述第一损失参数包括第一损失值以及第一偏移值，用于后续获取第一调整框和用于后续调整卷积神经网络的参数。

在S107中，根据所述第一损失参数，调整所述初始锚点框，得到第一调整框。

在本实施例中，根据上述第一损失参数，调整上述初始锚点框，得到第一调整框，可选地，上述第一损失参数包括第一偏移值，该第一偏移值具体为初始锚点框与该卷积神经网络预测的同个训练目标的预测框之间的偏移值，根据该第一偏移值调整该初始锚点框，得到第一调整框。上述第一调整框用于后续计算第二损失参数。

在S108中，通过对所有所述逆卷积图像、所述第一增强图像、所述第二增强图像以及所述剩余卷积图像执行第二特征融合操作，得到各个层级对应的融合特征图。

在本实施例中，所得到的6个融合特征图分别包含了对应层级的卷积图像和逆卷积图像的特征信息，以便于后续卷积神经网络通过该6个融合特征图，预测第二偏移值，计算第二损失参数。

在S109中，根据所有所述融合特征图、所述第一调整框、以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第二损失参数。

在本实施例中，输入的是所有上述融合特征图、上述第一调整框以及该训练场景图像包含的各个训练目标的真值框，输出的是上述第二损失参数。上述第二损失参数可以包括第二损失值以及第二偏移值，用于后续调整卷积神经网络的参数。

在S110中，根据第一损失参数以及所述第二损失参数，调整所述卷积神经网络的参数，得到目标检测网络。

在本实施例中，可选地，进行S101～S109之后，根据所得到的第一损失参数以及第二损失参数，调整卷积神经网络的参数，重复上述步骤，经过多次调整之后，得到目标检测网络。

在本实施例中，根据S101～S109得到的第一损失参数以及第二损失参数调整卷积神经网络的参数，即对卷积神经网络进行两次损失回归，包含了对卷积神经网络两次预测的纠正，提高了调整后得到的目标检测网络的目标检测精度，以便于后续对实时图像进行目标检测。

应理解，在本实施例中，训练场景图像的数量可以为多个，因此，终端设备需要对目标检测网络进行多次训练学习，而在多次训练学习的过程中，终端设备可以先重复S101～S106，根据所有训练场景图像所得到的第一损失参数调整卷积神经网络的参数，再重复S107～S109，根据所有训练场景图像所得到的第二损失参数调整卷积神经网络的参数，最后得到目标检测网络；也可以根据每个训练场景图像对目标检测网络进行单独训练，即进行S101～S106，根据所得到的第一损失参数调整卷积神经网络的参数后，然后进行S107～S109，根据所得到的第二损失参数调整卷积神经网络的参数，重复上述步骤，经过多次调整之后，得到目标检测网络。

在S111中，将实时图像导入所述目标检测网络，输出所述实时图像包含的目标对象。

在本实施例中，具体地，将实时图像导入所述目标检测网络，可选地，上述实时图像是通过摄像头获取的，通过目标检测网络对实时图像进行目标检测，确定实时图像包含的目标对象，其中，识别目标对象的具体方式可以可以参见 S101至S109的操作，检测目标对象的过程与对目标检测网络进行训练的过程相似，主要区别在于训练过程会计算第一损失参数和第二损失参数中的损失值，而进行目标检测的过程则无需执行上述操作，最后目标检测网络预测的实时图像包含的目标对象的预测框，标记目标对象的，输出包含以及对该目标对象的进行标记的实时图像，从而得到目标检测的结果。

在本实施例中，经过S110调整后的目标检测网络，相较于现有技术得到的目标检测网络，在兼顾检测速度的同时，提高了目标检测的精度，尤其是提高了对小尺度目标的检测精度。参见图2，图2示出了本申请一实施例的应用场景，详述如下：

本申请一实施例提供的目标检测方法应用于自动驾驶汽车上，作为实例而非限定，通过自动驾驶汽车上内置的摄像头获取实时图像，将实时图像导入调整后的目标检测网络，得到对该实时图像的各个道路目标的检测结果，自动驾驶汽车可以根据该检测结果进行安全驾驶，包括回避路人以及车辆、根据交通规则以及检测结果中关于交通标志以及交通灯的信息来进行安全驾驶。

在本实施例中，为了进一步证明本实施例的有益效果，提供实验数据如下：

表1.不同目标检测方法在BDD100K数据集上的结果对比(指标AP₅₀)

表2.不同目标检测方法在BDD100K数据集上的结果对比

其中，本申请得到的调整后的目标检测网络命名为CatchDet，本申请一实施例提供的基于卷积神经网络的目标检测方法也命名为CatchDet，而SSD和 YoloV3是现有技术中基于卷积神经网络的目标检测网络的方法，AP指的是不同种类目标检测的平均精度，AP₅₀指的是目标检测IOU大于0.5的平均精度， MAP指的是综合所有种类目标检测的AP值，AP_s指的是小尺度目标检测的平均精度，FPS指的是目标检测速度，实验环境为i9-9900X，TITANRTX。

表1和表2展示了不同目标检测方法在图像数据集上的检测结果，该图像数据集具体可以为BDD100K，其中交通灯和交通标识为小尺度目标。从表1 可以看出，CatchDet在两种小尺度目标的目标检测的平均精度比现有技术中两种方法更高。从表2可以看出，CatchDet对所有小尺度目标检测的平均精度比现有技术中两种方法更高，虽然综合所有种类目标检测的平均精度MAP不如 YoloV3，但检测速度FPS低于YoloV3。从上述两表可以看出，CatchDet兼顾检测速度的同时，特别地提高了对小尺度目标的检测精度。

图3示出了本申请一实施例提供的卷积神经网络的结构示意图，详细描述如下：

卷积神经网络包括基础网络、逆卷积网络、特征增强块、特征融合块、第一回归器和第二回归器。通过输入训练场景图像，得到第一损失参数和第一损失参数，用于调整卷积神经网络的参数，提高目标检测的准确性。

在本实施例中，整个网络命名为CatchDet，基础网络也叫下采样网络，用于采集特征信息较少的图像，包含了6层卷积层，示例性地，各层级的卷积层图像的尺寸为上一层级卷积层图像的尺寸的一半；逆卷积网络也叫上采样网络，用于采集特征信息较多的图像，图示最右边的逆卷积层为第一层逆卷积层，示例性地，各层级的逆卷积层图像的尺寸为上一层级逆卷积图像的尺寸的一半；特征增强块用于对第一层卷积图像和第二次卷积图像进行特征增强，只对第一层卷积图像和第二层卷积图像进行特征增强是为了兼顾目标检测速度和小尺度目标的检测精度；特征融合块用于整合卷积层和逆卷积层的特征信息，以便于提高目标检测网络的目标检测精度；第一回归器计算第一损失参数以及根据第一损失参数进行第一损失回归，第二回归器计算第二损失参数以及根据第二损失参数进行第二损失回归，用以提高目标检测网络的目标检测精度，特别地，提高目标检测网络对小尺度目标的检测精度。

图4示出了本申请一实施例提供的特征融合方法的示意图，详述如下：

其中，H×W×C代表图像的高、宽及通道数。在本实施例中，进行特征融合的两个图像的高、宽及通道数相等，可选地，进行特征融合的两个图像可以通过element-wise相加的算法进行特征融合，即上述进行特征融合的两个图像的各个对应的元素进行相加，得到高、宽及通道数不变的特征融合图；可选地，进行特征融合的两个图像可以通过通道拼接的算法进行特征融合，即上述两个待特征融合图像按照对应的通道拼接在一起的方法进行特征融合，得到高、宽不变及通道数为上述待特征融合图像的两倍的特征融合图。

图5示出了本申请第二实施例提供的目标检测方法S103的实现流程图。参见图5，相对于图1所述的实施例，本实施例提供的目标检测方法S103包括： S1031～S1034，具体详述如下：详述如下：

在S1031中，对第N层卷积图像进行卷积，得到第N层逆卷积图像。

在本实施例中，N为大于2的正整数。示例性地，在本实施例中的N为6，即对第6层卷积图像进行卷积，得到第6层逆卷积图像，具体地，上述第6层卷积图像和上述第6层逆卷积图像的尺寸相同。

在S1032中，通过预设的重利用算法输出第M层逆卷积图像对应的第一预备特征图，以及通过标准逆卷积算法输出第M层逆卷积图像对应的第二预备特征图。

其中，所述M为正整数，且所述M的初始值为N；所述第一预备特征图以及所述第二预备特征图的图像尺寸为所述第M层逆卷积图像的图像尺寸的两倍。

在本实施例中，预设的重利用算法包括最近邻插值、双线性插值等能够使得图像尺寸重新调整的方法或深度与空间之间的映射算法，上述映射算法指的是通过改变图像的通道数(深度)来改变图像的高宽(空间)，具体地，在本实施例中，通过减少图像的通道数来增加图像的高宽，从而使图像尺寸得到重新调整，作为示例而非限定，高、宽及通道数分别为7、7及192的图像经过深度与空间之间的映射算法，得到高、宽及通道数分别为14、14及48的图像。作为示例而非限定，上述第一预备特征图以及上述第二预备特征图的图像尺寸为所述第 6层逆卷积图像的图像尺寸的两倍。

在S1033中，将所述第一预备特征图和所述第二预备特征图进行特征融合，得到第M-1层逆卷积图像。

在本实施例中，将上述第一预备特征图和上述第二预备特征图进行特征融合。示例性地，具体地，特征融合的具体实现可参见图4所述实施例的内容，在此不再赘述。

在S1034中，若所述M的数值大于2，则减少所述M的数值，并返回执行S1032。

在本实施例中，若M的数值大于2，则减少M的数值，并返回执行S1032，即所述通过预设的重利用算法输出第M层逆卷积图像对应的第一预备特征图，以及通过标准逆卷积算法输出第M层逆卷积图像对应的第二预备特征图的操作。具体地，重复S1032以及S1033，直至得到第4层逆卷积图像、第3层逆卷积图像、第2层逆卷积图像以及第1层逆卷积图像。

在本实施例中，得到的上述6层逆卷积图像包含了6层卷积图像的特征信息，使得特征信息得到汇总，以便于后续进行第二特征融合，增加目标检测的准确性。

图6示出了本申请一实施例提供的注意力机制模型的结构示意图，详述如下：

参见图6，图6展示了一种注意力机制模型，也称为压缩激励机制，是一种通道注意力模型，通过为输入的特征图的每个通道配置不同的权重ω来筛选出重要的特征，权重ω由深度学习框架API得到，其更新的方向为损失下降的方向，导入注意力机制模型的特征图先通过1×1卷积进行降维处理，然后通过全局池化获取通道的特征值，之后通过全连接层计算出权重ω，再用权重ω乘以压缩后的特征图，最后得到重新标定后的特征图。

其中，H、W、C分别代表图像的高、宽、通道数，X代表输入的特征图， F_tr代表一个1×1卷积的降维操作，目的是通过降维(减少通道数)来减少后面步骤所需要的计算量。F_sq(·)代表一个在通道上的压缩操作，在本实施例中，示例性地，具体地，采用全局平均池化进行压缩操作，F_ex(·,W)代表将形状为 1×1×C的特征信息映射成另一个形状为1×1×C的特征信息(映射后的特征信息代表通道的重要性系数)，映射方案采用多层感知机，W代表多层感知机的权重，此权重的更新方向为损失梯度下降的方向。F_scala(·,·)代表将特征图U与映射后的特征信息(通道重要性系数)进行对应的通道上的乘法运算。最后得到重新标定后的特征图

图7示出了本申请第三实施例提供的目标检测方法S104的具体实现流程图。参见图7，相对于图1所述的实施例，本实施例提供的目标检测方法S104 包括：S1041～S1044，具体详述如下：

在S1041中，确定所述第一层卷积图像关联的邻近卷积图像，对所述邻近卷积图像以及所述第一卷积图像按预设的变换算法进行变换得到多个变换特征图。

在本实施例中，以所述第一层卷积图像为基准，确定上述第一层卷积图像关联的邻近卷积图像，包括第一层卷积图像的上两层卷积图像，或第一层卷积图像的上一层卷积图像和下一层卷积图像，或第一层卷积图像的下两层卷积图像；具体地，在本实施例中，第一层卷积图像关联的邻近卷积图像为第二层卷积图像以及第三层卷积图像；参见图3所示的CatchDet网络结构示意图，可选地，第一层卷积图像关联的邻近卷积图像包括训练场景图像以及第二层卷积图像，第二层卷积图像关联的邻近卷积图像包括训练场景图像以及第一层卷积图像。

作为示例而非限定，上述预设的变换算法可以为深度与空间之间的映射算法，即通过改变图像的通道数来改变图像的尺寸，具体地，在本实施例中，可以是通过减少图像的通道数来增加图像的高宽，也可以是通过增加图像的通道数来减小图像的高宽，例如，高、宽及通道数分别为28、28及16的图像经过空间和深度之间的变换方法，得到高、宽及通道数分别为7、7及256的图像。

在S1042中，基于预设的组合算法，将多个所述变换特征图合并为组合特征图。

在本实施例中，预设的组合算法包括通道拼接算法，具体实现可参见图4。

在S1043中，将所述组合特征图导入到注意力机制模型，输出所述第一层卷积图像对应的所述第一增强图像。

在本实施例，将上述组合特征图导入注意力机制模型，注意力机制模型具体实现参见图6所示，输出的重新标定后的特征图即为第一增强图像。上述第一增强图像的图像高宽与第一层卷积图像高宽相同。

在S1044中，通过第二卷积层图像进行特征增强得到第二增强图像，具体实现步骤如S1041～S1043所述。

在本实施例中，只对第一层卷积图像和第二层卷积图像进行特征增强，得到对应的第一增强图像和第二增强图像，以便于进一步放大第一层卷积图像和第二层卷积图像中的小尺度目标的特征，从而在兼顾目标检测速度的同时提高针对小尺度目标检测精度。

图8示出了本申请第四实施例提供的目标检测方法S105的具体实现流程图。参见图8，将对于图1所述的实施例，本实施例提供的目标检测方法S105 包括：S1051～S1057，详述如下：

在S1051中，基于所述训练场景图像的图像尺寸以及预设的第一比例，确定第一层卷积图像关联的第一锚点框的第一边框尺寸。

在本实施例中，所述第一比例为0.03～0.04之间的任一数值。

在S1052中，基于第一层卷积图像确定所述第一锚点框的第一中心位置。

在本实施例中，基于第一层卷积图像的高宽，将上述训练场景图像均分成 H×W个网络，具体地，H为第一层卷积图像的高，W为第一层卷积图像的宽，每个网络对应B种边框尺寸的锚点框，具体地，第一层卷积图像对应的B为1，每个网络的中心为第一锚点框的中心。

在S1053中，基于所述第一边框尺寸以及所述第一中心位置标记所述第一锚点框。

在本实施例中，S1051确定第一锚点框的第一边框尺寸，S1052确定第一锚点框的中心位置，具体地，本实施例采用三种不同的锚点框高宽比组合确定第一锚点框，高宽比分别是1:1，

和

从而确定第一锚点框，具体地，第一锚点框的数量为3×B×H×W。

在S1054中，基于所述图像尺寸以及各层级各自关联的第二比例，确定第二层卷积图像以及所述剩余卷积图像各自关联的第二锚点框的第二边框尺寸。

在本实施例中，上述剩余卷积图像指的是第三层卷积图像、第四层卷积图像、第五层卷积图像以及第六层卷积图像，上述第二比例为在0.05～0.8之间的任一数值，具体地，每层卷积图像对应的第二比例有3个且第二比例的大小和对应的卷积图像的层级成正比，即卷积图像所处的层级越高，则对应的第二比例的数值越大，作为示例而非限定，第二层卷积图像对应的第二比例为0.05、 0.1、0.15，第三层卷积图像对应的第二比例为0.2、0.25、0.3，第四层卷积图像对应的第二比例为0.35、0.4、0.45，第五层卷积图像对应的第二比例为0.5、0.55、 0.6，第六层卷积图像对应的第二比例为0.65、0.7、0.75。

在S1055中，基于第二层卷积图像以及所述剩余卷积图像确定各层级各自关联的所述第二锚点框的第二中心位置。

在本实施例中，以第二层卷积图像为例，基于第二层卷积图像的高宽，将上述训练场景图像均分成H×W个网络，具体地，H为该层卷积图像的高，W 为该层卷积图像的宽，每个网络对应B种边框尺寸的锚点框，具体地，第二层卷积图像以及剩余卷积图像对应的B为3，每个网络的中心为第二锚点框的中心。上述剩余卷积图像以此类推。

在S1056中，基于所述第二边框尺寸以及所述第二中心位置标记所述第二锚点框。

在本实施例中，以第二层卷积图像为例，S1054确定第二锚点框的三种不同的第二边框尺寸，S1055确定第二锚点框的中心位置，具体地，本实施例采用三种不同的锚点框高宽比组合确定第二锚点框，高宽比分别是1:1，

和

从而确定第二层卷积图像对应的第二锚点框，具体地，第二层卷积图像对应的第二锚点框的数量为3×B×H×W。上述剩余卷积图像对应的第二锚点框的确定以此类推。

在S1057中，根据所有标记的所述第一锚点框和所述第二锚点框，得到所述初始锚点框。

在本实施例中，所有上述第一锚点框和上述第二锚点框统称为初始锚点框。该初始锚点框遍布训练场景图像以便后续卷积神经网络在初始锚点框的基础上进行目标预测。为了让目标检测网络具备更好的检测小尺度目标的能力，特别地，设置了第一层卷积图像对应的初始锚点框的尺寸，经过这种设置，极大地提升了检测小尺度目标的能力。

图9示出了本申请第五实施例提供的目标检测方法S106的实现流程图，详述如下：

在S1061中，对各层级关联的同一所述训练目标的所述初始锚点框与所述真值框进行重叠度IOU得分计算，计算得到各个所述初始锚点框的IOU得分。

在本实施例中，对每一层卷积图像对应的所有同一所述训练目标的初始锚点框与上述真值框分别进行IOU得分计算。上述IOU得分计算指的是计算进行 IOU得分计算的两个框的交集和并集的比值。

在S1062中，若所述IOU得分大于所述初始锚点框所关联层级对应的IOU 阈值，则识别所述初始锚点框为第一正例锚点框。

在本实施例中，具体地，各层级关联的所述IOU阈值小于或等于0.5，且与层级正相关，即当前层级的越高，对应的IOU阈值的数值越大，作为示例而非限定，具体地，第一层卷积图像关联的IOU阈值为0.3，第二层卷积图像关联的IOU阈值为0.34，第三层卷积图像关联的IOU阈值为0.38，第四层卷积图像关联的IOU阈值为0.42，第五层卷积图像关联的IOU阈值为0.46，第六层卷积图像关联的IOU阈值为0.5。若IOU得分大于上述初始锚点框所关联层级对应的IOU阈值，则该初始锚点框识别为第一正例锚点框。

S1063中，将所述第一增强图像、所述第二增强图像以及所述剩余卷积图像导入所述卷积神经网络，输出各个所述训练目标的第一预测框。

在本实施例中，作为示例而非限定，通过tensorflow或其他深度学习框架搭建卷积神经网络，通过对上述第一增强图像、第二增强图像以及剩余卷积图像的分析，输出各个训练目标的第一预测框，该第一预测框包含了该网络预测的该训练目标在训练场景图像内的位置信息。

在S1064中，根据所述同一训练目标对应的所述第一正例锚点框与所述第一预测框之间的偏移量，计算关于所述训练目标的第一预测偏移量，并根据所有所述训练目标的第一预测偏移量，得到第一偏移值。

在本实施例中，上述同一训练目标对应的第一正例锚点框向第一预测框变换的偏移量即为该训练目标的第一预测偏移量，所有训练目标的第一预测偏移量的数据集即为第一偏移值。

在S1065中，将同一所述训练目标对应的第一正例锚点框、所述第一预测偏移量以及所述真值框导入预设的第一损失函数，计算关于所述训练目标的第一损失量，并根据所有训练目标的所述第一损失量以及所述第一偏移值，得到所述第一损失参数。

在本实施例中，预设的第一损失函数如下：

其中，L_box代表第一损失量，

代表初始锚点框向第一预测框变换的偏移量，

是初始锚点框向真值框变换的偏移量，

用来指示位于网格i,j处的第k个初始锚点框是否用来预测目标(即IOU得分是否大于对应的阈值，若大于则为1，否则为0，即该公式只需要获得第一正例锚点框向第一预测框变换的偏移量以及第一正例锚点框向真值框变换的偏移量即可得到计算结果)，H、 W代表该初始锚点框对应层级的高、宽，B代表位于网格i,j处对应B个初始锚点框，参见本申请第三实施例的相关描述，即第一层卷积图像的B为1，其余层级的B为3。

在本实施例中，上述第一损失参数包括第一损失值以及第一偏移值，用于后续的获取第一调整框和用于后续调整卷积神经网络的参数，使得该卷积神经网络下次得到的第一预测框更接近真值框。

图10示出了本申请第六实施例提供的目标检测方法S108的实现流程图，详述如下：

在S1081中，对所述第一增强图像和第一层逆卷积图像进行特征融合，得到第一层融合特征图。

在本实施例中，对上述第一增强图像和第一层逆卷积图像进行特征融合，得到第一层融合特征图，该第一层融合特征图包含了第一增强图像和第一层逆卷积图像的目标特征信息，特别地，该目标特征信息包括小尺度目标特征信息。

在S1082中，对所述第二增强图像和第二层逆卷积图像进行特征融合，得到第二层融合特征图。

在本实施例中，对上述第二增强图像和第二层逆卷积图像进行特征融合，得到第二层融合特征图，该第二层融合特征图包含了第二增强图像和第二层逆卷积图像的目标特征信息，特别地，该目标特征信息包括小尺度目标特征信息。

在S1083中，对所述剩余卷积图像和与该剩余卷积图像关联层级对应的所述逆卷积图像进行特征融合，得到该剩余卷积图像关联层级对应的所述融合特征图。

在本实施例中，对上述剩余卷积图像和与该剩余卷积图像关联层级对应的逆卷积图像进行特征融合，得到该剩余卷积图像关联层级对应的融合特征图，该融合特征图包含了该卷积图像与对应的该逆卷积图像中的目标特征信息。

在本实施例中，所得到的所有融合特征图分别包含了对应层级的卷积图像和逆卷积图像的特征信息，以便于后续在卷积神经网络通过所以该融合特征图，预测第二偏移值，计算第二损失参数时，更加准确。

图11示出了本申请第七实施例提供的目标检测方法S109的实现流程图，详述如下：

在S1091中，对各层级关联的同一所述训练目标对应的所述第一调整框与所述真值框进行IOU得分计算，计算得到各个所述第一调整框的IOU得分。

在本实施例中，在本实施例中，对每一层卷积图像对应的所有同一所述训练目标的第一调整框与上述真值框分别进行IOU得分计算。

在S1092中，若所述IOU得分大于所述第一调整框所关联层级对应的IOU 阈值，则识别所述第一调整框为第二正例锚点框。

在本实施例中，具体地，各层级关联的所述IOU阈值大于0.5，作为示例而非限定，各层级关联的所述IOU阈值可以皆为0.75，若IOU得分大于0.75，则该第一调整框识别为第二正例锚点框。

在S1093中，将所有所述融合特征图导入所述卷积神经网络，输出各个所述训练目标的第二预测框。

在本实施例中，作为示例而非限定，用tensorflow或其他深度学习框架搭建卷积神经网络，通过对上述所有融合特征图的分析，来预测各个训练目标的第二预测框，该第二预测框包含了该网络预测的该训练目标在训练场景图像内的位置信息以及种类信息。

在S1094中，根据所述同一训练目标对应的所述第二正例锚点框与所述第二预测框之间的偏移量，计算关于所述训练目标的第二预测偏移量，并根据所有训练目标的第二预测偏移量，得到第二偏移值。

在本实施例中，上述同一训练目标对应的第二正例锚点框向第二预测框变换的偏移量即为该训练目标的第二预测偏移量，所有训练目标的第二偏移量的数据集即为第二偏移值。

在S1095中，将同一所述训练目标对应的第二正例锚点框、所述第二预测偏移值以及所述真值框导入预设的第二损失函数，计算关于所述训练目标的第二损失量，并根据所有训练目标的所述第二损失量以及所述第二偏移值，得到所述第二损失参数。

在本实施例中，预设的第二损失函数如下：

L_total＝λ_classL_class+λ_boxL_box

其中，L_total代表第二损失量，L_box代表重定位损失，L_class代表分类损失，class_i,j,k代表网络预测的物体种类的one-hot编码，

代表物体种类的one-hot编码，

代表第一调整锚点框向第二预测框变换的偏移量，

代表初始锚点框向第一调整框变换的偏移量，

是初始锚点框向真值框变换的偏移量，

即为第一调整框向真值框变换的偏移量，λ_class和λ_box用以平衡不同类型的损失，CrossEntropy代表交叉熵函数，

用来指示位于网格i,j处的第k个初始锚点框是否用来预测目标(即IOU得分是否大于对应的阈值，若大于则为1，否则为0，即该公式只需要获得第二正例锚点框向第二预测框变换的偏移量以及第二正例锚点框向真值框变换的偏移量即可得到计算结果)，H、W代表该初始锚点框对应层级的高、宽，B代表位于网格i,j处对应 B个初始锚点框，参见本申请第三实施例的相关描述，即第一层卷积图像的B 为1，其余层级的B为3。

在本实施例中，上述第二损失参数包括第二损失值以及第二偏移值，用于后续调整卷积神经网络的参数，使得目标检测精度得到提升。

应理解，上述实施例中各步骤的序号的大小以及字母并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的基于卷积神经网络的目标检测方法，图12示出了本申请一实施例提供的基于卷积神经网络的目标检测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图12，该装置包括：获取图像模块，用于获取训练场景图像；所述训练场景图像内包含各个训练目标的真值框；卷积层模块，用于通过卷积神经网络内的N层卷积层输出所述训练场景图像的多个卷积图像；所述N为大于2的正整数；逆卷积层模块，用于对第N层卷积图像执行第一特征融合操作，得到各个层级对应的逆卷积图像；特征增强模块，用于基于预设的特征增强算法，输出第一层卷积图像对应的第一增强图像以及第二层卷积图像对应的第二增强图像；锚点框预设模块，用于根据所述N层卷积图像，在所述训练场景图像内按预设锚点框定位算法生成多个初始锚点框；第一损失模块，用于根据所述第一增强图像、所述第二增强图像、剩余卷积图像、所述初始锚点框以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第一损失参数；所述剩余卷积图像为除所述第一层卷积图像以及所述第二层卷积图像外其他层级对应的卷积图像；第一回归模块，用于根据所述第一损失参数，调整所述初始锚点框，得到第一调整框；特征融合模块，用于对所有所述逆卷积图像、所述第一增强图像、所述第二增强图像以及所述剩余卷积图像执行第二特征融合操作，得到各个层级对应的融合特征图；第二损失模块，用于根据所有所述融合特征图、所述第一调整框、以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第二损失参数；第二回归模块，用于基于所述第一损失参数以及所述第二损失参数，调整所述卷积神经网络的参数，得到目标检测网络；目标检测模块，用于将实时图像导入所述目标检测网络，输出所述实时图像包含的目标对象。

需要说明的是，上述装置之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图13为本申请一实施例提供的网络设备的结构示意图。如图13所示，该实施例的网络设备13包括：至少一个处理器130(图13中仅示出一个)处理器、存储器131以及存储在所述存储器131中并可在所述至少一个处理器130 上运行的计算机程序132，所述处理器130执行所述计算机程序132时实现上述任意各个基于通信凭证共享服务的共享服务指标的确定方法实施例中的步骤。

所述网络设备13可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该网络设备可包括，但不仅限于，处理器130、存储器131。本领域技术人员可以理解，图13仅仅是网络设备13的举例，并不构成对网络设备13 的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器130可以是中央处理单元(Central Processing Unit，CPU)，该处理器130还可以是其他通用处理器、数字信号处理器(Digital Signal Processor， DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器131在一些实施例中可以是所述网络设备13的内部存储单元，例如网络设备13的硬盘或内存。所述存储器131在另一些实施例中也可以是所述网络设备13的外部存储设备，例如所述网络设备13上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器131还可以既包括所述网络设备 13的内部存储单元也包括外部存储设备。所述存储器131用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器131还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于卷积神经网络的道路目标检测方法，其特征在于，包括：

获取训练场景图像；所述训练场景图像内包含各个训练目标的真值框；

通过对所有所述逆卷积图像、所述第一增强图像、所述第二增强图像以及所述剩余卷积图像执行第二特征融合操作，得到各个层级对应的融合特征图；

将实时图像导入所述目标检测网络，输出所述实时图像包含的目标对象；

所述对第N层卷积图像执行第一特征融合操作，得到各个层级对应的逆卷积图像，包括：

对第N层卷积图像进行卷积，得到第N层逆卷积图像；所述第N层卷积图像与所述第N层逆卷积图像的图像尺寸相同；

通过预设的重利用算法输出第M层逆卷积图像对应的第一预备特征图，以及通过标准逆卷积算法输出第M层逆卷积图像对应的第二预备特征图；其中，所述M为正整数，且所述M的初始值为N；所述第一预备特征图以及所述第二预备特征图的图像尺寸为所述第M层逆卷积图像的图像尺寸的两倍；

将所述第一预备特征图和所述第二预备特征图进行特征融合，得到第M-1层逆卷积图像；

若所述M的数值大于2，则减少所述M的数值，并返回执行所述通过预设的重利用算法输出第M层逆卷积图像对应的第一预备特征图，以及通过标准逆卷积算法输出第M层逆卷积图像对应的第二预备特征图的操作；

所述基于预设的特征增强算法，输出第一层卷积图像对应的第一增强图像以及第二层卷积图像对应的第二增强图像，包括：

以所述第一层卷积图像为基准，确定所述第一层卷积图像关联的邻近卷积图像，对所述第一层卷积图像关联的邻近卷积图像以及所述第一层卷积图像按预设的变换算法进行变换得到所述第一层卷积图像对应的多个变换特征图；

基于预设的组合算法，将所述第一层卷积图像对应的多个变换特征图合并为所述第一层卷积图像对应的组合特征图；

将所述第一层卷积图像对应的组合特征图导入到注意力机制模型，输出所述第一层卷积图像对应的所述第一增强图像；

以所述第二层卷积图像为基准，确定所述第二层卷积图像关联的邻近卷积图像，对所述第二层卷积图像关联的邻近卷积图像以及所述第二层卷积图像按预设的变换算法进行变换得到所述第二层卷积图像对应的多个变换特征图；

基于预设的组合算法，将所述第二层卷积图像对应的多个变换特征图合并为所述第二层卷积图像对应的组合特征图；

将所述第二层卷积图像对应的组合特征图导入到注意力机制模型，输出所述第二层卷积图像对应的所述第二增强图像。

2.如权利要求1所述的道路目标检测方法，其特征在于，所述根据所述N层卷积图像，在所述训练场景图像内按预设锚点框定位算法生成多个初始锚点框，包括：

基于所述训练场景图像的图像尺寸以及预设的第一比例，确定第一层卷积图像关联的第一锚点框的第一边框尺寸；所述第一比例为0.03~0.04之间的任一数值；

基于第一层卷积图像确定所述第一锚点框的第一中心位置；

基于所述第一边框尺寸以及所述第一中心位置标记所述第一锚点框；

基于所述图像尺寸以及各层级各自关联的第二比例，确定第二层卷积图像以及所述剩余卷积图像各自关联的第二锚点框的第二边框尺寸；所述第二比例为在0.05~0.8之间的任一数值；

基于第二层卷积图像以及所述剩余卷积图像确定各层级各自关联的所述第二锚点框的第二中心位置；

基于所述第二边框尺寸以及所述第二中心位置标记所述第二锚点框；

根据所有标记的所述第一锚点框和所述第二锚点框，得到所述初始锚点框。

3.如权利要求1所述的道路目标检测方法，其特征在于，所述根据所述第一增强图像、所述第二增强图像、剩余卷积图像、所述初始锚点框以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第一损失参数，包括：

对各层级关联的同一训练目标的所述初始锚点框与所述真值框进行重叠度IOU得分计算，计算得到各个所述初始锚点框的IOU得分；

若所述IOU得分大于所述初始锚点框所关联层级对应的IOU阈值，则识别所述初始锚点框为第一正例锚点框；各层级关联的所述IOU阈值小于或等于0.5，且与层级正相关；

将所述第一增强图像、所述第二增强图像以及所述剩余卷积图像导入所述卷积神经网络，输出各个所述训练目标的第一预测框；

根据所述同一训练目标对应的所述第一正例锚点框与所述第一预测框之间的偏移量，计算关于所述训练目标的第一预测偏移量，并根据所有所述训练目标的第一预测偏移量，得到第一偏移值；

将同一所述训练目标对应的第一正例锚点框、所述第一预测偏移量以及所述真值框导入预设的第一损失函数，计算关于所述训练目标的第一损失量，并根据所有训练目标的所述第一损失量以及所述第一偏移值，得到所述第一损失参数。

4.如权利要求1所述的道路目标检测方法，其特征在于，所述对所有所述逆卷积图像、所述第一增强图像、所述第二增强图像以及所述剩余卷积图像执行第二特征融合操作，得到各个层级对应的融合特征图，包括：

对所述第一增强图像和第一层逆卷积图像进行特征融合，得到第一层融合特征图；

对所述第二增强图像和第二层逆卷积图像进行特征融合，得到第二层融合特征图；

对所述剩余卷积图像和与该剩余卷积图像关联层级对应的所述逆卷积图像进行特征融合，得到该剩余卷积图像关联层级对应的所述融合特征图。

5.如权利要求1所述的道路目标检测方法，其特征在于，所述根据所有所述融合特征图、所述第一调整框、以及所述训练场景图像包含的各个所述训练目标的所述真值框，输出所述卷积神经网络的第二损失参数，包括：

对各层级关联的同一训练目标对应的所述第一调整框与所述真值框进行IOU得分计算，计算得到各个所述第一调整框的IOU得分；

若所述IOU得分大于所述第一调整框所关联层级对应的IOU阈值，则识别所述第一调整框为第二正例锚点框；各层级关联的所述IOU阈值大于0.5；

将所有所述融合特征图导入所述卷积神经网络，输出各个所述训练目标的第二预测框；

根据所述同一训练目标对应的所述第二正例锚点框与所述第二预测框之间的偏移量，计算关于所述训练目标的第二预测偏移量，并根据所有训练目标的第二预测偏移量，得到第二偏移值；

将同一所述训练目标对应的第二正例锚点框、所述第二预测偏移值以及所述真值框导入预设的第二损失函数，计算关于所述训练目标的第二损失量，并根据所有训练目标的所述第二损失量以及所述第二偏移值，得到所述第二损失参数。

6.一种基于卷积神经网络的道路目标检测装置，其特征在于，包括：

目标检测模块，用于将实时图像导入所述目标检测网络，输出所述实时图像包含的目标对象；

其中，所述对第N层卷积图像执行第一特征融合操作，得到各个层级对应的逆卷积图像，包括：

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。