CN110388931B

CN110388931B - 将对象的二维边界框转换成自动驾驶车辆的三维位置的方法

Info

Publication number: CN110388931B
Application number: CN201811591235.7A
Authority: CN
Inventors: 陈亦魁
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-04-17
Filing date: 2018-12-25
Publication date: 2023-11-10
Anticipated expiration: 2038-12-25
Also published as: US20190317519A1; JP6906011B2; JP2019182411A; CN110388931A; US10816992B2

Abstract

在一个实施方式中，ADV的系统使用安装在ADV上的图像捕获装置在ADV的立体图中感知对象。系统基于由图像捕获装置捕获的对象的图像生成对象的2D边界框。系统基于图像确定对象的方位和3D尺寸。系统基于对象的方位和3D尺寸将对象的3D表示投影到图像上。系统基于对象的3D表示和生成的2D边界框确定从ADV到对象的距离。系统根据所确定的从ADV到对象的距离生成轨迹以控制ADV驾驶ADV绕开对象。

Description

将对象的二维边界框转换成自动驾驶车辆的三维位置的方法

技术领域

本公开的实施方式总体上涉及操作自动驾驶车辆。更具体地，本公开的实施方式涉及将对象的二维(2D)边界框转换成自动驾驶车辆(ADV)的三维(3D)位置的方法。

背景技术

以自动驾驶模式运行(例如，无人驾驶)的车辆可以将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时，车辆可以使用车载传感器导航到各个位置，从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。

周围环境的感知可表示普通驾驶员将感知的该驾驶员所驾驶的车辆周围的情况。在感知中，对象通常被检测为图像平面中的2D边界框。需要将2D边界框转换成具有相机坐标和/或现实世界坐标中的3D位置(例如，到3D对象的中心的向量)的3D对象。

发明内容

本公开的一个方面涉及一种用于操作自动驾驶车辆(ADV)的计算机实施的方法。所述方法包括：使用安装在所述自动驾驶车辆上的图像捕获装置在所述自动驾驶车辆的立体图中感知对象；基于由所述图像捕获装置捕获的对象的图像生成所述对象的2D边界框；基于所述对象的图像确定所述对象的方位和3D尺寸；基于所述对象的方位和3D尺寸将所述对象的三维(3D)表示投影到所述图像上；基于所述对象的3D表示和所生成的2D边界框确定从所述自动驾驶车辆到所述对象的距离；以及根据所确定的从所述自动驾驶车辆到所述对象的距离生成轨迹，以控制所述自动驾驶车辆驾驶所述自动驾驶车辆绕开所述对象。

本公开的另一方面涉及一种存储有指令的非暂时性机器可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行操作。所述操作包括：使用安装在所述自动驾驶车辆上的图像捕获装置在所述自动驾驶车辆的立体图中感知对象；基于由所述图像捕获装置捕获的对象的图像生成所述对象的2D边界框；基于所述对象的图像确定所述对象的方位和3D尺寸；基于所述对象的方位和3D尺寸将所述对象的三维(3D)表示投影到所述图像上；基于所述对象的3D表示和所生成的2D边界框确定从所述自动驾驶车辆到所述对象的距离；以及根据所确定的从所述自动驾驶车辆到所述对象的距离生成轨迹，以控制所述自动驾驶车辆驾驶所述自动驾驶车辆绕开所述对象。

本公开的又一方面涉及一种数据处理系统，其包括一个或多个处理器；以及联接到所述一个或多个处理器以存储指令的存储器。所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：使用安装在所述自动驾驶车辆上的图像捕获装置在所述自动驾驶车辆的立体图中感知对象；基于由所述图像捕获装置捕获的对象的图像生成所述对象的2D边界框；基于所述对象的图像确定所述对象的方位和3D尺寸；基于所述对象的方位和3D尺寸将所述对象的三维(3D)表示投影到所述图像上；基于所述对象的3D表示和所生成的2D边界框确定从所述自动驾驶车辆到所述对象的距离；以及根据所确定的从所述自动驾驶车辆到所述对象的距离生成轨迹，以控制所述自动驾驶车辆驾驶所述自动驾驶车辆绕开所述对象。

附图说明

本公开的实施方式在附图的各图中以举例而非限制的方式示出，附图中的相同的附图标记指代相似的元件。

图1是示出根据一个实施方式的网络化系统的框图。

图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。

图3A至图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。

图4是示出根据一个实施方式的对象定位模块的示例的框图。

图5A是示出根据一个实施方式的感知对象的ADV的示例的框图。

图5B是根据一个实施方式的图5A的ADV 101的感知视图的图像和所感知对象的投影的示例。

图6A至图6B是分别以立体图和俯视图示出根据一个实施方式的感知对象的ADV的示例的框图。

图7是示出根据一个实施方式的由ADV执行的方法的流程图。

图8是示出根据一个实施方式的由ADV执行的方法的流程图。

图9是示出根据一个实施方式的数据处理系统的框图。

具体实施方式

将参考以下所讨论的细节来描述本公开的各种实施方式和方面，并且附图将示出各种实施方式。以下描述和附图是对本公开的说明，并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开各种实施方式的全面理解。然而，在某些情况下，并未描述众所周知的或常规的细节以提供对本公开的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可以包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指相同的实施方式。

由ADV的图像捕获装置捕获的图像中的对象通常由来自机器学习模型的2D边界框检测。根据一个方面，基于具有已知的3D尺寸和方位的对象的2D边界框，ADV可以搜索对象在相机坐标系中的3D位置。根据第一方面，ADV的系统使用安装在ADV上的图像捕获装置在ADV的立体图中感知对象。系统基于由图像捕获装置捕获的对象的图像通过机器学习模型生成对象的2D边界框。系统基于对象的图像确定对象的方位和3D尺寸。系统基于对象的方位和3D尺寸将对象的3D表示投影到图像上。系统基于对象的3D表示和生成的2D边界框确定从ADV到对象的距离。系统根据所确定的从ADV到对象的距离生成轨迹以控制ADV来驾驶ADV绕开对象。

根据另一方面，系统向左或向右移位投影对象直到投影对象的中心大致居中于2D边界框的2D中心的水平轴线。系统向上或向下移位投影对象直到投影对象的中心大致居中于2D边界框的2D中心的竖直轴线。系统基于投影对象的移位和所确定的到对象的距离确定中心向量。系统基于所确定的到对象的中心向量控制ADV。

图1是示出根据本公开的一个实施方式的自动驾驶车辆网络配置的框图。参考图1，网络配置100包括可以通过网络102通信地联接到一个或多个服务器103至104的自动驾驶车辆101。尽管示出一个自动驾驶车辆，但多个自动驾驶车辆可以通过网络102联接到彼此和/或联接到服务器103至104。网络102可以是任何类型的网络，例如，有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)、蜂窝网络、卫星网络或其组合。服务器103至104可以是任何类型的服务器或服务器群集，诸如，网络或云服务器、应用服务器、后端服务器或其组合。服务器103至104可以是数据分析服务器、内容服务器、交通信息服务器、地图和兴趣点(MPOI)服务器或者位置服务器等。

自动驾驶车辆是指可以被配置成处于自动驾驶模式下的车辆，在所述自动驾驶模式下车辆在极少或没有来自驾驶员的输入的情况下导航通过环境。这种自动驾驶车辆可以包括传感器系统，所述传感器系统具有被配置成检测与车辆运行环境有关的信息的一个或多个传感器。所述车辆和其相关联的控制器使用所检测的信息来导航通过所述环境。自动驾驶车辆101可以在手动模式下、在全自动驾驶模式下或者在部分自动驾驶模式下运行。

在一个实施方式中，自动驾驶车辆101包括，但不限于，感知与规划系统110、车辆控制系统111、无线通信系统112、用户接口系统113和传感器系统115。自动驾驶车辆101还可以包括普通车辆中包括的某些常用部件，诸如：发动机、车轮、方向盘、变速器等，所述部件可以由车辆控制系统111和/或感知与规划系统110使用多种通信信号和/或命令进行控制，该多种通信信号和/或命令例如，加速信号或命令、减速信号或命令、转向信号或命令、制动信号或命令等。

部件110至115可以经由互连件、总线、网络或其组合通信地联接到彼此。例如，部件110至115可以经由控制器局域网(CAN)总线通信地联接到彼此。CAN总线是被设计成允许微控制器和装置在没有主机的应用中与彼此通信的车辆总线标准。它是最初是为汽车内的复用电气布线设计的基于消息的协议，但也用于许多其它环境。

现在参考图2，在一个实施方式中，传感器系统115包括但不限于一个或多个摄像机211、全球定位系统(GPS)单元212、惯性测量单元(IMU)213、雷达单元214以及光探测和测距(LIDAR)单元215。GPS系统212可以包括收发器，所述收发器可操作以提供关于自动驾驶车辆的位置的信息。IMU单元213可以基于惯性加速度来感测自动驾驶车辆的位置和方位变化。雷达单元214可以表示利用无线电信号来感测自动驾驶车辆的本地环境内的对象的系统。在一些实施方式中，除感测对象之外，雷达单元214可以另外感测对象的速度和/或前进方向。LIDAR单元215可以使用激光来感测自动驾驶车辆所处环境中的对象。除其它系统部件之外，LIDAR单元215还可以包括一个或多个激光源、激光扫描器以及一个或多个检测器。摄像机211可以包括用来采集自动驾驶车辆周围环境的图像的一个或多个装置。摄像机211可以是静物摄像机和/或视频摄像机。摄像机可以是可机械地移动的，例如，通过将摄像机安装在旋转和/或倾斜平台上。

传感器系统115还可以包括其它传感器，诸如：声纳传感器、红外传感器、转向传感器、油门传感器、制动传感器以及音频传感器(例如，麦克风)。音频传感器可以被配置成从自动驾驶车辆周围的环境中采集声音。转向传感器可以被配置成感测方向盘、车辆的车轮或其组合的转向角度。油门传感器和制动传感器分别感测车辆的油门位置和制动位置。在一些情形下，油门传感器和制动传感器可以集成为集成式油门/制动传感器。

在一个实施方式中，车辆控制系统111包括但不限于转向单元201、油门单元202(也被称为加速单元)和制动单元203。转向单元201用来调整车辆的方向或前进方向。油门单元202用来控制电动机或发动机的速度，电动机或发动机的速度进而控制车辆的速度和加速度。制动单元203通过提供摩擦使车辆的车轮或轮胎减速而使车辆减速。应注意，如图2所示的部件可以以硬件、软件或其组合实施。

回到图1，无线通信系统112允许自动驾驶车辆101与诸如装置、传感器、其它车辆等外部系统之间的通信。例如，无线通信系统112可以与一个或多个装置直接无线通信，或者经由通信网络进行无线通信，诸如，通过网络102与服务器103至104通信。无线通信系统112可以使用任何蜂窝通信网络或无线局域网(WLAN)，例如，使用WiFi，以与另一部件或系统通信。无线通信系统112可以例如使用红外链路、蓝牙等与装置(例如，乘客的移动装置、显示装置、车辆101内的扬声器)直接通信。用户接口系统113可以是在车辆101内实施的外围装置的部分，包括例如键盘、触摸屏显示装置、麦克风和扬声器等。

自动驾驶车辆101的功能中的一些或全部可以由感知与规划系统110控制或管理，尤其当在自动驾驶模式下操作时。感知与规划系统110包括必要的硬件(例如，处理器、存储器、存储设备)和软件(例如，操作系统、规划和路线安排程序)，以从传感器系统115、控制系统111、无线通信系统112和/或用户接口系统113接收信息，处理所接收的信息，规划从起始点到目的地点的路线或路径，随后基于规划和控制信息来驾驶车辆101。替代地，感知与规划系统110可以与车辆控制系统111集成在一起。

例如，作为乘客的用户可以例如经由用户接口来指定行程的起始位置和目的地。感知与规划系统110获得行程相关数据。例如，感知与规划系统110可以从MPOI服务器中获得位置和路线信息，所述MPOI服务器可以是服务器103至104的一部分。位置服务器提供位置服务，并且MPOI服务器提供地图服务和某些位置的POI。替代地，此类位置和MPOI信息可以本地高速缓存在感知与规划系统110的永久性存储装置中。

当自动驾驶车辆101沿着路线移动时，感知与规划系统110也可以从交通信息系统或服务器(TIS)获得实时交通信息。应注意，服务器103至104可以由第三方实体进行操作。替代地，服务器103至104的功能可以与感知与规划系统110集成在一起。基于实时交通信息、MPOI信息和位置信息以及由传感器系统115检测或感测的实时本地环境数据(例如，障碍物、对象、附近车辆)，感知与规划系统110可以规划最佳路线并且根据所规划的路线例如经由控制系统111来驾驶车辆101，以安全且高效到达指定目的地。

服务器103可为用于为各种客户端执行数据分析服务的数据分析系统。在一个实施方式中，数据分析系统103包括数据收集器121和机器学习引擎122。数据收集器121从多种车辆(自动驾驶车辆或由人类驾驶员驾驶的常规车辆)收集驾驶统计数据123。驾驶统计数据123包括表示在不同的时间点处由车辆的传感器捕获的所发出的驾驶命令(例如，油门命令、制动命令和转向命令)以及车辆的响应(例如，速度、加速度、减速度、方向)的信息。驾驶统计数据123还可包括描述不同的时间点处的驾驶环境的信息，诸如，例如，路线(包括起点位置和目的地位置)、MPOI、天气状况和道路状况(诸如，高速公路上的缓行交通、交通堵塞、车祸、道路施工、临时绕行、未知障碍物等)。

基于驾驶统计数据123，机器学习引擎122针对各种目的生成或训练规则集、算法和/或预测模型124，包括将2D边界框渲染到由ADV的图像捕获装置捕获的图像中所识别的对象的模型。算法124还可包括用于确定对象的3D距离和方位的算法。

图3A和图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。系统300可实施为图1的自动驾驶车辆101的一部分，包括但不限于感知与规划系统110、控制系统111和传感器系统115。参考图3A至图3B，感知与规划系统110包括但不限于定位模块301、感知模块302、预测模块303、决策模块304、规划模块305、控制模块306、路线制定模块307和对象定位模块308。

模块301至308中的一些或全部可以以软件、硬件或其组合实施。例如，这些模块可安装在永久性存储装置352中、加载到存储器351中，并且由一个或多个处理器(未示出)执行。应注意，这些模块中的一些或全部可通信地联接到图2的车辆控制系统111的一些或全部模块或者与它们集成在一起。模块301至308中的一些可一起集成为集成模块。

定位模块301确定自动驾驶车辆300的当前位置(例如，利用GPS单元212)并管理与用户的行程或路线相关的任何数据。定位模块301(也被称为地图与路线模块)管理与用户的行程或路线相关的任何数据。用户可以例如经由用户接口登录并且指定行程的开始位置和目的地。定位模块301与自动驾驶车辆300的诸如地图和路线信息311的其它组件通信，以获得行程相关数据。例如，定位模块301可从位置服务器和地图与POI(MPOI)服务器获得位置和路线信息。位置服务器提供位置服务，以及MPOI服务器提供地图服务和某些位置的POI，这些可作为地图和路线信息311的一部分高速缓存。当自动驾驶车辆300沿着路线移动时，定位模块301也可从交通信息系统或服务器获得实时交通信息。

基于由传感器系统115提供的传感器数据和由定位模块301获得的定位信息，感知模块302确定对周围环境的感知。感知信息可以表示普通驾驶员在驾驶员正驾驶的车辆周围将感知到的东西。感知可以包括例如采用对象形式的车道配置(例如，直线车道或弯曲车道)、交通灯信号、另一车辆的相对位置、行人、建筑物、人行横道或其它交通相关标志(例如，停止标志、让行标志)等。

感知模块302可以包括计算机视觉系统或计算机视觉系统的功能，以处理并分析由一个或多个摄像机采集的图像，从而识别自动驾驶车辆环境中的对象和/或特征。所述对象可以包括交通信号、道路边界、其它车辆、行人和/或障碍物等。计算机视觉系统可以使用对象识别算法、视频跟踪以及其它计算机视觉技术。在一些实施方式中，计算机视觉系统可以绘制环境地图，跟踪对象，以及估算对象的速度等。感知模块302也可以基于由诸如雷达和/或LIDAR的其它传感器提供的其它传感器数据来检测对象。

针对每个对象，预测模块303预测该对象在此情形下将表现什么。根据一组地图/路线信息311和交通规则312，基于在该时间点感知驾驶环境的感知数据来执行预测。例如，如果对象是处于相反方向的车辆并且当前驾驶环境包括十字路口，则预测模块303将预测车辆是将可能直线向前移动还是进行转弯。如果感知数据表明十字路口没有交通灯，则预测模块303可预测车辆在进入十字路口之前可能需要完全停止。如果感知数据表明车辆当前处于仅左转弯车道或仅右转弯车道，则预测模块303可分别预测车辆将更可能向左转弯或向右转弯。

针对每个对象，决策模块304作出关于如何处置对象的决定。例如，针对特定对象(例如，交叉路线中的另一车辆)以及描述对象的元数据(例如，速度、方向、转弯角度)，决策模块304决定如何与所述对象相遇(例如，超车、让行、停止、超过)。决策模块304可根据诸如交通规则或驾驶规则312的规则集来作出此类决定，所述规则集可存储在永久性存储装置352中。

路线制定模块307配置成提供从起点到目的点的一个或多个路线或路径。对于从开始位置到目的地位置的给定行程(例如，从用户接收的)，路线制定模块307获得路线和地图信息311，并且确定从开始位置至到达目的地位置的所有可能的路线或路径。路线制定模块307可以以地形图的形式生成用于其确定的从开始位置至到达目的地位置的路线中的每个的参考线。参考线指的是理想的路线或路径，而不受诸如其他车辆、障碍物或交通状况的其他事物的任何干扰。即，如果道路上不存在其他车辆、行人或障碍物，则ADV应该精确地或紧密地遵循参考线。然后，地形图被提供至决策模块304和/或规划模块305。根据由其它模块提供的其它数据(诸如，来自定位模块301的交通状况、由感知模块302感知的驾驶环境和由预测模块303预测的交通状况)，决策模块304和/或规划模块305检查所有可能的路线以选择和修改最优路线中的一个。用于控制ADV的实际路径或路线可与由路线制定模块307提供的参考线接近或不同，这取决于该时间点的特定驾驶环境。

基于针对所感知到的对象中的每个的决定，规划模块305使用由路线制定模块307提供的参考线作为基础来为自动驾驶车辆规划路径或路线以及驾驶参数(例如，距离、速度和/或转弯角度)。即，针对给定的对象，决策模块304决定对该对象做什么，而规划模块305确定如何去做。例如，针对给定的对象，决策模块304可以决定超过所述对象，而规划模块305可以确定在所述对象的左侧还是右侧超过。规划和控制数据由规划模块305生成，包括描述车辆300在下一移动循环(例如，下一路线/路径段)中将如何移动的信息。例如，规划和控制数据可以指示车辆300以30英里每小时(mph)的速度移动10米，随后以25mph的速度变到右侧车道。

基于规划和控制数据，控制模块306根据由规划和控制数据限定的路线或路径通过将适当的命令或信号发送到车辆控制系统111来控制并驾驶自动驾驶车辆。所述规划和控制数据包括足够的信息，以沿着路径或路线在不同的时间点使用适当的车辆设置或驾驶参数(例如，油门、制动和转弯命令)将车辆从路线或路径的第一点驾驶到第二点。

可在多个规划周期(也被称为命令周期)(诸如，例如，在每100毫秒(ms)的时间间隔中)中执行规划阶段。针对规划周期或命令周期中的每个，将基于规划数据和控制数据发出一个或多个控制命令。即，对于每个100ms，规划模块305规划下一路线段或路径段，例如，包括目标位置和ADV到达目标位置所需的时间。替代地，规划模块305还可指定具体速度、方向和/或转向角等。例如，规划模块305可为下一预定时间段(诸如5秒)规划路线段或路径段。对于每个规划周期，规划模块305基于先前周期中规划的目标位置来规划当前周期(例如，接下来的5秒)的目标位置。然后，控制模块306基于当前周期的规划数据和控制数据生成一个或多个控制命令(例如，油门命令、制动命令、转向控制命令)。

应注意，决策模块304和规划模块305可以集成为集成模块。决策模块304/规划模块305可以包括导航系统或导航系统的功能，以确定自动驾驶车辆的驾驶路径。例如，导航系统可以确定用于实现自动驾驶车辆沿着以下路径移动的一系列速度和前进方向：所述路径在使自动驾驶车辆沿着通往最终目的地的基于车行道的路径前进的同时，基本上避免感知到的障碍物。目的地可以根据经由用户接口系统113进行的用户输入来设定。导航系统可以在自动驾驶车辆正在运行的同时动态地更新驾驶路径。导航系统可以将来自GPS系统和一个或多个地图的数据合并，以确定用于自动驾驶车辆的驾驶路径。

决策模块304/规划模块305还可以包括防撞系统或防撞系统的功能，以识别、评估并且避免或以其它方式越过自动驾驶车辆的环境中的潜在障碍物。例如，防撞系统可以通过以下方式实现自动驾驶车辆的导航中的变化：操作控制系统111中的一个或多个子系统来采取变向操纵、转弯操纵、制动操纵等。防撞系统可以基于周围的交通模式、道路状况等自动确定可行的障碍物回避操纵。防撞系统可以被配置成使得当其它传感器系统检测到位于自动驾驶车辆将变向进入的相邻区域中的车辆、建筑障碍物等时不采取变向操纵。防撞系统可以自动选择既可使用又使得自动驾驶车辆乘员的安全性最大化的操纵。防撞系统可以选择预测使得自动驾驶车辆的乘客舱中出现最小量的加速度的避让操纵。

根据一个实施方式，对象定位模块308可以搜索对象的与由机器学习模型(作为机器学习模型313的一部分)生成的2D边界框对应的3D位置。然后，ADV 101可以基于对象的3D位置生成驾驶轨迹以控制ADV。对象定位模块308可实现为感知模块302的一部分。

图4是示出根据一个实施方式的对象定位模块的示例的框图。参考图4，对象定位模块308可以包括方位确定模块401、尺寸确定模块403、2D边界框生成模块405、3D距离确定模块407和3D中心向量确定模块409。方位确定模块401可以确定对象的方位。尺寸确定模块403可以确定对象的尺寸。2D边界框生成模块405可以为图像中的每个对象生成2D边界框。3D距离确定模块407可以确定三维坐标系中的从ADV到对象的距离。3D中心向量确定模块409可以确定三维坐标系中的从ADV到对象的中心向量。

图5A是示出根据一个实施方式的ADV感知对象的示例的框图。图5B是根据一个实施方式的图5A的ADV 101的感知视图的图像和感知对象的投影的示例。可以将投影(例如，投影511)与检测到的2D边界框(例如，边界框505)进行比较，以搜索感知对象(例如，车辆503)的3D距离。参考图4以及图5A至图5B，在一个实施方式，示例500包括ADV 101、安装在ADV 101上的相机211以及ADV 101前方的路段上驶来的车辆503，使得由相机211捕获的图像(例如，图像501)捕获车辆503。ADV 101可以将第一机器学习模型(作为机器学习模型313的一部分)施加到图像501上以生成2D边界框(例如，车辆503的边界框505)和/或从捕获图像中的每个对象的3D边界框导出的2D边界框。

基于边界框505，方位确定模块(诸如图4的方位确定模块401)可以应用第二机器学习模型(作为机器学习模型313的一部分)以确定车辆503的方位(例如，车辆503的偏航(yaw)、颠簸(pitch)和翻滚(roll))和/或3D尺寸。在一个实施方式中，在确定车辆503的方位和/或3D尺寸之前，方位确定模块401基于第三机器学习模型(作为机器学习模型313的一部分的)和/或图像识别引擎(作为感知模块302的一部分)将对象503分类为车辆并确定车辆的模型和/或类型。在这里，用于分类对象503、确定对象方位和3D尺寸以及生成2D边界框的第一机器学习模型、第二机器学习模型和第三机器学习模型可以是预先训练以执行多种任务的相同或不同的机器学习模型。例如，第一机器学习模型、第二机器学习模型和第三机器学习模型可以是服务器103的预测模型124的一部分。此外，多种机器学习模型和计算机视觉算法可以用于生成2D边界框、对对象进行分类以及确定分类后的对象的方位和/或3D尺寸，模型和算法包括但不限于回归模型、卷积神经网络、区域卷积神经网络(诸如快速和更快速区域卷积神经网络)、掩模(masked)区域神经网络等。在一个实施方式中，收紧2D边界框505以适配车辆503的大小。例如，可以对车辆503中的每个区域应用线性回归以生成该区域的紧密边界框坐标，直到边界框的大小(例如，长度或宽度)与其先前大小相比达到预定阈值或者直到经过一定数目的迭代。

基于已知对象(例如，车辆)和/或已知车辆的已知模型类型以及已知方位和/或3D尺寸，尺寸确定模块403可以生成3D框(例如，3D表示)以表示具有已知方位和/或3D尺寸的已知车辆。例如，尺寸确定模块403可基于车辆503的已知方位和/或3D尺寸以及已知模型类型生成3D表示511。然后，尺寸确定模块403将不同尺寸的3D表示511投影到图像501的图像平面上。3D表示511的不同投影(例如，不同尺寸)可以与具有从ADV 101到相应的3D表示511的不同距离的3D表示511的立体图对应。

基于边界框505的大小(例如，长度或宽度)和/或面积以及3D表示511的不同投影(例如，假设不同3D距离位置的不同尺寸)，3D距离确定模块407可以基于具有与2D边界框505的相同大小(例如，长度、宽度或面积(例如，长度乘宽度))最佳匹配的大小的3D表示511确定对应的距离。在一个实施方式中，通过(使用作为搜索算法314的一部分的贪婪搜索算法、二元搜索算法或其他搜索算法)搜索不同投影的3D表示511来将投影的3D表示511的大小(例如，长度、宽度或面积(例如，长度乘宽度))与2D边界框505的大小匹配到预定阈值或直到已经经过一定数目的迭代来确定从ADV到车辆503的距离。然后，具有与2D边界框505的最佳匹配尺寸的投影的3D表示511的相应距离将为从ADV到车辆503的确定距离。应注意，贪婪算法是一种遵循启发式问题求解(例如，从一些候选选择中计算解以求解目标函数)的算法，其在每个阶段做出局部最优选择来希望找到全局最优。二分搜索是一种在已排序的数组内查找目标值的位置的搜索算法。

图6A至图6B是根据一个实施方式分别以立体图和俯视图示出的感知对象的ADV的示例的框图。参考图6A，投影611可以是图5的3D投影511，但是投影611是具有与2D边界框505的对象的大小最佳匹配的尺寸的3D对象的投影(例如，3D框)。参考图6B，投影611具有相关联的对象中心位置613和从对象中心位置613到相机211的距离615。在这里，距离615将为预先确定的距离。

在一个实施方式中，3D中心向量确定模块409将不同的3D投影611投影到图像平面(诸如，图像501的图像平面)上，每个3D投影611中与不同的对象中心位置614(相应地，不同的对象中心位置613)相关联，但是具有到相机211的相同的尺寸(例如，相同的径向距离615)。基于不同的3D投影611，然后，2D边界框505的2D中心可以与3D投影611的中心最佳匹配到一些预定阈值内，或者直到经过一定数目的迭代。投影到最佳匹配3D投影611的对象中心位置614上的来自相机211的光线(具有等于距离615的距离)将然后为确定的中心向量。在一个实施方式中，通过(使用作为搜索算法314的一部分的贪婪搜索算法、二分搜索所发或其他搜索算法)搜索具有不同的对象中心位置坐标但是保持径向距离恒定(例如，等于预先确定的ADV到对象的距离)的不同的投影3D表示611来确定中心向量。

在一个实施方式中，可以通过将投影的对象中心位置613初始化为2D边界框505的中间点来执行搜索。然后，搜索向左或向右移位投射的图像直到投影611的对象中心大致居中于2D边界框505的2D中心的水平轴线。然后，搜索可以向上或向下移位投影的图像直到投影611的对象中心大致居中于2D边界框505的2D中心的竖直轴线。然后，具有最佳匹配维度的投影表示611将为用于确定对象中心位置的最佳候选。然后，与投影表示611相关的对象中心位置将被用于确定中心向量。

一旦确定中心向量，那么车辆503相对于ADV 101的3D位置在相机坐标中是已知的。然后，预测模块303、决策模块304和/或规划模块305可以使用对象(例如，车辆503)的中心向量来生成驾驶轨迹以根据车辆503对ADV 101进行控制。在一些实施方式中，可以确定两个或更多对象的3D位置(例如，中心向量)，例如，捕获两个或更多对象的所捕获图像的两个或更多2D边界框。在一些实施方式中，中心向量可以从一个坐标系转换至另一坐标系。例如，一旦相机211被校准，则利用已知的校准参数，所确定的中心向量可以从相机坐标转换到现实世界坐标，或者可以从现实世界坐标转换到相机坐标。

图7是示出根据一个实施方式的由ADV执行的方法的流程图。过程700可由处理逻辑执行，处理逻辑可包括软件、硬件或它们的组合。例如，过程800可由图3A的对象定位模块308执行。参考图7，在框701处，处理逻辑使用安装在ADV上的图像捕获装置在ADV的立体图中感知对象。在框702处，处理逻辑基于由图像捕获装置捕获的对象的图像生成对象的2D边界框。在框703处，处理逻辑基于对象的图像确定对象的方位和3D尺寸。在框704处，处理逻辑基于对象的方位和3D尺寸将对象的三维(3D)表示投影到图像上。在框705处，处理逻辑基于对象的3D表示和生成的2D边界框确定从ADV到对象的距离。在框706处，可选地，处理逻辑根据所确定的从ADV到对象的距离生成轨迹以控制ADV来驾驶ADV绕开该对象。

在一个实施方式中，通过将机器学习模型应用至捕获对象的图像、并基于机器学习模型确定围绕对象的2D边界框的长度、宽度或面积来生成对象的2D边界框。在另一实施方式中，处理逻辑还使用贪婪搜索算法搜索投影图像的尺寸直到投影图像的大小在2D边界框的宽度或高度的预定阈值内，并且基于该尺寸确定从ADV到对象的距离。在另一实施方式中，处理逻辑使用二分搜索算法搜索投影图像的尺寸直到投影图像的尺寸在2D边界框的宽度、高度或面积的预定阈值内。然后，处理逻辑基于搜索的尺寸确定从ADV到对象的距离。

在一个实施方式中，处理逻辑还基于所确定的到对象的距离来确定到对象的中心向量，其中，中心向量可以用于生成轨迹以控制ADV。图8是示出根据一个实施方式的由ADV执行的方法的流程图。过程800可由处理逻辑执行，处理逻辑可包括软件、硬件或它们的组合。例如，过程800可由图3A的对象定位模块308执行。参考图8，在框801处，处理逻辑向左或向右移位投影对象直到投影对象的中心大致居中于2D边界框的2D中心的水平轴线。在框802处，处理逻辑向上或向下移位投影对象直到投影对象的中心大致居中于2D边界框的2D中心的竖直轴线。在框803处，处理逻辑基于投影对象的移位和预先确定的到对象的距离确定中心向量。在框804处，可选地，处理逻辑基于所确定的到对象的中心向量来控制ADV。

应注意，如上文示出和描述的部件中的一些或全部可以在软件、硬件或其组合中实施。例如，此类部件可以实施为安装并存储在永久性存储装置中的软件，所述软件可以通过处理器(未示出)加载在存储器中并在存储器中执行以实施贯穿本申请所述的过程或操作。替代地，此类部件可以实施为编程或嵌入到专用硬件(诸如，集成电路(例如，专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码，所述可执行代码可以经由来自应用的相应驱动程序和/或操作系统来访问。此外，此类部件可以实施为处理器或处理器内核中的特定硬件逻辑，作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。

图9是示出可以与本公开的一个实施方式一起使用的数据处理系统的示例的框图。例如，系统1500可以表示以上所述的执行上述过程或方法中的任一个的任何数据处理系统，例如，图1的感知与规划系统110或者服务器103至104中的任一个。系统1500可以包括许多不同的部件。这些部件可以实施为集成电路(IC)、集成电路的部分、分立电子装置或适用于电路板(诸如，计算机系统的主板或插入卡)的其它模块或者实施为以其它方式并入计算机系统的机架内的部件。

还应注意，系统1500旨在示出计算机系统的许多部件的高阶视图。然而，应当理解的是，某些实施例中可以具有附加的部件，此外，其它实施例中可以具有所示部件的不同布置。系统1500可以表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外，虽然仅示出了单个机器或系统，但是术语“机器”或“系统”还应当被理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或系统的任何集合。

在一个实施方式中，系统1500包括通过总线或互连件1510连接的处理器1501、存储器1503以及装置1505至1508。处理器1501可以表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可以表示一个或多个通用处理器，诸如，微处理器、中央处理单元(CPU)等。更具体地，处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器，诸如，专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协处理器、嵌入式处理器、或者能够处理指令的任何其它类型的逻辑。

处理器1501(其可以是低功率多核处理器套接口，诸如超低电压处理器)可以充当用于与所述系统的各种部件通信的主处理单元和中央集线器。这种处理器可以实施为片上系统(SoC)。处理器1501被配置成执行用于执行本文所讨论的操作和步骤的指令。系统1500还可以包括与可选的图形子系统1504通信的图形接口，图形子系统1504可以包括显示控制器、图形处理器和/或显示装置。

处理器1501可以与存储器1503通信，存储器1503在一个实施方式中可以经由多个存储器装置实施以提供给定量的系统存储。存储器1503可以包括一个或多个易失性存储(或存储器)装置，诸如，随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或者其它类型的存储装置。存储器1503可以存储包括由处理器1501或任何其它装置执行的指令序列的信息。例如，各种操作系统、装置驱动程序、固件(例如，输入输出基本系统或BIOS)和/或应用的可执行代码和/或数据可以加载到存储器1503中并由处理器1501执行。操作系统可以是任何类型的操作系统，例如，机器人操作系统(ROS)、来自公司的/>操作系统、来自苹果公司的Mac/>来自/>公司的LINUX、UNIX，或者其它实时或嵌入式操作系统。

系统1500还可以包括IO装置，诸如装置1505至1508，包括网络接口装置1505、可选的输入装置1506，以及其它可选的IO装置1507。网络接口装置1505可以包括无线收发器和/或网络接口卡(NIC)。所述无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如，全球定位系统(GPS)收发器)或其它射频(RF)收发器或者它们的组合。NIC可以是以太网卡。

输入装置1506可以包括鼠标、触摸板、触敏屏幕(其可以与显示装置1504集成在一起)、指针装置(诸如，手写笔)和/或键盘(例如，物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如，输入装置1506可以包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可以使用多种触敏技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种，以及其它接近传感器阵列或用于确定与触摸屏接触的一个或多个点的其它元件来检测其接触和移动或间断。

IO装置1507可以包括音频装置。音频装置可以包括扬声器和/或麦克风，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和/或电话功能。其它IO装置1507还可以包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如，PCI-PCI桥)、传感器(例如，诸如加速度计运动传感器、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或者它们的组合。装置1507还可以包括成像处理子系统(例如，摄像机)，所述成像处理子系统可以包括用于促进摄像机功能(诸如，记录照片和视频片段)的光学传感器，诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可以经由传感器集线器(未示出)联接到互连件1510，而诸如键盘或热传感器的其它装置可以根据系统1500的具体配置或设计由嵌入式控制器(未示出)控制。

为了提供对诸如数据、应用、一个或多个操作系统等信息的永久性存储，大容量存储设备(未示出)也可以联接到处理器1501。在各种实施方式中，为了实现更薄且更轻的系统设计并且改进系统响应性，这种大容量存储设备可以经由固态装置(SSD)来实施。然而，在其它实施方式中，大容量存储设备可以主要使用硬盘驱动器(HDD)来实施，其中较小量的SSD存储设备充当SSD高速缓存以在断电事件期间实现上下文状态以及其它此类信息的非易失性存储，从而使得在系统活动重新启动时能够实现快速通电。另外，闪存装置可以例如经由串行外围接口(SPI)联接到处理器1501。这种闪存装置可以提供系统软件的非易失性存储，所述系统软件包括所述系统的BIOS以及其它固件。

存储装置1508可以包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质)，其上存储有体现本文所述的任何一种或多种方法或功能的一个或多个指令集或软件(例如，模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可以表示上述部件中的任一个，例如图3A的对象定位模块308。处理模块/单元/逻辑1528还可以在其由数据处理系统1500、存储器1503和处理器1501执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内，数据处理系统1500、存储器1503和处理器1501也构成机器可访问的存储介质。处理模块/单元/逻辑1528还可以通过网络经由网络接口装置1505进行传输或接收。

计算机可读存储介质1509也可以用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方式中被示为单个介质，但是术语“计算机可读存储介质”应当被认为包括存储所述一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码指令集的任何介质，所述指令集用于由机器执行并且使得所述机器执行本公开的任何一种或多种方法。因此，术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质，或者任何其它非暂时性机器可读介质。

本文所述的处理模块/单元/逻辑1528、部件以及其它特征可以实施为分立硬件部件或集成在硬件部件(诸如，ASICS、FPGA、DSP或类似装置)的功能中。此外，处理模块/单元/逻辑1528可以实施为硬件装置内的固件或功能电路。此外，处理模块/单元/逻辑1528可以以硬件装置和软件部件的任何组合来实施。

应注意，虽然系统1500被示出为具有数据处理系统的各种部件，但是并不旨在表示使部件互连的任何特定架构或方式；因为此类细节和本公开的实施方式没有密切关系。还应当认识到，具有更少部件或可能具有更多部件的网络计算机、手持计算机、移动电话、服务器和/或其它数据处理系统也可以与本公开的实施方式一起使用。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式，以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中，算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而，应当牢记，所有这些和类似的术语均旨在与适当的物理量关联，并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出，否则应当了解，在整个说明书中，利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理，所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据，并将所述数据变换成计算机系统存储器或寄存器或者其它此类信息存储设备、传输或显示装置内类似地表示为物理量的其它数据。

本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序被存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机构。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质(例如，只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。

前述附图中所描绘的过程或方法可以由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑等)、软件(例如，体现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的，但是应当了解，所述操作中的一些可以按不同的顺序执行。此外，一些操作可以并行地执行而不是顺序地执行。

本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到，可以使用多种编程语言来实施如本文描述的本公开的实施方式的教导。

在以上的说明书中，已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是，在不脱离所附权利要求书中阐述的本公开的更宽泛精神和范围的情况下，可以对本公开作出各种修改。因此，应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims

1.一种用于操作自动驾驶车辆的计算机实施的方法，所述方法包括：

使用安装在所述自动驾驶车辆上的图像捕获装置在所述自动驾驶车辆所感知的立体图中感知对象；

基于由所述图像捕获装置捕获的对象的图像生成所述对象的2D边界框；

基于所述对象的图像，从预先存储的已知的多个对象中的每一个的已知的每个方位和3D尺寸确定所述对象的方位和3D尺寸；

基于所述对象的方位和3D尺寸将所述对象的3D表示投影到所述图像上；

基于所述对象的3D表示和所生成的2D边界框确定从所述自动驾驶车辆到所述对象的距离；以及

根据所确定的从所述自动驾驶车辆到所述对象的距离生成轨迹，以控制所述自动驾驶车辆驾驶所述自动驾驶车辆绕开所述对象。

2.根据权利要求1所述的计算机实施的方法，其中，所述对象的2D边界框通过以下步骤生成：

将机器学习模型应用至捕获所述对象的所述图像；以及

基于所述机器学习模型确定围绕所述对象的2D边界框的长度、宽度或面积。

3.根据权利要求2所述的计算机实施的方法，还包括：

使用贪婪搜索算法搜索所述3D表示的尺寸，直到所述3D表示的大小在所述2D边界框的宽度或高度的预定阈值内；以及

基于所述尺寸确定从所述自动驾驶车辆到所述对象的距离。

4.根据权利要求2所述的计算机实施的方法，还包括：

使用二分搜索算法搜索所投影的图像的尺寸，直到所述投影的图像的大小在所述2D边界框的宽度、高度或面积的预定阈值内；以及

基于所述尺寸确定从所述自动驾驶车辆到所述对象的距离。

5.根据权利要求1所述的计算机实施的方法，还包括基于所确定的到所述对象的距离确定到所述对象的中心向量，其中，所述中心向量能够用于生成驾驶轨迹以控制所述自动驾驶车辆。

6.根据权利要求5所述的计算机实施的方法，其中确定所述对象的中心向量包括：

向左或向右移位所投影的对象，直到所述投影的对象的中心居中于所述2D边界框的2D中心的水平轴线；

向上或向下移位所述投影的对象，直到所述投影的对象的中心居中于所述2D边界框的2D中心的竖直轴线；

基于所述投影的对象的移位和所确定的到所述对象的距离确定所述中心向量。

7.根据权利要求6所述的计算机实施的方法，还包括基于所确定的到所述对象的中心向量控制所述自动驾驶车辆。

8.一种存储有指令的非暂时性机器可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

使用安装在自动驾驶车辆上的图像捕获装置在所述自动驾驶车辆所感知的立体图中感知对象；

9.根据权利要求8所述的非暂时性机器可读介质，其中，所述对象的2D边界框通过以下步骤生成：

将机器学习模型应用至捕获所述对象的所述图像；以及

基于所述机器学习模型，确定围绕所述对象的2D边界框的长度、宽度或面积。

10.根据权利要求9所述的非暂时性机器可读介质，还包括：

基于所述尺寸确定从所述自动驾驶车辆到所述对象的距离。

11.根据权利要求9所述的非暂时性机器可读介质，还包括：

基于所述尺寸确定从所述自动驾驶车辆到所述对象的距离。

12.根据权利要求8所述的非暂时性机器可读介质，还包括基于所确定的到所述对象的距离确定到所述对象的中心向量，其中，所述中心向量能够用于生成驾驶轨迹以控制所述自动驾驶车辆。

13.根据权利要求12所述的非暂时性机器可读介质，其中确定所述对象的中心向量包括：

向左或向右移位所述投影的对象，直到所述投影的对象的中心居中于所述2D边界框的2D中心的水平轴线；

14.根据权利要求13所述的非暂时性机器可读介质，还包括基于所确定的到所述对象的中心向量控制所述自动驾驶车辆。

15.一种数据处理系统，包括：

一个或多个处理器；以及

存储器，联接到所述一个或多个处理器以存储指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行操作，所述操作包括：

16.根据权利要求15所述的系统，其中，所述对象的2D边界框通过以下步骤生成：

将机器学习模型应用至捕获所述对象的所述图像；以及

17.根据权利要求16所述的系统，还包括：

基于所述尺寸确定从所述自动驾驶车辆到所述对象的所述距离。

18.根据权利要求16所述的系统，还包括：

基于所述尺寸确定从所述自动驾驶车辆到所述对象的距离。

19.根据权利要求15所述的系统，还包括基于所确定的到所述对象的距离确定到所述对象的中心向量，其中，所述中心向量能够用于生成驾驶轨迹以控制所述自动驾驶车辆。

20.根据权利要求19所述的系统，其中确定所述对象的中心向量包括：

21.根据权利要求20所述的系统，还包括基于所确定的到所述对象的中心向量控制所述自动驾驶车辆。