CN117152240A

CN117152240A - 基于单目相机的物体检测方法、装置、设备及存储介质

Info

Publication number: CN117152240A
Application number: CN202210556465.XA
Authority: CN
Inventors: 蔡锦雄; 邱德任; 叶佳伦; 唐学用; 廖英郎
Original assignee: Hongfujin Precision Electronic Yantai Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Electronic Yantai Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2023-12-01
Also published as: US20230377307A1; EP4280158A1

Abstract

本申请提出一种基于单目相机的物体检测方法、装置、电子设备及计算机可读存储介质，该方法包括：通过单目相机获取包含目标物体的目标图像；确定所述目标物体在所述目标图像中的像素坐标；基于所述目标物体在所述目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息。本申请通过单目相机获取包含目标物体的目标图像，并确定目标物体在目标图像中像素坐标，然后根据目标物体在目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息，能够高效准确地检测出目标物体。

Description

基于单目相机的物体检测方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于单目相机的物体检测方法、装置、电子设备及计算机可读存储介质。

背景技术

随着科技的进步，在人们生活中汽车及导航的应用也越来越普及，而基于视觉测量技术的障碍物检测也在汽车辅助驾驶、机器人导航等领域有重要应用。

目前常用的视觉测量技术包括单目视觉测量、双目视觉测量和结构光视觉测量。双目视觉测量结构较为复杂、且测量时间较长，结构光视觉测量的测量系统标定比较困难，为汽车辅助驾驶、机器人导航等智能应用领域增加昂贵的成本，且侦测到环境中部分深度信息与避障没有关系，例如高于机器人高度的深度信息。

发明内容

有鉴于此，本申请提出了一种基于单目相机的物体检测方法、装置、电子设备及计算机可读存储介质，通过单目相机获取包含目标物体的目标图像，并确定目标物体在目标图像中像素坐标，然后根据目标物体在目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息，能够有效解决视觉测距成本高、结构复杂、实时性差及精确度低的问题，且高效准确地检测出目标物体。

第一方面，本申请一实施例提供一种基于单目相机的物体检测方法，包括：

通过单目相机获取包含目标物体的目标图像；

确定所述目标物体在所述目标图像中的像素坐标；

基于所述目标物体在所述目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息。

于一实施例中，所述预设坐标转换关系的获取方法，包括：根据小孔成像原理，以所述单目相机为圆心，通过所述单目相机的内参将所述目标物体基于所述目标图像的像素坐标转换为基于世界坐标系的实际坐标，以建立所述预设坐标转换关系。

于一实施例中，所述基于所述目标物体在所述目标图像中的像素坐标及预设坐标转换关系，确定所述目标物体在所述目标图像中的空间位置信息，包括：通过所述预设坐标转换关系将所述目标物体在所述目标图像中的像素坐标转换为基于世界坐标系的实际坐标，根据所述基于世界坐标系的实际坐标获取所述目标物体在所述目标图像中的空间位置信息。

于一实施例中，所述预设深度预测模型的获取方法，包括：在地面的不同位置标记已知深度标记点，根据标记过程中所述已知深度标记点的深度信息和所述单目相机拍摄的目标图像中对应所述已知深度标记点的像素坐标，得到所述已知深度标记点的三维坐标，以得到训练数据集，通过对所述训练数据集进行特征工程处理，并通过预设建模算法，产生所述预设深度预测模型。

于一实施例中，所述基于所述目标物体在所述目标图像中的像素坐标及预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息，包括：将所述目标物体的像素坐标输入所述预设深度预测模型，得到所述目标物体的深度值，以确定所述目标物体在所述目标图像中的空间位置信息。

于一实施例中，所述在地面的不同位置标示已知深度标记的方法，包括：棋盘格或激光投影。

于一实施例中，所述单目相机的安装高度与安装角度为固定的。

第二方面，本申请一实施例提供一种基于单目相机的物体检测装置，包括：获取模块，用于通过单目相机获取包含目标物体的目标图像；转换模块，用于将所述目标图像转换为目标图像，并确定所述目标物体在所述目标图像中的像素坐标；定位模块，用于基于所述目标物体在所述目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息。

第三方面，本申请一实施例提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储指令，所述处理器用于调用所述存储器中的指令，使得所述电子设备执行如第一方面所述的基于单目相机的物体检测方法。

第四方面，本申请一实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如第一方面所述的基于单目相机的物体检测方法。

本申请实施方式提供的基于单目相机的物体检测方法、装置、电子设备及计算机可读存储介质，通过单目相机获取包含目标物体的目标图像，并确定目标物体在目标图像中像素坐标，然后根据目标物体在目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息，能够有效解决视觉测距成本高、结构复杂、实时性差及精确度低的问题，且高效准确地检测出目标物体。

附图说明

图1为本申请一实施例的基于单目相机的物体检测方法的步骤流程示意图。

图2为本申请一实施例的目标物体在目标图像中的定位坐标点的图像示意图。

图3为本申请一实施例的基于单目相机的物体检测方法的应用场景示意图。

图4为本申请一实施例的在目标图像中地面的不同位置标记已知深度标记点的图像示意图。

图5为本申请一实施例的基于单目相机的物体检测装置的功能模块示意图。

图6为本申请一实施例的电子设备的架构示意图。

主要元件符号说明

基于单目相机的物体检测装置 10

获取模块 11

转换模块 12

定位模块 13

电子设备 20

处理器 21

存储器 22

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式：

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。

需要说明的是，本申请实施例中“至少一个”是指一个或者多个，多个是指两个或两个以上。除非另有定义，本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，本申请实施例中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

请参阅图1，图1为本申请一实施例提供的基于单目相机的物体检测方法的步骤流程示意图。

具体地，本实施例中基于单目相机的物体检测方法可以包括：

S100，通过单目相机获取包含目标物体的目标图像。

在本实施例中，以安装于扫地机器人的单目相机为例，对本申请的实施方式进行详细说明。

具体地，利用单目相机，比如RGB相机或IR相机获取包含目标物体的目标图像。其中，单目相机的安装高度与安装角度是固定的，换句话说，安装于扫地机器人上的单目相机相对于地面的高度、角度等空间特征是定值。

由于单目相机安装方便、体积小、成本低等优点，在障碍物检测领域具有更广阔的应用前景，因此，在本实施例中通过单目相机获取扫地机器人周围的环境信息，但双目相机完全可以替代单目相机。

S200，确定目标物体在目标图像中的像素坐标。

进一步结合图2所示，目标图像中的每一个像素都代表一组(X,Y)图像坐标，可以利用目标检测算法获得目标物体的边界框(bounding box)，并基于边界框获取目标物体的像素坐标，从而确定目标物体的定位坐标(X1,Y1)，(X2,Y2)。例如，目标检测算法可以包括YOLO算法，如YOLOv3算法。优选地，在获取目标物体的边界框的同时，还可以利用YOLO算法提取到物体识别置信度以及物体种类等相关信息。

需要说明的是采用包含YOLOv3算法在内的目标检测算法，其优势在于，YOLOv3算法采用Darknet53网络作为主干网络(backbone)，Darknet53网络大量使用类似于ResNet网络的残差跳层连接，从而可以加深网络的深度，特征提取可以提取出更高层的语义特征，并且为了降低池化带来的梯度负面效果，该算法鲁棒性和泛化能力都十分出色，可以有效获取目标物体的坐标、种类等信息。

S300，基于目标物体在目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定目标物体在目标图像中的空间位置信息。

于一实施例中，预设坐标转换关系的获取方法，包括：根据小孔成像原理，以单目相机为圆心，通过单目相机的内参将目标物体基于目标图像的像素坐标转换为基于世界坐标系的实际坐标，以建立预设坐标转换关系。

具体地，通过相机标定算法对单目相机进行标定，从而获取单目相机的内参，以通过单目相机的内参将目标物体基于目标图像的像素坐标转换为基于世界坐标系的实际坐标，以建立预设坐标转换关系。其中，内参包括但不限于光心在相机拍摄的图像上的投影点的像素坐标、以像素为单位的焦距。

于一实施例中，基于目标物体在目标图像中的像素坐标及预设坐标转换关系，确定目标物体在目标图像中的空间位置信息，包括：通过预设坐标转换关系将目标物体在目标图像中的像素坐标转换为基于世界坐标系的实际坐标，根据基于世界坐标系的实际坐标获取目标物体在目标图像中的空间位置信息。

具体地，进一步结合图3所示，通过预设坐标转换关系将目标物体在目标图像中的像素坐标(X2,Y2)转换为基于世界坐标系的实际坐标P(X2’,Y2’,Z2’)，进一步地，通过P、O的直线与底面y＝h平面的交点P_obj(X,h,Z)，即可代表图2中的目标物体在真实世界的位置，其中，h代表单目相机与地面的距离。因为要实现扫地机器人避障，主要是需要检测地面上的障碍物，因此单目相机垂直方向并不需要较大的深度，可以上下移动镜头广角成像，快拍一次成像即可。

在本实施例中，将图2所示的两坐标点(X1,Y1)，(X2,Y2)都转换为基于世界坐标系的实际坐标后，就可得出地面上目标物体的宽度，以及目标物体相对于扫地机器人的距离，将这些空间位置信息导入预设扫地机器人路径规划算法，即可建构智能避障的功能。

本申请中除了上述小孔成像原理的应用外，也可以通过机器学习等统计学习方式，产生适用于该单目相机的预设深度预测模型。

于一实施例中，预设深度预测模型的获取方法，包括：在地面的不同位置标记已知深度标记点，根据标记过程中已知深度标记点的深度信息和单目相机拍摄的目标影像中对应已知深度标记点的像素坐标，得到已知深度标记点的三维坐标，以得到训练数据集。通过对训练数据集进行特征工程处理，并通过预设建模算法，产生预设深度预测模型。

具体地，进一步结合图4所示，利用已知尺寸的棋盘格，在地面的不同位置标记带有深度信息的深度标记点。然后，根据标记过程中已知深度标记点的深度信息和单目相机拍摄的目标影像中对应已知深度标记点的像素坐标，得到已知深度标记点的三维坐标，例如图4中的(x1,y1,D1)、(x2,y2,D2)、(x3,y3,D3)…(xn,yn,Dn)。接着，通过特征工程可从原始x、y坐标衍伸出其他特征，例如x*y、x^m、y^m、e^x、e^y…等，再通过例如线性回归(LinearRegression)、决策树(Decision Tree)、支持向量机(Support Vector Machine,SVM)等预设建模算法产生深度D的预设深度预测模型。线性回归(Linear Regression)，是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛，其表达形式为y＝w'x+e，e为误差服从均值为0的正态分布；决策树(Decision Tree)，是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法；支持向量机(Support Vector Machine,SVM),是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalizedlinear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。

于一实施例中，也可以通过深度学习(Deep Learning)以原始x、y坐标进行端对端的建模作业，以产生深度D的预设深度预测模型。

于一实施例中，在地面的不同位置标示带有深度信息的深度标记点的标记方法，除棋盘格外，也可搭配深度相机、激光投影，或任何可在地面标示默认深度标记点的方法。

于一实施例中，基于目标物体在目标图像中的像素坐标及预设深度预测模型，确定目标物体在目标图像中的空间位置信息，包括：将目标物体的像素坐标输入预设深度预测模型，得到目标物体的深度值，以确定目标物体在目标图像中的空间位置信息。

具体地，预设深度预测模型完成后，可将单目相机获取的目标影像中地面的x、y坐标输入预设深度预测模型，即可得到对应的深度值。

需要说明的是，可以将单目相机固定在扫地机器人不同的高度或角度，改变单目相机涵盖的地面视野，再通过上述方法建立新的预设坐标转换关系或预设深度预测模型，进而改变可计算或预测的空间范围，以应用在不同的场所及需求，从而提高扫地机器人的适用性。

上述实施例中，基于单目相机的物体检测方法通过安装于扫地机器人上的单目相机获取包含目标物体的目标图像，并确定目标物体在目标图像中像素坐标，然后，根据目标物体在目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定目标物体在目标图像中的空间位置信息，能够有效解决视觉测距成本高、结构复杂、实时性差及精确度低的问题，且高效准确地检测出目标物体，从而使扫地机器人得以避开不宜接触的障碍物，例如粪便、生物、袜子等，同时，避免产生扫地机器人接触这些障碍物可能增加地面脏污程度、或造成生物受伤或惊吓，以及吸尘故障等问题，对于拓展扫地机器人的智能避障或者其他定位需求，将有显著的经济效益。

进一步结合图5所示，基于与上述实施例中的基于单目相机的物体检测方法相同的思想，本申请还提供一种基于单目相机的物体检测装置10，该基于单目相机的物体检测装置10可用于执行上述基于单目相机的物体检测方法。为了便于说明，基于单目相机的物体检测装置10实施例的功能模块示意图中，仅仅示出了与本申请实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对该基于单目相机的物体检测装置10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

具体地，在本实施例中，基于单目相机的物体检测装置10可以包括：获取模块11，用于通过单目相机获取包含目标物体的目标图像；转换模块12，用于将目标图像转换为目标图像，并确定目标物体在目标图像中的像素坐标；定位模块13，用于基于目标物体在目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定目标物体在目标图像中的空间位置信息。

请参阅图6，图6为本申请一实施例提供的电子设备20的架构示意图。

具体地，电子设备20包括处理器21和存储器22，存储器22用于存储计算机指令，处理器21用于调用存储器22中的计算机指令，使得电子设备20执行如上述实施例的基于单目相机的物体检测方法的步骤。

示例性的，计算机指令可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器22中，并由处理器21执行。一个或多个模块/单元可以是能够完成特定功能的一系列计算机指令的指令段，指令段用于描述计算机指令在电子设备20中的执行过程。例如，可以分割成图5所示的获取模块11、转换模块12、定位模块13。

电子设备20可以是桌上型计算机、笔记本、掌上电脑、工业电脑、平板电脑、服务器等计算设备。本领域技术人员可以理解，示意图仅仅是电子设备20的示例，并不构成对电子设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备20还可以包括输入输出设备、网络接入设备、总线等。

处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器、单片机或者处理器21也可以是任何常规的处理器等。

存储器22可用于存储计算机指令和/或模块/单元，处理器21通过运行或执行存储在存储器22内的计算机指令和/或模块/单元，以及调用存储在存储器22内的数据，实现电子设备20的各种功能。存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备20的使用所创建的数据(比如音频数据)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

本申请还公开一种计算机可读存储介质，计算机可读存储介质存储计算机指令，当计算机指令在电子设备20上运行时，使得电子设备20执行如上述实施例的基于单目相机的物体检测方法的步骤。其中，存储介质可以是U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施方式提供的基于单目相机的物体检测方法、装置、电子设备及计算机可读存储介质，通过单目相机获取包含目标物体的目标图像，并确定目标物体在目标图像中的像素坐标，然后，根据目标物体在目标图像中像素坐标及预设坐标转换关系或预设深度预测模型，确定目标物体在目标图像中的空间位置信息，能够有效解决视觉测距成本高、结构复杂、实时性差及精确度低的问题，且高效准确地检测出目标物体。

本技术领域的普通技术人员应当认识到，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本申请结构所做的举例说明。凡依据本申请构思的构造、特征及原理所做的等效变化或者简单变化，均包括于本申请的保护范围内。本申请所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本申请的结构或者超越本权利要求书所定义的范围，均应属于本申请的保护范围。

Claims

1.一种基于单目相机的物体检测方法，其特征在于，包括：

通过单目相机获取包含目标物体的目标图像；

确定所述目标物体在所述目标图像中的像素坐标；

2.如权利要求1所述的基于单目相机的物体检测方法，其特征在于，所述预设坐标转换关系的获取方法，包括：根据小孔成像原理，以所述单目相机为圆心，通过所述单目相机的内参将所述目标物体基于所述目标图像的像素坐标转换为基于世界坐标系的实际坐标，以建立所述预设坐标转换关系。

3.如权利要求2所述的基于单目相机的物体检测方法，其特征在于，所述基于所述目标物体在所述目标图像中的像素坐标及预设坐标转换关系，确定所述目标物体在所述目标图像中的空间位置信息，包括：通过所述预设坐标转换关系将所述目标物体在所述目标图像中的像素坐标转换为基于世界坐标系的实际坐标，根据所述基于世界坐标系的实际坐标获取所述目标物体在所述目标图像中的空间位置信息。

4.如权利要求1所述的基于单目相机的物体检测方法，其特征在于，所述预设深度预测模型的获取方法，包括：在地面的不同位置标记已知深度标记点，根据标记过程中所述已知深度标记点的深度信息和所述单目相机拍摄的目标图像中对应所述已知深度标记点的像素坐标，得到所述已知深度标记点的三维坐标，以得到训练数据集，通过对所述训练数据集进行特征工程处理，并通过预设建模算法，产生所述预设深度预测模型。

5.如权利要求4所述的基于单目相机的物体检测方法，其特征在于，所述基于所述目标物体在所述目标图像中的像素坐标及预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息，包括：将所述目标物体的像素坐标输入所述预设深度预测模型，得到所述目标物体的深度值，以确定所述目标物体在所述目标图像中的空间位置信息。

6.如权利要求4所述的基于单目相机的物体检测方法，其特征在于，所述在地面的不同位置标示已知深度标记的方法，包括：棋盘格或激光投影。

7.如权利要求1所述的基于单目相机的物体检测方法，其特征在于，所述单目相机的安装高度与安装角度为固定的。

8.一种基于单目相机的物体检测装置，其特征在于，包括：

获取模块，用于通过单目相机获取包含目标物体的目标图像；

转换模块，用于将所述目标图像转换为目标图像，并确定所述目标物体在所述目标图像中的像素坐标；

定位模块，用于基于所述目标物体在所述目标图像中的像素坐标及预设坐标转换关系或预设深度预测模型，确定所述目标物体在所述目标图像中的空间位置信息。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储指令，所述处理器用于调用所述存储器中的指令，使得所述电子设备执行权利要求1至权利要求7中任一项所述的基于单目相机的物体检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至权利要求7中任一项所述的基于单目相机的物体检测方法。