CN109993793A

CN109993793A - 视觉定位方法及装置

Info

Publication number: CN109993793A
Application number: CN201910247795.9A
Authority: CN
Inventors: 王毓玮; 刘洋; 华仁红; 尚云; 冯卓玉
Original assignee: Beijing Yida Turing Technology Co Ltd
Current assignee: Beijing Yida Turing Technology Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-09
Anticipated expiration: 2039-03-29
Also published as: CN109993793B

Abstract

本发明实施例提供一种视觉定位方法及装置，该方法包括：获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；获取第二时刻场景的相机图像；对投影图像和相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。该方法具有较高的精度，通过低成本、高普及度的相机实现，能够有效降低视觉定位装置的成本。通过使用相机为传感器，在不增加传感器的条件下能开发更多应用，具有较强的拓展性。最后，由于目前相机模块的高集成度，从而能够实现定位装置的轻量化、小型化。

Description

视觉定位方法及装置

技术领域

本发明实施例涉及计算机视觉领域，尤其涉及一种视觉定位方法及装置。

背景技术

视觉定位已在各个领域得到广泛应用，例如工业机器人、服务机器人、无人驾驶等等。以机器人为例，为了了解机器人的工作情况，需要对机器人进行实时定位，从而获取机器人的行走路线以及所在位置。

目前，精度较高的视觉定位法是使用多线激光雷达，并通过已建立的三维点云地图进行定位。先根据三维激光扫描仪获取三维点云地图，而后利用三维点云的空间信息，与多线激光雷达传感器数据进行匹配定位，在激光雷达的运动过程中不断重复计算每一时刻与上一时刻的位置偏差，从而根据这些位置偏差和上一时刻的位置信息更新当前的位置姿态信息。

多线激光雷达价格较为昂贵，价格从几万到百万不等，从而难以普及应用。若需在产品上部署定位功能，必须将多线激光雷达安装部署在设备上，比如现在热门的无人车和一些机器人设备。然而，多线激光雷达大多都在10cm*10cm*10cm以上，由于体积较大，只能部署在体积更大的平台上，难以实现较高的集成度。另外，激光雷达的数据比较单一，只有空间距离信息，拓展性不强。若需要如图像检测，图像识别等应用，必须再安装额外的摄像头传感器。

发明内容

为了解决上述问题，本发明实施例提供一种视觉定位方法及装置。

第一方面，本发明实施例提供一种视觉定位方法，包括：获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；获取第二时刻场景的相机图像；对所述投影图像和所述相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

第二方面，本发明实施例提供一种视觉定位装置，包括：投影模块，用于获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；相机模块，用于获取第二时刻场景的相机图像；匹配模块，用于对所述投影图像和所述相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；处理模块，用于根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面视觉定位方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面视觉定位方法的步骤。

本发明实施例提供的视觉定位方法及装置，通过获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像和获取第二时刻场景的相机图像，而后获得投影图像和相机图像经特征匹配后在像素坐标的匹配点集，从而获取相机的位姿变化量，具有较高的精度。另外，通过低成本、高普及度的相机实现，能够有效降低视觉定位装置的成本。同时，通过使用相机为传感器，在定位的同时能够将图像信息作为其它功能的输入，如图像信息可以作为图像检测、识别等应用的输入，在不增加传感器的条件下能开发更多应用，具有较强的拓展性。最后，由于目前相机模块的高集成度，从而能够实现定位装置的轻量化、小型化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视觉定位方法流程图；

图2为本发明实施例提供的视觉定位装置结构图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，精度较高的视觉定位法是使用多线激光雷达实现。但是多线激光雷达价格较为昂贵、体积较大且拓展性不强。

为解决这一问题，本发明实施例提供一种视觉定位方法。该方法可应用于上述机器人的使用场景下，例如工厂使用机器人进行生产的场景、变电站巡检机器人场景等。该方法中的相机为能够实现相机功能的模块，并不限于传统相机，该方法对应的执行主体为带有相机模块的定位装置，通过在待定位对象上安装该装置实现待定位对象的定位。

图1为本发明实施例提供的视觉定位方法流程图，如图1所示，本发明实施例提供一种视觉定位方法，包括：

101，获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像。

在101中，应用环境为待定位对象应用场景的环境，例如工厂机器人的应用环境就是机器人活动范围对应的厂区。RGB三维点云与一般三维点云不同在于，RGB三维点云在原来的基础上对点云添加了色彩信息。在本发明实施例中，RGB三维点云地图已经获得，部分城市已开始推广建设城市RGB点云地图，或者通过移动式SLAM(SimultaneousLocalization and Mapping,同步定位与建图)建图等方法获得。相机初始时刻的位姿(即位置和姿态)是已知的，初始位置姿态是一个六维向量，即三维空间的坐标x,y,z,以及相机在x,y,z轴上的角度信息。在此基础上，第一时刻可以为初始时刻，若第一时刻不是初始时刻，则其位姿信息是根据本发明实施例的方法由初始位姿迭代得到后，作为已知信息。由于待定位对象的运动，第一时刻和第二时刻处于不同位置，本发明实施例根据第一时刻的位姿获得第二时刻的位姿。

具体地，第一时刻下，将RGB三维点云地图对相机成像平面进行投影，得到投影图像，投影图像中的每一像素点和RGB三维点云的色彩相对应，投影图像具有第一时刻位位置的RGB三维点云的特征。

102，获取第二时刻场景的相机图像。

在102中，相机随待定位对象移动至第二时刻的场景下，获取在第二时刻场景下相机视野中的相机图像，即第二时刻的真实场景图像。

103，对投影图像和相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集。

在103中，分别对相机图像及RGB点云的投影图像进行图像特征匹配，提取两个图像的关键特征点。图像特征匹配是从两幅或多幅图像找到同名特征的过程。以特征点为例，同名特征意思是指这些特征点所对应的成像场景中的3D点是同一个点，比如对应的都是建筑物的某个特定的棱角点。图像特征匹配可通过图像处理技术中的SIFT(Scale-invariantfeature transform，尺度不变特征变换)、SURF(Speeded Up Robust Features，加速稳健特征)、ORB(Oriented FAST and Rotated BRIEF)以及KAZE等方法进行，从而提取图像的关键特征点，进而获得两幅图像各自在2D像素坐标的匹配点集，两幅图像的2D-2D匹配点集用于后续进行求解第二时刻的位置姿态。

104，根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

在104中，投影图像和相机图像在像素坐标的匹配点集获得后，通过求解PnP问题可得到投影图像和相机图像的相对位姿变化量。PnP问题是指通过世界中的N个特征点与图像成像中的N个像点，计算出其投影关系，从而获得相机或物体位姿关系的问题。第一时刻的相机位姿是已知的，根据位姿的变化量，即可获得相机的第二时刻的位姿，从而实现了待定位对象在第二时刻的定位。

本发明实施例提供的视觉定位方法，通过获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像和获取第二时刻场景的相机图像，而后获得投影图像和相机图像经特征匹配后在像素坐标的匹配点集，从而获取相机的位姿变化量，具有较高的精度。另外，通过低成本、高普及度的相机实现，能够有效降低视觉定位装置的成本。同时，通过使用相机为传感器，在定位的同时能够将图像信息作为其它功能的输入，如图像信息可以作为图像检测、识别等应用的输入，在不增加传感器的条件下能开发更多应用，具有较强的拓展性。最后，由于目前相机模块的高集成度，从而能够实现定位装置的轻量化、小型化。

基于上述实施例的内容，作为一种可选实施例，获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像之前，还包括：通过三维激光扫描获取应用环境的每一位置点的三维点云，并结合相机在每一位置点对获取的三维点云进行实时着色，获得每一位置点具有RGB信息的三维点云；结合所有位置点获得的具有RGB信息的三维点云，获得应用环境的RGB三维点云地图。

移动式SLAM技术搭配标定好的激光雷达及相机，在线或离线能够生成RGB三维点云地图，但是这种方法精度不高。在本发明实施例中，通过固定式基站扫描的方法生成RGB三维点云地图。在应用环境下，通过三维激光扫描仪在多个位置点分别进行三维扫描得到该位置点的三维点云，此过程中，同时每一位置点通过相机进行实时着色，即将三维点云对应的RGB颜色信息记录下来并与该三维点云对应。将所有位置点获取的具有RGB信息的三维点云进行拼接，则可获得应用环境的RGB三维点云地图。区别于移动式SLAM方法，本发明实施例中每一位置点的RGB三维点云都是获取的实时值，而非根据上一位置点计算得到，从而没有累计误差。

本发明实施例通过三维激光扫描获取应用环境的每一位置点的三维点云，并结合相机在每一位置点对获取的三维点云进行实时着色，获得每一位置点具有RGB信息的三维点云，从而能够获得高精度的RGB三维点云地图。

基于上述实施例的内容，作为一种可选实施例，通过三维激光扫描获取应用环境的每一位置点的三维点云之前，还包括：对实施三维激光扫描的装置和相机进行标定。标定为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，可以理解为相机参数的校准。本发明实施例中由于三维扫描仪的位置和相机位置之间会存在细小偏差，从而导致三维点云的RGB着色出现细微偏差。通过对实施三维激光扫描的装置和相机之间进行标定，从而消除这种误差，进而得到准确的RGB三维点云地图。

基于上述实施例的内容，作为一种可选实施例，获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像之前，还包括：根据预设的初始相机位姿，获取初始时刻下，应用环境的RGB三维点云地图在相机成像平面上的初始投影图像；获取初始时刻场景的初始相机图像；对初始投影图像和初始相机图像进行图像特征匹配，获得初始投影图像和初始相机图像在像素坐标的匹配点集；根据初始投影图像和初始相机图像在像素坐标的匹配点集，获取初始相机位姿的预设误差，结合预设的初始相机位姿，获取真实的初始相机位姿。

相机的初始位姿作为已知量，可通过定位技术或测量技术获得，但是往往会存在一定的误差，从而影响定位的准确性。在本发明实施例中，通过获取更准确的初始位姿而消除这种误差。

具体地，预设的相机位姿可以是根据定位技术或测量技术获得的初始位姿，是存在一定的不可忽略误差的给定初始位姿，而非真实初始位姿。初始投影图像是根据预设的相机位姿获取的，对应的是存在一定误差初相机始位姿，包含了预设的初始相机位姿的特征。获取初始时刻场景的初始相机图像，是根据相机当前的真实位置获取的相机图像，该相机图像对应的是相机的真实初始位姿，包含了真实位姿的特征。对初始投影图像和初始相机图像进行特征匹配，获得匹配点集，从而根据匹配点集能够计算出二者位姿的预设误差，即预设时存在的误差。结合预设的初始相机位姿和预设误差，可获得真实的初始相机位姿。具体实施过程可参见上述或下述实施例第一时刻相机位姿得到第二时刻相机位姿的方法。

本发明实施例提供的视觉定位方法，通过对初始投影图像和初始相机图像进行图像特征匹配后，获得初始投影图像和初始相机图像在像素坐标的匹配点集，并获取初始时刻相机位姿的预设误差，进一步获得真实的初始相机位姿，能够提高初设时刻相机位姿的精度，从而有效提高视觉定位的准确度。

基于上述实施例的内容，作为一种可选实施例，获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像，包括：根据光线投射法，将相机成像平面的每一像素点与RGB三维点云地图进行碰撞，获得每一像素点的关于RGB三维点云地图的RGB信息；将每一像素获得的RGB信息作为对应像素的色彩，获得投影图像。

光线投射的思想为，从相机光心投射光线到RGB三维点云的每个点，查找成像平面上阻挡光线的像素。将相机成像平面的每一像素点与RGB三维点云地图进行碰撞，即可得到每一像素点的关于RGB三维点云地图的RGB信息。所有像素点获得的RGB信息构成的图像则为RGB三维点云地图在相机成像平面上的投影图像。通过光线投射法获取投影图像，能够得到精准的结果。

基于上述实施例的内容，作为一种可选实施例，根据SIFT-GPU特征提取算法，对投影图像和相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集。SIFT算法得到的特征点数目太大、算法复杂耗时。SIFT-GPU特征提取算法是一种改进的SIFT特征提取与匹配算法，并通过在GPU上进行加速处理。通过分析算法的并行性，充分利用GPU多线程和存储器的优势对SIFT算法进行优化。在关键点精确定位过程中增加了第二次筛选，有效减少了特征点数量。本发明实施例通过SIFT-GPU特征提取算法，有效提高了特征提取的效率。

基于上述实施例的内容，作为一种可选实施例，根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量包括：根据后方交会原理，以及获得的投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量。后方交会原理为，在待定点上设站，向三个已知控制点观测两个水平夹角，从而计算待定点的坐标。利用视觉几何中的后方交汇原理，根据两幅图像的2D-2D匹配点集可得到相机的投影矩阵。对投影矩阵进行分解即可得到相机的位置和姿态的变化量，之后根据上一时刻的位置姿态更新当前的位置姿态信息。本发明实施例提供的视觉定位方法，根据后方交会原理，获取相机的位姿变化量，能够准确得到第二时刻相机位姿相对于第一时刻的变化量。

以下为结合上述实施例的具体应用事例：

2018年6月，在某地330kV变电站进行了实验，该场景为800m*600m左右大小。实验过程中，首先对电站进行了全站的三维点云建模工作。取得RGB三维点云地图数据后，分别对RGB点云的2D投影图像及相机图像进行了SIFT-GPU特征提取与匹配、并求解出相机的位置和姿态；同时利用Velodyne的16线多线激光雷达，在同样的点云中进行定位，实时获取其位置和姿态。经过相同的路径，最终对比了两种方法的结果，两者的轨迹平均误差大约在3cm左右。

2018年08月，在某220KV变电站内进行了本发明的RGB点云视觉定位的实验，该场景为100m*50m大小。实验过程中，首先让专业的三维扫描建模团队进行场地的RGB点云地图构建工作，最后该团队提供该电站的三维RGB点云。取得三维RGB点云地图后，通过相机，分别对点云的2D投影图像及相机图像进行了SIFT-GPU特征提取与匹配、并求解出相机的位置和姿态；同时与并行的多线激光雷达的数据进行了激光点云定位，实时获取其位置和姿态。最终对比了两种方法的结果，经过同样长度大概是150m的路程，平均轨迹误差在2cm左右。

由此可见，使用低成本的相机后，本发明实施例的方法能够达到与多线激光雷达基本相同的精度。本发明对相机性能的依赖性不强，可以使用任何相机进行本方法的RGB三维点云视觉定位。与背景技术相比，本发明最为重要的还是传感器的优势。目前摄像头此类相机模块传感器可以移植到手机，眼镜，等许多穿戴式电子产品上，可以非常方便的使用这些产品在已有的RGB三维点云中获得定位功能。发明通过摄像头或者相机在不增添额外的传感器或数据源，将图像可以同时用来做更多的业务或者功能拓展，大大提高传感器的使用效率。

图2为本发明实施例提供的视觉定位装置结构图，如图2所示，该视觉定位装置包括：投影模块201、相机模块202、匹配模块203和处理模块204。其中，投影模块201用于获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；相机模块202用于获取第二时刻场景的相机图像；匹配模块203用于对投影图像和相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；处理模块204用于根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

在本发明实施例中，投影模块201对于RGB三维点云地图已经获得，包括但不限于通过移动式SLAM(Simultaneous Localization and Mapping,同步定位与建图)建图的方法获得。相机初始时刻的位姿(即位置姿态)是已知的，初始位置姿态是一个六维向量，即三维空间的坐标x,y,z,以及相机在x,y,z轴上的角度信息。在此基础上，第一时刻可以为初始时刻，若第一时刻不是初始时刻，则其位姿信息是根据本发明实施例的方法由初始位姿迭代得到后，作为已知信息。由于待定位对象的运动，第一时刻和第二时刻处于不同位置，本发明实施例根据第一时刻的位姿获得第二时刻的位姿。在第一时刻下，投影模块201将RGB三维点云地图对相机成像平面进行投影，得到投影图像，投影图像中的每一像素点和RGB三维点云的色彩相对应，投影图像具有第一时刻位位置的RGB三维点云的特征。

相机随待定位对象移动至第二时刻的场景下，相机模块202获取在第二时刻场景下相机视野中的相机图像，即第二时刻的真实场景图像。

匹配模块203分别对相机图像及RGB点云的投影图像进行图像特征匹配，提取两个图像的关键特征点，从而获得两幅图像各自在2D像素坐标的匹配点集，并将两幅图像的2D-2D匹配点集发送至处理模块204。

处理模块204获得投影图像和相机图像在像素坐标的匹配点集获得后，通过求解PnP问题得到投影图像和相机图像的相对位姿变化量。第一时刻的相机位姿是已知的，处理模块204根据位姿的变化量，即可获得相机的第二时刻的位姿，从而实现了待定位对象在第二时刻的定位。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的视觉定位装置，通过投影模块获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像和相机模块获取第二时刻场景的相机图像，而后匹配模块获得投影图像和相机图像经特征匹配后在像素坐标的匹配点集，从而处理模块获取相机的位姿变化量，具有较高的精度。另外，通过低成本、高普及度的相机模块实现，能够有效降低视觉定位装置的成本。同时，通过使用相机为传感器，在定位的同时能够将图像信息作为其它功能的输入，如图像信息可以作为图像检测、识别等应用的输入，在不增加传感器的条件下能开发更多应用，具有较强的拓展性。最后，由于目前相机模块的高集成度，从而能够实现定位装置的轻量化、小型化。

本发明实施例提供一种机器人，该机器人包括上述装置实施例的视觉定位装置。具体内容参见上述装置实施例，此处不再赘述。

应当说明的是，该机器人是为了实现上述各方法实施例的，上述各功能模块的描述只是示意性的，并不是对各相关模块的具体限制。只要该机器人的单个模块、多个模块结合起来，执行上述任意方法实施例，都属于本发明保护的范围。例如，执行的方法实施例包括：获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；获取第二时刻场景的相机图像；对投影图像和相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

图3为本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该服务器可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和总线304，其中，处理器301，通信接口302，存储器303通过总线304完成相互间的通信。通信接口302可以用于电子设备的信息传输。处理器301可以调用存储器303中的逻辑指令，以执行包括如下的方法：获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；获取第二时刻场景的相机图像；对投影图像和相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉定位方法，其特征在于，包括：

获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；

获取第二时刻场景的相机图像；

对所述投影图像和所述相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；

根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

2.根据权利要求1所述的方法，其特征在于，所述获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像之前，还包括：

通过三维激光扫描获取应用环境的每一位置点的三维点云，并结合相机在每一位置点对获取的三维点云进行实时着色，获得每一位置点具有RGB信息的三维点云；

结合所有位置点获得的具有RGB信息的三维点云，获得应用环境的RGB三维点云地图。

3.根据权利要求1所述的方法，其特征在于，所述获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像之前，还包括：

根据预设的初始相机位姿，获取初始时刻下，应用环境的RGB三维点云地图在相机成像平面上的初始投影图像；

获取初始时刻场景的初始相机图像；

对所述初始投影图像和所述初始相机图像进行图像特征匹配，获得初始投影图像和初始相机图像在像素坐标的匹配点集；

根据初始投影图像和初始相机图像在像素坐标的匹配点集，获取初始相机位姿的预设误差，结合预设的初始相机位姿，获取真实的初始相机位姿。

4.根据权利要求1所述的方法，其特征在于，所述获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像，包括：

根据光线投射法，将相机成像平面的每一像素点与RGB三维点云地图进行碰撞，获得每一像素点的关于RGB三维点云地图的RGB信息；

将每一像素获得的RGB信息作为对应像素的色彩，获得所述投影图像。

5.根据权利要求1所述的方法，其特征在于，所述对所述投影图像和所述相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集，包括：

根据SIFT-GPU特征提取算法，对所述投影图像和所述相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集。

6.根据权利要求1所述的方法，其特征在于，所述根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，包括：

根据后方交会原理，以及获得的投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量。

7.一种视觉定位装置，其特征在于，包括：

投影模块，用于获取第一时刻下，应用环境的RGB三维点云地图在相机成像平面上的投影图像；

相机模块，用于获取第二时刻场景的相机图像；

匹配模块，用于对所述投影图像和所述相机图像进行图像特征匹配，获得投影图像和相机图像在像素坐标的匹配点集；

处理模块，用于根据投影图像和相机图像在像素坐标的匹配点集，获取相机的位姿变化量，结合已知的第一时刻的相机位姿，获取第二时刻的相机位姿。

8.一种机器人，其特征在于，包括权利要求7所述的视觉定位装置。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述视觉定位方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述视觉定位方法的步骤。