CN111768498A

CN111768498A - 基于稠密语义三维地图与混合特征的视觉定位方法、系统

Info

Publication number: CN111768498A
Application number: CN202010654932.3A
Authority: CN
Inventors: 申抒含; 时天欣; 崔海楠; 朱灵杰
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-13

Abstract

本发明属于视觉定位领域，具体涉及一种基于稠密语义三维地图与混合特征的视觉定位方法、系统，旨在为了解决解决在较大的外观变化或者拍照条件变化下现有视觉定位方法鲁棒性和精确度较低的问题。本发明方法包括：获取目标场景的稠密三维模型、稠密语义三维模型；获取查询图像的多个候选检索图像；获取查询图像，与各候选检索图像、稠密三维模型的匹配关系；基于匹配关系估计临时位姿，投影所有可见的带有语义的三维点到查询图像上，并统计三维点和查询图像上的二维投影点语义标签一致的数量作为语义一致性得分，通过基于权重RANSAC的位姿计算方法获取最终定位信息。本发明提高了视频定位的鲁棒性和精确度。

Description

基于稠密语义三维地图与混合特征的视觉定位方法、系统

技术领域

本发明属于视觉定位领域，具体涉及一种基于稠密语义三维地图与混合特征的视觉定位方法、系统。

背景技术

目前，视觉定位方法主要可分为三种类型，分别为基于图像检索的方法、基于深度学习的方法以及基于三维模型的方法。与前两种类型方法相比，基于三维模型的方法能够提供更准确的相机姿态。虽然当查询图像和数据库图片所在的拍摄环境较为相似时，传统的基于三维模型的定位方法可以很好地工作，但是在场景外观变化较大的情况下，例如查询图片和数据库图像是在不同的季节、光照或天气下拍摄的，这些传统的定位方法往往无法对查询图像进行精确的定位。其主要原因是这些方法需要获取大量正确的2D-3D特征匹配，因此这些方法严重依赖于局部特征的稳定性，而传统的局部特征对外观和光照的变化十分敏感，导致在大时间跨度的场景中可能会产生较多的匹配外点，进而导致视觉定位失败。

发明内容

为了解决现有技术中的上述问题，即为了解决在较大的外观变化或者拍照条件变化下现有视觉定位方法鲁棒性和精确度较低的问题，本发明的第一方面，提出了一种基于稠密语义三维地图与混合特征的视觉定位方法，该方法包括：

步骤S100，获取基于目标场景的数据库图片构建的稠密三维模型、稠密语义三维模型；

步骤S200，对输入的查询图像，通过图像检索方法从所述数据库图片中获取多个候选检索图像；

步骤S300，通过基于多种特征点建立的所述查询图像和各所述候选检索图像的特征匹配关系，分别建立所述查询图像与所述稠密语义三维模型的匹配关系，得到第一匹配关系的集合；

步骤S400，基于所述第一匹配关系的集合，获取每个匹配关系下所述查询图像对应图像采集装置的初始位姿，得到初始位姿集合；

步骤S500，基于每一个所述初始位姿，获取第一点集、第二点集，并统计两个点集中语义标签一致的点的数量，作为对应候选检索图像的语义一致性得分；所述第一点集为所述查询图像在所述初始位姿下可视的所述稠密语义三维模型中的三维点；所述第二点集为所述三维点在所述查询图像上的二维投影点；

步骤S600，基于各候选检索图像的语义一致性得分，获取对各第一匹配关系的权重，通过基于权重RANSAC的位姿计算方法进行所述查询图像对应图像采集装置视觉定位。

在一些优选的实施方式中，步骤S100中所述稠密三维模型、所述稠密语义三维模型，其构建方法为：

基于目标场景的数据库图片建立稠密三维模型；所述数据库图片包括多幅所述目标场景的图片；

对所述数据库图片进行语义分割，基于稠密三维模型获取稠密语义三维模型。

在一些优选的实施方式中，“基于目标场景的数据库图片建立稠密三维模型”，其方法为：

基于所述数据库图片，通过SfM算法建立稀疏的三维模型；

基于所述稀疏的三维模型，通过MVS算法建立稠密三维模型。

在一些优选的实施方式中，步骤S300中“多种特征点”包括SIFT和R2D2两种特征点。

在一些优选的实施方式中，步骤S300中“通过基于多种特征点建立的所述查询图像和各所述候选检索图像的特征匹配关系”，其方法为：

通过多种特征点提取方法，对所述查询图像和各所述候选检索图像分别进行对应的多种特征点的提取；

基于所提取的特征点，建立所述查询图像和各所述候选检索图像的2D-2D的特征匹配关系。

在一些优选的实施方式中，步骤S300中“建立所述查询图像与所述稠密语义三维模型的匹配关系”，其方法为：

对每一个所述候选检索图像，通过其对应深度图的深度值，获取对应特征点的三维坐标，并基于该候选检索图像与所述查询图像的特征匹配关系，即可获取所述查询图像与所述稠密语义三维模型之间的2D-3D匹配关系。

在一些优选的实施方式中，步骤S400中所述初始位姿，其获取方法为：

对于每一个第一匹配关系，通过PnP算法计算该匹配关系下所述查询图像对应图像采集装置的位姿。

在一些优选的实施方式中，步骤S600中“基于各候选检索图像的语义一致性得分，获取对各第一匹配关系的权重”，其方法为：

对各候选检索图像的语义一致性得分进行加和，得到得分总和；

对每一个候选检索图像的语义一致性得分根据所述得分总和进行归一化，得到对应候选检索图像的权重。

本发明的第二方面，提出了一种基于稠密语义三维地图与混合特征的视觉定位系统，该系统包括：

第一模块，配置为基于目标场景的数据库图片建立稠密三维模型；所述数据库图片包括多幅所述目标场景的图片；

第二模块，配置为对所述数据库图片进行语义分割，基于稠密三维模型获取稠密语义三维模型；

第三模块，配置为对输入的查询图像，通过图像检索方法从所述数据库图片中获取多个候选检索图像；

第四模块，配置为通过基于多种特征点建立的所述查询图像和各所述候选检索图像的特征匹配关系，分别建立所述查询图像与所述稠密语义三维模型的匹配关系，得到第一匹配关系的集合；

第五模块，配置为基于所述第一匹配关系的集合，获取每个匹配关系下所述查询图像对应图像采集装置的初始位姿，得到初始位姿集合；

第六模块，配置为基于每一个所述初始位姿，获取第一点集、第二点集，并统计两个点集中语义标签一致的点的数量，作为对应候选检索图像的语义一致性得分；所述第一点集为所述查询图像在所述初始位姿下可视的所述稠密语义三维模型中的三维点；所述第二点集为所述三维点在所述查询图像上的二维投影点；

第七模块，配置为基于各候选检索图像的语义一致性得分，获取对各第一匹配关系的权重，通过基于权重RANSAC的位姿计算方法进行所述查询图像对应图像采集装置视觉定位。

在一些优选的实施方式中，所述第四模块还包括第一特征提取模块、第二特征提取模块；

所述第一特征提取模块，配置为提取图片的SIFT特征；

所述第二特征提取模块，配置为提取图片的R2D2特征。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于稠密语义三维地图与混合特征的视觉定位方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于稠密语义三维地图与混合特征的视觉定位方法。

本发明的有益效果：

联合使用手工设计的特征以及基于深度学习的学习特征以至于能够在不同环境条件下发挥出他们各自的优势，进而提高在各种环境下的定位精度与鲁棒性。

给每一幅检索的候选图像分配一个语义一致性得分作为软约束来帮助挑选出更为可能正确的检索图像。

使用稠密的语义三维模型替代稀疏三维模型，不仅保证了模型精度并且能够适配所有类型的特征，还能够提高语义一致性得分的区分度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于稠密语义三维地图与混合特征的视觉定位方法示意图；

图2是本发明一种实施例中不同类型三维模型的示意图；

图3是本发明一种实施例中在具有挑战性场景下的两种检索方法的比较示意图；

图4是本发明一种实施例中在六个不同室内外场景下的SIFT和R2D2的匹配内点示意图；

图5是本发明一种实施例中三维点可视夹角以及距离示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在较大的外观变化或者拍照条件变化下，如何得到一个鲁棒并精确的视觉定位方法对目前而言仍然是一个巨大的挑战。基于三维模型的定位方法十分依赖局部特征，只有获得足够数量且正确的2D-3D匹配才能使用PnP方法获得精确的位姿。然而在较大的时间跨度下，往往查询图像和数据库图像所拍摄的内容在外观上存在着较大差别，这导致了传统方法无法获得足够数量的正确匹配，也就无法进行精确定位。为了解决上述问题，本发明提出了一个全新的视觉定位算法，即基于稠密语义三维模型并联合使用手工设计的特征以及基于深度学习的特征。本方法的主要想法来自于以下两个观察的结果：

第一个观察是发现在基于三维模型的定位方法中，手工设计的特征和学习特征有它们各自的优势和各自擅长的应用领域。手工设计的特征，例如SIFT、SURF和ORB等，对尺度和角度具有一定的不变性，并且能够适应轻微的光照变化和噪声影响。但是这些特征在面对较大的环境条件变化时性能较差，无法产生足够多的正确匹配。相反的是，在这种较大的环境变化下，例如白天黑夜变换，基于深度学习的特征则具有用较好的性能，能够产生相对更多的正确匹配。但是这类特征也有缺点，由于它们十分依赖训练数据，因此这也一定程度上影响了它们的泛化性能，即可能在不同数据上表现差异较大。除此之外，对于检测并描述这种类型的学习特征，比如SuperPoint、D2-Net、R2D2等，它们的特征关键点检测精度要低于手工设计的特征，比如SIFT。这也一定程度上会导致视觉定位精度的降低。因此，将手工设计的特征以及学习特征联合使用是一种十分合理并且有效的方式，因为这样能够在不同环境条件下发挥出它们各自的优势，以至于能够提高在不同环境下的定位精度以及鲁棒性。

第二个观察是相比于局部特征，图像的高层语义信息是一种对于场景优质的、稳定不变的表达。语义信息基本不受季节、天气或其他变化影响，并已经开始在视觉定位中扮演重要的角色。通常情况下，语义的约束是通过投影模型三维点到查询图像，之后比对模型中三维点的语义标签和投影在查询图像上的二维点的语义标签是否一致来衡量。因此，根据上述的衡量方法可以发现当三维模型点云数量越多，模型越精确时，对于语义一致性的衡量就会越具有区分性。

基于上述的两个观察，本发明提出使用稠密语义三维模型并将混合特征融入基于三维模型的视觉定位的方法。使用稠密三维模型有两个优势，第一个优势为不同类型的特征可以使用同一个三维模型进行测试，而不需要为不同种类的特征每次都重新建立新的三维模型。第二个优势为稠密的语义三维模型相比于稀疏三维模型能够使得语义一致性得分更具有区分性以至于能辅助筛选出更为可能正确的检索候选图像。

本发明的一种基于稠密语义三维地图与混合特征的视觉定位方法，该方法包括：

为了更清晰地对本发明基于稠密语义三维地图与混合特征的视觉定位方法进行说明，下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。

如图1所示，本发明实施例的一种基于稠密语义三维地图与混合特征的视觉定位方法，通过步骤S100-步骤S600的线上操作，获取查询照片对应采集设备的定位信息。

步骤S100，获取基于目标场景的数据库图片构建的稠密三维模型、稠密语义三维模型。

本实施例中，稠密语义三维模型可以在线下预先构建。数据库图片是目标场景的大量照片构成的图片集合。稠密三维模型、稠密语义三维模型，其构建方法为：基于目标场景的数据库图片建立稠密三维模型；所述数据库图片包括多幅所述目标场景的图片；对所述数据库图片进行语义分割，基于稠密三维模型获取稠密语义三维模型。

建立稠密三维模型的步骤具体包括：基于所述数据库图片，通过SfM算法建立稀疏的三维模型；基于所述稀疏的三维模型，通过MVS算法建立稠密三维模型。

本实施例中，在建立稠密三维模型过程中，根据SfM结果中提供的已经标定好的图像，执行MVS算法流程为每一幅图像生成深度图并且获得融合后的稠密点云。

在众多的基于几何以及基于深度学习的MVS方法中，基于PatchMatch的MVS方法在著名的MVS方法评测平台上整体性能表现最好。因此本发明使用了一个成熟的基于PatchMatch的MVS算法以生成所需的稠密三维模型。算法流程涵盖了邻居图像的选择、基于传播方法的深度图计算、深度图过滤以及深度图融合。

稠密三维模型中的每一个三维点根据其所有可见图像的二维投影点的语义标签类别进行最大值投票，将语义标签类别数量最多的那一类别分配给此三维点，作为它的最终语义类别。根据三维点的语义类别，能够将类别属于动态物体的三维点从模型中去除，比如能够去除模型中的行人、汽车、公交车、天空等对于视觉定位来说无用甚至起反作用的三维点，以至于能够获得更加整洁的稠密语义三维模型(参考图2，不同类型三维模型的示意图。这四幅图片从相同视角截取。左上角这幅图片代表稀疏三维模型，而左下角这幅图片表示稠密三维模型。右上角和右下角这两幅图片分别代表了稀疏以及稠密语义三维模型)。相比于稀疏语义三维模型，稠密的模型拥有更多的三维点能够参与到语义一致性的衡量中来，这使得语义一致性得分更加具有区分度。其中需要说明的是，基于PatchMatch的MVS方法是一种典型的深度图融合的MVS方法，也就是说，在该MVS方法的计算过程中，每一幅图片的深度图都会计算得到。因此对于图像中的每一个特征点，无论是学习特征还是手工设计的特征，它所对应的三维空间点均可通过相机内外参数以及对应的深度图上的深度(如果存在的话)联合计算获得。

步骤S200，对输入的查询图像，通过图像检索方法从所述数据库图片中获取多个候选检索图像。

当获得场景三维模型以及查询图片后，首先使用图像检索技术为每一幅查询图像检索出与其最为相似的一定数量的数据库图片。为了挑选出更合适的检索方法，在选择检索方法时对比测试了两个著名的图像检索方法，即NetVLAD方法以及COLMAP提供的基于词汇树的检索方法。NetVLAD方法使用卷积神经网络端到端地学习图像表达，而另一个方法则是使用词汇树并通过空间重排序来获得图像的表达。在实验中发现，在巨大光照条件变换下，尤其是白天黑夜变化下，NetVLAD方法表现出的性能更好，但是当面对室内场景里经常出现的相似或者对称的结构时往往会出现检索错误(参考图3，在具有挑战性场景下的两种检索方法的比较示意图。第一行与第三行的对比可以看出，NetVLAD方法在夜间环境下检索性能要优于基于词汇树的方法，而第二及第四行的对比则显示了基于词汇树方法比较擅长处理室内场景下结构对称或相似情形下的检索问题。图中，第一排倒数第二个图，第四排倒数第二、第四、第五个图为正确的检索图片，而其他图为错误检索图像)。从图3的第一行和第三行可以看到，在白天黑夜变换下，NetVLAD方法在排名最靠前的5幅检索图片中能够检索出一幅正确图像，而基于词汇树的方法却无法正确检索。从图3的第二行可以看到，NetVLAD方法前5幅检索图片全部检索错误，其中第一、第二、第五幅图像与查询图像在结构上对称，而第三、第四幅图片只是与查询图像结构相似，但实际上并不是同一地点。造成这种现象的主要原因可能是由于NetVLAD方法学习的是图像的高层结构信息，同时该方法的基础网络权重是在ImageNet数据集上训练得到的，而这个数据集里面包含了大量的数据增广，即把图片翻转、对称等操作以提高训练数据的多样化，提高模型的泛化能力。而正是这些原因导致结构相似或者对称的图像在通过卷积层后会获得基本一致的特征表达，也就造成了结构相似或对称的图片容易检索错误的局面。

所以，为了提高检索出正确图片的可能性，一种直观的方式是同时使用NetVLAD方法和基于词汇树的检索方法以保证在不同的环境下尽可能检索出正确的图片。然而，在实际测试中发现，在绝大部分情况下，混合使用两种检索方法相比于仅使用NetVLAD一种方法会在一定程度上降低正确检索图像占全部检索图像的百分比，而这也直接导致了匹配内点数量的下降，进而导致定位精度的下降。因此，本发明最终选择使用NetVLAD一种方法作为算法流程中的图像检索算法。

步骤S300，通过基于多种特征点建立的所述查询图像和各所述候选检索图像的特征匹配关系，分别建立所述查询图像与所述稠密语义三维模型的匹配关系，得到第一匹配关系的集合。

(1)特征的选择

在实际应用中，视觉定位需要足够鲁棒以应对各种各样的环境条件变化，比如光照变化、天气变化、季节变化甚至是白天黑夜变化以及拍摄视角变化等。到目前为止，仍然存在大量方法倾向使用典型的手工设计的特征，例如SIFT，为三维重建以及视觉定位任务提取特征关键点。SIFT描述子是通过在图像的局部区域内集成表示图像梯度的高维向量来实现的，它不受图像缩放尺度和图像旋转的影响，并且能够在大部分常规情况下提供鲁棒的匹配。然而，当场景环境条件发生较大变化时，由于SIFT使用的图像底层信息较为容易受到外观变化的影响，使得此时SIFT的关键点检测将不再稳定，因此会导致特征匹配失败，进而导致无法对查询图像进行正确定位。

近年来，随着基于卷积神经网络的学习特征的快速发展，基于学习的特征在具有挑战性的环境条件下开始表现出比传统手工设计的特征更好的视觉定位性能。这些基于学习的特征以数据驱动的方式利用深度神经网络去学习如何提取特征关键点或者如何对特征进行描述。与仅考虑图像局部小区域的SIFT特征相比，基于学习的特征能够利用图像的更多信息，如颜色、更大的图像区域、更高层次的图像结构以及场景布局等，使得学习特征在富有挑战性的成像条件下比SIFT具有更好的特征匹配性能。

接下来，选择哪一个基于学习的特征，成为首要解决的问题。本发明实施例可以挑选了三个性能出色的学习特征，即D2-Net、R2D2和SuperPoint作为候选特征，它们都是开源的并且在局部特征挑战赛的榜单上名列前茅。为了挑选更优的学习特征，使用本发明方法，在大时间跨度视觉定位基准的Aachen Day-Night数据集上分别测试了SIFT以及上述的三个学习特征。测试数据集的重点是使用仅由白天数据库图像所构建的三维模型而却需要同时对白天和夜间的查询图像进行定位。从实验结果来看，在基于相同的稠密语义三维模型下，SIFT对于白天的查询图像拥有较高的定位精确度，而R2D2则在夜间条件下表现更好。但是在实际中，无法很容易地按照光照强度或者时间线等标准来找到一条明显的分界线来区分白天或者晚上，因此一个有效的方式是将SIFT和R2D2混在一起联合使用以应对不同的环境条件。实验结果也说明了联合使用不仅不会抵消它们各自的优势，并且还能达到在该数据集上定位性能的最高水准。除此之外，在实验中发现，查询图像上混合特征匹配点的空间分布相比于仅使用其中一种特征的分布更加广泛(参考图4，在六个不同室内外场景下的SIFT和R2D2的匹配内点示意图。这两种特征能够相互弥补，使得匹配点在图像上的分布更为广泛，并最终提高了定位精度)。特征分布更为广泛意味着能够提高获得足够数量并且正确的2D-3D匹配的可能性。这也说明这两种类型特征能够发挥互补作用，也证明了混合使用两种特征是合理的并且有效的。

(2)第一匹配关系的获取

通过多种特征点提取方法，对所述查询图像和各所述候选检索图像分别进行对应的多种特征点的提取；基于所提取的特征点，进行所述查询图像和各所述候选检索图像的2D-2D的特征匹配关系；对每一个所述候选检索图像，通过其对应深度图的深度值，获取对应特征点的三维坐标，并基于该候选检索图像与所述查询图像的特征匹配关系、所述稠密语义三维模型，获取所述查询图像与所述稠密语义三维模型之间的2D-3D匹配关系。

本实施例中，在获得一系列候选的检索图片后，为每一幅查询图像进行语义分割，并同时使用SIFT和R2D2两种特征作为混合特征为查询图像和检索图像之间建立特征匹配。每次只使用一幅检索图片，首先计算查询图像和检索图像之间的2D-2D的特征匹配，之后根据检索图像上匹配点的坐标，在该检索图片对应的深度图(MVS流程中的中间产物)上获取深度值，并推算出所对应的三维点坐标，之后即可获得查询图像与稠密三维模型之间的2D-3D匹配关系。

步骤S400，基于所述第一匹配关系的集合，获取每个匹配关系下所述查询图像对应图像采集装置的初始位姿，得到初始位姿集合。

初始位姿，其获取方法为：对于每一个第一匹配关系，通过PnP算法计算该匹配关系下所述查询图像对应图像采集装置的位姿。

本实施例中，基于查询图像与稠密三维模型之间2D-3D匹配关系，通过执行PnP算法能够恢复出查询图像的一个临时位姿(即初始位姿)。接着，根据估计出的临时位姿，将当前位姿下能够看到的模型中所有的三维点投影到查询图像上，并统计三维点语义标签和其在查询图像上的二维投影点的语义标签一致的数量。在投影三维点之前，首先需要筛选出符合条件的能够被当前临时位姿可视的三维点。可视的三维点应满足以下两个限制：

d_min<‖v‖<d_max,∠(v,v_m)<θ (1)

其中，C_Q表示查询图像临时位姿的相机光心坐标，X代表三维点坐标，d_min表示三维点和所有能看到该三维点的相机光心之间的最小距离，d_max则表示三维点和所有能看到该三维点的相机光心之间的最大距离。θ表示两条最边缘视线v_l和v_u之间的夹角。以上这些变量的具体物理含义均表示在图5中，该图中X代表三维点，C₁、C₂、C₃代表三个能看到这个三维点的相机，v_l和v_u分别三维点X的最小和最大可视距离，θ代表X的可视夹角。这两个限制条件意味着，只有当查询图像和数据库图像能从相似的角度和距离同时看到某个三维点时，该三维点才被认为能够被当前查询图像所在的临时位姿可见，并且能够被用于投影。

步骤S500，基于每一个所述初始位姿，获取第一点集、第二点集，并统计两个点集中语义标签一致的点的数量，作为对应候选检索图像的语义一致性得分；所述第一点集为所述图像采集在所述初始位姿可获取所述稠密语义三维模型中的三维点；所述第二点集为所述三维点在所述查询图像上的二维投影点。

投影所有可视三维点后，开始统计三维点的语义类别和其投影在查询图像上的二维点的语义类别一致的数量。语义一致的数量作为这副检索图片的语义一致得分。直观来看，如果使用错误的检索图像来计算查询图像的位姿，那么计算得到的位姿也一定是错误的，以至于这幅检索图像的语义得分将会较低，而正确的检索图像则会具有较高的语义一致性得分。因此，依据语义得分数值的大小能够一定程度上衡量检索图像的正确与否。然而，由于不同场景能用来投影的三维点数量存在较大差别，因此无法找到一个合适且固定的语义一致性得分阈值来区分正确和错误的检索图像。所以，本发明将语义一致性得分放在最终的位姿估计流程中作为一种软约束，使得能够以较高的概率选择正确检索图像产生的特征匹配，从而提高匹配内点数量，进而提高定位精度以及成功率。

在每一幅检索图像赋予语义一致性得分后，将这幅图像对应的所有2D-3D匹配特征点均赋予与这幅检索图像相同的语义得分。最后，将所有检索图像产生的具有语义得分的全部2D-3D匹配特征点放入基于权重的RANSAC位姿估计流程中。具体来讲，首先将所有2D-3D匹配的语义得分进行加和，之后把每一对2D-3D匹配的语义得分根据得分总和归一化为权重w，即每一对2D-3D匹配将会以其所对应的概率w在权重RANSAC过程中被选中。这也意味着，正确检索图像产生的2D-3D匹配会以较高的概率被抽中，而错误的检索图像产生的2D-3D匹配则被抽中的概率较低。相比于直接剔除语义得分低的2D-3D匹配，本发明将其作为一种软约束，在保证了提高匹配内点的同时，还能在面对语义出现歧义时能够鲁棒地应对。

本发明第二施例的一种基于稠密语义三维地图与混合特征的视觉定位系统，包括：

本实施例中，第四模块还包括第一特征提取模块、第二特征提取模块；第一特征提取模块，配置为提取图片的SIFT特征；第二特征提取模块，配置为提取图片的R2D2特征。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于稠密语义三维地图与混合特征的视觉定位系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于稠密语义三维地图与混合特征的视觉定位方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于稠密语义三维地图与混合特征的视觉定位方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，该方法包括：

步骤S300，通过基于多种特征点建立的所述查询图像和各所述候选检索图像的特征匹配关系，分别建立所述查询图像与所述稠密三维模型的匹配关系，得到第一匹配关系的集合；

2.根据权利要求1所述的基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，步骤S100中所述稠密三维模型、所述稠密语义三维模型，其构建方法为：

3.根据权利要求1所述的基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，“基于目标场景的数据库图片建立稠密三维模型”，其方法为：

基于所述数据库图片，通过SfM算法建立稀疏的三维模型；

基于所述稀疏的三维模型，通过MVS算法建立稠密三维模型。

4.根据权利要求1所述的基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，步骤S300中“多种特征点”包括SIFT和R2D2两种特征点。

5.根据权利要求1所述的基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，步骤S300中“通过基于多种特征点建立的所述查询图像和各所述候选检索图像的特征匹配关系”，其方法为：

6.根据权利要求5所述的基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，步骤S300中“建立所述查询图像与所述稠密语义三维模型的匹配关系”，其方法为：

对每一个所述候选检索图像，通过其对应深度图的深度值，获取对应特征点的三维坐标，并基于该候选检索图像与所述查询图像的特征匹配关系获取所述查询图像与所述稠密语义三维模型之间的2D-3D匹配关系。

7.根据权利要求1所述的基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，步骤S400中所述初始位姿，其获取方法为：

8.根据权利要求1所述的基于稠密语义三维地图与混合特征的视觉定位方法，其特征在于，步骤S600中“基于各候选检索图像的语义一致性得分，获取对各第一匹配关系的权重”，其方法为：

9.一种基于稠密语义三维地图与混合特征的视觉定位系统，其特征在于，该系统包括：

10.根据权利要求9所述的基于稠密语义三维地图与混合特征的视觉定位系统，其特征在于，所述第四模块还包括第一特征提取模块、第二特征提取模块；

所述第一特征提取模块，配置为提取图片的SIFT特征；

所述第二特征提取模块，配置为提取图片的R2D2特征。

11.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于稠密语义三维地图与混合特征的视觉定位方法。

12.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-8任一项所述的基于稠密语义三维地图与混合特征的视觉定位方法。