CN111340939B

CN111340939B - 一种室内三维语义地图构建方法

Info

Publication number: CN111340939B
Application number: CN202010108398.6A
Authority: CN
Inventors: 赵芳; 曾碧
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2023-04-18
Anticipated expiration: 2040-02-21
Also published as: CN111340939A

Abstract

本发明属于三维重建及场景理解领域，具体涉及一种室内三维语义地图构建方法，旨在解决家庭服务机器人理解所处周围环境语义信息，方便人机交互、执行高层的智能操作等技术问题。本发明方法首先使用RGB‑D传感器对室内场景进行图像采集，并对二维颜色图像进行目标检测或者语义分割，得到对应的语义信息，同时修复深度图像，以此进行三维重建，最后将图像语义信息融入三维地图，从而获得室内三维语义地图。本发明技术方案可以实现较为准确准确的三维信息感知，不仅对家庭服务机器人有着重要的意义，也同样适用于室内增强现实及三维室内设计等应用。

Description

一种室内三维语义地图构建方法

技术领域

本发明涉及三维重建及场景理解领域，更具体的，涉及一种室内三维语义地图构建方法和系统。

背景技术

快速、准确的三维信息感知是家庭服务机器人、室内增强现实和三维室内设计等新兴应用的关键技术。近年来，随着深度传感器(例如，微软Kinect、英特尔RealSense等)的发展，三维扫描技术取得了很大的进步。这些传感器采集到的深度图和彩色图能够很方便的用来生成被扫描物体的稠密三维模型。而这也促进了室内场景三维语义地图构建的研究发展。语义地图可以被广泛应用于机器人、导航和人机交互等领域。室内语义地图通常包括空间属性信息，例如建筑物的平面结构，房间分布等，以及包括语义属性信息，如各个房间属性和功能，以及房间内的物体类别和位置信息等。语义地图构建的目标是精确地在地图上标记语义信息。

经对现有技术的文献检索发现，文献1(吴皓.基于服务任务导向的机器人地图构建研究[D].济南：山东大学，2011.)利用QRCode技术，在家庭半未知环境下，对大物体粘贴二维码作为人工路标从而构建能描述物品－房间归属关系的语义地图；文献2(赵程.基于视觉-语音交互式室内层次地图构建与导航系统[D].厦门：厦门大学，2014.)通过视觉跟踪人体与语音标注技术实现了一种自下而上的栅格－拓扑－语义多层次地图，但是在建图的过程中依赖于人工介人；文献3(SHENG W,DU J,CHENG Q,et al.Robot semantic mappingthrough human activity recognition:A wearable sensing and computing approach[J].Robotics and Autonomous Systems,2015,68(C):47-58.)创造性地提出了使用可穿戴设备来识别人体的动作，并建立了一个基于人体动作与物体种类关系的贝叶斯框架来构建语义地图，但可穿戴设备的佩戴对于实际应用略显繁琐。

发明内容

本发明的目的在于克服现有技术存在的缺陷，提出一种基于RGB-D传感器的室内三维语义地图构建方法，可以构建包含房间语义信息以及房中物体语义信息的地图，以便机器人执行高层的智能操作，更好的服务人类。

为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供一种室内三维语义地图构建方法，包括以下步骤：

步骤S1:数据采集；使用RGB-D传感器采集室内环境的颜色深度RGB-D图像信息，包括RGB图像和深度图像；

步骤S2:语义信息的获取：对采集到的二维RGB图像使用深度学习算法进行目标检测或者语义分割，得到对应的语义信息；

步骤S3:深度图像修复；

步骤S4:室内环境三维地图构建：利用修复过的室内环境RGB-D图像进行三维地图构建；

步骤S5:三维语义地图的形成：将基于步骤S2获得的带语义信息的目标通过坐标位置转换融合于步骤S4获得的室内三维地图，并用标签在地图上进行赋值标注，形成室内环境三维语义地图。

在一种优选方案中，所述步骤S1的具体步骤如下：

由用户手持设有RGB-D传感器的设备或由设有RGB-D传感器的移动式机器人对室内环境进行扫描，获得连续的RGB-D图像。

在一种优选方案中，所述步骤S2中的目标检测方法为YOLOv3。

在一种优选方案中，所述步骤S3使用基于CUDA技术的并行化实时深度图像修复算法。

在一种优选方案中，所述步骤S4采用改进的三维重建BundleFusion算法。

本发明第二方面提供一种室内三维语义地图构建系统，包括数据采集模块、三维稠密重建模块、语义融合稠密重建模块；

所述的数据采集模块，采集室内环境的颜色深度RGB-D图像信息，划分为RGB图像和深度图像；分别进行RGB图像目标检测/语义分割、CUDA深度图像修复；

所述的三维稠密重建模块，将输入的对齐好的颜色和深度的数据流做帧与帧之间的对应关系匹配，接着做全局位姿优化，将整体的漂移校正过来，整个重建过程中模型处于不断动态更新状态；

所述的语义融合稠密重建模块，对相机采集的图像进行目标检测或者语义分割，将所得图像语义结果通过基于贝叶斯更新的融合算法整合到三维稠密点云重建中，实现面向服务机器人的室内场景三维语义地图构建。

在一种优选方案中，所述CUDA深度图像修复的具体步骤如下：

对每一个深度图像上的无效点使用公式(1)进行滤波。

式中：I_dest是修复后的图像，I_src为原图像，ω(i,j)为滤波器在点(i,j)的权重，Ω_inv为图像上的无效点区域，Ω_n是除去无效点的像素邻域，ω_p是标准量由公式(2)计算；

而权值ω(i,j)同时与像素点的空域与值域线性相关，距离越近、像素值变化越小相关性越大，其滤波核函数定义如下：

式中：

是空域高斯函数的标准差，

是值域高斯函数的标准差，x,y是滤波器窗口内像素的横坐标，i,j是当前正在处理的无效点的像素坐标，I表示在深度图像上某一像素的值。

在一种优选方案中，所述的三维稠密重建模块，

在匹配方面，使用一种由粗到细的并行全局优化方法；使用稀疏的SIFT特征点来进行比较粗糙的配准，再使用稠密的光度与几何约束进行更加精细的配准；

在位姿优化方面，使用一种分层的局部到全局的优化方法，总共分为两层，在最低层上，每连续10帧组成一个chunk，第一帧作为关键帧，然后对该chunk内所有帧做局部位姿优化；在第二层上，只使用所有的chunk的关键帧进行互相关联然后全局优化；该方法的好处在于能够分离出关键帧，减少存储和待处理的数据；

在稠密场景重建方面，基于姿态估计，修正无特征区域中累积漂移或推算引起的重建误差。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的室内三维语义地图构建方法通过使用RGB-D传感器扫描室内场景周围环境建立三维场景地图，同时利用深度学习算法获得能使机器人自动理解周围环境的语义信息(墙、门窗、地面、各种家具等)，最终实现室内场景的三维语义地图构建；这不仅对于家庭服务机器人做到真正理解周围环境，达到智能语义感知的真实目的具有重要意义，而且对室内增强现实和三维室内设计等新兴应用获取场景三维信息也极具重要的参考价值。

附图说明

图1为本发明提供的室内场景三维语义地图构建方法的流程图。

图2为本发明的室内场景三维语义地图构建系统的流程示意图；

图3为Kinect生成的原始深度图像；

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

步骤S3:深度图像修复；

步骤S5:三维语义地图的形成：将基于步骤S2获得的带语义信息的目标通过坐标位置转换融合于步骤S3获得的室内三维地图，并用标签在地图上进行赋值标注，形成室内环境三维语义地图。

在一种优选方案中，所述步骤S1的具体步骤如下：

在一种优选方案中，所述步骤S2中的目标检测方法为YOLOv3。

实施例2

在一种优选方案中，所述CUDA深度图像修复的具体步骤如下：

对每一个深度图像上的无效点使用公式(1)进行滤波。

式中：

是空域高斯函数的标准差，

在一种优选方案中，所述的三维稠密重建模块，

实施例3

本发明实施例提供的一种室内场景三维语义地图构建方法的详细流程示意图。主要包括数据采集、三维稠密重建、语义融合稠密重建等三大模块。

其中，数据采集使用RGB-D传感器，本发明实施例可以由用户手持设有深度传感器的设备(例如，KinectV2)或由设有深度传感器的移动式机器人对室内环境进行扫描，采集连续的图像数据。RGB-D图像数据包括RGB彩色图像以及深度图像。深度图像可以直接反应出真实的三维环境信息，如图3所示。由于自身设备、物体表面材质和区域遮挡等原因，Kinect生成的原始深度图像存在着黑边、黑洞等大量无效区域，这对深度图像的使用造成了很大的影响。本发明实施例使用基于CUDA技术的并行化实时深度图像修复算法，以实现在移动机器人上实时有效地修复深度图像。

本实施例中，为了使图像修复程序并行化，首先要对图像进行划分。Kinect v2的深度图像大小为512×424，略去图像上下各12行的像素，以32×20为一个block，构成16×20的grid。图像划分完成后上传至GPU并行执行图像修复程序。对每一个图像上的无效点使用公式(1)进行滤波。

式中：I_dest是修复后的图像，I_src为原图像，ω(i,j)为滤波器在点(i,j)的权重，Ω_inv为图像上的无效点区域，Ω_n是除去无效点的像素邻域，ω_p是标准量由公式(2)计算。

式中：

是空域高斯函数的标准差，

图2中的三维稠密重建模块主要基于BundleFusion算法进行完成，本发明实施例首先对采集的原始深度图像进行无效点的修复处理，以解决传感器存在噪声导致关键点匹配误差的累积。然后将输入的对齐好的颜色和深度的数据流做帧与帧之间的对应关系匹配，接着做全局位姿优化，将整体的漂移校正过来，整个重建过程中模型处于不断动态更新状态。

在匹配方面，使用一种由粗到细的并行全局优化方法。首先使用稀疏的SIFT特征点来进行比较粗糙的配准，然后使用稠密的光度与几何约束进行更加精细的配准。

在位姿优化方面，使用一种分层的局部到全局的优化方法。总共分为两层，在最低层上，每连续10帧组成一个chunk，第一帧作为关键帧，然后对该chunk内所有帧做局部位姿优化。在第二层上，只使用所有的chunk的关键帧进行互相关联然后全局优化。该方法的好处在于能够分离出关键帧，减少存储和待处理的数据。

在稠密场景重建方面，关键之处在于模型的对称型更新：若要增加更新的一帧估计，则需先去掉旧的一帧，然后在新的位姿处重新整合。基于此，只要有了更好的姿态估计，就能修正无特征区域中累积漂移或推算引起的重建误差，使得模型越来越精确。

图2中的语义融合稠密重建模块中的语义信息可以由目标检测或者语义分割方法获得。近些年得益于深度学习的发展，计算机视觉领域取得了许多较为显著的成果，其中包含图像的目标检测与语义分割，较好的目标检测算法有YOLO系列，能满足实时检测任务的需求，其中YOLOv3通过改变模型结构的大小权衡了速度与精度；较好的语义分割方法Deeplabv3平均精度达到85.2％。利用这些算法对相机采集的图像进行目标检测或者语义分割，将所得图像语义结果通过基于贝叶斯更新的融合算法整合到三维稠密点云重建中，从而实现面向服务机器人的室内场景三维语义地图构建。

本发明通过使用RGB-D传感器扫描室内场景周围环境建立三维场景地图，同时利用深度学习算法获得能使机器人自动理解周围环境的语义信息(墙、门窗、地面、各种家具等)，最终实现室内场景的三维语义地图构建；这不仅对于家庭服务机器人做到真正理解周围环境，达到智能语义感知的真实目的具有重要意义，而且对室内增强现实和三维室内设计等新兴应用获取场景三维信息也极具重要的参考价值。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。