CN112068555A

CN112068555A - 一种基于语义slam方法的语音控制型移动机器人

Info

Publication number: CN112068555A
Application number: CN202010876799.6A
Authority: CN
Inventors: 曹毅; 翟明浩; 张威; 林苗; 周辉
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-11

Abstract

本发明提供一种基于语义SLAM方法的语音控制型移动机器人，其能够实现未知复杂环境的感知与理解，且更准确的识别语音信息，使移动机器人能够更灵活的适用于不同的应用场景。一其包括控制器、远程服务器、视觉采集模块、语音采集模块；视觉采集模块、语音采集模块与控制器通信连接，远程服务器包括语义SLAM模块、语音识别模块；控制器与远程服务器通信连接；控制器基于语义SLAM模块计算所得的位姿估计结果、三维语义地图，按照语音识别模块计算所得的语音控制命令，规划机器人的行为轨迹，并控制机器人执行动作。

Description

一种基于语义SLAM方法的语音控制型移动机器人

技术领域

本发明涉及人工智能技术领域，具体为一种基于语义SLAM方法的语音控制型移动机器人。

背景技术

随着科学技术的发展，移动机器人开始越来越多地进入寻常百姓的日常生活，在未知复杂环境下完成各项智能服务任务，大大减轻人类的工作负担。

现有的移动机器人技术中，为了构建出工作环境的高精度地图，移动机器人通常采取同时定位与地图构建(simultaneous localization and mapping，SLAM)技术，采集外部传感器数据估计本体位姿状态，对周围环境进行地图构建；然而，传统的视觉SLAM算法基于简单的几何特征，所生成的地图只考虑到环境的几何信息和拓扑信息，缺乏环境中物体的语义信息，无法精确识别出环境中的独立物体，进而无法在一些复杂的需要精准识别地理环境中应用，导致移动机器人在现实生活中的应用收到了限制；同时，现有的移动机器人只有少数具备语音控制功能，但是其使用的语音识别声学模型存在对齐过程复杂、识别效果差、训练时间长等缺点，同样限制了移动机器人的应用范围。

发明内容

为了解决现有的机器人因为其传统视觉SLAM技术和语音识别技术存在不足，对地理环境无法精确识别、无法对应语音进行精确识别，导致应用范围受限的问题，本发明提供一种基于语义SLAM方法的语音控制型移动机器人，其能够实现未知复杂环境的感知与理解，且更准确的识别语音信息，使移动机器人能够更灵活的适用于不同的应用场景。

本发明的技术方案是这样的：一种基于语义SLAM方法的语音控制型移动机器人，其包括控制器、远程服务器、视觉采集模块、语音采集模块；所述视觉采集模块、所述语音采集模块与所述控制器通信连接，其特征在于：

所述远程服务器包括语义SLAM模块、语音识别模块；所述控制器与所述远程服务器通信连接；

所述视觉采集模块获取环境的彩色信息和深度信息后发送给所述控制器，所述控制器实时地将彩色信息和深度信息以RGB图像序列和深度图像序列发送到远程服务器；所述远程服务器中的所述语义SLAM模块采用基于深度学习的语义SLAM方法，进行计算得到机器人的位姿估计结果，并构建出环境的三维语义地图，然后将所述位姿估计结果、所述三维语义地图反馈给所述控制器；

所述语音采集模块采集输入语音后发送给所述控制器，所述控制器将语音序列发送到所述远程服务器；所述远程服务器中的所述语音识别模块采用基于深度卷积神经网络的语音控制方法，对语音序列进行识别，将识别出来的语音文字反馈给所述控制器；所述控制器将所述语音文字与预设控制指令进行对比识别，识别出语音控制命令；

所述控制器基于所述位姿估计结果、所述三维语义地图，按照所述语音控制命令，规划机器人的行为轨迹，并控制机器人执行动作。

其进一步特征在于：

所述语音识别模块的工作步骤，包括：

S1：特征提取；

在所述远程服务器的语音识别模块中，提取出反映所述原始语音信号特征的关键特征参数，形成待识别特征矢量序列；

S2：构建声音识别模型；

所述声音识别模型采用深度卷积神经网络模型为基础、以联结主义时间分类器CTC作为损失函数，构建端对端方式的声学模型；

所述声音识别模型包括：依次连接的N个卷积块、两个全连接层、CTC损失函数层，其中：N为正整数；

所述卷积块中包括卷积层、池化层；如果N个所述卷积块共包括偶数个卷积层，则：从第一个卷积层开始每两个连续的卷积层后跟着一个池化层；如果N个所述卷积块共包括奇数个卷积层，则：从第一个卷积层开始每两个连续的卷积层后跟着一个池化层，最后三个卷积层连续操作后再进行一次池化层的池化操作；

S3：训练所述声音识别模型，获得训练好的所述声音识别模型；

S4：构建并训练语言模型，获得训练好的所述语言模型；

S5：语音识别；

将所述待识别特征矢量序列输入到训练好的所述声学模型中得到语音识别结果；

S6：文字转换；

将所述语音识别结果输入到训练好的所述语言模型中，进行语音解码运算，获得所述原始语音信号被识别后的语言文字，并反馈给所述控制器；

所述卷积块中第一层、第二层采用32个卷积核提取语音特征；第三层、第四层采用64个卷积核提取语音特征；第五层开始为多层连续的128个卷积核的卷积层提取语音更高层特征；所述卷积块中的卷积层的卷积核的尺寸全部设置为3×3；池化层为2×2的步长为2的最大池化操作；

所述CTC损失函数计算公式如下：

CTC(x)＝-logP(μ|x)

其中：

表示输出label序列的概率是多少路径的概率和；

表示基于输入x的输出π路径的概率；

为softmax函数的计算公式；

x代表输入；

X＝x₁,x₂，……,x_T，代表输入序列，下标代表时间从1到T；

Y＝y₁,y₂，……,y_k，代表与X对应的输出；

y_i＝y_i ¹,y_i ²,……,y_i ^k，代表输出序列第i帧的条件概率分布，其中i＝1,2,……K；

π表示输出路径；

μ表示输出label序列；

π与μ之间是多对一的关系；

B表示路径到label序列的映射关系；

所述语义SLAM模块的工作步骤，包括：

SS1：位姿估计；

利用视觉SLAM算法估计移动机器人的位姿，优化后筛选出关键帧，得到位姿估计结果；具体包括以下步骤：

a1：提取RGB图像的ORB特征，利用快速近似最近邻方法和和随机采样一致方法实现特征的精准匹配，并采用PnP方法估计出机器人的位姿；

a2：利用改进后的关键帧选取机制筛选出局部关键帧，并采用基于词袋模型的回环检测方法来降低算法的累计误差；

a3：采用通用图优化框架对所述局部关键帧进行位姿图优化，得到精确的运动轨迹和三维点云地图，得到所述位姿估计结果；

SS2：目标检测；

构建基于多尺度特征融合的目标检测算法模型，从关键帧中提取语义信息，得到环境中物体的类别及位置，作为目标检测结果；

所述目标检测算法模型包括：基础网络、特征融合模块、特征检测网络；

所述基础网络包括依次连接的改进后的稠密连接网络DenseNet-121、连续的3个卷积块Conv1～Conv3；每一个所述卷积块包括：依次连接的1×1卷积层和3×3卷积层；

所述特征融合模块将细节信息丰富的浅层特征与高度抽象的深层特征相融合，充分利用不同层次的特征，增强算法模型对于小尺度目标的辨识能力，其包括：两个相同结构的模组；每个所述模组包括依次连接的反卷积层、卷积层、批量归一化层、修正激活函数层；

所述特征检测网络使用默认框映射机制对不同尺度的特征图进行分类预测与位置回归，并采用非极大值抑制去除重叠预测框，得到最终检测结果；

SS3语义标注；

基于所述目标检测结果，通过图像分割算法GrabCut算法剔除无关离群点，将前景物体与无关背景分离，按照物体类别对所述位姿关键帧的图像通过语义标签进行进行语义标注，得到单帧图像的语义标注结果；

SS4：构建三维语义地图；

c1：基于所述语义标注结果，以八叉树结构地图形式表达语义地图；

c2：通过贝叶斯更新模型实现增量语义标签融合，关联多个关键帧图像的语义标签，实现所述语义地图的实时更新；

c3：使用稠密条件随机场模型对所述语义地图进行优化，构建出环境的所述三维语义地图；

步骤a1中，提取RGB图像的ORB特征的步骤包括：

a11：使用改进后的FAST算法检测出图像的特征角点；

a12：计算特征点的BRIEF描述子，得到最终的ORB特征；

步骤a2中，改进后的所述关键帧选取机制的内容包括：

相邻两个关键帧之间的间隔大于设定值；相邻两个关键帧之间的特征匹配点数量大于设定值；相邻两个关键帧之间的相对运动距离在一定范围内；系统不处于优化状态，且局部地图未闭环。当图像满足以上基本原则，则判定该图像为关键帧；

步骤a2中，所述回环检测方法的具体步骤包括构建词典，计算权重，计算相似度，计算相似评分，回环检测与验证；

步骤c2中，通过贝叶斯更新模型实现增量语义标签融合，其具体方法如下：

假设第t时刻的关键帧为K_t，语义地图上任意一个三维体元V_i的语义标签分布为l_t，目前关键帧集合可以表示为

根据贝叶斯更新模型可以得到三维体元的独立概率分布：

其中，Z_t为归一化因子；P(l_t)和P(K_t)为先验概率，与时间变量无关，是固定值；P(l_t|K_t)为三维体元在关键帧K_t下的条件概率；

步骤c3中，利用稠密条件随机场模型对三维体元的语义标签进行规范化，得到全局一致的所述三维语义地图；计算所述三维语义地图的概率分布公式如下：

其中，Z为归一化因子；X为三维语义地图；E(X)为吉布斯能量函数。

本发明提供的一种基于语义SLAM方法的语音控制型移动机器人，其基于卷积神经网路的语音控制方法建立了声学模型，实现了语音采集模块，声学模型建模过程简单、训练容易，具有更好的拟合能力和泛化性能，有效的提高了机器人对语音识别的准确率；

本发明技术方案中，基于深度学习的语义SLAM方法将视觉SLAM算法与目标检测算法相结合，基于视觉SLAM算法获得环境的几何地图、基于目标检测算法实时地检测出环境中的独立物体、通过基于语义SLAM方法获得语义信息，通过信息关联和融合，将物体类别、位置等信息标记在地图中，准确的完成机器人自定位和三维语义地图的构建，通过机器学习技术实现场景理解，确保了机器人能够更准确的感知与理解环境；控制器基于机器人自定位信息、三维语义地图可以更准确的完成路径规划，根据语音采集模块识别的语音命令，控制机器人更准确的完成指令动作；本专利的技术方案，可以确保机器人能够更加灵活的使用在各种不同的复杂场景下。

附图说明

图1为本发明移动机器人的模块示意图；

图2为语音特征语谱图提取流程示意图；

图3为基于卷积神经网络的声学模型示意图；

图4为语义SLAM方法框架图；

图5为视觉SLAM算法示意图；

图6为目标检测算法示意图；

图7为特征融合模块示意图；

图8为GrabCut算法示意图；

图9为语义SLAM方法测试结果的混淆矩阵；

图10为三维语义地图构建效果。

具体实施方式

如图1所示，本发明技术方案中基于语义SLAM方法的语音控制型移动机器人的一个实施例，其包括底盘，安装在底盘上的控制器2、供电模块3、视觉采集模块4、语音采集模块5、语音播报模块6；视觉采集模块4、语音采集模块5与控制器2通信连接；语音播报模块6与控制器2的音频接口相连接；供电模块3为机器人整体供电；控制器2通信连接远程服务器1；远程服务器1上包括语义SLAM模块8、语音识别模块7。

本实施例中，底盘上安装有两个直流无刷电机、两个电机支架，底盘下面安装两个主动轮、2个辅助万向轮；控制器2选用树莓派4B微型嵌入式主板，它能够通过自带的IO引脚直接控制其他底层硬件，同时具有体积小，成本低等优点；供电模块3为聚合物锂电池，输出电压为12V，电池容量为10AH，自带保护板，当电流过大时自动断电；视觉采集模块4为深度相机，型号为微软Kinect2.0，能够捕捉彩色RGB数据，并同时通过计算红外脉冲光的反射时间来获得深度信息，与控制器2通过USB3.0接口相连接；语音采集模块5为有线麦克风，与控制器2通过USB接口相连接；语音播报模块6为无源扬声器，功率为3W，连接在控制器2的音频接口上。

视觉采集模块4获取环境的彩色信息和深度信息后，控制器2使用RTP通信协议实时地将RGB图像序列和深度图像序列发送到远程服务器1，远程服务器1上的语义SLAM模块8采用基于深度学习的语义SLAM方法的视觉识别方法得到机器人的位姿估计结果、并构建出环境的三维语义地图，最后将位姿估计结果、三维语义地图反馈给控制器2；

语音采集模块5采集输入语音后，控制器2使用TCP/IP通信协议将语音序列发送到远程服务器1，远程服务器1上的语音识别模块7采用基于深度卷积神经网络的语音控制方法对语音进行识别，将识别出来的语音文字反馈给控制器2；控制器2将语音文字与预设控制指令进行对比识别，识别出语音控制命令；

控制器2基于位姿估计结果、三维语义地图、以及语音控制命令，规划机器人的运动轨迹，控制两个直流无刷电机、两个主动轮、2个辅助万向轮的动作，进而控制机器人的执行动作；并且将需要播报的内容，发送给语音播报模块6进行播报。

本发明技术方案中在机器人端实现语音采集与预处理；

通过语音采集模块5采集输入原始语音信号；基于现有的语音信号处理技术，控制器2对原始语音信号进行预处理，然后发送到远程服务器1。

远程服务器1上的语音识别模块的工作步骤，包括：

S1：特征提取；

远程服务器1中的语音识别模块7提取出反映原始语音信号特征的关键特征参数，形成待识别特征矢量序列；

如图2所示，本发明技术方案中，采用语谱图作为语音特征；语谱图的提取流程包括：

将通过语音采集模块5采集的原始语音信号输入到系统中，对语音进行分帧、加窗操作；本实施例中，其中帧长为25ms，帧移为10ms，窗函数使用汉明窗；之后进行快速傅里叶变换，将语音信号由时域转到频域，取对数得到语谱图；语谱图通过对时域和频域结合，把时间和频率结合在一起表示，是一种语音能量时频分布的可视化表达方式，有效的利用了时频两域之间的相关性，通过语谱图分析获得的特征矢量序列对于原始特征的提取的效果更好，输入到声学模型中，使后续的运算准确性更高；与其他窗函数相比汉明窗可以更有效的减少频谱的泄露，使输入声学模型的数据更加准确。

S2：构建声音识别模型；

声音识别模型采用深度卷积神经网络模型为基础、以联结主义时间分类器CTC作为损失函数，构建端对端方式的声学模型；

如图3所示，声音识别模型包括：依次连接的N个卷积块、两个全连接层、CTC损失函数层，其中：N为正整数；

卷积块中包括卷积层、池化层；如果N个卷积块共包括偶数个卷积层，则：从第一个卷积层开始每两个连续的卷积层后跟着一个池化层；如果N个卷积块共包括奇数个卷积层，则：从第一个卷积层开始每两个连续的卷积层后跟着一个池化层，最后三个卷积层连续操作后再进行一次池化层的池化操作。

本实施例中，卷积块中第一层、第二层采用32个卷积核提取语音特征；第三层、第四层采用64个卷积核提取语音特征；第五层开始为多层连续的128个卷积核的卷积层提取语音更高层特征；

卷积块中的卷积层的卷积核的尺寸全部设置为3×3；池化层为2×2的步长为2的最大池化操作；层与层之间通过局部连接、权值共享操作使得网络参数得到极大的减少，并在一定程度上可以避免梯度问题的出现；

通过采用多层128个卷积核的卷积层提取语音的更高层特征，既可以控制声学模型的参数数量，且确保网络不会过拟合，保证了声学模型的实用型；采用池化层进行池化操作的主要是对语音特征图进行降维，减少参数数量，同时增强语音的抗噪性；

声音识别模型采用CTC作为损失函数，CTC损失函数不需要对齐操作，大大简化了声学模型的训练流程；CTC损失函数计算公式如下：

CTC(x)＝-logP(μ|x)

其中：

表示输出label序列的概率是多少路径的概率和；

表示基于输入x的输出π路径的概率；

为softmax函数的计算公式；

x代表输入；

X＝x₁,x₂，……,x_T代表输入序列，下标代表时间从1到T；

Y＝y₁,y₂，……,y_k代表与X对应的输出；

y_i＝y_i ¹,y_i ²,……,y_i ^k代表输出序列第i帧的条件概率分布，其中i＝1,2,……K；

π表示输出路径；

μ表示输出label序列；

π与μ之间是多对一的关系；

B表示路径到label序列的映射关系。

S3：训练声音识别模型，通过调节超参数和网络结构，获得训练好的声音识别模型；

本实施例中，使用清华大学开源30小时语音数据集对声学模型进行训练，数据集分为训练集、验证集、测试集，语料数目分别为10000、893、2495句，均在干净、无噪声的环境下录制。

S4：构建并训练语言模型，获得训练好的语言模型；

使用现有技术中的语音文字转换方法都可以实现此目的。

S5：语音识别；

将待识别特征矢量序列输入到训练好的声学模型中得到语音识别结果；

S6：文字转换；

将语音识别结果输入到训练好的语言模型中，进行语音解码运算，得到能够以最大概率输出该语音信号的词串，所述词串即所述原始语音被识别后的语言文字，即，获得原始语音信号被识别后的语言文字，并反馈给所述控制器2。

在机器人端基于控制器2实现语音控制；基于控制器2，将识别出的语言文字与预设控制指令进行对比，识别出语音控制命令；控制器2基于语音控制指令控制移动机器人完成相应的操作，并通过语音播报模块6播报需要播报的内容；本实施例中，预设控制指令共有9个，包括5个运动控制指令和3个播报控制指令；运动控制指令包括前进、后退、左转、右转、停止；播报控制指令包括播放天气、播放新闻、播放音乐。

如图4语义SLAM方法框架图所示，本发明技术方案中，移动机器人的视觉识别方法中，首先在机器人端完成图像采集；

通过视觉采集模块4获取环境的彩色信息(RGB图像)和深度信息；控制器2使用RTP通信协议实时地将RGB图像序列和深度图像序列发送到远程服务器1。

在远程服务器1中，语义SLAM模块的工作步骤，包括：SS1：位姿估计；SS2：目标检测；SS3：语义标注；SS4：构建三维语义地图；最后将位姿估计结果、三维语义地图反馈给控制器2。

SS1：位姿估计；

视觉SLAM算法流程如图5所示，视觉采集模块4获取的RGB图像、深度图像输入；远程服务器1中的语义SLAM模块8利用视觉SLAM算法估计移动机器人的位姿，优化后筛选出关键帧，构建出环境的几何地图，得到位姿估计结果；

包括视觉里程计、后端优化两个线程；视觉里程计通过分析一系列图像序列，来确定机器人的朝向和位置；后端优化流程对位姿图进行优化，得到精确的位姿估计结果；

具体包括以下步骤：

a1：提取RGB图像的ORB(oriented FAST and rotated BRIEF)特征，利用快速近似最近邻(FLANN)方法和和随机采样一致(RANSAC)方法实现特征的精准匹配，并采用PnP方法估计出机器人的位姿；

提取RGB图像的ORB特征的步骤包括：

a11：使用改进后的FAST算法检测出图像的特征角点；

a12：计算特征点的BRIEF描述子，得到最终的ORB特征；

其中，改进后的关键帧选取机制的内容包括：

回环检测方法的具体步骤包括构建关键帧词典，计算权重，计算帧间相似度，计算相似评分，回环检测与验证；

a3：采用通用图优化框架对局部关键帧进行位姿图优化，得到精确的运动轨迹和三维点云地图，得到位姿估计结果。

SS2：目标检测；

在远程服务器1中的语义SLAM模块8中，构建基于多尺度特征融合的目标检测算法模型，从关键帧中提取语义信息，实现移动机器人对环境的语义感知，得到环境中物体的类别及位置，作为目标检测结果；

如图6所示，目标检测算法模型包括：基础网络、特征融合模块、特征检测网络；

基础网络包括依次连接的改进后的稠密连接网络DenseNet-121、连续的3个卷积块Conv1～Conv3；每一个卷积块包括：依次连接的1×1卷积层和3×3卷积层，用以提取出多个尺度的特征图；

如图7所示，特征融合模块中，高层特征图后连接有两个相同结构的模组实现特征上采样，每个模组包括一个卷积核大小为2×2的反卷积层、一个卷积核为3×3的卷积层、一个批量归一化层和修正激活函数层。反卷积层的作用是对特征图上采样，提高特征图分辨率。卷积层的作用是降低反卷积操作的混叠效应。批量归一化层的作用是将特征图归一化，防止网络模型过拟合。反卷积层和卷积层的通道数为512。低层特征图则直接通过卷积核为3×3的卷积层和批量归一化层，然后输出至修正激活函数层。最后，对高层特征图与低层特征图进行对应元素求和操作，合并之后传入修正激活函数层，得到融合特征图，实现特征融合功能；特征融合模块将细节信息丰富的浅层特征与高度抽象的深层特征相融合；增强网络模型对小尺寸目标的辨识能力；

本发明技术方案中的目标检测算法模型，通过特征融合模块将稠密模块DenseBlock 2、稠密模块Dense Block 3与稠密模块Dense Block 4、Conv1进行融合，充分利用网络的上下文信息，实现高层网络与低层网络之间的跳跃连接，解决了低层网络感受视野小、高层网络几何信息表征能力弱的问题；最后，目标检测算法模型不仅将特征融合模块生成的融合特征图送入特征检测网络进行预测，而且将稠密模块Dense Block 4和扩展卷积层输入到特征检测网络，产生6个用于预测的特征图，提高对小尺寸目标检测的效果；特征检测网络使用默认框映射机制对不同尺度的特征图进行分类预测与位置回归，并采用非极大值抑制去除重叠预测框，得到最终检测结果。

SS3：语义标注；

基于目标检测结果，通过图像分割算法GrabCut算法剔除无关离群点，将前景物体与无关背景分离，按照物体类别对位姿关键帧的图像通过语义标签进行进行语义标注，得到单帧图像的语义标注结果。

GrabCut算法是一种基于图论思想的图像分割方法，其基本思想是将图像描述为S-T无向图，如图8所示。其中，S为源点，代表前景物体对应像素点的集合；T为汇点，表示无关的背景对应像素点的集合。图中每个顶点代表一个像素；边集中有两类边：相邻顶点之间的边(实线)、源点汇点与顶点之间的边(虚线)；每条边对应一个权值w，表示顶点与源点、汇点的相似程度。

SS4：构建三维语义地图；

c1：基于语义标注结果，以八叉树结构地图形式表达语义地图；基于八叉树结构地图形式表达语义地图，保证了三维地图的存储效率和精度，实现了实时地语义地图构建。

八叉树结构是一种高效的树状数据结构，将三维空间作为根节点，按照坐标系方向均匀划分为八个小空间，作为子节点，继续对小空间递归划分，直到达到指定精度为止，即叶子节点。每一个叶子节点代表空间的基本单位，即体元。体元的大小为地图的分辨率。

假设第t个关键帧K_t的位姿估计结果L_t；关键帧图像中第i个像素点的描述向量为：

χ_i＝[r_i,g_i,b_i,u_i,v_i,d_i,l_i]^T；

其中，r_i、g_i、b_i分别为像素点i的红、绿、蓝颜色通道值；u_i、v_i为像素点i的像素坐标；d_i为像素点i的深度值；l_i为像素点i的语义标签，即所属的类别概率；

语义SLAM利用位姿估计结果L_t将关键帧K_t映射到三维点云空间，像素点i对应的投影点p_i为：

其中，X_i、Y_i、Z_i为投影点对应的三维坐标；K为相机内参矩阵。最后根据像素点对应语义标签对投影点进行语义标注，得到三维语义地图，使用彩色八叉树结构存储；

假设三维语义地图内存在N个三维体元，三维体元的集合为：

V＝{V₁,V₂,...,V_N}；

三维语义地图可以使用向量集合X＝{x₁,x₂,...,x_N}描述；像素点i对应的三维体元V_i可以使用向量x_i＝[X_i,Y_i,Z_i,r_i,g_i,b_i,l_i]表示；

c2：语义SLAM系统通过贝叶斯更新模型实现增量语义标签融合，关联多个关键帧图像的语义标签，实现语义地图的实时更新；解决了在语义地图构建过程中，系统不断通过深度相机采集环境数据，导致计算量大大增加的问题，提高运行效率；同时，解决了使用单个关键帧的语义标注结果可能导致语义地图缺乏一致性，去报了数据的一致性；

根据贝叶斯更新模型可以得到三维体元的独立概率分布：

其中，Z_t为归一化因子；根据马尔科夫假设，存在

根据后验概率假设，存在

因此可得：

其中，P(l_t)和P(K_t)为先验概率，与时间变量无关，是固定值；P(l_t|K_t)为三维体元在关键帧K_t下的条件概率。当获取新的关键帧时，三维体元的语义标签类别可以用下式进行概率更新；

其中，Z_t′为新的归一化因子。

c3：使用稠密条件随机场模型对语义地图进行优化，构建出环境的三维语义地图；

本发明技术方案中，在获得环境的语义地图之后，根据邻域内的颜色信息和外观信息对体元的语义标签进行规范化，用以解决系统运行过程中存在目标检测算法精度、传感器误差等外部干扰因素，导致单帧图像的语义标注结果中存在漏检和错检的问题，确保能够获得更精确的三维语义地图。

本发明技术方案中，利用稠密条件随机场模型对三维体元的语义标签进行规范化，得到全局一致的三维语义地图；计算三维语义地图的概率分布公式如下：

其中，Z为归一化因子；X为三维语义地图；E(X)为吉布斯能量函数；

E(X)计算方式如下：

ψ_μ为一元势能，表示三维体元对应的类别概率，其计算方式如下：

ψ_μ(x_i)＝-logP(x_i)

式中，P(x_i)为三维体元V_i的初始概率，由体元对应的语义标签l_i得到；

ψ_p为二元势能，表示相邻立体体元之间的相关性。

式中，f_i、f_j分别为三维体元V_i、V_j对应的特征向量；μ为兼容性函数，表示邻域内的立体体元属于不同类别的概率。

k^(m)为高斯核函数，表示三维体元V_i、V_j之间的相似度程度，定义为：

式中，w^(m)为权重线性组合项；Λ^(m)为对称正定矩阵，表示核函数的属性；

吉布斯分布共定义了三个高斯核函数，第一个高斯核函数为平滑核，其作用是删除小的隔离区域，并为相邻的三维体元分配相同的语义标签：

其中，p_i、p_j分别为三维体元V_i、V_j对应的空间位置，θ_p为该核函数的控制范围；

第二个高斯核函数也为平滑核，其作用是为具有相同表面方向的相邻体元分配相同的语义标签：

其中，n_i、n_j分别为三维体元V_i、V_j对应的法向向量；θ_p,n为该核函数的控制范围,θ_n表示法向向量的相似程度；

第三个高斯核函数为外观核，其作用是为具有相似颜色向量的相邻体元分配相同的语义标签：

其中，其中，c_i、c_j分别为三维体元V_i、V_j对应的颜色向量；θ_p,c为该核函数的控制范围,θ_c表示颜色向量的相似程度。

为了验证本发明技术方案中语义SLAM方法的有效性和可行性，选取NYUv2数据集进行实验，与Sematicfusion、SLAM++两种方法进行比较，对其精度和运行效率进行定量分析。

实验平台为搭载Ubuntu16.04操作系统的笔记本，运行内存16GB，处理器型号：i7-7700，主频2.8GHz，64位操作系统，使用一张NVIDIA GeForce GTX 1050Ti显卡。NYU v2数据集提供对齐的彩色图像和深度图像，可直接进行点云分割、位姿估计与三维重建等操作。该数据集中包含1449组彩色图像、深度图像、人工标记图像，图像分辨率为640×480。对比实验的具体结果如下面表1所示。

表1：NYU V2数据集实验结果对比

方法	床	书籍	椅子	家具	油画	沙发	桌子	电视	窗户	平均精度
											Sematicfusion	62.0	58.4	59.5	64.4	65.8	48.7	34.3	34.3	62.3	54.4
SLAM++	68.4	45.4	74.7	37.1	35.8	28.5	27.7	38.4	46.1	44.7
											本发明方法	61.7	61.5	68.4	63.7	66.4	47.3	34.0	33.9	60.5	55.3

如表1中结果所示，本发明技术方案的语义SLAM方法的平均识别精度为55.3％，对油画、书等类别的识别精度高于Sematicfusion算法，总体建图效果优于Sematicfusion和SLAM++；图9为本发明语义SLAM方法在NYU v2数据集下测试结果的混淆矩阵，对角线上的方格颜色越深，识别精度越高；图10为本发明语义SLAM方法构建的三维语义地图效果，从实验结果可以看出，本发明语义SLAM方法能够识别出环境中的绝大多数物体，并建立良好的三维语义地图。

Claims

1.一种基于语义SLAM方法的语音控制型移动机器人，其包括控制器、远程服务器、视觉采集模块、语音采集模块；所述视觉采集模块、所述语音采集模块与所述控制器通信连接，其特征在于：

2.根据权利要求1所述一种基于语义SLAM方法的语音控制型移动机器人，其特征在于：所述语音识别模块的工作步骤，包括：

S1：特征提取；

S2：构建声音识别模型；

S4：构建并训练语言模型，获得训练好的所述语言模型；

S5：语音识别；

S6：文字转换；

将所述语音识别结果输入到训练好的所述语言模型中，进行语音解码运算，获得所述原始语音信号被识别后的语言文字，并反馈给所述控制器。

3.根据权利要求2所述一种基于语义SLAM方法的语音控制型移动机器人，其特征在于：所述卷积块中第一层、第二层采用32个卷积核提取语音特征；第三层、第四层采用64个卷积核提取语音特征；第五层开始为多层连续的128个卷积核的卷积层提取语音更高层特征；所述卷积块中的卷积层的卷积核的尺寸全部设置为3×3；池化层为2×2的步长为2的最大池化操作。

4.根据权利要求2所述一种基于语义SLAM方法的语音控制型移动机器人，其特征在于：所述CTC损失函数计算公式如下：

CTC(x)＝-log P(μ|x)

其中：