CN112068555A - 一种基于语义slam方法的语音控制型移动机器人 - Google Patents
一种基于语义slam方法的语音控制型移动机器人 Download PDFInfo
- Publication number
- CN112068555A CN112068555A CN202010876799.6A CN202010876799A CN112068555A CN 112068555 A CN112068555 A CN 112068555A CN 202010876799 A CN202010876799 A CN 202010876799A CN 112068555 A CN112068555 A CN 112068555A
- Authority
- CN
- China
- Prior art keywords
- voice
- semantic
- layer
- map
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004891 communication Methods 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 23
- 230000000007 visual effect Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000005096 rolling process Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 101000878595 Arabidopsis thaliana Squalene synthase 1 Proteins 0.000 claims description 4
- 101000713575 Homo sapiens Tubulin beta-3 chain Proteins 0.000 claims description 4
- 102100036790 Tubulin beta-3 chain Human genes 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000003709 image segmentation Methods 0.000 claims description 4
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010428 oil painting Methods 0.000 description 2
- 238000005381 potential energy Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- 240000007651 Rubus glaucus Species 0.000 description 1
- 235000011034 Rubus glaucus Nutrition 0.000 description 1
- 235000009122 Rubus idaeus Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0268—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
- G05D1/0274—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Radar, Positioning & Navigation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Electromagnetism (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于语义SLAM方法的语音控制型移动机器人,其能够实现未知复杂环境的感知与理解,且更准确的识别语音信息,使移动机器人能够更灵活的适用于不同的应用场景。一其包括控制器、远程服务器、视觉采集模块、语音采集模块;视觉采集模块、语音采集模块与控制器通信连接,远程服务器包括语义SLAM模块、语音识别模块;控制器与远程服务器通信连接;控制器基于语义SLAM模块计算所得的位姿估计结果、三维语义地图,按照语音识别模块计算所得的语音控制命令,规划机器人的行为轨迹,并控制机器人执行动作。
Description
技术领域
本发明涉及人工智能技术领域,具体为一种基于语义SLAM方法的语音控制型移动机器人。
背景技术
随着科学技术的发展,移动机器人开始越来越多地进入寻常百姓的日常生活,在未知复杂环境下完成各项智能服务任务,大大减轻人类的工作负担。
现有的移动机器人技术中,为了构建出工作环境的高精度地图,移动机器人通常采取同时定位与地图构建(simultaneous localization and mapping,SLAM)技术,采集外部传感器数据估计本体位姿状态,对周围环境进行地图构建;然而,传统的视觉SLAM算法基于简单的几何特征,所生成的地图只考虑到环境的几何信息和拓扑信息,缺乏环境中物体的语义信息,无法精确识别出环境中的独立物体,进而无法在一些复杂的需要精准识别地理环境中应用,导致移动机器人在现实生活中的应用收到了限制;同时,现有的移动机器人只有少数具备语音控制功能,但是其使用的语音识别声学模型存在对齐过程复杂、识别效果差、训练时间长等缺点,同样限制了移动机器人的应用范围。
发明内容
为了解决现有的机器人因为其传统视觉SLAM技术和语音识别技术存在不足,对地理环境无法精确识别、无法对应语音进行精确识别,导致应用范围受限的问题,本发明提供一种基于语义SLAM方法的语音控制型移动机器人,其能够实现未知复杂环境的感知与理解,且更准确的识别语音信息,使移动机器人能够更灵活的适用于不同的应用场景。
本发明的技术方案是这样的:一种基于语义SLAM方法的语音控制型移动机器人,其包括控制器、远程服务器、视觉采集模块、语音采集模块;所述视觉采集模块、所述语音采集模块与所述控制器通信连接,其特征在于:
所述远程服务器包括语义SLAM模块、语音识别模块;所述控制器与所述远程服务器通信连接;
所述视觉采集模块获取环境的彩色信息和深度信息后发送给所述控制器,所述控制器实时地将彩色信息和深度信息以RGB图像序列和深度图像序列发送到远程服务器;所述远程服务器中的所述语义SLAM模块采用基于深度学习的语义SLAM方法,进行计算得到机器人的位姿估计结果,并构建出环境的三维语义地图,然后将所述位姿估计结果、所述三维语义地图反馈给所述控制器;
所述语音采集模块采集输入语音后发送给所述控制器,所述控制器将语音序列发送到所述远程服务器;所述远程服务器中的所述语音识别模块采用基于深度卷积神经网络的语音控制方法,对语音序列进行识别,将识别出来的语音文字反馈给所述控制器;所述控制器将所述语音文字与预设控制指令进行对比识别,识别出语音控制命令;
所述控制器基于所述位姿估计结果、所述三维语义地图,按照所述语音控制命令,规划机器人的行为轨迹,并控制机器人执行动作。
其进一步特征在于:
所述语音识别模块的工作步骤,包括:
S1:特征提取;
在所述远程服务器的语音识别模块中,提取出反映所述原始语音信号特征的关键特征参数,形成待识别特征矢量序列;
S2:构建声音识别模型;
所述声音识别模型采用深度卷积神经网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;
所述声音识别模型包括:依次连接的N个卷积块、两个全连接层、CTC损失函数层,其中:N为正整数;
所述卷积块中包括卷积层、池化层;如果N个所述卷积块共包括偶数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层;如果N个所述卷积块共包括奇数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层,最后三个卷积层连续操作后再进行一次池化层的池化操作;
S3:训练所述声音识别模型,获得训练好的所述声音识别模型;
S4:构建并训练语言模型,获得训练好的所述语言模型;
S5:语音识别;
将所述待识别特征矢量序列输入到训练好的所述声学模型中得到语音识别结果;
S6:文字转换;
将所述语音识别结果输入到训练好的所述语言模型中,进行语音解码运算,获得所述原始语音信号被识别后的语言文字,并反馈给所述控制器;
所述卷积块中第一层、第二层采用32个卷积核提取语音特征;第三层、第四层采用64个卷积核提取语音特征;第五层开始为多层连续的128个卷积核的卷积层提取语音更高层特征;所述卷积块中的卷积层的卷积核的尺寸全部设置为3×3;池化层为2×2的步长为2的最大池化操作;
所述CTC损失函数计算公式如下:
CTC(x)=-logP(μ|x)
其中:
x代表输入;
X=x1,x2,……,xT,代表输入序列,下标代表时间从1到T;
Y=y1,y2,……,yk,代表与X对应的输出;
yi=yi 1,yi 2,……,yi k,代表输出序列第i帧的条件概率分布,其中i=1,2,……K;
π表示输出路径;
μ表示输出label序列;
π与μ之间是多对一的关系;
B表示路径到label序列的映射关系;
所述语义SLAM模块的工作步骤,包括:
SS1:位姿估计;
利用视觉SLAM算法估计移动机器人的位姿,优化后筛选出关键帧,得到位姿估计结果;具体包括以下步骤:
a1:提取RGB图像的ORB特征,利用快速近似最近邻方法和和随机采样一致方法实现特征的精准匹配,并采用PnP方法估计出机器人的位姿;
a2:利用改进后的关键帧选取机制筛选出局部关键帧,并采用基于词袋模型的回环检测方法来降低算法的累计误差;
a3:采用通用图优化框架对所述局部关键帧进行位姿图优化,得到精确的运动轨迹和三维点云地图,得到所述位姿估计结果;
SS2:目标检测;
构建基于多尺度特征融合的目标检测算法模型,从关键帧中提取语义信息,得到环境中物体的类别及位置,作为目标检测结果;
所述目标检测算法模型包括:基础网络、特征融合模块、特征检测网络;
所述基础网络包括依次连接的改进后的稠密连接网络DenseNet-121、连续的3个卷积块Conv1~Conv3;每一个所述卷积块包括:依次连接的1×1卷积层和3×3卷积层;
所述特征融合模块将细节信息丰富的浅层特征与高度抽象的深层特征相融合,充分利用不同层次的特征,增强算法模型对于小尺度目标的辨识能力,其包括:两个相同结构的模组;每个所述模组包括依次连接的反卷积层、卷积层、批量归一化层、修正激活函数层;
所述特征检测网络使用默认框映射机制对不同尺度的特征图进行分类预测与位置回归,并采用非极大值抑制去除重叠预测框,得到最终检测结果;
SS3语义标注;
基于所述目标检测结果,通过图像分割算法GrabCut算法剔除无关离群点,将前景物体与无关背景分离,按照物体类别对所述位姿关键帧的图像通过语义标签进行进行语义标注,得到单帧图像的语义标注结果;
SS4:构建三维语义地图;
c1:基于所述语义标注结果,以八叉树结构地图形式表达语义地图;
c2:通过贝叶斯更新模型实现增量语义标签融合,关联多个关键帧图像的语义标签,实现所述语义地图的实时更新;
c3:使用稠密条件随机场模型对所述语义地图进行优化,构建出环境的所述三维语义地图;
步骤a1中,提取RGB图像的ORB特征的步骤包括:
a11:使用改进后的FAST算法检测出图像的特征角点;
a12:计算特征点的BRIEF描述子,得到最终的ORB特征;
步骤a2中,改进后的所述关键帧选取机制的内容包括:
相邻两个关键帧之间的间隔大于设定值;相邻两个关键帧之间的特征匹配点数量大于设定值;相邻两个关键帧之间的相对运动距离在一定范围内;系统不处于优化状态,且局部地图未闭环。当图像满足以上基本原则,则判定该图像为关键帧;
步骤a2中,所述回环检测方法的具体步骤包括构建词典,计算权重,计算相似度,计算相似评分,回环检测与验证;
步骤c2中,通过贝叶斯更新模型实现增量语义标签融合,其具体方法如下:
其中,Zt为归一化因子;P(lt)和P(Kt)为先验概率,与时间变量无关,是固定值;P(lt|Kt)为三维体元在关键帧Kt下的条件概率;
步骤c3中,利用稠密条件随机场模型对三维体元的语义标签进行规范化,得到全局一致的所述三维语义地图;计算所述三维语义地图的概率分布公式如下:
其中,Z为归一化因子;X为三维语义地图;E(X)为吉布斯能量函数。
本发明提供的一种基于语义SLAM方法的语音控制型移动机器人,其基于卷积神经网路的语音控制方法建立了声学模型,实现了语音采集模块,声学模型建模过程简单、训练容易,具有更好的拟合能力和泛化性能,有效的提高了机器人对语音识别的准确率;
本发明技术方案中,基于深度学习的语义SLAM方法将视觉SLAM算法与目标检测算法相结合,基于视觉SLAM算法获得环境的几何地图、基于目标检测算法实时地检测出环境中的独立物体、通过基于语义SLAM方法获得语义信息,通过信息关联和融合,将物体类别、位置等信息标记在地图中,准确的完成机器人自定位和三维语义地图的构建,通过机器学习技术实现场景理解,确保了机器人能够更准确的感知与理解环境;控制器基于机器人自定位信息、三维语义地图可以更准确的完成路径规划,根据语音采集模块识别的语音命令,控制机器人更准确的完成指令动作;本专利的技术方案,可以确保机器人能够更加灵活的使用在各种不同的复杂场景下。
附图说明
图1为本发明移动机器人的模块示意图;
图2为语音特征语谱图提取流程示意图;
图3为基于卷积神经网络的声学模型示意图;
图4为语义SLAM方法框架图;
图5为视觉SLAM算法示意图;
图6为目标检测算法示意图;
图7为特征融合模块示意图;
图8为GrabCut算法示意图;
图9为语义SLAM方法测试结果的混淆矩阵;
图10为三维语义地图构建效果。
具体实施方式
如图1所示,本发明技术方案中基于语义SLAM方法的语音控制型移动机器人的一个实施例,其包括底盘,安装在底盘上的控制器2、供电模块3、视觉采集模块4、语音采集模块5、语音播报模块6;视觉采集模块4、语音采集模块5与控制器2通信连接;语音播报模块6与控制器2的音频接口相连接;供电模块3为机器人整体供电;控制器2通信连接远程服务器1;远程服务器1上包括语义SLAM模块8、语音识别模块7。
本实施例中,底盘上安装有两个直流无刷电机、两个电机支架,底盘下面安装两个主动轮、2个辅助万向轮;控制器2选用树莓派4B微型嵌入式主板,它能够通过自带的IO引脚直接控制其他底层硬件,同时具有体积小,成本低等优点;供电模块3为聚合物锂电池,输出电压为12V,电池容量为10AH,自带保护板,当电流过大时自动断电;视觉采集模块4为深度相机,型号为微软Kinect2.0,能够捕捉彩色RGB数据,并同时通过计算红外脉冲光的反射时间来获得深度信息,与控制器2通过USB3.0接口相连接;语音采集模块5为有线麦克风,与控制器2通过USB接口相连接;语音播报模块6为无源扬声器,功率为3W,连接在控制器2的音频接口上。
视觉采集模块4获取环境的彩色信息和深度信息后,控制器2使用RTP通信协议实时地将RGB图像序列和深度图像序列发送到远程服务器1,远程服务器1上的语义SLAM模块8采用基于深度学习的语义SLAM方法的视觉识别方法得到机器人的位姿估计结果、并构建出环境的三维语义地图,最后将位姿估计结果、三维语义地图反馈给控制器2;
语音采集模块5采集输入语音后,控制器2使用TCP/IP通信协议将语音序列发送到远程服务器1,远程服务器1上的语音识别模块7采用基于深度卷积神经网络的语音控制方法对语音进行识别,将识别出来的语音文字反馈给控制器2;控制器2将语音文字与预设控制指令进行对比识别,识别出语音控制命令;
控制器2基于位姿估计结果、三维语义地图、以及语音控制命令,规划机器人的运动轨迹,控制两个直流无刷电机、两个主动轮、2个辅助万向轮的动作,进而控制机器人的执行动作;并且将需要播报的内容,发送给语音播报模块6进行播报。
本发明技术方案中在机器人端实现语音采集与预处理;
通过语音采集模块5采集输入原始语音信号;基于现有的语音信号处理技术,控制器2对原始语音信号进行预处理,然后发送到远程服务器1。
远程服务器1上的语音识别模块的工作步骤,包括:
S1:特征提取;
远程服务器1中的语音识别模块7提取出反映原始语音信号特征的关键特征参数,形成待识别特征矢量序列;
如图2所示,本发明技术方案中,采用语谱图作为语音特征;语谱图的提取流程包括:
将通过语音采集模块5采集的原始语音信号输入到系统中,对语音进行分帧、加窗操作;本实施例中,其中帧长为25ms,帧移为10ms,窗函数使用汉明窗;之后进行快速傅里叶变换,将语音信号由时域转到频域,取对数得到语谱图;语谱图通过对时域和频域结合,把时间和频率结合在一起表示,是一种语音能量时频分布的可视化表达方式,有效的利用了时频两域之间的相关性,通过语谱图分析获得的特征矢量序列对于原始特征的提取的效果更好,输入到声学模型中,使后续的运算准确性更高;与其他窗函数相比汉明窗可以更有效的减少频谱的泄露,使输入声学模型的数据更加准确。
S2:构建声音识别模型;
声音识别模型采用深度卷积神经网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;
如图3所示,声音识别模型包括:依次连接的N个卷积块、两个全连接层、CTC损失函数层,其中:N为正整数;
卷积块中包括卷积层、池化层;如果N个卷积块共包括偶数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层;如果N个卷积块共包括奇数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层,最后三个卷积层连续操作后再进行一次池化层的池化操作。
本实施例中,卷积块中第一层、第二层采用32个卷积核提取语音特征;第三层、第四层采用64个卷积核提取语音特征;第五层开始为多层连续的128个卷积核的卷积层提取语音更高层特征;
卷积块中的卷积层的卷积核的尺寸全部设置为3×3;池化层为2×2的步长为2的最大池化操作;层与层之间通过局部连接、权值共享操作使得网络参数得到极大的减少,并在一定程度上可以避免梯度问题的出现;
通过采用多层128个卷积核的卷积层提取语音的更高层特征,既可以控制声学模型的参数数量,且确保网络不会过拟合,保证了声学模型的实用型;采用池化层进行池化操作的主要是对语音特征图进行降维,减少参数数量,同时增强语音的抗噪性;
声音识别模型采用CTC作为损失函数,CTC损失函数不需要对齐操作,大大简化了声学模型的训练流程;CTC损失函数计算公式如下:
CTC(x)=-logP(μ|x)
其中:
x代表输入;
X=x1,x2,……,xT代表输入序列,下标代表时间从1到T;
Y=y1,y2,……,yk代表与X对应的输出;
yi=yi 1,yi 2,……,yi k代表输出序列第i帧的条件概率分布,其中i=1,2,……K;
π表示输出路径;
μ表示输出label序列;
π与μ之间是多对一的关系;
B表示路径到label序列的映射关系。
S3:训练声音识别模型,通过调节超参数和网络结构,获得训练好的声音识别模型;
本实施例中,使用清华大学开源30小时语音数据集对声学模型进行训练,数据集分为训练集、验证集、测试集,语料数目分别为10000、893、2495句,均在干净、无噪声的环境下录制。
S4:构建并训练语言模型,获得训练好的语言模型;
使用现有技术中的语音文字转换方法都可以实现此目的。
S5:语音识别;
将待识别特征矢量序列输入到训练好的声学模型中得到语音识别结果;
S6:文字转换;
将语音识别结果输入到训练好的语言模型中,进行语音解码运算,得到能够以最大概率输出该语音信号的词串,所述词串即所述原始语音被识别后的语言文字,即,获得原始语音信号被识别后的语言文字,并反馈给所述控制器2。
在机器人端基于控制器2实现语音控制;基于控制器2,将识别出的语言文字与预设控制指令进行对比,识别出语音控制命令;控制器2基于语音控制指令控制移动机器人完成相应的操作,并通过语音播报模块6播报需要播报的内容;本实施例中,预设控制指令共有9个,包括5个运动控制指令和3个播报控制指令;运动控制指令包括前进、后退、左转、右转、停止;播报控制指令包括播放天气、播放新闻、播放音乐。
如图4语义SLAM方法框架图所示,本发明技术方案中,移动机器人的视觉识别方法中,首先在机器人端完成图像采集;
通过视觉采集模块4获取环境的彩色信息(RGB图像)和深度信息;控制器2使用RTP通信协议实时地将RGB图像序列和深度图像序列发送到远程服务器1。
在远程服务器1中,语义SLAM模块的工作步骤,包括:SS1:位姿估计;SS2:目标检测;SS3:语义标注;SS4:构建三维语义地图;最后将位姿估计结果、三维语义地图反馈给控制器2。
SS1:位姿估计;
视觉SLAM算法流程如图5所示,视觉采集模块4获取的RGB图像、深度图像输入;远程服务器1中的语义SLAM模块8利用视觉SLAM算法估计移动机器人的位姿,优化后筛选出关键帧,构建出环境的几何地图,得到位姿估计结果;
包括视觉里程计、后端优化两个线程;视觉里程计通过分析一系列图像序列,来确定机器人的朝向和位置;后端优化流程对位姿图进行优化,得到精确的位姿估计结果;
具体包括以下步骤:
a1:提取RGB图像的ORB(oriented FAST and rotated BRIEF)特征,利用快速近似最近邻(FLANN)方法和和随机采样一致(RANSAC)方法实现特征的精准匹配,并采用PnP方法估计出机器人的位姿;
提取RGB图像的ORB特征的步骤包括:
a11:使用改进后的FAST算法检测出图像的特征角点;
a12:计算特征点的BRIEF描述子,得到最终的ORB特征;
a2:利用改进后的关键帧选取机制筛选出局部关键帧,并采用基于词袋模型的回环检测方法来降低算法的累计误差;
其中,改进后的关键帧选取机制的内容包括:
相邻两个关键帧之间的间隔大于设定值;相邻两个关键帧之间的特征匹配点数量大于设定值;相邻两个关键帧之间的相对运动距离在一定范围内;系统不处于优化状态,且局部地图未闭环。当图像满足以上基本原则,则判定该图像为关键帧;
回环检测方法的具体步骤包括构建关键帧词典,计算权重,计算帧间相似度,计算相似评分,回环检测与验证;
a3:采用通用图优化框架对局部关键帧进行位姿图优化,得到精确的运动轨迹和三维点云地图,得到位姿估计结果。
SS2:目标检测;
在远程服务器1中的语义SLAM模块8中,构建基于多尺度特征融合的目标检测算法模型,从关键帧中提取语义信息,实现移动机器人对环境的语义感知,得到环境中物体的类别及位置,作为目标检测结果;
如图6所示,目标检测算法模型包括:基础网络、特征融合模块、特征检测网络;
基础网络包括依次连接的改进后的稠密连接网络DenseNet-121、连续的3个卷积块Conv1~Conv3;每一个卷积块包括:依次连接的1×1卷积层和3×3卷积层,用以提取出多个尺度的特征图;
如图7所示,特征融合模块中,高层特征图后连接有两个相同结构的模组实现特征上采样,每个模组包括一个卷积核大小为2×2的反卷积层、一个卷积核为3×3的卷积层、一个批量归一化层和修正激活函数层。反卷积层的作用是对特征图上采样,提高特征图分辨率。卷积层的作用是降低反卷积操作的混叠效应。批量归一化层的作用是将特征图归一化,防止网络模型过拟合。反卷积层和卷积层的通道数为512。低层特征图则直接通过卷积核为3×3的卷积层和批量归一化层,然后输出至修正激活函数层。最后,对高层特征图与低层特征图进行对应元素求和操作,合并之后传入修正激活函数层,得到融合特征图,实现特征融合功能;特征融合模块将细节信息丰富的浅层特征与高度抽象的深层特征相融合;增强网络模型对小尺寸目标的辨识能力;
本发明技术方案中的目标检测算法模型,通过特征融合模块将稠密模块DenseBlock 2、稠密模块Dense Block 3与稠密模块Dense Block 4、Conv1进行融合,充分利用网络的上下文信息,实现高层网络与低层网络之间的跳跃连接,解决了低层网络感受视野小、高层网络几何信息表征能力弱的问题;最后,目标检测算法模型不仅将特征融合模块生成的融合特征图送入特征检测网络进行预测,而且将稠密模块Dense Block 4和扩展卷积层输入到特征检测网络,产生6个用于预测的特征图,提高对小尺寸目标检测的效果;特征检测网络使用默认框映射机制对不同尺度的特征图进行分类预测与位置回归,并采用非极大值抑制去除重叠预测框,得到最终检测结果。
SS3:语义标注;
基于目标检测结果,通过图像分割算法GrabCut算法剔除无关离群点,将前景物体与无关背景分离,按照物体类别对位姿关键帧的图像通过语义标签进行进行语义标注,得到单帧图像的语义标注结果。
GrabCut算法是一种基于图论思想的图像分割方法,其基本思想是将图像描述为S-T无向图,如图8所示。其中,S为源点,代表前景物体对应像素点的集合;T为汇点,表示无关的背景对应像素点的集合。图中每个顶点代表一个像素;边集中有两类边:相邻顶点之间的边(实线)、源点汇点与顶点之间的边(虚线);每条边对应一个权值w,表示顶点与源点、汇点的相似程度。
SS4:构建三维语义地图;
c1:基于语义标注结果,以八叉树结构地图形式表达语义地图;基于八叉树结构地图形式表达语义地图,保证了三维地图的存储效率和精度,实现了实时地语义地图构建。
八叉树结构是一种高效的树状数据结构,将三维空间作为根节点,按照坐标系方向均匀划分为八个小空间,作为子节点,继续对小空间递归划分,直到达到指定精度为止,即叶子节点。每一个叶子节点代表空间的基本单位,即体元。体元的大小为地图的分辨率。
假设第t个关键帧Kt的位姿估计结果Lt;关键帧图像中第i个像素点的描述向量为:
χi=[ri,gi,bi,ui,vi,di,li]T;
其中,ri、gi、bi分别为像素点i的红、绿、蓝颜色通道值;ui、vi为像素点i的像素坐标;di为像素点i的深度值;li为像素点i的语义标签,即所属的类别概率;
语义SLAM利用位姿估计结果Lt将关键帧Kt映射到三维点云空间,像素点i对应的投影点pi为:
其中,Xi、Yi、Zi为投影点对应的三维坐标;K为相机内参矩阵。最后根据像素点对应语义标签对投影点进行语义标注,得到三维语义地图,使用彩色八叉树结构存储;
假设三维语义地图内存在N个三维体元,三维体元的集合为:
V={V1,V2,...,VN};
三维语义地图可以使用向量集合X={x1,x2,...,xN}描述;像素点i对应的三维体元Vi可以使用向量xi=[Xi,Yi,Zi,ri,gi,bi,li]表示;
c2:语义SLAM系统通过贝叶斯更新模型实现增量语义标签融合,关联多个关键帧图像的语义标签,实现语义地图的实时更新;解决了在语义地图构建过程中,系统不断通过深度相机采集环境数据,导致计算量大大增加的问题,提高运行效率;同时,解决了使用单个关键帧的语义标注结果可能导致语义地图缺乏一致性,去报了数据的一致性;
其中,P(lt)和P(Kt)为先验概率,与时间变量无关,是固定值;P(lt|Kt)为三维体元在关键帧Kt下的条件概率。当获取新的关键帧时,三维体元的语义标签类别可以用下式进行概率更新;
其中,Zt′为新的归一化因子。
c3:使用稠密条件随机场模型对语义地图进行优化,构建出环境的三维语义地图;
本发明技术方案中,在获得环境的语义地图之后,根据邻域内的颜色信息和外观信息对体元的语义标签进行规范化,用以解决系统运行过程中存在目标检测算法精度、传感器误差等外部干扰因素,导致单帧图像的语义标注结果中存在漏检和错检的问题,确保能够获得更精确的三维语义地图。
本发明技术方案中,利用稠密条件随机场模型对三维体元的语义标签进行规范化,得到全局一致的三维语义地图;计算三维语义地图的概率分布公式如下:
其中,Z为归一化因子;X为三维语义地图;E(X)为吉布斯能量函数;
E(X)计算方式如下:
ψμ为一元势能,表示三维体元对应的类别概率,其计算方式如下:
ψμ(xi)=-logP(xi)
式中,P(xi)为三维体元Vi的初始概率,由体元对应的语义标签li得到;
ψp为二元势能,表示相邻立体体元之间的相关性。
式中,fi、fj分别为三维体元Vi、Vj对应的特征向量;μ为兼容性函数,表示邻域内的立体体元属于不同类别的概率。
k(m)为高斯核函数,表示三维体元Vi、Vj之间的相似度程度,定义为:
式中,w(m)为权重线性组合项;Λ(m)为对称正定矩阵,表示核函数的属性;
吉布斯分布共定义了三个高斯核函数,第一个高斯核函数为平滑核,其作用是删除小的隔离区域,并为相邻的三维体元分配相同的语义标签:
其中,pi、pj分别为三维体元Vi、Vj对应的空间位置,θp为该核函数的控制范围;
第二个高斯核函数也为平滑核,其作用是为具有相同表面方向的相邻体元分配相同的语义标签:
其中,ni、nj分别为三维体元Vi、Vj对应的法向向量;θp,n为该核函数的控制范围,θn表示法向向量的相似程度;
第三个高斯核函数为外观核,其作用是为具有相似颜色向量的相邻体元分配相同的语义标签:
其中,其中,ci、cj分别为三维体元Vi、Vj对应的颜色向量;θp,c为该核函数的控制范围,θc表示颜色向量的相似程度。
为了验证本发明技术方案中语义SLAM方法的有效性和可行性,选取NYUv2数据集进行实验,与Sematicfusion、SLAM++两种方法进行比较,对其精度和运行效率进行定量分析。
实验平台为搭载Ubuntu16.04操作系统的笔记本,运行内存16GB,处理器型号:i7-7700,主频2.8GHz,64位操作系统,使用一张NVIDIA GeForce GTX 1050Ti显卡。NYU v2数据集提供对齐的彩色图像和深度图像,可直接进行点云分割、位姿估计与三维重建等操作。该数据集中包含1449组彩色图像、深度图像、人工标记图像,图像分辨率为640×480。对比实验的具体结果如下面表1所示。
表1:NYU V2数据集实验结果对比
方法 | 床 | 书籍 | 椅子 | 家具 | 油画 | 沙发 | 桌子 | 电视 | 窗户 | 平均精度 |
Sematicfusion | 62.0 | 58.4 | 59.5 | 64.4 | 65.8 | 48.7 | 34.3 | 34.3 | 62.3 | 54.4 |
SLAM++ | 68.4 | 45.4 | 74.7 | 37.1 | 35.8 | 28.5 | 27.7 | 38.4 | 46.1 | 44.7 |
本发明方法 | 61.7 | 61.5 | 68.4 | 63.7 | 66.4 | 47.3 | 34.0 | 33.9 | 60.5 | 55.3 |
如表1中结果所示,本发明技术方案的语义SLAM方法的平均识别精度为55.3%,对油画、书等类别的识别精度高于Sematicfusion算法,总体建图效果优于Sematicfusion和SLAM++;图9为本发明语义SLAM方法在NYU v2数据集下测试结果的混淆矩阵,对角线上的方格颜色越深,识别精度越高;图10为本发明语义SLAM方法构建的三维语义地图效果,从实验结果可以看出,本发明语义SLAM方法能够识别出环境中的绝大多数物体,并建立良好的三维语义地图。
Claims (10)
1.一种基于语义SLAM方法的语音控制型移动机器人,其包括控制器、远程服务器、视觉采集模块、语音采集模块;所述视觉采集模块、所述语音采集模块与所述控制器通信连接,其特征在于:
所述远程服务器包括语义SLAM模块、语音识别模块;所述控制器与所述远程服务器通信连接;
所述视觉采集模块获取环境的彩色信息和深度信息后发送给所述控制器,所述控制器实时地将彩色信息和深度信息以RGB图像序列和深度图像序列发送到远程服务器;所述远程服务器中的所述语义SLAM模块采用基于深度学习的语义SLAM方法,进行计算得到机器人的位姿估计结果,并构建出环境的三维语义地图,然后将所述位姿估计结果、所述三维语义地图反馈给所述控制器;
所述语音采集模块采集输入语音后发送给所述控制器,所述控制器将语音序列发送到所述远程服务器;所述远程服务器中的所述语音识别模块采用基于深度卷积神经网络的语音控制方法,对语音序列进行识别,将识别出来的语音文字反馈给所述控制器;所述控制器将所述语音文字与预设控制指令进行对比识别,识别出语音控制命令;
所述控制器基于所述位姿估计结果、所述三维语义地图,按照所述语音控制命令,规划机器人的行为轨迹,并控制机器人执行动作。
2.根据权利要求1所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述语音识别模块的工作步骤,包括:
S1:特征提取;
在所述远程服务器的语音识别模块中,提取出反映所述原始语音信号特征的关键特征参数,形成待识别特征矢量序列;
S2:构建声音识别模型;
所述声音识别模型采用深度卷积神经网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;
所述声音识别模型包括:依次连接的N个卷积块、两个全连接层、CTC损失函数层,其中:N为正整数;
所述卷积块中包括卷积层、池化层;如果N个所述卷积块共包括偶数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层;如果N个所述卷积块共包括奇数个卷积层,则:从第一个卷积层开始每两个连续的卷积层后跟着一个池化层,最后三个卷积层连续操作后再进行一次池化层的池化操作;
S3:训练所述声音识别模型,获得训练好的所述声音识别模型;
S4:构建并训练语言模型,获得训练好的所述语言模型;
S5:语音识别;
将所述待识别特征矢量序列输入到训练好的所述声学模型中得到语音识别结果;
S6:文字转换;
将所述语音识别结果输入到训练好的所述语言模型中,进行语音解码运算,获得所述原始语音信号被识别后的语言文字,并反馈给所述控制器。
3.根据权利要求2所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述卷积块中第一层、第二层采用32个卷积核提取语音特征;第三层、第四层采用64个卷积核提取语音特征;第五层开始为多层连续的128个卷积核的卷积层提取语音更高层特征;所述卷积块中的卷积层的卷积核的尺寸全部设置为3×3;池化层为2×2的步长为2的最大池化操作。
4.根据权利要求2所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述CTC损失函数计算公式如下:
CTC(x)=-log P(μ|x)
其中:
x代表输入;
X=x1,x2,……,xT,代表输入序列,下标代表时间从1到T;
Y=y1,y2,……,yk,代表与X对应的输出;
yi=yi 1,yi 2,……,yi k,代表输出序列第i帧的条件概率分布,其中i=1,2,……K;
π表示输出路径;
μ表示输出label序列;
π与μ之间是多对一的关系;
B表示路径到label序列的映射关系。
5.根据权利要求1所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:所述语义SLAM模块的工作步骤,包括:
SS1:位姿估计;
利用视觉SLAM算法估计移动机器人的位姿,优化后筛选出关键帧,得到位姿估计结果;具体包括以下步骤:
a1:提取RGB图像的ORB特征,利用快速近似最近邻方法和和随机采样一致方法实现特征的精准匹配,并采用PnP方法估计出机器人的位姿;
a2:利用改进后的关键帧选取机制筛选出局部关键帧,并采用基于词袋模型的回环检测方法来降低算法的累计误差;
a3:采用通用图优化框架对所述局部关键帧进行位姿图优化,得到精确的运动轨迹和三维点云地图,得到所述位姿估计结果;
SS2:目标检测;
构建基于多尺度特征融合的目标检测算法模型,从关键帧中提取语义信息,得到环境中物体的类别及位置,作为目标检测结果;
所述目标检测算法模型包括:基础网络、特征融合模块、特征检测网络;
所述基础网络包括依次连接的改进后的稠密连接网络DenseNet-121、连续的3个卷积块Conv1~Conv3;每一个所述卷积块包括:依次连接的1×1卷积层和3×3卷积层;
所述特征融合模块将细节信息丰富的浅层特征与高度抽象的深层特征相融合,充分利用不同层次的特征,增强算法模型对于小尺度目标的辨识能力,其包括:两个相同结构的模组;每个所述模组包括依次连接的反卷积层、卷积层、批量归一化层、修正激活函数层;
所述特征检测网络使用默认框映射机制对不同尺度的特征图进行分类预测与位置回归,并采用非极大值抑制去除重叠预测框,得到最终检测结果;
SS3语义标注;
基于所述目标检测结果,通过图像分割算法GrabCut算法剔除无关离群点,将前景物体与无关背景分离,按照物体类别对所述位姿关键帧的图像通过语义标签进行进行语义标注,得到单帧图像的语义标注结果;
SS4:构建三维语义地图;
c1:基于所述语义标注结果,以八叉树结构地图形式表达语义地图;
c2:通过贝叶斯更新模型实现增量语义标签融合,关联多个关键帧图像的语义标签,实现所述语义地图的实时更新;
c3:使用稠密条件随机场模型对所述语义地图进行优化,构建出环境的所述三维语义地图。
6.根据权利要求5所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:步骤a1中,提取RGB图像的ORB特征的步骤包括:
a11:使用改进后的FAST算法检测出图像的特征角点;
a12:计算特征点的BRIEF描述子,得到最终的ORB特征。
7.根据权利要求5所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:步骤a2中,改进后的所述关键帧选取机制的内容包括:
相邻两个关键帧之间的间隔大于设定值;相邻两个关键帧之间的特征匹配点数量大于设定值;相邻两个关键帧之间的相对运动距离在一定范围内;系统不处于优化状态,且局部地图未闭环。当图像满足以上基本原则,则判定该图像为关键帧。
8.根据权利要求5所述一种基于语义SLAM方法的语音控制型移动机器人,其特征在于:步骤a2中,所述回环检测方法的具体步骤包括构建词典,计算权重,计算相似度,计算相似评分,回环检测与验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010876799.6A CN112068555A (zh) | 2020-08-27 | 2020-08-27 | 一种基于语义slam方法的语音控制型移动机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010876799.6A CN112068555A (zh) | 2020-08-27 | 2020-08-27 | 一种基于语义slam方法的语音控制型移动机器人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112068555A true CN112068555A (zh) | 2020-12-11 |
Family
ID=73660354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010876799.6A Pending CN112068555A (zh) | 2020-08-27 | 2020-08-27 | 一种基于语义slam方法的语音控制型移动机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112068555A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112684704A (zh) * | 2020-12-18 | 2021-04-20 | 华南理工大学 | 基于深度学习的端到端运动控制方法、系统、装置及介质 |
CN113238554A (zh) * | 2021-05-08 | 2021-08-10 | 武汉科技大学 | 一种基于激光与视觉融合slam技术的室内导航方法及系统 |
CN114022768A (zh) * | 2021-11-04 | 2022-02-08 | 东南大学 | 一种基于语义先验和概率传播的视觉slam定位方法 |
CN114495114A (zh) * | 2022-04-18 | 2022-05-13 | 华南理工大学 | 基于ctc解码器的文本序列识别模型校准方法 |
CN115638788A (zh) * | 2022-12-23 | 2023-01-24 | 安徽蔚来智驾科技有限公司 | 语义矢量地图的构建方法、计算机设备及存储介质 |
CN115762490A (zh) * | 2022-11-08 | 2023-03-07 | 广东广信通信服务有限公司 | 一种基于轨迹修正的在线强化语义学习方法 |
CN117666364A (zh) * | 2024-01-31 | 2024-03-08 | 中山格智美电器有限公司 | 一种智能化无刷电机测试与调节方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107518830A (zh) * | 2016-06-15 | 2017-12-29 | 美国iRobot公司 | 控制自主移动机器人的系统和方法 |
CN109101012A (zh) * | 2017-12-12 | 2018-12-28 | 上海魔龙机器人科技有限公司 | 一种基于slam算法的机器人导航系统及导航方法 |
CN109117718A (zh) * | 2018-07-02 | 2019-01-01 | 东南大学 | 一种面向道路场景的三维语义地图构建和存储方法 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN109636905A (zh) * | 2018-12-07 | 2019-04-16 | 东北大学 | 基于深度卷积神经网络的环境语义建图方法 |
CN109724603A (zh) * | 2019-01-08 | 2019-05-07 | 北京航空航天大学 | 一种基于环境特征检测的室内机器人导航方法 |
US20190206400A1 (en) * | 2017-04-06 | 2019-07-04 | AIBrain Corporation | Context aware interactive robot |
CN110363816A (zh) * | 2019-06-25 | 2019-10-22 | 广东工业大学 | 一种基于深度学习的移动机器人环境语义建图方法 |
US20200039081A1 (en) * | 2016-02-09 | 2020-02-06 | Cobalt Robotics Inc. | Mobile Robot Map Generation |
CN110853085A (zh) * | 2018-08-21 | 2020-02-28 | 深圳地平线机器人科技有限公司 | 基于语义slam的建图方法和装置及电子设备 |
US20200156256A1 (en) * | 2017-06-30 | 2020-05-21 | Lg Electronics Inc. | Mobile robot operation method and mobile robot |
-
2020
- 2020-08-27 CN CN202010876799.6A patent/CN112068555A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200039081A1 (en) * | 2016-02-09 | 2020-02-06 | Cobalt Robotics Inc. | Mobile Robot Map Generation |
CN107518830A (zh) * | 2016-06-15 | 2017-12-29 | 美国iRobot公司 | 控制自主移动机器人的系统和方法 |
US20190206400A1 (en) * | 2017-04-06 | 2019-07-04 | AIBrain Corporation | Context aware interactive robot |
US20200156256A1 (en) * | 2017-06-30 | 2020-05-21 | Lg Electronics Inc. | Mobile robot operation method and mobile robot |
CN109101012A (zh) * | 2017-12-12 | 2018-12-28 | 上海魔龙机器人科技有限公司 | 一种基于slam算法的机器人导航系统及导航方法 |
CN109117718A (zh) * | 2018-07-02 | 2019-01-01 | 东南大学 | 一种面向道路场景的三维语义地图构建和存储方法 |
CN110853085A (zh) * | 2018-08-21 | 2020-02-28 | 深圳地平线机器人科技有限公司 | 基于语义slam的建图方法和装置及电子设备 |
CN109272990A (zh) * | 2018-09-25 | 2019-01-25 | 江南大学 | 基于卷积神经网络的语音识别方法 |
CN109636905A (zh) * | 2018-12-07 | 2019-04-16 | 东北大学 | 基于深度卷积神经网络的环境语义建图方法 |
CN109724603A (zh) * | 2019-01-08 | 2019-05-07 | 北京航空航天大学 | 一种基于环境特征检测的室内机器人导航方法 |
CN110363816A (zh) * | 2019-06-25 | 2019-10-22 | 广东工业大学 | 一种基于深度学习的移动机器人环境语义建图方法 |
Non-Patent Citations (4)
Title |
---|
余洪山等: "基于粒子滤波器的移动机器人定位和地图创建研究进展", 《机器人》 * |
张威: "基于物体语义信息的室内视觉SLAM研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李扬等: "国内外机器人企业发展特征分析", 《智能机器人》 * |
林靖生等: "基于SLAM技术的医疗服务机器人", 《科技创新与应用》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112684704A (zh) * | 2020-12-18 | 2021-04-20 | 华南理工大学 | 基于深度学习的端到端运动控制方法、系统、装置及介质 |
CN113238554A (zh) * | 2021-05-08 | 2021-08-10 | 武汉科技大学 | 一种基于激光与视觉融合slam技术的室内导航方法及系统 |
CN114022768A (zh) * | 2021-11-04 | 2022-02-08 | 东南大学 | 一种基于语义先验和概率传播的视觉slam定位方法 |
CN114495114A (zh) * | 2022-04-18 | 2022-05-13 | 华南理工大学 | 基于ctc解码器的文本序列识别模型校准方法 |
CN115762490A (zh) * | 2022-11-08 | 2023-03-07 | 广东广信通信服务有限公司 | 一种基于轨迹修正的在线强化语义学习方法 |
CN115762490B (zh) * | 2022-11-08 | 2023-07-21 | 广东广信通信服务有限公司 | 一种基于轨迹修正的在线强化语义学习方法 |
CN115638788A (zh) * | 2022-12-23 | 2023-01-24 | 安徽蔚来智驾科技有限公司 | 语义矢量地图的构建方法、计算机设备及存储介质 |
CN117666364A (zh) * | 2024-01-31 | 2024-03-08 | 中山格智美电器有限公司 | 一种智能化无刷电机测试与调节方法及系统 |
CN117666364B (zh) * | 2024-01-31 | 2024-06-25 | 中山格智美电器有限公司 | 一种智能化无刷电机测试与调节方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112068555A (zh) | 一种基于语义slam方法的语音控制型移动机器人 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
Tang et al. | RGBT salient object detection: Benchmark and a novel cooperative ranking approach | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
Kliper-Gross et al. | Motion interchange patterns for action recognition in unconstrained videos | |
WO2021155792A1 (zh) | 一种处理装置、方法及存储介质 | |
CN112861575A (zh) | 一种行人结构化方法、装置、设备和存储介质 | |
KR102462934B1 (ko) | 디지털 트윈 기술을 위한 영상 분석 시스템 | |
Chen et al. | Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning | |
CN110675421B (zh) | 基于少量标注框的深度图像协同分割方法 | |
CN110175528B (zh) | 人体跟踪方法及装置、计算机设备及可读介质 | |
CN109982088B (zh) | 图像处理方法及装置 | |
Chen et al. | Multi-SVM based Dempster–Shafer theory for gesture intention understanding using sparse coding feature | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
Zhan et al. | Salient superpixel visual tracking with graph model and iterative segmentation | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
Lu et al. | Review on automatic lip reading techniques | |
Chen et al. | An improved dense-to-sparse cross-modal fusion network for 3D object detection in RGB-D images | |
US20230281843A1 (en) | Generating depth images for image data | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
Li et al. | Few-shot meta-learning on point cloud for semantic segmentation | |
CN115937662A (zh) | 智能家居系统控制方法、装置、服务器及存储介质 | |
Wang et al. | Extraction of main urban roads from high resolution satellite images by machine learning | |
Tan et al. | 3D detection transformer: Set prediction of objects using point clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201211 |