CN110032189A

CN110032189A - 一种不依赖地图的智能仓储移动机器人路径规划方法

Info

Publication number: CN110032189A
Application number: CN201910323366.5A
Authority: CN
Inventors: 魏长赟; 张鹏鹏; 蔡帛良; 倪福生; 蒋爽; 顾磊; 李洪彬; 刘增辉
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-07-19

Abstract

本发明请求保护一种不依赖地图的智能仓储移动机器人路径规划方法，包含步骤：S1：首先在模拟的环境中进行训练，S2：实际环境中移动机器人导航，使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。本发明方法有效的解决了在未知环境中的路径规划问题；通过模拟训练，有效的提升了在未知环境中的避障效率。

Description

一种不依赖地图的智能仓储移动机器人路径规划方法

技术领域

本发明属于机器人路径规划技术领域，涉及一种采用激光传感器，并且不依赖地图的智能仓储移动机器人路径规划方法。

背景技术

路径规划是自主移动机器人的关键要素之一，希望移动机器人能够尽量快速准确地到达目的地，同时也需要移动机器人能够安全有效的躲避环境中的障碍物。目前在环境地图完全已知的情况下安全有效的躲避障碍物并准确地到达目的地已经有较多较好的解决方案。但是在环境地图未知，并且仅仅依靠较分散激光传感器的感知数据时，对移动机器人导航过程的避障算法实时性和准确性要求更高，如果继续使用环境已知的方法进行环境未知的导航与避障，那么极大可能会引起避障失败，导致最终导航失效。

移动机器人的动态避障的研究主要是对障碍物进行有效的探测和碰撞躲避控制算法设计优化，使移动机器人能够准确快速完成导航任务。对于障碍物的检测，需要利用移动机器人自身所带的测量传感器，通过传感器对障碍物进行距离与位置的测量以及运动状态的判断。目前对于这类传感器的使用一般有声纳传感器、红外传感器、激光传感器、视觉传感器等。但是传感器往往有它的缺陷，例如声纳传感器在遇到吸声材料时检测效果就会大受影响导致误差，视觉传感器在光线较差情况下，检测会有较大误差等。

在动态避障算法的研究上，比较常用的方法有人工势场法、VFH类算法、神经网络法、遗传算法、模糊逻辑法以及滚动窗口法等。各有各自的优缺点，例如人工势场法计算量小实时性好，但容易出现局部极小值点。

发明内容

本发明旨在解决以上现有技术的问题，提出了一种不依赖地图的智能仓储移动机器人路径规划方法，本方法相对于传统方法优点在于：1.使用的激光传感器激光束较少，但能实现可靠的实时路径规划，降低了移动机器人的传感器成本；2.无需建立实体环境地图，依然能进行路径规划。本发明的技术方案如下：

一种不依赖地图的智能仓储移动机器人路径规划方法，其包括以下步骤：S1：首先在模拟的环境中进行训练，a1：设置移动机器人运动时，随机初始目标点坐标位置信息(xt，yt)和目标半径范围R_m；xt、yt分别表示目标点的中心在静态地图中的X、Y坐标，R_m表示以(xt，yt)为中心的边长为d_min的正方形区域，在区域中都可算到达目的地，设定移动机器人当前的位姿(x，y，θ_r)，x，y是移动机器人当前的位置坐标，θ_r是移动机器人实时的运动方向与X轴的夹角，并通过目标点在移动机器人极坐标下的位置信息(θ，d)进行导航路径规划，并以固定速度向前行驶，θ是目标点在移动机器人极坐标中的角度信息，d是目标点距移动机器人中心的距离信息；a2：导航过程中，将移动机器人上激光传感器检测到的环境数据L_i和目标位置数据D_i进行预处理与特征化，然后相融合得到环境数据S_i；a3：利用深度确定梯度策略方法，得到下一步的动作状态a，并在动作a执行后通过奖励反馈，改变策略子网络中神经元的权重和偏置，a∈W代表执行动作时移动机器人所偏转的角度在W范围内；a4：判断移动机器人是否到达目标点(xt，yt)，如果没有到达目标点则返回a2继续导航，如果已到达目标点则结束导航；a5：结束导航后，根据奖励值，更新深度确定梯度策略方法中的评价网络参数，在训练的成功率达到目标成功率后，保存深度确定梯度策略方法中的策略子网络，评价网络参数，在训练的成功率达到目标成功率后，保存在深度确定梯度策略方法中的网络参数。S2：实际的移动机器人导航(环境可以与模拟的环境不同)，使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。

进一步的，所述步骤a2将激光传感器检测到的环境数据L_i和目标位置数据D_i进行预处理与特征化，然后相融合得到环境数据S_i，具体包括：激光传感器数据L_i(i＝1，2，…，10)进行预处理，再转换为环境特征参数L_fi(i＝1，2，…，10)；目标位置数据需先进行分区域处理后得到区域距离数据D_i(i＝11，12，13)，其中D₁₁是当前移动机器人相对于X坐标的角度，D₁₂是距离目标点的距离，D₁₃是目标点相对于移动机器人自身前进方向的角度，再进行转换为距离特征参数D_fi(i＝11，12，13)；根据定义的最大距离dm，将激光传感器的距离数据转换为距离特征值数据：L_fi＝L_i÷dm(i＝1，2，3，…，10)将激光传感器的距离数据转换为距离特征值数据：D_fi＝D₁₁÷π，D₁₂÷dm，D₁₃÷π，然后根据激光传感器的距离特征值数据和目标点位置的距离特征值数据进行融合，得出当前的环境特征数据S_f1～S_f13，融合方式为：

进一步的，所述目标位置的数据需先进行分区域，分区域目的是为了得到到达目标的最佳角度，处理后得到距离数据D₁₃，D₁₃是目标点相对于移动机器人自身前进方向的角度，具体包括：先将移动机器人正前方作为参考起点，顺时针角度为负，逆时针角度为正，得到相对于目标位置的最优角度，角度的绝对值小于等于180°。

进一步的，所述步骤a3中深度确定梯度策略方法具体包括：动作选择策略采用的是策略子网络输出动作，并附加N_t的扰动，表示为

a＝A(s|μA)+N_t

其中，s表示状态，μA是策略子网络参数，N_t是扰动，A是深度确定梯度策略方法的动作策略。当移动机器人需要进行动态避障时，将该时刻的融合数据作为深度确定梯度策略输入数据，然后经过深度确定梯度策略决策以后输出下一刻动作a，将动作a在环境中执行后，根据奖励值的不同进行深度确定梯度策略方法网络参数的更新，在评价网络中：

Q(s,a)＝Q(s,a)+α(r+(Q(s',a'))-Q(s,a))

其中Q是值函数，(s，a)是t时刻的状态，r是t时刻行为对应的奖励值，Q(s',a')是在t+1时刻采取的行为在新状态下计算的Q值，α是学习率，γ是折扣因子。

进一步的，所述动作a的设计具体为，在固定的连续区间内选择。

进一步的，其特征在于，R值的设计具体为：为了定义奖励函数，首先对移动机器人的状态S进行如下分类：

1)安全状态SS：移动机器人与环境中的任何障碍物未碰撞的一组状态；

2)非安全状态NS：移动机器人与环境中的任何障碍物碰撞的一组状态；

3)获胜状态WS：移动机器人到达目标时的状态；

根据移动机器人状态，定义奖励函数。

进一步的，所述步骤a4具体为：根据移动机器人当前的坐标信息(x，y)判断移动机器人是否到达目标点(xt，yt)；如果表明移动机器人已经到达目标点范围内，如果min{L₁,L₂,...L₁₀}>C，L₁是激光传感器得到的距离障碍的距离，C是移动机器人的长度，表明移动机器人已经与障碍产生碰撞，已经是WS或者NS，结束此次导航；反之，表明移动机器人尚未达到目标点，仍需要继续导航，返回步骤a2继续执行，直到到达目标点。

本发明的优点及有益效果如下：

本发明提供了一种不依赖地图的智能仓储移动机器人路径规划方法，本发明方法通过深度学习的方法，有效的解决了在未知环境中的路径规划问题；通过模拟训练，有效的提升了在真实环境中的避障效率。

附图说明

图1是本发明提供优选实施例为移动机器人感知目标点模型；

图2为移动机器人激光传感器感知障碍模型；

图3为S1步骤整体流程图；

图4是S2步骤整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图3，4所示，一种不依赖地图的智能仓储移动机器人路径规划方法，该方法包含如下步骤：

S1：首先在模拟的环境中进行训练；

a1：设置移动机器人运动的目标，随机初始目标点坐标位置信息(xt，yt)和目标半径范围R_m；xt、yt分别表示目标点的中心在静态地图中的X、Y轴坐标，R_m表示以(xt，yt)为中心的边长为d_min的正方形区域，在区域中都可算到达目的地，设定移动机器人当前的位姿(x，y，θ_r)，x、y是移动机器人当前的位置坐标，θ_r是移动机器人实时的运动方向与X轴的夹角，并通过目标点在移动机器人极坐标下的位置信息(θ，d)进行路径规划，并以固定速度向前行驶，θ是目标点在移动机器人极坐标中的角度信息，d是目标点距移动机器人中心的距离信息；

a2：导航过程中，将移动机器人上激光传感器检测到的环境数据L_i和目标位置数据D_i进行预处理与特征化，然后相融合得到环境数据S_i；

a3：利用深度确定梯度策略方法得到下一步的动作状态a；a∈W代表执行动作时移动机器人所偏转的角度在W范围内；

a4：判断移动机器人是否到达目标点(xt，yt)或者碰撞，如果没有则返回a2继续导航，如果已到达目标点则结束导航；

a5：结束导航后，根据奖励值，更新深度确定梯度策略方法中的策略子网络，评价网络参数，在训练的成功率达到目标成功率后，保存在深度确定梯度策略方法中的网络参数。

S2：实际环境中移动机器人导航(环境可以与模拟时的环境不同)，使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。

进一步的，所述步骤a3将激光传感器检测到的环境数据L_i和目标位置数据D_i进行预处理与特征化，然后相融合得到环境数据S_i，具体包括：激光传感器数据L_i(i＝1，2，…，10)进行预处理，再转换为环境特征参数L_fi(i＝1，2，…，10)；目标位置的数据需先进行分区域处理后得到区域距离数据D_i(i＝11，12，13)，其中D₁₁是当前移动机器人相对于X坐标的角度，D₁₂是距离目标点的距离即d，D₁₃是目标点相对于移动机器人自身前进方向的角度即θ，再进行转换，得到距离特征参数D_fi(i＝11，12，13)；根据定义的最大距离dm，将激光传感器的距离数据值转换为距离特征值数据：L_fi＝L_i÷dm(i＝1，2，3，…，10)将激光传感器的距离数据值转换为距离特征值数据：D_fi＝D₁₁÷π，D₁₂÷dm，D₁₃÷π，然后根据激光传感器的环境特征值数据和目标点位置的环境特征值数据进行融合，得出当前的环境特征数据S_f1～S_f13，融合方式为：

进一步的，所述目标位置的数据需先进行分区域，分区域的目的是为了得到到达目标的最佳角度，处理后得到距离数据D₁₃，D₁₃是目标点相对于移动机器人自身前进方向的角度，具体包括：先将移动机器人正前方作为参考起点，顺时针角度为负，逆时针角度为正，得到相对于目标位置的最优角度，角度的绝对值等于小于180°。

进一步的，所述步骤a3中深度确定梯度策略方法具体包括：选择的动作是策略子网络输出动作，即对应当前状态作为输入值经过策略子网络运算后得到的动作a，并附加N_t的扰动，表示为

a＝A(s|μA)+N_t (2)

s表示状态，μA是策略子网络参数，A是深度确定梯度策略方法的动作策略，当移动机器人需要路径规划时，将该时刻的融合数据作为深度确定梯度策略输入，然后经过深度确定梯度策略方法决策以后，输出下一刻动作a，将动作a执行后，根据奖励值的不同进行深度确定梯度策略网络参数的更新，在评价网络中：

Q(s,a)＝Q(s,a)+α(r+(Q(s',a'))-Q(s,a)) (3)

进一步的，所述步骤a5，其特征在于，R值的设计具体为：为了定义奖励函数，首先对移动机器人的状态S进行如下分类：

3)获胜状态WS：移动机器人到达目标时的状态；

根据移动机器人状态，定义奖励函数如下：

当移动机器人到达目标，状态为获胜状态WS时，R＝10；当移动机器人与障碍物产生碰撞时，状态为非安全状态NS时，R＝-5；当移动机器人在环境中既没有碰撞也没有到达终点时，状态为安全状态SS，R＝(d_i-d_i+1)/d_m，d_i是当前时刻与目标点的距离，d_i+1是下一时刻与目标点的距离。

进一步的，所述步骤S2具体为，在实体移动机器人的导航过程中，移动机器人继承在步骤S1中的网络参数，通过深度确定梯度策略方法选择当前时刻的动作，直到到达目标区域。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种不依赖地图的智能仓储移动机器人路径规划方法，其特征在于，包括以下步骤：

S1：首先移动机器人在模拟的环境中进行训练；

a1：设置移动机器人运动时的目标，随机初始目标点坐标位置信息(xt，yt)和目标半径范围R_m；xt、yt分别表示目标点的中心在静态地图中的X、Y轴坐标，R_m表示以(xt，yt)为中心的边长为d_min的正方形区域，在区域中都可算到达目的地，设定移动机器人当前的位姿(x，y，θ_r)，x、y是移动机器人当前的位置坐标，θ_r是移动机器人实时的运动方向与X轴的夹角，并通过目标点在移动机器人极坐标下的位置信息(θ，d)进行路径规划，并以固定速度向前行驶，θ是目标点在移动机器人极坐标下的角度信息，d是目标点距移动机器人中心的距离信息；

a3：利用深度确定梯度策略方法，得到下一步的动作状态a，a∈W代表执行动作时移动机器人所偏转的角度在W范围内；

a4：判断移动机器人是否到达目标点(xt，yt)，如果没有则返回a2继续导航，如果已到达则结束导航；

a5：结束导航后，根据奖励值，更新深度确定梯度策略方法中的策略子网络，评价网络参数，在训练的成功率达到目标成功率后，保存在深度确定梯度策略方法中的网络参数；

S2：实际环境移动机器人导航使用在S1中保存了网络参数的深度确定梯度策略方法进行移动机器人动作选择。

2.根据权利要求1所述的一种不依赖地图的智能仓储移动机器人路径规划方法，其特征在于，所述步骤a2将激光传感器检测到的环境数据L_i和目标位置数据D_i进行预处理与特征化，然后相融合得到环境数据S_i，具体包括：

激光传感器数据L_i(i＝1，2，…，10)进行预处理，再转换为环境特征参数L_fi(i＝1，2，…，10)；目标位置的数据需先进行分区域处理，然后得到区域距离数据D_i(i＝1，2，3)，其中D₁是当前移动机器人相对X坐标的角度，D₂是距离目标点的距离即d，D₃是目标点相对于移动机器人自身前进方向的角度即θ，然后D_i再进行转换得到距离特征参数D_fi(i＝11，12，13)；根据定义的最大距离dm，将激光传感器的距离数据转换为距离特征值数据：L_fi＝L_i÷dm(i＝1，2，3，…，10)将激光传感器的距离数据转换为距离特征值数据：D_fi＝D₁₁÷π，D₁₂÷dm，D₁₃÷π，然后根据激光传感器的距离特征值数据和目标点位置的距离特征值数据进行融合，得出当前的环境特征数据S_f1～S_f13，融合方式为：

3.根据权利要求2所述的一种不依赖地图的智能仓储移动机器人路径规划方法，其特征在于，所述目标位置的数据需先进行分区域处理后得到数据D₁₃，D₁₃是目标点相对于移动机器人自身前进方向的角度，具体包括：先将移动机器人正前方作为参考起点，顺时针角度为负，逆时针角度为正，得到相对于目标位置的最优角度，角度的绝对值小于等于180°。

4.根据权利要求1所述的一种不依赖地图的智能仓储移动机器人路径规划方法，其特征在于，所述步骤a3中深度确定梯度策略方法具体包括：动作选择策略采用的是策略子网络输出动作，并附加扰动：

a＝A(s|μA)+N_t

Q(s,a)＝Q(s,a)+α(r+(Q(s',a'))-Q(s,a))

5.根据权利要求4所述的一种不依赖地图的智能仓储移动机器人路径规划方法，其特征在于，所述动作a的设计具体为，在固定的连续区间内选择。

6.根据权利要求4所述的一种不依赖地图的智能仓储移动机器人路径规划方法，其特征在于，R值的设计具体为：为了定义奖励函数，首先对移动机器人的状态S进行如下分类：

3)获胜状态WS：移动机器人到达目标时的状态；

根据移动机器人状态，定义奖励函数。

7.根据权利要求1所述的一种不依赖地图的智能仓储移动机器人路径规划方法，其特征在于，所述步骤a4具体为：

根据移动机器人当前的坐标信息(x，y)判断移动机器人是否到达目标点(xt，yt)；如果表明移动机器人已经到达目标点范围内，如果min{L₁,L₂,...L₁₀}>C，L₁是激光传感器得到的距离障碍的距离，C是移动机器人的长度，表明移动机器人已经与障碍产生碰撞，已经是WS或者NS，结束此次导航；反之，表明移动机器人尚未达到目标点，仍需要继续导航，返回步骤a2继续执行，直到到达目标点。