CN110032189A - 一种不依赖地图的智能仓储移动机器人路径规划方法 - Google Patents
一种不依赖地图的智能仓储移动机器人路径规划方法 Download PDFInfo
- Publication number
- CN110032189A CN110032189A CN201910323366.5A CN201910323366A CN110032189A CN 110032189 A CN110032189 A CN 110032189A CN 201910323366 A CN201910323366 A CN 201910323366A CN 110032189 A CN110032189 A CN 110032189A
- Authority
- CN
- China
- Prior art keywords
- mobile robot
- data
- target point
- target
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000004088 simulation Methods 0.000 claims abstract description 6
- 230000007613 environmental effect Effects 0.000 claims description 17
- 230000004888 barrier function Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000005267 amalgamation Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000011358 absorbing material Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明请求保护一种不依赖地图的智能仓储移动机器人路径规划方法,包含步骤:S1:首先在模拟的环境中进行训练,S2:实际环境中移动机器人导航,使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。本发明方法有效的解决了在未知环境中的路径规划问题;通过模拟训练,有效的提升了在未知环境中的避障效率。
Description
技术领域
本发明属于机器人路径规划技术领域,涉及一种采用激光传感器,并且不依赖地图的智能仓储移动机器人路径规划方法。
背景技术
路径规划是自主移动机器人的关键要素之一,希望移动机器人能够尽量快速准确地到达目的地,同时也需要移动机器人能够安全有效的躲避环境中的障碍物。目前在环境地图完全已知的情况下安全有效的躲避障碍物并准确地到达目的地已经有较多较好的解决方案。但是在环境地图未知,并且仅仅依靠较分散激光传感器的感知数据时,对移动机器人导航过程的避障算法实时性和准确性要求更高,如果继续使用环境已知的方法进行环境未知的导航与避障,那么极大可能会引起避障失败,导致最终导航失效。
移动机器人的动态避障的研究主要是对障碍物进行有效的探测和碰撞躲避控制算法设计优化,使移动机器人能够准确快速完成导航任务。对于障碍物的检测,需要利用移动机器人自身所带的测量传感器,通过传感器对障碍物进行距离与位置的测量以及运动状态的判断。目前对于这类传感器的使用一般有声纳传感器、红外传感器、激光传感器、视觉传感器等。但是传感器往往有它的缺陷,例如声纳传感器在遇到吸声材料时检测效果就会大受影响导致误差,视觉传感器在光线较差情况下,检测会有较大误差等。
在动态避障算法的研究上,比较常用的方法有人工势场法、VFH类算法、神经网络法、遗传算法、模糊逻辑法以及滚动窗口法等。各有各自的优缺点,例如人工势场法计算量小实时性好,但容易出现局部极小值点。
发明内容
本发明旨在解决以上现有技术的问题,提出了一种不依赖地图的智能仓储移动机器人路径规划方法,本方法相对于传统方法优点在于:1.使用的激光传感器激光束较少,但能实现可靠的实时路径规划,降低了移动机器人的传感器成本;2.无需建立实体环境地图,依然能进行路径规划。本发明的技术方案如下:
一种不依赖地图的智能仓储移动机器人路径规划方法,其包括以下步骤:S1:首先在模拟的环境中进行训练,a1:设置移动机器人运动时,随机初始目标点坐标位置信息(xt,yt)和目标半径范围Rm;xt、yt分别表示目标点的中心在静态地图中的X、Y坐标,Rm表示以(xt,yt)为中心的边长为dmin的正方形区域,在区域中都可算到达目的地,设定移动机器人当前的位姿(x,y,θr),x,y是移动机器人当前的位置坐标,θr是移动机器人实时的运动方向与X轴的夹角,并通过目标点在移动机器人极坐标下的位置信息(θ,d)进行导航路径规划,并以固定速度向前行驶,θ是目标点在移动机器人极坐标中的角度信息,d是目标点距移动机器人中心的距离信息;a2:导航过程中,将移动机器人上激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si;a3:利用深度确定梯度策略方法,得到下一步的动作状态a,并在动作a执行后通过奖励反馈,改变策略子网络中神经元的权重和偏置,a∈W代表执行动作时移动机器人所偏转的角度在W范围内;a4:判断移动机器人是否到达目标点(xt,yt),如果没有到达目标点则返回a2继续导航,如果已到达目标点则结束导航;a5:结束导航后,根据奖励值,更新深度确定梯度策略方法中的评价网络参数,在训练的成功率达到目标成功率后,保存深度确定梯度策略方法中的策略子网络,评价网络参数,在训练的成功率达到目标成功率后,保存在深度确定梯度策略方法中的网络参数。S2:实际的移动机器人导航(环境可以与模拟的环境不同),使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。
进一步的,所述步骤a2将激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si,具体包括:激光传感器数据Li(i=1,2,…,10)进行预处理,再转换为环境特征参数Lfi(i=1,2,…,10);目标位置数据需先进行分区域处理后得到区域距离数据Di(i=11,12,13),其中D11是当前移动机器人相对于X坐标的角度,D12是距离目标点的距离,D13是目标点相对于移动机器人自身前进方向的角度,再进行转换为距离特征参数Dfi(i=11,12,13);根据定义的最大距离dm,将激光传感器的距离数据转换为距离特征值数据:Lfi=Li÷dm(i=1,2,3,…,10)将激光传感器的距离数据转换为距离特征值数据:Dfi=D11÷π,D12÷dm,D13÷π,然后根据激光传感器的距离特征值数据和目标点位置的距离特征值数据进行融合,得出当前的环境特征数据Sf1~Sf13,融合方式为:
进一步的,所述目标位置的数据需先进行分区域,分区域目的是为了得到到达目标的最佳角度,处理后得到距离数据D13,D13是目标点相对于移动机器人自身前进方向的角度,具体包括:先将移动机器人正前方作为参考起点,顺时针角度为负,逆时针角度为正,得到相对于目标位置的最优角度,角度的绝对值小于等于180°。
进一步的,所述步骤a3中深度确定梯度策略方法具体包括:动作选择策略采用的是策略子网络输出动作,并附加Nt的扰动,表示为
a=A(s|μA)+Nt
其中,s表示状态,μA是策略子网络参数,Nt是扰动,A是深度确定梯度策略方法的动作策略。当移动机器人需要进行动态避障时,将该时刻的融合数据作为深度确定梯度策略输入数据,然后经过深度确定梯度策略决策以后输出下一刻动作a,将动作a在环境中执行后,根据奖励值的不同进行深度确定梯度策略方法网络参数的更新,在评价网络中:
Q(s,a)=Q(s,a)+α(r+(Q(s',a'))-Q(s,a))
其中Q是值函数,(s,a)是t时刻的状态,r是t时刻行为对应的奖励值,Q(s',a')是在t+1时刻采取的行为在新状态下计算的Q值,α是学习率,γ是折扣因子。
进一步的,所述动作a的设计具体为,在固定的连续区间内选择。
进一步的,其特征在于,R值的设计具体为:为了定义奖励函数,首先对移动机器人的状态S进行如下分类:
1)安全状态SS:移动机器人与环境中的任何障碍物未碰撞的一组状态;
2)非安全状态NS:移动机器人与环境中的任何障碍物碰撞的一组状态;
3)获胜状态WS:移动机器人到达目标时的状态;
根据移动机器人状态,定义奖励函数。
进一步的,所述步骤a4具体为:根据移动机器人当前的坐标信息(x,y)判断移动机器人是否到达目标点(xt,yt);如果表明移动机器人已经到达目标点范围内,如果min{L1,L2,...L10}>C,L1是激光传感器得到的距离障碍的距离,C是移动机器人的长度,表明移动机器人已经与障碍产生碰撞,已经是WS或者NS,结束此次导航;反之,表明移动机器人尚未达到目标点,仍需要继续导航,返回步骤a2继续执行,直到到达目标点。
本发明的优点及有益效果如下:
本发明提供了一种不依赖地图的智能仓储移动机器人路径规划方法,本发明方法通过深度学习的方法,有效的解决了在未知环境中的路径规划问题;通过模拟训练,有效的提升了在真实环境中的避障效率。
附图说明
图1是本发明提供优选实施例为移动机器人感知目标点模型;
图2为移动机器人激光传感器感知障碍模型;
图3为S1步骤整体流程图;
图4是S2步骤整体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图3,4所示,一种不依赖地图的智能仓储移动机器人路径规划方法,该方法包含如下步骤:
S1:首先在模拟的环境中进行训练;
a1:设置移动机器人运动的目标,随机初始目标点坐标位置信息(xt,yt)和目标半径范围Rm;xt、yt分别表示目标点的中心在静态地图中的X、Y轴坐标,Rm表示以(xt,yt)为中心的边长为dmin的正方形区域,在区域中都可算到达目的地,设定移动机器人当前的位姿(x,y,θr),x、y是移动机器人当前的位置坐标,θr是移动机器人实时的运动方向与X轴的夹角,并通过目标点在移动机器人极坐标下的位置信息(θ,d)进行路径规划,并以固定速度向前行驶,θ是目标点在移动机器人极坐标中的角度信息,d是目标点距移动机器人中心的距离信息;
a2:导航过程中,将移动机器人上激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si;
a3:利用深度确定梯度策略方法得到下一步的动作状态a;a∈W代表执行动作时移动机器人所偏转的角度在W范围内;
a4:判断移动机器人是否到达目标点(xt,yt)或者碰撞,如果没有则返回a2继续导航,如果已到达目标点则结束导航;
a5:结束导航后,根据奖励值,更新深度确定梯度策略方法中的策略子网络,评价网络参数,在训练的成功率达到目标成功率后,保存在深度确定梯度策略方法中的网络参数。
S2:实际环境中移动机器人导航(环境可以与模拟时的环境不同),使用在S1中保存了网络参数的深度确定梯度策略方法进行动作选择。
进一步的,所述步骤a3将激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si,具体包括:激光传感器数据Li(i=1,2,…,10)进行预处理,再转换为环境特征参数Lfi(i=1,2,…,10);目标位置的数据需先进行分区域处理后得到区域距离数据Di(i=11,12,13),其中D11是当前移动机器人相对于X坐标的角度,D12是距离目标点的距离即d,D13是目标点相对于移动机器人自身前进方向的角度即θ,再进行转换,得到距离特征参数Dfi(i=11,12,13);根据定义的最大距离dm,将激光传感器的距离数据值转换为距离特征值数据:Lfi=Li÷dm(i=1,2,3,…,10)将激光传感器的距离数据值转换为距离特征值数据:Dfi=D11÷π,D12÷dm,D13÷π,然后根据激光传感器的环境特征值数据和目标点位置的环境特征值数据进行融合,得出当前的环境特征数据Sf1~Sf13,融合方式为:
进一步的,所述目标位置的数据需先进行分区域,分区域的目的是为了得到到达目标的最佳角度,处理后得到距离数据D13,D13是目标点相对于移动机器人自身前进方向的角度,具体包括:先将移动机器人正前方作为参考起点,顺时针角度为负,逆时针角度为正,得到相对于目标位置的最优角度,角度的绝对值等于小于180°。
进一步的,所述步骤a3中深度确定梯度策略方法具体包括:选择的动作是策略子网络输出动作,即对应当前状态作为输入值经过策略子网络运算后得到的动作a,并附加Nt的扰动,表示为
a=A(s|μA)+Nt (2)
s表示状态,μA是策略子网络参数,A是深度确定梯度策略方法的动作策略,当移动机器人需要路径规划时,将该时刻的融合数据作为深度确定梯度策略输入,然后经过深度确定梯度策略方法决策以后,输出下一刻动作a,将动作a执行后,根据奖励值的不同进行深度确定梯度策略网络参数的更新,在评价网络中:
Q(s,a)=Q(s,a)+α(r+(Q(s',a'))-Q(s,a)) (3)
其中Q是值函数,(s,a)是t时刻的状态,r是t时刻行为对应的奖励值,Q(s',a')是在t+1时刻采取的行为在新状态下计算的Q值,α是学习率,γ是折扣因子。
进一步的,所述动作a的设计具体为,在固定的连续区间内选择。
进一步的,所述步骤a5,其特征在于,R值的设计具体为:为了定义奖励函数,首先对移动机器人的状态S进行如下分类:
1)安全状态SS:移动机器人与环境中的任何障碍物未碰撞的一组状态;
2)非安全状态NS:移动机器人与环境中的任何障碍物碰撞的一组状态;
3)获胜状态WS:移动机器人到达目标时的状态;
根据移动机器人状态,定义奖励函数如下:
当移动机器人到达目标,状态为获胜状态WS时,R=10;当移动机器人与障碍物产生碰撞时,状态为非安全状态NS时,R=-5;当移动机器人在环境中既没有碰撞也没有到达终点时,状态为安全状态SS,R=(di-di+1)/dm,di是当前时刻与目标点的距离,di+1是下一时刻与目标点的距离。
进一步的,所述步骤a4具体为:根据移动机器人当前的坐标信息(x,y)判断移动机器人是否到达目标点(xt,yt);如果表明移动机器人已经到达目标点范围内,如果min{L1,L2,...L10}>C,L1是激光传感器得到的距离障碍的距离,C是移动机器人的长度,表明移动机器人已经与障碍产生碰撞,已经是WS或者NS,结束此次导航;反之,表明移动机器人尚未达到目标点,仍需要继续导航,返回步骤a2继续执行,直到到达目标点。
进一步的,所述步骤S2具体为,在实体移动机器人的导航过程中,移动机器人继承在步骤S1中的网络参数,通过深度确定梯度策略方法选择当前时刻的动作,直到到达目标区域。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,包括以下步骤:
S1:首先移动机器人在模拟的环境中进行训练;
a1:设置移动机器人运动时的目标,随机初始目标点坐标位置信息(xt,yt)和目标半径范围Rm;xt、yt分别表示目标点的中心在静态地图中的X、Y轴坐标,Rm表示以(xt,yt)为中心的边长为dmin的正方形区域,在区域中都可算到达目的地,设定移动机器人当前的位姿(x,y,θr),x、y是移动机器人当前的位置坐标,θr是移动机器人实时的运动方向与X轴的夹角,并通过目标点在移动机器人极坐标下的位置信息(θ,d)进行路径规划,并以固定速度向前行驶,θ是目标点在移动机器人极坐标下的角度信息,d是目标点距移动机器人中心的距离信息;
a2:导航过程中,将移动机器人上激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si;
a3:利用深度确定梯度策略方法,得到下一步的动作状态a,a∈W代表执行动作时移动机器人所偏转的角度在W范围内;
a4:判断移动机器人是否到达目标点(xt,yt),如果没有则返回a2继续导航,如果已到达则结束导航;
a5:结束导航后,根据奖励值,更新深度确定梯度策略方法中的策略子网络,评价网络参数,在训练的成功率达到目标成功率后,保存在深度确定梯度策略方法中的网络参数;
S2:实际环境移动机器人导航使用在S1中保存了网络参数的深度确定梯度策略方法进行移动机器人动作选择。
2.根据权利要求1所述的一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,所述步骤a2将激光传感器检测到的环境数据Li和目标位置数据Di进行预处理与特征化,然后相融合得到环境数据Si,具体包括:
激光传感器数据Li(i=1,2,…,10)进行预处理,再转换为环境特征参数Lfi(i=1,2,…,10);目标位置的数据需先进行分区域处理,然后得到区域距离数据Di(i=1,2,3),其中D1是当前移动机器人相对X坐标的角度,D2是距离目标点的距离即d,D3是目标点相对于移动机器人自身前进方向的角度即θ,然后Di再进行转换得到距离特征参数Dfi(i=11,12,13);根据定义的最大距离dm,将激光传感器的距离数据转换为距离特征值数据:Lfi=Li÷dm(i=1,2,3,…,10)将激光传感器的距离数据转换为距离特征值数据:Dfi=D11÷π,D12÷dm,D13÷π,然后根据激光传感器的距离特征值数据和目标点位置的距离特征值数据进行融合,得出当前的环境特征数据Sf1~Sf13,融合方式为:
3.根据权利要求2所述的一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,所述目标位置的数据需先进行分区域处理后得到数据D13,D13是目标点相对于移动机器人自身前进方向的角度,具体包括:先将移动机器人正前方作为参考起点,顺时针角度为负,逆时针角度为正,得到相对于目标位置的最优角度,角度的绝对值小于等于180°。
4.根据权利要求1所述的一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,所述步骤a3中深度确定梯度策略方法具体包括:动作选择策略采用的是策略子网络输出动作,并附加扰动:
a=A(s|μA)+Nt
其中,s表示状态,μA是策略子网络参数,Nt是扰动,A是深度确定梯度策略方法的动作策略。当移动机器人需要进行动态避障时,将该时刻的融合数据作为深度确定梯度策略输入数据,然后经过深度确定梯度策略决策以后输出下一刻动作a,将动作a在环境中执行后,根据奖励值的不同进行深度确定梯度策略方法网络参数的更新,在评价网络中:
Q(s,a)=Q(s,a)+α(r+(Q(s',a'))-Q(s,a))
其中Q是值函数,(s,a)是t时刻的状态,R是t时刻行为对应的奖励值,Q(s',a')是在t+1时刻采取的行为在新状态下计算的Q值,α是学习率,γ是折扣因子。
5.根据权利要求4所述的一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,所述动作a的设计具体为,在固定的连续区间内选择。
6.根据权利要求4所述的一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,R值的设计具体为:为了定义奖励函数,首先对移动机器人的状态S进行如下分类:
1)安全状态SS:移动机器人与环境中的任何障碍物未碰撞的一组状态;
2)非安全状态NS:移动机器人与环境中的任何障碍物碰撞的一组状态;
3)获胜状态WS:移动机器人到达目标时的状态;
根据移动机器人状态,定义奖励函数。
7.根据权利要求1所述的一种不依赖地图的智能仓储移动机器人路径规划方法,其特征在于,所述步骤a4具体为:
根据移动机器人当前的坐标信息(x,y)判断移动机器人是否到达目标点(xt,yt);如果表明移动机器人已经到达目标点范围内,如果min{L1,L2,...L10}>C,L1是激光传感器得到的距离障碍的距离,C是移动机器人的长度,表明移动机器人已经与障碍产生碰撞,已经是WS或者NS,结束此次导航;反之,表明移动机器人尚未达到目标点,仍需要继续导航,返回步骤a2继续执行,直到到达目标点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910323366.5A CN110032189A (zh) | 2019-04-22 | 2019-04-22 | 一种不依赖地图的智能仓储移动机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910323366.5A CN110032189A (zh) | 2019-04-22 | 2019-04-22 | 一种不依赖地图的智能仓储移动机器人路径规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110032189A true CN110032189A (zh) | 2019-07-19 |
Family
ID=67239486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910323366.5A Pending CN110032189A (zh) | 2019-04-22 | 2019-04-22 | 一种不依赖地图的智能仓储移动机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110032189A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113062601A (zh) * | 2021-03-17 | 2021-07-02 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113140104A (zh) * | 2021-04-14 | 2021-07-20 | 武汉理工大学 | 一种车辆列队跟踪控制方法、装置及计算机可读存储介质 |
CN113848974A (zh) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN117933666A (zh) * | 2024-03-21 | 2024-04-26 | 壹号智能科技(南京)有限公司 | 一种密集仓储机器人调度方法、装置、介质、设备及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548486A (zh) * | 2016-11-01 | 2017-03-29 | 浙江大学 | 一种基于稀疏视觉特征地图的无人车位置跟踪方法 |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN109445440A (zh) * | 2018-12-13 | 2019-03-08 | 重庆邮电大学 | 基于传感器融合与改进q学习算法的动态避障方法 |
-
2019
- 2019-04-22 CN CN201910323366.5A patent/CN110032189A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548486A (zh) * | 2016-11-01 | 2017-03-29 | 浙江大学 | 一种基于稀疏视觉特征地图的无人车位置跟踪方法 |
CN108255182A (zh) * | 2018-01-30 | 2018-07-06 | 上海交通大学 | 一种基于深度强化学习的服务机器人行人感知避障方法 |
CN109445440A (zh) * | 2018-12-13 | 2019-03-08 | 重庆邮电大学 | 基于传感器融合与改进q学习算法的动态避障方法 |
Non-Patent Citations (1)
Title |
---|
宋宇 等: "基于改进SARSA(λ)移动机器人路径规划", 《长春工业大学学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113062601A (zh) * | 2021-03-17 | 2021-07-02 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113062601B (zh) * | 2021-03-17 | 2022-05-13 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113140104A (zh) * | 2021-04-14 | 2021-07-20 | 武汉理工大学 | 一种车辆列队跟踪控制方法、装置及计算机可读存储介质 |
CN113848974A (zh) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN113848974B (zh) * | 2021-09-28 | 2023-08-15 | 西安因诺航空科技有限公司 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
CN117933666A (zh) * | 2024-03-21 | 2024-04-26 | 壹号智能科技(南京)有限公司 | 一种密集仓储机器人调度方法、装置、介质、设备及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108762264B (zh) | 基于人工势场与滚动窗口的机器人的动态避障方法 | |
CN110032189A (zh) | 一种不依赖地图的智能仓储移动机器人路径规划方法 | |
CN109445440B (zh) | 基于传感器融合与改进q学习算法的动态避障方法 | |
CN107063280A (zh) | 一种基于控制采样的智能车辆路径规划系统及方法 | |
WO2020056875A1 (zh) | 一种基于深度强化学习的停车策略 | |
Kim et al. | End-to-end deep learning for autonomous navigation of mobile robot | |
CN111780777A (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
CN108762281A (zh) | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 | |
CN109784201B (zh) | 基于四维风险评估的auv动态避障方法 | |
CN107894773A (zh) | 一种移动机器人的导航方法、系统及相关装置 | |
JP7469850B2 (ja) | 経路決定装置、ロボット及び経路決定方法 | |
Sales et al. | Adaptive finite state machine based visual autonomous navigation system | |
WO2020136978A1 (ja) | 経路決定方法 | |
CN109871031A (zh) | 一种固定翼无人机的轨迹规划方法 | |
Al Dabooni et al. | Heuristic dynamic programming for mobile robot path planning based on Dyna approach | |
CN110850880A (zh) | 一种基于视觉传感的自动驾驶系统及方法 | |
CN113291318A (zh) | 基于部分可观测马尔科夫模型的无人车盲区转弯规划方法 | |
Lin et al. | Robust unmanned surface vehicle navigation with distributional reinforcement learning | |
Kazem et al. | Modified vector field histogram with a neural network learning model for mobile robot path planning and obstacle avoidance. | |
Li et al. | An efficient deep reinforcement learning algorithm for Mapless navigation with gap-guided switching strategy | |
Yu et al. | Road-following with continuous learning | |
CN113341999A (zh) | 一种基于优化d*算法的叉车路径规划方法及装置 | |
Xiao et al. | Reinforcement learning-driven dynamic obstacle avoidance for mobile robot trajectory tracking | |
CN111413974A (zh) | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 | |
JP2020149095A (ja) | 倒立振子型ロボット |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |