CN114740846A

CN114740846A - 面向拓扑-栅格-度量混合地图的分层路径规划方法

Info

Publication number: CN114740846A
Application number: CN202210340211.4A
Authority: CN
Inventors: 武星; 杨俊杰; 王超超; 楼佩煌; 余文康; 翟晶晶; 胡子寒; 汤凯
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-12

Abstract

本发明涉及一种面向拓扑‑栅格‑度量混合地图的分层路径规划方法，属于路径规划领域。首先，根据拓扑‑栅格‑度量混合地图构造方法，创建移动机器人作业环境的混合地图；其次，根据拓扑‑栅格分层规划方法生成一条整体优化的全局预设路径；最后，当移动机器人沿全局预设路径运行时，实时探测周围障碍物，若障碍物可能阻碍移动机器人的运行路径，则在度量地图上利用深度强化学习的改进深度确定性策略梯度算法进行局部路径规划，完成避障后重新回到全局预设路径，重复该过程直至移动机器人到达目标位置。本方法采用分层思想，将路径规划分为若干个子过程，在各层地图上应用不同的路径规划方法，降低规划问题的复杂度，面对部分未知的复杂大场景环境具有更高的搜索效率和适应性。

Description

面向拓扑-栅格-度量混合地图的分层路径规划方法

技术领域

本发明涉及路径规划领域，具体涉及一种面向拓扑-栅格-度量混合地图的分层路径规划方法。

背景技术

路径规划是导航的基础，其目的是依据一个或多个性能指标如安全性、距离最短、时间最优等，搜索一条从起点到终点的无碰撞最优或次优路径。对于已知环境地图的路径规划至今已有大量较为成熟的研究成果，但实际应用中大多数场景较为复杂，随机性比较强，属于部分未知环境。现有大部分路径规划方法较为依赖确切环境，对于部分未知环境下的路径规划，避障安全性和实时性难以得到保证。此外，移动机器人的任务越来越复杂，要求其工作范围也不断扩大，例如扫地机器人需具备清扫整屋的每个角落的能力，工厂中AGV涉及到跨车间配送等。工作范围的扩大不仅对室内定位技术带来了挑战，广泛应用的智能搜索方法也因为搜索空间增大花费较长时间才能求得解，甚至无法搜索到最优解。

现有技术公开了一种基于改进的A*算法的路径规划方法(公开号：CN113359768A)，将改进A*算法与人工势场法相结合设计出混合路径规划算法，优化了全局初始路径且考虑了环境未知情况，但全局路径规划时，直接在栅格地图上应用A*和蚁群算法，若面对大场景环境，算法搜索空间急剧膨胀，路径搜索效率降低，同时人工势场法应对突然出现的障碍物可能会出现频繁摆动问题，不利于机器人运动控制。

面对部分未知的复杂大场景环境，采用单一地图的路径规划算法效果尚不理想，主要体现在对环境信息完整度要求较高、搜索空间较大、规划耗时、避障实时性不高等方面。

发明内容

为解决现有技术中存在的技术缺陷，本发明提出了一种面向拓扑-栅格-度量混合地图的分层路径规划方法，将路径规划拆分为若干个子过程，通过在拓扑、栅格、度量地图上应用不同路径规划方法，解决了现有技术在面对部分未知的复杂大场景环境时搜索空间较大、规划耗时、避障实时性不高等问题。

本发明通过以下技术方案实现：

面向拓扑-栅格-度量混合地图的分层路径规划方法，包括步骤：

步骤1：根据拓扑-栅格-度量混合地图构造方法，创建移动机器人作业环境的混合地图，包括抽象化表示的拓扑地图、具体化表示的栅格地图、精细化表示的度量地图；

步骤2：在移动机器人运行前，根据拓扑-栅格分层规划方法生成一条整体优化的全局预设路径；

步骤3：当移动机器人沿全局预设路径运行时，实时探测周围环境，判断离机器人最近障碍物的距离是否小于避障阈值，若是，进入步骤4，若否，则进入步骤5；

步骤4：在度量地图上利用改进深度确定性策略梯度(Deep DeterministicPolicy Gradient，DDPG)算法进行局部路径规划，完成避障后重新回到全局预设路径；

步骤5：判断移动机器人是否到达目标位置，若是，算法结束，若否，则进入步骤3。

进一步地，所述拓扑-栅格-度量混合地图构造方法包括以下步骤：

步骤1.1：对整体作业环境进行栅格化表示，构造全局栅格地图；

步骤1.2：将全局栅格地图划分为若干个子栅格地图，每个子栅格地图均设置关键节点，利用层次图将工作环境描述为以子地图为树形节点的分层地图表示，在第k层地图中，第k+1层子地图以关键节点表示，同一层次的关键节点间通过离线先验路径连接；

步骤1.3：在栅格地图上采用细化算法生成安全度较高的离线先验路径，通过拓扑特征提取方法，构建各层次子栅格地图对应的拓扑地图；

步骤1.4：移动机器人在运行过程中利用其所携带的机载传感器信息维护更新局部度量地图。

进一步地，子地图粒度不宜过细，一般划分到单个房间维度即可。

进一步地，所述细化算法处理二维栅格地图时，将值为“0”自由栅格视为图像中的“1”，值为“1”的障碍栅格视为图像中的“0”，最终生成空闲区域的离线路径。

进一步地，所述拓扑特征提取方法将离线先验路径的分岔点作为拓扑图中的普通节点，人工选取区域入口栅格或其他具有代表性的栅格代表子地图的关键节点，统计关键节点之间的离线先验路径长度作为边的权重，所述路径长度为路径包含的栅格数目。

进一步地，所述拓扑-栅格分层规划方法，包含以下步骤：

步骤2.1：判断起始栅格S和目标栅格D是否在同一子地图中，若是，进入步骤2.2，若否，则进入步骤2.3；

步骤2.2：针对起点S到终点D，采用改进A*算法规划一条整体优化的全局预设路径，算法结束；

步骤2.3：分别获取起点S和终点D在层次图架构中的深度L_s、L_D及其所在子栅格地图的关键节点C_S、C_D，若L_s＜L_D，则从C_D开始，在层次图架构中自下而上逐层搜索直至在L_s-1层对应的拓扑图中找到C_S。；否则，从C_S开始向上搜索，直至L_D-1层对应的拓扑图中找到C_D停止；搜索过程中，在各层次拓扑地图上，利用Floyd算法规划出最优节点序列，并保存节点之间的离线先验路径作为中段预设路径；

步骤2.4：以起点S为起点，关键节点C_S为终点，利用改进A*算法在起点S 所在子栅格地图上搜索一条局部路径并保存为前段预设路径。同理，将关键节点 C_D设为起点，终点D设为终点，利用改进A*算法在起点S所在子栅格地图上搜索另一条局部路径并保存后段预设路径。若无法搜索出可行解，则路径规划失败，算法结束；

步骤2.5：将步骤2.3生成的中段预设路径与步骤2.4搜索的前段预设路径、后段预设路径合并，得到整体优化的全局预设路径，算法结束。

进一步地，所述改进A*算法在标准A*算法中引入扩展点筛选策略、双向搜索机制、路径冗余点剔除技术。

所述扩展点筛选策略在扩展时有一定概率忽略方向性不强的节点，步骤为：

利用当前扩展点m与起点S和终点D围成的矩形面积

来反映m与预期路径的符合程度，

越小，节点m和预期路径符合程度越高，越有机会加入Open表中继续扩展。

式(1)中，(x_s，y_S)、(x_S，y_D)、(x_m，y_m)分别为起点S、终点D和当前扩展点m的栅格坐标；

设置面积阈值

当

时，m直接加入专门存放已经探测到但还未访问节点的Open表；当

时，生成一个[0，1]之间随机数p(m)，并判断是否大于信任阈值概率p0，若大于，则忽略节点m，若否则加入Open表。

所述双向搜索机制同时从起点和终点开始进行正向和反向搜索，正向搜索和反向搜索分别以对方获得的最新节点作为目标节点进行交替式扩展搜索，不断向对方靠拢，直至正向搜索和反向搜索的目标节点相遇，最后拼合正向搜索和反向搜索生成的路径，包括以下步骤：

步骤3.1：初始化Open1、Open2、Close1、Close2列表，并在Open1中加入起点S，Open2加入终点D；

步骤3.2：从Open1和Open2列表中分别取出代价值最小的节点n1、n2，并分别移入Close1和Close2；

步骤3.3：判断n1、n2是否是相对搜索方向上的当前搜索节点，若是，则算法结束，将正向和反向生成的路径拼合即为最终优化路径，若否，则进入步骤 3.4；

步骤3.4：正向搜索以S为起点，n2为终点，n1为中心向周围8邻域扩展，并根据筛选扩展点的规则更新Open1；

步骤3.5：反向搜索以D为起点，n1为终点，n2为中心向周围8邻域扩展，并根据筛选扩展点的规则更新Open2；

步骤3.6：判断Open1和Open2是否为空，若是则算法结束，无法找到有效路径，若否则进入步骤3.2。

所述路径冗余点剔除技术，具体包括以下步骤：

步骤4.1：在原始路径的每对相邻节点距离二等分处插入新节点；

步骤4.2：记起始节点为P₁，下一个节点为P₂，依次编号直到终点P_k，同时每个节点将它编号的前一个节点设置为父节点；；

步骤4.3：P_n为当前优化的节点，P_c为正在探索的节点，n初始化为k，c初始化为k-2；

步骤4.4：判断P_n与P_c的连线L_nc是否经过障碍物，若经过则说明P_c+1无法被删除，P_n跳转至P_c+1；否则删除P_c+1，并将P_c设为P_n的父节点，同时P_c跳转至其父节点P_c-1；

步骤4.5：重复步骤3.4，直到P_n＝P₁或P_c＝P₁；

步骤4.6：按父节点指针连接剩余的节点。

进一步地，所述基于改进DDPG算法引入了价值分类经验回放池和分层采样策略，并设计了融合目标距离、安全性、运动和步数的连续奖励函数。

所述价值分类经验回放池由三个队列组成，包括：存放高价值样本的子回放池B1，存放近期样本的子回放池B2、存放普通样本的子回放池B3，每个子回放池按如下五元组形式存储经验样本：

(S_t，a_t，r_t，S_t+1，done) (2)

式(2)表示智能体在状态S_t时执行动作a_t后到达新的状态S_t+1，同时获得环境给予的奖励r_t，其中done表示S_t+1是否为终止状态。

价值分类经验回放池具体构建步骤为：

初始化时设置B1、B3两个子回放池中所有样本价值的平均值V_m为0，同时奖励值的权重系数α设为1。训练过程中每个时间步产生一条经验样本，产生的样本先加入B2队列尾部，若B2达容量上限后从队列首部弹出一个样本，并根据样本价值衡量标准计算样本的价值，若高于V_m为则将该样本添加至B1，反之存入B3中。存储完毕后，更新V_m和α，重复以上过程直至训练结束。

以时间步t产生的样本为例，所述样本价值衡量标准计算方式为：

V_t＝α*|r_t|+(1-α)*|δ_t| (3)

δ_t＝r_t+γQ′(S_t+1，a_t+1；θ^Q′)-Q(S_t，a_t；θ^Q) (4)

式(3)中，V_t为样本的价值，|r_t|为样本奖励值的绝对值，α是|r_t|的权重系数， |δ_t|为样本时间差分误差的绝对值，(1-α)是|δ_t|的权重；

式(4)中，γ为奖励值衰减系数，Q′为目标价值网络状态动作值，θ^Q′为目标价值网络参数，Q为在线价值网络状态动作值，θ^Q为在线价值网络参数，S_t为时间步t时的状态空间，a_t为该状态空间下决策出的动作值，S_t+1为智能体在S_t执行a_t后到达的新的状态，a_t+1为新状态下的动作值；

所述分层采样策略分别从B1、B2、B3子回放池中随机抽取适量样本用于训练网络。

所述连续奖励函数包括到达奖励r_a、碰撞惩罚r_c、过程奖励r_n三部分，奖励函数r_t定义为：

r＝r_d+r_s+r_m+r_p (6)

导航过程中，机器人执行动作获得的过程奖励r_n分为4部分：距离奖励r_d、安全性惩罚r_s、运动惩罚r_m和步数惩罚r_p，如公式(6)所示。

r_d是导航过程奖励中最主要的部分，引导机器人靠近目标点，定义为：

r_d＝k₁*(D_g(S_t-1)-D_g(S_t)) (7)

式(7)中，k₁是距离奖励系数，D_g(S_t-1)表示机器人在上一状态离目标点的距离，D_g(S_t)表示机器人在当前状态离目标点的距离。

r_s用于警示机器人尽量远离障碍物，选择安全度较高的路径，定义为：

式(8)中，k₂为安全性惩罚系数，D_o表示机器人离周围最近障碍物的距离，d_s是安全距离阈值；s_r表现路径的安全程度，定义为：

r_m对机器人频繁的摆动进行惩罚，简化机器人运动控制，定义为：

式(10)中，k₃为运动惩罚系数；w_t表示当前状态输出的角速度，w_t-1表示上一状态输出的角速度。

为避免机器人盲目追求奖励奖励最大化而刻意不径直趋向目标，引入r_p防止机器人盲目探索，间接刺激机器人寻找更优路径，定义为：

r_p＝k₄ (11)

式(11)中，k₄为步数惩罚系数。

与现有技术相比，本发明至少具有下述的有益效果或优点：

本发明所述的面向拓扑-栅格-度量混合地图的分层路径规划方法将整体运行环境划分为不同层次的子地图，在各子地图上分别应用不同路径规划方法生成路径，最后拼接路径。这种分层的思想避免了对整体环境的详细描述，仅在需要时展开关键点信息，将路径规划算法的搜索空间限制在子地图内，降低了大规模场景下路径规划问题的规模，提升了搜索效率。

同时，全局路径规划方面，基于拓扑地图和栅格地图生成的全局优化初始路径兼具安全性和平滑度，提高了路径规划的质量。局部路径规划方面，针对DDPG 算法训练耗时长、经验样本利用率低等问题，设计了价值分类经验回放池、分层采样策略和连续奖励函数，加速训练过程并引导网络收敛至更合理的避障策略，帮助机器人更好应对突发情况，更适应动态未知环境。

附图说明

图1为本发明的面向拓扑-栅格-度量混合地图的分层路径规划方法流程图；

图2为扩展点筛选策略示意图

图3拓扑-栅格-度量混合地图示意图

图4层次图示意图

具体实施方式

以下结合附图和发明人依据本发明提供的技术方案所完成的具体实施例，对本发明做进一步的详细描述，但本实施例并不用于限制本发明，凡是采用本发明的相似方法及其相似变化，均应列入本发明的保护范围。

本发明所述的面向拓扑-栅格-度量地图的混合地图分层路径规划方法，如图 1所示，具体包括如下步骤：

步骤1：根据拓扑-栅格-度量混合地图构造方法，创建移动机器人作业环境的混合地图。

拓扑-栅格-度量混合地图通过拓扑地图、栅格地图、度量地图分别从多个维度对作业环境完成抽象化表示、具体化表示、精细化表示，如图3所示。所述拓扑-栅格-度量混合地图构造方法包括以下步骤：

步骤1.1：对整体作业环境进行栅格化表示，构造全局栅格地图。

栅格地图不难获得，利用声纳传感器或者机器人操作系统(Robot OperatingSystem，ROS)中gmapping功能包等工具完整描扫周围环境即可获得全局环境的栅格化表示。

步骤1.2：将全局栅格地图划分为若干个子栅格地图，每个子栅格地图均设置关键节点，利用层次图将工作环境描述为以子地图为树形节点的分层地图表示，在第k层地图中，第k+1层子地图以关键节点表示，同一层次的关键节点之间通过离线路径连接。

层次图采用多叉树来表达，树中包含多个抽象层次，抽象程度自上而下逐层降低，如图4所示。子地图粒度不宜过细，一般划分到10-30m²的房间维度即可。

步骤1.3：在栅格地图上采用细化算法生成安全度较高的离线先验路径，通过拓扑特征提取方法，构建各层次对应的拓扑地图。

细化算法仅处理象素值为1的区域，故处理二维栅格地图时，将值为“0”自由栅格视为图像中的“1”，值为“1”障碍栅格视为图像中的“0”，最终生成空闲区域的离线路径。在此基础上，提取拓扑特征，将离线先验路径的分岔点作为拓扑图中的普通节点，人工选取区域入口栅格或其他具有代表性的栅格代表子地图的关键节点，统计关键节点之间的离线先验路径长度作为边的权重，所述路径长度为路径包含的栅格数，最终构建各层次对应的拓扑地图。

通过移动机器人装备的惯性导航系统和用于探测周围环境的传感器，如激光雷达等，实现精细化地位置表示，维护局部度量地图。

步骤2：在移动机器人运行前，根据拓扑-栅格分层规划方法生成一条整体优化的全局预设路径。

所述拓扑-栅格分层规划方法，包含以下步骤：

步骤2.3：分别获取起点S和终点D在层次图架构中的深度L_s、L_D及其所在子栅格地图的关键节点C_S、C_D，；若L_s＜L_D，则从C_D开始，在层次图架构中自下而上逐层搜索直至在L_s-1层中找到C_S。；否则，从C_S开始向上搜索，直至L_D-1层中找到C_D停止；搜索过程中，在各层次拓扑地图上，利用Floyd算法规划出最优节点序列，并保存节点之间的离线先验路径作为中段预设路径；

步骤3：当移动机器人沿全局预设路径运行时，实时探测周围环境，判断离机器人最近障碍物的距离是否小于避障阈值，若是，进入步骤4，若否，则进入步骤5。

机器人装备的激光雷达扫描一周可以获得多个点云数据，这些点云数据反映了周围障碍物离机器人的距离，当其中的点云数据的最小值小于避障阈值时，说明机器人离障碍物较近，需要进行避障。

步骤4：在度量地图上利用改进深度确定性策略梯度算法进行局部路径规划，完成避障后重新回到全局预设路径。

度量地图容易获得两点的相对位姿，有利于状态空间表示。通过将激光雷达的距离点云数据、机器人当前位姿、目标位姿拼接成状态空间输入至训练好的避障策略网络，端到端地输出线速度和角速度控制机器人运动。当机器人探测到障碍物时，根据障碍物方位，在初始路径上选择障碍物后面的一个子目标点，自行规划避障路线。

所述改进A*算法在标准A*算法中引入扩展点筛选策略、双向搜索机制、路径冗余点剔除技术。

(1)扩展点筛选策略

扩展点筛选策略在扩展时有一定概率忽略方向性不强的节点，方法如下：

路径规划期望路径长度尽可能短，即路径方向尽可能贴合起点指向终点的方向。利用当前扩展点m与起点S和终点D围成的矩形面积

来反映m与预期路径的符合程度，如图2中绿色矩形所示。

式(1)中，(x_s，y_S)、(x_D，y_D)、(x_m，y_m)分别为起点S、终点D和当前扩展点m的栅格坐标；

设置面积阈值

当

时，m直接加入Open表；当

时，生成一个随机数p(m)，并判断是否大于信任阈值概率p₀，若大于，则忽略节点 m，若否则加入Open表。

(2)双向搜索机制

双向搜索机制同时从起点和终点开始进行正向搜索和反向搜索，正向搜索和反向搜索分别以对方获得的最新节点作为目标节点进行交替式扩展搜索，不断向对方靠拢，直至正向搜索和反向搜索的目标节点相遇，最后拼合正向搜索和反向搜索生成的路径，包括以下步骤：

步骤3.2：从Open1和Open2列表中分别取出代价值F最小的节点n1、n2，并分别移入Close1和Close2；

进一步地，代价值F的计算方式如下：

F(n)＝g(n)+h(n) (2)

式(2)中，F(n)为起点s经由节点n到达目标点的预估代价；g(n)为起点s到达节点n的实际代价；h(n)为节点n到达目标d的实际代价。

式(3)中，(x_n，y_n)、(x_s，y_S)分别是节点n和起点s的坐标；

式(4)中，(x_d，y_d)为终点d的坐标；

步骤3.3：判断n1、n2是否是相对搜索方向上的当前搜索节点，若是，则算法结束，将正向和反向生成的路径拼合即为最终优化路径，若否，则进入步骤 3.4：

需要说明的是双向搜索机制向中间扩展时，遵循扩展点筛选策略。

(3)路径冗余点剔除技术

在双向搜索生成原始路径的基础上进一步应用路径冗余点剔除技术，具体包括以下步骤：

步骤4.2：记起始节点为P₁，下一个节点为P₂，依次编号直到终点P_k，同时每个节点将它编号的前一个节点设置为父节点；

步骤4.4：判断P_n与P_c的连线L_nc是否经过障碍物，若经过则说明P_c+1无法被删除，P_n跳转至P_c+1；否则删除P_c+1，并将P_c设为P_n的父节点，同时P_c跳转至其父节点Pc-1；

步骤4.5：重复步骤3.4，直到P_n＝P₁或P_c＝P₁；

步骤4.6：按父节点指针连接剩余的节点。

所述改进DDPG算法引入了价值分类经验回放池和分层采样策略，并设计了融合目标距离、安全性、运动和步数的连续奖励函数。

(1)价值分类经验回放池

价值分类经验回放池由存放高价值样本的子回放池B1，存放近期样本的子回放池B2、存放普通样本的子回放池B3组成，每个子回放池按如下五元组形式存储经验样本：

(S_t，a_t，r_t，S_t+1，done) (5)

式(5)表示智能体在状态S_t时执行动作a_t后到达新的状态S_t+1，同时获得环境给予的奖励r_t，其中done表示S_t+1是否为终止状态。

价值分类经验回放池具体构建步骤为：

V_t＝α*|r_t|+(1-α)*|δ_t| (6)

δ_t＝r_t+γQ′(S_t+1，a_t+1；θ^Q′)-Q(S_t，a_t；θ^Q) (7)

式(6)中，V_t为样本的价值，|r_t|为样本奖励值的绝对值，α是|r_t|的权重系数， |δ_t|为样本时间差分误差的绝对值，(1-α)是|δ_t|的权重；

式(7)中，γ为奖励值衰减系数，Q′为目标价值网络状态动作值，θ^Q′为目标价值网络参数，Q为在线价值网络状态动作值，θ^Q为在线价值网络参数，S_t为时间步t时的状态空间，a_t为该状态空间下决策出的动作值，S_t+1为智能体在S_t执行a_t后到达的新的状态，a_t+1为新状态下的动作值；

(2)分层采样策略

所述分层采样策略分别从B1、B2、B3子回放池中随机抽取适量样本用于训练网络。记小批量采样总数为N，从子回放池B1采样数为N1，从子回放池B2 采样数为N2，从子回放池B3采样数为N3。

N＝N1+N2+N3 (8)

其中N2为固定值，确保每次小批量采样均有近期样本，该类样本具有时效性，有助于及时调整网络收敛方向。训练初期，N1取较大值，通过选取大量高质量样本促进网络朝正确方向收敛。随着训练推进，策略网络的成熟，机器人表现越发优异，高价值样本出现频率越来越高，为避免过拟合，适当降低N1，提升N3。

(3)连续奖励函数

连续奖励函数包括到达奖励、碰撞惩罚、过程奖励三个部分，如公式(9)所示，当机器人中心与目标位置的距离小于到达阈值，即判定为到达目标点，获得 300奖励值；当机器人装备的激光雷达点云数据最小值小于碰撞阈值，判定为碰撞，获得-500奖励值；融合目标距离、安全性、运动和步数的过程奖励r_n定义为公式(10)：

r_n＝r_d+r_s+r_m+r_p (10)

导航过程中，机器人执行动作获得的过程奖励r_n分为4部分：距离奖励r_d、安全性惩罚r_s、运动惩罚r_m和步数惩罚r_p。

r_d＝k₁*(D_g(S_t-1)-D_g(S_t)) (11)

式(11)中，k₁是距离奖励系数，本例取k₁＝20，D_g(S_t-1)表示机器人在上一状态离目标点的距离，D_g(S_t)表示机器人在当前状态离目标点的距离。

式(12)中，k₂为安全性惩罚系数，本例取k₂＝-1，D_o为机器人离最近障碍物的距离，d_s是安全距离阈值；s_r表现路径的安全程度，定义为：

式(14)中，k₃为运动惩罚系数，本例取k₃＝-0.2；w_t表示当前状态输出的角速度，w_t-1表示上一状态输出的角速度。

为避免机器人盲目追求奖励奖励最大化而刻意不径直趋向目标，引入r₄防止机器人盲目探索，间接刺激机器人寻找更优路径，定义为：

r_p＝k₄ (15)

式(15)中，k₄为步数惩罚系数，本例取k₄＝-0.05。

需要说明的是，DDPG是一种深度强化学习算法，因此设计价值分类经验回放池和连续奖励函数是为了加速训练过程和保证最终习得优质的避障策略。训练的过程可以在仿真环境中进行，训练完成后通过加载网络参数即可迁移至真实环境。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种面向拓扑-栅格-度量混合地图的分层路径规划方法，其特征在于，包括步骤：

步骤4：在度量地图上利用改进深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)算法进行局部路径规划，完成避障后重新回到全局预设路径；

2.根据权利要求1所述的面向拓扑-栅格-度量混合地图的分层路径规划方法，其特征在于，所述拓扑-栅格-度量混合地图构造方法包括以下步骤：

步骤1.4：移动机器人在运行过程中利用其所携带的机载传感器信息来维护和更新局部度量地图。

3.根据权利要求2所述的面向拓扑-栅格-度量混合地图的分层路径规划方法，其特征在于，所述拓扑特征提取方法将栅格地图上离线先验路径的分岔点作为拓扑地图中的普通节点，人工选取区域入口栅格或其他具有代表性的栅格作为子栅格地图的关键节点，统计关键节点之间的离线先验路径长度作为边的权重，所述路径长度为路径包含的栅格数。

4.根据权利要求1所述的面向拓扑-栅格-度量混合地图的分层路径规划方法，其特征在于，所述拓扑-栅格分层规划方法，包含以下步骤：