CN114564016A

CN114564016A - 一种结合路径规划和强化学习的导航避障控制方法、系统及模型

Info

Publication number: CN114564016A
Application number: CN202210176732.0A
Authority: CN
Inventors: 蔡英凤; 周熔; 刘擎超; 孙晓强; 李祎承; 王海
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-31

Abstract

本发明公开了一种结合路径规划和强化学习的导航避障控制方法、系统及模型，将驾驶任务分为静态的路径规划和动态的最优轨迹跟踪，实现基于规则的路径规划算法与深度强化学习的结合，可以有效地解决复杂道路场景(如无信号灯路口左转)下的车辆控制难的问题。本发明与现有的PID+LQR控制策略相比，不需要人为地对参数进行不断调整。与模型预测控制(MPC)控制方法相比，不过分依赖被控对象的模型精度，同时求解过程的复杂性大大降低，提高了车载的实时计算效率。本发明与端到端的强化学习相比，结合了车辆的运动学模型，具有可解释性，同时也大大提高了车辆导航过程中的安全性。

Description

一种结合路径规划和强化学习的导航避障控制方法、系统及模型

技术领域

本发明属于人工智能中的自动驾驶领域，涉及一种结合路径规划和强化学习的导航避障控制方法、系统及模型。

背景技术

作为目前人工智能领域的一个前沿热点技术，自动驾驶是一个集环境感知、决策规划和动力学控制三部分为一体的复杂系统。但是目前自动驾驶技术的发展面临着多维度的瓶颈和挑战，在决策和控制方面主要表现为自动驾驶车辆难以应对复杂多变的交通场景。

目前，智能车辆的决策和控制算法多基于规则设计，人为规定车辆在各场景下的行为模式，然而车辆的驾驶场景具有很强的不确定性以及车辆自身非线性的问题，导致在复杂场景应用中规则数量呈指数级上升且互相之间可能发生冲突，因此传统的基于规则的决策控制方法已无法完全满足自动驾驶技术发展的需求。为了提高复杂场景下决策和控制算法的泛化性，相关学者尝试利用数据驱动的方式来实现自动驾驶车辆的智能决策和控制。深度强化学习(Deep Reinforcement Learning,DRL)是一种典型的经验驱动、自主学习的智能控制方法，被广泛应用于解决不确定环境下的控制问题。强化学习智能体能够从过去的失败中学习经验，对复杂的环境具有很强的适应性。由于深度神经网络缺乏可解释性的缘故，强化学习的方法很难保证决策的合理性以及控制过程中的安全性。因此，本发明将基于规则的约束引入到强化学习的框架，研究一种结合路径规划和强化学习的导航避障控制方法，具有重要的现实意义。

发明内容

本发明针对现有技术存在的问题，提出一种结合路径规划和强化学习的导航避障控制方法，将驾驶任务分为静态的路径规划和动态的最优轨迹跟踪，实现基于规则的路径规划算法与深度强化学习的结合，在提高车辆通行效率的同时保证了端到端强化学习的安全性。

为实现上述目的，本发明采用如下技术方案：

本发明提出的结合路径规划和强化学习的导航避障控制方法，包括如下步骤：

步骤1：根据驾驶任务中的起始点和目标点，利用全局规划算法规划出自动驾驶车辆的可通行路径。

步骤2：利用改进的动态窗口规划算法(dynamic window approach，DWA)，生成多条可供选择的路径。具体步骤为：

1)采样自动驾驶汽车当前时刻的速度

2)简化车辆运动，忽略车辆的垂直运动，假设车辆前后两轮拥有一致的角度和转速并且车辆的转角由前轮来控制。根据车辆后轮的全局坐标(x,y)和车辆在yaw方向的偏转角度θ，通过自行车模型(Bicycle Model)，构建车辆的运动学模型：

其中，v和δ分别代表车辆的纵向速度以及转向轮的角速度，L为车轮距离(前后轮胎之间的距离)。

3)根据车辆本身的运动学和环境约束将速度

限制在一定的范围内。这些约束条件包括车辆自身最大速度和最小速度的限制，车辆发动机或电机等性能的限制，车辆安全制动距离的限制。

4)利用得到的车辆运动学模型，根据当前速度向后推算出车辆在一定的时间(sim_period)内的若干模拟轨迹，为简化计算，假设这段时间内的速度保持不变直到下一时刻采样更新。

步骤3：对采样得到的若干组轨迹，采用评价函数的方式对每一条轨迹进行评分。评价准则包括：与目标位置的夹角；轨迹上是否存在障碍物以及距离障碍物的距离；距离全局参考路径的最近距离等。

步骤4：利用强化学习算法(Twin Delayed Deep Deterministic policygradient，TD3)跟踪得到的最优轨迹。

将自动驾驶最优轨迹跟踪任务描述成马尔可夫决策过程(Markov DecisionProcess,MDP)＜S,A,T,R,γ＞，其中S表示状态空间，A表示动作空间，T是状态转移模型，R表示奖励模型，γ是折扣因子。

1)状态选择：轨迹规划器生成轨迹的实质就是一系列的导航点，以0.2s的间隔选取导航点存入对应的列表。状态量包括四部分：导航点位置与车辆位置x方向上特征向量，导航点位置与车辆位置y方向上特征向量，车辆的航向角以及车辆的速度。

2)动作选择：选择车辆的纵向和横向控制作为深度强化学习的输出，输出的动作的维度action_dim为2，将输出的第一维度拆分为两个区间[-1，0]，[0，1]，分别代表着Carla中的油门和刹车动作，第二维度代表车辆的方向盘转角，范围是[-1,1]。

3)奖励函数设计：奖励函数包括两个部分，导航点偏离程度的奖励和到达导航点的阶段性奖励。

步骤5：对强化学习网络DRL模型进行训练。

1)训练过程：首先通过模拟器构建一系列自动驾驶常见实验场景，随机生成自车智能体以及其他交通参与者，形成混行交通流。接着智能体随机采取动作，获得相应时刻的状态，信息存入经验池中。之后，DRL模型进行在线训练，训练过程中为了保证DRL模型能够尽可能的靠近路径规划模块生成的导航点，当车辆接近导航点时获得阶段性奖励reward＝1，同时下一个导航点作为新的导航点。如果车辆发生碰撞或者超过最大的仿真时间20s，则停止此次训练，并将车辆重置至起点开始下一次训练，直到reward_list中的导航点都被遍历后，则训练完成。

2)测试过程：设计一个新的交通场景作为测试场景，对训练完成的DRL模型进行测试，以验证其泛化性能。

本发明还提出了一种结合路径规划和强化学习的导航避障控制系统，包括：

初步规划可通行路径模块：根据驾驶任务中的起始点和目标点，利用全局规划算法规划出自动驾驶车辆的可通行路径；

轨迹采样空间生成模块：利用改进的动态窗口规划算法(dynamic windowapproach，DWA)，生成多条可供选择的路径轨迹采样空间；

轨迹采样空间评价模块：采用评价函数对每一条路径轨迹进行评价，得到最优轨迹以及对应的最优速度；

动态路径跟踪模块：包括导航点生成模块和强化学习网络模块；其中，导航点生成模块生成的导航点作为强化学习网络模块中车辆导航过程中的跟踪目标，通过强化学习算法实现导航避障跟踪。

进一步，所述轨迹采样空间生成模块具体设计如下：

假设汽车不是全向运动的，即不能横向移动，只能前进和旋转(v_t,w_t)，车辆两轴上的轮胎拥有一致的角度和转速，且前轮控制着车辆的转角，根据这些假设，汽车的运动就限制在一个平面上，前后轮的非完整约束方程为：

其中(x,y)是后轮的全局坐标，(x_f,y_f)是前轮的全局坐标，θ是车辆在yaw方向的偏转角度，δ是车辆的转向角度；

可以由纵向速度v来表示：

考虑车辆的瞬时曲率半径R可得：

tan(δ)＝L/R

最终以上运动学模型可以通过矩阵形式表达：

根据车辆的纵向速度v以及转向轮的角速度

可以得到车辆的位置情况，因此采集多组速度

即利用车辆运动学模型可由推算出车辆的运动轨迹，对于无穷多组的速度，其本身也受车辆运动学和环境条件限制，包括：

1)车辆自身最大车速v_max和最小车速v_min的限制V₁：

2)车辆受电机性能的影响V₂：

其中

分别表示最大减速度与最大加速度，

分别表示角速度的最大减速度和最大加速度；

3)考虑车辆能在撞上障碍物之前停下速度的约束V₃：

其中

为车辆轨迹上与障碍物的最近距离，刹车时的减速度分别为

和

最后得到速度采样空间V＝V₁∩V₂∩V₃,进一步的结合预先设置好的速度分辨率，得到若干组轨迹。

进一步，所述轨迹采样空间评价模块包括四个方面的评价：

1)变量to_goal_cost用于评价车辆与目标位置的夹角，当车辆朝着目标前进时，该值取最大；

2)变量velocity_cost用于评价通行效率，表示车辆移动的速度；

3)变量obstacle_cost用于评价车辆避障的能力，表示车辆在当前轨迹上与最近障碍物之间的距离；

4)变量lane_cost用于评价车辆跟全局路径的偏离程度，避免陷入局部最优；

最终得到的评价函数为：

final_cost＝to_goal_cost+velocity_cost+obstacle_cost+lane_cost

各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。

进一步，所述导航点生成模块：对Carla环境进行建图，获取地图中包括自车和障碍物在内的信息，根据轨迹采样空间评价模块得到当前时刻的最优轨迹和最优速度，利用运动学模型，得到下一时刻的状态信息，加上车辆当前的状态信息，获得下一时刻车辆的位置信息，将下一时刻的位置信息存入对应的导航点列表中。

进一步，所述强化学习网络模块：采用双延迟深度确定性策略梯度算法TD3，TD3算法采用Actor-Critic网络架构，Actor网络所使用神经网络模型结构包括2个全连接层，其中第一层网络使用Relu激活函数，后一层网络使用tanh激活函数将输出映射到[-1，1]区间，Critic网络所使用神经网络模型结构包括2个全连接层，第一层网络使用Relu激活函数，后一层网络不使用激活函数直接输出q值进行评估；

该强化学习网络的输入为状态量[Δx,Δy,yaw,kmh]，其中Δx，Δy分别表示自车和导航点横纵坐标之间的差值，yaw表示自车的航向角，kmh表示自车的速度，并对神经网络的输入进行归一化处理，将输入的范围限制在[-1,1]；

该强化学习网络的输出部分：使用tanh激活函数将动作映射到[-1,1]，并对动作添加一个衰减率为0.9995的高斯噪声，输出的动作维度action_dim为2，将输出动作的第一维拆分为两个区间[-1，0]，[0，1]，分别代表着Carla中的油门和刹车动作，其中[-1，0]代表最大刹车到最小刹车，[0，1]代表最小油门到最大油门，动作的第二个维度用于方向盘转角的控制，-1代表左打满，1代表右打满。

该强化学习网络的奖励函数：

其中,d表示自车到目标导航点的距离，degree是导航点与车辆纵坐标差的反正弦值，表示自车偏离导航点的程度，waypoint_reached和collision分别表示导航点抵达和碰撞。当距离局部导航点的距离小于3时，即认为阶段性任务已经完成，同时获得阶段性奖励reward＝1，此时这个导航点将会从列表中剔除，下一个导航点作为新的导航点，如果发生碰撞，获得对应的惩罚reward＝-1，其他时刻获得的奖励是关于degree的函数。

本发明还设计了一种应用于无人驾驶车辆导航避障控制系统的强化学习网络模型，该模型采用双延迟深度确定性策略梯度算法TD3，采用Actor-Critic网络架构，Actor网络所使用神经网络模型结构包括2个全连接层，其中第一层网络使用Relu激活函数，后一层网络使用tanh激活函数将输出映射到[-1，1]区间，Critic网络所使用神经网络模型结构包括2个全连接层，第一层网络使用Relu激活函数，后一层网络不使用激活函数直接输出q值进行评估；

该强化学习网络模型的输入为状态量[Δx,Δy,yaw,kmh]，其中Δx，Δy分别表示自车和导航点横纵坐标之间的差值，yaw表示自车的航向角，kmh表示自车的速度，并对神经网络的输入进行归一化处理，将输入的范围限制在[-1,1]；

该强化学习网络模型的输出部分：使用tanh激活函数将动作映射到[-1,1]，并对动作添加一个衰减率为0.9995的高斯噪声，输出的动作维度action_dim为2，将输出动作的第一维拆分为两个区间[-1，0]，[0，1]，分别代表着Carla中的油门和刹车动作，其中[-1，0]代表最大刹车到最小刹车，[0，1]代表最小油门到最大油门，动作的第二个维度用于方向盘转角的控制，-1代表左打满，1代表右打满。

该强化学习网络模型的奖励函数：

其中,d表示自车到目标导航点的距离，degree是导航点与车辆纵坐标差的反正弦值，表示自车偏离导航点的程度，当距离局部导航点的距离小于3时，即认为阶段性任务已经完成，同时获得阶段性奖励reward＝1，此时这个导航点将会从列表中剔除，下一个导航点作为新的导航点，如果发生碰撞，获得对应的惩罚reward＝-1，其他时刻获得的奖励是关于degree的函数。

本发明的有益效果为：

(1)本发明针对自动驾驶任务，采用路径规划与强化学习相结合的方法，可以有效地解决复杂道路场景(如无信号灯路口左转)下的车辆控制难的问题。

(2)本发明与现有的PID+LQR控制策略相比，不需要人为地对参数进行不断调整。与模型预测控制(MPC)控制方法相比，不过分依赖被控对象的模型精度，同时求解过程的复杂性大大降低，提高了车载的实时计算效率。

(3)本发明与端到端的强化学习相比，结合了车辆的运动学模型，具有可解释性，同时也大大提高了车辆导航过程中的安全性。

附图说明

图1本发明的方法流程图；

图2本发明的智能体训练过程图；

图3本发明所使用的Actor网络神经网络结构；

图4本发明所使用的Critic网络神经网络结构。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明，但本发明的内容不局限于此。

本发明提供了一种结合路径规划和强化学习的导航避障控制方法，可实现复杂场景(例如无信号灯路口)下车辆的安全高效导航，如图1所示，具体包括以下步骤：

规划最优路径：

(1)初始化导航任务中的起点和终点，利用全局路径规划算法(A^*)规划出自动驾驶车辆的大致可通行轨迹，避免应用DWA算法时陷入局部最优。

(2)生成自动驾驶车辆对应的轨迹采样空间。为使后续的跟踪控制具备更好的性能，轨迹规划过程中应尽可能的考虑车辆的运动学和动力学约束，进而更贴近实际。本发明假设汽车不是全向运动的，即不能横向移动，只能前进和旋转(v_t,w_t)，车辆两轴上的轮胎拥有一致的角度和转速，且前轮控制着车辆的转角。根据这些假设，汽车的运动就限制在一个平面上，前后轮的非完整约束方程为：

其中(x,y)是后轮的全局坐标，(x_f,y_f)是前轮的全局坐标，θ是车辆在yaw方向的偏转角度，δ是车辆的转向角度。

可以由纵向速度v来表示：

考虑车辆的瞬时曲率半径R可得：

tan(δ)＝L/R

最终以上运动学模型可以通过矩阵形式表达：

根据车辆的纵向速度v以及转向轮的角速度

可以得到车辆的位置情况。因此采集很多组的速度

即利用车辆运动学模型可由推算出车辆的运动轨迹。然而对于无穷多组的速度，其本身也受车辆运动学和环境条件限制。其中包括：

1)车辆自身最大车速v_max和最小车速v_min的限制：

2)车辆受电机性能的影响：

其中

分别表示最大减速度与最大加速度，

分别表示角速度的最大减速度和最大加速度。

3)考虑车辆能在撞上障碍物之前停下的速度：

其中

为车辆轨迹上与障碍物的最近距离，刹车时的减速度分别为

和

最后得到最终的速度采样空间V＝V₁∩V₂∩V₃,进一步的结合预先设置好的速度分辨率，得到九组轨迹。

(3)对九条轨迹采用构建评价函数的方式进行评价，得到最优轨迹以及对应的最优速度。针对自动驾驶导航问题，本发明重新设计了动态窗口法(Dynamic WindowApproach，DWA)的评价函数，主要包括四个方面：

1)to_goal_cost用于评价车辆与目标位置的夹角，当车辆朝着目标前进时，该值取最大。

2)velocity_cost用于评价通行效率，表示车辆移动的速度。

3)obstacle_cost用于评价车辆避障的能力，表示车辆在当前轨迹上与最近障碍物之间的距离。

4)lane_cost用于评价车辆跟全局路径的偏离程度，避免陷入局部最优。

最终得到的评价函数为：

final_cost＝to_goal_cost+velocity_cost+obstacle_cost+lane_cost

各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。

动态路径跟踪：

(4)生成仿真中的导航点。选用CARLA(Car Learning To Act)模拟器作为本发明的仿真实验平台，实验场景是无信号的路口，要解决的是此路口下的左转问题。对Carla环境进行建图，获取地图中包括自车和障碍物在内的一些信息。本发明中将强化学习作为一种跟踪控制算法，直观的将导航点(waypoint)作为车辆导航过程中的跟踪目标。首先，由(3)得到当前时刻的最优轨迹和最优速度，利用运动学模型，得到下一时刻的状态信息，加上车辆当前的状态信息，从而获得下一时刻车辆的位置更新。轨迹规划的更新间隔dt设置为0.2s，而车辆位置的更新，取十次轨迹的新结果。由于实验的仿真场景是无信号灯的十字交叉路口，Carla地图中得不到自定义的导航点，因此直接将下一时刻的位置信息存入对应的导航点列表中。

(5)确定强化学习网络的输入和输出。强化学习算法使用的是双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient，TD3)，TD3算法是DDPG的一个优化版本，同样使用的是Actor-Critic网络架构。区别在于DDPG涉及4个网络，而TD3需要用到6个网络，用类似Double DQN的方式，解决了DDPG中Critic对动作Q值过估计的问题。如图3所示，Actor网络所使用神经网络模型结构由2个全连接层组成，其中第一层网络使用Relu激活函数，后一层网络使用tanh激活函数将输出映射到[-1，1]区间。如图4所示，Critic网络所使用神经网络模型结构由2个全连接层组成，第一层网络使用Relu激活函数，后一层网络不使用激活函数直接输出q值进行评估。

本发明将状态量[Δx,Δy,yaw,kmh]作为网络的输入，其中Δx，Δy分别表示自车和导航点横纵坐标之间的差值，yaw表示自车的航向角，kmh表示自车的速度。使用速度信息作为网络输入有利于更好的进行车辆下一时刻的位置和速度更新。接着对神经网络的输入进行归一化处理，将输入的范围限制在[-1,1]。目的是为了消除指标之间量纲的影响，有效防止梯度爆炸，加速收敛。

网络的输出部分，结合Carla模拟器中车辆的控制方法，本发明使用tanh激活函数将动作映射到[-1,1]，并对动作添加一个衰减率为0.9995的高斯噪声。输出的动作维度action_dim为2，将输出的第一维拆分为两个区间[-1，0]，[0，1]，分别代表着Carla中的油门和刹车动作，其中[-1，0]代表最大刹车到最小刹车(刹车＝0)，[0，1]代表最小油门(动作值＝0)到最大油门。做出这种设计的原因在于假设油门和刹车这两个动作不能够同时采取。动作的第二个维度用于方向盘转角的控制，-1代表左打满，1代表右打满。使用上述的这些设计，可以实现车辆动作的连续控制。

(6)设计网络的奖励函数。针对自动驾驶车辆的导航避障任务，设计了如下的奖励函数：

其中,d表示自车到目标导航点的距离，degree是导航点与车辆纵坐标差的反正弦值，表示自车偏离导航点的程度。当距离局部导航点的距离小于3时，即认为阶段性任务已经完成，同时获得阶段性奖励reward＝1。此时这个导航点将会从列表中剔除，下一个导航点作为新的导航点。如果发生碰撞，获得对应的惩罚reward＝-1，其他时刻获得的奖励是关于degree的函数。使用这样的奖励设置，可以充分发挥目标导向的作用，更有效地学习策略。

(7)在Carla模拟器中，结合随机噪声，使强化学习智能体在与仿真环境的交互中产生经验，并存入提前设置好的经验池中，对网络进行训练，训练结果如图2所示。

(8)对训练好的网络进行测试：

测试参数：最大回合数100，最大时间步长500。选取新的无信号路口，作为测试场景，同样是在12辆车中随机生成周边车辆，对训练结果进行测试。

综上所述，本发明的一种结合路径规划和强化学习的高效导航避障方法，通过提取环境信息，生成对应的鸟瞰语义图，并结合全局规划算法，规划出大致可通行的区域。为了实现对障碍物的有效避让，采用动态窗口(DWA)的办法进行速度采样，考虑全局规划的参考路线，生成一条最优的轨迹。将最优轨迹以导航点的形式输出，使用TD3的强化学习算法训练神经网络，实现最优轨迹的跟踪。本发明将基于规则的路径规划算法与深度强化学习相结合，实现了不确定性场景下的高效导航避障，具有很好的学习驾驶能力。相比与端到端的强化学习方式，具有可解释性和更快的学习速度，提高了驾驶的安全性。与常规的基于规则的方式相比，本发明可以应用于难以精确解析环境和建模的各种场景。即使是在感知失败的情况下也可以通过学习的方式，生成可靠的驾驶策略。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种结合路径规划和强化学习的导航避障控制方法，其特征在于，包括如下步骤：

步骤1：根据驾驶任务中的起始点和目标点，利用全局规划算法规划出自动驾驶车辆的可通行路径；

步骤2：利用改进的动态窗口规划算法(dynamic window approach，DWA)，生成多条可供选择的路径轨迹采样空间；

步骤3：对采样得到的若干组轨迹，采用评价函数的方式对每一条轨迹进行评价，评价准则包括：与目标位置的夹角；轨迹上是否存在障碍物以及距离障碍物的距离；距离全局参考路径的最近距离；

步骤4：利用强化学习网络模型跟踪得到导航避障的最优轨迹。

2.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法，其特征在于，所述步骤2的过程如下：

步骤2.1，采样自动驾驶汽车当前时刻的速度

步骤2.2，简化车辆运动，忽略车辆的垂直运动，假设车辆前后两轮拥有一致的角度和转速并且车辆的转角由前轮来控制，根据车辆后轮的全局坐标(x,y)和车辆在yaw方向的偏转角度θ，通过假设的自行车模型，构建如下的车辆运动学模型；

其中，v和δ分别代表车辆的纵向速度以及转向轮的角速度，L为车辆的轴距；

步骤2.3，根据车辆本身的运动学和环境约束将速度

限制在一定的范围内，这些约束条件包括车辆自身最大速度和最小速度的限制，车辆发动机或电机性能的限制，车辆安全制动距离的限制；

步骤2.4，利用得到的车辆运动学模型，根据当前速度向后推算出车辆在一定的时间(sim_period)内的若干模拟路径轨迹。

3.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法，其特征在于，所述步骤4的具体实现方法：将自动驾驶最优轨迹跟踪任务转化成马尔可夫决策过程[S,A,P,γ,R]，包括状态s_t选择，动作a_t选择和奖励函数R_t的设计；

状态选择：轨迹规划器生成轨迹的实质就是一系列的导航点，以0.2s的间隔选取导航点存入对应的列表，状态量包括四部分：导航点位置与车辆位置x方向上特征向量，导航点位置与车辆位置y方向上特征向量，车辆的航向角以及车辆的速度；

动作选择：选择车辆的纵向和横向控制作为深度强化学习的输出，输出的动作的维度action_dim为2，将输出的第一维度拆分为两个区间[-1，0]，[0，1]，分别代表着Carla中的油门和刹车动作，第二维度代表车辆的方向盘转角，范围是[-1,1]；

设计奖励函数：奖励函数包括两个部分，导航点偏离程度的奖励和到达导航点的阶段性奖励。

4.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法，其特征在于，还包括步骤5：对强化学习网络模型进行训练，训练之后的模型可实现自动导航避障；训练方法如下：

首先通过模拟器构建一系列自动驾驶常见实验场景，随机生成自车智能体以及其他交通参与者，形成混行交通流；接着智能体随机采取动作，获得相应时刻的状态，信息存入经验池中；之后，强化学习网络DRL模型进行在线训练，训练过程中为了保证DRL模型能够尽可能的靠近路径规划模块生成的导航点，当车辆接近导航点时获得阶段性奖励reward＝1，同时下一个导航点作为新的导航点，如果车辆发生碰撞或者超过最大的仿真时间20s，则停止此次训练，并将车辆重置至起点开始下一次训练，直到导航点存储列表中的导航点都被遍历后，则训练完成。

5.一种结合路径规划和强化学习的导航避障控制系统，其特征在于，包括：

轨迹采样空间生成模块：利用改进的动态窗口规划算法(dynamic window approach，DWA)，生成多条可供选择的路径轨迹采样空间；

6.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统，其特征在于，所述轨迹采样空间生成模块具体设计如下：

可以由纵向速度v来表示：

考虑车辆的瞬时曲率半径R可得：

tan(δ)＝L/R

最终以上运动学模型可以通过矩阵形式表达：

根据车辆的纵向速度v以及转向轮的角速度

可以得到车辆的位置情况，因此采集多组速度

1)车辆自身最大车速v_max和最小车速v_min的限制：

2)车辆受电机性能的影响：

其中

分别表示最大减速度与最大加速度，

分别表示角速度的最大减速度和最大加速度；

3)考虑车辆能在撞上障碍物之前停下的速度：

其中dist(v,w)为车辆轨迹上与障碍物的最近距离，刹车时的减速度分别为

和

7.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统，其特征在于，所述轨迹采样空间评价模块包括四个方面的评价：

1)to_goal_cost用于评价车辆与目标位置的夹角，当车辆朝着目标前进时，该值取最大；

2)velocity_cost用于评价通行效率，表示车辆移动的速度；

3)obstacle_cost用于评价车辆避障的能力，表示车辆在当前轨迹上与最近障碍物之间的距离；

4)lane_cost用于评价车辆跟全局路径的偏离程度，避免陷入局部最优；

最终得到的评价函数为：

final_cost＝to_goal_cost+velocity_cost+obstacle_cost+lane_cost

各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。

8.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统，其特征在于，所述导航点生成模块：对Carla环境进行建图，获取地图中包括自车和障碍物在内的信息，根据轨迹采样空间评价模块得到当前时刻的最优轨迹和最优速度，利用运动学模型，得到下一时刻的状态信息，加上车辆当前的状态信息，获得下一时刻车辆的位置信息，将下一时刻的位置信息存入对应的导航点列表中。

9.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统，其特征在于，所述强化学习网络模块：采用双延迟深度确定性策略梯度算法TD3，TD3算法采用Actor-Critic网络架构，Actor网络所使用神经网络模型结构包括2个全连接层，其中第一层网络使用Relu激活函数，后一层网络使用tanh激活函数将输出映射到[-1，1]区间，Critic网络所使用神经网络模型结构包括2个全连接层，第一层网络使用Relu激活函数，后一层网络不使用激活函数直接输出q值进行评估；

该强化学习网络的奖励函数：

10.一种应用于无人驾驶车辆导航避障控制系统的强化学习网络模型，其特征在于，采用双延迟深度确定性策略梯度算法TD3，采用Actor-Critic网络架构，Actor网络所使用神经网络模型结构包括2个全连接层，其中第一层网络使用Relu激活函数，后一层网络使用tanh激活函数将输出映射到[-1，1]区间，Critic网络所使用神经网络模型结构包括2个全连接层，第一层网络使用Relu激活函数，后一层网络不使用激活函数直接输出q值进行评估；

该强化学习网络模型的奖励函数：