CN114564016A - 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 - Google Patents
一种结合路径规划和强化学习的导航避障控制方法、系统及模型 Download PDFInfo
- Publication number
- CN114564016A CN114564016A CN202210176732.0A CN202210176732A CN114564016A CN 114564016 A CN114564016 A CN 114564016A CN 202210176732 A CN202210176732 A CN 202210176732A CN 114564016 A CN114564016 A CN 114564016A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- navigation
- reinforcement learning
- speed
- navigation point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 51
- 230000009471 action Effects 0.000 claims description 46
- 230000004913 activation Effects 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 18
- 230000000737 periodic effect Effects 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 7
- 230000001133 acceleration Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 abstract description 2
- 230000003068 static effect Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3407—Route searching; Route guidance specially adapted for specific applications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
- B60W30/09—Taking automatic action to avoid collision, e.g. braking and steering
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0011—Planning or execution of driving tasks involving control alternatives for a single driving scenario, e.g. planning several paths to avoid obstacles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0031—Mathematical model of the vehicle
- B60W2050/0033—Single-track, 2D vehicle model, i.e. two-wheel bicycle model
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/10—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
- B60W2520/14—Yaw
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
- B60W2554/806—Relative heading
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2720/00—Output or target parameters relating to overall vehicle dynamics
- B60W2720/10—Longitudinal speed
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/80—Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
- Y02T10/84—Data processing systems or methods, management, administration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Human Computer Interaction (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Navigation (AREA)
Abstract
本发明公开了一种结合路径规划和强化学习的导航避障控制方法、系统及模型,将驾驶任务分为静态的路径规划和动态的最优轨迹跟踪,实现基于规则的路径规划算法与深度强化学习的结合,可以有效地解决复杂道路场景(如无信号灯路口左转)下的车辆控制难的问题。本发明与现有的PID+LQR控制策略相比,不需要人为地对参数进行不断调整。与模型预测控制(MPC)控制方法相比,不过分依赖被控对象的模型精度,同时求解过程的复杂性大大降低,提高了车载的实时计算效率。本发明与端到端的强化学习相比,结合了车辆的运动学模型,具有可解释性,同时也大大提高了车辆导航过程中的安全性。
Description
技术领域
本发明属于人工智能中的自动驾驶领域,涉及一种结合路径规划和强化学习的导航避障控制方法、系统及模型。
背景技术
作为目前人工智能领域的一个前沿热点技术,自动驾驶是一个集环境感知、决策规划和动力学控制三部分为一体的复杂系统。但是目前自动驾驶技术的发展面临着多维度的瓶颈和挑战,在决策和控制方面主要表现为自动驾驶车辆难以应对复杂多变的交通场景。
目前,智能车辆的决策和控制算法多基于规则设计,人为规定车辆在各场景下的行为模式,然而车辆的驾驶场景具有很强的不确定性以及车辆自身非线性的问题,导致在复杂场景应用中规则数量呈指数级上升且互相之间可能发生冲突,因此传统的基于规则的决策控制方法已无法完全满足自动驾驶技术发展的需求。为了提高复杂场景下决策和控制算法的泛化性,相关学者尝试利用数据驱动的方式来实现自动驾驶车辆的智能决策和控制。深度强化学习(Deep Reinforcement Learning,DRL)是一种典型的经验驱动、自主学习的智能控制方法,被广泛应用于解决不确定环境下的控制问题。强化学习智能体能够从过去的失败中学习经验,对复杂的环境具有很强的适应性。由于深度神经网络缺乏可解释性的缘故,强化学习的方法很难保证决策的合理性以及控制过程中的安全性。因此,本发明将基于规则的约束引入到强化学习的框架,研究一种结合路径规划和强化学习的导航避障控制方法,具有重要的现实意义。
发明内容
本发明针对现有技术存在的问题,提出一种结合路径规划和强化学习的导航避障控制方法,将驾驶任务分为静态的路径规划和动态的最优轨迹跟踪,实现基于规则的路径规划算法与深度强化学习的结合,在提高车辆通行效率的同时保证了端到端强化学习的安全性。
为实现上述目的,本发明采用如下技术方案:
本发明提出的结合路径规划和强化学习的导航避障控制方法,包括如下步骤:
步骤1:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径。
步骤2:利用改进的动态窗口规划算法(dynamic window approach,DWA),生成多条可供选择的路径。具体步骤为:
2)简化车辆运动,忽略车辆的垂直运动,假设车辆前后两轮拥有一致的角度和转速并且车辆的转角由前轮来控制。根据车辆后轮的全局坐标(x,y)和车辆在yaw方向的偏转角度θ,通过自行车模型(Bicycle Model),构建车辆的运动学模型:
其中,v和δ分别代表车辆的纵向速度以及转向轮的角速度,L为车轮距离(前后轮胎之间的距离)。
4)利用得到的车辆运动学模型,根据当前速度向后推算出车辆在一定的时间(sim_period)内的若干模拟轨迹,为简化计算,假设这段时间内的速度保持不变直到下一时刻采样更新。
步骤3:对采样得到的若干组轨迹,采用评价函数的方式对每一条轨迹进行评分。评价准则包括:与目标位置的夹角;轨迹上是否存在障碍物以及距离障碍物的距离;距离全局参考路径的最近距离等。
步骤4:利用强化学习算法(Twin Delayed Deep Deterministic policygradient,TD3)跟踪得到的最优轨迹。
将自动驾驶最优轨迹跟踪任务描述成马尔可夫决策过程(Markov DecisionProcess,MDP)<S,A,T,R,γ>,其中S表示状态空间,A表示动作空间,T是状态转移模型,R表示奖励模型,γ是折扣因子。
1)状态选择:轨迹规划器生成轨迹的实质就是一系列的导航点,以0.2s的间隔选取导航点存入对应的列表。状态量包括四部分:导航点位置与车辆位置x方向上特征向量,导航点位置与车辆位置y方向上特征向量,车辆的航向角以及车辆的速度。
2)动作选择:选择车辆的纵向和横向控制作为深度强化学习的输出,输出的动作的维度action_dim为2,将输出的第一维度拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,第二维度代表车辆的方向盘转角,范围是[-1,1]。
3)奖励函数设计:奖励函数包括两个部分,导航点偏离程度的奖励和到达导航点的阶段性奖励。
步骤5:对强化学习网络DRL模型进行训练。
1)训练过程:首先通过模拟器构建一系列自动驾驶常见实验场景,随机生成自车智能体以及其他交通参与者,形成混行交通流。接着智能体随机采取动作,获得相应时刻的状态,信息存入经验池中。之后,DRL模型进行在线训练,训练过程中为了保证DRL模型能够尽可能的靠近路径规划模块生成的导航点,当车辆接近导航点时获得阶段性奖励reward=1,同时下一个导航点作为新的导航点。如果车辆发生碰撞或者超过最大的仿真时间20s,则停止此次训练,并将车辆重置至起点开始下一次训练,直到reward_list中的导航点都被遍历后,则训练完成。
2)测试过程:设计一个新的交通场景作为测试场景,对训练完成的DRL模型进行测试,以验证其泛化性能。
本发明还提出了一种结合路径规划和强化学习的导航避障控制系统,包括:
初步规划可通行路径模块:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径;
轨迹采样空间生成模块:利用改进的动态窗口规划算法(dynamic windowapproach,DWA),生成多条可供选择的路径轨迹采样空间;
轨迹采样空间评价模块:采用评价函数对每一条路径轨迹进行评价,得到最优轨迹以及对应的最优速度;
动态路径跟踪模块:包括导航点生成模块和强化学习网络模块;其中,导航点生成模块生成的导航点作为强化学习网络模块中车辆导航过程中的跟踪目标,通过强化学习算法实现导航避障跟踪。
进一步,所述轨迹采样空间生成模块具体设计如下:
假设汽车不是全向运动的,即不能横向移动,只能前进和旋转(vt,wt),车辆两轴上的轮胎拥有一致的角度和转速,且前轮控制着车辆的转角,根据这些假设,汽车的运动就限制在一个平面上,前后轮的非完整约束方程为:
考虑车辆的瞬时曲率半径R可得:
tan(δ)=L/R
最终以上运动学模型可以通过矩阵形式表达:
1)车辆自身最大车速vmax和最小车速vmin的限制V1:
2)车辆受电机性能的影响V2:
3)考虑车辆能在撞上障碍物之前停下速度的约束V3:
最后得到速度采样空间V=V1∩V2∩V3,进一步的结合预先设置好的速度分辨率,得到若干组轨迹。
进一步,所述轨迹采样空间评价模块包括四个方面的评价:
1)变量to_goal_cost用于评价车辆与目标位置的夹角,当车辆朝着目标前进时,该值取最大;
2)变量velocity_cost用于评价通行效率,表示车辆移动的速度;
3)变量obstacle_cost用于评价车辆避障的能力,表示车辆在当前轨迹上与最近障碍物之间的距离;
4)变量lane_cost用于评价车辆跟全局路径的偏离程度,避免陷入局部最优;
最终得到的评价函数为:
final_cost=to_goal_cost+velocity_cost+obstacle_cost+lane_cost
各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。
进一步,所述导航点生成模块:对Carla环境进行建图,获取地图中包括自车和障碍物在内的信息,根据轨迹采样空间评价模块得到当前时刻的最优轨迹和最优速度,利用运动学模型,得到下一时刻的状态信息,加上车辆当前的状态信息,获得下一时刻车辆的位置信息,将下一时刻的位置信息存入对应的导航点列表中。
进一步,所述强化学习网络模块:采用双延迟深度确定性策略梯度算法TD3,TD3算法采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络的奖励函数:
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,waypoint_reached和collision分别表示导航点抵达和碰撞。当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
本发明还设计了一种应用于无人驾驶车辆导航避障控制系统的强化学习网络模型,该模型采用双延迟深度确定性策略梯度算法TD3,采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络模型的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络模型的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络模型的奖励函数:
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
本发明的有益效果为:
(1)本发明针对自动驾驶任务,采用路径规划与强化学习相结合的方法,可以有效地解决复杂道路场景(如无信号灯路口左转)下的车辆控制难的问题。
(2)本发明与现有的PID+LQR控制策略相比,不需要人为地对参数进行不断调整。与模型预测控制(MPC)控制方法相比,不过分依赖被控对象的模型精度,同时求解过程的复杂性大大降低,提高了车载的实时计算效率。
(3)本发明与端到端的强化学习相比,结合了车辆的运动学模型,具有可解释性,同时也大大提高了车辆导航过程中的安全性。
附图说明
图1本发明的方法流程图;
图2本发明的智能体训练过程图;
图3本发明所使用的Actor网络神经网络结构;
图4本发明所使用的Critic网络神经网络结构。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明,但本发明的内容不局限于此。
本发明提供了一种结合路径规划和强化学习的导航避障控制方法,可实现复杂场景(例如无信号灯路口)下车辆的安全高效导航,如图1所示,具体包括以下步骤:
规划最优路径:
(1)初始化导航任务中的起点和终点,利用全局路径规划算法(A*)规划出自动驾驶车辆的大致可通行轨迹,避免应用DWA算法时陷入局部最优。
(2)生成自动驾驶车辆对应的轨迹采样空间。为使后续的跟踪控制具备更好的性能,轨迹规划过程中应尽可能的考虑车辆的运动学和动力学约束,进而更贴近实际。本发明假设汽车不是全向运动的,即不能横向移动,只能前进和旋转(vt,wt),车辆两轴上的轮胎拥有一致的角度和转速,且前轮控制着车辆的转角。根据这些假设,汽车的运动就限制在一个平面上,前后轮的非完整约束方程为:
考虑车辆的瞬时曲率半径R可得:
tan(δ)=L/R
最终以上运动学模型可以通过矩阵形式表达:
1)车辆自身最大车速vmax和最小车速vmin的限制:
2)车辆受电机性能的影响:
3)考虑车辆能在撞上障碍物之前停下的速度:
最后得到最终的速度采样空间V=V1∩V2∩V3,进一步的结合预先设置好的速度分辨率,得到九组轨迹。
(3)对九条轨迹采用构建评价函数的方式进行评价,得到最优轨迹以及对应的最优速度。针对自动驾驶导航问题,本发明重新设计了动态窗口法(Dynamic WindowApproach,DWA)的评价函数,主要包括四个方面:
1)to_goal_cost用于评价车辆与目标位置的夹角,当车辆朝着目标前进时,该值取最大。
2)velocity_cost用于评价通行效率,表示车辆移动的速度。
3)obstacle_cost用于评价车辆避障的能力,表示车辆在当前轨迹上与最近障碍物之间的距离。
4)lane_cost用于评价车辆跟全局路径的偏离程度,避免陷入局部最优。
最终得到的评价函数为:
final_cost=to_goal_cost+velocity_cost+obstacle_cost+lane_cost
各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。
动态路径跟踪:
(4)生成仿真中的导航点。选用CARLA(Car Learning To Act)模拟器作为本发明的仿真实验平台,实验场景是无信号的路口,要解决的是此路口下的左转问题。对Carla环境进行建图,获取地图中包括自车和障碍物在内的一些信息。本发明中将强化学习作为一种跟踪控制算法,直观的将导航点(waypoint)作为车辆导航过程中的跟踪目标。首先,由(3)得到当前时刻的最优轨迹和最优速度,利用运动学模型,得到下一时刻的状态信息,加上车辆当前的状态信息,从而获得下一时刻车辆的位置更新。轨迹规划的更新间隔dt设置为0.2s,而车辆位置的更新,取十次轨迹的新结果。由于实验的仿真场景是无信号灯的十字交叉路口,Carla地图中得不到自定义的导航点,因此直接将下一时刻的位置信息存入对应的导航点列表中。
(5)确定强化学习网络的输入和输出。强化学习算法使用的是双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient,TD3),TD3算法是DDPG的一个优化版本,同样使用的是Actor-Critic网络架构。区别在于DDPG涉及4个网络,而TD3需要用到6个网络,用类似Double DQN的方式,解决了DDPG中Critic对动作Q值过估计的问题。如图3所示,Actor网络所使用神经网络模型结构由2个全连接层组成,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间。如图4所示,Critic网络所使用神经网络模型结构由2个全连接层组成,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估。
本发明将状态量[Δx,Δy,yaw,kmh]作为网络的输入,其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度。使用速度信息作为网络输入有利于更好的进行车辆下一时刻的位置和速度更新。接着对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1]。目的是为了消除指标之间量纲的影响,有效防止梯度爆炸,加速收敛。
网络的输出部分,结合Carla模拟器中车辆的控制方法,本发明使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声。输出的动作维度action_dim为2,将输出的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车(刹车=0),[0,1]代表最小油门(动作值=0)到最大油门。做出这种设计的原因在于假设油门和刹车这两个动作不能够同时采取。动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。使用上述的这些设计,可以实现车辆动作的连续控制。
(6)设计网络的奖励函数。针对自动驾驶车辆的导航避障任务,设计了如下的奖励函数:
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度。当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1。此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点。如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。使用这样的奖励设置,可以充分发挥目标导向的作用,更有效地学习策略。
(7)在Carla模拟器中,结合随机噪声,使强化学习智能体在与仿真环境的交互中产生经验,并存入提前设置好的经验池中,对网络进行训练,训练结果如图2所示。
(8)对训练好的网络进行测试:
测试参数:最大回合数100,最大时间步长500。选取新的无信号路口,作为测试场景,同样是在12辆车中随机生成周边车辆,对训练结果进行测试。
综上所述,本发明的一种结合路径规划和强化学习的高效导航避障方法,通过提取环境信息,生成对应的鸟瞰语义图,并结合全局规划算法,规划出大致可通行的区域。为了实现对障碍物的有效避让,采用动态窗口(DWA)的办法进行速度采样,考虑全局规划的参考路线,生成一条最优的轨迹。将最优轨迹以导航点的形式输出,使用TD3的强化学习算法训练神经网络,实现最优轨迹的跟踪。本发明将基于规则的路径规划算法与深度强化学习相结合,实现了不确定性场景下的高效导航避障,具有很好的学习驾驶能力。相比与端到端的强化学习方式,具有可解释性和更快的学习速度,提高了驾驶的安全性。与常规的基于规则的方式相比,本发明可以应用于难以精确解析环境和建模的各种场景。即使是在感知失败的情况下也可以通过学习的方式,生成可靠的驾驶策略。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种结合路径规划和强化学习的导航避障控制方法,其特征在于,包括如下步骤:
步骤1:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径;
步骤2:利用改进的动态窗口规划算法(dynamic window approach,DWA),生成多条可供选择的路径轨迹采样空间;
步骤3:对采样得到的若干组轨迹,采用评价函数的方式对每一条轨迹进行评价,评价准则包括:与目标位置的夹角;轨迹上是否存在障碍物以及距离障碍物的距离;距离全局参考路径的最近距离;
步骤4:利用强化学习网络模型跟踪得到导航避障的最优轨迹。
2.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法,其特征在于,所述步骤2的过程如下:
步骤2.2,简化车辆运动,忽略车辆的垂直运动,假设车辆前后两轮拥有一致的角度和转速并且车辆的转角由前轮来控制,根据车辆后轮的全局坐标(x,y)和车辆在yaw方向的偏转角度θ,通过假设的自行车模型,构建如下的车辆运动学模型;
其中,v和δ分别代表车辆的纵向速度以及转向轮的角速度,L为车辆的轴距;
步骤2.4,利用得到的车辆运动学模型,根据当前速度向后推算出车辆在一定的时间(sim_period)内的若干模拟路径轨迹。
3.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法,其特征在于,所述步骤4的具体实现方法:将自动驾驶最优轨迹跟踪任务转化成马尔可夫决策过程[S,A,P,γ,R],包括状态st选择,动作at选择和奖励函数Rt的设计;
状态选择:轨迹规划器生成轨迹的实质就是一系列的导航点,以0.2s的间隔选取导航点存入对应的列表,状态量包括四部分:导航点位置与车辆位置x方向上特征向量,导航点位置与车辆位置y方向上特征向量,车辆的航向角以及车辆的速度;
动作选择:选择车辆的纵向和横向控制作为深度强化学习的输出,输出的动作的维度action_dim为2,将输出的第一维度拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,第二维度代表车辆的方向盘转角,范围是[-1,1];
设计奖励函数:奖励函数包括两个部分,导航点偏离程度的奖励和到达导航点的阶段性奖励。
4.根据权利要求1所述的一种结合路径规划和强化学习的导航避障控制方法,其特征在于,还包括步骤5:对强化学习网络模型进行训练,训练之后的模型可实现自动导航避障;训练方法如下:
首先通过模拟器构建一系列自动驾驶常见实验场景,随机生成自车智能体以及其他交通参与者,形成混行交通流;接着智能体随机采取动作,获得相应时刻的状态,信息存入经验池中;之后,强化学习网络DRL模型进行在线训练,训练过程中为了保证DRL模型能够尽可能的靠近路径规划模块生成的导航点,当车辆接近导航点时获得阶段性奖励reward=1,同时下一个导航点作为新的导航点,如果车辆发生碰撞或者超过最大的仿真时间20s,则停止此次训练,并将车辆重置至起点开始下一次训练,直到导航点存储列表中的导航点都被遍历后,则训练完成。
5.一种结合路径规划和强化学习的导航避障控制系统,其特征在于,包括:
初步规划可通行路径模块:根据驾驶任务中的起始点和目标点,利用全局规划算法规划出自动驾驶车辆的可通行路径;
轨迹采样空间生成模块:利用改进的动态窗口规划算法(dynamic window approach,DWA),生成多条可供选择的路径轨迹采样空间;
轨迹采样空间评价模块:采用评价函数对每一条路径轨迹进行评价,得到最优轨迹以及对应的最优速度;
动态路径跟踪模块:包括导航点生成模块和强化学习网络模块;其中,导航点生成模块生成的导航点作为强化学习网络模块中车辆导航过程中的跟踪目标,通过强化学习算法实现导航避障跟踪。
6.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述轨迹采样空间生成模块具体设计如下:
假设汽车不是全向运动的,即不能横向移动,只能前进和旋转(vt,wt),车辆两轴上的轮胎拥有一致的角度和转速,且前轮控制着车辆的转角,根据这些假设,汽车的运动就限制在一个平面上,前后轮的非完整约束方程为:
考虑车辆的瞬时曲率半径R可得:
tan(δ)=L/R
最终以上运动学模型可以通过矩阵形式表达:
1)车辆自身最大车速vmax和最小车速vmin的限制:
2)车辆受电机性能的影响:
3)考虑车辆能在撞上障碍物之前停下的速度:
最后得到速度采样空间V=V1∩V2∩V3,进一步的结合预先设置好的速度分辨率,得到若干组轨迹。
7.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述轨迹采样空间评价模块包括四个方面的评价:
1)to_goal_cost用于评价车辆与目标位置的夹角,当车辆朝着目标前进时,该值取最大;
2)velocity_cost用于评价通行效率,表示车辆移动的速度;
3)obstacle_cost用于评价车辆避障的能力,表示车辆在当前轨迹上与最近障碍物之间的距离;
4)lane_cost用于评价车辆跟全局路径的偏离程度,避免陷入局部最优;
最终得到的评价函数为:
final_cost=to_goal_cost+velocity_cost+obstacle_cost+lane_cost
各条轨迹中final_cost最小的一条即为找到的一条最优轨迹。
8.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述导航点生成模块:对Carla环境进行建图,获取地图中包括自车和障碍物在内的信息,根据轨迹采样空间评价模块得到当前时刻的最优轨迹和最优速度,利用运动学模型,得到下一时刻的状态信息,加上车辆当前的状态信息,获得下一时刻车辆的位置信息,将下一时刻的位置信息存入对应的导航点列表中。
9.根据权利要求5所述的一种结合路径规划和强化学习的导航避障控制系统,其特征在于,所述强化学习网络模块:采用双延迟深度确定性策略梯度算法TD3,TD3算法采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络的奖励函数:
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
10.一种应用于无人驾驶车辆导航避障控制系统的强化学习网络模型,其特征在于,采用双延迟深度确定性策略梯度算法TD3,采用Actor-Critic网络架构,Actor网络所使用神经网络模型结构包括2个全连接层,其中第一层网络使用Relu激活函数,后一层网络使用tanh激活函数将输出映射到[-1,1]区间,Critic网络所使用神经网络模型结构包括2个全连接层,第一层网络使用Relu激活函数,后一层网络不使用激活函数直接输出q值进行评估;
该强化学习网络模型的输入为状态量[Δx,Δy,yaw,kmh],其中Δx,Δy分别表示自车和导航点横纵坐标之间的差值,yaw表示自车的航向角,kmh表示自车的速度,并对神经网络的输入进行归一化处理,将输入的范围限制在[-1,1];
该强化学习网络模型的输出部分:使用tanh激活函数将动作映射到[-1,1],并对动作添加一个衰减率为0.9995的高斯噪声,输出的动作维度action_dim为2,将输出动作的第一维拆分为两个区间[-1,0],[0,1],分别代表着Carla中的油门和刹车动作,其中[-1,0]代表最大刹车到最小刹车,[0,1]代表最小油门到最大油门,动作的第二个维度用于方向盘转角的控制,-1代表左打满,1代表右打满。
该强化学习网络模型的奖励函数:
其中,d表示自车到目标导航点的距离,degree是导航点与车辆纵坐标差的反正弦值,表示自车偏离导航点的程度,当距离局部导航点的距离小于3时,即认为阶段性任务已经完成,同时获得阶段性奖励reward=1,此时这个导航点将会从列表中剔除,下一个导航点作为新的导航点,如果发生碰撞,获得对应的惩罚reward=-1,其他时刻获得的奖励是关于degree的函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210176732.0A CN114564016A (zh) | 2022-02-24 | 2022-02-24 | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210176732.0A CN114564016A (zh) | 2022-02-24 | 2022-02-24 | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114564016A true CN114564016A (zh) | 2022-05-31 |
Family
ID=81715048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210176732.0A Pending CN114564016A (zh) | 2022-02-24 | 2022-02-24 | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564016A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995455A (zh) * | 2022-06-23 | 2022-09-02 | 中山大学·深圳 | 一种车辆全局路径规划方法及系统 |
CN115158342A (zh) * | 2022-07-29 | 2022-10-11 | 扬州大学 | 一种自动驾驶车辆的紧急导航定位实现方法 |
CN115202341A (zh) * | 2022-06-16 | 2022-10-18 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
CN115373384A (zh) * | 2022-07-28 | 2022-11-22 | 安徽师范大学 | 一种基于改进rrt的车辆动态路径规划方法及系统 |
CN115390452A (zh) * | 2022-09-01 | 2022-11-25 | 湖南大学无锡智能控制研究院 | 一种lqr横向控制器参数在线自适应方法及系统 |
CN115454085A (zh) * | 2022-09-26 | 2022-12-09 | 北京易航远智科技有限公司 | 基于导航地图的自动驾驶控制方法及自动驾驶控制装置 |
CN115542733A (zh) * | 2022-09-23 | 2022-12-30 | 福州大学 | 基于深度强化学习的自适应动态窗口法 |
CN115657683A (zh) * | 2022-11-14 | 2023-01-31 | 中国电子科技集团公司第十研究所 | 一种可用于巡检作业任务的无人无缆潜水器实时避障方法 |
CN115755919A (zh) * | 2022-11-29 | 2023-03-07 | 淮阴工学院 | 一种化工巡检车轨迹跟踪方法及系统 |
CN116820016A (zh) * | 2023-08-31 | 2023-09-29 | 国汽(北京)智能网联汽车研究院有限公司 | 一种物流车的自动驾驶控制方法、装置、设备及存储介质 |
CN117471972A (zh) * | 2023-11-20 | 2024-01-30 | 山东建筑大学 | 一种自平衡主动规划路线智能单车控制方法及装置 |
CN118192617A (zh) * | 2024-05-17 | 2024-06-14 | 盐城工学院 | 一种无人驾驶车辆避障规划控制方法及系统 |
EP4435549A1 (en) * | 2023-03-24 | 2024-09-25 | Tata Consultancy Services Limited | Robotic navigation with simultaneous local path planning and learning |
CN115158342B (zh) * | 2022-07-29 | 2024-11-08 | 扬州大学 | 一种自动驾驶车辆的紧急导航定位实现方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110018689A (zh) * | 2019-05-15 | 2019-07-16 | 福州大学 | 一种基于动态窗口的多虚拟目标点全局动态路径规划算法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111413974A (zh) * | 2020-03-30 | 2020-07-14 | 清华大学 | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 |
CN112801149A (zh) * | 2021-01-15 | 2021-05-14 | 江苏大学 | 一种基于深度强化学习的多车队列控制方法 |
CN113460090A (zh) * | 2021-08-18 | 2021-10-01 | 清华大学 | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 |
-
2022
- 2022-02-24 CN CN202210176732.0A patent/CN114564016A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110018689A (zh) * | 2019-05-15 | 2019-07-16 | 福州大学 | 一种基于动态窗口的多虚拟目标点全局动态路径规划算法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111413974A (zh) * | 2020-03-30 | 2020-07-14 | 清华大学 | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 |
CN112801149A (zh) * | 2021-01-15 | 2021-05-14 | 江苏大学 | 一种基于深度强化学习的多车队列控制方法 |
CN113460090A (zh) * | 2021-08-18 | 2021-10-01 | 清华大学 | 自动驾驶车辆t型紧急避撞控制方法、系统、介质及设备 |
Non-Patent Citations (1)
Title |
---|
周润发: "融合动态场景信息和DDPG 算法的智能车 决策规划方法研究与应用", 电子科技大学硕士学位论文, 1 May 2021 (2021-05-01) * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115202341A (zh) * | 2022-06-16 | 2022-10-18 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
CN115202341B (zh) * | 2022-06-16 | 2023-11-03 | 同济大学 | 一种自动驾驶车辆横向运动控制方法及系统 |
CN114995455A (zh) * | 2022-06-23 | 2022-09-02 | 中山大学·深圳 | 一种车辆全局路径规划方法及系统 |
CN115373384A (zh) * | 2022-07-28 | 2022-11-22 | 安徽师范大学 | 一种基于改进rrt的车辆动态路径规划方法及系统 |
CN115158342A (zh) * | 2022-07-29 | 2022-10-11 | 扬州大学 | 一种自动驾驶车辆的紧急导航定位实现方法 |
CN115158342B (zh) * | 2022-07-29 | 2024-11-08 | 扬州大学 | 一种自动驾驶车辆的紧急导航定位实现方法 |
CN115390452A (zh) * | 2022-09-01 | 2022-11-25 | 湖南大学无锡智能控制研究院 | 一种lqr横向控制器参数在线自适应方法及系统 |
CN115542733A (zh) * | 2022-09-23 | 2022-12-30 | 福州大学 | 基于深度强化学习的自适应动态窗口法 |
CN115454085B (zh) * | 2022-09-26 | 2024-08-16 | 北京易航远智科技有限公司 | 基于导航地图的自动驾驶控制方法及自动驾驶控制装置 |
CN115454085A (zh) * | 2022-09-26 | 2022-12-09 | 北京易航远智科技有限公司 | 基于导航地图的自动驾驶控制方法及自动驾驶控制装置 |
CN115657683A (zh) * | 2022-11-14 | 2023-01-31 | 中国电子科技集团公司第十研究所 | 一种可用于巡检作业任务的无人无缆潜水器实时避障方法 |
CN115657683B (zh) * | 2022-11-14 | 2023-05-02 | 中国电子科技集团公司第十研究所 | 一种可用于巡检作业任务的无人无缆潜水器实时避障方法 |
CN115755919A (zh) * | 2022-11-29 | 2023-03-07 | 淮阴工学院 | 一种化工巡检车轨迹跟踪方法及系统 |
EP4435549A1 (en) * | 2023-03-24 | 2024-09-25 | Tata Consultancy Services Limited | Robotic navigation with simultaneous local path planning and learning |
CN116820016B (zh) * | 2023-08-31 | 2023-11-21 | 国汽(北京)智能网联汽车研究院有限公司 | 一种物流车的自动驾驶控制方法、装置、设备及存储介质 |
CN116820016A (zh) * | 2023-08-31 | 2023-09-29 | 国汽(北京)智能网联汽车研究院有限公司 | 一种物流车的自动驾驶控制方法、装置、设备及存储介质 |
CN117471972A (zh) * | 2023-11-20 | 2024-01-30 | 山东建筑大学 | 一种自平衡主动规划路线智能单车控制方法及装置 |
CN117471972B (zh) * | 2023-11-20 | 2024-08-27 | 山东建筑大学 | 一种自平衡主动规划路线智能单车控制方法及装置 |
CN118192617A (zh) * | 2024-05-17 | 2024-06-14 | 盐城工学院 | 一种无人驾驶车辆避障规划控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114564016A (zh) | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 | |
Zhang et al. | Adaptive decision-making for automated vehicles under roundabout scenarios using optimization embedded reinforcement learning | |
CN114312830B (zh) | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
CN107063280A (zh) | 一种基于控制采样的智能车辆路径规划系统及方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
Raji et al. | Motion planning and control for multi vehicle autonomous racing at high speeds | |
CN112046484A (zh) | 一种基于q学习的车辆变道超车路径规划方法 | |
Al-Sharman et al. | Self-learned autonomous driving at unsignalized intersections: A hierarchical reinforced learning approach for feasible decision-making | |
CN113581182B (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
CN115257819A (zh) | 城市低速环境下的大型营运车辆安全驾驶决策方法 | |
CN114228690A (zh) | 一种基于ddpg和迭代控制的自动驾驶车辆侧倾控制方法 | |
CN114435396B (zh) | 一种智能车辆交叉口行为决策方法 | |
CN116629114A (zh) | 多智能体的模型训练方法、系统、计算机设备和存储介质 | |
CN117433532A (zh) | 基于强化学习的智能车辆环岛决策快速落地方法及系统 | |
CN111413974B (zh) | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 | |
CN116127853A (zh) | 融合时序信息的基于ddpg的无人驾驶超车决策方法 | |
CN111857112A (zh) | 一种汽车局部路径规划方法及电子设备 | |
Liang et al. | Investigations on Speed Planning Algorithm and Trajectory Tracking Control of Intersection Scenarios Without Traffic Signs | |
Tan et al. | Driver steering model based on a target & control scheme | |
Molaie et al. | Auto-Driving Policies in Highway based on Distributional Deep Reinforcement Learning | |
AR et al. | Reinforcement Learning Based Parking Space Egress for Autonomous Driving | |
Zhang et al. | Trajectory planning based on spatio-temporal reachable set considering dynamic probabilistic risk | |
Reddy | Autonomous car: Deployment of reinforcement learning in various autonomous driving applications | |
CN117826825B (zh) | 基于人工势场算法的无人矿卡局部路径规划方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |