CN114435396B

CN114435396B - 一种智能车辆交叉口行为决策方法

Info

Publication number: CN114435396B
Application number: CN202210016757.4A
Authority: CN
Inventors: 陈雪梅; 韩欣彤; 孔令兴; 肖龙
Original assignee: Advanced Technology Research Institute of Beijing Institute of Technology
Current assignee: Advanced Technology Research Institute of Beijing Institute of Technology
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2023-06-27
Anticipated expiration: 2042-01-07
Also published as: CN114435396A

Abstract

本申请公开了一种智能车辆交叉口行为决策方法，方法包括：确定预设分层强化学习决策模型，包括上层路径策略与下层动作策略；获取智能车辆的环境观测状态，环境观测状态包括智能车辆的位置信息与速度信息以及障碍物的位置信息与速度信息；根据环境观测状态，通过上层路径策略，生成智能车辆通过交叉口的转弯半径；根据环境观测状态及转弯半径，通过下层动作策略，得到智能车辆的纵向加速度；根据环境观测状态以及转弯半径，对下层动作策略进行更新，以对纵向加速度进行更新；根据转弯半径，通过预设策略奖励函数，得到下层动作策略的回合总奖励值；根据回合总奖励值、环境观测状态、转弯半径，对上层路径策略进行更新，以对转弯半径进行更新。

Description

一种智能车辆交叉口行为决策方法

技术领域

本申请涉及辅助驾驶领域，具体涉及一种智能车辆交叉口行为决策方法。

背景技术

由于智能车辆在安全、效率、舒适性方面具有巨大潜力，已逐步成为未来交通核心。要实现在高密度、混杂交通流环境下自主驾驶，智能车辆行为决策能力仍面临严峻的挑战。现有的决策方法主要有三种，一是基于规则的行为决策，二是基于概率模型的行为决策，三是基于学习的决策模型。

这些决策方法忽略了环境中动态交通因素的复杂性和不确定性，与人类驾驶员相比，它们过于保守，灵活性不够，不能胜任有人无人混合交通环境下的行为决策任务。

发明内容

为了解决上述问题，本申请提出了一种智能车辆交叉口行为决策方法，包括：

确定预设分层强化学习决策模型；所述预设分层强化学习决策模型包括上层路径策略与下层动作策略；获取智能车辆的环境观测状态，所述环境观测状态包括所述智能车辆的位置信息与速度信息以及障碍物的位置信息与速度信息；根据所述环境观测状态，通过所述上层路径策略，生成所述智能车辆通过所述交叉口的转弯半径；根据所述环境观测状态及所述转弯半径，通过下层动作策略，得到所述智能车辆的纵向加速度；根据所述环境观测状态以及所述转弯半径，对所述下层动作策略进行更新，以对所述纵向加速度进行更新；根据所述转弯半径，通过预设策略奖励函数，得到所述下层动作策略的回合总奖励值；根据所述回合总奖励值、所述环境观测状态、所述转弯半径，对所述上层路径策略进行更新，以对所述转弯半径进行更新。

在一个示例中，根据所述转弯半径，通过预设策略奖励函数，得到所述下层动作策略的回合总奖励值之前，所述方法还包括：根据不同驾驶员进行转向时对应的车速，确定多种不同的驾驶风格分别对应的期望速度；建立所述期望速度与所述转弯半径的连续映射；根据所述期望速度与所述转弯半径的连续映射、所述智能车辆的转弯特性、所述智能车辆的碰撞次数、所述智能车辆通过所述交叉口路段的时间以及所述智能车辆的停车次数，建立所述智能车辆的策略奖励函数。

在一个示例中，其特征在于，所述建立所述期望速度与所述转弯半径的连续映射，具体包括：确定所述智能车辆在做等速圆周运动时对应的车速与所述转弯半径的运动关系表达式为

其中，r为圆周运动的半径，V为车速，ω_r是车辆的横摆角速度，k为稳定性因数，l为汽车轴距，α是转向盘转角；根据所述运动关系式以及所述智能车辆设定的稳定性要求，建立所述策略奖励函数中所述期望速度与所述转弯半径的连续映射表达式；所述连续映射关系式为V_cri＝a·r²+b·r+c，其中，V_cri为所述期望速度；根据所述多种不同的驾驶风格分别对应的期望速度，确定a、b、c的值。

在一个示例中，所述建立所述智能车辆的策略奖励函数，具体包括：基于所述智能车辆在转弯过程中碰撞次数、所述智能车辆通过所述交叉口路段的时间、所述智能车辆的停车次数，确定所述智能车辆的策略奖励函数；所述策略奖励函数的表达式为：R＝R_safe+k₁·R_speed+k₂·R_arrive+k₃·R_move-0.1(k₁，k₂，k₃∈R)；其中，R_safe为对碰撞的惩罚，

为本车速度与期望速度的平方差和穿过交叉口的奖励，R_move为到达目的地的奖励，k₁，k₂，k₃为预设比例系数。

在一个示例中，所述确定预设分层强化学习决策模型之前，所述方法还包括：初始化所述下层动作策略的网络及所述上层路径策略的网络，并初始化经验池；构建若干个随机场景；在所述若干个随机场景中，所述智能车辆的位置信息与速度信息以及所述障碍物的位置信息与速度信息都不相同；通过所述智能车辆与所述若干个随机场景进行交互，得到初始数据；使用所述初始数据训练所述下层动作策略以及所述上层路径策略，以更新所述上层路径策略与所述下层动作策略的网络参数。

在一个示例中，所述根据所述环境观测状态，通过所述上层路径策略，生成所述智能车辆通过所述交叉口的转弯半径，具体包括：所述上层路径策略采用策略梯度学习算法，根据所述环境观测状态中所述智能车辆的位置信息与速度信息以及障碍物的位置信息与速度信息、交叉口信息，得到所述转弯半径。

在一个示例中，根据所述环境观测状态及所述转弯半径，通过下层动作策略，得到所述智能车辆的纵向加速度，具体包括：所述下层动作策略采用基于深度确定性策略梯度算法DDPG的强化学习算法；输入所述环境观测状态及所述转弯半径，其中，所述环境观测状态表示为状态空间S＝(S_ego，V_ego，S_env1，V_env1，…，S_envi，V_envi)；其中S_envi表示第i个所述障碍物在大地坐标系下的二维坐标信息，即S_envi＝[x_envi，y_envi]，V_ego表示所述智能车辆的绝对速度；所述下层动作策略的输出动作空间为所述纵向加速度。

在一个示例中，根据所述环境观测状态以及所述转弯半径，对所述下层动作策略进行更新，具体包括：将所述交叉口附近预设范围内所述障碍物的位置信息和速度信息、随机转弯半径、所述智能车辆的速度信息存放至经验池中，并进行迭代训练；确定所述下层动作策略的行动者网络及评判者网络收敛，停止所述下层动作策略的训练，以对所述下层动作策略进行更新。

在一个示例中，得到所述智能车辆的纵向加速度之后，所述方法还包括：

根据所述智能车辆的转弯半径，确定所述智能车辆的期望路径；根据所述智能车辆的所述位置信息和所述期望路径，得到所述智能车辆的横向偏差和航向偏差；根据所述横向偏差和所述航向偏差，得到所述智能车辆的前轮转角；根据所述纵向加速度及所述前轮转角，得到所述智能车辆的油门踏板与刹车踏板的位移距离和方向盘转角，以使所述智能车辆根据油门踏板与刹车踏板的位移距离和方向盘转角行驶通过所述交叉口。

在一个示例中，根据所述智能车辆的所述位置信息和所述期望路径，得到所述智能车辆的横向偏差和航向偏差，具体包括：采用基于阿克曼转向模型的Stanley路径跟踪算法，得到基本转向角公式；所述基本转向角公式为：

其中，e为所述智能车辆的前轴中心到最近路径点的距离，δ_e代表航向偏差，K为增益参数，θ_e为所述智能车辆前轮线速度方向与车身航向之间的夹角。

本申请提供的技术方案针对交叉口转弯均依赖于固定转弯路径问题，考虑转弯过程中的不同的转弯路径的选择和不同驾驶员风格的驾驶习惯，在驾驶数据中提取交叉口场景中三种不同的转弯路径。针对智能车辆转弯穿越交叉口的实时性和环境自适应性问题，引入分层强化学习的思想，同时考虑驾驶员特性，建立基于驾驶员风格和车辆转弯特性的策略奖励函数。本发明所提出的算法具有更好的收敛性，且与固定转弯路径的决策模型相比，横纵向策略结合的多路径选择决策算法提高了智能车辆穿行交叉口的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种智能车辆交叉口行为决策方法流程示意图；

图2为本申请实施例中智能车辆交叉口三种转弯情况示意图；

图3为本申请实施例中智能车辆交叉口车速与半径关系示意图；

图4为本申请实施例中智能车辆交叉口左转路径示意图；

图5为本申请实施例中智能车辆stanley路径跟踪示意图；

图6为本申请实对照试验中，单DDPG算法输出动作空间时的总奖励值示意图；

图7为本申请实对照试验中，分层强化学习算法输出动作空间时的总奖励值示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。本申请实施例涉及的分析方法的实现可以为终端设备，也可以为服务器，本申请对此不作特殊限制。为了方便理解和描述，以下实施例均以终端设备为例进行详细描述。

如图1所示，本申请实施例提供一种智能车辆交叉口行为决策方法，包括：

S101：确定预设分层强化学习决策模型；所述预设分层强化学习决策模型包括上层路径策略与下层动作策略。

本申请设计的分层强化学习决策系统分为上层和下层两个策略，上层的路径策略π_l以及下层的动作策略π_e。其中，上层路径策略负责输出转弯半径，以使智能车辆生成期望路径，从而帮助智能车辆进行转弯；下层的动作策略则是输出纵向加速度，即控制车辆以安全、稳定的速度进行转弯。

S102：获取智能车辆的环境观测状态，所述环境观测状态包括所述智能车辆的位置信息与速度信息以及障碍物的位置信息与速度信息。

为使得上层路径策略以及下层动作策略能够生成合适的转弯半径以及纵向加速度，终端设备需要通过智能车辆与环境交互采样，得到智能车辆的环境观测状态，环境观测状态中包括智能车辆的位置信息以及速度信息，交叉口附近的预设范围内的障碍物的位置信息以及速度信息，这里的障碍物可以是其他车辆，也可以是路障等不能移动的障碍物。

S103：根据所述环境观测状态，通过所述上层路径策略，生成所述智能车辆通过所述交叉口的转弯半径。

S104：根据所述环境观测状态及所述转弯半径，通过下层动作策略，得到所述智能车辆的纵向加速度。

终端设备获取智能车辆的环境观测状态之后，将环境观测状态输入预先设置的分层强化学习模型中，分别通过上层路径策略以及下层的动作策略得到智能车辆的纵向加速度。

S105：根据所述环境观测状态以及所述转弯半径，对所述下层动作策略进行更新，以对所述纵向加速度进行更新。

由于在智能车辆的转弯过程中，环境观测状态在随时改变，导致与其他车辆的冲突点也可能随时发生改变，因此对于分层强化学习模型也需要时刻进行训练，更新分层强化学习模型的各类网络参数。本申请在进行训练时，上下两层策略采用自下而上的交互训练方式，因此在得到转弯半径之后，需要根据当前时刻的环境观测状态、上一时刻的环境观测状态、上一时刻生成的转弯半径，对下层动作策略进行更新，以对纵向加速度进行更新。

S106：根据所述转弯半径，通过预设策略奖励函数，得到所述下层动作策略的回合总奖励值。

S107：根据所述回合总奖励值、所述环境观测状态、所述转弯半径，对所述上层路径策略进行更新，以对所述转弯半径进行更新。

也就是说，终端设备在对下层动作策略更新的同时，根据预设的策略奖励函数，得到下层动作策略生成不同动作分别对应的回合总奖励值，上层路径策略将动作策略的回合总奖励值作为上层策略的反馈值，根据上一时刻的环境观测状态、转弯半径、反馈值、当前的环境观测状态，更新上层路径策略中的各个网络参数，从而更新当前时刻的转弯半径。

在一个示例中，由于现有技术中，大量针对交叉口转弯的研究都依赖于固定的转弯路径，而在实际交叉口场景中，车辆的转弯路径会根据周围车流速度或是车流量而改变。本申请考虑转弯过程中的不同的转弯路径的选择，依照交通规则的同时，参考不同驾驶员风格的驾驶习惯，在驾驶数据中提取交叉口场景中三种不同的转弯路径，分别对应冲动型、正常型和保守型三种驾驶风格。不同的驾驶风格对应着不同的转弯策略，具体体现在加速度和车速上。关于人的驾驶风格分析和提取特征可以用于类人决策模型的奖励函数的设计中，本申请借鉴不同驾驶风格驾驶员转弯时的速度数据，统计不同类型的速度期望值。再根据智能车辆的转弯规律，建立奖励函数中期望速度与转弯半径的连续映射。再综合考虑智能车辆在转弯过程中的安全性、效率性以及舒适性，即智能车辆的碰撞次数、智能车辆通过所述交叉口路段的时间、智能车辆的停车次数，建立智能车辆的策略奖励函数。

进一步地，如图2、图3所示，终端设备在建立奖励函数的过程中，建立期望速度与转弯半径的连续映射时，结合基于车辆动力学的转向特性，并根据转弯时的车辆速度等影响，以左转为例，车辆会出现不足转向、中性转向和过度转向三种情况。由于汽车在做等速圆周运动时，有以下关系：

其中，r为圆周运动的半径，V为车速，ω_r是车辆的横摆角速度，k为稳定性因数，k为汽车轴距，α是转向盘转角。结合车辆的稳定性要求，可以得出车速越高，车辆的转弯半径越大，转弯半径越小，对应的车辆期望速度越低。因此，可以建立奖励函数中的期望速度与转弯半径的连续映射关系，具体表达式为：V_cri＝a·r²+b·r+c。其中，V_cri是期望速度，a、b、c为未知参数，可以将多种不同的驾驶风格分别对应的期望速度代入到该表达式中，从而计算出a、b、c的值。例如，取冲动型、正常型、保守型的左转平均速度分别为23km/h，15km/h，6km/h，假设车辆的左转轨迹为四分之一圆弧，将以上三个速度分别对应大转弯半径，中转弯半径，小转弯半径的期望速度，由此即可确定a、b、c三个参数的值。

更进一步的，在确定期望速度与转弯半径的连续映射关系之后，在建立智能车辆的策略奖励函数时，需要基于实际出发，兼顾考虑智能车辆在转弯时的安全性、效率性以及舒适性，从而设计针对于城市交叉库行为决策分段式的多目标优化奖励函数。出于安全性的考虑，可以体现为对于智能车辆与障碍物的碰撞，如果一旦发生碰撞，将会受到惩罚。因此R_safe可以设置为R_safe＝-600。当然，也可以是其他数值。对于智能车辆通过交叉口的效率性，可以体现为本车速度与期望速度的平方差以及智能车辆成功通过交叉口的奖励，其中速度方面

而智能车辆成功转弯到达目的地的奖励项可以设置为：R_arrive＝800-100·t。其中，t表示智能车辆通过交叉口消耗的时间。舒适性则可以体现为车辆的停车次数，目的是使车辆在行驶过程中尽量不要停车，从而避免急减速，能够在需要让行的场景中提前减速。因此，R_move＝-1，ifV_ego＝0。其中，V_ego是车辆的实际速度。R_speed中的期望速度随不同的转弯半径而变化，借鉴真实驾驶数据，考虑不同驾驶风格的驾驶特点，设置具体的期望速度与转弯半径的映射关系，符合车辆左转时的动力学特性。在小转弯半径上的车辆的行驶速度偏低，策略趋于让行，在大转弯半径上的车辆的行驶速度偏高，策略趋于先行。

在一个示例中，在智能车辆进入交叉口之前，还需要对分层强化学习决策模型进行训练，此时首先要初始化下层动作策略的网络以及上层路径策略的网络，并初始化经验池。由于此时智能车辆还未进入交叉口，因此需要生成随机场景，智能车辆通过与随机场景进行交互，获取各类初始数据对模型进行训练，直至车辆进入交叉口。

在一个示例中，上层路径策略通过环境观测状态生成转弯半径时，采用基于策略梯度的REINFORCE算法，输入为连续值，输出为离散值，根据，环境观测状态中智能车辆的位置信息与速度信息以及障碍物的位置信息与速度信息、交叉口信息，选择合适的转弯半径，使本车智能体能够在该路径上行驶效率最高。

在一个示例中，下层动作策略在生成智能车辆的纵向加速度时，可以采用基于深度确定性策略梯度算法，也就是基于DDPG算法的强化学习算法，其中状态空间表示为S＝(S_ego，V_ego，S_env1，V_env1，…，S_envi，V_envi)；其中S_envi表示第i个所述障碍物在大地坐标系下的二维坐标信息，即S_envi＝[x_envi，y_envi]，V_ego表示所述智能车辆的绝对速度；所述下层动作策略的输出动作空间为所述纵向加速度。本专利设置决策输出的期望加速度范围为[-2m/s²，2m/s²]。动作策略的目标是能够根据当前环境状态、本车状态和转弯半径生成合适的本车纵向加速度，以使本车智能体能够兼顾效率和安全穿行交叉口。

在一个示例中，在对下层动作策略模型进行更新时，将与环境交互采样得到的数据和输入的转弯半径导入(S_t，a_t，r_t，a_t+1)中，并存放到经验池每回合循环。其中，S_t是上一时刻的环境观测状态，直至下层动作策略的行动者网络和评判者网络至收敛。在对上层路径策略进行训练时，需要计算上层路径策略的奖励值R_πl，其中R_πl＝∑_τr_t，然后使用REINFORCE方法更新路径策略网络参数

在一个实施例中，在得到车辆的纵向加速度和转弯半径之后，还需要根据转弯半径确定智能车辆的期望路径。再根据智能车辆的位置信息和期望路径，得到智能车辆的横向偏差以及航向偏差，从而得到智能车辆的前轮转角，根据纵向加速度以及前轮转角，得到智能车辆的油门或刹车大小和方向盘转角，从而使得智能车辆能够顺利行驶通过该交叉口。

进一步地，如图4、图5所示，本申请中默认智能车辆的转弯轨迹为四分之一圆弧。在确定横向偏差以及航向偏差时，采用基于阿克曼转向模型的stanley路径跟踪算法，可以根据几何关系得出：

其中，e为前轴中心到最近路径点的距离，δ_e代表航向偏差，m为增益参数。由此可以得到基本转向角公式为：

本专利根据车辆当前位置和期望路径，得到横向偏差e和航向偏差δ_e，输出前轮转向角δ的横向控制给到仿真平台中，利用Carla动力学模型将δ转换为方向盘角度进行横向控制。

在一个实施例中，本申请基于Carla和Gym仿真平台，验证分层强化学习决策算法处理一般交叉口场景左转任务时兼顾横纵向策略的能力。测试中，设置两辆对向直行车，每回合随机初始化两辆直行车的位置和速度，对分层强化学习进行训练和测试，每训练20回合后，测试5回合取1次结果。假设车辆转弯轨迹为四分之一圆弧，转弯半径r∈L，设置r为：r_i＝c_iD(i∈1，2，3)，式中，c_i为半径系数，D取决于交叉口的大小。车辆进入交叉口的起点到目标车道中心线的垂直距离D为30m，取最大的c_i为0.6，上层的路径选择策略的动作空间设置为12m，15m，18m三个离散值。同时设置对照实验，对照组是使用单强化学习决策算法输出两个动作指令，一个是转弯半径，另一个是加速度。

如图6、图7所示为两种方法的训练结果，横坐标为测试次数，纵坐标为测试回合的总奖励值。从图可以看出，单DDPG算法在输出连续-离散混合的动作空间时效果并不理想，而分层强化学习算法呈明显的上升趋势，在25次测试之后总奖励值可以达到-50(越接近于0效果越好)。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种智能车辆交叉口行为决策方法，其特征在于，包括：

确定预设分层强化学习决策模型；所述预设分层强化学习决策模型包括上层路径策略与下层动作策略；

获取智能车辆的环境观测状态，所述环境观测状态包括所述智能车辆的位置信息与速度信息以及障碍物的位置信息与速度信息；

根据所述环境观测状态，通过所述上层路径策略，生成所述智能车辆通过所述交叉口的转弯半径；

根据所述环境观测状态及所述转弯半径，通过下层动作策略，得到所述智能车辆的纵向加速度；

根据所述环境观测状态以及所述转弯半径，对所述下层动作策略进行更新，以对所述纵向加速度进行更新；

根据所述转弯半径，通过预设策略奖励函数，得到所述下层动作策略的回合总奖励值；

根据所述回合总奖励值、所述环境观测状态、所述转弯半径，对所述上层路径策略进行更新，以对所述转弯半径进行更新。

2.根据权利要求1所述的方法，其特征在于，根据所述转弯半径，通过预设策略奖励函数，得到所述下层动作策略的回合总奖励值之前，所述方法还包括：

根据不同驾驶员进行转向时对应的车速，确定多种不同的驾驶风格分别对应的期望速度；

建立所述期望速度与所述转弯半径的连续映射；

根据所述期望速度与所述转弯半径的连续映射、所述智能车辆的转弯特性、所述智能车辆的碰撞次数、所述智能车辆通过所述交叉口路段的时间以及所述智能车辆的停车次数，建立所述智能车辆的策略奖励函数。

3.根据权利要求2所述的方法，其特征在于，所述建立所述期望速度与所述转弯半径的连续映射，具体包括：

确定所述智能车辆在做等速圆周运动时对应的车速与所述转弯半径的运动关系表达式为

其中，r为圆周运动的半径，V为车速，ω_r是车辆的横摆角速度，k为稳定性因数，l为汽车轴距，α是转向盘转角；

根据所述运动关系表达式以及所述智能车辆设定的稳定性要求，建立所述策略奖励函数中所述期望速度与所述转弯半径的连续映射表达式；所述连续映射关系式为V_cri＝a·r²+b·r+c，其中，V_cri为所述期望速度，a、b、c为未知参数；

根据所述多种不同的驾驶风格分别对应的期望速度，确定a、b、c的值。

4.根据权利要求3所述的方法，其特征在于，所述建立所述智能车辆的策略奖励函数，具体包括：

基于所述智能车辆在转弯过程中碰撞次数、所述智能车辆通过所述交叉口路段的时间、所述智能车辆的停车次数，确定所述智能车辆的策略奖励函数；

所述策略奖励函数的表达式为：

R＝R_safe+k₁·R_speed+k₂·R_arrive+k₃·R_move-0.1；

其中，R为策略奖励函数，R_safe为对碰撞的惩罚，

为本车速度与期望速度的平方差，作为穿过交叉口的奖励，R_move为到达目的地的奖励，k₁，k₂，k₃为预设比例系数。

5.根据权利要求1所述的方法，其特征在于，所述确定预设分层强化学习决策模型之前，所述方法还包括：

初始化所述下层动作策略的网络及所述上层路径策略的网络，并初始化经验池；

构建若干个随机场景；在所述若干个随机场景中，所述智能车辆的位置信息与速度信息以及所述障碍物的位置信息与速度信息都不相同；

通过所述智能车辆与所述若干个随机场景进行交互，得到初始数据；

使用所述初始数据训练所述下层动作策略以及所述上层路径策略，以更新所述上层路径策略与所述下层动作策略的网络参数。

6.根据权利要求1所述的方法，其特征在于，所述根据所述环境观测状态，通过所述上层路径策略，生成所述智能车辆通过所述交叉口的转弯半径，具体包括：

所述上层路径策略采用策略梯度学习算法，根据所述环境观测状态中所述智能车辆的位置信息与速度信息以及障碍物的位置信息与速度信息、交叉口信息，得到所述转弯半径。

7.根据权利要求1所述的方法，其特征在于，根据所述环境观测状态及所述转弯半径，通过下层动作策略，得到所述智能车辆的纵向加速度，具体包括：

所述下层动作策略采用基于深度确定性策略梯度算法DDPG的强化学习算法；

输入所述环境观测状态及所述转弯半径，其中，所述环境观测状态表示为状态空间S＝(S_ego，V_ego，S_env1，V_env1，…，S_envi，V_envi)；

其中S_envi表示第i个所述障碍物在大地坐标系下的二维坐标信息，即S_envi＝[x_envi，y_envi]，V_ego表示所述智能车辆的绝对速度；所述下层动作策略的输出动作空间为所述纵向加速度。

8.根据权利要求1所述的方法，其特征在于，根据所述环境观测状态以及所述转弯半径，对所述下层动作策略进行更新，具体包括：

将所述交叉口附近预设范围内所述障碍物的位置信息和速度信息、随机转弯半径、所述智能车辆的速度信息存放至经验池中，并进行迭代训练；

确定所述下层动作策略的行动者网络及评判者网络收敛，停止所述下层动作策略的训练，以对所述下层动作策略进行更新。

9.根据权利要求1所述的方法，其特征在于，得到所述智能车辆的纵向加速度之后，所述方法还包括：

根据所述智能车辆的转弯半径，确定所述智能车辆的期望路径；

根据所述智能车辆的所述位置信息和所述期望路径，得到所述智能车辆的横向偏差和航向偏差；

根据所述横向偏差和所述航向偏差，得到所述智能车辆的前轮转角；

根据所述纵向加速度及所述前轮转角，得到所述智能车辆的油门踏板与刹车踏板的位移距离和方向盘转角，以使所述智能车辆根据油门踏板与刹车踏板的位移距离和方向盘转角行驶通过所述交叉口。

10.根据权利要求9所述的方法，其特征在于，根据所述智能车辆的所述位置信息和所述期望路径，得到所述智能车辆的横向偏差和航向偏差，具体包括：

采用基于阿克曼转向模型的Stanley路径跟踪算法，得到基本转向角公式；

所述基本转向角公式为：