CN111785045B

CN111785045B - 基于演员-评论家算法的分布式交通信号灯联合控制方法

Info

Publication number: CN111785045B
Application number: CN202010555263.4A
Authority: CN
Inventors: 李骏; 张�杰; 王天誉; 梁腾
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2022-07-05
Anticipated expiration: 2040-06-17
Also published as: CN111785045A

Abstract

本发明公开了一种基于演员‑评论家算法的分布式交通信号灯联合控制方法。该方法包括以下步骤：将多智能体组成的网络进行数学建模；对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模，定义状态集、动作集、单步奖励值；构建多智能体联合控制模式，智能体之间建立通信连接交换各自的信息；建立柔性优势演员‑评论家算法，在单步奖励值中加入下一状态的策略熵，构建价值函数并加入优势函数；基于柔性优势演员‑评论家算法，以最小化车辆的平均等待时间为目标，每个交通路口的智能体采用联合柔性优势演员‑评论家算法进行学习和控制信号灯。本发明通过不同交通路口信号灯之间的协作控制，提升了交通网络整体的道路通畅度。

Description

基于演员-评论家算法的分布式交通信号灯联合控制方法

技术领域

本发明涉及自适应交通信号灯控制(Adaptive Traffic Signal Control,ATSC)技术领域，特别是一种基于演员-评论家算法的分布式交通信号灯联合控制方法。

背景技术

随着城市化程度的加深，大多数城市正面临着交通拥堵这一巨大难题。拥挤的道路交通环境不仅对环境造成很大程度的破坏，对于社会经济也造成巨大的负面影响。由于城市规划中预留的道路拓展空间小以及对城市内交通基础设施施工影响程度大，再加上人均车辆拥有数量的不断提高，问题将变得更加棘手。在此情况下，优化信号灯的控制技术是缓解该问题的简易经济的方式。相比于传统的调整不同时刻的配时方案，结合强化学习的自适应交通信号灯控制技术正成为全新的研究热点。在强化学习中，能够获取环境信息并作出决策执行相应动作的设备被称之为智能体，根据系统中实施强化学习智能体的数量，可分为单智能体强化学习和多智能体强化学习。

以前的研究主要围绕单个交通路口进行优化控制，忽视了城市交通网络中不同路口的车流往往会相互影响。另一方面，现有的研究主要基于Q学习展开，存在收敛值不稳定、Q值表过于庞大导致计算能力差、无法适应无限马尔可夫决策链等问题。

发明内容

本发明的目的在于提供一种基于演员-评论家算法的分布式交通信号灯联合控制方法，实现不同交通路口信号灯之间的协作控制以提升交通网络整体的道路通畅度。

实现本发明目的的技术解决方案为：一种基于演员-评论家算法的分布式交通信号灯联合控制方法，包括以下步骤：

步骤1、根据图论理论，将多智能体组成的网络进行数学建模；

步骤2、根据数学建模中的数学符号以及参数，对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模，定义状态集、动作集、单步奖励值；

步骤3、根据定义的各智能体状态集、动作集、单步奖励值，构建多智能体联合控制模式，智能体之间建立通信连接交换各自的信息；

步骤4、建立柔性优势演员-评论家算法，对步骤2中单步奖励值进行修正，在单步奖励值中加入下一状态的策略熵，构建价值函数，并在价值函数中加入优势函数；

步骤5、基于柔性优势演员-评论家算法，以最小化车辆在交通路口的平均等待时间为目标，采用多智能体联合控制模式对交通信号灯进行联合控制，即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯。

本发明与现有技术相比，其显著优点为：(1)考虑了交通网络中不同路口的车流相互影响，实现不同交通路口信号灯之间的协作控制，提升了交通网络整体的道路通畅度；(2)采用基于柔性优势演员评论家算法的分布式多智能体强化学习，用于多个交通信号灯联合控制，计算量小，且通信量也得到了改善。

附图说明

图1为动作集的定义示意图。

图2为多智能体联合控制模式示意图。

图3为基于柔性优势演员评论家算法的联合控制模式流程图。

图4为本发明在小规模交通网络中测试结果图。

图5为本发明在小规模交通网络中测试结果图。

具体实施方式

本发明提供一种基于演员-评论家算法的分布式交通信号灯联合控制方法，该方法包括以下步骤：

步骤5、基于柔性优势演员-评论家算法，以最小化车辆在交通路口的平均等待时间为目标，采用多智能体联合控制模式对交通信号灯进行联合控制，即每个交通路口的智能体采用联合柔性优势演员-评论家算法(Joint Soft Advantage Actor-Critic，简称JSA2C)进行学习和控制信号灯。

进一步地，步骤1所述根据图论理论，将多智能体组成的网络进行数学建模，具体如下：

将多智能体组成的网络定义为G(ν,ε)，其中ν是作为各个节点的智能体集合，ε是不同节点之间边的集合；对于智能体i，定义其关联节点的集合为Ν_i，智能体i与智能体j的最短路径长度为d_i,j，j∈N_i。

进一步地，步骤2所述根据数学建模中的数学符号以及参数，对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模，定义状态集、动作集、单步奖励值，具体如下：

(2.1)状态集

定义每个交通路口的本地状态s_t,x为

其中len_t[l]是车道上的队列长度，L_x是交通路口x的所有进口车道的集合，l表示每个进口车道，p_t是当前的相位；

(2.2)动作集

假设信号灯每个相位的时长固定，根据动作指令选择不同的相位对道路车流进行控制；当相位为p₁时，仅南北方向直行的道路将导通，即该方向上信号灯为绿灯而其他车道均是红灯；同理，相位为p₃时东西方向直行导通；相位为p₂时南至西方向和北至东方向的左转车道导通；相位为p₄时西至北方向和东至南方向的左转车道导通；

(2.3)奖励值

将交通路口x在t时刻的状态奖励值r_t,x定义为

其中queue[l]表示在每个进口车道上的车辆队列长度，|L_x|表示集合L_x中元素的数量。

进一步地，步骤3所述根据定义的各智能体状态集、动作集、单步奖励值，构建多智能体联合控制模式，智能体之间建立通信连接交换各自的信息，具体如下：

在一个交通网络中，每个交通路口将被部署一个智能体，该智能体具有识别状态、奖励值的传感器和图像识别系统，并能够控制该路口的红绿灯作出相应的相位调整；

同时，交通网络中的智能体选择与自身所在路口的距离低于设定阈值的路口的智能体进行通信连接，互相分享状态和奖励值信息；对于每个智能体，在整合自身采集以及被分享的数据信息后，在本地进行强化学习并作出相应的动作来控制信号灯。

进一步地，步骤4所述建立柔性优势演员-评论家算法，对步骤2中单步奖励值进行修正，在单步奖励值中加入下一状态的策略熵，构建价值函数，并在价值函数中加入优势函数，具体如下：

使用空间距离折合因子β∈(0,1)对信息价值进行加权，以此描述智能体i的关联节点对其影响随距离变化的程度，因此修正后的智能体i单步奖励值

表达式如下：

其中r_t为未加入策略熵前智能体可观测到的单步奖励值；

为未加入相关结点加权奖励值前的本地单步奖励值；d为智能体i与智能体j之间的拓扑距离；α是策略熵的权重；D_i是智能体i与其相关节点集合N_i中元素距离的最大值；

是智能体i可选择动作的集合；P(u_t+1|s_t+1)为智能体进入下一状态s_t+1时选择动作u_t+1的概率；

邻居节点的状态同样使用β对状态信息进行折合，智能体i的状态

表达式修正为

其中s_t,i为智能体i在t时刻本地观测到的状态信息；s_t,j为关联结点j在t时刻观测到的状态信息；β为相关结点信息权重；

为智能体i在t时刻整合后的状态值；

在价值函数中引入一个价值基准量V_w来预估期望回报

价值函数

表达式如下：

其中γ为价值函数的学习率；t_B为到达经验集合的最大步数的时间点；

为智能体i在τ时刻加入策略熵后的单步奖励值；

是智能体i在经验集合B内根据学习率折合的累计奖励值；

为智能体i在经验集合B内加入价值基准量后的价值函数值；

为智能体i根据策略π_θ所确定的价值基准量；

演员-评论家算法由Actor神经网络和Critic神经网络组成，对于Actor神经网络，算法利用参数θ进行描述，输出的是动作被选择的概率；

每个智能体的Actor神经网络的损失函数为

其中

表示Actor神经网络参数θ的损失函数；优势函数

|B|为经验集合的元素数量；π_θ(u_t,i|s_t,i)为智能体i在s_t,i状态下根据参数θ选择u_t,i时的概率。

对于Critic神经网络，选取两套参数来对价值函数进行更新R(s,w)，迭代更新并指导Critic神经网络参数的梯度更新，表达式如下：

w_targ←κw+(1-κ)w_targ

其中κ为学习率，w为价值函数网络的参数，w_targ为目标价值函数网络的参数；

定义智能体i的目标价值函数y_i(r,s',d)为：

其中d为完成信号，若t到达所采样经验池的最后一步则为1，否则为0；

为状态在s'时根据策略网络π_θ所选取的动作；α为策略熵的权重；

为根绝目标价值函数网络参数w_targ所得到的价值函数值。

由此Critic神经网络的损失函数为：

其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。

进一步地，步骤5所述基于柔性优势演员-评论家算法，以最小化车辆在交通路口的平均等待时间为目标，采用多智能体联合控制模式对交通信号灯进行联合控制，即每个交通路口的智能体采用联合柔性优势演员-评论家算法(Joint Soft Advantage Actor-Critic，简称JSA2C)进行学习和控制信号灯，具体为：

(5.1)对于由多个路口的交通信号灯组成的网络，根据拓扑结构制表确定相互关联的结点集合；

(5.2)就单个智能体而言，查表确定自身关联结点的集合，并检查该时刻是否与表中全部结点完成信息交换：若完成则跳转至步骤(5.4)，若未完成则进行步骤(5.3)；

(5.3)智能体与关联结点建立通信连接，交换各自信息，对相关结点的信息进行加权处理；

(5.4)智能体整合所有关联数据结点信息；

(5.5)智能体将数据输入本地神经网络，根据联合柔性优势演员-评论家算法进行学习，并输出动作指令；

(5.6)智能体从环境中获取新的状态信息和奖励值，并将数据存储至经验集合中；

(5.7)判断是否达到经验集合的最大步数，若未达到则跳转至步骤(5.2)进行重复；否则结束。

下面结合附图及具体实施例对本发明做进一步详细描述。

实施例

本实施例基于演员-评论家算法的分布式交通信号灯联合控制方法，包括以下几个阶段：

第一阶段：

本文利用图论理论定义将多智能体组成的网络定义为G(ν,ε)，其中ν是作为各个节点的智能体集合，ε是不同节点之间边的集合。对于智能体i，定义其关联节点的集合为Ν_i，智能体i与智能体j(j∈N_i)的最短路径长度为d_i,j。

第二阶段：

本文对交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行数学建模。在此定义其状态集、动作集、奖励值如下：

(1)状态集。定义每个交通路口的本地状态为

其中len_t[l]是车道上的队列长度，L_i是交通路口i的所有进口车道的集合，l表示每个进口车道，p_t是当前的相位。

(2)动作集。本文假设信号灯每个相位的时长固定，根绝动作指令选择不同的相位对道路车流进行控制。当相位为p₁时，仅南北方向直行的道路将导通，即该方向上信号灯为绿灯而其他车道均是红灯。同理，p₃为东西方向直行导通；相位p₂使南至西方向和北至东方向的左转车道导通；相位p₄使西至北方向和东至南方向的左转车道导通，如图1所示。

(3)奖励值。本文将交通路口i在t时刻的状态奖励值定义为

其中queue[l]表示在每个进口车道上的车辆队列长度，|L_i|表示集合L_i中元素的数量。

第三阶段：

多智能体环境下交通信号灯控制系统设计。本文设计了在中小规模交通网络中邻居智能体结点间相互通信进行多智能体强化学习的方案如图2所示，并将此称为多智能体联合控制模式。智能体之间建立通信连接交换各自的信息，包括状态、单步奖励值等等。同时，由于距离越远的交通路口之间车流相互作用的程度越低，可以对在一定范围的关联节点赋予一定的空间折扣因素来体现随空间而变化的信息价值，相关算法实现将在第四阶段详细讨论。可以看出，这种方案的计算成本相比集中控制模式大幅度减小，通信量相比于独立控制模式也得到改善。联合控制模式的具体流程如图2所示。

第四阶段：

联合柔性优势演员-评论家算法描述。本算法中使用空间距离折合因子β∈(0,1)对信息价值进行加权，以此描述智能体i的关联节点对其影响随距离变化的程度。因此单步奖励值

表达式如下：

其中，D_i是智能体i与其相关节点集合N_i中元素距离的最大值。加权后的价值函数

表达式如下：

其次，邻居节点的状态同样可以使用β对进行折合，智能体i的状态表达式为

每个智能体的Actor网络的损失函数相为

其中

对于Critic网络，此算法选取了两套参数来对价值函数进行更新，表达式如下：

w_targ←κw+(1-κ)w_targ,

其中κ为学习率，w为价值函数网络的参数，w_targ为目标价值函数网络的参数。定义目标价值函数y_i(r,s',d)为：

其中d为完成信号，若t到达所采样经验池的最后一步则为1，否则为0。

为状态在s'时根据策略网络π_θ所选取的动作。

由此Critic网络的损失函数为

其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。算法伪代码见表1。

表1柔性优势演员-评论家算法伪代码

第五阶段：

结合联合柔性优势演员-评论家算法对交通信号灯系统应用多智能体联合控制模式，其方案实现过程如图3流程图所示。

第六阶段：

本文在一个2×2交通网络中对本发明的算法进行测试，得到每回合内每个路口的平均奖励值与每回合内车辆在每个路口的平均等待时间结果，如图4、图5所示。

其中，对于每一个交通路口，本文假设智能体能够观测到在进口车道上50m范围内的环境信息，在编写代码过程中，将该50m长的道路分割成10个单位队列长度(Δl)。另外，信号灯在每个选择每个相位动作后持续(Δt＝15s)。绿灯亮起后，对应导通的车道上将允许最大长度为4Δl的队列内的车辆通过路口。通过计算每个回合内车辆通过路口的平均等待时间(单位为Δt)和每个回合内路口的平均奖励值(单位为Δl)来体现其性能。

基于柔性优势演员-评论家算法的分布式交通信号灯联合控制技术基本流程如下：

步骤1：对于由多个路口的交通信号灯组成的网络根据其拓扑结构制表，确定相互关联的结点集合。

步骤2：就单个智能体而言，查表确定自身关联结点的集合，并检查该时刻是否与全部结点完成信息交换。若完成则跳转至步骤4，若未完成则进行步骤3。

步骤3：与关联结点建立通信连接，交换各自信息。对相关结点的信息进行加权处理。

步骤4：整合所有关联数据结点信息。

步骤5：将数据输入神经网络，根据JSA2C算法进行学习，并输出动作指令。

步骤6：从环境中获取新的状态信息和奖励值，并将数据存储至经验集合中。

步骤7：判断是否结束。若未结束则跳转至步骤2进行重复。若结束，则结束。

综上所述，本发明考虑了交通网络中不同路口的车流相互影响，实现不同交通路口信号灯之间的协作控制，提升了交通网络整体的道路通畅度；采用基于柔性优势演员评论家算法的分布式多智能体强化学习，用于多个交通信号灯联合控制，计算量小，且通信量也得到了改善。

Claims

1.一种基于演员-评论家算法的分布式交通信号灯联合控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法，其特征在于，步骤1所述根据图论理论，将多智能体组成的网络进行数学建模，具体如下：

3.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法，其特征在于，步骤2所述根据数学建模中的数学符号以及参数，对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模，定义状态集、动作集、单步奖励值，具体如下：

(2.1)状态集

定义每个交通路口的本地状态s_t,x为

(2.2)动作集

(2.3)奖励值

将交通路口x在t时刻的状态奖励值r_t,x定义为

4.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法，其特征在于，步骤3所述根据定义的各智能体状态集、动作集、单步奖励值，构建多智能体联合控制模式，智能体之间建立通信连接交换各自的信息，具体如下：

在一个交通网络中，每个交通路口将被部署一个智能体，该智能体具有识别状态、奖励值的传感器和图像识别系统，并能够控制该路口的红绿灯作出相应的相位调整；同时，交通网络中的智能体选择与自身所在路口的距离低于设定阈值的路口的智能体进行通信连接，互相分享状态和奖励值信息；对于每个智能体，在整合自身采集以及被分享的数据信息后，在本地进行强化学习并作出相应的动作来控制信号灯。

5.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法，其特征在于，步骤4所述建立柔性优势演员-评论家算法，对步骤2中单步奖励值进行修正，在单步奖励值中加入下一状态的策略熵，构建价值函数，并在价值函数中加入优势函数，具体如下：

表达式如下：

其中r_t为未加入策略熵前智能体可观测到的单步奖励值；r_t ^soft为未加入相关结点加权奖励值前的本地单步奖励值；d为智能体i与智能体j之间的拓扑距离；α是策略熵的权重；D_i是智能体i与其相关节点集合N_i中元素距离的最大值；u是智能体i可选择动作的集合；P(u_t+1|s_t+1)为智能体进入下一状态s_t+1时选择动作u_t+1的概率；

表达式修正为

为智能体i在t时刻整合后的状态值；

在价值函数中引入一个价值基准量V_w来预估期望回报

价值函数

表达式如下：

为智能体i在τ时刻加入策略熵后的单步奖励值；

是智能体i在经验集合B内根据学习率折合的累计奖励值；

为智能体i在经验集合B内加入价值基准量后的价值函数值；

为智能体i根据策略π_θ所确定的价值基准量；

每个智能体的Actor神经网络的损失函数为

其中

表示Actor神经网络参数θ的损失函数；优势函数

|B|为经验集合的元素数量；π_θ(u_t,i|s_t,i)为智能体i在s_t,i状态下根据参数θ选择u_t,i时的概率；

w_targ←κw+(1-κ)w_targ

定义智能体i的目标价值函数y_i(r,s',d)为：

为根绝目标价值函数网络参数w_targ所得到的价值函数值；

由此Critic神经网络的损失函数为：

6.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法，其特征在于，步骤5所述基于柔性优势演员-评论家算法，以最小化车辆在交通路口的平均等待时间为目标，采用多智能体联合控制模式对交通信号灯进行联合控制，即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯，具体为：

(5.2)就单个智能体而言，查表确定自身关联结点的集合，并检查当前时刻是否与表中全部结点完成信息交换：若完成则跳转至步骤(5.4)，若未完成则进行步骤(5.3)；

(5.4)智能体整合所有关联数据结点信息；