Nothing Special   »   [go: up one dir, main page]

CN111785045B - 基于演员-评论家算法的分布式交通信号灯联合控制方法 - Google Patents

基于演员-评论家算法的分布式交通信号灯联合控制方法 Download PDF

Info

Publication number
CN111785045B
CN111785045B CN202010555263.4A CN202010555263A CN111785045B CN 111785045 B CN111785045 B CN 111785045B CN 202010555263 A CN202010555263 A CN 202010555263A CN 111785045 B CN111785045 B CN 111785045B
Authority
CN
China
Prior art keywords
agent
traffic
value
actor
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010555263.4A
Other languages
English (en)
Other versions
CN111785045A (zh
Inventor
李骏
张�杰
王天誉
梁腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010555263.4A priority Critical patent/CN111785045B/zh
Publication of CN111785045A publication Critical patent/CN111785045A/zh
Application granted granted Critical
Publication of CN111785045B publication Critical patent/CN111785045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于演员‑评论家算法的分布式交通信号灯联合控制方法。该方法包括以下步骤:将多智能体组成的网络进行数学建模;对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;建立柔性优势演员‑评论家算法,在单步奖励值中加入下一状态的策略熵,构建价值函数并加入优势函数;基于柔性优势演员‑评论家算法,以最小化车辆的平均等待时间为目标,每个交通路口的智能体采用联合柔性优势演员‑评论家算法进行学习和控制信号灯。本发明通过不同交通路口信号灯之间的协作控制,提升了交通网络整体的道路通畅度。

Description

基于演员-评论家算法的分布式交通信号灯联合控制方法
技术领域
本发明涉及自适应交通信号灯控制(Adaptive Traffic Signal Control,ATSC)技术领域,特别是一种基于演员-评论家算法的分布式交通信号灯联合控制方法。
背景技术
随着城市化程度的加深,大多数城市正面临着交通拥堵这一巨大难题。拥挤的道路交通环境不仅对环境造成很大程度的破坏,对于社会经济也造成巨大的负面影响。由于城市规划中预留的道路拓展空间小以及对城市内交通基础设施施工影响程度大,再加上人均车辆拥有数量的不断提高,问题将变得更加棘手。在此情况下,优化信号灯的控制技术是缓解该问题的简易经济的方式。相比于传统的调整不同时刻的配时方案,结合强化学习的自适应交通信号灯控制技术正成为全新的研究热点。在强化学习中,能够获取环境信息并作出决策执行相应动作的设备被称之为智能体,根据系统中实施强化学习智能体的数量,可分为单智能体强化学习和多智能体强化学习。
以前的研究主要围绕单个交通路口进行优化控制,忽视了城市交通网络中不同路口的车流往往会相互影响。另一方面,现有的研究主要基于Q学习展开,存在收敛值不稳定、Q值表过于庞大导致计算能力差、无法适应无限马尔可夫决策链等问题。
发明内容
本发明的目的在于提供一种基于演员-评论家算法的分布式交通信号灯联合控制方法,实现不同交通路口信号灯之间的协作控制以提升交通网络整体的道路通畅度。
实现本发明目的的技术解决方案为:一种基于演员-评论家算法的分布式交通信号灯联合控制方法,包括以下步骤:
步骤1、根据图论理论,将多智能体组成的网络进行数学建模;
步骤2、根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;
步骤3、根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;
步骤4、建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数;
步骤5、基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯。
本发明与现有技术相比,其显著优点为:(1)考虑了交通网络中不同路口的车流相互影响,实现不同交通路口信号灯之间的协作控制,提升了交通网络整体的道路通畅度;(2)采用基于柔性优势演员评论家算法的分布式多智能体强化学习,用于多个交通信号灯联合控制,计算量小,且通信量也得到了改善。
附图说明
图1为动作集的定义示意图。
图2为多智能体联合控制模式示意图。
图3为基于柔性优势演员评论家算法的联合控制模式流程图。
图4为本发明在小规模交通网络中测试结果图。
图5为本发明在小规模交通网络中测试结果图。
具体实施方式
本发明提供一种基于演员-评论家算法的分布式交通信号灯联合控制方法,该方法包括以下步骤:
步骤1、根据图论理论,将多智能体组成的网络进行数学建模;
步骤2、根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;
步骤3、根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;
步骤4、建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数;
步骤5、基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法(Joint Soft Advantage Actor-Critic,简称JSA2C)进行学习和控制信号灯。
进一步地,步骤1所述根据图论理论,将多智能体组成的网络进行数学建模,具体如下:
将多智能体组成的网络定义为G(ν,ε),其中ν是作为各个节点的智能体集合,ε是不同节点之间边的集合;对于智能体i,定义其关联节点的集合为Νi,智能体i与智能体j的最短路径长度为di,j,j∈Ni
进一步地,步骤2所述根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值,具体如下:
(2.1)状态集
定义每个交通路口的本地状态st,x
Figure BDA0002544062690000031
其中lent[l]是车道上的队列长度,Lx是交通路口x的所有进口车道的集合,l表示每个进口车道,pt是当前的相位;
(2.2)动作集
假设信号灯每个相位的时长固定,根据动作指令选择不同的相位对道路车流进行控制;当相位为p1时,仅南北方向直行的道路将导通,即该方向上信号灯为绿灯而其他车道均是红灯;同理,相位为p3时东西方向直行导通;相位为p2时南至西方向和北至东方向的左转车道导通;相位为p4时西至北方向和东至南方向的左转车道导通;
(2.3)奖励值
将交通路口x在t时刻的状态奖励值rt,x定义为
Figure BDA0002544062690000032
其中queue[l]表示在每个进口车道上的车辆队列长度,|Lx|表示集合Lx中元素的数量。
进一步地,步骤3所述根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息,具体如下:
在一个交通网络中,每个交通路口将被部署一个智能体,该智能体具有识别状态、奖励值的传感器和图像识别系统,并能够控制该路口的红绿灯作出相应的相位调整;
同时,交通网络中的智能体选择与自身所在路口的距离低于设定阈值的路口的智能体进行通信连接,互相分享状态和奖励值信息;对于每个智能体,在整合自身采集以及被分享的数据信息后,在本地进行强化学习并作出相应的动作来控制信号灯。
进一步地,步骤4所述建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数,具体如下:
使用空间距离折合因子β∈(0,1)对信息价值进行加权,以此描述智能体i的关联节点对其影响随距离变化的程度,因此修正后的智能体i单步奖励值
Figure BDA0002544062690000041
表达式如下:
Figure BDA0002544062690000042
Figure BDA0002544062690000043
其中rt为未加入策略熵前智能体可观测到的单步奖励值;
Figure BDA0002544062690000044
为未加入相关结点加权奖励值前的本地单步奖励值;d为智能体i与智能体j之间的拓扑距离;α是策略熵的权重;Di是智能体i与其相关节点集合Ni中元素距离的最大值;
Figure BDA00025440626900000416
是智能体i可选择动作的集合;P(ut+1|st+1)为智能体进入下一状态st+1时选择动作ut+1的概率;
邻居节点的状态同样使用β对状态信息进行折合,智能体i的状态
Figure BDA0002544062690000045
表达式修正为
Figure BDA0002544062690000046
其中st,i为智能体i在t时刻本地观测到的状态信息;st,j为关联结点j在t时刻观测到的状态信息;β为相关结点信息权重;
Figure BDA0002544062690000047
为智能体i在t时刻整合后的状态值;
在价值函数中引入一个价值基准量Vw来预估期望回报
Figure BDA0002544062690000048
价值函数
Figure BDA0002544062690000049
表达式如下:
Figure BDA00025440626900000410
Figure BDA00025440626900000411
其中γ为价值函数的学习率;tB为到达经验集合的最大步数的时间点;
Figure BDA00025440626900000412
为智能体i在τ时刻加入策略熵后的单步奖励值;
Figure BDA00025440626900000413
是智能体i在经验集合B内根据学习率折合的累计奖励值;
Figure BDA00025440626900000414
为智能体i在经验集合B内加入价值基准量后的价值函数值;
Figure BDA00025440626900000415
为智能体i根据策略πθ所确定的价值基准量;
演员-评论家算法由Actor神经网络和Critic神经网络组成,对于Actor神经网络,算法利用参数θ进行描述,输出的是动作被选择的概率;
每个智能体的Actor神经网络的损失函数为
Figure BDA0002544062690000051
其中
Figure BDA0002544062690000052
表示Actor神经网络参数θ的损失函数;优势函数
Figure BDA0002544062690000053
|B|为经验集合的元素数量;πθ(ut,i|st,i)为智能体i在st,i状态下根据参数θ选择ut,i时的概率。
对于Critic神经网络,选取两套参数来对价值函数进行更新R(s,w),迭代更新并指导Critic神经网络参数的梯度更新,表达式如下:
wtarg←κw+(1-κ)wtarg
其中κ为学习率,w为价值函数网络的参数,wtarg为目标价值函数网络的参数;
定义智能体i的目标价值函数yi(r,s',d)为:
Figure BDA0002544062690000054
其中d为完成信号,若t到达所采样经验池的最后一步则为1,否则为0;
Figure BDA0002544062690000055
为状态在s'时根据策略网络πθ所选取的动作;α为策略熵的权重;
Figure BDA0002544062690000056
为根绝目标价值函数网络参数wtarg所得到的价值函数值。
由此Critic神经网络的损失函数为:
Figure BDA0002544062690000057
其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。
进一步地,步骤5所述基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法(Joint Soft Advantage Actor-Critic,简称JSA2C)进行学习和控制信号灯,具体为:
(5.1)对于由多个路口的交通信号灯组成的网络,根据拓扑结构制表确定相互关联的结点集合;
(5.2)就单个智能体而言,查表确定自身关联结点的集合,并检查该时刻是否与表中全部结点完成信息交换:若完成则跳转至步骤(5.4),若未完成则进行步骤(5.3);
(5.3)智能体与关联结点建立通信连接,交换各自信息,对相关结点的信息进行加权处理;
(5.4)智能体整合所有关联数据结点信息;
(5.5)智能体将数据输入本地神经网络,根据联合柔性优势演员-评论家算法进行学习,并输出动作指令;
(5.6)智能体从环境中获取新的状态信息和奖励值,并将数据存储至经验集合中;
(5.7)判断是否达到经验集合的最大步数,若未达到则跳转至步骤(5.2)进行重复;否则结束。
下面结合附图及具体实施例对本发明做进一步详细描述。
实施例
本实施例基于演员-评论家算法的分布式交通信号灯联合控制方法,包括以下几个阶段:
第一阶段:
本文利用图论理论定义将多智能体组成的网络定义为G(ν,ε),其中ν是作为各个节点的智能体集合,ε是不同节点之间边的集合。对于智能体i,定义其关联节点的集合为Νi,智能体i与智能体j(j∈Ni)的最短路径长度为di,j
第二阶段:
本文对交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行数学建模。在此定义其状态集、动作集、奖励值如下:
(1)状态集。定义每个交通路口的本地状态为
Figure BDA0002544062690000061
其中lent[l]是车道上的队列长度,Li是交通路口i的所有进口车道的集合,l表示每个进口车道,pt是当前的相位。
(2)动作集。本文假设信号灯每个相位的时长固定,根绝动作指令选择不同的相位对道路车流进行控制。当相位为p1时,仅南北方向直行的道路将导通,即该方向上信号灯为绿灯而其他车道均是红灯。同理,p3为东西方向直行导通;相位p2使南至西方向和北至东方向的左转车道导通;相位p4使西至北方向和东至南方向的左转车道导通,如图1所示。
(3)奖励值。本文将交通路口i在t时刻的状态奖励值定义为
Figure BDA0002544062690000071
其中queue[l]表示在每个进口车道上的车辆队列长度,|Li|表示集合Li中元素的数量。
第三阶段:
多智能体环境下交通信号灯控制系统设计。本文设计了在中小规模交通网络中邻居智能体结点间相互通信进行多智能体强化学习的方案如图2所示,并将此称为多智能体联合控制模式。智能体之间建立通信连接交换各自的信息,包括状态、单步奖励值等等。同时,由于距离越远的交通路口之间车流相互作用的程度越低,可以对在一定范围的关联节点赋予一定的空间折扣因素来体现随空间而变化的信息价值,相关算法实现将在第四阶段详细讨论。可以看出,这种方案的计算成本相比集中控制模式大幅度减小,通信量相比于独立控制模式也得到改善。联合控制模式的具体流程如图2所示。
第四阶段:
联合柔性优势演员-评论家算法描述。本算法中使用空间距离折合因子β∈(0,1)对信息价值进行加权,以此描述智能体i的关联节点对其影响随距离变化的程度。因此单步奖励值
Figure BDA0002544062690000072
表达式如下:
Figure BDA0002544062690000073
Figure BDA0002544062690000074
其中,Di是智能体i与其相关节点集合Ni中元素距离的最大值。加权后的价值函数
Figure BDA0002544062690000075
表达式如下:
Figure BDA0002544062690000076
Figure BDA0002544062690000077
其次,邻居节点的状态同样可以使用β对进行折合,智能体i的状态表达式为
Figure BDA0002544062690000078
每个智能体的Actor网络的损失函数相为
Figure BDA0002544062690000079
其中
Figure BDA0002544062690000081
对于Critic网络,此算法选取了两套参数来对价值函数进行更新,表达式如下:
wtarg←κw+(1-κ)wtarg,
其中κ为学习率,w为价值函数网络的参数,wtarg为目标价值函数网络的参数。定义目标价值函数yi(r,s',d)为:
Figure BDA0002544062690000082
其中d为完成信号,若t到达所采样经验池的最后一步则为1,否则为0。
Figure BDA0002544062690000083
为状态在s'时根据策略网络πθ所选取的动作。
由此Critic网络的损失函数为
Figure BDA0002544062690000084
其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。算法伪代码见表1。
表1柔性优势演员-评论家算法伪代码
Figure BDA0002544062690000085
第五阶段:
结合联合柔性优势演员-评论家算法对交通信号灯系统应用多智能体联合控制模式,其方案实现过程如图3流程图所示。
第六阶段:
本文在一个2×2交通网络中对本发明的算法进行测试,得到每回合内每个路口的平均奖励值与每回合内车辆在每个路口的平均等待时间结果,如图4、图5所示。
其中,对于每一个交通路口,本文假设智能体能够观测到在进口车道上50m范围内的环境信息,在编写代码过程中,将该50m长的道路分割成10个单位队列长度(Δl)。另外,信号灯在每个选择每个相位动作后持续(Δt=15s)。绿灯亮起后,对应导通的车道上将允许最大长度为4Δl的队列内的车辆通过路口。通过计算每个回合内车辆通过路口的平均等待时间(单位为Δt)和每个回合内路口的平均奖励值(单位为Δl)来体现其性能。
基于柔性优势演员-评论家算法的分布式交通信号灯联合控制技术基本流程如下:
步骤1:对于由多个路口的交通信号灯组成的网络根据其拓扑结构制表,确定相互关联的结点集合。
步骤2:就单个智能体而言,查表确定自身关联结点的集合,并检查该时刻是否与全部结点完成信息交换。若完成则跳转至步骤4,若未完成则进行步骤3。
步骤3:与关联结点建立通信连接,交换各自信息。对相关结点的信息进行加权处理。
步骤4:整合所有关联数据结点信息。
步骤5:将数据输入神经网络,根据JSA2C算法进行学习,并输出动作指令。
步骤6:从环境中获取新的状态信息和奖励值,并将数据存储至经验集合中。
步骤7:判断是否结束。若未结束则跳转至步骤2进行重复。若结束,则结束。
综上所述,本发明考虑了交通网络中不同路口的车流相互影响,实现不同交通路口信号灯之间的协作控制,提升了交通网络整体的道路通畅度;采用基于柔性优势演员评论家算法的分布式多智能体强化学习,用于多个交通信号灯联合控制,计算量小,且通信量也得到了改善。

Claims (6)

1.一种基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,包括以下步骤:
步骤1、根据图论理论,将多智能体组成的网络进行数学建模;
步骤2、根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;
步骤3、根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;
步骤4、建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数;
步骤5、基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯。
2.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤1所述根据图论理论,将多智能体组成的网络进行数学建模,具体如下:
将多智能体组成的网络定义为G(ν,ε),其中ν是作为各个节点的智能体集合,ε是不同节点之间边的集合;对于智能体i,定义其关联节点的集合为Νi,智能体i与智能体j的最短路径长度为di,j,j∈Ni
3.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤2所述根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值,具体如下:
(2.1)状态集
定义每个交通路口的本地状态st,x
Figure FDA0003608009110000011
其中lent[l]是车道上的队列长度,Lx是交通路口x的所有进口车道的集合,l表示每个进口车道,pt是当前的相位;
(2.2)动作集
假设信号灯每个相位的时长固定,根据动作指令选择不同的相位对道路车流进行控制;当相位为p1时,仅南北方向直行的道路将导通,即该方向上信号灯为绿灯而其他车道均是红灯;同理,相位为p3时东西方向直行导通;相位为p2时南至西方向和北至东方向的左转车道导通;相位为p4时西至北方向和东至南方向的左转车道导通;
(2.3)奖励值
将交通路口x在t时刻的状态奖励值rt,x定义为
Figure FDA0003608009110000021
其中queue[l]表示在每个进口车道上的车辆队列长度,|Lx|表示集合Lx中元素的数量。
4.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤3所述根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息,具体如下:
在一个交通网络中,每个交通路口将被部署一个智能体,该智能体具有识别状态、奖励值的传感器和图像识别系统,并能够控制该路口的红绿灯作出相应的相位调整;同时,交通网络中的智能体选择与自身所在路口的距离低于设定阈值的路口的智能体进行通信连接,互相分享状态和奖励值信息;对于每个智能体,在整合自身采集以及被分享的数据信息后,在本地进行强化学习并作出相应的动作来控制信号灯。
5.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤4所述建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数,具体如下:
使用空间距离折合因子β∈(0,1)对信息价值进行加权,以此描述智能体i的关联节点对其影响随距离变化的程度,因此修正后的智能体i单步奖励值
Figure FDA0003608009110000022
表达式如下:
Figure FDA0003608009110000023
Figure FDA0003608009110000024
其中rt为未加入策略熵前智能体可观测到的单步奖励值;rt soft为未加入相关结点加权奖励值前的本地单步奖励值;d为智能体i与智能体j之间的拓扑距离;α是策略熵的权重;Di是智能体i与其相关节点集合Ni中元素距离的最大值;u是智能体i可选择动作的集合;P(ut+1|st+1)为智能体进入下一状态st+1时选择动作ut+1的概率;
邻居节点的状态同样使用β对状态信息进行折合,智能体i的状态
Figure FDA0003608009110000031
表达式修正为
Figure FDA0003608009110000032
其中st,i为智能体i在t时刻本地观测到的状态信息;st,j为关联结点j在t时刻观测到的状态信息;β为相关结点信息权重;
Figure FDA0003608009110000033
为智能体i在t时刻整合后的状态值;
在价值函数中引入一个价值基准量Vw来预估期望回报
Figure FDA0003608009110000034
价值函数
Figure FDA0003608009110000035
表达式如下:
Figure FDA0003608009110000036
Figure FDA0003608009110000037
其中γ为价值函数的学习率;tB为到达经验集合的最大步数的时间点;
Figure FDA0003608009110000038
为智能体i在τ时刻加入策略熵后的单步奖励值;
Figure FDA0003608009110000039
是智能体i在经验集合B内根据学习率折合的累计奖励值;
Figure FDA00036080091100000310
为智能体i在经验集合B内加入价值基准量后的价值函数值;
Figure FDA00036080091100000311
为智能体i根据策略πθ所确定的价值基准量;
演员-评论家算法由Actor神经网络和Critic神经网络组成,对于Actor神经网络,算法利用参数θ进行描述,输出的是动作被选择的概率;
每个智能体的Actor神经网络的损失函数为
Figure FDA00036080091100000312
其中
Figure FDA00036080091100000313
表示Actor神经网络参数θ的损失函数;优势函数
Figure FDA00036080091100000314
|B|为经验集合的元素数量;πθ(ut,i|st,i)为智能体i在st,i状态下根据参数θ选择ut,i时的概率;
对于Critic神经网络,选取两套参数来对价值函数进行更新R(s,w),迭代更新并指导Critic神经网络参数的梯度更新,表达式如下:
wtarg←κw+(1-κ)wtarg
其中κ为学习率,w为价值函数网络的参数,wtarg为目标价值函数网络的参数;
定义智能体i的目标价值函数yi(r,s',d)为:
Figure FDA0003608009110000041
其中d为完成信号,若t到达所采样经验池的最后一步则为1,否则为0;
Figure FDA0003608009110000042
为状态在s'时根据策略网络πθ所选取的动作;α为策略熵的权重;
Figure FDA0003608009110000043
为根绝目标价值函数网络参数wtarg所得到的价值函数值;
由此Critic神经网络的损失函数为:
Figure FDA0003608009110000044
其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。
6.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤5所述基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯,具体为:
(5.1)对于由多个路口的交通信号灯组成的网络,根据拓扑结构制表确定相互关联的结点集合;
(5.2)就单个智能体而言,查表确定自身关联结点的集合,并检查当前时刻是否与表中全部结点完成信息交换:若完成则跳转至步骤(5.4),若未完成则进行步骤(5.3);
(5.3)智能体与关联结点建立通信连接,交换各自信息,对相关结点的信息进行加权处理;
(5.4)智能体整合所有关联数据结点信息;
(5.5)智能体将数据输入本地神经网络,根据联合柔性优势演员-评论家算法进行学习,并输出动作指令;
(5.6)智能体从环境中获取新的状态信息和奖励值,并将数据存储至经验集合中;
(5.7)判断是否达到经验集合的最大步数,若未达到则跳转至步骤(5.2)进行重复;否则结束。
CN202010555263.4A 2020-06-17 2020-06-17 基于演员-评论家算法的分布式交通信号灯联合控制方法 Active CN111785045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010555263.4A CN111785045B (zh) 2020-06-17 2020-06-17 基于演员-评论家算法的分布式交通信号灯联合控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010555263.4A CN111785045B (zh) 2020-06-17 2020-06-17 基于演员-评论家算法的分布式交通信号灯联合控制方法

Publications (2)

Publication Number Publication Date
CN111785045A CN111785045A (zh) 2020-10-16
CN111785045B true CN111785045B (zh) 2022-07-05

Family

ID=72757359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010555263.4A Active CN111785045B (zh) 2020-06-17 2020-06-17 基于演员-评论家算法的分布式交通信号灯联合控制方法

Country Status (1)

Country Link
CN (1) CN111785045B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241814B (zh) * 2020-10-20 2022-12-02 河南大学 一种基于强化时空图神经网络的交通预测方法
CN112289044B (zh) * 2020-11-02 2021-09-07 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法
CN112863206B (zh) * 2021-01-07 2022-08-09 北京大学 一种基于强化学习的交通信号灯控制方法与系统
CN112801348A (zh) * 2021-01-12 2021-05-14 浙江贝迩熊科技有限公司 一种基于深度强化学习的景点人流辅助引导系统和方法
CN112927522B (zh) * 2021-01-19 2022-07-05 华东师范大学 一种基于物联网设备的强化学习可变时长信号灯控制方法
CN113055233B (zh) * 2021-03-12 2023-02-10 北京工业大学 基于奖励机制的个性化信息协作发布方法
CN112949933B (zh) * 2021-03-23 2022-08-02 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN113436443B (zh) * 2021-03-29 2022-08-26 东南大学 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN113255893B (zh) * 2021-06-01 2022-07-05 北京理工大学 一种多智能体行动策略自演进生成方法
CN113459109B (zh) * 2021-09-03 2021-11-26 季华实验室 机械臂路径规划方法、装置、电子设备及存储介质
CN114399909B (zh) * 2021-12-31 2023-05-12 深圳云天励飞技术股份有限公司 交通信号灯控制方法及相关设备
CN114449482B (zh) * 2022-03-11 2024-05-14 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法
CN115457782B (zh) * 2022-09-19 2023-11-03 吉林大学 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法
CN115503559B (zh) * 2022-11-07 2023-05-02 重庆大学 考虑空调系统的燃料电池汽车学习型协同能量管理方法
CN116311979B (zh) * 2023-03-13 2024-08-23 南京信息工程大学 一种基于深度强化学习的自适应交通灯控制方法
CN116994444B (zh) * 2023-09-26 2023-12-12 南京邮电大学 一种交通灯控制方法、系统及存储介质
CN117151441B (zh) * 2023-10-31 2024-01-30 长春工业大学 一种基于演员-评论家算法的置换流水车间调度方法
CN118377232B (zh) * 2024-06-26 2024-10-29 南京理工大学 一种欺骗攻击下的分布式系统安全控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190035275A1 (en) * 2017-07-28 2019-01-31 Toyota Motor Engineering & Manufacturing North America, Inc. Autonomous operation capability configuration for a vehicle
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
US20190333381A1 (en) * 2017-01-12 2019-10-31 Mobileye Vision Technologies Ltd. Navigation through automated negotiation with other vehicles
CN111126687A (zh) * 2019-12-19 2020-05-08 银江股份有限公司 一种交通信号的单点离线优化系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164150B (zh) * 2019-06-10 2020-07-24 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190333381A1 (en) * 2017-01-12 2019-10-31 Mobileye Vision Technologies Ltd. Navigation through automated negotiation with other vehicles
US20190035275A1 (en) * 2017-07-28 2019-01-31 Toyota Motor Engineering & Manufacturing North America, Inc. Autonomous operation capability configuration for a vehicle
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN111126687A (zh) * 2019-12-19 2020-05-08 银江股份有限公司 一种交通信号的单点离线优化系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Partially Detected Intelligent Traffic Signal Control: Environmental Adaptation;Rusheng Zhang et.al;《2019 18th IEEE International Conference On Machine Learning And Applications (ICMLA)》;20200217;第1956-1960页 *
多智能体强化学习综述;杜威 等;《计算机科学》;20190831;第1-8页 *

Also Published As

Publication number Publication date
CN111785045A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111785045B (zh) 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN108847037B (zh) 一种面向非全局信息的城市路网路径规划方法
CN112489464B (zh) 一种具有位置感知的路口交通信号灯调控方法
CN108831168B (zh) 一种基于关联路口视觉识别的交通信号灯控制方法与系统
CN109269516B (zh) 一种基于多目标Sarsa学习的动态路径诱导方法
CN112700664A (zh) 一种基于深度强化学习的交通信号配时优化方法
CN110515380B (zh) 基于转弯权重约束的最短路径规划方法
CN111260937A (zh) 一种基于强化学习的十字路口交通信号灯控制方法
CN113485429B (zh) 空地协同交通巡检的路径优化方法和装置
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN113780624B (zh) 一种基于博弈均衡理论的城市路网信号协调控制方法
CN106096756A (zh) 一种城市交通路网动态实时多路口路径选择方法
CN115713856B (zh) 一种基于交通流预测与实际路况的车辆路径规划方法
CN107332770B (zh) 一种必经点路由路径选择方法
Du et al. GAQ-EBkSP: a DRL-based urban traffic dynamic rerouting framework using fog-cloud architecture
CN112484733B (zh) 一种基于拓扑图的强化学习室内导航方法
CN116992928A (zh) 面向公平自适应交通信号控制的多智能体强化学习方法
Hussain et al. Optimizing traffic lights with multi-agent deep reinforcement learning and v2x communication
CN110146103B (zh) 考虑目标走向与能源补给的无人设备路径规划方法
CN113870588B (zh) 一种基于深度q网络的交通灯控制方法、终端及存储介质
CN115202357A (zh) 一种基于脉冲神经网络的自主建图方法
CN118097989A (zh) 基于数字孪生的多智能体交通区域信控方法
CN114815801A (zh) 一种基于策略-价值网络及mcts的自适应环境路径规划方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN113724507A (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Jun

Inventor after: Zhang Jie

Inventor after: Wang Tianyu

Inventor after: Liang Teng

Inventor before: Wang Tianyu

Inventor before: Liang Teng

Inventor before: Zhang Jie

Inventor before: Li Jun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant