CN111785045B - 基于演员-评论家算法的分布式交通信号灯联合控制方法 - Google Patents
基于演员-评论家算法的分布式交通信号灯联合控制方法 Download PDFInfo
- Publication number
- CN111785045B CN111785045B CN202010555263.4A CN202010555263A CN111785045B CN 111785045 B CN111785045 B CN 111785045B CN 202010555263 A CN202010555263 A CN 202010555263A CN 111785045 B CN111785045 B CN 111785045B
- Authority
- CN
- China
- Prior art keywords
- agent
- traffic
- value
- actor
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/081—Plural intersections under common control
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于演员‑评论家算法的分布式交通信号灯联合控制方法。该方法包括以下步骤:将多智能体组成的网络进行数学建模;对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;建立柔性优势演员‑评论家算法,在单步奖励值中加入下一状态的策略熵,构建价值函数并加入优势函数;基于柔性优势演员‑评论家算法,以最小化车辆的平均等待时间为目标,每个交通路口的智能体采用联合柔性优势演员‑评论家算法进行学习和控制信号灯。本发明通过不同交通路口信号灯之间的协作控制,提升了交通网络整体的道路通畅度。
Description
技术领域
本发明涉及自适应交通信号灯控制(Adaptive Traffic Signal Control,ATSC)技术领域,特别是一种基于演员-评论家算法的分布式交通信号灯联合控制方法。
背景技术
随着城市化程度的加深,大多数城市正面临着交通拥堵这一巨大难题。拥挤的道路交通环境不仅对环境造成很大程度的破坏,对于社会经济也造成巨大的负面影响。由于城市规划中预留的道路拓展空间小以及对城市内交通基础设施施工影响程度大,再加上人均车辆拥有数量的不断提高,问题将变得更加棘手。在此情况下,优化信号灯的控制技术是缓解该问题的简易经济的方式。相比于传统的调整不同时刻的配时方案,结合强化学习的自适应交通信号灯控制技术正成为全新的研究热点。在强化学习中,能够获取环境信息并作出决策执行相应动作的设备被称之为智能体,根据系统中实施强化学习智能体的数量,可分为单智能体强化学习和多智能体强化学习。
以前的研究主要围绕单个交通路口进行优化控制,忽视了城市交通网络中不同路口的车流往往会相互影响。另一方面,现有的研究主要基于Q学习展开,存在收敛值不稳定、Q值表过于庞大导致计算能力差、无法适应无限马尔可夫决策链等问题。
发明内容
本发明的目的在于提供一种基于演员-评论家算法的分布式交通信号灯联合控制方法,实现不同交通路口信号灯之间的协作控制以提升交通网络整体的道路通畅度。
实现本发明目的的技术解决方案为:一种基于演员-评论家算法的分布式交通信号灯联合控制方法,包括以下步骤:
步骤1、根据图论理论,将多智能体组成的网络进行数学建模;
步骤2、根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;
步骤3、根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;
步骤4、建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数;
步骤5、基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯。
本发明与现有技术相比,其显著优点为:(1)考虑了交通网络中不同路口的车流相互影响,实现不同交通路口信号灯之间的协作控制,提升了交通网络整体的道路通畅度;(2)采用基于柔性优势演员评论家算法的分布式多智能体强化学习,用于多个交通信号灯联合控制,计算量小,且通信量也得到了改善。
附图说明
图1为动作集的定义示意图。
图2为多智能体联合控制模式示意图。
图3为基于柔性优势演员评论家算法的联合控制模式流程图。
图4为本发明在小规模交通网络中测试结果图。
图5为本发明在小规模交通网络中测试结果图。
具体实施方式
本发明提供一种基于演员-评论家算法的分布式交通信号灯联合控制方法,该方法包括以下步骤:
步骤1、根据图论理论,将多智能体组成的网络进行数学建模;
步骤2、根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;
步骤3、根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;
步骤4、建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数;
步骤5、基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法(Joint Soft Advantage Actor-Critic,简称JSA2C)进行学习和控制信号灯。
进一步地,步骤1所述根据图论理论,将多智能体组成的网络进行数学建模,具体如下:
将多智能体组成的网络定义为G(ν,ε),其中ν是作为各个节点的智能体集合,ε是不同节点之间边的集合;对于智能体i,定义其关联节点的集合为Νi,智能体i与智能体j的最短路径长度为di,j,j∈Ni。
进一步地,步骤2所述根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值,具体如下:
(2.1)状态集
定义每个交通路口的本地状态st,x为
其中lent[l]是车道上的队列长度,Lx是交通路口x的所有进口车道的集合,l表示每个进口车道,pt是当前的相位;
(2.2)动作集
假设信号灯每个相位的时长固定,根据动作指令选择不同的相位对道路车流进行控制;当相位为p1时,仅南北方向直行的道路将导通,即该方向上信号灯为绿灯而其他车道均是红灯;同理,相位为p3时东西方向直行导通;相位为p2时南至西方向和北至东方向的左转车道导通;相位为p4时西至北方向和东至南方向的左转车道导通;
(2.3)奖励值
将交通路口x在t时刻的状态奖励值rt,x定义为
其中queue[l]表示在每个进口车道上的车辆队列长度,|Lx|表示集合Lx中元素的数量。
进一步地,步骤3所述根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息,具体如下:
在一个交通网络中,每个交通路口将被部署一个智能体,该智能体具有识别状态、奖励值的传感器和图像识别系统,并能够控制该路口的红绿灯作出相应的相位调整;
同时,交通网络中的智能体选择与自身所在路口的距离低于设定阈值的路口的智能体进行通信连接,互相分享状态和奖励值信息;对于每个智能体,在整合自身采集以及被分享的数据信息后,在本地进行强化学习并作出相应的动作来控制信号灯。
进一步地,步骤4所述建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数,具体如下:
其中rt为未加入策略熵前智能体可观测到的单步奖励值;为未加入相关结点加权奖励值前的本地单步奖励值;d为智能体i与智能体j之间的拓扑距离;α是策略熵的权重;Di是智能体i与其相关节点集合Ni中元素距离的最大值;是智能体i可选择动作的集合;P(ut+1|st+1)为智能体进入下一状态st+1时选择动作ut+1的概率;
其中γ为价值函数的学习率;tB为到达经验集合的最大步数的时间点;为智能体i在τ时刻加入策略熵后的单步奖励值;是智能体i在经验集合B内根据学习率折合的累计奖励值;为智能体i在经验集合B内加入价值基准量后的价值函数值;为智能体i根据策略πθ所确定的价值基准量;
演员-评论家算法由Actor神经网络和Critic神经网络组成,对于Actor神经网络,算法利用参数θ进行描述,输出的是动作被选择的概率;
每个智能体的Actor神经网络的损失函数为
对于Critic神经网络,选取两套参数来对价值函数进行更新R(s,w),迭代更新并指导Critic神经网络参数的梯度更新,表达式如下:
wtarg←κw+(1-κ)wtarg
其中κ为学习率,w为价值函数网络的参数,wtarg为目标价值函数网络的参数;
定义智能体i的目标价值函数yi(r,s',d)为:
由此Critic神经网络的损失函数为:
其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。
进一步地,步骤5所述基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法(Joint Soft Advantage Actor-Critic,简称JSA2C)进行学习和控制信号灯,具体为:
(5.1)对于由多个路口的交通信号灯组成的网络,根据拓扑结构制表确定相互关联的结点集合;
(5.2)就单个智能体而言,查表确定自身关联结点的集合,并检查该时刻是否与表中全部结点完成信息交换:若完成则跳转至步骤(5.4),若未完成则进行步骤(5.3);
(5.3)智能体与关联结点建立通信连接,交换各自信息,对相关结点的信息进行加权处理;
(5.4)智能体整合所有关联数据结点信息;
(5.5)智能体将数据输入本地神经网络,根据联合柔性优势演员-评论家算法进行学习,并输出动作指令;
(5.6)智能体从环境中获取新的状态信息和奖励值,并将数据存储至经验集合中;
(5.7)判断是否达到经验集合的最大步数,若未达到则跳转至步骤(5.2)进行重复;否则结束。
下面结合附图及具体实施例对本发明做进一步详细描述。
实施例
本实施例基于演员-评论家算法的分布式交通信号灯联合控制方法,包括以下几个阶段:
第一阶段:
本文利用图论理论定义将多智能体组成的网络定义为G(ν,ε),其中ν是作为各个节点的智能体集合,ε是不同节点之间边的集合。对于智能体i,定义其关联节点的集合为Νi,智能体i与智能体j(j∈Ni)的最短路径长度为di,j。
第二阶段:
本文对交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行数学建模。在此定义其状态集、动作集、奖励值如下:
(1)状态集。定义每个交通路口的本地状态为
其中lent[l]是车道上的队列长度,Li是交通路口i的所有进口车道的集合,l表示每个进口车道,pt是当前的相位。
(2)动作集。本文假设信号灯每个相位的时长固定,根绝动作指令选择不同的相位对道路车流进行控制。当相位为p1时,仅南北方向直行的道路将导通,即该方向上信号灯为绿灯而其他车道均是红灯。同理,p3为东西方向直行导通;相位p2使南至西方向和北至东方向的左转车道导通;相位p4使西至北方向和东至南方向的左转车道导通,如图1所示。
(3)奖励值。本文将交通路口i在t时刻的状态奖励值定义为
其中queue[l]表示在每个进口车道上的车辆队列长度,|Li|表示集合Li中元素的数量。
第三阶段:
多智能体环境下交通信号灯控制系统设计。本文设计了在中小规模交通网络中邻居智能体结点间相互通信进行多智能体强化学习的方案如图2所示,并将此称为多智能体联合控制模式。智能体之间建立通信连接交换各自的信息,包括状态、单步奖励值等等。同时,由于距离越远的交通路口之间车流相互作用的程度越低,可以对在一定范围的关联节点赋予一定的空间折扣因素来体现随空间而变化的信息价值,相关算法实现将在第四阶段详细讨论。可以看出,这种方案的计算成本相比集中控制模式大幅度减小,通信量相比于独立控制模式也得到改善。联合控制模式的具体流程如图2所示。
第四阶段:
其次,邻居节点的状态同样可以使用β对进行折合,智能体i的状态表达式为
每个智能体的Actor网络的损失函数相为
对于Critic网络,此算法选取了两套参数来对价值函数进行更新,表达式如下:
wtarg←κw+(1-κ)wtarg,
其中κ为学习率,w为价值函数网络的参数,wtarg为目标价值函数网络的参数。定义目标价值函数yi(r,s',d)为:
由此Critic网络的损失函数为
其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。算法伪代码见表1。
表1柔性优势演员-评论家算法伪代码
第五阶段:
结合联合柔性优势演员-评论家算法对交通信号灯系统应用多智能体联合控制模式,其方案实现过程如图3流程图所示。
第六阶段:
本文在一个2×2交通网络中对本发明的算法进行测试,得到每回合内每个路口的平均奖励值与每回合内车辆在每个路口的平均等待时间结果,如图4、图5所示。
其中,对于每一个交通路口,本文假设智能体能够观测到在进口车道上50m范围内的环境信息,在编写代码过程中,将该50m长的道路分割成10个单位队列长度(Δl)。另外,信号灯在每个选择每个相位动作后持续(Δt=15s)。绿灯亮起后,对应导通的车道上将允许最大长度为4Δl的队列内的车辆通过路口。通过计算每个回合内车辆通过路口的平均等待时间(单位为Δt)和每个回合内路口的平均奖励值(单位为Δl)来体现其性能。
基于柔性优势演员-评论家算法的分布式交通信号灯联合控制技术基本流程如下:
步骤1:对于由多个路口的交通信号灯组成的网络根据其拓扑结构制表,确定相互关联的结点集合。
步骤2:就单个智能体而言,查表确定自身关联结点的集合,并检查该时刻是否与全部结点完成信息交换。若完成则跳转至步骤4,若未完成则进行步骤3。
步骤3:与关联结点建立通信连接,交换各自信息。对相关结点的信息进行加权处理。
步骤4:整合所有关联数据结点信息。
步骤5:将数据输入神经网络,根据JSA2C算法进行学习,并输出动作指令。
步骤6:从环境中获取新的状态信息和奖励值,并将数据存储至经验集合中。
步骤7:判断是否结束。若未结束则跳转至步骤2进行重复。若结束,则结束。
综上所述,本发明考虑了交通网络中不同路口的车流相互影响,实现不同交通路口信号灯之间的协作控制,提升了交通网络整体的道路通畅度;采用基于柔性优势演员评论家算法的分布式多智能体强化学习,用于多个交通信号灯联合控制,计算量小,且通信量也得到了改善。
Claims (6)
1.一种基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,包括以下步骤:
步骤1、根据图论理论,将多智能体组成的网络进行数学建模;
步骤2、根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值;
步骤3、根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息;
步骤4、建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数;
步骤5、基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯。
2.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤1所述根据图论理论,将多智能体组成的网络进行数学建模,具体如下:
将多智能体组成的网络定义为G(ν,ε),其中ν是作为各个节点的智能体集合,ε是不同节点之间边的集合;对于智能体i,定义其关联节点的集合为Νi,智能体i与智能体j的最短路径长度为di,j,j∈Ni。
3.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤2所述根据数学建模中的数学符号以及参数,对分布式交通信号灯控制系统中单个交通路口的马尔可夫决策过程进行建模,定义状态集、动作集、单步奖励值,具体如下:
(2.1)状态集
定义每个交通路口的本地状态st,x为
其中lent[l]是车道上的队列长度,Lx是交通路口x的所有进口车道的集合,l表示每个进口车道,pt是当前的相位;
(2.2)动作集
假设信号灯每个相位的时长固定,根据动作指令选择不同的相位对道路车流进行控制;当相位为p1时,仅南北方向直行的道路将导通,即该方向上信号灯为绿灯而其他车道均是红灯;同理,相位为p3时东西方向直行导通;相位为p2时南至西方向和北至东方向的左转车道导通;相位为p4时西至北方向和东至南方向的左转车道导通;
(2.3)奖励值
将交通路口x在t时刻的状态奖励值rt,x定义为
其中queue[l]表示在每个进口车道上的车辆队列长度,|Lx|表示集合Lx中元素的数量。
4.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤3所述根据定义的各智能体状态集、动作集、单步奖励值,构建多智能体联合控制模式,智能体之间建立通信连接交换各自的信息,具体如下:
在一个交通网络中,每个交通路口将被部署一个智能体,该智能体具有识别状态、奖励值的传感器和图像识别系统,并能够控制该路口的红绿灯作出相应的相位调整;同时,交通网络中的智能体选择与自身所在路口的距离低于设定阈值的路口的智能体进行通信连接,互相分享状态和奖励值信息;对于每个智能体,在整合自身采集以及被分享的数据信息后,在本地进行强化学习并作出相应的动作来控制信号灯。
5.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤4所述建立柔性优势演员-评论家算法,对步骤2中单步奖励值进行修正,在单步奖励值中加入下一状态的策略熵,构建价值函数,并在价值函数中加入优势函数,具体如下:
其中rt为未加入策略熵前智能体可观测到的单步奖励值;rt soft为未加入相关结点加权奖励值前的本地单步奖励值;d为智能体i与智能体j之间的拓扑距离;α是策略熵的权重;Di是智能体i与其相关节点集合Ni中元素距离的最大值;u是智能体i可选择动作的集合;P(ut+1|st+1)为智能体进入下一状态st+1时选择动作ut+1的概率;
其中γ为价值函数的学习率;tB为到达经验集合的最大步数的时间点;为智能体i在τ时刻加入策略熵后的单步奖励值;是智能体i在经验集合B内根据学习率折合的累计奖励值;为智能体i在经验集合B内加入价值基准量后的价值函数值;为智能体i根据策略πθ所确定的价值基准量;
演员-评论家算法由Actor神经网络和Critic神经网络组成,对于Actor神经网络,算法利用参数θ进行描述,输出的是动作被选择的概率;
每个智能体的Actor神经网络的损失函数为
对于Critic神经网络,选取两套参数来对价值函数进行更新R(s,w),迭代更新并指导Critic神经网络参数的梯度更新,表达式如下:
wtarg←κw+(1-κ)wtarg
其中κ为学习率,w为价值函数网络的参数,wtarg为目标价值函数网络的参数;
定义智能体i的目标价值函数yi(r,s',d)为:
由此Critic神经网络的损失函数为:
其中σ是用以平衡策略熵与优势函数处于相同大小数量级上的权重。
6.根据权利要求1所述的基于演员-评论家算法的分布式交通信号灯联合控制方法,其特征在于,步骤5所述基于柔性优势演员-评论家算法,以最小化车辆在交通路口的平均等待时间为目标,采用多智能体联合控制模式对交通信号灯进行联合控制,即每个交通路口的智能体采用联合柔性优势演员-评论家算法进行学习和控制信号灯,具体为:
(5.1)对于由多个路口的交通信号灯组成的网络,根据拓扑结构制表确定相互关联的结点集合;
(5.2)就单个智能体而言,查表确定自身关联结点的集合,并检查当前时刻是否与表中全部结点完成信息交换:若完成则跳转至步骤(5.4),若未完成则进行步骤(5.3);
(5.3)智能体与关联结点建立通信连接,交换各自信息,对相关结点的信息进行加权处理;
(5.4)智能体整合所有关联数据结点信息;
(5.5)智能体将数据输入本地神经网络,根据联合柔性优势演员-评论家算法进行学习,并输出动作指令;
(5.6)智能体从环境中获取新的状态信息和奖励值,并将数据存储至经验集合中;
(5.7)判断是否达到经验集合的最大步数,若未达到则跳转至步骤(5.2)进行重复;否则结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555263.4A CN111785045B (zh) | 2020-06-17 | 2020-06-17 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555263.4A CN111785045B (zh) | 2020-06-17 | 2020-06-17 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111785045A CN111785045A (zh) | 2020-10-16 |
CN111785045B true CN111785045B (zh) | 2022-07-05 |
Family
ID=72757359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010555263.4A Active CN111785045B (zh) | 2020-06-17 | 2020-06-17 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785045B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241814B (zh) * | 2020-10-20 | 2022-12-02 | 河南大学 | 一种基于强化时空图神经网络的交通预测方法 |
CN112289044B (zh) * | 2020-11-02 | 2021-09-07 | 南京信息工程大学 | 基于深度强化学习的高速公路道路协同控制系统及方法 |
CN112488310A (zh) * | 2020-11-11 | 2021-03-12 | 厦门渊亭信息科技有限公司 | 一种多智能体群组协作策略自动生成方法 |
CN112863206B (zh) * | 2021-01-07 | 2022-08-09 | 北京大学 | 一种基于强化学习的交通信号灯控制方法与系统 |
CN112801348A (zh) * | 2021-01-12 | 2021-05-14 | 浙江贝迩熊科技有限公司 | 一种基于深度强化学习的景点人流辅助引导系统和方法 |
CN112927522B (zh) * | 2021-01-19 | 2022-07-05 | 华东师范大学 | 一种基于物联网设备的强化学习可变时长信号灯控制方法 |
CN113055233B (zh) * | 2021-03-12 | 2023-02-10 | 北京工业大学 | 基于奖励机制的个性化信息协作发布方法 |
CN112949933B (zh) * | 2021-03-23 | 2022-08-02 | 成都信息工程大学 | 一种基于多智能体强化学习的交通组织方案优化方法 |
CN113436443B (zh) * | 2021-03-29 | 2022-08-26 | 东南大学 | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 |
CN113255893B (zh) * | 2021-06-01 | 2022-07-05 | 北京理工大学 | 一种多智能体行动策略自演进生成方法 |
CN113459109B (zh) * | 2021-09-03 | 2021-11-26 | 季华实验室 | 机械臂路径规划方法、装置、电子设备及存储介质 |
CN114399909B (zh) * | 2021-12-31 | 2023-05-12 | 深圳云天励飞技术股份有限公司 | 交通信号灯控制方法及相关设备 |
CN114449482B (zh) * | 2022-03-11 | 2024-05-14 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
CN115457782B (zh) * | 2022-09-19 | 2023-11-03 | 吉林大学 | 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法 |
CN115503559B (zh) * | 2022-11-07 | 2023-05-02 | 重庆大学 | 考虑空调系统的燃料电池汽车学习型协同能量管理方法 |
CN116311979B (zh) * | 2023-03-13 | 2024-08-23 | 南京信息工程大学 | 一种基于深度强化学习的自适应交通灯控制方法 |
CN116994444B (zh) * | 2023-09-26 | 2023-12-12 | 南京邮电大学 | 一种交通灯控制方法、系统及存储介质 |
CN117151441B (zh) * | 2023-10-31 | 2024-01-30 | 长春工业大学 | 一种基于演员-评论家算法的置换流水车间调度方法 |
CN118377232B (zh) * | 2024-06-26 | 2024-10-29 | 南京理工大学 | 一种欺骗攻击下的分布式系统安全控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190035275A1 (en) * | 2017-07-28 | 2019-01-31 | Toyota Motor Engineering & Manufacturing North America, Inc. | Autonomous operation capability configuration for a vehicle |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
US20190333381A1 (en) * | 2017-01-12 | 2019-10-31 | Mobileye Vision Technologies Ltd. | Navigation through automated negotiation with other vehicles |
CN111126687A (zh) * | 2019-12-19 | 2020-05-08 | 银江股份有限公司 | 一种交通信号的单点离线优化系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110164150B (zh) * | 2019-06-10 | 2020-07-24 | 浙江大学 | 一种基于时间分配和强化学习的交通信号灯控制方法 |
-
2020
- 2020-06-17 CN CN202010555263.4A patent/CN111785045B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190333381A1 (en) * | 2017-01-12 | 2019-10-31 | Mobileye Vision Technologies Ltd. | Navigation through automated negotiation with other vehicles |
US20190035275A1 (en) * | 2017-07-28 | 2019-01-31 | Toyota Motor Engineering & Manufacturing North America, Inc. | Autonomous operation capability configuration for a vehicle |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN111126687A (zh) * | 2019-12-19 | 2020-05-08 | 银江股份有限公司 | 一种交通信号的单点离线优化系统及方法 |
Non-Patent Citations (2)
Title |
---|
Partially Detected Intelligent Traffic Signal Control: Environmental Adaptation;Rusheng Zhang et.al;《2019 18th IEEE International Conference On Machine Learning And Applications (ICMLA)》;20200217;第1956-1960页 * |
多智能体强化学习综述;杜威 等;《计算机科学》;20190831;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111785045A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111785045B (zh) | 基于演员-评论家算法的分布式交通信号灯联合控制方法 | |
CN108847037B (zh) | 一种面向非全局信息的城市路网路径规划方法 | |
CN112489464B (zh) | 一种具有位置感知的路口交通信号灯调控方法 | |
CN108831168B (zh) | 一种基于关联路口视觉识别的交通信号灯控制方法与系统 | |
CN109269516B (zh) | 一种基于多目标Sarsa学习的动态路径诱导方法 | |
CN112700664A (zh) | 一种基于深度强化学习的交通信号配时优化方法 | |
CN110515380B (zh) | 基于转弯权重约束的最短路径规划方法 | |
CN111260937A (zh) | 一种基于强化学习的十字路口交通信号灯控制方法 | |
CN113485429B (zh) | 空地协同交通巡检的路径优化方法和装置 | |
CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
CN113780624B (zh) | 一种基于博弈均衡理论的城市路网信号协调控制方法 | |
CN106096756A (zh) | 一种城市交通路网动态实时多路口路径选择方法 | |
CN115713856B (zh) | 一种基于交通流预测与实际路况的车辆路径规划方法 | |
CN107332770B (zh) | 一种必经点路由路径选择方法 | |
Du et al. | GAQ-EBkSP: a DRL-based urban traffic dynamic rerouting framework using fog-cloud architecture | |
CN112484733B (zh) | 一种基于拓扑图的强化学习室内导航方法 | |
CN116992928A (zh) | 面向公平自适应交通信号控制的多智能体强化学习方法 | |
Hussain et al. | Optimizing traffic lights with multi-agent deep reinforcement learning and v2x communication | |
CN110146103B (zh) | 考虑目标走向与能源补给的无人设备路径规划方法 | |
CN113870588B (zh) | 一种基于深度q网络的交通灯控制方法、终端及存储介质 | |
CN115202357A (zh) | 一种基于脉冲神经网络的自主建图方法 | |
CN118097989A (zh) | 基于数字孪生的多智能体交通区域信控方法 | |
CN114815801A (zh) | 一种基于策略-价值网络及mcts的自适应环境路径规划方法 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN113724507A (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Jun Inventor after: Zhang Jie Inventor after: Wang Tianyu Inventor after: Liang Teng Inventor before: Wang Tianyu Inventor before: Liang Teng Inventor before: Zhang Jie Inventor before: Li Jun |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |