CN115291625A - 基于多智能体分层强化学习的多无人机空战决策方法 - Google Patents
基于多智能体分层强化学习的多无人机空战决策方法 Download PDFInfo
- Publication number
- CN115291625A CN115291625A CN202210831674.0A CN202210831674A CN115291625A CN 115291625 A CN115291625 A CN 115291625A CN 202210831674 A CN202210831674 A CN 202210831674A CN 115291625 A CN115291625 A CN 115291625A
- Authority
- CN
- China
- Prior art keywords
- agent
- strategy
- uav
- air combat
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 230000009471 action Effects 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000004088 simulation Methods 0.000 claims abstract description 14
- 230000001360 synchronised effect Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 106
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 5
- 238000005094 computer simulation Methods 0.000 claims description 4
- 230000009916 joint effect Effects 0.000 claims description 4
- 238000011217 control strategy Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/107—Simultaneous control of position or course in three dimensions specially adapted for missiles
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,所述方法包括:基于实际多无人机空战场景构建的仿真环境,包括环境约束模型、无人机个体约束模型和对抗影响规则;将多无人机空战问题建模为半马尔可夫博弈模型,单个无人机的决策过程抽象为代表高层和底层策略的两个智能体,分别定义各智能体的状态空间表示、动作、奖励函数和动作终止条件;采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机高层和底层策略智能体;完成训练后无人机基于底层策略智能体的策略网络和局部观测进行决策;该方法可实现空战环境下多无人机的自主无人协同决策,无需人类驾驶员介入,具有较好的即时性和鲁棒性。
Description
技术领域
本申请涉及多无人机自主协同决策与控制技术领域,具体涉及一种基于多智能体分层强化学习的多无人机空战决策方法。
背景技术
多无人机集群空战通常指携带武器的敌我双方无人机在一定空域中以协同打击对手,同时保证自身存活为目标的缠斗,具有立体化、大规模、高机动性作战等特点,对无人机自主协同决策与控制的即时性、鲁棒性和稳定性提出非常高的要求。
多智能体强化学习将个体的感知、学习与决策集成为同一框架,同时体现了个体间的相互协作,通过多个具备简单智能的个体实现复杂的集群智能,在近年来计算和存储技术飞速进步的大背景下,与深度学习相结合可实现从原始输入到策略输出的“端到端”决策,是解决多无人机集群空战自主协同决策这类高动态、非线性、强约束系统问题的一类有效方法。
然而,作为一类以数据驱动为主的方法,现有多智能体强化学习算法在解决多无人机空战协同决策这类复杂问题时往往依赖对环境大量的探索,导致样本学习效率较低,且对算力需求较高,为解决此类问题有部分方法借助人类飞行员的经验进行有监督的预训练,或结合专家规则设计动作,以加速算法收敛,但由此又带来容易使策略陷入局部最优的问题。
因此,如何较好的平衡探索与利用是采用深度多智能体强化学习方法解决此类问题面临的一大困难。此外,多智能体环境还带来了状态转移不稳定,状态部分可观导致的通信架构复杂,以及个体与团队目标难以平衡的问题。
发明内容
为了解决上述技术问题,本申请提出一种基于多智能体分层强化学习的多无人机空战决策方法,无人机的决策过程被抽象为分别代表高层和底层策略的两个智能体,其中,高层策略智能体在较高的时间维度学习目标分配策略,首先结合先验知识的态势估计先学习战术层面的策略,再进一步引导底层策略智能体在较低的时间维度优化基本控制策略,从而避免连续动作空间的过多盲目探索,提高样本的利用率;采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法进行训练,中心化训练去中心化执行的多智能体强化学习架构使无人机仅需移植底层策略智能体的策略网络,依据局部观测进行决策,无需依靠通信获取全局状态,具有较好的即时性和鲁棒性。
本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,所述方法包括:
基于实际空战场景构建多无人机协同空战仿真对抗环境;
将所述多无人机协同空战仿真对抗环境中无人机空战协同决策问题构建为半马尔可夫博弈模型,在所述半马尔可夫博弈模型下将无人机的决策过程抽象为高层策略智能体和底层策略智能体;
采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体;其中,所述高层策略智能体在较高时间维度基于当前态势和全局状态学习目标分配策略,所述底层策略智能体在较低时间维度基于当前分配目标和局部观测学习最优控制策略;
基于所述底层策略智能体的策略网络和局部观测进行决策。
优选地,所述基于实际空战场景构建多无人机协同空战仿真对抗环境,包括:
基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境。
优选地,所述基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境,包括:
定义环境约束模型,包括对抗空间区域和物理影响因素;
定义无人机个体约束模型,包括个体无人机的运动能力、感知能力和火力打击能力;
定义对抗影响规则,包括敌我双方无人机对抗交互方式、对抗目标及胜负条件。
优选地,所述将多无人机空战协同决策问题构建为半马尔可夫博弈模型,包括:
采用多智能体分层强化学习方法,将多无人机空战协同决策问题构建为半马尔可夫博弈模型。
优选地,所述采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体,包括:
所述高层策略智能体Hi采用双深度Q网络算法训练,神经网络和QB(s,a|θB)根据经验回放池中的样本计算损失函数并反向传播梯度,交替更新网络参数θA和θB;其中,ST和ST+1为向量化的全局状态;和为Hi的奖励和动作;
所述底层策略智能体Li采用多智能体近端策略优化算法训练,Critic神经网络Vi(S,a1,a2,...,an|θV)根据样本计算价值函数的损失并反向传播梯度更新网络参数θV;其中,St和St+1为全局状态;为此时高层策略动作;和为Li的奖励和动作;Actor神经网络πi(oi|θπ)根据样本计算策略函数的损失并反向传播梯度更新网络参数θπ;其中,和为向量化的局部观测。
优选地,所述训练所述高层策略智能体和所述底层策略智能体,包括:
第一阶段:敌方无人机采用基于专家规则的策略:确定目标后加速至最大速度;确定目标后保持和目标同一高度;采用以下优先级函数确定攻击目标:
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量和在xy平面投影的夹角;εmax为单一时间步的最大航向角变化量;hij为i和j的相对高度;ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数;
第二阶段:自博弈训练,敌我双方无人机第一阶段训练的策略网络进行决策,基于生成的轨迹样本进一步训练各自的决策模型,为避免出现策略循环采用虚拟自博弈机制。
优选地,所述方法还包括:
完成训练后无人机仅保留底层策略智能体的策略网络,通过输入局部观测输出控制动作,可进一步迁移至实际场景。
与现有技术相比,本申请的有益技术效果:
1)将单个无人机的决策过程抽象为分别代表战术层面和控制层面策略的智能体,设计自适应的奖励机制实现不同决策层级智能体的同步训练,底层策略解空间的搜索由高层策略引导,样本学习效率高,同时具备一定跳出局部最优的能力,能较好的平衡强化学习算法的探索与利用。
2)底层策略智能体的训练采用中心化Critic去中心化Actor架构的算法,高层策略智能体的动作作为价值网络输入的一部分对底层策略进行评价,训练完成后无人机仅保留底层策略智能体的策略网络,依据局部观测进行决策,降低数据存储、通信和计算的难度。
3)训练过程无需人类驾驶员的介入,基于高保真度固定翼无人机模型构建的仿真环境使此方法能进一步迁移至真实环境。
附图说明
图1是本申请实施例提供的基于多智能体分层强化学习的多无人机协同空战决策模型的示意图;
图2是本申请实施例提供的异策略同步学习机制算法的流程;
图3是本申请实施例提供的两阶段博弈训练示意图。
具体实施方式
请参阅图1-3,本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,首先,基于实际空战场景构建仿真环境:携带有限导弹的同构对称能力固定翼无人机在一定三维空域进行以消灭对手为目标的空中搏斗对抗,以控制量分别控制无人机的空速、航向角、高度和开火,分别定义环境约束模型、无人机个体约束模型和对抗影响规则。
然后,将多无人机空战问题建模为半马尔可夫博弈(Semi-Markov Game)问题,由元组进行描述,其中,为所有智能体的有限集合,包括代表高层决策智能体的子集和代表底层决策智能体的子集 为联合状态空间,为状态转移概率,为联合动作空间,为奖励,为高层决策对底层动作的n步终止条件。将无人机i的决策过程分别抽象为代表高层和底层策略的智能体Hi和Li,其中Hi在较高的时间维度根据当前全局状态ST执行战略层面的动作返回下一时刻的状态ST+1和奖励其中状态空间表示包括以下两部分:
(1)三个二维矩阵分别表示无人机在三维空间中x-y,x-z,y-z轴的相对位置;
(2)规模为4*1的一维数组[vB,χ,γ,M]分别表示本机当前速度、航向角、飞行路径角和剩余导弹数量。
其中,α1,α2和α3分别为相应距离、角度和速度威胁的权重,应满足α1|α2|α3=1。
在本申请实施例中,计算无人机i对所有n架敌机的威胁指数集Advi-{σi1,...,σio}和受敌方威胁指数集Thri={σ1i,...,σni},高层策略智能体有以下动作:1)、攻击Advi中具有最大威胁指数的敌机并消灭目标;2)、攻击最近友机j的集合Thrj中具有最大威胁指数的敌机并消灭目标;3)、攻击最近友机j的集合Advj中具有最大威胁指数的敌机并消灭目标;4)、规避Thri中具有最大威胁指数的敌机并降低其威胁。
其中,表示无人机i与目标无人机j的距离,表示速度向量和相对位姿向量的夹角,表示速度的标量,α和β分别为权重系数,应分别满足α1+α2+α3=1和β1+β2+β3=1,R0为基本奖励,Ra与Rd分别为攻击奖励和被击惩罚。
其次,对无人机的高层和底层策略智能体采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法进行训练,其中高层策略智能体Hi采用双深度Q网络(DoubleDeep Q Network,DDQN)算法,神经网络QA(s,a|θA)和QB(s,a|θB)根据经验回放池中的样本算损失函数并反向传播梯度,交替更新网络参数θA和θB,其中ST和ST+1为向量化的全局状态,和为Hi的奖励和动作。
在本申请实施例中,底层策略智能体Li采用多智能体近端策略优化(Multi AgentProximal Policy Optimization,MAPPO)算法,Critic神经网络Vi(S,a1,a2,...,an|θV)根据样本计算价值函数的损失并反向传播梯度更新网络参数θV,其中Si和Si+1为全局状态,为此时高层策略动作,和为Li的奖励和动作;Actor神经网络πi(oi|θπ)根据样本计算策略函数的损失并反向传播梯度更新网络参数θπ,其中和为向量化的局部观测。
在本申请实施例中,算法训练分为两阶段,第一阶段为对手方无人机采用固定规则策略:①确定目标后加速至最大速度;②确定目标后保持和目标同一高度;③采用以下优先级函数确定攻击目标:
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量和在x-y平面投影的夹角,εmax为单一时间步的最大航向角;hij为i和j的相对高度,ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数。
以固定策略对手训练一定回合数Nfix_pule后,使敌我双方均以第一阶段训练后保存的策略网络进行决策,进行第二阶段自博弈(self-play)训练,为避免出现策略循环采用虚拟自博弈(fictitious self-play)机制,训练一定回合数Nself_play。
请参阅图1-3,在本申请其他实施例中,基于多智能体分层强化学习的多无人机空战决策方法,包括以下步骤:
步骤1:基于Matlab构建多无人机空战的可视化仿真环境,分别定义环境约束模型、无人机个体约束模型和对抗影响规则。其中,环境约束模型定义对抗空间区域和物理影响因素;个体约束模型定义个体无人机的运动能力、感知能力和火力打击能力;对抗影响规则定义敌我方无人机对抗交互方式、对抗目标及胜负条件。
步骤1-1:定义环境约束模型,空战区域为单位长度1000*1000*1000的三维空间,设定重力加速度为常数g,风速为0,空间中不存在障碍或禁飞区域。
步骤1-2:定义个体约束模型,包括无人机的运动能力、感知能力和火力打击能力,其中运动能力由固定翼无人机的运动模型描述:
其中,无人机在x-y-z坐标系定义的三维空间内位移的速度由其相对地面速度vg(无风环境下空速va=vg)、航向角χ和飞行路径角γ决定;通过控制量<uv,uφ,uh>分别控制无人机的空速va、航向角χ和飞行路径角γ,实现固定翼无人机在三维空间的飞行运动,k*为相应控制量的增益。
其中,感知能力由无人机雷达的探测范围描述:
其中,火力打击能力为无人机进行有效打击需要满足的条件:
步骤1-3:定义对抗影响规则,包括敌我方无人机对抗交互方式、对抗目标及胜负条件。其中,无人机在满足火力打击能力约束的条件下可进行一次开火,导弹将以一定概率命中目标:
其中,α1和α2为权重系数,满足α1+α2=1,无人机被导弹击中即被判定为死亡并退出战场,直到回合结束不可被其他无人机感知和打击。
在一种可行的实现方式中,敌我双方无人机的对抗目标均为保证己方存活的情况下打击并摧毁敌方所有对手。当达到所设定的最大时间步tmax或判定其中一方获胜,则结束当前回合。判定红方无人机获胜的条件为满足以下任意一条:①红方存活数量nr≥1,同时蓝方存活数量nb=0;②达到最大回合时间,nr>nb;③达到最大回合时间且nr=nb,红方剩余导弹数量Mr大于蓝方剩余导弹数量Mb。
若满足以下条件则判定双方平局:达到最大回合时间且nr=nb,Mr=Mb。除满足上述条件的情况以外,判定蓝方无人机获胜。
步骤2:采用多智能体分层强化学习方法,将步骤1描述的多无人机空战协同决策问题建模为半马尔科夫博弈问题,由元组进行描述,其中,为所有智能体的有限集合,包括代表高层决策智能体的子集和代表底层决策智能体的子集 为联合状态空间,为状态转移概率,为联合动作空间,为奖励,为上层决策的n步终止条件。
使用Python的通用强化学习库gym将基于Matlab的环境封装,以提供强化学习算法的接口。
(1)三个二维矩阵分别表示无人机在三维空间中x-y,x-z,y-z轴的相对位置,其中全局状态矩阵规模为1000*1000,局部观测状态矩阵规模为2dsen*2dsen,设无人机i的x-y坐标为[x0,y0],感知范围内友机j为[x1,y1],敌机k为[x2,y2],则令表示智能体Li和Hi全局状态的零矩阵表示局部状态的零矩阵Bix,iy=63,Bfx,fy=127,Bkx,ky=255。
其中,ix=iy=dsen+1,jx=ix+(x1-x0),jy=iy+(y1-y0),kx=ix+(x2-x0),ky=iy+(y2-y0)。
(2)规模为4*1的一维数组[vB,χ,γ,M]表示本机其他状态。
步骤2-2:每个时间步T执行step_H()命令,高层策略智能体Hi的状态-动作价值网络Qi(s,a|θ)输入当前全局状态ST输出动作与环境交互返回全局状态ST+1和奖励并将放入经验回放池,其中高层策略智能体的动作为根据当前态势选择目标,按如下式计算无人机i对j的威胁指数σij:
其中,α1,α2和α3分别为相应距离、角度和速度威胁的权重,应满足α1+α2+α3=1。分别计算无人机i对所有n架敌机的威胁指数集Advi={σi1,...,σin}和受敌方威胁指数集Thri={σ1i,...,σni},高层策略智能体有以下动作:
其中,高层策略智能体Hi在时间步T的奖励为其中为下层策略智能体Li在时间步t的奖励,分别为终止条件指定的动作在低时间维度的起止时间,其中终止条件为满足以下任一条件:a)、无人机i被判定死亡;b)、当前选定攻击或规避的目标发生改变。
步骤2-3:由上层策略终止条件定义的时间步T内,每个时间步t执行step_L()命令,底层策略智能体Li的策略网络π(s|θ)输入当前局部观测通过输出的概率分布采样动作返回全局状态si+1,局部观测和奖励将和放入经验回放池,其中底层策略智能体的动作定义为无人机的基本控制量:<uv,ux,uh,yF>,其中uv控制当前空速,ux控制当前航向,uh控制当前高度,uF为一个0-1变量,控制当前是否开火。
其中,Ai为当前高层策略智能体Hi的动作,表示无人机i与目标无人机j的距离,表示速度向量和相对位姿向量的夹角,表示速度的标量,α和β分别为权重系数,应分别满足α1|α2|α3=1和β1|β2|β3=1,R0为基本奖励,Ra与Rd分别为攻击奖励和被击惩罚,应互为相反数且绝对值大于R0,例如设R0-1,则Ra-100,Rd--100。
步骤2-4:当无人机i被判定为死亡,智能体Li和Hi将提前退出环境;以Li执行动作的时间步为基准,当满足达到最大时间步tmax,或判定其中一方获胜,则当前回合结束,执行reset()命令对环境初始化,回合数Nepisode=Nepisode+1。
步骤3:采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机的高层和底层策略智能体,无人机的历史状态、动作、奖励以<s,a,T,s′>的形式作为样本分别训练高层策略智能体的状态-动作价值网络和底层策略智能体的策略网络与状态价值网络,训练分为两阶段进行,其中第一阶段为基于固定规则的对手,第二阶段为自博弈训练。
步骤3-1:对高层策略智能体采用DDQN算法,训练两个具有相同超参数的状态-动作价值网络QA(s,a|θA)和QB(s,a|θB),从经验回放池采样一个批次的样本,按照以下损失函数,以一定的频率交替更新θA和θB:
步骤3-2:对底层策略智能体采用MAPPO算法,分别训练状态价值网络V(s|θV)和策略网络从经验回放池采样一个批次的样本,其中状态价值网络按以下损失函数更新:其中为目标网络,clip为截断函数,s为截断阈值,价值网络的输入状态sk对应步骤2-3中全局状态St和步骤2-2中来自高层策略智能体Hi的动作向量化后的拼接。
其中,表示重要采样下由新旧策略得到的动作概率,AGk为由状态价值网络输出和奖励获得的优势函数,表示策略的熵,α为该项的权重系数,策略网络的输入状态sk对应步骤2-3中的局部观测由于环境中无人机为同构,对所有无人机分别共享智能体Hi和Li对应神经网络的参数。
步骤3-3:步骤3-1和3-2的训练过程分为两阶段,第一阶段的敌方无人机采用基于专家规则的策略:①确定目标后加速至最大速度;②确定目标后保持和目标同一高度;③采用以下优先级函数确定攻击目标:
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量和在x-y平面投影的夹角,εmax为单一时间步的最大航向角变化量;hij为i和j的相对高度,ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数。
第二阶段为自博弈训练,敌我双方无人机第一阶段训练的策略网络进行决策,基于生成的轨迹样本进一步训练各自的决策模型,为避免出现策略循环采用虚拟自博弈机制。
步骤4:完成训练后无人机仅保留底层策略智能体的策略网络,通过输入局部观测输出控制动作,可进一步迁移至实际场景。
Claims (8)
1.一种基于多智能体分层强化学习的多无人机空战决策方法,其特征在于,所述方法包括:
基于实际空战场景构建多无人机协同空战仿真对抗环境;
将所述多无人机协同空战仿真对抗环境中无人机空战协同决策问题构建为半马尔可夫博弈模型,在所述半马尔可夫博弈模型下将无人机的决策过程抽象为高层策略智能体和底层策略智能体;
采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体;其中,所述高层策略智能体在较高时间维度基于当前态势和全局状态学习目标分配策略,所述底层策略智能体在较低时间维度基于当前分配目标和局部观测学习最优控制策略;
基于所述底层策略智能体的策略网络和局部观测进行决策。
2.根据权利要求1所述的方法,其特征在于,所述基于实际空战场景构建多无人机协同空战仿真对抗环境,包括:
基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境。
3.根据权利要求2所述的方法,其特征在于,所述基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境,包括:
定义环境约束模型,包括对抗空间区域和物理影响因素;
定义无人机个体约束模型,包括个体无人机的运动能力、感知能力和火力打击能力;
定义对抗影响规则,包括敌我双方无人机对抗交互方式、对抗目标及胜负条件。
4.根据权利要求1所述的方法,其特征在于,所述将多无人机空战协同决策问题构建为半马尔可夫博弈模型,包括:
采用多智能体分层强化学习方法,将多无人机空战协同决策问题构建为半马尔可夫博弈模型。
6.根据权利要求5所述的方法,其特征在于,所述采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体,包括:
所述高层策略智能体Hi采用双深度Q网络算法训练,神经网络QA(s,a|θA)和QB(s,a|θB)根据经验回放池中的样本计算损失函数并反向传播梯度,交替更新网络参数θA和θB;其中,ST和ST+1为向量化的全局状态;和为Hi的奖励和动作;
7.根据权利要求6所述的方法,其特征在于,所述训练所述高层策略智能体和所述底层策略智能体,包括:
第一阶段:敌方无人机采用基于专家规则的策略:确定目标后加速至最大速度;确定目标后保持和目标同一高度;采用以下优先级函数确定攻击目标:
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量和在x-y平面投影的夹角;εmax为单一时间步的最大航向角变化量;hij为i和j的相对高度;ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数;
第二阶段:自博弈训练,敌我双方无人机第一阶段训练的策略网络进行决策,基于生成的轨迹样本进一步训练各自的决策模型,为避免出现策略循环采用虚拟自博弈机制。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
完成训练后无人机仅保留底层策略智能体的策略网络,通过输入局部观测输出控制动作,可进一步迁移至实际场景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831674.0A CN115291625A (zh) | 2022-07-15 | 2022-07-15 | 基于多智能体分层强化学习的多无人机空战决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831674.0A CN115291625A (zh) | 2022-07-15 | 2022-07-15 | 基于多智能体分层强化学习的多无人机空战决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115291625A true CN115291625A (zh) | 2022-11-04 |
Family
ID=83823196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210831674.0A Pending CN115291625A (zh) | 2022-07-15 | 2022-07-15 | 基于多智能体分层强化学习的多无人机空战决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115291625A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544899A (zh) * | 2022-11-23 | 2022-12-30 | 南京邮电大学 | 基于多智能体深度强化学习的水厂取水泵站节能调度方法 |
CN115840892A (zh) * | 2022-12-09 | 2023-03-24 | 中山大学 | 一种复杂环境下多智能体层次化自主决策方法及系统 |
CN116128013A (zh) * | 2023-04-07 | 2023-05-16 | 中国人民解放军国防科技大学 | 基于多样性种群训练的临机协同方法、装置和计算机设备 |
CN116484227A (zh) * | 2023-05-04 | 2023-07-25 | 西北工业大学 | 用于机弹对抗末端机动规避指标生成的神经网络建模方法 |
CN116501086A (zh) * | 2023-04-27 | 2023-07-28 | 天津大学 | 一种基于强化学习的飞行器自主规避决策方法 |
CN116736729A (zh) * | 2023-08-14 | 2023-09-12 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN116776751A (zh) * | 2023-08-22 | 2023-09-19 | 北京航天晨信科技有限责任公司 | 一种智能决策算法模型设计开发辅助系统 |
CN116796505A (zh) * | 2023-05-11 | 2023-09-22 | 中国人民解放军海军航空大学 | 一种基于示例策略约束的空战机动策略生成方法 |
CN117348392A (zh) * | 2023-09-27 | 2024-01-05 | 四川大学 | 一种多机近距空战机动决策分布式优化方法 |
CN118095339A (zh) * | 2024-01-26 | 2024-05-28 | 南栖仙策(南京)科技有限公司 | 一种指挥智能体的决策学习方法、装置、设备及介质 |
CN118821903A (zh) * | 2024-09-19 | 2024-10-22 | 中国电子科技集团公司第五十四研究所 | 基于分层强化学习的异构多无人机协同对抗策略生成方法 |
CN118862943A (zh) * | 2024-09-26 | 2024-10-29 | 中国人民解放军国防科技大学 | 一种用于兵棋推演平台的端云协同训练方法 |
CN118915795A (zh) * | 2024-10-10 | 2024-11-08 | 长江三峡集团实业发展(北京)有限公司 | 一种多无人机协同控制方法及装置 |
CN119002521A (zh) * | 2024-10-23 | 2024-11-22 | 西北工业大学 | 基于强化学习的无人机集群协同对抗决策方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112034888A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 一种固定翼无人机自主控制协作策略训练方法 |
WO2021082864A1 (zh) * | 2019-10-30 | 2021-05-06 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
CN114118400A (zh) * | 2021-10-11 | 2022-03-01 | 中国科学院自动化研究所 | 一种基于专注网络的集群对抗方法及装置 |
CN114167756A (zh) * | 2021-12-08 | 2022-03-11 | 北京航空航天大学 | 多无人机协同空战决策自主学习及半实物仿真验证方法 |
CN114330651A (zh) * | 2021-12-14 | 2022-04-12 | 中国运载火箭技术研究院 | 面向多要素联合指控的分层多智能体增强学习方法 |
-
2022
- 2022-07-15 CN CN202210831674.0A patent/CN115291625A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021082864A1 (zh) * | 2019-10-30 | 2021-05-06 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
CN112034888A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 一种固定翼无人机自主控制协作策略训练方法 |
CN114118400A (zh) * | 2021-10-11 | 2022-03-01 | 中国科学院自动化研究所 | 一种基于专注网络的集群对抗方法及装置 |
CN114167756A (zh) * | 2021-12-08 | 2022-03-11 | 北京航空航天大学 | 多无人机协同空战决策自主学习及半实物仿真验证方法 |
CN114330651A (zh) * | 2021-12-14 | 2022-04-12 | 中国运载火箭技术研究院 | 面向多要素联合指控的分层多智能体增强学习方法 |
Non-Patent Citations (1)
Title |
---|
曹类: ""基于深度强化学习的智能博弈对抗关键技术"", 《指挥信息系统与技术》, vol. 10, no. 05, 31 December 2019 (2019-12-31), pages 1 - 7 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544899A (zh) * | 2022-11-23 | 2022-12-30 | 南京邮电大学 | 基于多智能体深度强化学习的水厂取水泵站节能调度方法 |
CN115840892A (zh) * | 2022-12-09 | 2023-03-24 | 中山大学 | 一种复杂环境下多智能体层次化自主决策方法及系统 |
CN115840892B (zh) * | 2022-12-09 | 2024-04-19 | 中山大学 | 一种复杂环境下多智能体层次化自主决策方法及系统 |
CN116128013A (zh) * | 2023-04-07 | 2023-05-16 | 中国人民解放军国防科技大学 | 基于多样性种群训练的临机协同方法、装置和计算机设备 |
CN116501086A (zh) * | 2023-04-27 | 2023-07-28 | 天津大学 | 一种基于强化学习的飞行器自主规避决策方法 |
CN116501086B (zh) * | 2023-04-27 | 2024-03-26 | 天津大学 | 一种基于强化学习的飞行器自主规避决策方法 |
CN116484227A (zh) * | 2023-05-04 | 2023-07-25 | 西北工业大学 | 用于机弹对抗末端机动规避指标生成的神经网络建模方法 |
CN116484227B (zh) * | 2023-05-04 | 2024-09-10 | 西北工业大学 | 用于机弹对抗末端机动规避指标生成的神经网络建模方法 |
CN116796505B (zh) * | 2023-05-11 | 2024-02-20 | 中国人民解放军海军航空大学 | 一种基于示例策略约束的空战机动策略生成方法 |
CN116796505A (zh) * | 2023-05-11 | 2023-09-22 | 中国人民解放军海军航空大学 | 一种基于示例策略约束的空战机动策略生成方法 |
CN116736729A (zh) * | 2023-08-14 | 2023-09-12 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN116736729B (zh) * | 2023-08-14 | 2023-10-27 | 成都蓉奥科技有限公司 | 一种抗感知误差的视距内空战机动策略生成方法 |
CN116776751B (zh) * | 2023-08-22 | 2023-11-10 | 北京航天晨信科技有限责任公司 | 一种智能决策算法模型设计开发辅助系统 |
CN116776751A (zh) * | 2023-08-22 | 2023-09-19 | 北京航天晨信科技有限责任公司 | 一种智能决策算法模型设计开发辅助系统 |
CN117348392A (zh) * | 2023-09-27 | 2024-01-05 | 四川大学 | 一种多机近距空战机动决策分布式优化方法 |
CN118095339A (zh) * | 2024-01-26 | 2024-05-28 | 南栖仙策(南京)科技有限公司 | 一种指挥智能体的决策学习方法、装置、设备及介质 |
CN118095339B (zh) * | 2024-01-26 | 2025-01-24 | 南栖仙策(南京)科技有限公司 | 一种指挥智能体的决策学习方法、装置、设备及介质 |
CN118821903A (zh) * | 2024-09-19 | 2024-10-22 | 中国电子科技集团公司第五十四研究所 | 基于分层强化学习的异构多无人机协同对抗策略生成方法 |
CN118862943A (zh) * | 2024-09-26 | 2024-10-29 | 中国人民解放军国防科技大学 | 一种用于兵棋推演平台的端云协同训练方法 |
CN118862943B (zh) * | 2024-09-26 | 2024-12-20 | 中国人民解放军国防科技大学 | 一种用于兵棋推演平台的端云协同训练方法 |
CN118915795A (zh) * | 2024-10-10 | 2024-11-08 | 长江三峡集团实业发展(北京)有限公司 | 一种多无人机协同控制方法及装置 |
CN119002521A (zh) * | 2024-10-23 | 2024-11-22 | 西北工业大学 | 基于强化学习的无人机集群协同对抗决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115291625A (zh) | 基于多智能体分层强化学习的多无人机空战决策方法 | |
CN112861442B (zh) | 基于深度强化学习的多机协同空战规划方法及系统 | |
CN113589842B (zh) | 一种基于多智能体强化学习的无人集群任务协同方法 | |
Wang et al. | Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm | |
CN108680063B (zh) | 一种针对大规模无人机集群动态对抗的决策方法 | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
Wang et al. | Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction | |
CN113893539B (zh) | 智能体的协同对战方法及装置 | |
CN112783209A (zh) | 一种基于鸽群智能竞争学习的无人机集群对抗控制方法 | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
CN116700079A (zh) | 基于ac-nfsp的无人机对抗占位机动控制方法 | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN113741500A (zh) | 仿哈里斯鹰智能捕食优化的无人机空战机动决策方法 | |
Kong et al. | Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat | |
Wu et al. | Visual range maneuver decision of unmanned combat aerial vehicle based on fuzzy reasoning | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN117313561A (zh) | 无人机智能决策模型训练方法及无人机智能决策方法 | |
CN115454136B (zh) | 一种无人机集群协同攻防对抗决策方法 | |
CN116520884A (zh) | 一种基于分层强化学习的无人机集群对抗策略优化方法 | |
CN113282100A (zh) | 基于强化学习的无人机对抗博弈训练控制方法 | |
CN116225065A (zh) | 多智能体强化学习的多自由度模型的无人机协同追捕方法 | |
CN115859778A (zh) | 一种基于dcl-gwo算法的空战机动决策方法 | |
Zhu et al. | Mastering air combat game with deep reinforcement learning | |
CN117291254A (zh) | 基于模仿学习和安全强化学习的智能体任务分配训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |