CN115291625A

CN115291625A - 基于多智能体分层强化学习的多无人机空战决策方法

Info

Publication number: CN115291625A
Application number: CN202210831674.0A
Authority: CN
Inventors: 辛斌; 郑逸凡; 李莉; 焦科名; 赵智信
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-04

Abstract

本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法，所述方法包括：基于实际多无人机空战场景构建的仿真环境，包括环境约束模型、无人机个体约束模型和对抗影响规则；将多无人机空战问题建模为半马尔可夫博弈模型，单个无人机的决策过程抽象为代表高层和底层策略的两个智能体，分别定义各智能体的状态空间表示、动作、奖励函数和动作终止条件；采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机高层和底层策略智能体；完成训练后无人机基于底层策略智能体的策略网络和局部观测进行决策；该方法可实现空战环境下多无人机的自主无人协同决策，无需人类驾驶员介入，具有较好的即时性和鲁棒性。

Description

基于多智能体分层强化学习的多无人机空战决策方法

技术领域

本申请涉及多无人机自主协同决策与控制技术领域，具体涉及一种基于多智能体分层强化学习的多无人机空战决策方法。

背景技术

多无人机集群空战通常指携带武器的敌我双方无人机在一定空域中以协同打击对手，同时保证自身存活为目标的缠斗，具有立体化、大规模、高机动性作战等特点，对无人机自主协同决策与控制的即时性、鲁棒性和稳定性提出非常高的要求。

多智能体强化学习将个体的感知、学习与决策集成为同一框架，同时体现了个体间的相互协作，通过多个具备简单智能的个体实现复杂的集群智能，在近年来计算和存储技术飞速进步的大背景下，与深度学习相结合可实现从原始输入到策略输出的“端到端”决策，是解决多无人机集群空战自主协同决策这类高动态、非线性、强约束系统问题的一类有效方法。

然而，作为一类以数据驱动为主的方法，现有多智能体强化学习算法在解决多无人机空战协同决策这类复杂问题时往往依赖对环境大量的探索，导致样本学习效率较低，且对算力需求较高，为解决此类问题有部分方法借助人类飞行员的经验进行有监督的预训练，或结合专家规则设计动作，以加速算法收敛，但由此又带来容易使策略陷入局部最优的问题。

因此，如何较好的平衡探索与利用是采用深度多智能体强化学习方法解决此类问题面临的一大困难。此外，多智能体环境还带来了状态转移不稳定，状态部分可观导致的通信架构复杂，以及个体与团队目标难以平衡的问题。

发明内容

为了解决上述技术问题，本申请提出一种基于多智能体分层强化学习的多无人机空战决策方法，无人机的决策过程被抽象为分别代表高层和底层策略的两个智能体，其中，高层策略智能体在较高的时间维度学习目标分配策略，首先结合先验知识的态势估计先学习战术层面的策略，再进一步引导底层策略智能体在较低的时间维度优化基本控制策略，从而避免连续动作空间的过多盲目探索，提高样本的利用率；采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法进行训练，中心化训练去中心化执行的多智能体强化学习架构使无人机仅需移植底层策略智能体的策略网络，依据局部观测进行决策，无需依靠通信获取全局状态，具有较好的即时性和鲁棒性。

本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法，所述方法包括：

基于实际空战场景构建多无人机协同空战仿真对抗环境；

将所述多无人机协同空战仿真对抗环境中无人机空战协同决策问题构建为半马尔可夫博弈模型，在所述半马尔可夫博弈模型下将无人机的决策过程抽象为高层策略智能体和底层策略智能体；

采用异策略同步学习与自博弈机制结合的多智能体强化学习算法，训练所述高层策略智能体和所述底层策略智能体；其中，所述高层策略智能体在较高时间维度基于当前态势和全局状态学习目标分配策略，所述底层策略智能体在较低时间维度基于当前分配目标和局部观测学习最优控制策略；

基于所述底层策略智能体的策略网络和局部观测进行决策。

优选地，所述基于实际空战场景构建多无人机协同空战仿真对抗环境，包括：

基于实际空战场景，以计算机仿真的方式构建多无人机协同空战仿真对抗环境。

优选地，所述基于实际空战场景，以计算机仿真的方式构建多无人机协同空战仿真对抗环境，包括：

定义环境约束模型，包括对抗空间区域和物理影响因素；

定义无人机个体约束模型，包括个体无人机的运动能力、感知能力和火力打击能力；

定义对抗影响规则，包括敌我双方无人机对抗交互方式、对抗目标及胜负条件。

优选地，所述将多无人机空战协同决策问题构建为半马尔可夫博弈模型，包括：

采用多智能体分层强化学习方法，将多无人机空战协同决策问题构建为半马尔可夫博弈模型。

优选地，所述半马尔可夫博弈模型由元组

进行描述；

其中，

为所有智能体的有限集合，包括代表高层策略智能体的子集

和代表底层策略智能体的子集

为联合状态空间；

为状态转移概率；

为联合动作空间；

为奖励；

为上层决策的n步终止条件。

优选地，所述采用异策略同步学习与自博弈机制结合的多智能体强化学习算法，训练所述高层策略智能体和所述底层策略智能体，包括：

所述高层策略智能体H_i采用双深度Q网络算法训练，神经网络

和Q^B(s，a|θ^B)根据经验回放池中的样本

计算损失函数并反向传播梯度，交替更新网络参数θ^A和θ^B；其中，S_T和S_T+1为向量化的全局状态；

和

为H_i的奖励和动作；

所述底层策略智能体L_i采用多智能体近端策略优化算法训练，Critic神经网络V_i(S，a₁，a₂，...，a_n|θ^V)根据样本

计算价值函数的损失并反向传播梯度更新网络参数θ^V；其中，S_t和S_t+1为全局状态；

为此时高层策略动作；

和

为L_i的奖励和动作；Actor神经网络π_i(o_i|θ^π)根据样本

计算策略函数的损失并反向传播梯度更新网络参数θ^π；其中，

和

为向量化的局部观测。

优选地，所述训练所述高层策略智能体和所述底层策略智能体，包括：

第一阶段：敌方无人机采用基于专家规则的策略：确定目标后加速至最大速度；确定目标后保持和目标同一高度；采用以下优先级函数确定攻击目标：

其中，g_ij为无人机i对敌方无人机j的优先级因子，选择优先级因子最低的目标进行攻击；δ_ij为向量

和

在xy平面投影的夹角；ε_max为单一时间步的最大航向角变化量；h_ij为i和j的相对高度；ζ_max为单一时间步的最大高度变化量；m_j为无人机j已被作为目标分配的次数；

第二阶段：自博弈训练，敌我双方无人机第一阶段训练的策略网络进行决策，基于生成的轨迹样本进一步训练各自的决策模型，为避免出现策略循环采用虚拟自博弈机制。

优选地，所述方法还包括：

完成训练后无人机仅保留底层策略智能体的策略网络，通过输入局部观测输出控制动作，可进一步迁移至实际场景。

与现有技术相比，本申请的有益技术效果：

1)将单个无人机的决策过程抽象为分别代表战术层面和控制层面策略的智能体，设计自适应的奖励机制实现不同决策层级智能体的同步训练，底层策略解空间的搜索由高层策略引导，样本学习效率高，同时具备一定跳出局部最优的能力，能较好的平衡强化学习算法的探索与利用。

2)底层策略智能体的训练采用中心化Critic去中心化Actor架构的算法，高层策略智能体的动作作为价值网络输入的一部分对底层策略进行评价，训练完成后无人机仅保留底层策略智能体的策略网络，依据局部观测进行决策，降低数据存储、通信和计算的难度。

3)训练过程无需人类驾驶员的介入，基于高保真度固定翼无人机模型构建的仿真环境使此方法能进一步迁移至真实环境。

附图说明

图1是本申请实施例提供的基于多智能体分层强化学习的多无人机协同空战决策模型的示意图；

图2是本申请实施例提供的异策略同步学习机制算法的流程；

图3是本申请实施例提供的两阶段博弈训练示意图。

具体实施方式

请参阅图1-3，本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法，首先，基于实际空战场景构建仿真环境：携带有限导弹的同构对称能力固定翼无人机在一定三维空域进行以消灭对手为目标的空中搏斗对抗，以控制量

分别控制无人机的空速、航向角、高度和开火，分别定义环境约束模型、无人机个体约束模型和对抗影响规则。

然后，将多无人机空战问题建模为半马尔可夫博弈(Semi-Markov Game)问题，由元组

进行描述，其中，

为所有智能体的有限集合，包括代表高层决策智能体的子集

和代表底层决策智能体的子集

为联合状态空间，

为状态转移概率，

为联合动作空间，

为奖励，

为高层决策对底层动作的n步终止条件。将无人机i的决策过程分别抽象为代表高层和底层策略的智能体H_i和L_i，其中H_i在较高的时间维度根据当前全局状态S^T执行战略层面的动作

返回下一时刻的状态S^T+1和奖励

其中状态空间表示包括以下两部分：

(1)三个二维矩阵分别表示无人机在三维空间中x-y，x-z，y-z轴的相对位置；

(2)规模为4*1的一维数组[v_B，χ，γ，M]分别表示本机当前速度、航向角、飞行路径角和剩余导弹数量。

其中，高层策略智能体的动作

为根据当前态势选择目标，按如下式计算无人机i对j的威胁指数σ_ij：

其中，α₁，α₂和α₃分别为相应距离、角度和速度威胁的权重，应满足α₁|α₂|α₃＝1。

在本申请实施例中，计算无人机i对所有n架敌机的威胁指数集Adv_i-{σ_i1，...，σ_io}和受敌方威胁指数集Thr_i＝{σ_1i，...，σ_ni}，高层策略智能体有以下动作：1)、攻击Adv_i中具有最大威胁指数的敌机并消灭目标；2)、攻击最近友机j的集合Thr_j中具有最大威胁指数的敌机并消灭目标；3)、攻击最近友机j的集合Adv_j中具有最大威胁指数的敌机并消灭目标；4)、规避Thr_i中具有最大威胁指数的敌机并降低其威胁。

在本申请实施例中，高层策略智能体的奖励

表示时间步T内底层策略智能体获得的累计奖励，t₀和n由终止条件决定：a)、无人机i被判定死亡；b)、当前选定攻击或规避的目标发生改变。

在本申请实施例中，底层策略智能体L_i在较低的时间维度根据当前局部观测

执行动作

返回下一时刻的局部观测

和奖励

其中动作

为单位时间步内无人机的控制变量

在本申请实施例中，底层策略智能体与环境交互的时间步t获得的奖励

与高层策略智能体当前的动作A_i有关，以此建立两层决策模型间的联系：

其中，

表示无人机i与目标无人机j的距离，

表示速度向量

和相对位姿向量

的夹角，

表示速度的标量，α和β分别为权重系数，应分别满足α₁+α₂+α₃＝1和β₁+β₂+β₃＝1，R₀为基本奖励，R_a与R_d分别为攻击奖励和被击惩罚。

其次，对无人机的高层和底层策略智能体采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法进行训练，其中高层策略智能体H_i采用双深度Q网络(DoubleDeep Q Network，DDQN)算法，神经网络Q^A(s，a|θ^A)和Q^B(s，a|θ^B)根据经验回放池中的样本

算损失函数并反向传播梯度，交替更新网络参数θ^A和θ^B，其中S_T和S_T+1为向量化的全局状态，

和

为H_i的奖励和动作。

在本申请实施例中，底层策略智能体L_i采用多智能体近端策略优化(Multi AgentProximal Policy Optimization，MAPPO)算法，Critic神经网络V_i(S，a₁，a₂，...，a_n|θ^V)根据样本

计算价值函数的损失并反向传播梯度更新网络参数θ^V，其中S_i和S_i+1为全局状态，

为此时高层策略动作，

和

为L_i的奖励和动作；Actor神经网络π_i(o_i|θ^π)根据样本

计算策略函数的损失并反向传播梯度更新网络参数θ^π，其中

和

为向量化的局部观测。

在本申请实施例中，算法训练分为两阶段，第一阶段为对手方无人机采用固定规则策略：①确定目标后加速至最大速度；②确定目标后保持和目标同一高度；③采用以下优先级函数确定攻击目标：

和

在x-y平面投影的夹角，ε_max为单一时间步的最大航向角；h_ij为i和j的相对高度，ζ_max为单一时间步的最大高度变化量；m_j为无人机j已被作为目标分配的次数。

以固定策略对手训练一定回合数N_{fix_pule}后，使敌我双方均以第一阶段训练后保存的策略网络进行决策，进行第二阶段自博弈(self-play)训练，为避免出现策略循环采用虚拟自博弈(fictitious self-play)机制，训练一定回合数N_{self_play}。

最后，无人机在完成训练后只保留底层策略智能体的策略网络π_i(s|θ^π)，输入局部观测

通过采样输出的概率分布得到动作

请参阅图1-3，在本申请其他实施例中，基于多智能体分层强化学习的多无人机空战决策方法，包括以下步骤：

步骤1：基于Matlab构建多无人机空战的可视化仿真环境，分别定义环境约束模型、无人机个体约束模型和对抗影响规则。其中，环境约束模型定义对抗空间区域和物理影响因素；个体约束模型定义个体无人机的运动能力、感知能力和火力打击能力；对抗影响规则定义敌我方无人机对抗交互方式、对抗目标及胜负条件。

步骤1-1：定义环境约束模型，空战区域为单位长度1000*1000*1000的三维空间，设定重力加速度为常数g，风速为0，空间中不存在障碍或禁飞区域。

步骤1-2：定义个体约束模型，包括无人机的运动能力、感知能力和火力打击能力，其中运动能力由固定翼无人机的运动模型描述：

其中，无人机在x-y-z坐标系定义的三维空间内位移的速度

由其相对地面速度v_g(无风环境下空速v_a＝v_g)、航向角χ和飞行路径角γ决定；通过控制量<u_v，u_φ，u_h>分别控制无人机的空速v_a、航向角χ和飞行路径角γ，实现固定翼无人机在三维空间的飞行运动，k_*为相应控制量的增益。

其中，感知能力由无人机雷达的探测范围描述：

其中，

为无人机i和j的相对位姿向量，d_sen为无人机雷达的最大感知半径。

其中，火力打击能力为无人机进行有效打击需要满足的条件：

其中，d_att为无人机导弹的最大射程，ω_ij为无人机i的速度向量

与和无人机j的相对位姿向量

的夹角，ω_max为无人机导弹的最大发射角，M为当前携带导弹数量。

步骤1-3：定义对抗影响规则，包括敌我方无人机对抗交互方式、对抗目标及胜负条件。其中，无人机在满足火力打击能力约束的条件下可进行一次开火，导弹将以一定概率命中目标：

其中，α₁和α₂为权重系数，满足α₁+α₂＝1，无人机被导弹击中即被判定为死亡并退出战场，直到回合结束不可被其他无人机感知和打击。

在一种可行的实现方式中，敌我双方无人机的对抗目标均为保证己方存活的情况下打击并摧毁敌方所有对手。当达到所设定的最大时间步t_max或判定其中一方获胜，则结束当前回合。判定红方无人机获胜的条件为满足以下任意一条：①红方存活数量n_r≥1，同时蓝方存活数量n_b＝0；②达到最大回合时间，n_r＞n_b；③达到最大回合时间且n_r＝n_b，红方剩余导弹数量M_r大于蓝方剩余导弹数量M_b。

若满足以下条件则判定双方平局：达到最大回合时间且n_r＝n_b，M_r＝M_b。除满足上述条件的情况以外，判定蓝方无人机获胜。

步骤2：采用多智能体分层强化学习方法，将步骤1描述的多无人机空战协同决策问题建模为半马尔科夫博弈问题，由元组

进行描述，其中，

为所有智能体的有限集合，包括代表高层决策智能体的子集

和代表底层决策智能体的子集

为联合状态空间，

为状态转移概率，

为联合动作空间，

为奖励，

为上层决策的n步终止条件。

使用Python的通用强化学习库gym将基于Matlab的环境封装，以提供强化学习算法的接口。

步骤2-1：执行reset()命令对环境初始化，所有底层策略智能体

和高层策略智能体

返回无人机i的初始状态，状态空间表示包括以下两部分：

(1)三个二维矩阵分别表示无人机在三维空间中x-y，x-z，y-z轴的相对位置，其中全局状态矩阵规模为1000*1000，局部观测状态矩阵规模为2d_sen*2d_sen，设无人机i的x-y坐标为[x₀，y₀]，感知范围内友机j为[x₁，y₁]，敌机k为[x₂，y₂]，则令表示智能体L_i和H_i全局状态的零矩阵

表示局部状态的零矩阵B_ix，iy＝63，B_fx，fy＝127，B_kx，ky＝255。

其中，ix＝iy＝d_sen+1，jx＝ix+(x₁-x₀)，jy＝iy+(y₁-y₀)，kx＝ix+(x₂-x₀)，ky＝iy+(y₂-y₀)。

(2)规模为4*1的一维数组[v_B，χ，γ，M]表示本机其他状态。

步骤2-2：每个时间步T执行step_H()命令，高层策略智能体H_i的状态-动作价值网络Q_i(s，a|θ)输入当前全局状态S^T输出动作

与环境交互返回全局状态S^T+1和奖励

并将

放入经验回放池，其中高层策略智能体的动作为根据当前态势选择目标，按如下式计算无人机i对j的威胁指数σ_ij：

其中，α₁，α₂和α₃分别为相应距离、角度和速度威胁的权重，应满足α₁+α₂+α₃＝1。分别计算无人机i对所有n架敌机的威胁指数集Adv_i＝{σ_i1，...，σ_in}和受敌方威胁指数集Thr_i＝{σ_1i，...，σ_ni}，高层策略智能体有以下动作：

其中，高层策略智能体H_i在时间步T的奖励

为

其中

为下层策略智能体L_i在时间步t的奖励，

分别为终止条件指定的动作

在低时间维度的起止时间，其中终止条件为满足以下任一条件：a)、无人机i被判定死亡；b)、当前选定攻击或规避的目标发生改变。

步骤2-3：由上层策略终止条件定义的时间步T内，每个时间步t执行step_L()命令，底层策略智能体L_i的策略网络π(s|θ)输入当前局部观测

通过输出的概率分布采样动作

返回全局状态sⁱ⁺¹，局部观测

和奖励

将

和

放入经验回放池，其中底层策略智能体的动作

定义为无人机的基本控制量：<u_v，u_x，u_h，y_F>，其中u_v控制当前空速，u_x控制当前航向，u_h控制当前高度，u_F为一个0-1变量，控制当前是否开火。

与环境交互获得的奖励

表示如下：

其中，A_i为当前高层策略智能体H_i的动作，

表示无人机i与目标无人机j的距离，

表示速度向量

和相对位姿向量

的夹角，

表示速度的标量，α和β分别为权重系数，应分别满足α₁|α₂|α₃＝1和β₁|β₂|β₃＝1，R₀为基本奖励，R_a与R_d分别为攻击奖励和被击惩罚，应互为相反数且绝对值大于R₀，例如设R₀-1，则R_a-100，R_d--100。

步骤2-4：当无人机i被判定为死亡，智能体L_i和H_i将提前退出环境；以L_i执行动作的时间步为基准，当满足达到最大时间步t_max，或判定其中一方获胜，则当前回合结束，执行reset()命令对环境初始化，回合数N_episode＝N_episode+1。

步骤3：采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机的高层和底层策略智能体，无人机的历史状态、动作、奖励以<s，a，T，s′>的形式作为样本分别训练高层策略智能体的状态-动作价值网络和底层策略智能体的策略网络与状态价值网络，训练分为两阶段进行，其中第一阶段为基于固定规则的对手，第二阶段为自博弈训练。

步骤3-1：对高层策略智能体采用DDQN算法，训练两个具有相同超参数的状态-动作价值网络Q^A(s，a|θ^A)和Q^B(s，a|θ^B)，从经验回放池采样一个批次的样本，按照以下损失函数，以一定的频率交替更新θ^A和θ^B：

其中，b为当前批次样本规模，a^*为当前最高Q(s，a)值对应的动作，

为当前批次的第k个样本，分别对应步骤2-2的

步骤3-2：对底层策略智能体采用MAPPO算法，分别训练状态价值网络V(s|θ^V)和策略网络

从经验回放池采样一个批次的样本，其中状态价值网络按以下损失函数更新：

其中

为目标网络，clip为截断函数，s为截断阈值，价值网络的输入状态s_k对应步骤2-3中全局状态S^t和步骤2-2中来自高层策略智能体H_i的动作

向量化后的拼接。

在一种可行的实现方式中，所述策略网络按以下损失函数进行更新：

其中，

表示重要采样下由新旧策略得到的动作概率，AG_k为由状态价值网络输出和奖励获得的优势函数，

表示策略的熵，α为该项的权重系数，策略网络的输入状态s_k对应步骤2-3中的局部观测

由于环境中无人机为同构，对所有无人机分别共享智能体H_i和L_i对应神经网络的参数。

步骤3-3：步骤3-1和3-2的训练过程分为两阶段，第一阶段的敌方无人机采用基于专家规则的策略：①确定目标后加速至最大速度；②确定目标后保持和目标同一高度；③采用以下优先级函数确定攻击目标：

和

在x-y平面投影的夹角，ε_max为单一时间步的最大航向角变化量；h_ij为i和j的相对高度，ζ_max为单一时间步的最大高度变化量；m_j为无人机j已被作为目标分配的次数。

第二阶段为自博弈训练，敌我双方无人机第一阶段训练的策略网络进行决策，基于生成的轨迹样本进一步训练各自的决策模型，为避免出现策略循环采用虚拟自博弈机制。

步骤4：完成训练后无人机仅保留底层策略智能体的策略网络，通过输入局部观测输出控制动作，可进一步迁移至实际场景。