CN113095481B - 一种基于并行自我博弈的空战机动方法 - Google Patents
一种基于并行自我博弈的空战机动方法 Download PDFInfo
- Publication number
- CN113095481B CN113095481B CN202110364109.3A CN202110364109A CN113095481B CN 113095481 B CN113095481 B CN 113095481B CN 202110364109 A CN202110364109 A CN 202110364109A CN 113095481 B CN113095481 B CN 113095481B
- Authority
- CN
- China
- Prior art keywords
- red
- blue
- aerial vehicle
- unmanned aerial
- punishment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000009471 action Effects 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 36
- 230000008859 change Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64U—UNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
- B64U2101/00—UAVs specially adapted for particular uses or applications
- B64U2101/15—UAVs specially adapted for particular uses or applications for conventional or electronic warfare
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Automation & Control Theory (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。
Description
技术领域
本发明属于无人机技术领域,具体涉及一种空战机动方法。
背景技术
自主空战机动决策是指:基于数学优化、人工智能等方法,模拟各种空战态势下飞行员空战决策,自动生成对飞行器(包括有人、无人机等)操纵决策的过程。
按照方法的不同,常见的无人机机动决策可以分为传统方法以及智能方法。传统方法指采取专家知识、公式推导、影响图等方法来实现择优决策过程,这类方法更注重先验知识或数学运算,对于决策往往不具备自优化过程。智能方法指使用诸如遗传算法、贝叶斯、人工智能等具有自学习、自优化能力的智能方法来实现无人机的机动控制,这类方法一般可以根据态势目标自主达到策略的优化。
然而,在解决敌我对抗问题时,这些方法均为在单一确定环境下训练,智能体学习得到的策略模型会过于适应当前环境及态势,具有较弱的鲁棒性。当应用至新环境或改变自身初始态势,策略模型将无法准确选择合理的决策动作。若在面临新环境时从头学习,则会消耗大量的训练时间。
发明内容
为了克服现有技术的不足,本发明提供了一种基于并行自我博弈的空战机动方法,首先构建无人机机动模型,再构建红蓝运动态势获取模型,描述红蓝作战相对态势;:然后依据马尔科夫过程构建红蓝双方状态空间、红双方动作空间和奖惩函数,接下来构建基于SAC算法的机动决策模型结构,通过空战对抗实现并行自我博弈训练SAC算法,最后测试训练得到的网络,显示作战轨迹并统计作战成功率。本发明能够有效提升敌我对抗水平,增大决策模型作战成功率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
进一步地,所述构建无人机机动模型的具体步骤包括:
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,/>为无人机航向角变化量。
进一步地,所述步骤S2的具体步骤包括:
红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量/>与距离向量/>的夹角;
蓝方相对于红方的作战态势用d、qr表示,红方相对于蓝方的作战态势用/>d及qb表示;/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,/>表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
d、qr与qb的计算如下:
其中,为红方的位置向量,/>为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,/>为红方的航向角;/>为蓝方的位置向量,/>为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,/>为蓝方的航向角。
进一步地,所述步骤S3的具体步骤包括:
定义红方无人机状态空间为蓝方无人机状态空间为/>
红方无人机动作空间为蓝方无人机动作空间为/>
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:
基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和/>两个Target Soft-Q网络/>和/>其中,θ,/>均表示对应网络的权重;
Actor神经网络πθ的输入为红方状态值或蓝方状态值/>输出为均值μ(μr,μb)和方差σ(σr,σb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作/>或蓝方动作/>并通过tanh函数将动作/>或/>限制在(-1,1)之间,动作生成过程如下所示:
Soft-Q神经网络和/>的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络/>和/>与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述步骤S5的具体步骤包括:
初始化多组作战双方时,初始位置在作战区域内,设定初始速度范围,初始俯仰角范围,初始航向角范围;
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态及蓝方的初始状态/>
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络/>令/>将/>作为网络权重初始化TargetSoft-Q网络/>
步骤S53:将红方状态输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作/>红方执行动作后获取新状态/>并根据步骤S3奖惩函数R获得奖惩值/>将蓝方状态/>输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作/>蓝方执行动作后获取新状态/>并根据步骤S3中奖惩函数R获得奖惩值/>将元组/>及元组/>存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α;
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51。
进一步地,所述步骤S6的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
步骤S62:分别记录状态将状态/>输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作/>双方执行动作后获取新状态/>
步骤S63:判定作战是否成功,若是,则结束;否则令并转至执行步骤S62;
步骤S64:依据所记录的状态画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
进一步地,所述步骤S5中,设定初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
本发明的有益效果如下:
1、本发明在自我博弈过程引入多个战场环境,具有战场环境间样本与策略共享的特点,能够整体优化机动策略。
2、本发明的并行自我博弈算法能够有效提升敌我对抗水平,增大决策模型作战成功率。
附图说明
图1是本发明方法流程图。
图2是本发明方法的自我博弈原理图。
图3是本发明实施例的作战轨迹图。
图4是本发明实施例的作战成功率曲线。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种基于并行自我博弈的空战机动方法,包括以下步骤:
步骤S1:构建无人机机动模型;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
步骤S4:构建基于SAC算法的机动决策模型结构;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率。
进一步地,所述构建无人机机动模型的具体步骤包括:
敌我双方无人机通过无人机运动方程更新位置信息,实现机动,并将敌我双方信息提供给敌我态势获取模块用于计算相应态势。
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,/>为无人机航向角变化量。
进一步地,所述步骤S2的具体步骤包括:
红蓝运动态势获取模型可依据红蓝状态信息计算相对态势,并提供给基于深度强化学习方法的机动决策模块用于决策;
红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量/>与距离向量/>的夹角;
蓝方相对于红方的作战态势用d、qr表示,红方相对于蓝方的作战态势用/>d及qb表示;/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,/>表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
d、qr与qb的计算如下:
其中,为红方的位置向量,/>为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,/>为红方的航向角;/>为蓝方的位置向量,/>为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,/>为蓝方的航向角。
进一步地,所述步骤S3的具体步骤包括:
定义红方无人机状态空间为蓝方无人机状态空间为/>
红方无人机动作空间为蓝方无人机动作空间为/>
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角。
进一步地,如图2所示,所述构建基于SAC算法的机动决策模型结构的具体步骤包括:
基于SAC算法的机动决策模型采用SAC方法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和/>两个Target Soft-Q网络/>和/>其中,θ,/>均表示对应网络的权重;
经验池M是一种经验回放缓存结构,用来专门存储强化学习中学习的经验。
Actor神经网络πθ的输入为红方状态值或蓝方状态值/>输出为均值μ(μr,μb)和方差σ(σr,σb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作/>或蓝方动作/>并通过tanh函数将动作/>或/>限制在(-1,1)之间,动作生成过程如下所示:
Soft-Q神经网络和/>的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络/>和/>与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数。
进一步地,所述步骤S5的具体步骤包括:
初始化多组作战双方时,初始位置在作战区域内,初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态及蓝方的初始状态/>
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络/>令/>将/>作为网络权重初始化TargetSoft-Q网络/>
步骤S53:将红方状态输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作/>红方执行动作后获取新状态/>并根据步骤S3奖惩函数R获得奖惩值/>将蓝方状态/>输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作/>蓝方执行动作后获取新状态/>并根据步骤S3中奖惩函数R获得奖惩值rt b;将元组/>及元组/>存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池M内经验组数大于batch_size时,随机取出batch_size组经验,其中每组数据被重新定义为<st,at,st+1,r>,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α。针对Actor神经网络损失函数和Soft-Q神经网络的损失函数进行学习率为lr的梯度下降以更新Actor神经网络和Soft-Q神经网络权重。
双Soft-Q函数被定义为Target Soft-Q网络输出的最小值,因此有:
分别表示Target Soft-Q网络/>的输出目标Q值。
其中Actor神经网络损失函数定义如下:
Soft-Q神经网络的损失函数定义如下:
Target Soft-Q神经网络权重更新方式如下:
更新正则化系数α,损失函数为:
J(α)=E[-αlogπt(at|st)-αH0]
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51。
进一步地,所述步骤S6的具体步骤包括:
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
步骤S62:分别记录状态将状态/>输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作/>双方执行动作后获取新状态/>
步骤S63:判定作战是否成功,若是,则结束;否则令并转至执行步骤S62;
步骤S64:依据所记录的状态画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
具体实施例:
实施例中,初始化多组作战双方时,作战区域为x∈[-6km,6km],y∈[3km,4km],z∈[-6km,6km],初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
导弹的最大攻击距离为6km,最小攻击距离为1km,导弹的最大离轴发射角为30°,w1=w2=0.5。
SAC算法模型的构建包括如下部分:SAC算法中Actor神经网络隐含层层数l=2,各层的节点个数n=256。优化算法为Adam算法、折扣因子γ=0.99、网络学习率lr=0.0003、熵的正则化系数α=1、目标熵值H0=-3。
定义并行自我博弈环境个数env_num=[2,4,6,8,10,12,14,16,18,20],定义训练样本组数batch_size=128,定义最大仿真步长N=800。
训练完成后,随机初始化作战双方,测试所训练算法,显示作战轨迹,如图3所示。图中显示,作战开始后,红蓝双方同时使用训练完成模型进行决策,均能够有效的近敌,实现对对方的攻击。
随机初始化200组作战双方,测试所训练算法,统计作战成功率随着并行自我博弈环境个数变化结果,如图4所示。图中显示,并行自我博弈训练时,随着博弈环境的增加,因为算法具有样本共享与策略共享的特点,模型能够综合学习到适用于所有作战环境的决策,避免过拟合,提升泛化能力,使得整体作战最优,也因此在新环境中能够达到更高的作战成功率。当并行博弈环境为12时,决策模型的泛化能力达到最高,可以实现69.15%的作战成功率。随着博弈环境个数的继续增加,环境产生的样本过于复杂,算法无法令所有环境中的智能体达到作战最优,因此丢失了一部分决策能力,使得作战成功率逐渐降低。
因此,本发明不仅能够有效实现无人机机动决策过程,同时能够提升模型的泛化能力,更加具有实用性。
Claims (2)
1.一种基于并行自我博弈的空战机动方法,其特征在于,包括以下步骤:
步骤S1:构建无人机机动模型;
设OXYZ坐标系为无人机所在的三维空间坐标系,其中原点O表示无人机作战区域中心,X轴指向正北方向,Z轴指向正东方向,Y轴指向垂直向上的方向;
将无人机视为质点,无人机运动方程如下所示:
其中t为当前时刻,dT为无人机的积分步长,[Xt,Yt,Zt],[Xt+dT,Yt+dT,Zt+dT]分别为t时刻和t+dT时刻无人机的坐标位置分量,Vt,Vt+dT分别为无人机在t时刻和t+dT时刻的速度大小,俯仰角θt,θt+dT分别为无人机在t时刻和t+dT时刻的速度向量与XOZ平面夹角,航向角为无人机在t时刻和t+dT时刻的速度向量在XOZ平面投影向量与X轴正向夹角,dv为无人机加速度大小,dθ为无人机俯仰角变化量,/>为无人机航向角变化量;
步骤S2:定义我方无人机为红方,敌方无人机为蓝方;初始化红蓝双方,构建红蓝运动态势获取模型,描述红蓝作战相对态势;
红蓝运动态势获取模型获取的作战双方的相对态势用d与q描述,其中,/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,d表示红方与蓝方距离,q表示相对方位角,为红方速度向量/>与距离向量/>的夹角;
蓝方相对于红方的作战态势用d、qr表示,红方相对于蓝方的作战态势用/>d及qb表示;/>表示红方与蓝方之间的位置向量,方向由红方指向蓝方,/>表示蓝方与红方之间的位置向量,方向由蓝方指向红方,qr表示蓝方相对红方的相对方位角,qb表示红方相对蓝方的相对方位角;
d、qr与qb的计算如下:
其中,为红方的位置向量,/>为红方的速度向量,vr为红方的速度大小,θr为红方的俯仰角,/>为红方的航向角;/>为蓝方的位置向量,/>为蓝方的速度向量,vb为蓝方的速度大小,θb为蓝方的俯仰角,/>为蓝方的航向角;
步骤S3:依据马尔科夫过程构建红蓝双方状态空间Sr,Sb,红蓝双方动作空间Ar,Ab,奖惩函数R;
定义红方无人机状态空间为蓝方无人机状态空间为
红方无人机动作空间为蓝方无人机动作空间为/>
奖惩函数R由距离奖惩函数Rd和角度奖惩函数Rq组成,R=w1*Rd+w2*Ra,其中w1,w2为距离奖惩与角度奖惩的权重;
距离奖惩函数Rd为:
Rd1=-d/(5*Dmax)
Rd=Rd1+Rd2
其中,Rd1为距离连续奖惩值,Rd2为距离稀疏奖惩值,Dmin为红方所载导弹的最小攻击距离,Dmax为红方所载导弹的最大攻击距离;
角度奖惩函数Rq为:
Rq1=-q/180
Rq2=3,if q<qmax
Rq=Rq1+Rq2
其中,Rq1表示角度连续奖惩值,Rq2表示角度稀疏奖惩值,qmax表示红方所载导弹的最大离轴发射角;
步骤S4:构建基于SAC算法的机动决策模型结构;
基于SAC算法的机动决策模型采用SAC算法生成红蓝双方机动控制量,用于红蓝双方机动;
SAC算法通过神经网络实现,包含经验池M、一个Actor神经网络πθ、两个Soft-Q神经网络和/>两个Target Soft-Q网络/>和/>其中,θ,/>均表示对应网络的权重;
Actor神经网络πθ的输入为红方状态值或蓝方状态值/>输出为均值μ(μr,μb)和方差σ(σr,σb);噪声τ从标准正态分布采样得到;由均值μ、方差σ和噪声τ生成红方动作/>或蓝方动作/>并通过tanh函数将动作/>或/>限制在(-1,1)之间,动作生成过程如下所示:
Soft-Q神经网络和/>的输入为状态值和动作值,输出为神经网络预测的Q值;Target Soft-Q神经网络/>和/>与Soft-Q神经网络结构相同但网络权重不同;Soft-Q神经网络用于产生预测的Q值以及选取动作,Target Soft-Q神经网络产生目标Q值以及评估动作;Soft-Q神经网络权重实时优化更新,且经过多次迭代后将权重复制于Target Soft-Q网络;
Actor、Soft-Q与Target Soft-Q网络均为含有l层隐藏层的全连接神经网络,各隐藏层神经元个数均为n,激活函数为Relu函数;
步骤S5:初始化多组作战双方,定义实验参数,多组作战双方使用同一个机动决策模型及同一个经验池,通过空战对抗实现并行自我博弈训练SAC算法;
初始化多组作战双方时,初始位置在作战区域内,设定初始速度范围,初始俯仰角范围,初始航向角范围;
通过空战对抗实现并行自我博弈训练SAC算法的步骤为:
步骤S51:定义并行自我博弈环境个数env_num,定义批训练样本组数batch_size,定义最大仿真步长N,初始化step=1,初始化env=1,初始化作战双方的初始态势,获取红方的初始状态及蓝方的初始状态/>
步骤S52:随机生成Actor网络权重θ,Soft-Q网络权重初始化策略网络πθ与两个Soft-Q网络/>令/>将/>作为网络权重初始化Target Soft-Q网络/>
步骤S53:将红方状态输入至Actor网络,输出均值μr和方差σr,由步骤S4动作生成过程得到符合步骤S3动作空间Ar的动作/>红方执行动作后获取新状态/>并根据步骤S3奖惩函数R获得奖惩值rt r;将蓝方状态/>输入至Actor网络,输出均值μb和方差σb,由步骤S4动作生成过程得到符合步骤S3中动作空间Ab的动作/>蓝方执行动作后获取新状态/>并根据步骤S3中奖惩函数R获得奖惩值rt b;将元组/>及元组/>存储至经验池M;
步骤S54:判断env是否大于env_num,若是,则继续执行步骤S55;否则令env加1,转至执行步骤S51;
步骤S55:当经验池内经验组数大于batch_size时,随机取出batch_size组经验,对SAC算法中的Actor及Soft-Q神经网络的参数进行更新,并更新正则化系数α;
步骤S56:判定step是否大于N,若是,则执行步骤S57;否则令step加1,转至执行步骤S53;
步骤S57:判定算法是否收敛或是否达到训练回合,若是,则结束训练,获得训练结束后的SAC算法模型;否则转至执行步骤S51;
步骤S6:随机初始化作战双方,测试训练得到的网络,显示作战轨迹;随机初始化多组作战双方,测试训练得到的网络,统计作战成功率;
步骤S61:初始化作战双方的初始态势,获取红蓝双方的初始状态
步骤S62:分别记录状态将状态/>输入至训练完成的SAC算法模型的Actor神经网络,输出红蓝双方的动作/>双方执行动作后获取新状态/>
步骤S63:判定作战是否成功,若是,则结束;否则令并转至执行步骤S62;
步骤S64:依据所记录的状态画出作战双方的作战轨迹;
步骤S65:初始化n组作战双方的初始态势,分别对每组作战双方执行步骤S62至S63,记录最终是否作战成功,最终作战成功的次数记为num;
步骤S66:计算num/n,即为最终的作战成功率,并以此表示决策模型的泛化能力。
2.根据权利要求1所述的一种基于并行自我博弈的空战机动方法,其特征在于,所述步骤S5中,设定初始速度范围为[50m/s,400m/s],初始俯仰角范围为[-90°,90°],初始航向角范围为[-180°,180°]。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364109.3A CN113095481B (zh) | 2021-04-03 | 2021-04-03 | 一种基于并行自我博弈的空战机动方法 |
US17/500,626 US11794898B2 (en) | 2021-04-03 | 2021-10-13 | Air combat maneuvering method based on parallel self-play |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364109.3A CN113095481B (zh) | 2021-04-03 | 2021-04-03 | 一种基于并行自我博弈的空战机动方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095481A CN113095481A (zh) | 2021-07-09 |
CN113095481B true CN113095481B (zh) | 2024-02-02 |
Family
ID=76673822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110364109.3A Active CN113095481B (zh) | 2021-04-03 | 2021-04-03 | 一种基于并行自我博弈的空战机动方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11794898B2 (zh) |
CN (1) | CN113095481B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444255B (zh) * | 2021-12-13 | 2023-10-03 | 西北工业大学 | 一种基于格斗过程的飞机空战能力通用计算方法 |
CN115185288B (zh) * | 2022-05-27 | 2024-05-03 | 西北工业大学 | 一种基于sac算法的无人机分层飞行决策方法 |
CN116307251B (zh) * | 2023-04-12 | 2023-09-19 | 哈尔滨理工大学 | 一种基于强化学习的工作排程优化方法 |
CN116187207B (zh) * | 2023-04-25 | 2023-07-25 | 中国兵器科学研究院 | 一种陆战装备体系仿真评估方法、装置以及存储介质 |
CN116796505B (zh) * | 2023-05-11 | 2024-02-20 | 中国人民解放军海军航空大学 | 一种基于示例策略约束的空战机动策略生成方法 |
CN116360503B (zh) * | 2023-05-31 | 2023-10-13 | 北京航空航天大学 | 一种无人机博弈对抗策略生成方法、系统及电子设备 |
CN116861645B (zh) * | 2023-06-27 | 2024-04-16 | 四川大学 | 基于非线性预测控制的飞行器超视距空战机动决策方法 |
CN116880186B (zh) * | 2023-07-13 | 2024-04-16 | 四川大学 | 一种数据驱动的自适应动态规划空战决策方法 |
CN116993010B (zh) * | 2023-07-28 | 2024-02-06 | 南通大学 | 一种基于贝叶斯神经网络的固定翼无人机态势预测方法 |
CN116991074B (zh) * | 2023-08-28 | 2024-07-12 | 四川大学 | 一种智能权重下的近距空战机动决策优化方法 |
CN116909155B (zh) * | 2023-09-14 | 2023-11-24 | 中国人民解放军国防科技大学 | 基于持续强化学习的无人机自主机动决策方法及装置 |
CN117348392B (zh) * | 2023-09-27 | 2024-06-28 | 四川大学 | 一种多机近距空战机动决策分布式优化方法 |
CN117162102A (zh) * | 2023-10-30 | 2023-12-05 | 南京邮电大学 | 机器人联合行动的独立近端策略优化训练加速方法 |
CN117518836B (zh) * | 2024-01-04 | 2024-04-09 | 中南大学 | 变体飞行器鲁棒深度强化学习制导控制一体化方法 |
CN118432910B (zh) * | 2024-05-14 | 2024-10-11 | 济南时代确信信息安全测评有限公司 | 基于sac的红队网络攻击自动化方法、系统及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052511A (zh) * | 2020-06-15 | 2020-12-08 | 成都蓉奥科技有限公司 | 一种基于深度随机博弈的空战机动策略生成技术 |
CN112269396A (zh) * | 2020-10-14 | 2021-01-26 | 北京航空航天大学 | 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606411B2 (en) * | 2006-10-05 | 2009-10-20 | The United States Of America As Represented By The Secretary Of The Navy | Robotic gesture recognition system |
US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US10140575B2 (en) * | 2013-11-15 | 2018-11-27 | Disney Enterprises, Inc. | Sports formation retrieval |
US10706336B2 (en) * | 2017-03-17 | 2020-07-07 | Nec Corporation | Recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
US20220027798A1 (en) * | 2020-07-24 | 2022-01-27 | SparkCognition, Inc. | Autonomous behaviors in a multiagent adversarial scene |
WO2022094624A1 (en) * | 2020-11-01 | 2022-05-05 | Nvidia Corporation | Model-based reinforcement learning for behavior prediction in autonomous systems and applications |
-
2021
- 2021-04-03 CN CN202110364109.3A patent/CN113095481B/zh active Active
- 2021-10-13 US US17/500,626 patent/US11794898B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052511A (zh) * | 2020-06-15 | 2020-12-08 | 成都蓉奥科技有限公司 | 一种基于深度随机博弈的空战机动策略生成技术 |
CN112269396A (zh) * | 2020-10-14 | 2021-01-26 | 北京航空航天大学 | 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法 |
Non-Patent Citations (2)
Title |
---|
"An adaptive dwell time scheduling model for phased array radar based on three-way decision";Li Bo et al.;《Journal of Systems Engineering and Electronics》;第31卷(第3期);全文 * |
"基于网络负载均衡的无人作战系统跨云层任务分配方法";李波等;《指挥控制与仿真》;第40卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20220315219A1 (en) | 2022-10-06 |
CN113095481A (zh) | 2021-07-09 |
US11794898B2 (en) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN113093802B (zh) | 一种基于深度强化学习的无人机机动决策方法 | |
CN112947562B (zh) | 一种基于人工势场法和maddpg的多无人机运动规划方法 | |
CN108549233B (zh) | 一种带有直觉模糊信息的无人机空战机动博弈方法 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN111461294B (zh) | 面向动态博弈的智能飞行器类脑认知学习方法 | |
CN111240356A (zh) | 一种基于深度强化学习的无人机集群会合方法 | |
CN113962012A (zh) | 无人机对抗策略优化方法及装置 | |
Yuan et al. | Research on UCAV maneuvering decision method based on heuristic reinforcement learning | |
Xianyong et al. | Research on maneuvering decision algorithm based on improved deep deterministic policy gradient | |
CN116136945A (zh) | 一种基于反事实基线的无人机集群对抗博弈仿真方法 | |
CN114967713B (zh) | 基于强化学习的水下航行器浮力离散变化下的控制方法 | |
CN113110101B (zh) | 一种生产线移动机器人聚集式回收入库仿真方法及系统 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
CN114706418A (zh) | 基于深度强化学习td3算法的无人机格斗自主决策方法 | |
CN116796844A (zh) | 一种基于m2gpi的无人机一对一追逃博弈方法 | |
CN116976442A (zh) | 一种基于me-ddpg的无人机多对一追捕博弈方法 | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
Lu et al. | Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV | |
CN113822409A (zh) | 一种基于异构多智能体强化学习的多无人机协同突防方法 | |
CN113093803B (zh) | 一种基于e-sac算法的无人机空战运动控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |