CN118012125B

CN118012125B - 基于强化动态学习的2-dof直升机多轨迹跟踪控制方法及系统

Info

Publication number: CN118012125B
Application number: CN202410131287.5A
Authority: CN
Inventors: 张付凯; 何伟添; 王聪
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-09-24
Anticipated expiration: 2044-01-29
Also published as: CN118012125A

Abstract

本发明公开了一种基于强化动态学习的2‑DOF直升机多轨迹跟踪控制方法及系统，涉及自动控制技术领域。该方法包括步骤：获取直升机姿态参数，根据姿态信息建立动力学模型；根据动力学模型设计自适应神经网络，并基于滑模控制策略为自适应神经网络设计学习控制器；利用强化学习框架对学习控制器进行动态调整，得到最终的控制器；利用最终的控制器进行直升机多轨迹跟踪控制。本发明通过引入强化学习框架来动态补偿学习轨迹与参考轨迹的误差，能够发挥确定学习的稳定性和强化学习的最优性，实现高效准确的直升机多轨迹跟踪控制。

Description

基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法及系统

技术领域

本发明涉及自动控制技术领域，尤其涉及一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前，直升机广泛应用于军事、民用、工业和其他复杂环境。近年来，确保直升机飞行和运行的安全已成为研究的热点，特别是在姿态控制领域。然而，直升机是一类具有多个输入和输出的非线性系统。系统的不确定性和强耦合使得传统的线性控制方法无法满足复杂环境下的姿态控制要。因此，迫切需要研究一种具有增强动态调节能力的非线性控制策略。

确定性学习是一种动态学习方法，当PE条件满足时，径向基神经网络能够沿着回归轨迹准确地学习系统的非线性局部动力。然后，将所学习到的动力学模型存储为恒定的神经网络，用于重构学习控制器。这种学习和重用过程体现了神经网络的知识获取和利用能力，使确定性学习在各个领域都有广泛应用。然而，在实际运用过程中，学习得到的轨迹与参考轨迹发生比较大的偏离时，这部分学习的知识会部分失效，造成学习控制器的跟踪性能下降。因此，如何对学习得到的轨迹进行及时的自适应修正，以保证学习控制器的稳定性，从而实现高效准确的直升机多轨迹跟踪控制，成为现有技术亟待解决的技术问题。

发明内容

针对由于实际应用中得到的多轨迹与学习过程中的轨迹不一样带来的部分知识失效问题，本发明的目的是提供一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法及系统，通过引入强化学习框架来动态补偿这部分误差，能够发挥确定学习的稳定性和强化学习的最优性，实现高效准确的直升机多轨迹跟踪控制。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法，包括以下步骤：

获取直升机姿态参数，根据姿态信息建立动力学模型；

根据动力学模型设计自适应神经网络，并基于滑模控制策略为自适应神经网络设计学习控制器；

利用强化学习框架对学习控制器进行动态调整，得到最终的控制器，其中，强化学习框架包括评价神经网络和动作神经网络，评判神经网络对当前状态的价值进行估计，估计结果用于指导执行神经网络选择动作；

利用最终的控制器进行直升机多轨迹跟踪控制。

进一步的，建立动力学模型为：

其中，θ代表是俯仰角，代表的是偏航角，J_p是俯仰运动的转动惯量，J_y是偏航运动的转动惯量，D_p是俯仰运动的摩擦系数，D_y是偏航运动的摩擦系数，K_pp是俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益，K_py是偏航螺旋桨中作用于俯仰轴上的扭矩推力增益，K_yp是俯仰螺旋桨中作用于偏航轴上的扭矩推力增益，K_yy是偏航螺旋桨中作用于偏航轴上的扭矩推力增益，L是质心到固定坐标系原点的距离，g是重力加速度，V_p是控制俯仰运动的电机电压输入，V_y是控制偏航运动的电机电压输入。

进一步的，设计自适应神经网络的具体步骤包括：

利用径向基函数神经网络对动力学模型的进行辨识，并将辨识的动力学知识以常值神经网络权值的方式存储。

进一步的，基于滑模控制策略为自适应神经网络设计学习控制器的具体公式包括：

滑模面的设计：

S＝-C₁E₁+E₂，

其中，S为滑膜面，E₁＝Z₁和Z₁为跟踪误差变量，为Z₁的时间微分，C₁是可调的控制增益；

理想控制器的设计为：

其中，τ^*(t)为理想控制器函数，C₂是可调控制增益正数，K_g为自适应参数，是指在时间区间[t_a，t_b]内的对求平均值，为估计权重，是网络输入向量的高斯径向基函数，sign(·)是符号函数。特别的，这是的学习滑模控制器是在确定学习所获取的知识下建立的。

进一步的，评价神经网络的设计步骤包括：

定义长期成本函数，利用径向基神经网络逼近长期成本函数并得到逼近误差；

根据逼近误差构造总误差；

利用梯度下降法更新和修正技术对总误差进行修正，得到评价神经网络的权重更新率。

进一步的，动作神经网络的设计步骤包括：

根据评价神经网络的影响，利用径向基神经网络逼近最优参数并得到逼近误差；

利用梯度下降法更新和修正技术对逼近误差进行修正，得到动作神经网络的权重更新率。

更进一步的，最终控制器为：

其中，τ(t)为最终控制器函数，为未知参数K_g的估计值，Ψ(S)＝diag[sign(s₁),sign(s₂)]，sign(·)是符号函数。特别地，这里的未知参数K_g将采用强化学习来进行动态逼近。

本发明第二方面提供了一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制系统，包括：

参数获取模块，被配置为获取直升机姿态参数，根据姿态信息建立动力学模型；

控制设计模块，被配置为根据动力学模型设计自适应神经网络，并基于滑模控制策略为自适应神经网络设计学习控制器；

控制优化模块，被配置为利用强化学习框架对学习控制器进行动态调整，得到最终的控制器，其中，强化学习框架包括评价神经网络和动作神经网络，评判神经网络对当前状态的价值进行估计，估计结果用于指导执行神经网络选择动作；

自适应控制模块，被配置为利用最终的控制器进行直升机多轨迹跟踪控制。

本发明第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法中的步骤。

本发明第四方面提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明公开了一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法及系统，采用了确定学习的方法来对直升机系统进行局部准确建模，有效地避免该系统中过多难以精准测量的参数、复杂的动力学分析等问题所带来的物理学建模不准确。

本发明将确定学习的方法与滑模控制相结合，构造一个滑模学习控制器，并为了应对复杂多变的作业环境，通过引入强化学习框架动态调整参数来增强学习控制器的鲁棒性，提升控制性能。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一中的控制设计流程图；

图2(a)是本发明实施例一中2-DOF直升机系统的自适应控制过程的俯仰角跟踪性能仿真图；

图2(b)是本发明实施例一中2-DOF直升机系统的自适应控制过程的偏航角跟踪性能仿真图；

图3(a)是本发明实施例一中神经网络W₁权重收敛情况仿真图；

图3(b)是本发明实施例一中神经网络W₂权重收敛情况仿真图；

图4(a)是本发明实施例一中神经网络的输出与未知系统动态F_nn1未知函数的逼近仿真图；

图4(b)是本发明实施例一中神经网络的输出与未知系统动态F_nn2未知函数的逼近仿真图；

图5(a)是本发明实施例一中在自适应神经网络控制中跟踪性能示意图；

图5(b)是本发明实施例一中在学习控制器中跟踪性能示意图；

图5(c)是本发明实施例一中在基于强化学习和确定学习所设计的控制器中跟踪性能对比图；

图5(d)是本发明实施例一中在三种控制方案的跟踪误差对比图；

图6(a)是本发明实施例一中强化学习的评判与动作神经网络权值图；图6(b)是本发明实施例一中强化学习的动作神经网络输出图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

实施例一：

本发明实施例一提供了一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法，以2-DOF直升机为例，如图1所示，包括以下步骤：

步骤1，获取直升机姿态参数，根据姿态信息建立动力学模型。

步骤2，根据动力学模型设计自适应神经网络，并基于滑模控制策略为自适应神经网络设计学习控制器。

步骤3，利用强化学习框架对学习控制器进行动态调整，得到最终的控制器。

步骤4，利用最终的控制器进行直升机多轨迹跟踪控制。

步骤1中，建立动力学模型为：

其中，θ代表是俯仰角，代表的是偏航角，M代表直升机电机的质量，J_p是俯仰运动的转动惯量，J_y是偏航运动的转动惯量，D_p是俯仰运动的摩擦系数，D_y是偏航运动的摩擦系数，k_pp是俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益，K_py是偏航螺旋桨中作用于俯仰轴上的扭矩推力增益，K_yp是俯仰螺旋桨中作用于偏航轴上的扭矩推力增益，K_yy是偏航螺旋桨中作用于偏航轴上的扭矩推力增益，L是质心到固定坐标系原点的距离，g是重力加速度，V_p是控制俯仰运动的电机电压输入，V_y是控制偏航运动的电机电压输入。

定义状态变量和输入变量τ＝[V_p,V_y]^T。然后，动力学模型方程(1)和(2)可简化得到：

其中，F(χ₁,χ₂)和G(χ₁)是非线性函数，表达为

步骤2中，设计自适应神经网络的具体步骤包括：

在一种具体的实施方式中，利用径向基函数神经网络对动力学模型的进行辨识包括：

(1)定义跟踪误差：

Z₁＝χ₁-X_d，

Z₂＝χ₂-α，

其中，X_d表示参考轨迹，表示参考轨迹的时间微分。α是定义的虚拟控制器。Z₁和Z₂分别是定义的两个跟踪误差变量。C₁是可调的控制增益。

(2)定义神经网络逼近未知非线性函数：

其中，f_nn是2-DOF直升机系统中的局部非线性未知函数，是神经网络估计权重，是网络输入向量的高斯径向基函数。是对辅助变量α的时间导数。

(4)定义神经网络的权值更新律：

其中，是估计权重的时间微分，┌₁是权重更新增益，σ₁是可调的非常小的正数。

(5)设计学习过程控制率τ(t)：

其中，C₂是可调控制增益正数。

本实施例中，通过构建李雅普诺夫(Lyapunov)函数用于分析直升机系统的稳定性。

具体的，根据所述系统的非线性方程，构建Lyapunov函数V(t)并分析2-DOF直升机系统的稳定性：

定义2-DOF直升机系统的Lyapunov函数V(t)为：

其中，表示权重估计误差，且W^*表示最优权重。根据Lyapunov定理，从所定义的Lyapunov函数V(t)可知其正定性，进而验证的负定性，可以得出系统是符合渐近稳定。

根据确定学习理论，在满足持续激励的条件下，径向基神经网路的权值会收敛于常值，那么，权值学习权值可采用均值的方式进行存储，其可表达为：

其中，是指在时间区间[t_a,t_b]内的对求平均值。并且0<t_a<t_b。

滑模控制策略是指通过引入一个滑模面，将系统状态限制在其上，并通过调节控制器参数来维持或改变系统状态的运动轨迹，从而达到预期的目标状态。结合确定学习所获取的动力学知识，本设计中的学习滑模控制器的具体公式包括：

(1)滑模面的设计：

S＝-C₁E₁+E₂

其中，S为滑膜面，E₁＝Z₁和Z₁为跟踪误差变量，为Z₁的时间微分，C₁是可调的控制增益。

(2)理想控制器的设计为：

其中，τ^*(t)为理想控制器函数，C₂是可调控制增益正数，K_g为自适应参数而非固定不变的，是指在时间区间[t_a,t_b]内的对求平均值，为估计权重，是网络输入向量的高斯径向基函数，sign(·)是符号函数。特别的，这是的学习滑模控制器是在确定学习所获取的知识下建立的。

自适应参数K_g的取值决定控制器的跟踪性能和鲁棒性，通常需要人为选取。但是，固定的值不适合于复杂多变的环境。综上，本实施例后续用强化学习框架来动态调整参数K_g。

强化学习是动态学习的另一种形式。它利用奖惩反馈来最大化长期奖励并学习最优控制策略。由于其强大的在线调节能力，强化学习与其他控制方法的融合受到了广泛的关注。为了更好地应对复杂多变的作业环境，本实施例构造了一个以确定学习控制器为基线控制器，强化学习控制器为辅助的复合控制器。

步骤3中，强化学习框架包括评价神经网络和动作神经网络，评判神经网络对当前状态的价值进行估计，估计结果用于指导执行神经网络选择动作。评价神经网络的设计步骤包括：

(1)定义长期成本函数，利用径向基神经网络逼近长期成本函数并得到逼近误差。

首先，定义长期成本函数L(t)如下：

其中，ψ是折扣系数，和是瞬时成本函数，表示为：

其中，Q和R都是正定对称矩阵。特别的，ι是人为设定的阈值。这是系统在运行中由于机械结构等原因无法到达绝对0跟踪误差。这时候，设置阈值来使得系统到达合理的跟踪误差范围后，便不给予惩罚。

利用径向基神经网络来逼近长期成本函数，分别做定义和其中，H_c，分别是评价神经网络的最优权重，估计权重，估计误差，径向基函数和神经网络的输入向量。是未知数L的估计值。

定义逼近误差e_c为：

其中，是的时间微分。

(2)根据逼近误差构造总误差E_c。

(3)利用梯度下降法更新和σ修正技术，得到评价神经网络的权重更新率。

评价神经网络的权重更新率设计为：

其中，Γ_c是更新增益，σ_c是很小的正常数。表示对的梯度。这里的σ修正技术为了确保神经网络的权值是有界的。

动作神经网络的设计步骤包括：

(1)根据评价神经网络的影响，利用径向基神经网络逼近最优参数并得到逼近误差。

具体的，为利用径向基神经网络来逼近最优参数K_g，分别做定义和其中，H_a，分别是动作神经网络的最优权重，估计权重，估计误差，径向基函数和神经网络的输入向量。是未知参数K_g的估计值。

定义逼近误差e_a为：

其中，K_L是评判神经网络对动作神经网络的影响因子，L_d＝0是评价神经网络的期望值。本实施例中，误差的构造是利用了滑模面变量。该误差包含了滑模误差和评价值与期望评价值的误差，是用于指导更新动作神经网络的权值。

(2)利用梯度下降法更新和σ修正技术，得到动作神经网络的权重更新率。

动作神经网络的权重更新率设计为：

其中，Γ_a是更新增益，σ_a是很小的正常数。相似地，这里也采用了σ修正技术来确保神经网络的权值是有界的。

依据Lyapunov稳定性分析理论，引入强化学习框架的动态调整切换增益K_g，最终控制器设计为：

其中，τ(t)为最终控制器函数，为未知自适应参数K_g的估计值，Ψ(S)＝diag[sign(s₁),sign(s₂)]，sign(·)是符号函数。这里最终控制器中的表现出确定学习的性质，表现出强化学习的性质，因此该控制器能够发挥确定学习的稳定性和强化学习的最优性。

另外，设计一个候选Lyapunov函数来证明闭环系统的稳定性：

为了保证滑模面、评价神经网络权值和动作神经网络的收敛性，定义2-DOF直升机系统的Lyapunov函数V₁(t)为：

表示评价神经网络权重估计误差，表示动作神经网络权重估计误差。根据Lyapunov定理，从所定义的Lyapunov函数V(t)可知其正定性，进而验证的负定性，可以得出系统是符合渐近稳定。

图2(a)是2-DOF直升机系统的自适应控制过程的俯仰角跟踪性能仿真图，从图中能够发现，随着时间的进行，2-DOF直升机的俯仰角能够逐渐跟踪上预定的正弦参考轨迹，即跟踪误差逐渐趋向于0。图2(b)是2-DOF直升机系统的自适应控制过程的偏航角跟踪性能仿真图，从图中能够发现，随着时间的进行，2-DOF直升机的偏航角能够逐渐跟踪上预定的正弦参考轨迹，即跟踪误差逐渐趋向于0。图3(a)是神经网络W₁权重收敛情况仿真图，从图中能够发现，随着时间的进行，神经网络W1权值会趋向于常值。图3(b)是神经网络W₂权重收敛情况仿真图，从图中能够发现，随着时间的进行，神经网络W2权值会趋向于常值。图4(a)是神经网络的输出与未知系统动态F_nn1未知函数的逼近仿真图，从图中能够发现，随着时间的进行，神经网络的输出逐渐逼近上未知系统动态。图4(b)是神经网络的输出与未知系统动态F_nn2未知函数的逼近仿真图，从图中能够发现，随着时间的进行，神经网络的输出逐渐逼近上未知系统动态。图5(a)是在自适应神经网络控制中跟踪性能示意图，图中展示了在自适应神经网络控制下，俯仰角和偏航角在跟踪预设参考轨迹时的变化趋势。图5(b)是在学习控制器中跟踪性能示意图，图中展示了在学习控制下，俯仰角和偏航角在跟踪预设参考轨迹时的变化趋势。图5(c)是在基于强化学习和确定学习所设计的控制器中跟踪性能对比图，图中展示了在基于强化学习和确定学习所设计的控制下，俯仰角和偏航角在跟踪预设参考轨迹时的变化趋势。

图5(d)是在三种控制方案的跟踪误差对比图，图中展示了在三种控制方案下的跟踪误差曲线变化图，其中可以发现参考轨迹为多轨迹情况下，基于强化学习和确定学习所设计的控制性能最佳。图6(a)是强化学习的评判与动作神经网络权值图，图中展示了评判和动作神经网络的权值在20s，40s处轨迹发生变化时会变化，随后逐渐趋向稳定。图6(b)是强化学习的动作神经网络输出图，图中展示的是动作神经网络对的逼近值。

实施例二：

本发明实施例二提供了一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制系统，包括：

实施例三：

本发明实施例三提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本发明实施例一所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法中的步骤。

实施例四：

本发明实施例四提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明实施例一所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法中的步骤。

以上实施例二、三和四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法，其特征在于，包括以下步骤：

获取直升机姿态参数，根据姿态信息建立动力学模型；

所述基于滑模控制策略为自适应神经网络设计学习控制器的具体公式包括：

滑模面的设计：

S＝-C₁E₁+E₂，

理想控制器的设计为：

其中，τ^*(t)为理想控制器函数，C₂是可调控制增益正数，K_g为自适应参数，其中，H_a，分别是动作神经网络的最优权重，估计误差，径向基函数和神经网络的输入向量，是指在时间区间[t_a,t_b]内的对求平均值，为估计权重，是网络输入向量的高斯径向基函数，sign(·)是符号函数；

所述最终控制器为：

其中，τ(t)为最终控制器函数，为未知参数K_g的估计值，其中，是动作神经网络的估计权重，Ψ(S)＝diag[sign(s₁)，sign(s₂)]；

动作神经网络的权重更新率设计为：

其中，「_a是更新增益，K_L是评判神经网络对动作神经网络的影响因子，H_c，分别是评价神经网络的估计权重，径向基函数和神经网络的输入向量，σ_a是很小的正常数；

利用最终的控制器进行直升机多轨迹跟踪控制。

2.如权利要求1所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法，其特征在于，建立动力学模型为：

其中，代表是俯仰角，代表的是偏航角，J_p是俯仰运动的转动惯量，J_y是偏航运动的转动惯量，D_p是俯仰运动的摩擦系数，D_y是偏航运动的摩擦系数，K_pp是俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益，K_py是偏航螺旋桨中作用于俯仰轴上的扭矩推力增益，K_yp是俯仰螺旋桨中作用于偏航轴上的扭矩推力增益，K_yy是偏航螺旋桨中作用于偏航轴上的扭矩推力增益，L是质心到固定坐标系原点的距离，g是重力加速度，V_p是控制俯仰运动的电机电压输入，V_y是控制偏航运动的电机电压输入。

3.如权利要求1所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法，其特征在于，设计自适应神经网络的具体步骤包括：

4.如权利要求1所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法，其特征在于，评价神经网络的设计步骤包括：

根据逼近误差构造总误差；

5.如权利要求1所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法，其特征在于，动作神经网络的设计步骤包括：

6.一种基于强化动态学习的2-DOF直升机多轨迹跟踪控制系统，其特征在于，包括：

滑模面的设计：

S＝-C₁E₁+E₂，

理想控制器的设计为：

所述最终控制器为：

其中，τ(t)为最终控制器函数，为未知参数K_g的估计值，其中，是动作神经网络的估计权重,ψ(S)＝diag[sign(s₁),sign(s₂)]；

动作神经网络的权重更新率设计为：

其中，「_a是更新增益，K_L是评判神经网络对动作神经网络的影响因子,H_c，分别是评价神经网络的估计权重，径向基函数和神经网络的输入向量,σ_a是很小的正常数；

7.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-5中任一项所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法。

8.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-5中任一项所述的基于强化动态学习的2-DOF直升机多轨迹跟踪控制方法。