CN116755409B

CN116755409B - 一种基于值分布ddpg算法的燃煤发电系统协调控制方法

Info

Publication number: CN116755409B
Application number: CN202310812903.9A
Authority: CN
Inventors: 刘晓敏; 余梦君; 祝琛; 王浩宇; 杨春雨; 周林娜; 赵峻; 彭献勇; 范赫
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2024-01-12
Anticipated expiration: 2043-07-04
Also published as: CN116755409A

Abstract

本发明公开了一种基于值分布DDPG算法的燃煤发电系统协调控制方法，包括：将燃煤发电系统协调控制问题建模为马尔可夫决策过程；通过Q函数评估长期期望控制代价函数，使用分位数对标量Q值进行分布建模；引入贝尔曼算子的分布型表达式构建目标分布，度量分布之间的1‑Wassertein最小距离，设计分位数损失与最小化分布之间的距离；构建估计网络和目标网络两个行动者‑评论家网络结构，标准化燃煤发电系统的数据样本，采用DDPG算法以实现对值分布的估计和策略的更新，得到协调控制策略。本发明基于系统运行数据和值分布DDPG算法解决了环境复杂不确定性燃煤发电系统协调控制中难以精确建模、缺乏自适应能力等难题。

Description

一种基于值分布DDPG算法的燃煤发电系统协调控制方法

技术领域

本发明属于燃煤发电系统数据驱动控制领域，主要涉及一种基于值分布DDPG算法的燃煤发电系统协调控制方法。

背景技术

近年来，全球能源消耗不断提高，新型可再生能源的加入给电网稳定性带来威胁。火力发电作为主要能源来源，燃煤发电厂的安全稳定对于维护电网可靠性至关重要。锅炉-汽轮机系统是火力发电厂的核心组件，需要智能化提升运行策略以满足电网需求的波动。协调控制系统对维持燃煤发电机组能源供需平衡、优化运行效率具有重要作用。近年来，有学者利用输入凸神经网络进行锅炉-汽轮机系统动力学建模，采用非线性模型预测控制在宽负荷变化下实现了快速稳定的跟踪性能。此外，有学者提出基于H∞-LQR的协调控制方案合理调度系统各种设备，以提高发电机组在各种工况下的负荷适应性。但这些方法依赖于建模精度，在火电机组环境变化、升级改造等情形下自适应能力较差。为此，有学者提出策略迭代积分强化学习方法设计锅炉-汽轮机系统最优跟踪控制律，避免精确模型构建，提高算法自适应能力，但是没有充分考虑到燃煤发电系统环境的不确定性。

DDPG是一种在深度网络框架下结合Q学习和确定性策略梯度算法的强化学习方法，通过奖励反馈指导与环境交互进行自我学习，适用于处理复杂连续控制问题，已在风力发电机、自动驾驶、机器人、物联网等领域得到广泛应用。而燃煤发电系统环境复杂，存在许多影响因素如温度、压力、湿度、煤质等，这些因素对发电效率和燃烧效果产生重要影响。而现有的DDPG算法大多基于固定Q值函数评价当前状态-动作下执行策略带来的期望回报，无法反映环境不确定性对策略评价的影响。

因此，迫切需要开发一种具有自适应、自学习和处理不确定性环境能力的DDPG算法，解决给定目标下燃煤发电系统的协调控制问题。

发明内容

发明目的：解决含有未建模动态和不确定环境因素的燃煤发电系统协调控制问题，使得燃煤发电系统控制策略具有自适应、自学习能力，引入值分布形式解决了标量Q值难以表示不确定燃煤发电系统的价值估计的问题。

发明内容：本发明提出了一种基于值分布DDPG算法的燃煤发电系统协调控制方法，包括：

步骤1，构建燃煤发电系统协调控制代价函数；

步骤2，通过Q函数评估长期期望控制代价函数，引入标量Q值对应的值分布形式Z，并使用分位数方法对Z分布进行分布建模；

步骤3，引入贝尔曼算子的分布型表达式构建目标分布，度量Z分布与目标分布的1-Wassertein最小距离，设计分位数损失以最小化分布之间的距离；

步骤4，构建估计网络和目标网络两个行动者-评论家网络结构，标准化燃煤发电系统的数据样本，将分位数Huber损失作为估计网络和目标网络的一个损失函数，采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，得到协调控制策略。

进一步的，步骤1具体包括如下内容：

步骤101，分析燃煤发电系统运行特性，具体体现在：对于燃煤发电系统来说，蒸汽输出是至关重要的，因为它直接关系到电厂的功率输出效果。燃料流量直接影响燃烧效率，而给水量和蒸汽流量阀门直接影响蒸汽输出。燃煤发电厂需要实现汽包水位的稳定，以提高锅炉的性能。此外，水位的高度依赖于控制输入，直接控制水位相当繁琐，通过汽包蒸汽压力和汽包内流体密度间接反映水位变化。燃煤发电机组运行过程中，协调控制系统旨在使机组能够满足电负荷需求下，同时将蒸汽压力、电力功率和汽包水位稳定在所需水平，从而尽可能地减少能源消耗；

步骤102，根据运行特性，选择蒸汽流量、燃料流量和给水流量为控制变量，选择蒸汽压力、汽包流体密度和功率输出为状态变量；

步骤103，在强化学习框架下制定燃煤发电系统协调控制问题，需定义一个四元组具体为：

(1)为动作空间，表示强化学习智能体可以执行的操作的集合。对于协调控制问题，控制输入可以作为智能体的动作，即a＝[a₁,a₂,u₃]^T，其中u₁,u₂,u₃，分别代表燃料流量、蒸汽流量和汽包给水流量控制阀门开度。每个阀门可以旋转的范围为(0,1)，每个控制变量是连续的动作空间，0表示完全关闭和1表示完全开放；

(2)为状态空间，表示智能体所观测的信息的集合。选择系统状态变量锅炉汽包蒸汽压力x₁(kg/cm2)、电力功率x₂(MW)和锅炉汽包内流体密度x₃(kg/cm3)，当前状态与目标状态T_h之间的偏差e₁、e₂和e₃；

其中，h＝1、2或3；e₁表示前系统状态变量锅炉汽包蒸汽压力x₁与目标系统状态量锅炉汽包蒸汽压力h₁之间的偏差；

e₂表示前系统状态变量电力功率x₂与目标系统状态变量电力功率h₂之间的偏差；

e₃表示前系统状态变量锅炉汽包内流体密度x₃与目标系统状态变量锅炉汽包内流体密度h₃之间的偏差；

同时将当前控制输入a＝[u₁,u₂,u₃]^T作为观测状态信息的一部分，因此完整观测信息可以描述为

s＝[x₁,x₂,x₃,e₁,e₂,e₃,u₁,u₂,u₃]^T#(1)

(3)r为奖励函数，用于评估智能体在执行动作时的目标和效果。当系统状态远离目标状态T_s时设置一定的惩罚项，在系统状态靠近目标状态时，设置额外奖励项，因此设定奖励r为

其中ω₁、ω₂和ω₃分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重，||e||表示当前系统状态与目标状态T_s之间的跟踪误差范数；

(4)γ为折扣因子，用于衡量未来奖励的重要性。具体来说，折扣因子决定了智能体对未来奖励的降低程度；

步骤104，将燃煤发电系统协调控制问题建模为马尔可夫决策过程，具体来说，考虑一个智能体，其时间t时的当前观测信息状态表示为在采取动作/>之后，它转移到下一个状态s_t+1并从环境中获得标量奖励r_t，以此往复，最大化所获得的累积回报为

其中t_l表示状态开始时间，γ∈(0,1)是折扣因子；

步骤105，燃煤发电系统协调控制代价函数为

进一步的，步骤2具体包括如下内容；

步骤201，定义用于描述在特定的时间t，燃煤发电系统在状态s_t时，执行动作a_t，并且之后执行协调控制策略μ(s)的长期期望控制代价函数，即

步骤202，引入Q函数对应的值分布形式，即Z^μ(s,a)，满足

步骤203，定义[0,1]上的N个分位数点，τ₁,…,τ_N表示与这种Z分布相关的累积概率函数：

其中表示关于Z分布的逆累积概率函数；

步骤204，所述使用分位数对值分布形式进行分布建模，具体为：

其中表示Z^μ(s,a)的累积概率分布的τ_i-分位数。

进一步的，步骤3具体包括如下内容；

步骤301，引入贝尔曼算子的分布型表达式以构建目标分布，所述目标分布为

其中T^μ是贝尔曼算子，表示等式两边遵循相同的概率定律，即随机变量Y与U遵循相同的规律分布；

步骤302，度量两个分布之间的1-Wassertein最小距离分位点

其中表示的是分布z的逆累积分布函数；

步骤303，N个分位点最优取值位置为

步骤304，引入分位数损失度量分布之间的距离

其中表示如果σ<0为真，则/> 为关于σ的一个损失计算；

步骤305，根据最小分位数损失来最小化分布间的距离

其中d₁(Y,U)表示Y和U分布间的1-Wassertein距离；

进一步的，步骤4具体包括如下内容；

步骤401，构建估计网络和目标网络

所述估计网络和目标网络包括行动者网络、评论家网络、目标行动者网络和目标评论家网络；

步骤402，采集燃煤发电系统原始数据样本作为估计网络和目标网络训练集；

步骤403，采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新；

步骤404，不断循环步骤403，直至稳定获得最高控制代价函数，得到协调控制策略。

进一步的，步骤401中行动者网络的输入为燃煤发电系统观测信息s，输出为μ(s∣θ^μ)；

评论家网络的输入为燃煤发电系统观测信息s以及控制输入a，输出为

目标行动者网络的输入为燃煤发电系统为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′，输出为μ′(s′∣θ^μ′)；

目标评论家网络的输入为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′以及对应的目标评论家网络输出μ′(s∣θ^μ′)，输出为

进一步的，步骤403中采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，具体包括如下步骤：

步骤4031，根据评论家网络与目标评论家网络值分布输出计算时间差分误差：

其中s′表示的为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息；

步骤4032，计算值分布之间的分位数Huber损失函数

其中表示如果δ_ij<0为真，则/>κ为Huber损失函数的超参数；

步骤4033，最小化分位数Huber损失函数更新评论家网络参数

其中B是标准化后的燃煤发电训练集；

步骤4034，行动者网络沿着Z(s,μ(s|θ^μ))方向梯度进行更新

步骤4035，根据评估网络参数对目标网络参数更新

其中ξ表示θ^μ′和θ^Z′的更新幅度。

本发明提供的技术方案的有益效果是：

1)通过强化学习优化框架与复杂不确定燃煤发电系统的协调控制有机结合，显著提高了控制策略的自学习能力，从而灵活地满足了协调控制的实际要求。

2)通过在DDPG中引入价值分布概念来描述价值函数的完整分布信息，从而准确地预测成本函数，更好的处理燃煤发电运行环境的不确定性，保证学习效率。

附图说明

图1是基于值分布DDPG算法的燃煤发电系统协调控制流程图；

图2是值分布DDPG算法训练示意图；

图3是状态x₁以及误差e₁轨迹图；

图4是状态x₂以及误差e₂轨迹图。

图5是状态x₃以及误差e₃轨迹图。

图6是控制输入轨迹图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明的一种基于值分布DDPG的燃煤发电系统协调控制方法，如图1所示，该方法包括如下步骤：

步骤1，基于对燃煤发电系统的运行特性分析，在强化学习优化框架下将燃煤发电系统协调控制问题建模为马尔可夫决策过程，构建燃煤发电系统协调控制代价函数；具体包括如下：

步骤101，分析燃煤发电系统运行特性；

具体体现在：对于燃煤发电系统来说，蒸汽输出是至关重要的，因为它直接关系到电厂的功率输出效果。燃料流量直接影响燃烧效率，而给水量和蒸汽流量阀门直接影响蒸汽输出。燃煤发电厂需要实现汽包水位的稳定，以提高锅炉的性能。此外，水位的高度依赖于控制输入，直接控制水位相当繁琐，通过汽包蒸汽压力和汽包内流体密度间接反映水位变化。燃煤发电机组运行过程中，协调控制系统旨在使机组能够满足电负荷需求下，同时将蒸汽压力、电力功率和汽包水位稳定在所需水平，从而尽可能地减少能源消耗。

步骤102，根据运行特性，选择蒸汽流量、燃料流量和给水流量为控制变量，选择蒸汽压力、汽包流体密度和电力功率输出为状态变量。

(1)为动作空间，表示强化学习智能体可以执行的操作的集合。对于协调控制问题，控制输入可以作为智能体的动作，即a＝[u₁,u₂,u₃]^T，其中u₁,u₂,u₃，分别代表燃料流量u₁、蒸汽流量u₂和汽包给水流量u₃控制阀门开度。每个阀门可以旋转的范围为(0,1)，每个控制变量是连续的动作空间，0表示完全关闭和1表示完全开放。

(2)为状态空间，表示智能体所观测的信息的集合。选择系统状态变量锅炉汽包蒸汽压力x₁(kg/cm2)、电力功率x₂(MW)和锅炉汽包内流体密度x₃(kg/cm3)，当前系统状态与目标系统状态T_h之间的偏差e₁、e₂和e₃；

s＝[x₁,x₂,x₃,e₁,e₂,e₃,u₁,u₂,u₃]^T #(1)

(3)r为奖励函数，用于评估智能体在执行动作时的目标和效果。当系统状态远离目标状态T_h时设置一定的惩罚项，在系统状态靠近目标状态时，设置额外奖励项，因此设定奖励r为

其中ω₁、ω₂和ω₃分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重，||e||表示当前系统状态与目标状态T_h之间的跟踪误差范数。

(4)γ为折扣因子，用于衡量未来奖励的重要性。具体来说，折扣因子决定了智能体对未来奖励的降低程度。

步骤104，将燃煤发电系统协调控制问题建模为马尔可夫决策过程，具体来说，考虑一个智能体，其时间t时的当前观测信息状态表示为在采取动作/>之后，它转移到下一个状态s_t+1并从环境中获得标量奖励r_t，以此往复，最大化所获得的累积回报/>为

其中t_l表示状态开始时间，γ∈(0,1)是折扣因子；

步骤105，燃煤发电系统协调控制代价函数为

步骤2，通过Q函数评估长期期望控制代价函数，引入标量Q值对应的值分布形式Z，并使用分位数方法对Z分布进行分布建模；具体包括如下：

步骤202，引入Q函数对应的值分布形式，即Z^μ(s,a)，满足

其中表示关于Z分布的逆累积概率函数。

其中表示Z^μ(s,a)的累积概率分布的τ_i-分位数。

步骤3，引入贝尔曼算子的分布型表达式构建目标分布，度量Z分布与目标分布的1-Wassertein最小距离，设计分位数损失，以最小化分布之间的距离；具体包括如下：

步骤302，度量两个分布之间的1-Wassertein最小距离分位点

其中表示的是分布z的逆累积分布函数。

步骤303，N个分位点最优取值位置为

步骤304，引入分位数损失度量分布之间的距离

其中表示如果σ<0为真，则/> 为关于σ的一个损失计算。

步骤305，根据最小分位数损失来最小化分布间的距离

其中d₁(Y,U)表示随机变量Y和U分布间的1-Wassertein距离。

步骤4，构建估计网络和目标网络两个行动者-评论家网络结构，标准化燃煤发电系统的数据样本，采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，得到协调控制策略。具体包括如下：

步骤401，构建估计网络和目标网络，为两个行动者-评论家网络结构。估计网络和目标网络包括四个神经网络，具体为行动者网络、评论家网络、目标行动者网络和目标评论家网络，行动者网络的网络参数用θ^μ表示，评论家网络的网络参数用θ^Z表示；目标行动者网络的网络参数用θ^μ′表示，目标评论家网络的网络参数用θ^z′表示；

其中，行动者网络的输入为燃煤发电系统观测信息s，输出为μ(s∣θ^μ)；

目标评论家网络的输入为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′以及对应的目标评论家网络输出μ^′(s∣θ^μ′)，输出为

步骤402，使用z-score标准化将燃煤发电系统原始采集的数据样本转换为均值为0、方差为1的标准化的训练集。

步骤403，采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，具体为：

(1)根据评论家网络与目标评论家网络值分布输出计算时间差分误差

(2)计算值分布之间的分位数Huber损失函数

其中表示如果δ_ij<0为真，则/>κ为Huber损失函数的超参数。

(3)最小化分位数Huber损失函数更新评论家网络参数

其中B是标准化后的燃煤发电训练集。

(4)行动者网络沿着Z(s,μ(s|θ^μ))方向梯度进行更新

(5)通过“软更新”方式直接根据评估网络参数对目标网络参数更新

其中ξ表示θ^μ′和θ^z′的更新幅度，通常ξ＜＜1。

步骤404，不断循环步骤403，直至稳定获得最高控制代价函数，则训练结束，得到协调控制策略。

本发明方法适用于多种运行工况下的燃煤发电系统。为使本领域技术人员更好的理解本发明，下面结合具体实施例，对值分布DDPG算法的燃煤发电系统协调控制方法进行详细说明。

在设计基于值分布DDPG算法的燃煤发电系统协调控制器时，引入四个多层感知器神经网络分别作为行动者网络，评论家网络，目标行动者网络，评论家网络，网络的激活函数为RELU，行动者网络和目标行动者网络的输出层激活函数为Tanh，优化器为Adam。网络训练的最小批量数据B大小为128，软更新率ξ＝5e-3，网络学习率为1e-4。选取Huber超参数κ＝0.3。

设置初始状态和目标状态分别为x(0)＝[102,438.93]^T和T_h＝[h₁,h₂,h₃]＝[121,389,92]^T，初始控制输入为a₀＝[0.3102,0.6711,0.3967]。控制代价函数为

其中折扣系数γ＝0.99。

将其应用于160MW燃煤发电系统。通过与燃煤发电系统环境交互收集运行数据，并进行网络训练。在燃煤发电环境下进行多次运行测试。所得的平均回报曲线如图2所示，其中横轴表示训练步数，纵轴代表对应的奖励回报，实线表示多次运行的平均奖励曲线，阴影表示回报方差。从图2中可以看出，在经过2e5次训练步数后，奖励回报曲线已经收敛。在训练结束后，将值分布DDPG算法应用于燃煤发电系统以测试其跟踪目标状态T_s效果系统，系统变量x₁、x₂、x₃和对应跟踪目标h₁、h₂、h₃的状态以及误差的轨迹图分别如图3、图4和图5所示，系统输入变量轨迹如图6所示，可知系统最终能够实现对给定目标值的跟踪。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，包括如下步骤：

步骤1，构建燃煤发电系统协调控制代价函数，包括如下步骤：

步骤101，选择蒸汽流量、燃料流量和给水流量为燃煤发电系统的控制变量；

选择蒸汽压力、汽包流体密度和功率输出为燃煤发电系统的状态变量；

步骤102，在强化学习框架下制定燃煤发电系统协调控制问题，定义四元组具体为：

(1)为动作空间，表示强化学习智能体执行的操作a的集合，即a＝[u₁，u₂，u₃]^T，其中u₁，u₂，u₃，分别代表燃料流量、蒸汽流量和汽包给水流量控制阀门开度；

(2)为状态空间，表示智能体所观测的信息的集合；选择系统状态变量锅炉汽包蒸汽压力x₁、电力功率x₂和锅炉汽包内流体密度x₃，当前系统状态与目标系统状态T_h之间的偏差e₁、e₂和e₃；

因此，完整观测信息描述为

s＝[x₁，x₂，x₃，e₁，e₂，e₃，u₁，u₂，u₃]^Y#(1)

(3)r为奖励函数，用于评估智能体在执行动作时的目标和效果；

(4)γ为折扣因子，用于衡量未来奖励的重要性；

步骤104，将燃煤发电系统协调控制问题建模为马尔可夫决策过程，智能体在时间t时的当前观测信息状态表示为在采取动作/>之后，它转移到下一个状态s_t+1并从环境中获得标量奖励r_t，以此往复，最大化所获得的累积回报为

其中t_l表示状态开始时间，γ∈(0，1)是折扣因子；

步骤105，燃煤发电系统协调控制代价函数为

步骤2，通过Q函数评估长期期望控制所述代价函数，引入标量Q值对应的值分布形式Z，并使用分位数方法对Z分布进行分布建模，具体包括如下步骤：

步骤201，定义用于描述在特定的时间t，燃煤发电系统在当前状态s_t时，执行动作a_t，并且之后执行协调控制策略μ(s)的长期期望控制代价函数，即

步骤202，引入标量Q值对应的值分布形式，即Z^μ(s，a)，满足

步骤203，定义[0，1]上的N个分位数点，τ₁，...，τ_N表示与这种Z分布相关的累积概率函数：

其中表示关于Z分布的逆累积概率函数；

步骤204，所述使用分位数对Z分布进行分布建模，具体为：

其中表示Z^μ(s，a)的累积概率分布的τ_i表示分位数；

步骤3，引入贝尔曼算子的分布型表达式构建目标分布，度量Z分布与目标分布的1-Wassertein最小距离，设计分位数损失，以最小化Z分布与目标分布之间的距离；

步骤4，构建估计网络和目标网络，采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，得到协调控制策略。

2.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，步骤3中引入贝尔曼算子的分布型表达式构建目标分布，度量Z分布与目标分布的1-Wassertein最小距离，设计分位数损失，以最小化Z分布与目标分布之间的距离，具体包括如下步骤：

其中是贝尔曼算子，/>表示等式两边遵循相同的概率定律，即随机变量Y与U遵循相同的规律分布；

步骤302，度量Z分布与目标分布之间的1-Wassertein最小距离分位点

其中表示的是分布z的逆累积分布函数；

步骤303，N个分位点最优取值位置为

步骤304，引入分位数损失度量分布之间的距离

其中表示如果σ＜0为真，则/> 为关于σ的一个损失计算；

步骤305，根据最小分位数损失来最小化分布间的距离

其中d₁(Y，U)表示Y和U分布间的1-Wassertein距离。

3.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，步骤4中构建估计网络和目标网络，标准化燃煤发电系统的数据样本，采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，得到协调控制策略

步骤401，构建估计网络和目标网络

4.根据权利要求3所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，步骤401中行动者网络的输入为燃煤发电系统观测信息s，输出为μ(s|θ^μ)；

目标行动者网络的输入为燃煤发电系统为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′，输出为μ′(s′|θ^μ′)；

目标评论家网络的输入为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′以及对应的目标评论家网络输出μ′(s|θ^μ′)，输出为

5.根据权利要求3所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，步骤403中采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，具体包括如下步骤：

步骤4032，计算值分布之间的分位数Huber损失函数

其中II{δ_ij＜0}，表示如果δ_ij＜0为真，则II{δ_ij＜0}＝1，κ为Huber损失函数的超参数；

步骤4033，最小化分位数Huber损失函数更新评论家网络参数

其中B是标准化后的燃煤发电训练集；

步骤4034，行动者网络沿着Z(s，μ(s|θ^μ))方向梯度进行更新

步骤4035，根据评估网络参数对目标网络参数更新

其中ξ表示θ^μ′和θ^z′的更新幅度。