CN116755409B - 一种基于值分布ddpg算法的燃煤发电系统协调控制方法 - Google Patents
一种基于值分布ddpg算法的燃煤发电系统协调控制方法 Download PDFInfo
- Publication number
- CN116755409B CN116755409B CN202310812903.9A CN202310812903A CN116755409B CN 116755409 B CN116755409 B CN 116755409B CN 202310812903 A CN202310812903 A CN 202310812903A CN 116755409 B CN116755409 B CN 116755409B
- Authority
- CN
- China
- Prior art keywords
- distribution
- network
- coal
- power generation
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 110
- 238000010248 power generation Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000011217 control strategy Methods 0.000 claims abstract description 13
- 230000007774 longterm Effects 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 19
- 239000003795 chemical substances by application Substances 0.000 claims description 17
- 230000001186 cumulative effect Effects 0.000 claims description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 14
- 239000012530 fluid Substances 0.000 claims description 12
- 230000002787 reinforcement Effects 0.000 claims description 10
- 239000000446 fuel Substances 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 4
- 230000001351 cycling effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002485 combustion reaction Methods 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41865—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32252—Scheduling production, machining, job shop
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于值分布DDPG算法的燃煤发电系统协调控制方法,包括:将燃煤发电系统协调控制问题建模为马尔可夫决策过程;通过Q函数评估长期期望控制代价函数,使用分位数对标量Q值进行分布建模;引入贝尔曼算子的分布型表达式构建目标分布,度量分布之间的1‑Wassertein最小距离,设计分位数损失与最小化分布之间的距离;构建估计网络和目标网络两个行动者‑评论家网络结构,标准化燃煤发电系统的数据样本,采用DDPG算法以实现对值分布的估计和策略的更新,得到协调控制策略。本发明基于系统运行数据和值分布DDPG算法解决了环境复杂不确定性燃煤发电系统协调控制中难以精确建模、缺乏自适应能力等难题。
Description
技术领域
本发明属于燃煤发电系统数据驱动控制领域,主要涉及一种基于值分布DDPG算法的燃煤发电系统协调控制方法。
背景技术
近年来,全球能源消耗不断提高,新型可再生能源的加入给电网稳定性带来威胁。火力发电作为主要能源来源,燃煤发电厂的安全稳定对于维护电网可靠性至关重要。锅炉-汽轮机系统是火力发电厂的核心组件,需要智能化提升运行策略以满足电网需求的波动。协调控制系统对维持燃煤发电机组能源供需平衡、优化运行效率具有重要作用。近年来,有学者利用输入凸神经网络进行锅炉-汽轮机系统动力学建模,采用非线性模型预测控制在宽负荷变化下实现了快速稳定的跟踪性能。此外,有学者提出基于H∞-LQR的协调控制方案合理调度系统各种设备,以提高发电机组在各种工况下的负荷适应性。但这些方法依赖于建模精度,在火电机组环境变化、升级改造等情形下自适应能力较差。为此,有学者提出策略迭代积分强化学习方法设计锅炉-汽轮机系统最优跟踪控制律,避免精确模型构建,提高算法自适应能力,但是没有充分考虑到燃煤发电系统环境的不确定性。
DDPG是一种在深度网络框架下结合Q学习和确定性策略梯度算法的强化学习方法,通过奖励反馈指导与环境交互进行自我学习,适用于处理复杂连续控制问题,已在风力发电机、自动驾驶、机器人、物联网等领域得到广泛应用。而燃煤发电系统环境复杂,存在许多影响因素如温度、压力、湿度、煤质等,这些因素对发电效率和燃烧效果产生重要影响。而现有的DDPG算法大多基于固定Q值函数评价当前状态-动作下执行策略带来的期望回报,无法反映环境不确定性对策略评价的影响。
因此,迫切需要开发一种具有自适应、自学习和处理不确定性环境能力的DDPG算法,解决给定目标下燃煤发电系统的协调控制问题。
发明内容
发明目的:解决含有未建模动态和不确定环境因素的燃煤发电系统协调控制问题,使得燃煤发电系统控制策略具有自适应、自学习能力,引入值分布形式解决了标量Q值难以表示不确定燃煤发电系统的价值估计的问题。
发明内容:本发明提出了一种基于值分布DDPG算法的燃煤发电系统协调控制方法,包括:
步骤1,构建燃煤发电系统协调控制代价函数;
步骤2,通过Q函数评估长期期望控制代价函数,引入标量Q值对应的值分布形式Z,并使用分位数方法对Z分布进行分布建模;
步骤3,引入贝尔曼算子的分布型表达式构建目标分布,度量Z分布与目标分布的1-Wassertein最小距离,设计分位数损失以最小化分布之间的距离;
步骤4,构建估计网络和目标网络两个行动者-评论家网络结构,标准化燃煤发电系统的数据样本,将分位数Huber损失作为估计网络和目标网络的一个损失函数,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,得到协调控制策略。
进一步的,步骤1具体包括如下内容:
步骤101,分析燃煤发电系统运行特性,具体体现在:对于燃煤发电系统来说,蒸汽输出是至关重要的,因为它直接关系到电厂的功率输出效果。燃料流量直接影响燃烧效率,而给水量和蒸汽流量阀门直接影响蒸汽输出。燃煤发电厂需要实现汽包水位的稳定,以提高锅炉的性能。此外,水位的高度依赖于控制输入,直接控制水位相当繁琐,通过汽包蒸汽压力和汽包内流体密度间接反映水位变化。燃煤发电机组运行过程中,协调控制系统旨在使机组能够满足电负荷需求下,同时将蒸汽压力、电力功率和汽包水位稳定在所需水平,从而尽可能地减少能源消耗;
步骤102,根据运行特性,选择蒸汽流量、燃料流量和给水流量为控制变量,选择蒸汽压力、汽包流体密度和功率输出为状态变量;
步骤103,在强化学习框架下制定燃煤发电系统协调控制问题,需定义一个四元组具体为:
(1)为动作空间,表示强化学习智能体可以执行的操作的集合。对于协调控制问题,控制输入可以作为智能体的动作,即a=[a1,a2,u3]T,其中u1,u2,u3,分别代表燃料流量、蒸汽流量和汽包给水流量控制阀门开度。每个阀门可以旋转的范围为(0,1),每个控制变量是连续的动作空间,0表示完全关闭和1表示完全开放;
(2)为状态空间,表示智能体所观测的信息的集合。选择系统状态变量锅炉汽包蒸汽压力x1(kg/cm2)、电力功率x2(MW)和锅炉汽包内流体密度x3(kg/cm3),当前状态与目标状态Th之间的偏差e1、e2和e3;
其中,h=1、2或3;e1表示前系统状态变量锅炉汽包蒸汽压力x1与目标系统状态量锅炉汽包蒸汽压力h1之间的偏差;
e2表示前系统状态变量电力功率x2与目标系统状态变量电力功率h2之间的偏差;
e3表示前系统状态变量锅炉汽包内流体密度x3与目标系统状态变量锅炉汽包内流体密度h3之间的偏差;
同时将当前控制输入a=[u1,u2,u3]T作为观测状态信息的一部分,因此完整观测信息可以描述为
s=[x1,x2,x3,e1,e2,e3,u1,u2,u3]T#(1)
(3)r为奖励函数,用于评估智能体在执行动作时的目标和效果。当系统状态远离目标状态Ts时设置一定的惩罚项,在系统状态靠近目标状态时,设置额外奖励项,因此设定奖励r为
其中ω1、ω2和ω3分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重,||e||表示当前系统状态与目标状态Ts之间的跟踪误差范数;
(4)γ为折扣因子,用于衡量未来奖励的重要性。具体来说,折扣因子决定了智能体对未来奖励的降低程度;
步骤104,将燃煤发电系统协调控制问题建模为马尔可夫决策过程,具体来说,考虑一个智能体,其时间t时的当前观测信息状态表示为在采取动作/>之后,它转移到下一个状态st+1并从环境中获得标量奖励rt,以此往复,最大化所获得的累积回报为
其中tl表示状态开始时间,γ∈(0,1)是折扣因子;
步骤105,燃煤发电系统协调控制代价函数为
进一步的,步骤2具体包括如下内容;
步骤201,定义用于描述在特定的时间t,燃煤发电系统在状态st时,执行动作at,并且之后执行协调控制策略μ(s)的长期期望控制代价函数,即
步骤202,引入Q函数对应的值分布形式,即Zμ(s,a),满足
步骤203,定义[0,1]上的N个分位数点,τ1,…,τN表示与这种Z分布相关的累积概率函数:
其中表示关于Z分布的逆累积概率函数;
步骤204,所述使用分位数对值分布形式进行分布建模,具体为:
其中表示Zμ(s,a)的累积概率分布的τi-分位数。
进一步的,步骤3具体包括如下内容;
步骤301,引入贝尔曼算子的分布型表达式以构建目标分布,所述目标分布为
其中Tμ是贝尔曼算子,表示等式两边遵循相同的概率定律,即随机变量Y与U遵循相同的规律分布;
步骤302,度量两个分布之间的1-Wassertein最小距离分位点
其中表示的是分布z的逆累积分布函数;
步骤303,N个分位点最优取值位置为
步骤304,引入分位数损失度量分布之间的距离
其中表示如果σ<0为真,则/> 为关于σ的一个损失计算;
步骤305,根据最小分位数损失来最小化分布间的距离
其中d1(Y,U)表示Y和U分布间的1-Wassertein距离;
进一步的,步骤4具体包括如下内容;
步骤401,构建估计网络和目标网络
所述估计网络和目标网络包括行动者网络、评论家网络、目标行动者网络和目标评论家网络;
步骤402,采集燃煤发电系统原始数据样本作为估计网络和目标网络训练集;
步骤403,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新;
步骤404,不断循环步骤403,直至稳定获得最高控制代价函数,得到协调控制策略。
进一步的,步骤401中行动者网络的输入为燃煤发电系统观测信息s,输出为μ(s∣θμ);
评论家网络的输入为燃煤发电系统观测信息s以及控制输入a,输出为
目标行动者网络的输入为燃煤发电系统为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′,输出为μ′(s′∣θμ′);
目标评论家网络的输入为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′以及对应的目标评论家网络输出μ′(s∣θμ′),输出为
进一步的,步骤403中采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,具体包括如下步骤:
步骤4031,根据评论家网络与目标评论家网络值分布输出计算时间差分误差:
其中s′表示的为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息;
步骤4032,计算值分布之间的分位数Huber损失函数
其中表示如果δij<0为真,则/>κ为Huber损失函数的超参数;
步骤4033,最小化分位数Huber损失函数更新评论家网络参数
其中B是标准化后的燃煤发电训练集;
步骤4034,行动者网络沿着Z(s,μ(s|θμ))方向梯度进行更新
步骤4035,根据评估网络参数对目标网络参数更新
其中ξ表示θμ′和θZ′的更新幅度。
本发明提供的技术方案的有益效果是:
1)通过强化学习优化框架与复杂不确定燃煤发电系统的协调控制有机结合,显著提高了控制策略的自学习能力,从而灵活地满足了协调控制的实际要求。
2)通过在DDPG中引入价值分布概念来描述价值函数的完整分布信息,从而准确地预测成本函数,更好的处理燃煤发电运行环境的不确定性,保证学习效率。
附图说明
图1是基于值分布DDPG算法的燃煤发电系统协调控制流程图;
图2是值分布DDPG算法训练示意图;
图3是状态x1以及误差e1轨迹图;
图4是状态x2以及误差e2轨迹图。
图5是状态x3以及误差e3轨迹图。
图6是控制输入轨迹图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明的一种基于值分布DDPG的燃煤发电系统协调控制方法,如图1所示,该方法包括如下步骤:
步骤1,基于对燃煤发电系统的运行特性分析,在强化学习优化框架下将燃煤发电系统协调控制问题建模为马尔可夫决策过程,构建燃煤发电系统协调控制代价函数;具体包括如下:
步骤101,分析燃煤发电系统运行特性;
具体体现在:对于燃煤发电系统来说,蒸汽输出是至关重要的,因为它直接关系到电厂的功率输出效果。燃料流量直接影响燃烧效率,而给水量和蒸汽流量阀门直接影响蒸汽输出。燃煤发电厂需要实现汽包水位的稳定,以提高锅炉的性能。此外,水位的高度依赖于控制输入,直接控制水位相当繁琐,通过汽包蒸汽压力和汽包内流体密度间接反映水位变化。燃煤发电机组运行过程中,协调控制系统旨在使机组能够满足电负荷需求下,同时将蒸汽压力、电力功率和汽包水位稳定在所需水平,从而尽可能地减少能源消耗。
步骤102,根据运行特性,选择蒸汽流量、燃料流量和给水流量为控制变量,选择蒸汽压力、汽包流体密度和电力功率输出为状态变量。
步骤103,在强化学习框架下制定燃煤发电系统协调控制问题,需定义一个四元组具体为:
(1)为动作空间,表示强化学习智能体可以执行的操作的集合。对于协调控制问题,控制输入可以作为智能体的动作,即a=[u1,u2,u3]T,其中u1,u2,u3,分别代表燃料流量u1、蒸汽流量u2和汽包给水流量u3控制阀门开度。每个阀门可以旋转的范围为(0,1),每个控制变量是连续的动作空间,0表示完全关闭和1表示完全开放。
(2)为状态空间,表示智能体所观测的信息的集合。选择系统状态变量锅炉汽包蒸汽压力x1(kg/cm2)、电力功率x2(MW)和锅炉汽包内流体密度x3(kg/cm3),当前系统状态与目标系统状态Th之间的偏差e1、e2和e3;
其中,h=1、2或3;e1表示前系统状态变量锅炉汽包蒸汽压力x1与目标系统状态量锅炉汽包蒸汽压力h1之间的偏差;
e2表示前系统状态变量电力功率x2与目标系统状态变量电力功率h2之间的偏差;
e3表示前系统状态变量锅炉汽包内流体密度x3与目标系统状态变量锅炉汽包内流体密度h3之间的偏差;
同时将当前控制输入a=[u1,u2,u3]T作为观测状态信息的一部分,因此完整观测信息可以描述为
s=[x1,x2,x3,e1,e2,e3,u1,u2,u3]T #(1)
(3)r为奖励函数,用于评估智能体在执行动作时的目标和效果。当系统状态远离目标状态Th时设置一定的惩罚项,在系统状态靠近目标状态时,设置额外奖励项,因此设定奖励r为
其中ω1、ω2和ω3分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重,||e||表示当前系统状态与目标状态Th之间的跟踪误差范数。
(4)γ为折扣因子,用于衡量未来奖励的重要性。具体来说,折扣因子决定了智能体对未来奖励的降低程度。
步骤104,将燃煤发电系统协调控制问题建模为马尔可夫决策过程,具体来说,考虑一个智能体,其时间t时的当前观测信息状态表示为在采取动作/>之后,它转移到下一个状态st+1并从环境中获得标量奖励rt,以此往复,最大化所获得的累积回报/>为
其中tl表示状态开始时间,γ∈(0,1)是折扣因子;
步骤105,燃煤发电系统协调控制代价函数为
步骤2,通过Q函数评估长期期望控制代价函数,引入标量Q值对应的值分布形式Z,并使用分位数方法对Z分布进行分布建模;具体包括如下:
步骤201,定义用于描述在特定的时间t,燃煤发电系统在状态st时,执行动作at,并且之后执行协调控制策略μ(s)的长期期望控制代价函数,即
步骤202,引入Q函数对应的值分布形式,即Zμ(s,a),满足
步骤203,定义[0,1]上的N个分位数点,τ1,…,τN表示与这种Z分布相关的累积概率函数:
其中表示关于Z分布的逆累积概率函数。
步骤204,所述使用分位数对值分布形式进行分布建模,具体为:
其中表示Zμ(s,a)的累积概率分布的τi-分位数。
步骤3,引入贝尔曼算子的分布型表达式构建目标分布,度量Z分布与目标分布的1-Wassertein最小距离,设计分位数损失,以最小化分布之间的距离;具体包括如下:
步骤301,引入贝尔曼算子的分布型表达式以构建目标分布,所述目标分布为
其中Tμ是贝尔曼算子,表示等式两边遵循相同的概率定律,即随机变量Y与U遵循相同的规律分布;
步骤302,度量两个分布之间的1-Wassertein最小距离分位点
其中表示的是分布z的逆累积分布函数。
步骤303,N个分位点最优取值位置为
步骤304,引入分位数损失度量分布之间的距离
其中表示如果σ<0为真,则/> 为关于σ的一个损失计算。
步骤305,根据最小分位数损失来最小化分布间的距离
其中d1(Y,U)表示随机变量Y和U分布间的1-Wassertein距离。
步骤4,构建估计网络和目标网络两个行动者-评论家网络结构,标准化燃煤发电系统的数据样本,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,得到协调控制策略。具体包括如下:
步骤401,构建估计网络和目标网络,为两个行动者-评论家网络结构。估计网络和目标网络包括四个神经网络,具体为行动者网络、评论家网络、目标行动者网络和目标评论家网络,行动者网络的网络参数用θμ表示,评论家网络的网络参数用θZ表示;目标行动者网络的网络参数用θμ′表示,目标评论家网络的网络参数用θz′表示;
其中,行动者网络的输入为燃煤发电系统观测信息s,输出为μ(s∣θμ);
评论家网络的输入为燃煤发电系统观测信息s以及控制输入a,输出为
目标行动者网络的输入为燃煤发电系统为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′,输出为μ′(s′∣θμ′);
目标评论家网络的输入为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′以及对应的目标评论家网络输出μ′(s∣θμ′),输出为
步骤402,使用z-score标准化将燃煤发电系统原始采集的数据样本转换为均值为0、方差为1的标准化的训练集。
步骤403,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,具体为:
(1)根据评论家网络与目标评论家网络值分布输出计算时间差分误差
其中s′表示的为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息;
(2)计算值分布之间的分位数Huber损失函数
其中表示如果δij<0为真,则/>κ为Huber损失函数的超参数。
(3)最小化分位数Huber损失函数更新评论家网络参数
其中B是标准化后的燃煤发电训练集。
(4)行动者网络沿着Z(s,μ(s|θμ))方向梯度进行更新
(5)通过“软更新”方式直接根据评估网络参数对目标网络参数更新
其中ξ表示θμ′和θz′的更新幅度,通常ξ<<1。
步骤404,不断循环步骤403,直至稳定获得最高控制代价函数,则训练结束,得到协调控制策略。
本发明方法适用于多种运行工况下的燃煤发电系统。为使本领域技术人员更好的理解本发明,下面结合具体实施例,对值分布DDPG算法的燃煤发电系统协调控制方法进行详细说明。
在设计基于值分布DDPG算法的燃煤发电系统协调控制器时,引入四个多层感知器神经网络分别作为行动者网络,评论家网络,目标行动者网络,评论家网络,网络的激活函数为RELU,行动者网络和目标行动者网络的输出层激活函数为Tanh,优化器为Adam。网络训练的最小批量数据B大小为128,软更新率ξ=5e-3,网络学习率为1e-4。选取Huber超参数κ=0.3。
设置初始状态和目标状态分别为x(0)=[102,438.93]T和Th=[h1,h2,h3]=[121,389,92]T,初始控制输入为a0=[0.3102,0.6711,0.3967]。控制代价函数为
其中折扣系数γ=0.99。
将其应用于160MW燃煤发电系统。通过与燃煤发电系统环境交互收集运行数据,并进行网络训练。在燃煤发电环境下进行多次运行测试。所得的平均回报曲线如图2所示,其中横轴表示训练步数,纵轴代表对应的奖励回报,实线表示多次运行的平均奖励曲线,阴影表示回报方差。从图2中可以看出,在经过2e5次训练步数后,奖励回报曲线已经收敛。在训练结束后,将值分布DDPG算法应用于燃煤发电系统以测试其跟踪目标状态Ts效果系统,系统变量x1、x2、x3和对应跟踪目标h1、h2、h3的状态以及误差的轨迹图分别如图3、图4和图5所示,系统输入变量轨迹如图6所示,可知系统最终能够实现对给定目标值的跟踪。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,包括如下步骤:
步骤1,构建燃煤发电系统协调控制代价函数,包括如下步骤:
步骤101,选择蒸汽流量、燃料流量和给水流量为燃煤发电系统的控制变量;
选择蒸汽压力、汽包流体密度和功率输出为燃煤发电系统的状态变量;
步骤102,在强化学习框架下制定燃煤发电系统协调控制问题,定义四元组具体为:
(1)为动作空间,表示强化学习智能体执行的操作a的集合,即a=[u1,u2,u3]T,其中u1,u2,u3,分别代表燃料流量、蒸汽流量和汽包给水流量控制阀门开度;
(2)为状态空间,表示智能体所观测的信息的集合;选择系统状态变量锅炉汽包蒸汽压力x1、电力功率x2和锅炉汽包内流体密度x3,当前系统状态与目标系统状态Th之间的偏差e1、e2和e3;
因此,完整观测信息描述为
s=[x1,x2,x3,e1,e2,e3,u1,u2,u3]Y#(1)
(3)r为奖励函数,用于评估智能体在执行动作时的目标和效果;
其中ω1、ω2和ω3分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重,||e||表示当前系统状态与目标状态Ts之间的跟踪误差范数;
(4)γ为折扣因子,用于衡量未来奖励的重要性;
步骤104,将燃煤发电系统协调控制问题建模为马尔可夫决策过程,智能体在时间t时的当前观测信息状态表示为在采取动作/>之后,它转移到下一个状态st+1并从环境中获得标量奖励rt,以此往复,最大化所获得的累积回报为
其中tl表示状态开始时间,γ∈(0,1)是折扣因子;
步骤105,燃煤发电系统协调控制代价函数为
步骤2,通过Q函数评估长期期望控制所述代价函数,引入标量Q值对应的值分布形式Z,并使用分位数方法对Z分布进行分布建模,具体包括如下步骤:
步骤201,定义用于描述在特定的时间t,燃煤发电系统在当前状态st时,执行动作at,并且之后执行协调控制策略μ(s)的长期期望控制代价函数,即
步骤202,引入标量Q值对应的值分布形式,即Zμ(s,a),满足
步骤203,定义[0,1]上的N个分位数点,τ1,...,τN表示与这种Z分布相关的累积概率函数:
其中表示关于Z分布的逆累积概率函数;
步骤204,所述使用分位数对Z分布进行分布建模,具体为:
其中表示Zμ(s,a)的累积概率分布的τi表示分位数;
步骤3,引入贝尔曼算子的分布型表达式构建目标分布,度量Z分布与目标分布的1-Wassertein最小距离,设计分位数损失,以最小化Z分布与目标分布之间的距离;
步骤4,构建估计网络和目标网络,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,得到协调控制策略。
2.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,步骤3中引入贝尔曼算子的分布型表达式构建目标分布,度量Z分布与目标分布的1-Wassertein最小距离,设计分位数损失,以最小化Z分布与目标分布之间的距离,具体包括如下步骤:
步骤301,引入贝尔曼算子的分布型表达式以构建目标分布,所述目标分布为
其中是贝尔曼算子,/>表示等式两边遵循相同的概率定律,即随机变量Y与U遵循相同的规律分布;
步骤302,度量Z分布与目标分布之间的1-Wassertein最小距离分位点
其中表示的是分布z的逆累积分布函数;
步骤303,N个分位点最优取值位置为
步骤304,引入分位数损失度量分布之间的距离
其中表示如果σ<0为真,则/> 为关于σ的一个损失计算;
步骤305,根据最小分位数损失来最小化分布间的距离
其中d1(Y,U)表示Y和U分布间的1-Wassertein距离。
3.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,步骤4中构建估计网络和目标网络,标准化燃煤发电系统的数据样本,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,得到协调控制策略
步骤401,构建估计网络和目标网络
所述估计网络和目标网络包括行动者网络、评论家网络、目标行动者网络和目标评论家网络;
步骤402,采集燃煤发电系统原始数据样本作为估计网络和目标网络训练集;
步骤403,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新;
步骤404,不断循环步骤403,直至稳定获得最高控制代价函数,得到协调控制策略。
4.根据权利要求3所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,步骤401中行动者网络的输入为燃煤发电系统观测信息s,输出为μ(s|θμ);
评论家网络的输入为燃煤发电系统观测信息s以及控制输入a,输出为
目标行动者网络的输入为燃煤发电系统为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′,输出为μ′(s′|θμ′);
目标评论家网络的输入为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息s′以及对应的目标评论家网络输出μ′(s|θμ′),输出为
5.根据权利要求3所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,步骤403中采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,具体包括如下步骤:
步骤4031,根据评论家网络与目标评论家网络值分布输出计算时间差分误差:
其中s′表示的为燃煤发电系统在观测信息s执行控制输入a获得的下一个观测信息;
步骤4032,计算值分布之间的分位数Huber损失函数
其中II{δij<0},表示如果δij<0为真,则II{δij<0}=1,κ为Huber损失函数的超参数;
步骤4033,最小化分位数Huber损失函数更新评论家网络参数
其中B是标准化后的燃煤发电训练集;
步骤4034,行动者网络沿着Z(s,μ(s|θμ))方向梯度进行更新
步骤4035,根据评估网络参数对目标网络参数更新
其中ξ表示θμ′和θz′的更新幅度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310812903.9A CN116755409B (zh) | 2023-07-04 | 2023-07-04 | 一种基于值分布ddpg算法的燃煤发电系统协调控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310812903.9A CN116755409B (zh) | 2023-07-04 | 2023-07-04 | 一种基于值分布ddpg算法的燃煤发电系统协调控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116755409A CN116755409A (zh) | 2023-09-15 |
CN116755409B true CN116755409B (zh) | 2024-01-12 |
Family
ID=87953192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310812903.9A Active CN116755409B (zh) | 2023-07-04 | 2023-07-04 | 一种基于值分布ddpg算法的燃煤发电系统协调控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116755409B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474295B (zh) * | 2023-12-26 | 2024-04-26 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117808259A (zh) * | 2023-12-30 | 2024-04-02 | 湖南工商大学 | 一种能源调度策略的获取方法及装置 |
CN118192249B (zh) * | 2024-04-10 | 2024-08-09 | 中国矿业大学 | 一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157188A (ja) * | 2015-02-23 | 2016-09-01 | 株式会社デンソーアイティーラボラトリ | 姿勢推定モデル生成装置及び姿勢推定装置 |
CN110365056A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 一种基于ddpg的分布式能源参与配电网调压优化方法 |
CN115123159A (zh) * | 2022-06-27 | 2022-09-30 | 重庆邮电大学 | 一种基于ddpg深度强化学习的aeb控制方法及系统 |
US11571809B1 (en) * | 2019-09-15 | 2023-02-07 | X Development Llc | Robotic control using value distributions |
CN115933410A (zh) * | 2023-01-09 | 2023-04-07 | 中国矿业大学 | 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法 |
CN116131254A (zh) * | 2022-12-26 | 2023-05-16 | 上海交通大学 | 一种基于ddpg算法的热电联产机组经济调度方法 |
CN116207750A (zh) * | 2023-02-28 | 2023-06-02 | 云南电网有限责任公司昆明供电局 | 一种基于深度确定性策略梯度算法的配电网无功优化方法 |
CN116316911A (zh) * | 2023-03-28 | 2023-06-23 | 国网江苏省电力有限公司电力科学研究院 | 一种电力系统有功-无功协调优化方法及装置 |
CN116341376A (zh) * | 2023-03-17 | 2023-06-27 | 西安交通大学 | 一种基于ddpg深度强化学习算法的空间热离子核电源控制方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200327411A1 (en) * | 2019-04-14 | 2020-10-15 | Di Shi | Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning |
US20230071450A1 (en) * | 2021-09-09 | 2023-03-09 | Siemens Aktiengesellschaft | System and method for controlling large scale power distribution systems using reinforcement learning |
-
2023
- 2023-07-04 CN CN202310812903.9A patent/CN116755409B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157188A (ja) * | 2015-02-23 | 2016-09-01 | 株式会社デンソーアイティーラボラトリ | 姿勢推定モデル生成装置及び姿勢推定装置 |
CN110365056A (zh) * | 2019-08-14 | 2019-10-22 | 南方电网科学研究院有限责任公司 | 一种基于ddpg的分布式能源参与配电网调压优化方法 |
US11571809B1 (en) * | 2019-09-15 | 2023-02-07 | X Development Llc | Robotic control using value distributions |
CN115123159A (zh) * | 2022-06-27 | 2022-09-30 | 重庆邮电大学 | 一种基于ddpg深度强化学习的aeb控制方法及系统 |
CN116131254A (zh) * | 2022-12-26 | 2023-05-16 | 上海交通大学 | 一种基于ddpg算法的热电联产机组经济调度方法 |
CN115933410A (zh) * | 2023-01-09 | 2023-04-07 | 中国矿业大学 | 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法 |
CN116207750A (zh) * | 2023-02-28 | 2023-06-02 | 云南电网有限责任公司昆明供电局 | 一种基于深度确定性策略梯度算法的配电网无功优化方法 |
CN116341376A (zh) * | 2023-03-17 | 2023-06-27 | 西安交通大学 | 一种基于ddpg深度强化学习算法的空间热离子核电源控制方法 |
CN116316911A (zh) * | 2023-03-28 | 2023-06-23 | 国网江苏省电力有限公司电力科学研究院 | 一种电力系统有功-无功协调优化方法及装置 |
Non-Patent Citations (8)
Title |
---|
A DDPG-based solution for optimal consensus of continuous-time linear multi-agent systems;LI Ye LIU ZhongXin, LAN Ge, SADER Malika, CHEN ZengQiang;《SCIENCE CHINA Technological Sciences》;第66卷(第8期);全文 * |
Combining Deep Deterministic Policy Gradient with Cross-Entropy Method;Lai, Tung-Yi等;《 2019 INTERNATIONAL CONFERENCE ON TECHNOLOGIES AND APPLICATIONS OF ARTIFICIAL INTELLIGENCE (TAAI)》;全文 * |
基于值函数和策略梯度的深度强化学习综述;刘建伟;高峰;罗雄麟;;计算机学报(06);全文 * |
基于改进DDPG算法的中短期光伏发电功率预测;苏诗慧;雷勇;李永凯;朱英伟;;半导体光电(05);全文 * |
基于深度强化学习的自适应不确定性经济调度;彭刘阳,孙元章,徐箭,廖思阳,杨丽;《电力系统自动化》;第44卷(第9期);全文 * |
基于深度强化学习的自适应不确定性经济调度;彭刘阳;孙元章;徐箭;廖思阳;杨丽;;电力系统自动化(09);全文 * |
彭刘阳 ; 孙元章 ; 徐箭 ; 廖思阳 ; 杨丽 ; .基于深度强化学习的自适应不确定性经济调度.电力系统自动化.2020,(09),全文. * |
苏诗慧 ; 雷勇 ; 李永凯 ; 朱英伟 ; .基于改进DDPG算法的中短期光伏发电功率预测.半导体光电.2020,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116755409A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116755409B (zh) | 一种基于值分布ddpg算法的燃煤发电系统协调控制方法 | |
US11232376B2 (en) | System and method for optimizing combustion of boiler | |
CN108121215B (zh) | 基于全回路重构仿真的工业控制回路性能评价方法及装置 | |
Na et al. | Design of a fuzzy model predictive power controller for pressurized water reactors | |
CN115933410B (zh) | 一种基于q学习的双时间尺度燃煤发电系统最优跟踪控制方法 | |
Kim et al. | Design of a model predictive load-following controller by discrete optimization of control rod speed for PWRs | |
Larsson et al. | A framework for nonlinear model-predictive control using object-oriented modeling with a case study in power plant start-up | |
CN118011805A (zh) | 基于数据驱动和Tube优化的超超临界机组模型预测控制方法 | |
CN115016284B (zh) | 一种变量柱塞泵数字孪生控制方法和系统 | |
CN115001002B (zh) | 一种求解储能参与削峰填谷的优化调度方法和系统 | |
CN111612255B (zh) | 一种基于支持向量回归的风电场功率曲线建模方法 | |
Lindberg | A comparison between MPC and PID controllers for education and steam reformers | |
CN118192249B (zh) | 一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法 | |
Besselmann et al. | Explicit LPV-MPC with bounded rate of parameter variation | |
Gauthier-Clerc et al. | Comparing Neural Network and Linear Models in Economic MPC: Insights from BOPTEST for Building Temperature Control | |
Zhou et al. | Reliable identification based intelligent PID tuning for long-period process control under different working conditions | |
Kannabiran et al. | Design of Novel Control Scheme for an Aquaponics System in Bioenvironment | |
Wiranata et al. | The Prediction and Operational Control System of the Cofiring Combined Cycle Power Plant Using Deep Learning Methods to Improve Power Generation Performance | |
Mota | Differential Machine Learning Models for Simulation and Cost Optimization of Water Supply Systems | |
Zhao et al. | Study on Impedance Coefficient Identification of Heating Pipe Network based on Reinforcement Learning Improved Differential Evolution | |
Li et al. | Optimal Concurrent Estimation Method with Initial Value Search for Polynomial Kernel-Based Nonlinear Observer Canonical Models | |
CN118157224A (zh) | 一种风电场自动化调参方法及相关组件 | |
Chew et al. | Metaheuristic-based PID Control: Evaluating the Effect of Parameter Settings | |
Kiš et al. | Nearly-optimal Explicit MPC-based Reference Governors with Long Prediction Horizons Generated with Machine Learning | |
Yan | Data-driven operation and control for power systems with high-level renewable energy resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |