CN110320796A - 一种基于pid控制器的电气控制方法、装置以及设备 - Google Patents
一种基于pid控制器的电气控制方法、装置以及设备 Download PDFInfo
- Publication number
- CN110320796A CN110320796A CN201910722233.5A CN201910722233A CN110320796A CN 110320796 A CN110320796 A CN 110320796A CN 201910722233 A CN201910722233 A CN 201910722233A CN 110320796 A CN110320796 A CN 110320796A
- Authority
- CN
- China
- Prior art keywords
- function
- pid controller
- value
- electrical control
- parameter setting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006870 function Effects 0.000 claims abstract description 134
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 57
- 230000002787 reinforcement Effects 0.000 claims abstract description 27
- 230000006399 behavior Effects 0.000 claims description 38
- 230000009471 action Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B11/00—Automatic controllers
- G05B11/01—Automatic controllers electric
- G05B11/36—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
- G05B11/42—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于PID控制器的电气控制方法、装置、设备及计算机可读存储介质,包括:构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量;对所述N个单维变量进行离散化后,根据强化学习算法,采用N个代理分别对所述N个单维变量进行学习,确定所述N个单维变量的目标值;根据所述N个单维变量的目标值,确定所述目标函数的最优值,完成所述PID控制器的参数整定;利用完成参数整定后的PID控制器,对电气控制系统中的控制对象进行控制。本发明所提供的方法、装置、设备及计算机可读存储介质,提高了PID控制器参数优化效率、收敛速度以及PID控制器的控制性能。
Description
技术领域
本发明涉及过程控制技术领域,特别是涉及一种基于PID控制器的电气控制方法、装置、设备以及计算机可读存储介质。
背景技术
随着电气领域中的过程控制技术在近几十年取得了较大的发展。世界范围内的学者们研究出了多种控制方法,包括自适应控制、人工神经网络控制、模糊控制等。其中,最基本的、应用最广泛的是单回路的PID控制器。由比例(P)、积分(I)和微分(D)单元构成的PID控制器结构简单,并且能够在运行条件变化范围较大时,保持较好的鲁棒性。因此,如何优化整定PID控制器的比例、积分和微分参数是控制问题研究的重点之一。
现有技术中,参数优化方法包括两个类别:传统调节法和智能调节法。首先,传统调节法包括Ziegler-Nichols算法、基于时域积分指标(Integral Square Time ErrorCriterion,ISTE)的最优PID参数调节法。其调节过程较为复杂,并且难以避免振荡和大超调,较难获得最优PID参数。因此,研究者致力于开发基于各种启发式算法的智能PID参数整定方法。遗传算法(Genetic Algorithm,GA)、粒子群算法(Particle Swarm Optimization,PSO)、模糊推理算法和人工神经网络等人工智能技术随后被用于PID参数的整定过程。这些技术可以有效地克服传统调节法的上述缺点,增强PID控制器的控制性能。然而,这些技术也存在各自的缺陷。例如,GA需要先处理繁琐的编码过程,同时GA和PSO均依赖于种群的概念,其收敛时间较长,收敛速率较慢;模糊推理很难找到系统的方法完成算法自身参数的选择;神经网络中包含多层的神经元,如何确定隐层神经元的个数和神经元的初始权重也很难找到明确的方法。
综上所述可以看出,如何提高PID控制器参数优化效率是目前有待解决的问题。
发明内容
本发明的目的是提供一种基于PID控制器的电气控制方法、装置、设备以及计算机可读存储介质,以解决现有技术中PID控制器的参数调节方法过程复杂、收敛时间较长、收敛速率较慢的问题。
为解决上述技术问题,本发明提供一种基于PID控制器的电气控制方法,包括:构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量;对所述N个单维变量进行离散化后,根据强化学习算法,采用N个代理分别对所述N个单维变量进行学习,确定所述N个单维变量的目标值;根据所述N个单维变量的目标值,确定所述目标函数的最优值,完成所述PID控制器的参数整定;利用完成参数整定后的PID控制器,对电气控制系统中的控制对象进行控制。
优选地,所述构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量包括:
构建PID控制器参数整定问题的目标函数:
其中,e(t)为所述PID控制器的跟踪误差;u(t)为所述PID控制器的输出;tu为所述电气控制系统的输出信号y(t)从稳态值的10%上升到90%所用的上升时间;ey(t)=y(t)-y(t-1)为超调惩罚项,当ey(t)≥0时,ω4=0;当ey(t)<0时,ω4≠0且ω4>>ω1;所述目标函数的待定参数包括第一权重ω1、第二权重ω2、第三权重ω3及第四权重ω4。
优选地,每个代理对每个单维变量进行学习的步骤包括:
S1:在第i(i=1,2,...,N)个代理在第i(i=1,2,...,N)个单维变量的可采取行为集合中选取当前行为后,确定所述目标函数的当前解;
S2:根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值;
S3:根据所述奖励函数值更新所述当前行为对应的值函数,以便所述第i个代理根据更新后的值函数选取下一个行为;
S4:对所述当前解的所有维度加入不同扰动;
S5:循环执行所述S1至所述S4,直至循环次数达到预设次数,完成所述第i个单维变量的学习。
优选地,所述根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值包括:
根据确定所述第i个代理的当前行为第k步的奖励函数值Rk;其中,Jk为所述目标函数的当前解;Jbest为所述目标函数的初始最优解。
优选地,所述根据所述奖励函数值更新所述当前行为对应的值函数包括:
根据Vk+1(i,j)=(1-α)Vk(i,j)+α[Rk+(1-λ2)Lmax(i,j)+λ2Lmin(i,j)]对所述当前行为对应的值函数进行更新;
其中,Vk(i,j)为所述对应的值函数;Ll(i,j)为路径值,l=1表示向左的路径,l=2表示向右的路径;λ1为所述值函数Vk(i,j)的权重;α为学习速率;Lmax(i,j)与Lmin(i,j)分别为最大与最小的两个路径值;λ2为所述最大与最小的路径值的权重,(1-λ2)>λ2。
本发明还提供了一种基于PID控制器的电气控制装置,包括:
构建模块,用于构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量;
强化学习模块,用于对所述N个单维变量进行离散化后,根据强化学习算法,采用N个代理分别对所述N个单维变量进行学习,确定所述N个单维变量的目标值;
整定模块,用于根据所述N个单维变量的目标值,确定所述目标函数的最优值,完成所述PID控制器的参数整定;
电气控制模块,用于利用完成参数整定后的PID控制器,对电气控制系统中的控制对象进行控制。
优选地,所述构建模块具体用于:
构建PID控制器参数整定问题的目标函数:
其中,e(t)为所述PID控制器的跟踪误差;u(t)为所述PID控制器的输出;tu为所述电气控制系统的输出信号y(t)从稳态值的10%上升到90%所用的上升时间;ey(t)=y(t)-y(t-1)为超调惩罚项,当ey(t)≥0时,ω4=0;当ey(t)<0时,ω4≠0且ω4>>ω1;所述目标函数的待定参数包括第一权重ω1、第二权重ω2、第三权重ω3及第四权重ω4。
优选地,所述强化学习模块包括:
选取单元,用于在第i(i=1,2,...,N)个代理在第i(i=1,2,...,N)个单维变量的可采取行为集合中选取当前行为后,确定所述目标函数的当前解;
确定单元,用于根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值;
更新单元,用于根据所述奖励函数值更新所述当前行为对应的值函数,以便所述第i个代理根据更新后的值函数选取下一个行为;
扰动单元,用于对所述当前解的所有维度加入不同扰动;
循环单元,用于循环执行所述在第i(i=1,2,...,N)个代理在第i(i=1,2,...,N)个单维变量的可采取行为集合中选取当前行为后,确定所述目标函数的当前解;根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值;根据所述奖励函数值更新所述当前行为对应的值函数,以便所述第i个代理根据更新后的值函数选取下一个行为;对所述当前解的所有维度加入不同扰动的步骤,直至循环次数达到预设次数,完成所述第i个单维变量的学习。
本发明还提供了一基于PID控制器的电气控制设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于PID控制器的电气控制方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于PID控制器的电气控制方法的步骤。
本发明所提供的基于PID控制器的电气控制方法,采用强化学习算法对PID控制器参数进行整定后,利用完成参数整定后的PID控制器对电气控制系统中的控制对象进行控制。所述电气控制系统由PID控制器与被控制电气系统组成。其中,采用强化学习算法对PID控制器进行参数整定时,首先对PID控制器的参数整定问题的目标函数中的N个单维变量进行离散化。然后,根据强化学习算法,采用N个代理分别对离散化后的N个单维变量进行学习,确定所述N个单位变量的目标值,从而确定所述目标函数的最优值,完成所述PID控制器的参数整定。本发明所提供的方法,基于强化学习算法对PID控制器的参数进行整定,并不依赖于种群,而是采用“反复试错”的思想,通过代理与未知环境的相互作用完成参数的整定,当未知环境变化即被控制系统动态时变时,强化学习算法可以在线优化PID控制器参数,对系统实行跟踪控制。本发明提高了PID控制器参数优化效率、收敛速度以及PID控制器的控制性能,同时便于实现,具有实用性;且强化学习算法具有一定的随机性,能够跳出局部最优。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于PID控制器的电气控制方法的第一种具体实施例的流程图;
图2为电气控制系统的结构示意图;
图3为GA算法、PSO算法与RL算法三种算法对应的系统的阶跃响应对比图;
图4为GA算法、PSO算法与RL算法三种算法分别优化10次的平均目标函数收敛结果对比图;
图5为每个代理对每个单维控制变量进行学习的方法流程图;
图6为本发明实施例提供的一种基于PID控制器的电气控制装置的结构框图。
具体实施方式
本发明的核心是提供一种基于PID控制器的电气控制方法、装置、设备以及计算机可读存储介质,提高了PID控制器参数优化效率、收敛速度以及PID控制器的控制性能。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的基于PID控制器的电气控制方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量;
由一个PID控制器与一个控制对象构成的电气控制系统如图2所示,其中C(s)为所述PID控制器的传递函数,G(s)为所述控制对象的传递函数,整个电气控制系统的输入和输出分别为r(t)和y(t),所述电气控制系统的输入信号作为控制对象输出信号的参考,他们之间的差值为所述PID控制器的跟踪误差e(t),所述PID控制器的输出u(t)为控制对象的输入。在控制过程中,给定输入信号,即参考信号和控制对象,所述PID控制器即可通过对跟踪误差进行处理,使控制对象的输出趋近输入信号,其具体的处理方法由如下的拉普拉斯传递函数表示:
其中,Kp、Ki和Kd分别为待定的比例、积分和微分参数。
环境状态由目标函数值量化表示。所述PID控制器参数整定问题的目标函数表达式如下所示:
其中,e(t)为所述PID控制器的跟踪误差;u(t)为所述PID控制器的输出;tu为所述电气控制系统的输出信号y(t)从稳态值的10%上升到90%所用的上升时间;为了避免大超条,目标函数中设置了一个超调惩罚项;ey(t)=y(t)-y(t-1)为超调惩罚项,当ey(t)≥0时,ω4=0;当ey(t)<0时,ω4≠0且ω4>>ω1;所述目标函数的待定参数包括第一权重ω1、第二权重ω2、第三权重ω3及第四权重ω4。
步骤S102:对所述N个单维变量进行离散化后,根据强化学习算法,采用N个代理分别对所述N个单维变量进行学习,确定所述N个单维变量的目标值;
假设待定参数X的维数为N,可表示为X=[x1,x2,…,xN]。强化学习算法采用N个代理,每个代理负责一个单维变量的优化,N个代理轮流对各自的单维变量进行一个学习步骤。将变量第i个单维的可行域离散化为Di(i=1,2,…,N)个格子,第i个代理可采取的行为集合为Ai={1,2,…,Di}。
步骤S103:根据所述N个单维变量的目标值,确定所述目标函数的最优值,完成所述PID控制器的参数整定;
将所述电气控制系统中的控制对象设为采用基于强化学习算法的PID控制器进行控制,输入信号为一个单位阶跃信号。
本实施例中选取PSO算法和GA算法与本实施例中基于强化学习算法的PID参数整定方法进行对比,三种算法优化相同系统中的PID控制器参数。强化学习算法的参数设置为:n=4,λ1=0.5,λ2=0.25,α=1,D=10。PSO算法的参数设置为:加速系数c1=c2=2,种群规模为100。GA算法的参数设置为:交叉和突变率分别为0.9和0.01,种群规模为100。目标函数包含的权重值设置为:ω1=0.999,ω2=0.001,ω3=2,ω4=100。
图3展示了三种算法对应的系统的阶跃响应,RL算法是本实施例中的强化学习算法。在0时刻,输入信号从0突变为1,从结果可看出,三种算法均可以消除系统响应中,输出信号达到稳态值1之前的振荡和超调。并且三种算法的表现接近,均在0.1秒内完成阶跃响应。RL算法与PSO对应的系统响应几乎重合,GA算法对应的系统响应在上升阶段略微迅速,但进入稳定值比另外两种算法略慢。图4展示了三种算法分别优化10次的平均目标函数收敛结果。PSO和RL算法收敛到比GA算法更小的目标函数值,但RL算法的收敛速度比PSO提升了一倍。
步骤S104:利用完成参数整定后的PID控制器,对电气控制系统中的控制对象进行控制。
本实施例所提供的方法,针对PID控制器的参数整定问题,采用强化学习算法进行参数优化。强化学习算法能够避免遗传算法和粒子群算法中对种群的引入,而是引入了代理对目标函数进行优化,因此提高了优化过程中的收敛速度。同时,强化学习算法具有一定的随机性,能够跳出局部最优;便于实现,具有实用性。
基于上述实施例中的步骤S102,在本实施例中提供了每个代理对每个单维变量进行学习的步骤。请参考图5,图5为每个代理对每个单维控制变量进行学习的方法流程图,具体优化步骤包括:
S501:在第i(i=1,2,...,N)个代理在第i(i=1,2,...,N)个单维变量的可采取行为集合中选取当前行为后,确定所述目标函数的当前解;
环境状态由目标函数值量化表示。
S502:根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值;
环境反馈给代理一个奖励函数,用以表征代理是否采取了有利的行为,将环境转变为更好的状态。根据确定所述第i个代理的当前行为第k步的奖励函数值Rk;其中,Jk为所述目标函数的当前解;Jbest为所述目标函数的初始最优解。
S503:根据所述奖励函数值更新所述当前行为对应的值函数,以便所述第i个代理根据更新后的值函数选取下一个行为;
第i个代理的第j个行为对应的值函数为V(i,j)。代理根据奖励函数和路径值更新当前采取的行为对应的值函数。路径值是指第i个代理在变量的第i个维度上,从当前第j个格子选择继续向左或向右的路径搜索的价值,表示为Ll(i,j),l=1表示向左的路径,l=2表示向右的路径。向左和向右的路径值是由第j个格子的临近左侧和右侧的n个格子对应的值函数计算,其计算方法如下:
其中,为将临近的n个值函数降序排列后的第m个元素,λ1为值函数的权重,并满足
综上,所述值函数的更新规则如下:
Vk+1(i,j)=(1-α)Vk(i,j)+α[Rk+(1-λ2)Lmax(i,j)+λ2Lmin(i,j)]
其中,Vk(i,j)为所述对应的值函数;Ll(i,j)为路径值,l=1表示向左的路径,l=2表示向右的路径;λ1为所述值函数Vk(i,j)的权重;α为学习速率,用以表征新信息[Rk+(1-λ2)Lmax(i,j)+λ2Lmin(i,j)]对值函数的影响;Lmax(i,j)与Lmin(i,j)分别为最大与最小的两个路径值;λ2为所述最大与最小的路径值的权重,(1-λ2)>λ2。
代理根据更新后的值函数选择下一个行为。此前,代理需要首先选择一个路径,其选择方法如下:
其中,τk为温度,取值范围为0≤τk≤1。当τk数值较大,剩余非最有利行为被选择的概率接近;当τk数值接近0,这些行为被选择的概率会根据值函数大小的区别而不同。τk的数值随学习次数逐渐减小,即:
随后,代理在选定的路径上,从第j个格子出发,在临近的n个格子中选择一个行为,其选择方法如下:
而下一个单维变量的数值从选定的格子中随机确定。
S504:对所述当前解的所有维度加入不同扰动;
为了增加解的多样性,同时也为了避免算法陷入局部最优,算法在第N个代理完成一个学习步骤后,对当前解的所有维度加入不同的扰动,具体做法如下:
X←X+Δ,Δ=[Δ1,Δ2,…,ΔN]
其中,扰动量Δ根据协方差进化算法产生。
S505:循环执行所述S501至所述S504,直至循环次数达到预设次数,完成所述第i个单维变量的学习。
重复所述步骤S501所述S504,每当所述第i个代理完成一个学习过程后,计数器k加1。当k达到预设的阈值kmax时,算法终止。
本实施例中提供了一种基于强化学习算法的PID控制器参数整定方法,该方法不依赖于种群,而是采用“反复试错”的思想,通过代理与未知环境的相互作用完成参数的整定,当未知环境变化即被控制系统动态时变时,强化学习方法算法在线优化PID参数,对系统实行跟踪控制。
请参考图6,图6为本发明实施例提供的一种基于PID控制器的电气控制装置的结构框图;具体装置可以包括:
构建模块100,用于构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量;
强化学习模块200,用于对所述N个单维变量进行离散化后,根据强化学习算法,采用N个代理分别对所述N个单维变量进行学习,确定所述N个单维变量的目标值;
整定模块300,用于根据所述N个单维变量的目标值,确定所述目标函数的最优值,完成所述PID控制器的参数整定;
电气控制模块400,用于利用完成参数整定后的PID控制器,对电气控制系统中的控制对象进行控制。
本实施例的基于PID控制器的电气控制装置用于实现前述的基于PID控制器的电气控制方法,因此基于PID控制器的电气控制装置中的具体实施方式可见前文中的基于PID控制器的电气控制方法的实施例部分,例如,构建模块100,强化学习模块200,整定模块300,电气控制模块400,分别用于实现上述基于PID控制器的电气控制方法中步骤S101,S102,S103和S104,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种基于PID控制器的电气控制设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于PID控制器的电气控制方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于PID控制器的电气控制方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的基于PID控制器的电气控制方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种基于PID控制器的电气控制方法,其特征在于,包括:
构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量;
对所述N个单维变量进行离散化后,根据强化学习算法,采用N个代理分别对所述N个单维变量进行学习,确定所述N个单维变量的目标值;
根据所述N个单维变量的目标值,确定所述目标函数的最优值,完成所述PID控制器的参数整定;
利用完成参数整定后的PID控制器,对电气控制系统中的控制对象进行控制。
2.如权利要求1所述的方法,其特征在于,所述构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量包括:
构建PID控制器参数整定问题的目标函数:
其中,e(t)为所述PID控制器的跟踪误差;u(t)为所述PID控制器的输出;tu为所述电气控制系统的输出信号y(t)从稳态值的10%上升到90%所用的上升时间;ey(t)=y(t)-y(t-1)为超调惩罚项,当ey(t)≥0时,ω4=0;当ey(t)<0时,ω4≠0且ω4>>ω1;所述目标函数的待定参数包括第一权重ω1、第二权重ω2、第三权重ω3及第四权重ω4。
3.如权利要求2所述的方法,其特征在于,每个代理对每个单维变量进行学习的步骤包括:
S1:在第i(i=1,2,...,N)个代理在第i(i=1,2,...,N)个单维变量的可采取行为集合中选取当前行为后,确定所述目标函数的当前解;
S2:根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值;
S3:根据所述奖励函数值更新所述当前行为对应的值函数,以便所述第i个代理根据更新后的值函数选取下一个行为;
S4:对所述当前解的所有维度加入不同扰动;
S5:循环执行所述S1至所述S4,直至循环次数达到预设次数,完成所述第i个单维变量的学习。
4.如权利要求3所述的方法,其特征在于,所述根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值包括:
根据确定所述第i个代理的当前行为第k步的奖励函数值Rk;其中,Jk为所述目标函数的当前解;Jbest为所述目标函数的初始最优解。
5.如权利要求4所述的方法,其特征在于,所述根据所述奖励函数值更新所述当前行为对应的值函数包括:
根据Vk+1(i,j)=(1-α)Vk(i,j)+α[Rk+(1-λ2)Lmax(i,j)+λ2Lmin(i,j)]对所述当前行为对应的值函数进行更新;
其中,Vk(i,j)为所述对应的值函数;Ll(i,j)为路径值,l=1表示向左的路径,l=2表示向右的路径;λ1为所述值函数Vk(i,j)的权重;α为学习速率;Lmax(i,j)与Lmin(i,j)分别为最大与最小的两个路径值;λ2为所述最大与最小的路径值的权重,(1-λ2)>λ2。
6.一种基于PID控制器的电气控制装置,其特征在于,包括:
构建模块,用于构建PID控制器参数整定问题的目标函数,其中,所述目标函数的待定参数包括N个单维变量;
强化学习模块,用于对所述N个单维变量进行离散化后,根据强化学习算法,采用N个代理分别对所述N个单维变量进行学习,确定所述N个单维变量的目标值;
整定模块,用于根据所述N个单维变量的目标值,确定所述目标函数的最优值,完成所述PID控制器的参数整定;
电气控制模块,用于利用完成参数整定后的PID控制器,对电气控制系统中的控制对象进行控制。
7.如权利要求6所述的装置,其特征在于,所述构建模块具体用于:
构建PID控制器参数整定问题的目标函数:
其中,e(t)为所述PID控制器的跟踪误差;u(t)为所述PID控制器的输出;tu为所述电气控制系统的输出信号y(t)从稳态值的10%上升到90%所用的上升时间;ey(t)=y(t)-y(t-1)为超调惩罚项,当ey(t)≥0时,ω4=0;当ey(t)<0时,ω4≠0且ω4>>ω1;所述目标函数的待定参数包括第一权重ω1、第二权重ω2、第三权重ω3及第四权重ω4。
8.如权利要求7所述的装置,其特征在于,所述强化学习模块包括:
选取单元,用于在第i(i=1,2,...,N)个代理在第i(i=1,2,...,N)个单维变量的可采取行为集合中选取当前行为后,确定所述目标函数的当前解;
确定单元,用于根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值;
更新单元,用于根据所述奖励函数值更新所述当前行为对应的值函数,以便所述第i个代理根据更新后的值函数选取下一个行为;
扰动单元,用于对所述当前解的所有维度加入不同扰动;
循环单元,用于循环执行所述在第i(i=1,2,...,N)个代理在第i(i=1,2,...,N)个单维变量的可采取行为集合中选取当前行为后,确定所述目标函数的当前解;根据预设奖励函数的计算规则与所述目标函数的当前解,确定所述当前行为对应的奖励函数值;根据所述奖励函数值更新所述当前行为对应的值函数,以便所述第i个代理根据更新后的值函数选取下一个行为;对所述当前解的所有维度加入不同扰动的步骤,直至循环次数达到预设次数,完成所述第i个单维变量的学习。
9.一种基于PID控制器的电气控制设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述一种基于PID控制器的电气控制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种基于PID控制器的电气控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722233.5A CN110320796A (zh) | 2019-08-06 | 2019-08-06 | 一种基于pid控制器的电气控制方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722233.5A CN110320796A (zh) | 2019-08-06 | 2019-08-06 | 一种基于pid控制器的电气控制方法、装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110320796A true CN110320796A (zh) | 2019-10-11 |
Family
ID=68125626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910722233.5A Pending CN110320796A (zh) | 2019-08-06 | 2019-08-06 | 一种基于pid控制器的电气控制方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110320796A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118011783A (zh) * | 2024-04-09 | 2024-05-10 | 天津仁爱学院 | 一种基于改进桶水母算法的建筑环境pid控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200096A (zh) * | 2014-08-29 | 2014-12-10 | 中国南方电网有限责任公司超高压输电公司昆明局 | 基于微分进化算法和bp神经网络的避雷器均压环优化法 |
CN105911868A (zh) * | 2016-06-15 | 2016-08-31 | 南京工业大学 | 多批次间歇反应器二维迭代学习反馈控制方法 |
CN106896716A (zh) * | 2017-04-17 | 2017-06-27 | 华北电力大学(保定) | 基于灰狼算法的微电网交直流断面换流器pid参数优化方法 |
EP3357651A2 (en) * | 2017-02-06 | 2018-08-08 | Seiko Epson Corporation | Control device, robot, and robot system |
-
2019
- 2019-08-06 CN CN201910722233.5A patent/CN110320796A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200096A (zh) * | 2014-08-29 | 2014-12-10 | 中国南方电网有限责任公司超高压输电公司昆明局 | 基于微分进化算法和bp神经网络的避雷器均压环优化法 |
CN105911868A (zh) * | 2016-06-15 | 2016-08-31 | 南京工业大学 | 多批次间歇反应器二维迭代学习反馈控制方法 |
EP3357651A2 (en) * | 2017-02-06 | 2018-08-08 | Seiko Epson Corporation | Control device, robot, and robot system |
CN106896716A (zh) * | 2017-04-17 | 2017-06-27 | 华北电力大学(保定) | 基于灰狼算法的微电网交直流断面换流器pid参数优化方法 |
Non-Patent Citations (1)
Title |
---|
X. Y. SHANG ET. AL.: "Parameter Optimization of PID Controllers by Reinforcement Learning", 《5TH COMPUTER SCIENCE AND ELECTRONIC ENGINEERING CONFERENCE (CEEC)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118011783A (zh) * | 2024-04-09 | 2024-05-10 | 天津仁爱学院 | 一种基于改进桶水母算法的建筑环境pid控制方法 |
CN118011783B (zh) * | 2024-04-09 | 2024-06-04 | 天津仁爱学院 | 一种基于改进桶水母算法的建筑环境pid控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Devaraj et al. | Real-coded genetic algorithm and fuzzy logic approach for real-time tuning of proportional–integral–derivative controller in automatic voltage regulator system | |
Bagis | Tabu search algorithm based PID controller tuning for desired system specifications | |
Jacknoon et al. | Ant Colony based LQR and PID tuned parameters for controlling Inverted Pendulum | |
CN113919217B (zh) | 自抗扰控制器自适应参数整定方法及装置 | |
CN109325580A (zh) | 一种用于服务组合全局优化的自适应布谷鸟搜索方法 | |
Wang et al. | A boosting-based deep neural networks algorithm for reinforcement learning | |
CN115293052A (zh) | 电力系统有功潮流在线优化控制方法、存储介质和装置 | |
Hein et al. | Generating interpretable fuzzy controllers using particle swarm optimization and genetic programming | |
George et al. | An Effective Technique for Tuning the Time Delay System with PID Controller-Ant Lion Optimizer Algorithm with ANN Technique. | |
Cheng et al. | PID controller parameters optimization based on artificial fish swarm algorithm | |
Serra et al. | Multiobjective evolution based fuzzy PI controller design for nonlinear systems | |
CN110320796A (zh) | 一种基于pid控制器的电气控制方法、装置以及设备 | |
Ikemoto et al. | Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems | |
Jalilvand et al. | Advanced particle swarm optimization-based PID controller parameters tuning | |
El-Nagar | Practical implementation for stable adaptive interval A2-C0 type-2 TSK fuzzy controller | |
Nahrendra et al. | Adaptive control of cyber-physical distillation column using data driven control approach | |
CN116880191A (zh) | 一种基于时序预测的过程工业生产系统的智能控制方法 | |
Marseguerra et al. | Genetic algorithm optimization of a model-free fuzzy control system | |
Lian et al. | Performance enhancement for T–S fuzzy control using neural networks | |
Wang | Automatic design of fuzzy controllers | |
CN113485099B (zh) | 一种非线性离散时间系统的在线学习控制方法 | |
Fairbank et al. | A comparison of learning speed and ability to cope without exploration between DHP and TD (0) | |
Nakano et al. | Consideration of particle swarm optimization combined with tabu search | |
Masoumzadeh et al. | Deep blue: A fuzzy q-learning enhanced active queue management scheme | |
Li et al. | A DDPG-based solution for optimal consensus of continuous-time linear multi-agent systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191011 |
|
WD01 | Invention patent application deemed withdrawn after publication |