RU2527212C1 - Modified intelligent controller - Google Patents
Modified intelligent controller Download PDFInfo
- Publication number
- RU2527212C1 RU2527212C1 RU2013111106/08A RU2013111106A RU2527212C1 RU 2527212 C1 RU2527212 C1 RU 2527212C1 RU 2013111106/08 A RU2013111106/08 A RU 2013111106/08A RU 2013111106 A RU2013111106 A RU 2013111106A RU 2527212 C1 RU2527212 C1 RU 2527212C1
- Authority
- RU
- Russia
- Prior art keywords
- block
- kalman filter
- action
- input
- output
- Prior art date
Links
Landscapes
- Feedback Control In General (AREA)
Abstract
Description
Изобретение относится к классу интеллектуальных контроллеров, использующих принцип обучения с подкреплением, фильтр Калмана, и может использоваться для создания систем управления объектами, работающими в недетерминированной среде.The invention relates to the class of intelligent controllers that use the principle of reinforcement learning, the Kalman filter, and can be used to create control systems for objects operating in a non-deterministic environment.
Известен патент США, МПК G06F 15/18 6532454 «Stable adaptive control using critic designs», который реализует обучение с подкреплением с использованием нейронных сетей. Устройство по данному патенту состоит из решателя, моделирующей нейронной сети, блока критики, а также блока вычисления ошибки прогнозирования и связей между блоками.Known US patent, IPC G06F 15/18 6532454 "Stable adaptive control using critic designs", which implements reinforced learning using neural networks. The device according to this patent consists of a solver simulating a neural network, a block of criticism, and also a block for calculating forecast errors and connections between blocks.
Принцип работы устройства по патенту США, МПК G06F 15/18 6532454 следующий - решатель (в его качестве выступает нейронная сеть) получает значение подкрепления, вычисляет действие на данной итерации и передает его на моделирующую нейронную сеть, которая вычисляет прогнозное значение рабочего параметра системы. После выполнения действия система получает реальное значение рабочего параметра, критик вычисляет новое значение подкрепления и корректируется работа моделирующей нейронной сети.The principle of operation of the device according to the US patent, IPC G06F 15/18 6532454 is as follows - the solver (the neural network acts as it) receives the reinforcement value, calculates the action at this iteration and passes it to the modeling neural network, which calculates the predicted value of the system operating parameter. After the action is completed, the system receives the real value of the working parameter, the critic calculates the new reinforcement value and corrects the operation of the modeling neural network.
Недостатками устройств по патенту МПК G06F 15/18 6532454 является то, что в них не запоминается история работы системы и критик работает по первоначально настроенным параметрам.The disadvantages of the devices according to the patent of IPC G06F 15/18 6532454 are that they do not remember the history of the system and the critic works according to the initially configured parameters.
Известен также модифицированный интеллектуальный контроллер на базе фильтра Калмана с использованием принципа обучения с подкреплением - патент МПК G06F 15/18 2458390. Данное устройство состоит из объекта управления, решателя, блока расчета подкрепления, блока действий, блока выбора действий, фильтра Калмана и памяти фильтра Калмана. Выходы объекта управления связаны с решателем, блоком расчета подкрепления и блоком действий, выходы блока действий связаны с решателем, фильтром Калмана и блоком выбора действий, блок расчета подкрепления связан с блоком действий и фильтром Калмана, фильтр Калмана соединен с памятью фильтра Калмана и блоком выбора действий;Also known is a modified intelligent controller based on the Kalman filter using the reinforcement learning principle - IPC patent G06F 15/18 2458390. This device consists of a control object, a solver, a reinforcement calculation block, an action block, an action selection block, a Kalman filter and a Kalman filter memory . The outputs of the control object are connected to the solver, the reinforcement calculation block and the action block, the outputs of the action block are connected to the solver, the Kalman filter and the action selection block, the reinforcement calculation block is connected to the action block and the Kalman filter, the Kalman filter is connected to the Kalman filter memory and the action selection block ;
память фильтра Калмана соединена с фильтром Калмана, а выходы блока выбора действий соединены с объектом управления, памятью фильтра Калмана и блоком действий.the Kalman filter memory is connected to the Kalman filter, and the outputs of the action selection block are connected to the control object, Kalman filter memory and the action block.
Принцип работы устройства по патенту МПК G06F 15/18 2458390 следующий - решатель вычисляет наблюдаемый параметр системы, блок действий выбирает возможные действия в данной ситуации, фильтр Калмана последовательно рассчитывает прогноз подкрепления при совершении отобранных действий, блок выбора действий выбирает конкретное действие, основываясь на расчетах фильтра Калмана, и подает его на объект управления. Выбранное действие и получившееся подкрепление заносятся в блок действий.The principle of operation of the device according to the IPC patent G06F 15/18 2458390 is as follows - the solver calculates the observed parameter of the system, the action block selects the possible actions in this situation, the Kalman filter sequentially calculates the reinforcement forecast when performing the selected actions, the action selection block selects a specific action based on the filter calculations Kalman, and feeds it to the control object. The selected action and the resulting reinforcement are entered in the action block.
Недостатками устройств по патенту МПК G06F 15/18 2458390 являются - невозможность изменения формул фильтра Калмана в режиме реального времени при изменении поведения окружающей среды.The disadvantages of the devices according to the patent of IPC G06F 15/18 2458390 are the inability to change the formulas of the Kalman filter in real time when changing environmental behavior.
Задача - разработка модифицированного интеллектуального контроллера с высокими скоростными и адаптационными характеристиками быстродействия.The task is to develop a modified intelligent controller with high speed and adaptive performance characteristics.
Техническим результатом предлагаемого устройства является повышение скоростных и адаптационных параметров работы.The technical result of the proposed device is to increase the speed and adaptive parameters.
Технический результат достигается тем, что в модифицированном интеллектуальном контроллере, содержащем объект управления, решатель, блок расчета подкрепления, блок действий, фильтр Калмана, память фильтра Калмана, блок выбора действий, первый выход объекта управления связан с входом решателя, выход решателя связан с первым входом фильтра Калмана, второй выход блока расчета подкрепления связан с вторым входом фильтра Калмана, первый выход фильтра Калмана связан с вторым входом блока выбора действий, второй выход фильтра Калмана связан с первым входом памяти фильтра Калмана, первый выход блока выбора действий связан с входом объекта управления, второй выход блока выбора действий связан с вторым входом памяти фильтра Калмана, первый выход памяти фильтра Калмана связан с четвертым входом фильтра Калмана, при этом в него введены блок отбора действий, блок корректировки фильтра Калмана и блок занесения действий, при этом первый выход объекта управления также связан с первым входом блока отбора действий, второй выход объекта управления связан с входом блока расчета подкрепления, первый выход блока отбора действий связан с первым входом блока действий, второй выход блока отбора действий связан с первым входом блока выбора действий и третьим входом фильтра Калмана, выход блока действий связан со вторым входом блока отбора действий, первый выход блока расчета подкрепления связан с первым входом блока занесения действий, второй выход блока расчета подкрепления также связан с первым входом блока корректировки фильтра Калмана, выход блока корректировки фильтра Калмана связан с пятым входом фильтра Калмана, третий выход фильтра Калмана связан со вторым входом блока корректировки фильтра Калмана, первый выход блока выбора действий также связан со вторым входом блока занесения действий, выход блока занесения действий связан со вторым входом блока действий.The technical result is achieved by the fact that in a modified intelligent controller containing a control object, a solver, a reinforcement calculation unit, an action block, a Kalman filter, a Kalman filter memory, an action selection block, the first output of the control object is connected to the input of the solver, the output of the solver is connected to the first input Kalman filter, the second output of the reinforcement calculation block is connected to the second input of the Kalman filter, the first output of the Kalman filter is connected to the second input of the action selection block, the second output of the Kalman filter is connected to the first input of the Kalman filter memory, the first output of the action selection block is connected to the input of the control object, the second output of the action selection block is connected to the second input of the Kalman filter memory, the first output of the Kalman filter memory is connected to the fourth input of the Kalman filter, and an action selection block is introduced into it , a Kalman filter adjustment block and an action recording block, while the first output of the control object is also connected to the first input of the action selection block, the second output of the control object is connected to the input of the calculation block the first output of the action selection block is connected to the first input of the action block, the second output of the action selection block is connected to the first input of the action selection block and the third input of the Kalman filter, the output of the action block is connected to the second input of the action selection block, the first output of the reinforcement calculation block is connected with the first input of the action input block, the second output of the reinforcement calculation block is also connected to the first input of the Kalman filter correction block, the output of the Kalman filter correction block is connected to the fifth Kalman filter input, t the Kalman filter output is connected to the second input of the Kalman filter adjustment block, the first output of the action selection block is also connected to the second input of the action recording block, the output of the action recording block is connected to the second input of the action block.
Повышение адаптационных параметров работы устройства достигается за счет того, что в устройство введен блок корректировки фильтра Калмана. Выделение из блока действий блока отбора действий и блока занесения действий повышает скоростные характеристики работы устройства.Increasing the adaptive parameters of the device is achieved due to the fact that the Kalman filter adjustment block is introduced into the device. Separation from the block of actions of the block of selection of actions and block recording actions increases the speed characteristics of the device.
Таким образом, совокупность существующих признаков, изложенных в формуле изобретения, позволяет достичь желаемый технический результат.Thus, the totality of the existing features set forth in the claims, allows to achieve the desired technical result.
На фиг.1 изображена схема модифицированного интеллектуального контроллера с фильтром Калмана.Figure 1 shows a diagram of a modified intelligent controller with a Kalman filter.
Система состоит из нескольких структурных компонент: объекта управления 1, блока отбора действий 2, решателя 3, блока расчета подкрепления 4, блока занесения действий 5, блока действий 6, блока корректировки фильтра Калмана 7, фильтра Калмана 8, памяти фильтра Калмана 9 и блока выбора действий 10.The system consists of several structural components: control object 1, action selection block 2, solver 3, reinforcement calculation block 4, action record block 5, action block 6, Kalman filter correction block 7, Kalman filter 8, Kalman filter memory 9 and selection block action 10.
Также в системе присутствуют следующие связи: объект управления соединен с решателем по связи 11, с блоком отбора действий по связи 12 и с блоком расчета подкрепления по 13, от блока отбора действий идет связь 14 на фильтр Калмана и 15 на блок выбора действий и связь 16 на блок действий. От блока действий идет связь 17 на блок отбора действий. От блока расчета подкрепления идут связи 18 на блок занесения действий, 19 на блок корректировки фильтра Калмана и 20 на фильтр Калмана. От фильтра Калмана идет связь на блок корректировки фильтра Калмана 21 и от блока корректировки фильтра Калмана идет связь 22 на фильтр Калмана. Решатель и фильтр Калмана соединены по 23. От фильтра Калмана идет связь 14 на блок выбора действий. От памяти фильтра Калмана идет связь 25 на фильтр Калмана и от фильтра Калмана идет связь 26 на память фильтра Калмана. Блок выбора действий соединен с памятью фильтра Калмана по связи 27. От блока выбора действий идут связи 28 на объект управления и 29 на блок занесения действий. Блок занесения действий соединен связью 30 с блоком действий.The following connections are also present in the system: the control object is connected to the solver via communication 11, with the action selection unit for communication 12 and with the reinforcement calculation unit for 13, from the action selection unit there is a connection 14 to the Kalman filter and 15 to the action selection unit and communication 16 to the action block. From the action block there is a connection 17 to the action selection block. From the unit for calculating reinforcements, there are links 18 to the block for entering actions, 19 to the block for adjusting the Kalman filter and 20 to the Kalman filter. From the Kalman filter there is a connection to the Kalman filter adjustment block 21 and from the Kalman filter adjustment block there is a connection 22 to the Kalman filter. The solver and the Kalman filter are connected at 23. From the Kalman filter there is a connection 14 to the action selection block. From the memory of the Kalman filter there is a connection 25 to the Kalman filter and from the Kalman filter there is a connection 26 to the memory of the Kalman filter. The action selection block is connected to the Kalman filter memory via communication 27. From the action selection block, communications 28 go to the control object and 29 to the action recording block. The action recording block is connected by a connection 30 to the action block.
Блок отбора действий 2 предназначен для отбора всех возможных действий в данной ситуации с учетом минимального накопленного подкрепления для возможного действияThe action selection block 2 is designed to select all possible actions in a given situation, taking into account the minimum accumulated reinforcement for a possible action
Решатель 3 - это устройство, которое реализует математическую формулу (или несколько формул), описывающую те переменные объекта управления, которые можно непосредственно вычислить.Solver 3 is a device that implements a mathematical formula (or several formulas) that describes those variables of the control object that can be directly calculated.
Блок расчета подкрепления 4 реализует математическую формулу, рассчитывающую реальное значение подкрепления, после того как сигнал действия (управления) отработан объектом управления 1.The reinforcement calculation unit 4 implements a mathematical formula that calculates the real value of the reinforcement after the action (control) signal is worked out by the control object 1.
Блок занесения действий 5 предназначен для внесения корректировок в блок действий. Данный блок обновляет значение накопленного подкрепления в ячейке выбранного действия на предыдущей итерации после отработки действия объектом управления.Block entry actions 5 is intended to make adjustments to the block actions. This block updates the value of the accumulated reinforcement in the cell of the selected action at the previous iteration after the action is processed by the control object.
Блок действий 6 хранит таблицу возможных действий в конкретных ситуациях и накопленное подкрепление для пар ситуация - действие.Action block 6 stores a table of possible actions in specific situations and accumulated reinforcement for situation-action pairs.
Блок корректировки фильтра Калмана 7 предназначен для изменения структуры формул фильтра Калмана в случае, если окружающая среда сильно изменилась и текущие настройки фильтра Калмана не позволяют предсказывать подкрепление с достаточной точностью.The Kalman filter correction block 7 is designed to change the structure of the Kalman filter formulas in the event that the environment has changed significantly and the current Kalman filter settings do not allow prediction of reinforcement with sufficient accuracy.
Фильтр Калмана 8 предназначен для вычисления ненаблюдаемой величины. Фильтр Калмана выполняется в стандартном исполнении, например, по патенту США МПК G06F 15/20 №5115391.The Kalman filter 8 is designed to calculate an unobservable quantity. The Kalman filter is performed as standard, for example, according to US patent IPC G06F 15/20 No. 5115391.
Память фильтра Калмана 9 предназначена для временного хранения параметров блока фильтра Калмана 8. Блок хранит столько наборов параметров фильтра Калмана, сколько выбрано возможных действий в блоке действий 6.The memory of the Kalman filter 9 is intended for temporary storage of parameters of the Kalman filter block 8. The block stores as many sets of Kalman filter parameters as possible actions are selected in the action block 6.
Блок выбора действий 10 предназначен для выбора действия из возможных в данной ситуации на базе "жадного правила".The action selection block 10 is designed to select an action from those possible in this situation based on the "greedy rule".
Принцип работы интеллектуального контроллера следующий. Объект управления 1 выполняет действие и формирует на выходе сигнал состояния (в общем случае - вектор). Далее сигнал состояния поступает по связи 11 на решатель 3 и по связи 12 блок отбора действий 2. Блок отбора действий 2, получая сигнал состояния объекта, управления посылает запрос по связи 16 в блок действий 6 о возможных действиях в данной ситуации, указывая минимальное накопленное подкрепление, с которым можно выбирать действие (минимально накопленное подкрепление указывается разработчиком). Блок действий 6 в ответ формирует список возможных действий в данной ситуации и последовательно по связи 17 посылает их на блок отбора действий 2, который в свою очередь отправляет их на фильтр Калмана 8 по 14. Решатель 3, получив сигнал от объекта управления, рассчитывает наблюдаемый сигнал 23, который идет на фильтр Калмана 8.The principle of operation of the intelligent controller is as follows. The control object 1 performs an action and generates a status signal (in the general case, a vector) at the output. Next, the status signal is transmitted through communication 11 to solver 3 and through communication 12, the action selection block 2. The action selection block 2, receiving the object status signal, sends a request via communication 16 to action block 6 about possible actions in this situation, indicating the minimum accumulated reinforcement , with which you can choose an action (the minimum accumulated reinforcement is indicated by the developer). The action block 6 in response generates a list of possible actions in this situation and sends them sequentially through communication 17 to the action selection block 2, which in turn sends them to the Kalman filter 8 through 14. Solver 3, receiving a signal from the control object, calculates the observed signal 23, which goes to the Kalman filter 8.
Фильтр Калмана 8, получая возможное действие от блока отбора действий 2 и наблюдаемый сигнал 23 от решателя 3, рассчитывает возможное подкрепление для каждого возможного действия. При этом фильтр Калмана получая новое значение возможного действия, записывает в память фильтра Калмана 9 свои параметры по связи 26 и восстанавливает предыдущие по 25 (на начало текущего цикла управления). После расчета подкрепления для каждого возможного действия, фильтр Калмана 8 передает значение подкрепления по 24 на блок выбора действий 10, который также получает возможные действия по 15 от блока отбора действий 2. Блок выбора действий 10, на базе «жадного правила», которое можно записать как: с вероятностью (1 - s) выбирается то действие, которому соответствует максимальное значение подкрепления
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013111106/08A RU2527212C1 (en) | 2013-03-12 | 2013-03-12 | Modified intelligent controller |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013111106/08A RU2527212C1 (en) | 2013-03-12 | 2013-03-12 | Modified intelligent controller |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2527212C1 true RU2527212C1 (en) | 2014-08-27 |
Family
ID=51456408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013111106/08A RU2527212C1 (en) | 2013-03-12 | 2013-03-12 | Modified intelligent controller |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2527212C1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532454B1 (en) * | 1998-09-24 | 2003-03-11 | Paul J. Werbos | Stable adaptive control using critic designs |
US6676307B1 (en) * | 2000-06-14 | 2004-01-13 | Ciena Corporation | Method and system for controlling splice attenuation |
US6882992B1 (en) * | 1999-09-02 | 2005-04-19 | Paul J. Werbos | Neural networks for intelligent control |
US7323036B2 (en) * | 2004-08-27 | 2008-01-29 | Alstom Technology Ltd | Maximizing regulatory credits in controlling air pollution |
US7810133B2 (en) * | 2002-08-23 | 2010-10-05 | Exit-Cube, Inc. | Encrypting operating system |
RU2458390C1 (en) * | 2011-04-05 | 2012-08-10 | Государственное образовательное учреждение высшего профессионального образования "Кубанский государственный технологический университет" (ГОУ ВПО "КубГТУ") | Modified intelligent controller |
-
2013
- 2013-03-12 RU RU2013111106/08A patent/RU2527212C1/en not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6532454B1 (en) * | 1998-09-24 | 2003-03-11 | Paul J. Werbos | Stable adaptive control using critic designs |
US6882992B1 (en) * | 1999-09-02 | 2005-04-19 | Paul J. Werbos | Neural networks for intelligent control |
US6676307B1 (en) * | 2000-06-14 | 2004-01-13 | Ciena Corporation | Method and system for controlling splice attenuation |
US7810133B2 (en) * | 2002-08-23 | 2010-10-05 | Exit-Cube, Inc. | Encrypting operating system |
US7323036B2 (en) * | 2004-08-27 | 2008-01-29 | Alstom Technology Ltd | Maximizing regulatory credits in controlling air pollution |
RU2458390C1 (en) * | 2011-04-05 | 2012-08-10 | Государственное образовательное учреждение высшего профессионального образования "Кубанский государственный технологический университет" (ГОУ ВПО "КубГТУ") | Modified intelligent controller |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109062041A (en) | The control method of T-S FUZZY NETWORK system based on event triggering | |
Tsoukalas et al. | Multiobjective optimisation on a budget: Exploring surrogate modelling for robust multi-reservoir rules generation under hydrological uncertainty | |
EP3872432A1 (en) | Method, apparatus and electronic device for constructing reinforcement learning model | |
WO2017213857A1 (en) | System for iteratively training an artificial intelligence using cloud-based metrics | |
CN103996073B (en) | Light-metering network real time correction self study arma modeling photovoltaic power Forecasting Methodology | |
CN110244619B (en) | Rocker calibration method and device and remote control device | |
EP3200038A1 (en) | Model evaluation device, model evaluation method, and program recording medium | |
Huang et al. | Event-triggered adaptive control of a class of nonlinear systems | |
CN104239194A (en) | Task completion time prediction method based on BP (Back Propagation) neural network | |
US10048658B2 (en) | Information processing device, predictive control method, and recording medium | |
CN110481536A (en) | A kind of control method and equipment applied to hybrid vehicle | |
CN102713859A (en) | System and method for maximising thermal efficiency of power plant | |
CN103761420A (en) | Evaluation method for stepwise regression of thermal power equipment performances | |
CN103106331B (en) | Based on the lithographic line width Intelligent Forecasting of dimensionality reduction and increment type extreme learning machine | |
CN103970020A (en) | Mobile robot system and coordination control method of mobile robot system in hybrid interaction environment | |
JP2019520642A (en) | Control objective function integration system, control objective function integration method, and control objective function integration program | |
JP6086875B2 (en) | Power generation amount prediction device and power generation amount prediction method | |
CN110308658A (en) | A kind of pid parameter setting method, device, system and readable storage medium storing program for executing | |
CN103984986A (en) | Method for correcting wind power ultra-short-period prediction of self-learning ARMA model in real time | |
CN110851911B (en) | Terminal state calculation model training method, control sequence searching method and device | |
RU2527212C1 (en) | Modified intelligent controller | |
CN111930602B (en) | Performance index prediction method and device | |
RU2458390C1 (en) | Modified intelligent controller | |
Mahdavi et al. | Prediction of oil production with: data mining, neuro-fuzzy and linear Regression | |
CN115542736B (en) | Device control method, computer-readable storage medium, and computer terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20150313 |