JP2021034050A - Auv action plan and operation control method based on reinforcement learning - Google Patents
Auv action plan and operation control method based on reinforcement learning Download PDFInfo
- Publication number
- JP2021034050A JP2021034050A JP2020139299A JP2020139299A JP2021034050A JP 2021034050 A JP2021034050 A JP 2021034050A JP 2020139299 A JP2020139299 A JP 2020139299A JP 2020139299 A JP2020139299 A JP 2020139299A JP 2021034050 A JP2021034050 A JP 2021034050A
- Authority
- JP
- Japan
- Prior art keywords
- auv
- reward
- target
- wall
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000002787 reinforcement Effects 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 230000007613 environmental effect Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 51
- 230000033001 locomotion Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 34
- 230000010391 action planning Effects 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000013459 approach Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 9
- 230000009189 diving Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 239000012530 fluid Substances 0.000 description 3
- 238000003973 irrigation Methods 0.000 description 3
- 230000002262 irrigation Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
Description
本発明は、水中ロボットの技術分野に属し、具体的には、AUV行動計画及び動作制御方法に関する。 The present invention belongs to the technical field of underwater robots, and specifically relates to AUV action planning and motion control methods.
21世紀は海洋の利用が進まれている世紀であり、海洋産業への取り組みは世界各国により認められている。中国も重要な海洋戦略を発表・実施しており、現在、中国が高速発展段階であって、土地資源が限られている人口の多い国であるため、海洋資源は持続可能な開発を支える重要な資源貯蔵空間となっている。海洋資源の開発及び探査は、海洋戦略を実施するための重要な前提及び基盤といえ、主要な水中技術及び機器として、自律型無人潜水機(Autonomous Underwater Vehicle、AUV)は、海洋の民間用、軍事用や科学などの研究分野において、実用的で効果的な開発ツールとなっており、海洋の開発及び探査の重要な手段である。自律型無人潜水機の応用及び技術の研究開発・アップグレードは将来注目を集めると予測でき、世界の国々が海洋分野で主導的な地位を取得するための重要な手段となる。AUVの研究には、さまざまなハイエンド技術の適用が必要であり、ナビゲーション・測位、水中ターゲット検出、通信技術、インテリジェント制御、シミュレーション技術、エネルギーシステム技術や計画技術など、多くの技術が含まれる。 The 21st century is a century in which the use of the ocean is advancing, and efforts in the marine industry are recognized by countries around the world. China has also announced and implemented an important maritime strategy, and since China is currently in a fast-developing stage and has a large population with limited land resources, marine resources are important to support sustainable development. It is a resource storage space. The development and exploration of marine resources is an important premise and foundation for implementing marine strategies, and as a major underwater technology and equipment, the Autonomous Underwater Vehicle (AUV) is for civilian use in the ocean. It has become a practical and effective development tool in research fields such as military and science, and is an important means of marine development and exploration. The application of autonomous underwater vehicles and the research and development / upgrade of technology can be expected to attract attention in the future, and will be an important means for countries around the world to gain a leading position in the marine field. AUV research requires the application of various high-end technologies, including many technologies such as navigation / positioning, underwater target detection, communication technology, intelligent control, simulation technology, energy system technology and planning technology.
計画及び制御技術は、AUVインテリジェント化を実現するための重要な要素の1つであり、AUVが自律的な決定を行い、作業タスクを完了するための前提及び基盤である。水中環境は複雑で動的であり、構造化されておらず、不確実であるので、水中環境情報の入手が困難であり、したがって、AUVは水中で作業を行うときに予期しない緊急事態に直面することは避けられない。水中通信手段の制限により、AUVは、緊急事態に対処するために独自の決定に依存するしかなく、このため、AUVは、元の計画指示を変更し、環境緊急事態に応じて再計画する必要がある。本発明は、複雑な環境でのAUV計画技術を焦点として研究しており、加圧送水トンネルを複雑な水中環境とし、トンネル検出タスクを適用背景の代表例として、強化学習に基づくAUVの行動計画及び制御方法を提案している。 Planning and control technology is one of the key elements for achieving AUV intelligence, and is the premise and foundation for AUVs to make autonomous decisions and complete work tasks. The underwater environment is complex, dynamic, unstructured and uncertain, making it difficult to obtain underwater environment information, and therefore AUVs face unexpected emergencies when working underwater. It is inevitable to do. Due to restrictions on underwater communication means, the AUV has no choice but to rely on its own decisions to deal with emergencies, which requires the AUV to modify its original planning instructions and replan in response to environmental emergencies. There is. The present invention focuses on AUV planning technology in a complex environment, makes a pressurized water supply tunnel a complex underwater environment, and uses a tunnel detection task as a representative example of the application background, and an AUV action plan based on reinforcement learning. And the control method is proposed.
加圧送水トンネルの検出は、水利工事管理の重要な項目の1つであり、加圧送水トンネルは、水力発電所などの水利プロジェクトを接続するための地下送水チャネルである。現在、中小型貯水池のほとんどの危険事態は、送水トンネルのリスクをタイムリーに発見できなかったことに起因するものであり、トンネルの長期運用では堆積、腐食、漏水や障害物などの欠陥や問題が発生し、特に増水期では、送水トンネルはパイプラインの老朽化の問題を起こしやすく、水中プロジェクトの安全運用に直接影響を及ぼし、このため、トンネルを定期的に点検して、水中プロジェクトの状況を把握することは重視化されてきた。ただし、送水トンネルでは、一部のトンネルの直径が小さいこと、増水期の流速が大きいこと、及び水中工事環境が複雑であることなどの問題から、作業者がトンネルに入って点検することができ、点検タスクを完了するには、点検員の代わりに他の検出装置を使用しなければならない。 Detection of pressurized water tunnels is one of the important items of irrigation work management, and pressurized water tunnels are underground water channels for connecting irrigation projects such as hydroelectric power plants. Currently, most hazards in small and medium-sized reservoirs are due to the failure to detect the risks of water tunnels in a timely manner, and long-term operation of the tunnels results in defects and problems such as deposition, corrosion, water leaks and obstacles. In particular during the flood season, water tunnels are prone to pipeline aging problems and have a direct impact on the safe operation of underwater projects, so the tunnels should be inspected regularly for the status of underwater projects. It has been emphasized to grasp. However, due to problems such as the small diameter of some tunnels, the high flow velocity during the flood season, and the complicated underwater construction environment, workers can enter the tunnel for inspection. , Other detectors must be used on behalf of the inspector to complete the inspection task.
自律型無人潜水機(AUV)は、水中検出装置の搭載プラットフォームとして好適であり、水中で長期間にわたって自律的かつ安全にターゲットタスクを実行することができ、トンネルの複雑な水環境では、強力な柔軟性及び状態維持性を有し、水中検出装置とセンサーを搭載して検出のニーズに対応し、トンネル検出タスクを自律的に完了することができ、トンネル検出のための主な手段として機能することが期待される。本発明は、強化学習アルゴリズムに基づいてAUVトンネル検出タスクの行動計画及び制御方法を設計するものであり、AUVの環境適応性を高め、緊急事態におけるAUVの決定能力を向上させる。 An autonomous underwater vehicle (AUV) is a good platform for mounting underwater detectors, capable of autonomously and safely performing target tasks underwater for long periods of time, and is powerful in the complex water environment of tunnels. It is flexible and state-sustainable, equipped with underwater detectors and sensors to meet the detection needs, can autonomously complete tunnel detection tasks, and functions as the main means for tunnel detection. It is expected. The present invention designs an action plan and a control method for an AUV tunnel detection task based on a reinforcement learning algorithm, enhances the environmental adaptability of the AUV, and improves the ability to determine the AUV in an emergency.
本発明は、複雑なタスクを実施するときに、水中ロボットのインテリジェントレベルが不十分であり、人工経験に頼りすぎる問題、及び従来の水中ロボットではインテリジェントアルゴリズムに基づいて設計される制御方法には正確な環境モデルが必要であることにより、トレーニング経験が制限され、実環境への適用が困難である問題を解決する。 The present invention is accurate for problems where the intelligent level of underwater robots is insufficient and relies too much on artificial experience when performing complex tasks, and for control methods designed based on intelligent algorithms in conventional underwater robots. It solves the problem that the training experience is limited and it is difficult to apply it to the real environment due to the need for an environmental model.
強化学習に基づくAUV行動計画及び動作制御方法であって、
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムがトレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了するステップと、
制御システムがトレーニング済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含む。
前記強化学習に基づくAUV行動計画及び動作制御方法において、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する前記過程においては、以下のステップを含み、
トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
経路ポイントが既知環境下のグローバル計画であるため、航渡過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含み、グローバルデータにタスク情報、状況情報、計画知識が記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自学習計画システムであり、トレーニングされておき、計画タスクを実行するに先立って行動ライブラリからトレーニング済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、評価システムは、強化学習アルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されており
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
α=θ−βであり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12
式中、k11、k12はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
r2=k21r21+k22r22
式中、k21、k22はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
r2=k21r21+k22r22+k23r23+k24r24
式中、k23、k24はそれぞれ加重値であり、
AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了し、
r33=kccos(α)
式中、kCは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33
式中、k31〜k33はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットを環境として、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
また、トレーニング中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムをトレーニングにより得て、制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
AUV action plan and motion control method based on reinforcement learning.
Underwater robot tunnel detection is defined as a total task, or task, and actions to complete the task include moving to a target, wall tracking, and obstacle avoidance, completing the robot-planned action underwater. And the steps to define the concrete control instructions that occur for
When the AUV performs the tunnel detection task, it uses the deep reinforcement learning DQN algorithm to perform action planning in real time based on the underwater environment to be detected, that is, it builds an action planning architecture based on multi-action network calls. Steps to define the input and output behaviors of the environmental state characteristics of the three behaviors according to the needs of the task, build the corresponding deep learning behavioral network, and design the reward function.
The steps that the planning system completes the tunnel detection task by calling the trained behavior network,
Includes steps in which the control system completes the planned action by calling the trained operating network.
In the AUV action planning and motion control method based on the reinforcement learning, the process of constructing the corresponding deep learning action network and designing the reward function includes the following steps.
The tunnel detection task is broken down into action sequences, multiple feasible route points are planned based on prior environmental information in global route planning, the AUV departs from the placement position and arrives at each route point in sequence.
Since the route point is a global plan under a known environment, during the travel process, the AUV calls the obstacle avoidance action to safely arrive at the route point based on the real-time environmental state, and the AUV is the main tunnel detection task. Call wall tracking action to complete the task according to a given detection target,
The decision module includes global data, decision system, action library and evaluation system, and task information, situation information and planning knowledge are stored in the global data. The decision system is a self-learning planning system combined with the DQN algorithm. , Trained, extract trained network parameters from the behavior library prior to performing the planning task, then plan the current behavior behavior using the current environmental state information as input, and the evaluation system is an enhanced learning algorithm. It is a reward function system of the above, and each time the AUV plans and executes one action action plan, it provides a reward based on the state environment and task information, and all the data is stored in the global database. In the process of moving to the target, the following steps are included.
The movement action to the target point is to navigate to the target point while adjusting the head angle when the AUV does not detect an obstacle, and the relationship between the position and angle of the AUV and the target point is mainly used as the feature input amount. In consideration, specifically, the current AUV position coordinates (x AUV , y AUV ), the target point coordinates (x goal , y goal ), the current heading angle θ, and the target heading angle β are input in a total of 6 dimensions. Among them, the target heading angle β is the heading angle when the AUV is navigating to the target.
Regarding the reward function, when the AUV navigates to the target point in an obstacle-free environment due to the movement action to the target, the reward function is set to the second term.
Item 1 r 11 considers the change in the distance between the AUV and the target point.
The smaller the absolute value of α, the larger the reward value to be acquired.
r 12 = k A cos (α)
In the formula, k A is the reward coefficient corresponding to the process of moving to the target.
The total reward value is the weight of two terms,
r 1 = k 11 r 11 + k 12 r 12
In the formula, k 11 and k 12 are weighted values, respectively.
The wall tracking process of the above actions includes the following steps:
The AUV wall tracking behavior takes into account information on the distance and relative angle between the AUV and the wall, and the AUV measures the distance x 4 and x 5 of the AUV from the wall through two front and rear ranging sonars located on one side. Acquired,
Obtain the current AUV head angle θ with the compass, estimate the current wall angle θ wall, and
The reward function is to keep the AUV as parallel to the wall as possible and keep a certain distance from the wall, and the reward signal of the wall tracking action based on the virtual target point is mainly set in the 4th term, and the general wall tracking action. Reward signal is mainly set to 2 items,
The first term considers the angle formed by the AUV and the current wall as in equation (6), and when the angle between the AUV and the wall increases and exceeds the threshold value, a negative reward value is obtained and the angle between the AUV and the wall is obtained. When is reduced, you get a positive reward value,
r 2 = k 21 r 21 + k 22 r 22
In the formula, k 21 and k 22 are weighted values, respectively.
In tracking based on virtual target points, this virtual target point is a virtual target point created by a wall with an outer right angle and an inner right angle, and if the environment is an outer right angle, when the front sonar is not detecting an obstacle. Since the input to is the maximum detection distance, a virtual wall is built, a virtual target point is added, and if the environment is at right angles, when the forward sonar detects the wall, the AUV faces the other of the current target walls. A virtual target point is built on the side of
The construction of the reward function based on the virtual target points is as follows,
In the formula, k B is the reward factor corresponding to the wall tracking process.
The total reward r for tracking behavior based on virtual target points is the weight of the reward in item 4.
r 2 = k 21 r 21 + k 22 r 22 + k 23 r 23 + k 24 r 24
In the formula, k 23 and k 24 are weighted values, respectively.
When the AUV is gradually adjusted until it tracks the next part of the wall, for example, if the ranging sonar in the outer right angle environment detects the target wall again, or if the anterior sonar in the inner right angle environment does not detect the further anterior wall. Delete the virtual target point, call the general wall tracking behavior network,
Among the above actions, the obstacle avoidance process includes the following steps.
For the needs of AUV obstacle avoidance behavior, the environmental state feature inputs include data for the three front sonars and front sonars on each side, and the AUV approaches the target point while avoiding obstacles. The feature input further includes a total of 11-dimensional inputs of the current position coordinates (x AUV , y AUV ) of the AUV, the target point position coordinates (x goal , y goal ), the current heading angle θ, and the target heading angle β. ,
Regarding the reward function, the reward signal is divided into three terms, the first term is the reward value r 31 obtained based on the AUV distance to the obstacle, and when the AUV approaches the obstacle, a negative reward warning is given. Obtain and get a positive reward when the AUV moves away from the obstacle, encourage the AUV to navigate away from the obstacle, get a reward value of -1 when colliding with the obstacle, and set the current training cycle. Finished
r 33 = k c cos (α)
In the formula, k C is the reward coefficient corresponding to the wall obstacle avoidance process.
The final total reward signal is equal to the weight of the reward values in these three terms,
r 3 = k 31 r 31 + k 32 r 32 + k 33 r 33
In the formula, k 31 to k 33 are weighted values, respectively.
Reinforcement learning trains the mapping from motion to environment. Using the robot as the environment, the force and torque are obtained through DDPG training to act on the underwater robot, and the speed of the robot is calculated by using the AUV model. Obtain the angular velocity and design the reward value r 4 =-| △ v + △ Ψ | using the error between the velocity, the angular velocity and the target velocity, and the target angular velocity, where Δv is the velocity error and ΔΨ is It is a heading error,
In addition, by adding random interference force to the AUV model during training, a control system based on DDPG is obtained by training, and after the training of the control system is completed, the route tracking strategy is performed from the current position and target route of the robot. The target command is obtained according to the above, and the robot is controlled to follow the planned command by using the DDPG control system.
本発明の有益な効果は以下のとおりである。
1、本発明で設計された3層計画システムは、総タスクをターゲットへの移動と障害物回避のサブ動作に分解し、環境状態モデルと報酬関数を設計し、動作中の戦略最適化により空間次元を削減し、それによって、複雑な環境モデルでも安全で衝突のない経路を計画することができ、「次元の呪い」の問題を解決する。
また、本発明は、インテリジェントレベルが高く、計画が手動プログラミングに依存する必要がなく、人工経験によらずにロボット制御を実現することができる。
2、本発明は、ディープ強化学習アルゴリズムを行動計画システムに適用し、ニューラルネットワークを介して高次元データ特徴を抽出することで、連続的な環境状態での検知の問題を解決し、また強化学習を使用して行動決定計画を行うものである。トンネル検出タスクのニーズに応じて、ターゲットポイントへの移動、壁追跡、障害物回避という3つの典型的な動作が定義され、動作ごとに動作ネットワークが構築され、対応する環境状態変数と報酬関数が設計されて、壁の隅の問題については、仮想ターゲットポイントに基づく追跡方法が提案される。各動作は対応する目標に達しており、各動作ネットワークを呼び出すことでトンネル検出タスクを完了し、それにより、アルゴリズムは、安定性が高く、汎化能力が強い。
3、本発明は、AUVの運動学モデルを環境として、力から速度へのマッピング関係をトレーニングしているため、本発明の制御方法は、正確な環境モデルを必要とせず、トレーニング経験が制限され、実環境への適用が困難であるという問題を解決し、他のインテリジェント制御アルゴリズムの研究と比較して、普遍的な適応性を有し、一度だけトレーニングに成功すると、さまざまなタスクに適用できる。
The beneficial effects of the present invention are as follows.
1. The three-layer planning system designed by the present invention decomposes the total task into sub-actions of moving to the target and avoiding obstacles, designs an environmental state model and a reward function, and optimizes the space during the operation. It reduces dimensions, allowing you to plan safe, collision-free routes even in complex environmental models, solving the problem of "curse of dimensionality".
In addition, the present invention has a high level of intelligence, the planning does not need to rely on manual programming, and robot control can be realized without relying on artificial experience.
2. The present invention solves the problem of detection in continuous environmental conditions by applying a deep reinforcement learning algorithm to an action planning system and extracting high-dimensional data features via a neural network, and also provides reinforcement learning. Is used to make an action decision plan. Three typical actions are defined, moving to the target point, wall tracking, and obstacle avoidance, depending on the needs of the tunnel detection task, and a working network is built for each action, with corresponding environmental state variables and reward functions. Designed, for wall corner problems, a virtual target point-based tracking method is proposed. Each action has reached its corresponding goal and completes the tunnel detection task by calling each action network, which makes the algorithm more stable and more generalizable.
3. Since the present invention trains the mapping relationship from force to velocity using the kinematic model of AUV as an environment, the control method of the present invention does not require an accurate environmental model and the training experience is limited. It solves the problem that it is difficult to apply in the real environment, has universal adaptability compared to the research of other intelligent control algorithms, and can be applied to various tasks after successful training only once. ..
実施形態1
本実施形態は、強化学習に基づくAUV行動計画及び動作制御方法である。
Embodiment 1
This embodiment is an AUV action plan and motion control method based on reinforcement learning.
本発明は、自律型無人潜水機のタスクの3層構造、すなわち、タスク層、行動層、及び行動層を定義し、緊急事態が発生したときにAUV行動計画が実行され、Deep Deterministic Policy Gradient(DDPG)コントローラによってAUVの行動制御が行われる。 The present invention defines a three-layer structure of tasks of an autonomous underwater vehicle, that is, a task layer, an action layer, and an action layer, and an AUV action plan is executed in the event of an emergency, and the Deep Deterministic Policy The behavior of the AUV is controlled by the DDPG) controller.
実現過程においては、次の3つの部分が含まれる。
(1)自律型無人潜水機のタスクの階層的設計
(2)行動計画システムの構築
(3)DDPG制御アルゴリズムに基づく設計。
The realization process includes the following three parts.
(1) Hierarchical design of tasks for autonomous underwater vehicle (2) Construction of action planning system (3) Design based on DDPG control algorithm.
さらに、前記(1)の過程は以下の通りである。
水中ロボットによるトンネル検出タスクを階層化するには、自律型無人潜水機によるトンネル検出タスク、行動及び動作の概念を定義し、つまり、自律型無人潜水機によるトンネル検出を総タスクとして定義し、総タスクを完了するためには、ターゲットへの移動、壁追跡及び障害物回避という3つの典型的な行動を定義し、ロボットが水中で航行して計画された行動を完了するために生じる特定の制御命令を動作として定義し、たとえば、n度左折、n度右折、nノットの速度での前進などがある。
Further, the process of (1) above is as follows.
To layer tunnel detection tasks by underwater robots, define the concept of tunnel detection tasks, actions and actions by autonomous underwater vehicle, that is, define tunnel detection by autonomous underwater vehicle as total task, and total. To complete a task, we define three typical actions: moving to a target, tracking walls and avoiding obstacles, and the specific controls that occur as the robot navigates underwater to complete the planned action. Instructions are defined as actions, such as n-degree left turn, n-degree right turn, and n-knot speed advancement.
図1に示すように、自律型無人潜水機の行動計画システムのアーキテクチャは、総タスク層、行動層及び動作層という3層に分かれている。このモデルは、下から上に階層化されたフレームワークであり、動作層は、AUVが環境と相互作用するプロセスと見なすことができ、AUVは、動作を実行して環境に作用し、計画システムは、この層を通じてリアルタイムな環境と自体状態データを取得し、計画システムの以前の学習経験に従って学習とトレーニングを行うことで、グローバル計画知識を更新する。トレーニングサンプルライブラリ内の環境状態データの履歴経験情報を現在の環境状態と比較・分析し、次に、比較結果と計画知識更新データを層タスク層にフィードバックし、総タスク層は、主に現在の環境状態を分析して、特定の内部戦略に従って計画結果を出力し、行動動作シーケンスの形で行動層に送信し、つまり、現在の環境状態データに従って行動シーケンスを計画する計画システムの上位層であり、行動層は、主に現在の動作層によって取得されたローカル環境状態情報を考慮し、総タスク層による上位層の計画結果に基づき、特定の戦略に従って行動を選択する中間層である。以上説明するように、総タスク層は、環境状態データに基づいて上位層の計画結果を提供し、行動層は、上位層の計画結果に基づいて行動を選択して実行し、動作層では、AUVは行動戦略に従って基本的な動作を実行し、環境状態の変化を検知する役割を果たし、3層のフレームワークは、ボトムアップ計画の決定モデルを構成する。 As shown in FIG. 1, the architecture of the action planning system of the autonomous underwater vehicle is divided into three layers: a total task layer, an action layer, and an action layer. This model is a bottom-to-top layered framework where the working layer can be thought of as the process by which the AUV interacts with the environment, where the AUV performs actions and acts on the environment and is a planning system. Updates global planning knowledge by acquiring real-time environment and self-state data through this layer and learning and training according to the previous learning experience of the planning system. The historical experience information of the environmental state data in the training sample library is compared and analyzed with the current environmental state, and then the comparison result and the planning knowledge update data are fed back to the layer task layer, and the total task layer is mainly the current one. It is the upper layer of the planning system that analyzes the environmental state, outputs the planning result according to a specific internal strategy, and sends it to the action layer in the form of the action action sequence, that is, plans the action sequence according to the current environmental state data. The action layer is an intermediate layer that selects actions according to a specific strategy based on the planning results of the upper layer by the total task layer, mainly considering the local environment state information acquired by the current operation layer. As described above, the total task layer provides the plan result of the upper layer based on the environmental state data, the action layer selects and executes the action based on the plan result of the upper layer, and the action layer The AUV performs basic actions according to the action strategy and plays a role of detecting changes in the environmental state, and the three-layer framework constitutes the decision model of the bottom-up plan.
また、前記(2)の過程は以下の通りである。
AUVは、トンネル検出タスクを実行する際に、タスクのニーズに応じて、グローバル経路計画によって指定されたクリティカル経路ポイントに順次到着する。ただし、実際の作業過程では、急に現れた障害物やトンネル壁の損傷によるトンネル壁環境の変化など、未知の環境情報が存在するため、安全性を確保するために、AUVは環境情報と自身の状況に基づいてタイムリーに応答する必要がある。ディープ強化学習に基づく行動計画システムは、反応式に基づく計画アーキテクチャを採用しており、環境状態と動作の間のマッピング関係を構築することにより、AUVは環境の変化に応じて動作をすばやく計画することができ、緊急環境変化に対するAUVの対処能力を向上できる。
The process of (2) above is as follows.
When performing a tunnel detection task, the AUV sequentially arrives at the critical route points specified by the global route planning, depending on the needs of the task. However, in the actual work process, there is unknown environmental information such as sudden obstacles and changes in the tunnel wall environment due to damage to the tunnel wall. It is necessary to respond in a timely manner based on the situation of. Action planning systems based on deep reinforcement learning employ a reaction-based planning architecture that allows AUVs to quickly plan actions in response to changes in the environment by building mapping relationships between environmental states and actions. It is possible to improve the ability of AUV to cope with changes in the emergency environment.
本発明は、研究対象としてインテリジェント加圧送水トンネルを検出するAUVを採用し、このAUVは、AUVに装備した水中音響機器やセンサーなどを利用して水中環境を検出し、ディープ強化学習DQNアルゴリズムを使用して行動計画をリアルタイムで行い、つまり、マルチ行動ネットワークコール呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの基本動作の環境状態特徴の入力及び出力の動作を定義し、対応するディープ学習動作ネットワークを構築し、報酬関数を設計し、壁追跡行動では、壁の隅の問題に対しては、仮想ターゲットポイントに基づく追跡方法が提案されている。 The present invention employs an AUV that detects an intelligent pressurized water supply tunnel as a research target, and this AUV detects the underwater environment using an underwater acoustic device or sensor equipped in the AUV, and uses a deep enhanced learning DQN algorithm. Use to do action planning in real time, i.e. build an action planning architecture based on multi-action network call calls, define input and output behaviors of the environmental state features of the three basic behaviors according to the needs of the task. The corresponding deep learning motion network is constructed, the reward function is designed, and the wall tracking behavior proposes a tracking method based on a virtual target point for the problem of the corner of the wall.
行動層の計画の問題については、本発明は、トンネル検出を適用背景の代表例として、ターゲットへの移動行動、壁追跡行動、及び障害物回避行動という3つの代表的行動を提案し、底層の基本行動を定義し、行動ネットワークを設計し、計画システムは、トレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了する。トンネル検出タスクの場合、このタスクは一連の行動シーケンスに分解でき、図2に示すように、グローバル経路計画は、事前環境情報に基づいて複数の実行可能な経路ポイントを計画し、AUVは配置位置から出発し、各経路ポイントに順次到着する。 Regarding the problem of action layer planning, the present invention proposes three typical actions of moving to a target, wall tracking action, and obstacle avoidance action as typical examples of the application background of tunnel detection, and proposes three typical actions of the bottom layer. The basic behavior is defined, the behavior network is designed, and the planning system completes the tunnel detection task by calling the trained behavior network. For the tunnel detection task, this task can be broken down into a series of action sequences, the global route planning plans multiple viable route points based on prior environmental information, and the AUV is the placement position, as shown in FIG. Depart from and arrive at each route point in sequence.
航渡タスクは、AUVが各経路の開始ポイントから各クリティカルポイントに到着することであり、各航渡タスクごとに異なる速度制約を設定することができる。経路ポイントは既知環境下のグローバル計画であるため、航渡中、AUVはリアルタイム環境状態に従って障害物回避行動を呼び出して、経路ポイントに安全に到着するため、各トラックは一意ではない。トンネル検出タスクは経路ポイント3から始まり経路ポイント4で終わり、AUVは主に壁追跡行動を呼び出して、所定の検出目標に従ってタスクを完了する。 The voyage task is that the AUV arrives at each critical point from the start point of each route, and different speed constraints can be set for each voyage task. Since the route point is a global plan under known environment, each track is not unique because the AUV calls the obstacle avoidance action according to the real-time environmental condition and safely arrives at the route point during the voyage. The tunnel detection task starts at route point 3 and ends at route point 4, where the AUV primarily calls wall tracking actions to complete the task according to a predetermined detection target.
さらに、アーキテクチャ内の検知モジュール(ソナーを含む)は、AUVセンサーのデータを取得し、行動のニーズに応じてデータを分析することで、リアルタイムなAUV状態情報と環境情報を検出する。決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含む、計画システムの中核である。グローバルデータには、タスク情報、状況情報、計画知識などが記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自己学習計画システムでもあり、決定システムは、まず大量のトレーニングを行い、計画タスクを実行するに先立って行動データベースからトレーニング済みネットワークパラメータを抽出し、次に、現在の環境状態情報を入力として、現在の行動動作を計画し、評価システムは強化学習アルゴリズムの報酬関数システムであり、AUVが行動動作を計画して実行すると、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されている。 In addition, detection modules (including sonar) within the architecture acquire real-time AUV status information and environmental information by acquiring AUV sensor data and analyzing the data according to behavioral needs. The decision module is the core of the planning system, including global data, decision systems, action libraries and evaluation systems. Task information, situation information, planning knowledge, etc. are stored in the global data, and the decision system is also a self-learning planning system combined with the DQN algorithm. The trained network parameters are extracted from the behavior database prior to execution, then the current behavioral behavior is planned using the current environmental state information as input, and the evaluation system is the reward function system of the enhanced learning algorithm, AUV. As they plan and execute action actions, they provide rewards based on state environment and task information, and all data is stored in a global database.
2.1)ターゲットへの移動
AUVは、トンネル検出タスクを実行する過程に亘って、予めグローバルに計画されたターゲットポイントに到着する必要があり、経路を最短にするために、ターゲットポイントへの移動行動は、AUVが障害物を検知していないときに向首角を調整しながらターゲットポイントへ航行するようにし、したがって、ターゲットへの移動行動過程におけるAUVのリアルタイム向首をできるだけターゲット方向付近に制御する必要がある。ターゲットへの移動行動のニーズに応じて、図2に示すように、特徴入力量は主にAUVとターゲットポイントの位置及び角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定する。ターゲット向首角βは、AUVがターゲットへ航行しているときの向首角である。
2.1) Move to target The AUV must reach a pre-globally planned target point during the process of performing the tunnel detection task, and move to the target point to minimize the route. The behavior is to navigate to the target point while adjusting the head angle when the AUV is not detecting an obstacle, and therefore control the real-time heading of the AUV in the process of moving to the target as close to the target direction as possible. There is a need to. As shown in FIG. 2, the feature input amount mainly considers the relationship between the AUV and the position and angle of the target point according to the needs of the movement behavior to the target, and specifically, the current AUV position coordinates (x). AUV , y AUV ), target point coordinates (x goal , y goal ), current heading angle θ, and target heading angle β, for a total of 6-dimensional inputs. The target heading angle β is the heading angle when the AUV is navigating to the target.
2.1.1)報酬関数の設計
ターゲットへの移動行動は、主にAUVが障害物無し環境でターゲットポイントへ航行するように駆動し、したがって、具体的な報酬関数は、2項に設定され、第1項r11はAUVとターゲットポイントの距離の変化を考慮し、具体的には、
α=θ−β (2)であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α) (3)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12 (4)
式中、k11、k12はそれぞれ加重値である。
2.1.1) Design of reward function The movement behavior to the target is mainly driven so that the AUV navigates to the target point in an obstacle-free environment, and therefore the specific reward function is set in the second term. , Paragraph 1 r 11 considers the change in the distance between the AUV and the target point, specifically,
α = θ−β (2),
The smaller the absolute value of α, the larger the reward value to be acquired.
r 12 = k A cos (α) (3)
In the formula, k A is the reward coefficient corresponding to the process of moving to the target.
The total reward value is the weight of two terms,
r 1 = k 11 r 11 + k 12 r 12 (4)
In the equation, k 11 and k 12 are weighted values, respectively.
2.2)壁追跡
ほとんどのトンネルの距離が長いため、水利プロジェクト全体が10km以上に達する可能性があり、AUVがトンネルの入口に入ると、手動による介入が困難になり、このため、AUVがトンネル環境に応じて自律的に検出タスクを完了することが求められる。衝突を回避するには、AUVは壁から安全な距離だけ離れる必要があり、そして、水中の光源や視認性などによって制限されて、AUVと壁の間の距離が画像収集の品質にも直接影響し、したがって、AUVには、壁から一定の距離を保持しながら壁に沿って航行する能力が求められる。
2.2) Wall tracking Due to the long distance of most tunnels, the entire irrigation project can reach more than 10km, and once the AUV enters the tunnel entrance, manual intervention becomes difficult, which makes the AUV difficult. It is required to complete the detection task autonomously according to the tunnel environment. To avoid collisions, the AUV must be a safe distance from the wall, and the distance between the AUV and the wall directly affects the quality of image acquisition, limited by underwater light sources and visibility. Therefore, the AUV is required to have the ability to navigate along the wall while maintaining a certain distance from the wall.
2.2.1)上記AUVの壁追跡機能のニーズに応じて、この行動は主にAUVと壁の距離及び相対角度の情報を考慮する。図3に示すように、AUVが自体の右側の壁を追跡して航行する例では、AUVは、右側に配置された前後の2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得する。 2.2.1) Depending on the needs of the wall tracking function of the AUV, this action mainly considers information on the distance and relative angle between the AUV and the wall. As shown in FIG. 3, in the example where the AUV navigates by tracking the wall on the right side of itself, the AUV measures the distance x 4 and x 5 of the AUV from the wall through two front and rear ranging sonars placed on the right side. get.
本実施形態では、AUVは、合計7個のレンジングソナーが設けられており、図7に示すように、AUVの前端には3つの前方ソナー(図7の1、2、3)が設けられ、AUVの両側のそれぞれに2つのソナー(図7の4、5、と6、7)が設けられ、各側にある2つのソナーはそれぞれ前後でそれぞれ1つ設けられ、前端のものをフロントソナー、後端のものをリアソナーと呼ぶ。 In the present embodiment, the AUV is provided with a total of seven ranging sonars, and as shown in FIG. 7, three front sonars (1, 2, 3 in FIG. 7) are provided at the front end of the AUV. Two sonars (4, 5, and 6, 7 in FIG. 7) are provided on each side of the AUV, one on each side is provided on the front and back, and the front end is the front sonar. The rear end is called the rear sonar.
方位磁針で現在のAUV向首角θを取得し、現在の壁角度θwallを推定する。
2.2.2)報酬関数の設計
AUVの壁追跡行動学習において、報酬関数は、AUVができるだけ壁に平行し、壁となす角度を約0°に維持し、壁とは一定の距離を保持するようにすることに用いられる。
2.2.2) Design of reward function In AUV wall tracking behavior learning, the reward function keeps the AUV as parallel to the wall as possible, keeps the angle with the wall at about 0 °, and keeps a certain distance from the wall. It is used to make it work.
以上の要素を考慮して、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定される。 In consideration of the above factors, the reward signal for the wall tracking action based on the virtual target point is mainly set in the fourth term, and the reward signal for the general wall tracking action is mainly set in the second term.
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減小すると、正の報酬値を取得し、
r2=k21r21+k22r22 (8)
式中、k21、k22はそれぞれ加重値である。
The first term considers the angle formed by the AUV and the current wall as in equation (6), and when the angle between the AUV and the wall increases and exceeds the threshold value, a negative reward value is obtained and the angle between the AUV and the wall is obtained. When is reduced, you get a positive reward value,
r 2 = k 21 r 21 + k 22 r 22 (8)
In the formula, k 21 and k 22 are weighted values, respectively.
2.2.3)仮想ターゲットポイントに基づく追跡方法
一般的な壁環境では、壁追跡行動には、ターゲットの向首角とターゲットの追跡距離のみを考慮すればよく、ターゲットへの移動行動や障害物回避行動に比べて、実際ターゲットポイントによる案内がないので、壁の隅などのような特殊な環境の場合は、正確な計画結果を提供することができない。壁の隅の問題は、AUV壁追跡行動における主な難問であり、本発明では、主に2種類の壁の隅の環境、つまり外直角環境と内直角環境を考慮する。壁の隅の環境の特殊性のため、外直角を追跡する場合、AUVの前方にあるレンジングソナーが壁を検出できず、AUVはタイムリーに向首角を調整できず、ターゲットを失うことがある。内側の壁の隅の場合、基本報酬の設計に前方の障害物を考慮しないので、衝突が発生する。
2.2.3) Tracking method based on virtual target points In a general wall environment, wall tracking behavior only needs to consider the target's head angle and target's tracking distance, and movement behavior and obstacles to the target. Compared to object avoidance behavior, there is actually no guidance by the target point, so it is not possible to provide accurate planning results in special environments such as corners of walls. The wall corner problem is a major challenge in AUV wall tracking behavior, and the present invention primarily considers two types of wall corner environments: the outer right angle environment and the inner right angle environment. Due to the peculiarities of the environment in the corners of the wall, when tracking the outer right angle, the range sonar in front of the AUV cannot detect the wall, the AUV cannot adjust the head angle in a timely manner, and the target can be lost. is there. In the case of the inner wall corner, a collision occurs because the design of the base reward does not consider the obstacle in front.
この問題に対しては、本発明は、AUV壁追跡をガイドするための仮想ターゲットポイントを構築する方法を提案する。図4及び図5には、外直角の壁と内直角の壁について構築される仮想ターゲットポイントが示されている。環境が外直角である場合、フロントソナーが障害物を検出していないときに入力が最大検出距離であるので、仮想壁は点線のように構築され、これに基づいて仮想ターゲットポイントが追加される。仮想ターゲットポイントの位置は、AUV位置、レンジングソナーデータ、及び安全距離L1によって決定される。
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものである。
r2=k21r21+k22+r22+k23r23+k24r24 (15)
式中、k23、k24はそれぞれ加重値であり、
報酬係数k23とk24値が大きいため、壁の隅の環境ではAUVは仮想ターゲットポイントにより案内される傾向がある。
To address this issue, the present invention proposes a method of constructing virtual target points to guide AUV wall tracking. 4 and 5 show virtual target points constructed for the outer right-angled wall and the inner right-angled wall. If the environment is at right angles, the input is the maximum detection distance when the front sonar is not detecting obstacles, so the virtual wall is constructed like a dotted line, based on which virtual target points are added. .. Position of the virtual target points, AUV position is determined ranging sonar data, and the safe distance L 1.
In the formula, k B is the reward factor corresponding to the wall tracking process.
The total reward r of the tracking action based on the virtual target point is the weight of the reward of item 4.
r 2 = k 21 r 21 + k 22 + r 22 + k 23 r 23 + k 24 r 24 (15)
In the formula, k 23 and k 24 are weighted values, respectively.
Due to the large reward coefficients k 23 and k 24 , the AUV tends to be guided by virtual target points in a wall corner environment.
AUVが次の部分の壁を追跡するまで徐々に調整したとき、つまり、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出す。 When the AUV is gradually adjusted until it tracks the next part of the wall, that is, if the ranging sonar in the outer right angle environment detects the target wall again, or if the forward sonar in the inner right angle environment does not detect the further forward wall. Delete the virtual target point and call the general wall tracking behavior network.
2.3)障害物回避
障害物回避行動は、行動計画システムのキーであり、AUVの自律的決定レベルを決定し、AUVが作業タスクを安全的に実施できるかを左右する。
2.3) Obstacle Avoidance Obstacle avoidance behavior is a key to the action planning system, which determines the autonomous decision level of the AUV and determines whether the AUV can safely perform work tasks.
2.3.1)AUV障害物回避行動のニーズに応じて、図6に示すように、行動計画システムは、周辺の障害物環境情報を十分に取得する必要があるので、環境状態の特徴入力には、3つの前方ソナーと両側のそれぞれに設けられたフロントソナーによるデータが含まれる。 2.3.1) As shown in FIG. 6, the action planning system needs to sufficiently acquire the surrounding obstacle environmental information according to the needs of the AUV obstacle avoidance action, so that the characteristics of the environmental state are input. Contains data from three front sonars and front sonars on each side.
AUVは、障害物回避を実行しながらターゲットポイントの方向へ近づき、AUVとターゲットポイントの相対位置情報を取得する必要があるので、特徴入力は、AUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βという計11次元の入力を含む。 Since the AUV needs to approach the target point while performing obstacle avoidance and acquire the relative position information between the AUV and the target point, the feature input is the current position coordinates of the AUV (x AUV, y AUV ). , Target point position coordinates (x goal , y goal ), current heading angle θ, and target heading angle β, including a total of 11 dimensional inputs.
2.3.2)報酬関数の設計
障害物回避行動は、AUVが急に現れた障害物を回避しターゲットポイントに順調に到着するようにするために用いられ、したがって、報酬信号分が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、式16に示すように、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了する。
r33=kccos(α) (18)
式中、kCは障害物回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33 (19)
式中、k31〜k33はそれぞれ加重値である。
2.3.2) Design of reward function Obstacle avoidance behavior is used to ensure that the AUV avoids suddenly appearing obstacles and arrives at the target point smoothly, so the reward signal component is the third term. The first term is the reward value r 31 obtained based on the AUV distance to the obstacle, and as shown in Equation 16, when the AUV approaches the obstacle, a negative reward warning is obtained. When the AUV moves away from the obstacle, it gets a positive reward, encourages the AUV to navigate away from the obstacle, gets a reward value of -1 when it collides with the obstacle, and ends the current training cycle.
r 33 = k c cos (α) (18)
In the formula, k C is the reward coefficient corresponding to the obstacle avoidance process.
The final total reward signal is equal to the weight of the reward values in these three terms,
r 3 = k 31 r 31 + k 32 r 32 + k 33 r 33 (19)
In the formula, k 31 to k 33 are weighted values, respectively.
さらに、前記(3)の過程は以下のとおりである。
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットモデルを環境モデルとして、動作からロボットモデルへのマッピングをトレーニングすることができる。したがって、本発明では、直接ロボットを環境として、ファジー流体力学パラメータのロボットの運動学及び動力学モデル、即ちAUVモデルを作成し、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=-|△v+△Ψ|を設計し、ここで、△vは速度誤差であり、△Ψは向首誤差である。また、トレーニング中のAUVモデルにランダム干渉力を追加することで、動的に変化している水中環境をシミュレーションし、それにより、抗干渉能力を有するDDPGに基づく完全な制御システムがトレーニングにより得られる。制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する。
Further, the process of (3) above is as follows.
Reinforcement learning trains mapping from motion to environment, and it is possible to train mapping from motion to robot model using a robot model as an environment model. Therefore, in the present invention, the kinematics and dynamics model of the robot with fuzzy fluid dynamics parameters, that is, the AUV model is created by directly using the robot as the environment, and the force and torque are obtained through DDPG training to act on the underwater robot, and the AUV model is used. The speed and angular velocity of the robot are obtained by calculating using, and the reward value r 4 =-| △ v + △ Ψ | is designed by using the error between the velocity, the angular velocity and the target velocity, and the target angular velocity. , Δv is the velocity error, and ΔΨ is the heading error. It also simulates a dynamically changing underwater environment by adding random interference to the AUV model during training, which gives training a complete DDPG-based control system with anti-interference capabilities. .. After the control system training is completed, the target command is obtained from the robot's current position and target route according to the route tracking strategy, and the DDPG control system is used to control the robot to follow the planned command.
前記DDPGの制御システムは動作ネットワークに対応し、Deep Deterministic Policy Gradient(DDPG)は、Actor CriticとDQNを組み合わせたアルゴリズムであり、Actor Criticの安定性及び収束性を向上させる。その構想は、DQN構造中のメモリバンク、及び構造が同じであるが、パラメータの更新頻度が異なる2つのニューラルネットワークの構想をActor Criticに適用することである。さらに、Deterministic構想を利用して、従来のActor Criticが連続動作区間においてランダムにスクリーニングするという方式を、連続空間において2つだけの動作値を出力するように変更する。 The DDPG control system corresponds to an operating network, and the Deep Policy Policy Gradient (DDPG) is an algorithm that combines Actor Critic and DQN, and improves the stability and convergence of Actor Critic. The concept is to apply the concept of two neural networks in the DQN structure, which have the same structure but different parameter update frequencies, to Actor Critic. Further, using the Deterministic concept, the conventional method of randomly screening the actor critical in the continuous operation section is changed so as to output only two operation values in the continuous space.
Criticシステムでは、Criticの学習過程はDQNと類似しており、下式のように現実Q値と推定Q値の損失関数を用いてネットワーク学習を行う。
Actorシステムでは、下記式に基づいて動作推定ネットワークのパラメータを更新する。
同じ状態について、システムが2つの異なる動作a1とa2を出力し、状態推定ネットワークから2つのQ値Q1及びQ2がフィードバックされる場合、Q1>Q2であれば、動作1を用いると、より多くの報酬を得て、この場合、Policy gradientの構想によれば、a1の確率が増加し、a2の確率が低下し、つまり、Actorはできるだけ大きなQ値を取得しようとする。したがって、Actorの損失については、得たフィードバックQ値が大きいほど、損失が小さく、得たフィードバックQ値が小さいほど、損失が大きいと理解でき、このため、状態推定ネットワークから戻されたQ値を負にすればよい。 For the same state, if the system outputs two different actions a1 and a2 and the two Q values Q1 and Q2 are fed back from the state estimation network, then if Q1> Q2, using action 1 will result in more. With a reward, in this case, according to the Policy feedback concept, the probability of a1 increases and the probability of a2 decreases, that is, the Actor tries to obtain as large a Q value as possible. Therefore, regarding the loss of the actor, it can be understood that the larger the obtained feedback Q value, the smaller the loss, and the smaller the obtained feedback Q value, the larger the loss. Therefore, the Q value returned from the state estimation network can be used. You can make it negative.
DDPGコントローラの構想は、強化学習アルゴリズム中の動作をロボットの推力及びトルクに対応させ、アルゴリズム中の状態をロボットの速度及び角速度に対応させることである。アルゴリズムに対して学習トレーニングを行うことにより力から状態へのマッピング関係が実現される。 The concept of the DDPG controller is to make the movement in the reinforcement learning algorithm correspond to the thrust and torque of the robot, and the state in the algorithm to correspond to the speed and angular velocity of the robot. By performing learning training on the algorithm, the mapping relationship from force to state is realized.
DDPGをAUV制御に適用するには、まず、Criticニューラルネットワーク構造Q(stat|θQ)及びActorニューラルネットワーク構造μ(st|θμ)、(θQとθμはネットワークの重みパラメータを示す。)を作成する。次に、それぞれCriticとActorの2つの構造中に、ターゲットネットワーク(target_net)と予測ネットワーク(eval_net)との2つのニューラルネットワークを作成する。次に、DDPGの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御すると、DDPG制御システムをAUVの現在の状態sからロボットの受ける力へのマッピングとすることができ、式(21)の
τ=μ(st|θμ) (22)として表し、
ロボット状態sは主にロボットの速度と向首として示され、
V=[u,v,r]
Ψ=[0,θ,Ψ] (23)
式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
水平運動であるので、v、rは無視され、このため、
τ=μ(st)=μ(μ(t),Ψ(t)) (24)
この式は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す。
To apply DDPG the AUV control, first, Critic neural network structure Q (s t a t | θ Q) and Actor neural network structure μ (s t | θμ), the weighting parameters (theta Q and Shitamyu network Show.) Is created. Next, two neural networks, a target network (target_net) and a prediction network (ever_net), are created in the two structures of Critic and Actor, respectively. Next, when the motion output of the DDPG is used as the acting force τ of the control system and the movement of the robot is controlled by the acting force output by the control system, the DDPG control system is mapped from the current state s of the AUV to the force received by the robot. Can be of equation (21)
The robot state s is mainly shown as the speed and heading of the robot,
V = [u, v, r]
Ψ = [0, θ, Ψ] (23)
In the equation, u, v, and r are the longitudinal velocity, lateral velocity, and angular velocity of the AUV, respectively, and Ψ is the heading angle of the AUV.
Since it is a horizontal motion, v and r are ignored, and therefore,
τ = μ ( st ) = μ (μ (t), Ψ (t)) (24)
This equation indicates that the output force of the control system controls the speed, heading and trim angle of the robot to be like a target command.
実施形態2
実施形態1に記載のファジー流体力学パラメータのAUVモデルの作成過程は、一般的なAUVダイナミックモデリングの過程であり、本分野の従来技術を用いて実現でき、上記過程をより明瞭にするために、本実施形態では、ファジー流体力学パラメータのAUVモデルの作成過程を説明するが、ただし、本発明は、以下のファジー流体力学パラメータのAUVモデルの作成方式を含むが、それに制限されない。ファジー流体力学パラメータのAUVモデルの作成過程には、
水中ロボットの流体力学方程を作成するステップと、
The process of creating an AUV model of fuzzy hydrodynamic parameters according to the first embodiment is a general process of AUV dynamic modeling, which can be realized by using the prior art in the art, and in order to clarify the above process. In the present embodiment, the process of creating an AUV model of fuzzy hydrodynamic parameters will be described, but the present invention includes, but is not limited to, the following method of creating an AUV model of fuzzy hydrodynamic parameters. In the process of creating an AUV model of fuzzy hydrodynamic parameters,
Steps to create a hydrodynamic equation for an underwater robot,
自律型無人潜水機の実行機構の構成から、その横揺れが小さく、主にスラスターを用いて上昇・ダイビング、縦方向動き、前後揺れ及び縦揺れの動きが行われると考えられ、その運動学モデルは5自由度の方程式で近似的に記述することができる。
Mは水中ロボットの全水中排水量の質量であり、
xG、yG、zGは水中ロボットの重心の艇体座標系における座標であり、
Iy、Izはそれぞれ艇体座標系のy、z軸に対する水中ロボットの質量の慣性モーメントであり、
u、v、ω、q、rはそれぞれ水中ロボットの艇体座標系での縦方向速度、横方向速度、垂向速度、トリム角速度、回転角速度であり、
M is the mass of the total displacement of the underwater robot,
x G , y G , and z G are the coordinates of the center of gravity of the underwater robot in the hull coordinate system.
I y and I z are the moments of inertia of the mass of the underwater robot with respect to the y and z axes of the hull coordinate system, respectively.
u, v, ω, q, and r are the longitudinal velocity, lateral velocity, vertical velocity, trim angular velocity, and rotational angular velocity of the underwater robot in the hull coordinate system, respectively.
実施例
本発明の最も主な目的は、水中ロボットが水中環境において現在の環境状態に基づいて行動決定及び動作制御を自律的に行うことによって、人を複雑なプログラミングプロセスから解放することであり、具体的には、以下のように実現される。
Example The main object of the present invention is to free a person from a complicated programming process by autonomously performing action determination and motion control based on the current environmental state in an underwater environment. Specifically, it is realized as follows.
1)プログラミングソフトウェアを用いてディープ強化学習に基づく自律型無人潜水機の行動計画シミュレーションシステムを作成し、シミュレーショントレーニングによりロボットの最適決定戦略を得て、具体的には、
1.1)環境モデルを作成して、初期位置とターゲットポイントを決定し、アルゴリズムパラメータを初期化させる。
1.2)現在のt時刻での環境状態及びロボットタスクを決定し、タスクをターゲットへの移動行動、壁追跡行動、障害物回避行動に分解する。
1.3)現在の状態に基づいてターゲットへの移動、壁追跡又は障害物回避を選択して、行動を動作に分解する。
1.4)動作aを実行して、新しい状態s’を観察し、報酬値Rを得る。
1.5)ニューラルネットワークをトレーニングして各動作のQ値を得て、最大Q値に基づいて動作を出力する。
1.6)Q関数を更新する。
1.7)現在の時刻の状態を判断し、ターゲット状態に達する場合、1.8)に入り、そうではない場合、1.4)に入る。
1.8)選択した行動が完了した後、Q関数を更新する。
1.9)検出が完了したか否かを判断し、完了した場合、1.10)に入り、そうではない場合、1.3)に入る。
1.10)Q値が収束しているか否かを判断し、収束している場合、トレーニング又は計画を終了し、収束していない場合、ロボット位置を初期化させ、1.2)に入る。
1) Create an autonomous unmanned underwater vehicle action plan simulation system based on deep reinforcement learning using programming software, and obtain the optimal decision strategy for the robot through simulation training.
1.1) Create an environment model, determine the initial position and target point, and initialize the algorithm parameters.
1.2) Determine the environmental state and robot task at the current t time, and decompose the task into target movement behavior, wall tracking behavior, and obstacle avoidance behavior.
1.3) Select movement to target, wall tracking or obstacle avoidance based on the current state to break down the action into actions.
1.4) Execute the operation a, observe the new state s', and obtain the reward value R.
1.5) Train the neural network to obtain the Q value of each motion, and output the motion based on the maximum Q value.
1.6) Update the Q function.
1.7) If the current time state is judged and the target state is reached, 1.8) is entered, and if not, 1.4) is entered.
1.8) Update the Q function after the selected action is completed.
1.9) Judge whether the detection is completed, and if it is completed, enter 1.10), and if not, enter 1.3).
1.10) Judge whether the Q value has converged, and if it has converged, end training or planning, and if it has not converged, initialize the robot position and enter 1.2).
2)DDPGコントローラを用いて、計画して出力する動作を完了するようにロボットを制御し、具体的には、以下のステップを含む。
2.1)パラメータを初期化する。
2.2)外部ループを行う。
2.2.1)ターゲット向首、ターゲット速度をランダムに生成する。
2.2.2)内部ループを行う。
2.2.2.1)DDPGアルゴリズムを実行させて、動作τ=a=μ(st|θμ)を出力する。
2.2.2.2)AUV運動学モデルに基づいてAUVの加速度を計算する。
r=−|△v+△Ψ+△θ|
2.2.2.4)制御誤差が0であり、r+=1である場合、小ループを終了する。
2.2.2.5)criticニューラルネットワークを更新して最小損失を取得する。
2.2.2.8)内ループのステップ数に達すると、内ループを終了する。
2.2.3)外ループのステップ数に達すると、外ループを終了する。
2) The DDPG controller is used to control the robot to complete the planned and output operation, specifically including the following steps.
2.1) Initialize the parameters.
2.2) Perform an external loop.
2.2.1) Target heading and target speed are randomly generated.
2.2.2) Perform an internal loop.
2.2.2.1) DDPG by algorithm is executed, operation τ = a = μ (s t | θμ) outputs a.
2.2.2.2) Calculate the acceleration of AUV based on the AUV kinematics model.
r = - | △ v + △ Ψ + △ θ |
2.2.2.4) When the control error is 0 and r + = 1, the small loop is terminated.
2.2.2.5) Update the critic neural network to get the minimum loss.
2.2.2.8) When the number of steps in the inner loop is reached, the inner loop is terminated.
2.2.3) When the number of steps in the outer loop is reached, the outer loop is terminated.
Claims (6)
水中ロボットによるトンネル検出を総タスク、即ちタスクとして定義し、タスクを完了するための行動には、ターゲットへの移動、壁追跡及び障害物回避が含まれ、ロボットが計画する行動を水中で完了するために生じる具体的な制御命令を動作として定義するステップと、
AUVはトンネル検出タスクを実行するときに、検出対象の水中環境に基づいて、ディープ強化学習DQNアルゴリズムを用いて行動計画をリアルタイムで行い、つまり、マルチ行動ネットワーク呼び出しに基づく行動計画アーキテクチャを構築し、タスクのニーズに応じて3つの行動の環境状態特徴の入力及び出力の動作を定義して、対応するディープ学習の行動ネットワークを構築し、報酬関数を設計するステップと、
計画システムがトレーニング済み行動ネットワークを呼び出すことでトンネル検出タスクを完了するステップと、
制御システムがトレーニング済み動作ネットワークを呼び出すことで計画された行動を完了するステップと、を含み、
対応するディープ学習の行動ネットワークを構築し、報酬関数を設計する前記過程においては、以下のステップを含み、
トンネル検出タスクを行動シーケンスに分解し、グローバル経路計画において事前環境情報に基づいて複数の実現可能な経路ポイントを計画し、AUVが配置位置から出発し、各経路ポイントに順次到着し、
経路ポイントが既知環境下のグローバル計画であるため、航渡過程において、AUVはリアルタイム環境状態に基づいて、障害物回避行動を呼び出して安全に経路ポイントに到着し、トンネル検出タスクのうちAUVは主に壁追跡行動を呼び出し、所定の検出目標に従ってタスクを完了し、
決定モジュールは、グローバルデータ、決定システム、行動ライブラリ及び評価システムを含み、グローバルデータにタスク情報、状況情報、計画知識が記憶されており、決定システムは、DQNアルゴリズムと組み合わせた自学習計画システムであり、トレーニングされておき、計画タスクを実行するに先立って行動ライブラリからトレーニング済みネットワークパラメータを抽出し、次に現在の環境状態情報を入力として現在の行動動作を計画し、評価システムは、強化学習アルゴリズムの報酬関数システムであり、AUVが1つの行動動作計画を計画して実行するたびに、状態環境とタスク情報に基づいて報酬を提供し、すべてのデータはグローバルデータベースに記憶されており、
前記行動のうちターゲットへの移動過程においては、以下のステップを含み、
ターゲットポイントへの移動行動は、AUVが障害物を検知しないときに向首角を調整しながらターゲットポイントへ航行することであり、特徴入力量として主にAUVとターゲットポイントの位置と角度の関係を考慮し、具体的には、現在のAUV位置座標(xAUV,yAUV)、ターゲットポイント座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計6次元の入力を設定し、その中でも、ターゲット向首角βはAUVがターゲットへ航行しているときの向首角であり、
報酬関数については、ターゲットへの移動行動によりAUVが障害物無し環境でターゲットポイントへ航行するときに、報酬関数は2項に設定され、
第1項r11はAUVとターゲットポイントの距離の変化を考慮し、
α=θ−β (2)であり、
αの絶対値が小さいほど、取得する報酬値が大きく、具体的には、
r12=kAcos(α) (3)
式中、kAはターゲットへの移動過程に対応する報酬係数であり、
総報酬値は2項を加重したものであり、
r1=k11r11+k12r12 (4)
式中、k11、k12はそれぞれ加重値であり、
前記行動のうち壁追跡過程においては、以下のステップを含み、
AUV壁追跡行動は、AUVと壁の距離及び相対角度の情報を考慮し、AUVは、一方の側に配置された前後にある2つのレンジングソナーを通じて壁からのAUVの距離x4とx5を取得し、
方位磁針で現在のAUV向首角θを取得して、現在の壁角度θwallを推定し、
報酬関数は、AUVができるだけ壁に平行し、壁とは一定の距離を保持するようにし、仮想ターゲットポイントに基づく壁追跡行動の報酬信号が主に4項に設定され、一般的な壁追跡行動の報酬信号が主に2項に設定され、
第1項は、式(6)のようにAUVと現在の壁がなす角度を考慮し、AUVと壁の角度が増大し閾値を超えると、負の報酬値を取得し、AUVと壁の角度が減少すると、正の報酬値を取得し、
r2=k21r21+k22r22 (8)
式中、k21、k22はそれぞれ加重値であり、
仮想ターゲットポイントに基づく追跡では、この仮想ターゲットポイントは外直角と内直角の壁により作成された仮想ターゲットポイントであり、環境が外直角である場合、前側のソナーが障害物を検知していないときに入力が最大検出距離であるので、仮想壁が構築され、仮想ターゲットポイントが追加され、環境が内直角である場合、前方ソナーが壁を検知したとき、AUVが対向する現在のターゲット壁の他方の側で仮想ターゲットポイントが構築され、
仮想ターゲットポイントに基づく報酬関数の構築は、以下のとおりであり、
式中、kBは壁追跡過程に対応する報酬係数であり、
仮想ターゲットポイントに基づく追跡行動の総報酬rは4項の報酬を加重したものであり、
r2=k21r21+k22r22+k23r23+k24r24
式中、k23、k24はそれぞれ加重値であり、
AUVが次の部分の壁を追跡するまで徐々に調整したとき、たとえば、外直角環境におけるレンジングソナーが再度ターゲット壁を検知したか、内直角環境における前方ソナーがさらに前方の壁を検知しない場合、仮想ターゲットポイントを削除し、一般的な壁追跡行動ネットワークを呼び出し、
前記行動のうち障害物回避過程においては、以下のステップを含み、
AUV障害物回避行動のニーズについて、環境状態の特徴入力は3つの前方ソナーと両側のそれぞれに設けられたフロントソナーのデータを含み、AUVは、障害物を回避しながらターゲットポイントの方向へ近づき、特徴入力はAUVの現在の位置座標(xAUV,yAUV)、ターゲットポイント位置座標(xgoal,ygoal)、現在の向首角θ及びターゲット向首角βの計11次元の入力をさらに含み、
報酬関数については、報酬信号が3項に分けられ、第1項は障害物に対するAUV距離に基づいて得られた報酬値r31であり、AUVが障害物に近づくと、負の報酬の警告を取得し、AUVが障害物から離間すると、正の報酬を取得し、AUVが障害物から離間して航行するように促し、障害物と衝突すると報酬値−1を取得し、現在のトレーニング周期を終了し、
r33=kccos(α)
式中、kCは壁障害物の回避過程に対応する報酬係数であり、
最後の総報酬信号はこの3項の報酬値を加重したものに等しく、
r3=k31r31+k32r32+k33r33
式中、k31〜k33はそれぞれ加重値であり、
強化学習は、動作から環境へのマッピングをトレーニングするものであり、ロボットを環境として、DDPGトレーニングを通じて力とトルクを得て水中ロボットに作用させ、AUVモデルを用いて計算することによりロボットの速度と角速度を得て、速度、角速度とターゲット速度、ターゲット角速度との誤差を利用して報酬値r4=−|△v+△Ψ|を設計し、ここで△vは速度誤差であり、△Ψは向首誤差であり、
また、トレーニング中のAUVモデルにランダム干渉力を追加することで、DDPGに基づく制御システムをトレーニングにより得て、制御システムのトレーニングが完了した後、ロボットの現在の位置及びターゲット経路から、経路追跡戦略に従ってターゲット命令を得て、DDPG制御システムを用いてロボットを計画命令に従うように制御する、ことを特徴とする強化学習に基づくAUV行動計画及び動作制御方法。 AUV action plan and motion control method based on reinforcement learning.
Underwater robot tunnel detection is defined as a total task, or task, and actions to complete the task include moving to a target, wall tracking, and obstacle avoidance, completing the robot-planned action underwater. And the steps to define the concrete control instructions that occur for
When the AUV performs the tunnel detection task, it uses the deep reinforcement learning DQN algorithm to perform action planning in real time based on the underwater environment to be detected, that is, it builds an action planning architecture based on multi-action network calls. Steps to define the input and output behaviors of the environmental state characteristics of the three behaviors according to the needs of the task, build the corresponding deep learning behavioral network, and design the reward function.
The steps that the planning system completes the tunnel detection task by calling the trained behavior network,
Includes steps in which the control system completes planned actions by calling a trained operating network.
The process of building the corresponding deep learning behavioral network and designing the reward function involves the following steps:
The tunnel detection task is broken down into action sequences, multiple feasible route points are planned based on prior environmental information in global route planning, the AUV departs from the placement position and arrives at each route point in sequence.
Since the route point is a global plan under a known environment, during the travel process, the AUV calls the obstacle avoidance action to safely arrive at the route point based on the real-time environmental state, and the AUV is the main tunnel detection task. Call wall tracking action to complete the task according to a given detection target,
The decision module includes global data, decision system, action library and evaluation system, and task information, situation information and planning knowledge are stored in the global data. The decision system is a self-learning planning system combined with the DQN algorithm. , Trained, extract trained network parameters from the behavior library prior to performing the planning task, then plan the current behavior behavior using the current environmental state information as input, and the evaluation system is an enhanced learning algorithm. It is a reward function system of, and each time AUV plans and executes one action action plan, it provides reward based on the state environment and task information, and all the data is stored in the global database.
Among the above actions, the process of moving to the target includes the following steps.
The movement action to the target point is to navigate to the target point while adjusting the head angle when the AUV does not detect an obstacle, and the relationship between the position and angle of the AUV and the target point is mainly used as the feature input amount. In consideration, specifically, the current AUV position coordinates (x AUV , y AUV ), the target point coordinates (x goal , y goal ), the current heading angle θ, and the target heading angle β are input in a total of 6 dimensions. Among them, the target heading angle β is the heading angle when the AUV is navigating to the target.
Regarding the reward function, when the AUV navigates to the target point in an obstacle-free environment due to the movement action to the target, the reward function is set to the second term.
Item 1 r 11 considers the change in the distance between the AUV and the target point.
The smaller the absolute value of α, the larger the reward value to be acquired.
r 12 = k A cos (α) (3)
In the formula, k A is the reward coefficient corresponding to the process of moving to the target.
The total reward value is the weight of two terms,
r 1 = k 11 r 11 + k 12 r 12 (4)
In the formula, k 11 and k 12 are weighted values, respectively.
The wall tracking process of the above actions includes the following steps:
The AUV wall tracking behavior takes into account information on the distance and relative angle between the AUV and the wall, and the AUV measures the distance x 4 and x 5 of the AUV from the wall through two front and rear ranging sonars located on one side. Acquired,
Obtain the current AUV head angle θ with the compass, estimate the current wall angle θ wall, and
The reward function is to keep the AUV as parallel to the wall as possible and keep a certain distance from the wall, and the reward signal of the wall tracking action based on the virtual target point is mainly set in the 4th term, and the general wall tracking action. Reward signal is mainly set to 2 items,
The first term considers the angle formed by the AUV and the current wall as in equation (6), and when the angle between the AUV and the wall increases and exceeds the threshold value, a negative reward value is obtained and the angle between the AUV and the wall is obtained. When is reduced, you get a positive reward value,
r 2 = k 21 r 21 + k 22 r 22 (8)
In the formula, k 21 and k 22 are weighted values, respectively.
In tracking based on virtual target points, this virtual target point is a virtual target point created by a wall with an outer right angle and an inner right angle, and if the environment is an outer right angle, when the front sonar is not detecting an obstacle. Since the input to is the maximum detection distance, a virtual wall is built, a virtual target point is added, and if the environment is at right angles, when the forward sonar detects the wall, the AUV faces the other of the current target walls. A virtual target point is built on the side of
The construction of the reward function based on the virtual target points is as follows,
In the formula, k B is the reward factor corresponding to the wall tracking process.
The total reward r for tracking behavior based on virtual target points is the weight of the reward in item 4.
r 2 = k 21 r 21 + k 22 r 22 + k 23 r 23 + k 24 r 24
In the formula, k 23 and k 24 are weighted values, respectively.
When the AUV is gradually adjusted until it tracks the next part of the wall, for example, if the ranging sonar in the outer right angle environment detects the target wall again, or if the anterior sonar in the inner right angle environment does not detect the further anterior wall. Delete the virtual target point, call the general wall tracking behavior network,
Among the above actions, the obstacle avoidance process includes the following steps.
For the needs of AUV obstacle avoidance behavior, the environmental state feature inputs include data for the three front sonars and front sonars on each side, and the AUV approaches the target point while avoiding obstacles. The feature input further includes a total of 11-dimensional inputs of the current position coordinates (x AUV , y AUV ) of the AUV, the target point position coordinates (x goal , y goal ), the current heading angle θ, and the target heading angle β. ,
Regarding the reward function, the reward signal is divided into three terms, the first term is the reward value r 31 obtained based on the AUV distance to the obstacle, and when the AUV approaches the obstacle, a negative reward warning is given. Obtain and get a positive reward when the AUV moves away from the obstacle, encourage the AUV to navigate away from the obstacle, get a reward value of -1 when colliding with the obstacle, and set the current training cycle. Finished
r 33 = k c cos (α)
In the formula, k C is the reward coefficient corresponding to the wall obstacle avoidance process.
The final total reward signal is equal to the weight of the reward values in these three terms,
r 3 = k 31 r 31 + k 32 r 32 + k 33 r 33
In the formula, k 31 to k 33 are weighted values, respectively.
Reinforcement learning trains the mapping from motion to environment. Using the robot as the environment, the force and torque are obtained through DDPG training to act on the underwater robot, and the speed of the robot is calculated by using the AUV model. Obtain the angular velocity and design the reward value r 4 =-| △ v + △ Ψ | using the error between the velocity, the angular velocity and the target velocity, and the target angular velocity, where Δv is the velocity error and ΔΨ is It is a heading error,
In addition, by adding random interference force to the AUV model during training, a control system based on DDPG is obtained by training, and after the training of the control system is completed, the route tracking strategy is performed from the current position and target route of the robot. AUV action planning and motion control method based on enhanced learning, characterized in that a target command is obtained according to the above and the robot is controlled to follow the planning command using a DDPG control system.
DDPGコントローラが、強化学習アルゴリズムにおける動作をロボットの推力及びトルクに対応させ、アルゴリズムにおける状態をロボットの速度及び角速度に対応させ、アルゴリズムについて学習トレーニングを行い、力から状態へのマッピング関係を取得するステップと、
DDPGをAUV制御に適用するには、まず、Criticニューラルネットワーク構造Q(stat|θQ)及びActorニューラルネットワーク構造μ(st|θμ)(θQとθμはネットワークの重みパラメータを示す。)を作成し、それぞれCriticとActorの2つの構造中に、ターゲットネットワークtarget_netと予測ネットワークeval_netという2つのニューラルネットワークを作成し、次に、DDPGの動作出力を制御システムの作用力τとして、制御システムが出力する作用力でロボットの動きを制御し、
ロボット状態sは主にロボットの速度と向首として示され、
V=[u,v,r]
Ψ=[0,θ,Ψ]
式中、u、v、rはそれぞれAUVの縦方向速度、横方向速度及び角速度であり、ΨはAUVの向首角であり、
v、rは無視され、
式τ=μ(st)=μ(μ(t),Ψ(t))は、制御システムの出力力がロボットの速度、向首及びトリム角がターゲット命令のようになるように制御することを示す、ことを特徴とする請求項1、2又は3に記載の強化学習に基づくAUV行動計画及び動作制御方法。 In the process of controlling the robot to obey the planning command using the DDPG control system,
The step in which the DDPG controller maps the movement in the reinforcement learning algorithm to the thrust and torque of the robot, the state in the algorithm to the speed and angular velocity of the robot, performs learning training on the algorithm, and acquires the mapping relationship from force to state. When,
To apply DDPG the AUV control, first, Critic neural network structure Q (s t a t | θ Q) and Actor neural network structure μ (s t | θμ) ( θ Q and Shitamyu indicates the weight parameter of the network ) Is created, and two neural networks, the target network target_net and the prediction network equal_net, are created in the two structures of Critic and Actor, respectively, and then the operation output of the DDPG is controlled as the acting force τ of the control system. The movement of the robot is controlled by the acting force output by the system.
The robot state s is mainly shown as the speed and heading of the robot,
V = [u, v, r]
Ψ = [0, θ, Ψ]
In the equation, u, v, and r are the longitudinal velocity, lateral velocity, and angular velocity of the AUV, respectively, and Ψ is the heading angle of the AUV.
v, r are ignored,
The equation τ = μ ( st ) = μ (μ (t), Ψ (t)) controls the output force of the control system so that the speed, heading and trim angle of the robot are like the target command. The AUV action plan and motion control method based on the reinforcement learning according to claim 1, 2 or 3, wherein
R+γmaxaQ(s’,a)は現実Q値であり、現実Q値は、実際報酬Rに基づいて、次の時刻の状態s’と動作現実ネットワークにより得た動作a’を状態現実ネットワークにより得たQ値とを加算して得るものである、ことを特徴とする請求項4に記載の強化学習に基づくAUV行動計画及び動作制御方法。 In the Critic, network learning is performed using the loss function of the actual Q value and the estimated Q value.
R + γmax a Q (s', a) is the reality Q value, and the reality Q value is the state s'at the next time and the operation a'obtained by the operation reality network based on the actual reward R by the state reality network. The AUV action plan and motion control method based on reinforcement learning according to claim 4, wherein the obtained Q value is added and obtained.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775602.7A CN110333739B (en) | 2019-08-21 | 2019-08-21 | AUV (autonomous Underwater vehicle) behavior planning and action control method based on reinforcement learning |
CN201910775602.7 | 2019-08-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021034050A true JP2021034050A (en) | 2021-03-01 |
JP6854549B2 JP6854549B2 (en) | 2021-04-07 |
Family
ID=68150103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020139299A Active JP6854549B2 (en) | 2019-08-21 | 2020-08-20 | AUV action planning and motion control methods based on reinforcement learning |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6854549B2 (en) |
CN (1) | CN110333739B (en) |
Cited By (101)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283181A (en) * | 2021-06-28 | 2021-08-20 | 上海海事大学 | Method for rapidly capturing multiple AUVs in barrier and ocean current environment |
CN113290557A (en) * | 2021-05-21 | 2021-08-24 | 南京信息工程大学 | Snake-shaped robot control method based on data driving |
CN113433953A (en) * | 2021-08-25 | 2021-09-24 | 北京航空航天大学 | Multi-robot cooperative obstacle avoidance method and device and intelligent robot |
CN113515119A (en) * | 2021-04-25 | 2021-10-19 | 华北电力大学 | Routing planning scheme of inspection robot in transformer substation based on reinforcement learning |
CN113552881A (en) * | 2021-07-15 | 2021-10-26 | 浙江工业大学 | Multi-path planning data set generation method for neural network training |
CN113573235A (en) * | 2021-08-16 | 2021-10-29 | 苏州云享阁智能科技有限公司 | Method for obtaining optimal resource allocation and improving positioning accuracy based on DDPG algorithm |
CN113589842A (en) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | Unmanned clustering task cooperation method based on multi-agent reinforcement learning |
CN113592958A (en) * | 2021-08-13 | 2021-11-02 | 大连海事大学 | Monocular vision based AUV docking station optical guiding method |
CN113592162A (en) * | 2021-07-22 | 2021-11-02 | 西北工业大学 | Multi-agent reinforcement learning-based multi-underwater unmanned aircraft collaborative search method |
CN113671834A (en) * | 2021-08-24 | 2021-11-19 | 郑州大学 | Robot flexible behavior decision method and device |
CN113741533A (en) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | Unmanned aerial vehicle intelligent decision-making system based on simulation learning and reinforcement learning |
CN113771044A (en) * | 2021-10-09 | 2021-12-10 | 北京卫星环境工程研究所 | Robot tail end load dynamic stress sensing method |
CN113791612A (en) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | Intelligent agent real-time path planning method, device, equipment and storage medium |
CN113821903A (en) * | 2021-07-09 | 2021-12-21 | 腾讯科技(深圳)有限公司 | Temperature control method and device, modular data center and storage medium |
CN113821035A (en) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | Unmanned ship trajectory tracking control method and device |
CN113829351A (en) * | 2021-10-13 | 2021-12-24 | 广西大学 | Collaborative control method of mobile mechanical arm based on reinforcement learning |
CN113836788A (en) * | 2021-08-24 | 2021-12-24 | 浙江大学 | Acceleration method for flow industry reinforcement learning control based on local data enhancement |
CN113848946A (en) * | 2021-10-20 | 2021-12-28 | 郑州大学 | Robot behavior decision method and device based on neural regulation mechanism |
CN113848974A (en) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | Aircraft trajectory planning method and system based on deep reinforcement learning |
CN113848927A (en) * | 2021-10-07 | 2021-12-28 | 兰州理工大学 | Automatic driving system capable of automatically planning path |
CN113867396A (en) * | 2021-10-22 | 2021-12-31 | 吉林大学 | Method and device for planning and smoothing air route of internet unmanned aerial vehicle |
CN113885564A (en) * | 2021-10-20 | 2022-01-04 | 哈尔滨工程大学 | Big data-based team tracking planning navigation method |
CN113885549A (en) * | 2021-11-23 | 2022-01-04 | 江苏科技大学 | Four-rotor attitude trajectory control method based on dimension cutting PPO algorithm |
CN113919217A (en) * | 2021-10-08 | 2022-01-11 | 南开大学 | Self-adaptive parameter setting method and device for active disturbance rejection controller |
CN113916254A (en) * | 2021-07-22 | 2022-01-11 | 北京控制工程研究所 | Docking type capture spacecraft autonomous rendezvous and docking test method |
CN113985876A (en) * | 2021-10-27 | 2022-01-28 | 广州大学 | Marine garbage recycling path planning method and system based on foraging of bionic fishes |
CN114003029A (en) * | 2021-09-12 | 2022-02-01 | 西北工业大学 | Acousto-optic fusion guided robust docking recovery method for autonomous underwater vehicle |
CN114019805A (en) * | 2021-11-17 | 2022-02-08 | 九江职业技术学院 | Model prediction docking control method of under-actuated auv |
CN114020013A (en) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | Unmanned aerial vehicle formation collision avoidance method based on deep reinforcement learning |
CN114063624A (en) * | 2021-10-22 | 2022-02-18 | 中国船舶重工集团公司第七一九研究所 | Multi-mode planning motion controller of crawling unmanned submersible and control method thereof |
CN114077258A (en) * | 2021-11-22 | 2022-02-22 | 江苏科技大学 | Unmanned ship pose control method based on reinforcement learning PPO2 algorithm |
CN114089633A (en) * | 2021-11-19 | 2022-02-25 | 江苏科技大学 | Multi-motor coupling drive control device and method for underwater robot |
CN114153216A (en) * | 2021-12-14 | 2022-03-08 | 浙江大学湖州研究院 | Lunar surface path planning system and method based on deep reinforcement learning and block planning |
CN114155298A (en) * | 2021-12-09 | 2022-03-08 | 山东大学 | Robot leakage blocking method and system based on active sensing |
CN114169234A (en) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | Scheduling optimization method and system for unmanned aerial vehicle-assisted mobile edge calculation |
CN114200833A (en) * | 2021-11-24 | 2022-03-18 | 华中科技大学 | Observer-based robot network dynamic area coverage control method |
CN114296440A (en) * | 2021-09-30 | 2022-04-08 | 中国航空工业集团公司北京长城航空测控技术研究所 | AGV real-time scheduling method integrating online learning |
CN114355915A (en) * | 2021-12-27 | 2022-04-15 | 杭州电子科技大学 | AGV path planning based on deep reinforcement learning |
CN114355980A (en) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | Four-rotor unmanned aerial vehicle autonomous navigation method and system based on deep reinforcement learning |
CN114399225A (en) * | 2022-01-24 | 2022-04-26 | 北京理工大学 | Q-Learning-based deep space probe task planning method |
CN114527642A (en) * | 2022-03-03 | 2022-05-24 | 东北大学 | AGV automatic PID parameter adjusting method based on deep reinforcement learning |
CN114578712A (en) * | 2022-03-08 | 2022-06-03 | 北京航空航天大学 | Multifunctional underwater autonomous vehicle cluster simulation system |
CN114578830A (en) * | 2022-04-11 | 2022-06-03 | 北京化工大学 | Snake-imitating robot motion planning method based on reinforcement learning |
CN114610070A (en) * | 2022-03-21 | 2022-06-10 | 大连理工大学 | Unmanned aerial vehicle-cooperated wind power plant intelligent inspection method |
CN114625151A (en) * | 2022-03-10 | 2022-06-14 | 大连理工大学 | Underwater robot obstacle avoidance path planning method based on reinforcement learning |
CN114679699A (en) * | 2022-03-23 | 2022-06-28 | 重庆邮电大学 | Multi-unmanned-aerial-vehicle energy-saving cruise communication coverage method based on deep reinforcement learning |
CN114675535A (en) * | 2022-03-07 | 2022-06-28 | 大连理工大学 | Aero-engine transition state optimization control method based on reinforcement learning |
CN114692890A (en) * | 2021-12-24 | 2022-07-01 | 中国人民解放军军事科学院战争研究院 | Model-based weight combination planning value extension method |
CN114721397A (en) * | 2022-04-19 | 2022-07-08 | 北方工业大学 | Maze robot path planning method based on reinforcement learning and curiosity |
CN114785397A (en) * | 2022-03-11 | 2022-07-22 | 浙江以正通信技术有限公司 | Unmanned aerial vehicle base station control method, flight trajectory optimization model construction and training method |
CN114800488A (en) * | 2022-03-18 | 2022-07-29 | 清华大学深圳国际研究生院 | Redundant mechanical arm operability optimization method and device based on deep reinforcement learning |
CN114815864A (en) * | 2022-03-31 | 2022-07-29 | 哈尔滨工程大学 | Hypersonic aircraft track planning method based on reinforcement learning |
CN114840928A (en) * | 2022-05-07 | 2022-08-02 | 西北工业大学 | Underwater vehicle cluster motion simulation method based on deep learning |
CN114859910A (en) * | 2022-04-28 | 2022-08-05 | 武汉理工大学 | Unmanned ship path following system and method based on deep reinforcement learning |
CN114879671A (en) * | 2022-05-04 | 2022-08-09 | 哈尔滨工程大学 | Unmanned ship trajectory tracking control method based on reinforcement learning MPC |
CN114879660A (en) * | 2022-04-14 | 2022-08-09 | 海南大学 | Robot environment sensing method based on target driving |
CN114879706A (en) * | 2022-06-17 | 2022-08-09 | 哈尔滨工程大学 | AUV target searching method combining RRT and artificial potential field method |
CN114895697A (en) * | 2022-05-27 | 2022-08-12 | 西北工业大学 | Unmanned aerial vehicle flight decision method based on meta-reinforcement learning parallel training algorithm |
CN114910072A (en) * | 2022-04-21 | 2022-08-16 | 海南大学 | Unmanned aerial vehicle navigation method, device, equipment and medium based on deep reinforcement learning |
CN114923486A (en) * | 2022-04-21 | 2022-08-19 | 厦门大学 | Robot navigation method based on global environment map and attention emphasis |
CN114964268A (en) * | 2022-07-29 | 2022-08-30 | 白杨时代(北京)科技有限公司 | Unmanned aerial vehicle navigation method and device |
CN115016405A (en) * | 2022-05-26 | 2022-09-06 | 天津大学 | Process route multi-objective optimization method based on deep reinforcement learning |
CN115033000A (en) * | 2022-07-06 | 2022-09-09 | 重庆大学 | Dual-target path planning method based on deep reinforcement learning |
CN115119174A (en) * | 2022-06-30 | 2022-09-27 | 西安理工大学 | Unmanned aerial vehicle autonomous deployment method based on energy consumption optimization in irrigation area scene |
CN115167484A (en) * | 2022-05-13 | 2022-10-11 | 西北工业大学 | Autonomous underwater vehicle model prediction path tracking method based on neural network |
CN115167430A (en) * | 2022-07-21 | 2022-10-11 | 山东大学 | Robot navigation obstacle avoidance method with full-range information recovery capability |
CN115202356A (en) * | 2022-07-21 | 2022-10-18 | 大连海事大学 | Three-dimensional underwater under-actuated AUV (autonomous underwater vehicle) recovery path planning method |
CN115278901A (en) * | 2022-08-04 | 2022-11-01 | 哈尔滨工程大学 | Self-adaptive communication method of underwater non-positioning mobile network |
CN115314854A (en) * | 2022-08-08 | 2022-11-08 | 广东智能无人系统研究院 | Unmanned inspection system and method for offshore wind power underwater facilities |
CN115328143A (en) * | 2022-08-26 | 2022-11-11 | 齐齐哈尔大学 | Master-slave water surface robot recovery guiding method based on environment driving |
CN115468454A (en) * | 2022-08-30 | 2022-12-13 | 南京理工大学 | Multi-bullet cooperative countermeasure strategy combining virtual force method and missile and war cooperation |
CN115494831A (en) * | 2021-06-17 | 2022-12-20 | 中国科学院沈阳自动化研究所 | Man-machine autonomous intelligent cooperative tracking method |
CN115493597A (en) * | 2022-11-15 | 2022-12-20 | 山东大学 | AUV path planning control method based on SAC algorithm |
CN115494733A (en) * | 2022-10-27 | 2022-12-20 | 南方电网调峰调频发电有限公司储能科研院 | Underwater robot self-adaptive control method based on gazebo |
CN115550236A (en) * | 2022-08-31 | 2022-12-30 | 国网江西省电力有限公司信息通信分公司 | Data protection method for routing optimization of security middlebox resource pool |
CN115686076A (en) * | 2022-11-17 | 2023-02-03 | 中国人民解放军海军航空大学 | Unmanned aerial vehicle path planning method based on incremental development depth reinforcement learning |
CN115981369A (en) * | 2023-01-09 | 2023-04-18 | 南京航空航天大学 | Method for joint task allocation and flight path planning of multiple unmanned aerial vehicles under limited communication |
CN115993831A (en) * | 2023-03-23 | 2023-04-21 | 安徽大学 | Method for planning path of robot non-target network based on deep reinforcement learning |
CN116295449A (en) * | 2023-05-25 | 2023-06-23 | 吉林大学 | Method and device for indicating path of autonomous underwater vehicle |
CN116301027A (en) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | Method for planning path of unmanned aerial vehicle in urban airspace based on safety reinforcement learning |
CN116430900A (en) * | 2023-05-04 | 2023-07-14 | 四川大学 | Game track planning method of hypersonic warhead based on deep reinforcement learning |
CN116424573A (en) * | 2023-02-16 | 2023-07-14 | 哈尔滨工业大学(深圳) | Non-dragging satellite control method under unknown complex environment |
CN116578102A (en) * | 2023-07-13 | 2023-08-11 | 清华大学 | Obstacle avoidance method and device for autonomous underwater vehicle, computer equipment and storage medium |
CN116700020A (en) * | 2023-08-10 | 2023-09-05 | 西安爱生无人机技术有限公司 | Control method and system for unmanned aerial vehicle with variable sweepback wings, unmanned aerial vehicle and storage medium |
CN116909280A (en) * | 2023-07-20 | 2023-10-20 | 山东科技大学 | Reinforced learning double-layer decision AGV obstacle avoidance method based on visual perception |
CN117035263A (en) * | 2023-06-27 | 2023-11-10 | 哈尔滨工程大学 | Task allocation method, computer and storage medium for multiple AUV nodes in underwater large-scale environment |
CN117055591A (en) * | 2023-10-11 | 2023-11-14 | 青岛哈尔滨工程大学创新发展中心 | AUV global path planning method integrating ocean current influence and mobility constraint |
CN117130379A (en) * | 2023-07-31 | 2023-11-28 | 南通大学 | LQR near vision distance-based unmanned aerial vehicle air combat attack method |
CN117140527A (en) * | 2023-09-27 | 2023-12-01 | 中山大学·深圳 | Mechanical arm control method and system based on deep reinforcement learning algorithm |
CN117233520A (en) * | 2023-11-16 | 2023-12-15 | 青岛澎湃海洋探索技术有限公司 | AUV propulsion system fault detection and evaluation method based on improved Sim-GAN |
CN117682429A (en) * | 2024-02-01 | 2024-03-12 | 华芯(嘉兴)智能装备有限公司 | Crown block carrying instruction scheduling method and device of material control system |
CN117744540A (en) * | 2024-02-19 | 2024-03-22 | 青岛哈尔滨工程大学创新发展中心 | Underwater operation hydrodynamic characteristic trend prediction method of underwater unmanned aircraft |
CN117856904A (en) * | 2023-12-12 | 2024-04-09 | 山东科技大学 | Multi-AUV cooperative mobile optical communication method based on deep reinforcement learning |
CN117872347A (en) * | 2024-01-12 | 2024-04-12 | 兰州理工大学 | JPDA multi-target tracking method and system based on double-layer reinforcement learning optimization |
CN117970931A (en) * | 2024-03-29 | 2024-05-03 | 青岛科技大学 | Robot dynamic path planning method, equipment and medium |
CN117990111A (en) * | 2024-04-03 | 2024-05-07 | 北京盛安同力科技开发有限公司 | Method and system for planning partial path of lunar exploration robot based on MBSE model |
CN118189977A (en) * | 2024-05-17 | 2024-06-14 | 广东海洋大学 | Underwater robot cluster path planning and control method based on artificial intelligence |
CN118249474A (en) * | 2024-05-27 | 2024-06-25 | 西北工业大学宁波研究院 | Energy control strategy of multi-source energy harvesting and storing system of simulated ray of the Hepialus logging device |
CN118244755A (en) * | 2024-03-11 | 2024-06-25 | 华中科技大学 | Underwater vehicle docking control method and device based on imaging sonar |
CN118289183A (en) * | 2024-04-08 | 2024-07-05 | 山东科技大学 | Sea cucumber catching robot imitating Indian brin shark and pose control method thereof |
CN118466569A (en) * | 2024-07-10 | 2024-08-09 | 中南大学 | Hypersonic variant aircraft preset performance control method based on interval theory |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110658827B (en) * | 2019-10-25 | 2020-06-23 | 嘉应学院 | Transport vehicle automatic guiding system and method based on Internet of things |
CN112731804A (en) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | Method and device for realizing path following |
CN111079936B (en) * | 2019-11-06 | 2023-03-14 | 中国科学院自动化研究所 | Wave fin propulsion underwater operation robot tracking control method based on reinforcement learning |
CN110909859B (en) * | 2019-11-29 | 2023-03-24 | 中国科学院自动化研究所 | Bionic robot fish motion control method and system based on antagonistic structured control |
CN111198568A (en) * | 2019-12-23 | 2020-05-26 | 燕山大学 | Underwater robot obstacle avoidance control method based on Q learning |
CN111142522B (en) * | 2019-12-25 | 2023-06-09 | 北京航空航天大学杭州创新研究院 | Method for controlling agent of hierarchical reinforcement learning |
CN111061277B (en) | 2019-12-31 | 2022-04-05 | 歌尔股份有限公司 | Unmanned vehicle global path planning method and device |
CN111273677B (en) * | 2020-02-11 | 2023-05-12 | 哈尔滨工程大学 | Autonomous underwater robot speed and heading control method based on reinforcement learning technology |
CN111290270B (en) * | 2020-02-11 | 2022-06-03 | 哈尔滨工程大学 | Underwater robot backstepping speed and heading control method based on Q-learning parameter adaptive technology |
CN111240345B (en) * | 2020-02-11 | 2023-04-07 | 哈尔滨工程大学 | Underwater robot trajectory tracking method based on double BP network reinforcement learning framework |
EP4110431A4 (en) * | 2020-02-27 | 2023-08-02 | Siemens Healthcare Diagnostics Inc. | Automatic sensor trace validation using machine learning |
CN111638646B (en) * | 2020-05-29 | 2024-05-28 | 平安科技(深圳)有限公司 | Training method and device for walking controller of quadruped robot, terminal and storage medium |
CN111667513B (en) * | 2020-06-01 | 2022-02-18 | 西北工业大学 | Unmanned aerial vehicle maneuvering target tracking method based on DDPG transfer learning |
CN111813143B (en) * | 2020-06-09 | 2022-04-19 | 天津大学 | Underwater glider intelligent control system and method based on reinforcement learning |
CN113799949B (en) * | 2020-06-11 | 2022-07-26 | 中国科学院沈阳自动化研究所 | AUV buoyancy adjusting method based on Q learning |
CN111982117B (en) * | 2020-08-17 | 2022-05-10 | 电子科技大学 | AUV optical guiding and direction finding method based on deep learning |
CN112162564B (en) * | 2020-09-25 | 2021-09-28 | 南京大学 | Unmanned aerial vehicle flight control method based on simulation learning and reinforcement learning algorithm |
CN112179367B (en) * | 2020-09-25 | 2023-07-04 | 广东海洋大学 | Intelligent autonomous navigation method based on deep reinforcement learning |
CN112241176B (en) * | 2020-10-16 | 2022-10-28 | 哈尔滨工程大学 | Path planning and obstacle avoidance control method of underwater autonomous vehicle in large-scale continuous obstacle environment |
CN112347961B (en) * | 2020-11-16 | 2023-05-26 | 哈尔滨工业大学 | Intelligent target capturing method and system for unmanned platform in water flow |
CN112526524B (en) * | 2020-12-09 | 2022-06-17 | 青岛澎湃海洋探索技术有限公司 | Underwater fishing net detection method based on forward-looking sonar image and AUV platform |
CN112560671B (en) * | 2020-12-15 | 2022-04-12 | 哈尔滨工程大学 | Ship detection method based on rotary convolution neural network |
CN113052372B (en) * | 2021-03-17 | 2022-08-02 | 哈尔滨工程大学 | Dynamic AUV tracking path planning method based on deep reinforcement learning |
CN113050430B (en) * | 2021-03-29 | 2023-05-02 | 浙江大学 | Drainage system control method based on robust reinforcement learning |
CN113406957B (en) * | 2021-05-19 | 2022-07-08 | 成都理工大学 | Mobile robot autonomous navigation method based on immune deep reinforcement learning |
CN113177366B (en) * | 2021-05-28 | 2024-02-02 | 华北电力大学 | Comprehensive energy system planning method and device and terminal equipment |
CN113268074B (en) * | 2021-06-07 | 2022-05-13 | 哈尔滨工程大学 | Unmanned aerial vehicle flight path planning method based on joint optimization |
CN113093773B (en) * | 2021-06-10 | 2021-09-03 | 深之蓝海洋科技股份有限公司 | Underwater structure detection method, system, equipment and medium based on underwater robot |
CN113268933B (en) * | 2021-06-18 | 2022-02-15 | 大连理工大学 | Rapid structural parameter design method of S-shaped emergency robot based on reinforcement learning |
CN113252028B (en) * | 2021-06-28 | 2021-09-21 | 深之蓝海洋科技股份有限公司 | Positioning method of robot in water delivery tunnel, electronic device and storage medium |
CN114139675B (en) * | 2021-12-08 | 2024-09-20 | 中国科学技术大学 | Method for improving selection reliability and action accuracy in intelligent agent control |
CN114995468B (en) * | 2022-06-06 | 2023-03-31 | 南通大学 | Intelligent control method of underwater robot based on Bayesian depth reinforcement learning |
CN115291616B (en) * | 2022-07-25 | 2023-05-26 | 江苏海洋大学 | AUV dynamic obstacle avoidance method based on near-end strategy optimization algorithm |
CN115178944B (en) * | 2022-08-04 | 2024-05-24 | 广东工业大学 | Narrow space robot operation planning method for safety reinforcement learning |
CN115586782B (en) * | 2022-10-17 | 2024-04-12 | 湖南大学 | Autonomous underwater robot motion control method and device |
CN115657678B (en) * | 2022-10-28 | 2024-04-26 | 中国船舶重工集团公司第七一九研究所 | Method and system for generating underwater unmanned underwater vehicle track facing complex dynamic environment |
CN115855226B (en) * | 2023-02-24 | 2023-05-30 | 青岛科技大学 | Multi-AUV cooperative underwater data acquisition method based on DQN and matrix completion |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008052473A (en) * | 2006-08-24 | 2008-03-06 | Nippon Telegr & Teleph Corp <Ntt> | Operation control method and device for underwater robot, program and its recording medium |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006309519A (en) * | 2005-04-28 | 2006-11-09 | Institute Of National Colleges Of Technology Japan | Reinforcement learning system and reinforcement learning program |
JP4929449B2 (en) * | 2005-09-02 | 2012-05-09 | 国立大学法人横浜国立大学 | Reinforcement learning apparatus and reinforcement learning method |
CN102402712B (en) * | 2011-08-31 | 2014-03-05 | 山东大学 | Robot reinforced learning initialization method based on neural network |
CN115338859A (en) * | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | Robotic deep reinforcement learning |
DE202017106132U1 (en) * | 2016-10-10 | 2017-11-13 | Google Llc | Neural networks for selecting actions to be performed by a robot agent |
CN107102644B (en) * | 2017-06-22 | 2019-12-10 | 华南师范大学 | Underwater robot track control method and control system based on deep reinforcement learning |
CN107490965B (en) * | 2017-08-21 | 2020-02-07 | 西北工业大学 | Multi-constraint trajectory planning method for space free floating mechanical arm |
CN108594834B (en) * | 2018-03-23 | 2020-12-22 | 哈尔滨工程大学 | Multi-AUV self-adaptive target searching and obstacle avoiding method oriented to unknown environment |
CN109540151B (en) * | 2018-03-25 | 2020-01-17 | 哈尔滨工程大学 | AUV three-dimensional path planning method based on reinforcement learning |
CN108444481B (en) * | 2018-03-25 | 2019-08-06 | 哈尔滨工程大学 | A kind of underwater hiding-machine paths planning method based on aid decision-making system |
CN108803321B (en) * | 2018-05-30 | 2020-07-10 | 清华大学 | Autonomous underwater vehicle track tracking control method based on deep reinforcement learning |
CN108873687B (en) * | 2018-07-11 | 2020-06-26 | 哈尔滨工程大学 | Intelligent underwater robot behavior system planning method based on deep Q learning |
CN109241552B (en) * | 2018-07-12 | 2022-04-05 | 哈尔滨工程大学 | Underwater robot motion planning method based on multiple constraint targets |
CN109212476B (en) * | 2018-09-18 | 2023-03-14 | 广西大学 | RFID indoor positioning algorithm based on DDPG |
CN109407676B (en) * | 2018-12-20 | 2019-08-02 | 哈尔滨工业大学 | The Obstacle Avoidance learnt based on DoubleDQN network and deeply |
-
2019
- 2019-08-21 CN CN201910775602.7A patent/CN110333739B/en active Active
-
2020
- 2020-08-20 JP JP2020139299A patent/JP6854549B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008052473A (en) * | 2006-08-24 | 2008-03-06 | Nippon Telegr & Teleph Corp <Ntt> | Operation control method and device for underwater robot, program and its recording medium |
Cited By (154)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515119A (en) * | 2021-04-25 | 2021-10-19 | 华北电力大学 | Routing planning scheme of inspection robot in transformer substation based on reinforcement learning |
CN113290557A (en) * | 2021-05-21 | 2021-08-24 | 南京信息工程大学 | Snake-shaped robot control method based on data driving |
CN115494831B (en) * | 2021-06-17 | 2024-04-16 | 中国科学院沈阳自动化研究所 | Tracking method for autonomous intelligent collaboration of human and machine |
CN115494831A (en) * | 2021-06-17 | 2022-12-20 | 中国科学院沈阳自动化研究所 | Man-machine autonomous intelligent cooperative tracking method |
CN113283181A (en) * | 2021-06-28 | 2021-08-20 | 上海海事大学 | Method for rapidly capturing multiple AUVs in barrier and ocean current environment |
CN113283181B (en) * | 2021-06-28 | 2024-02-27 | 上海海事大学 | Multi-AUV rapid trapping method in obstacle and ocean current environment |
CN113821903A (en) * | 2021-07-09 | 2021-12-21 | 腾讯科技(深圳)有限公司 | Temperature control method and device, modular data center and storage medium |
CN113821903B (en) * | 2021-07-09 | 2024-02-06 | 腾讯科技(深圳)有限公司 | Temperature control method and equipment, modularized data center and storage medium |
CN113552881A (en) * | 2021-07-15 | 2021-10-26 | 浙江工业大学 | Multi-path planning data set generation method for neural network training |
CN113552881B (en) * | 2021-07-15 | 2024-03-26 | 浙江工业大学 | Multipath planning data set generation method for neural network training |
CN113916254A (en) * | 2021-07-22 | 2022-01-11 | 北京控制工程研究所 | Docking type capture spacecraft autonomous rendezvous and docking test method |
CN113592162A (en) * | 2021-07-22 | 2021-11-02 | 西北工业大学 | Multi-agent reinforcement learning-based multi-underwater unmanned aircraft collaborative search method |
CN113592162B (en) * | 2021-07-22 | 2023-06-02 | 西北工业大学 | Multi-agent reinforcement learning-based multi-underwater unmanned vehicle collaborative search method |
CN113589842B (en) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | Unmanned cluster task cooperation method based on multi-agent reinforcement learning |
CN113589842A (en) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | Unmanned clustering task cooperation method based on multi-agent reinforcement learning |
CN113592958A (en) * | 2021-08-13 | 2021-11-02 | 大连海事大学 | Monocular vision based AUV docking station optical guiding method |
CN113573235A (en) * | 2021-08-16 | 2021-10-29 | 苏州云享阁智能科技有限公司 | Method for obtaining optimal resource allocation and improving positioning accuracy based on DDPG algorithm |
CN113791612A (en) * | 2021-08-17 | 2021-12-14 | 中南民族大学 | Intelligent agent real-time path planning method, device, equipment and storage medium |
CN113791612B (en) * | 2021-08-17 | 2023-10-24 | 中南民族大学 | Method, device, equipment and storage medium for planning real-time path of intelligent agent |
CN113836788A (en) * | 2021-08-24 | 2021-12-24 | 浙江大学 | Acceleration method for flow industry reinforcement learning control based on local data enhancement |
CN113671834A (en) * | 2021-08-24 | 2021-11-19 | 郑州大学 | Robot flexible behavior decision method and device |
CN113671834B (en) * | 2021-08-24 | 2023-09-01 | 郑州大学 | Robot flexible behavior decision method and equipment |
CN113836788B (en) * | 2021-08-24 | 2023-10-27 | 浙江大学 | Acceleration method for flow industrial reinforcement learning control based on local data enhancement |
CN113433953A (en) * | 2021-08-25 | 2021-09-24 | 北京航空航天大学 | Multi-robot cooperative obstacle avoidance method and device and intelligent robot |
CN114003029A (en) * | 2021-09-12 | 2022-02-01 | 西北工业大学 | Acousto-optic fusion guided robust docking recovery method for autonomous underwater vehicle |
CN114003029B (en) * | 2021-09-12 | 2023-06-30 | 西北工业大学 | Robust docking recovery method for autonomous underwater vehicle guided by acousto-optic fusion |
CN113741533A (en) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | Unmanned aerial vehicle intelligent decision-making system based on simulation learning and reinforcement learning |
CN113821035A (en) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | Unmanned ship trajectory tracking control method and device |
CN113848974B (en) * | 2021-09-28 | 2023-08-15 | 西安因诺航空科技有限公司 | Aircraft trajectory planning method and system based on deep reinforcement learning |
CN113848974A (en) * | 2021-09-28 | 2021-12-28 | 西北工业大学 | Aircraft trajectory planning method and system based on deep reinforcement learning |
CN114296440B (en) * | 2021-09-30 | 2024-04-09 | 中国航空工业集团公司北京长城航空测控技术研究所 | AGV real-time scheduling method integrating online learning |
CN114296440A (en) * | 2021-09-30 | 2022-04-08 | 中国航空工业集团公司北京长城航空测控技术研究所 | AGV real-time scheduling method integrating online learning |
CN113848927A (en) * | 2021-10-07 | 2021-12-28 | 兰州理工大学 | Automatic driving system capable of automatically planning path |
CN113919217B (en) * | 2021-10-08 | 2024-05-17 | 南开大学 | Adaptive parameter setting method and device for active disturbance rejection controller |
CN113919217A (en) * | 2021-10-08 | 2022-01-11 | 南开大学 | Self-adaptive parameter setting method and device for active disturbance rejection controller |
CN113771044B (en) * | 2021-10-09 | 2022-11-11 | 北京卫星环境工程研究所 | Robot tail end load dynamic stress sensing method |
CN113771044A (en) * | 2021-10-09 | 2021-12-10 | 北京卫星环境工程研究所 | Robot tail end load dynamic stress sensing method |
CN113829351B (en) * | 2021-10-13 | 2023-08-01 | 广西大学 | Cooperative control method of mobile mechanical arm based on reinforcement learning |
CN113829351A (en) * | 2021-10-13 | 2021-12-24 | 广西大学 | Collaborative control method of mobile mechanical arm based on reinforcement learning |
CN113848946B (en) * | 2021-10-20 | 2023-11-03 | 郑州大学 | Robot behavior decision method and equipment based on nerve regulation mechanism |
CN113848946A (en) * | 2021-10-20 | 2021-12-28 | 郑州大学 | Robot behavior decision method and device based on neural regulation mechanism |
CN113885564A (en) * | 2021-10-20 | 2022-01-04 | 哈尔滨工程大学 | Big data-based team tracking planning navigation method |
CN114063624A (en) * | 2021-10-22 | 2022-02-18 | 中国船舶重工集团公司第七一九研究所 | Multi-mode planning motion controller of crawling unmanned submersible and control method thereof |
CN113867396A (en) * | 2021-10-22 | 2021-12-31 | 吉林大学 | Method and device for planning and smoothing air route of internet unmanned aerial vehicle |
CN113867396B (en) * | 2021-10-22 | 2024-04-26 | 吉林大学 | Method and device for planning and smoothing route of network-connected unmanned aerial vehicle |
CN114020013A (en) * | 2021-10-26 | 2022-02-08 | 北航(四川)西部国际创新港科技有限公司 | Unmanned aerial vehicle formation collision avoidance method based on deep reinforcement learning |
CN114020013B (en) * | 2021-10-26 | 2024-03-15 | 北航(四川)西部国际创新港科技有限公司 | Unmanned aerial vehicle formation collision avoidance method based on deep reinforcement learning |
CN113985876A (en) * | 2021-10-27 | 2022-01-28 | 广州大学 | Marine garbage recycling path planning method and system based on foraging of bionic fishes |
CN113985876B (en) * | 2021-10-27 | 2023-09-26 | 广州大学 | Ocean garbage recycling path planning method and system based on bionic fish foraging |
CN114019805A (en) * | 2021-11-17 | 2022-02-08 | 九江职业技术学院 | Model prediction docking control method of under-actuated auv |
CN114089633B (en) * | 2021-11-19 | 2024-04-26 | 江苏科技大学 | Multi-motor coupling driving control device and method for underwater robot |
CN114089633A (en) * | 2021-11-19 | 2022-02-25 | 江苏科技大学 | Multi-motor coupling drive control device and method for underwater robot |
CN114077258A (en) * | 2021-11-22 | 2022-02-22 | 江苏科技大学 | Unmanned ship pose control method based on reinforcement learning PPO2 algorithm |
CN114077258B (en) * | 2021-11-22 | 2023-11-21 | 江苏科技大学 | Unmanned ship pose control method based on reinforcement learning PPO2 algorithm |
CN113885549A (en) * | 2021-11-23 | 2022-01-04 | 江苏科技大学 | Four-rotor attitude trajectory control method based on dimension cutting PPO algorithm |
CN113885549B (en) * | 2021-11-23 | 2023-11-21 | 江苏科技大学 | Four-rotor gesture track control method based on dimension clipping PPO algorithm |
CN114200833B (en) * | 2021-11-24 | 2024-04-12 | 华中科技大学 | Control method for dynamic area coverage of robot network based on observer |
CN114200833A (en) * | 2021-11-24 | 2022-03-18 | 华中科技大学 | Observer-based robot network dynamic area coverage control method |
CN114169234A (en) * | 2021-11-30 | 2022-03-11 | 广东工业大学 | Scheduling optimization method and system for unmanned aerial vehicle-assisted mobile edge calculation |
CN114155298B (en) * | 2021-12-09 | 2024-05-17 | 山东大学 | Active perception-based robot plugging method and system |
CN114155298A (en) * | 2021-12-09 | 2022-03-08 | 山东大学 | Robot leakage blocking method and system based on active sensing |
CN114153216B (en) * | 2021-12-14 | 2023-10-03 | 浙江大学湖州研究院 | Lunar surface path planning system and method based on deep reinforcement learning and block planning |
CN114153216A (en) * | 2021-12-14 | 2022-03-08 | 浙江大学湖州研究院 | Lunar surface path planning system and method based on deep reinforcement learning and block planning |
CN114692890A (en) * | 2021-12-24 | 2022-07-01 | 中国人民解放军军事科学院战争研究院 | Model-based weight combination planning value extension method |
CN114355915A (en) * | 2021-12-27 | 2022-04-15 | 杭州电子科技大学 | AGV path planning based on deep reinforcement learning |
CN114355915B (en) * | 2021-12-27 | 2024-04-02 | 杭州电子科技大学 | AGV path planning based on deep reinforcement learning |
CN114355980A (en) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | Four-rotor unmanned aerial vehicle autonomous navigation method and system based on deep reinforcement learning |
CN114355980B (en) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | Four-rotor unmanned aerial vehicle autonomous navigation method and system based on deep reinforcement learning |
CN114399225A (en) * | 2022-01-24 | 2022-04-26 | 北京理工大学 | Q-Learning-based deep space probe task planning method |
CN114527642A (en) * | 2022-03-03 | 2022-05-24 | 东北大学 | AGV automatic PID parameter adjusting method based on deep reinforcement learning |
CN114527642B (en) * | 2022-03-03 | 2024-04-02 | 东北大学 | Method for automatically adjusting PID parameters by AGV based on deep reinforcement learning |
CN114675535B (en) * | 2022-03-07 | 2024-04-02 | 大连理工大学 | Aeroengine transition state optimizing control method based on reinforcement learning |
CN114675535A (en) * | 2022-03-07 | 2022-06-28 | 大连理工大学 | Aero-engine transition state optimization control method based on reinforcement learning |
CN114578712A (en) * | 2022-03-08 | 2022-06-03 | 北京航空航天大学 | Multifunctional underwater autonomous vehicle cluster simulation system |
CN114578712B (en) * | 2022-03-08 | 2023-09-26 | 北京航空航天大学 | Multifunctional underwater autonomous vehicle cluster simulation system |
CN114625151B (en) * | 2022-03-10 | 2024-05-28 | 大连理工大学 | Underwater robot obstacle avoidance path planning method based on reinforcement learning |
CN114625151A (en) * | 2022-03-10 | 2022-06-14 | 大连理工大学 | Underwater robot obstacle avoidance path planning method based on reinforcement learning |
CN114785397A (en) * | 2022-03-11 | 2022-07-22 | 浙江以正通信技术有限公司 | Unmanned aerial vehicle base station control method, flight trajectory optimization model construction and training method |
CN114800488A (en) * | 2022-03-18 | 2022-07-29 | 清华大学深圳国际研究生院 | Redundant mechanical arm operability optimization method and device based on deep reinforcement learning |
CN114610070A (en) * | 2022-03-21 | 2022-06-10 | 大连理工大学 | Unmanned aerial vehicle-cooperated wind power plant intelligent inspection method |
CN114679699A (en) * | 2022-03-23 | 2022-06-28 | 重庆邮电大学 | Multi-unmanned-aerial-vehicle energy-saving cruise communication coverage method based on deep reinforcement learning |
CN114815864A (en) * | 2022-03-31 | 2022-07-29 | 哈尔滨工程大学 | Hypersonic aircraft track planning method based on reinforcement learning |
CN114578830A (en) * | 2022-04-11 | 2022-06-03 | 北京化工大学 | Snake-imitating robot motion planning method based on reinforcement learning |
CN114879660B (en) * | 2022-04-14 | 2023-08-15 | 海南大学 | Robot environment sensing method based on target drive |
CN114879660A (en) * | 2022-04-14 | 2022-08-09 | 海南大学 | Robot environment sensing method based on target driving |
CN114721397B (en) * | 2022-04-19 | 2024-05-31 | 北方工业大学 | Maze robot path planning method based on reinforcement learning and curiosity |
CN114721397A (en) * | 2022-04-19 | 2022-07-08 | 北方工业大学 | Maze robot path planning method based on reinforcement learning and curiosity |
CN114923486B (en) * | 2022-04-21 | 2024-05-17 | 厦门大学 | Robot navigation method based on global environment map and attention emphasis |
CN114910072A (en) * | 2022-04-21 | 2022-08-16 | 海南大学 | Unmanned aerial vehicle navigation method, device, equipment and medium based on deep reinforcement learning |
CN114923486A (en) * | 2022-04-21 | 2022-08-19 | 厦门大学 | Robot navigation method based on global environment map and attention emphasis |
CN114859910A (en) * | 2022-04-28 | 2022-08-05 | 武汉理工大学 | Unmanned ship path following system and method based on deep reinforcement learning |
CN114879671A (en) * | 2022-05-04 | 2022-08-09 | 哈尔滨工程大学 | Unmanned ship trajectory tracking control method based on reinforcement learning MPC |
CN114840928A (en) * | 2022-05-07 | 2022-08-02 | 西北工业大学 | Underwater vehicle cluster motion simulation method based on deep learning |
CN115167484A (en) * | 2022-05-13 | 2022-10-11 | 西北工业大学 | Autonomous underwater vehicle model prediction path tracking method based on neural network |
CN115167484B (en) * | 2022-05-13 | 2024-04-19 | 西北工业大学 | Autonomous underwater vehicle model prediction path tracking method based on neural network |
CN115016405A (en) * | 2022-05-26 | 2022-09-06 | 天津大学 | Process route multi-objective optimization method based on deep reinforcement learning |
CN114895697B (en) * | 2022-05-27 | 2024-04-30 | 西北工业大学 | Unmanned aerial vehicle flight decision method based on meta reinforcement learning parallel training algorithm |
CN114895697A (en) * | 2022-05-27 | 2022-08-12 | 西北工业大学 | Unmanned aerial vehicle flight decision method based on meta-reinforcement learning parallel training algorithm |
CN114879706A (en) * | 2022-06-17 | 2022-08-09 | 哈尔滨工程大学 | AUV target searching method combining RRT and artificial potential field method |
CN115119174A (en) * | 2022-06-30 | 2022-09-27 | 西安理工大学 | Unmanned aerial vehicle autonomous deployment method based on energy consumption optimization in irrigation area scene |
CN115033000A (en) * | 2022-07-06 | 2022-09-09 | 重庆大学 | Dual-target path planning method based on deep reinforcement learning |
CN115202356A (en) * | 2022-07-21 | 2022-10-18 | 大连海事大学 | Three-dimensional underwater under-actuated AUV (autonomous underwater vehicle) recovery path planning method |
CN115167430A (en) * | 2022-07-21 | 2022-10-11 | 山东大学 | Robot navigation obstacle avoidance method with full-range information recovery capability |
CN114964268A (en) * | 2022-07-29 | 2022-08-30 | 白杨时代(北京)科技有限公司 | Unmanned aerial vehicle navigation method and device |
CN115278901A (en) * | 2022-08-04 | 2022-11-01 | 哈尔滨工程大学 | Self-adaptive communication method of underwater non-positioning mobile network |
CN115278901B (en) * | 2022-08-04 | 2023-06-06 | 哈尔滨工程大学 | Self-adaptive communication method of underwater positioning-free mobile network |
CN115314854A (en) * | 2022-08-08 | 2022-11-08 | 广东智能无人系统研究院 | Unmanned inspection system and method for offshore wind power underwater facilities |
CN115328143A (en) * | 2022-08-26 | 2022-11-11 | 齐齐哈尔大学 | Master-slave water surface robot recovery guiding method based on environment driving |
CN115328143B (en) * | 2022-08-26 | 2023-04-18 | 齐齐哈尔大学 | Master-slave water surface robot recovery guiding method based on environment driving |
CN115468454A (en) * | 2022-08-30 | 2022-12-13 | 南京理工大学 | Multi-bullet cooperative countermeasure strategy combining virtual force method and missile and war cooperation |
CN115550236A (en) * | 2022-08-31 | 2022-12-30 | 国网江西省电力有限公司信息通信分公司 | Data protection method for routing optimization of security middlebox resource pool |
CN115550236B (en) * | 2022-08-31 | 2024-04-30 | 国网江西省电力有限公司信息通信分公司 | Data protection method oriented to security middle station resource pool route optimization |
CN115494733A (en) * | 2022-10-27 | 2022-12-20 | 南方电网调峰调频发电有限公司储能科研院 | Underwater robot self-adaptive control method based on gazebo |
CN115493597A (en) * | 2022-11-15 | 2022-12-20 | 山东大学 | AUV path planning control method based on SAC algorithm |
CN115686076A (en) * | 2022-11-17 | 2023-02-03 | 中国人民解放军海军航空大学 | Unmanned aerial vehicle path planning method based on incremental development depth reinforcement learning |
CN115981369B (en) * | 2023-01-09 | 2023-12-01 | 南京航空航天大学 | Method for multi-unmanned aerial vehicle joint task allocation and track planning under limited communication |
CN115981369A (en) * | 2023-01-09 | 2023-04-18 | 南京航空航天大学 | Method for joint task allocation and flight path planning of multiple unmanned aerial vehicles under limited communication |
CN116301027B (en) * | 2023-02-08 | 2023-12-05 | 北京航空航天大学 | Method for planning path of unmanned aerial vehicle in urban airspace based on safety reinforcement learning |
CN116301027A (en) * | 2023-02-08 | 2023-06-23 | 北京航空航天大学 | Method for planning path of unmanned aerial vehicle in urban airspace based on safety reinforcement learning |
CN116424573A (en) * | 2023-02-16 | 2023-07-14 | 哈尔滨工业大学(深圳) | Non-dragging satellite control method under unknown complex environment |
CN115993831A (en) * | 2023-03-23 | 2023-04-21 | 安徽大学 | Method for planning path of robot non-target network based on deep reinforcement learning |
CN115993831B (en) * | 2023-03-23 | 2023-06-09 | 安徽大学 | Method for planning path of robot non-target network based on deep reinforcement learning |
CN116430900B (en) * | 2023-05-04 | 2023-12-05 | 四川大学 | Game track planning method of hypersonic warhead based on deep reinforcement learning |
CN116430900A (en) * | 2023-05-04 | 2023-07-14 | 四川大学 | Game track planning method of hypersonic warhead based on deep reinforcement learning |
CN116295449A (en) * | 2023-05-25 | 2023-06-23 | 吉林大学 | Method and device for indicating path of autonomous underwater vehicle |
CN116295449B (en) * | 2023-05-25 | 2023-09-12 | 吉林大学 | Method and device for indicating path of autonomous underwater vehicle |
CN117035263A (en) * | 2023-06-27 | 2023-11-10 | 哈尔滨工程大学 | Task allocation method, computer and storage medium for multiple AUV nodes in underwater large-scale environment |
CN116578102B (en) * | 2023-07-13 | 2023-09-19 | 清华大学 | Obstacle avoidance method and device for autonomous underwater vehicle, computer equipment and storage medium |
CN116578102A (en) * | 2023-07-13 | 2023-08-11 | 清华大学 | Obstacle avoidance method and device for autonomous underwater vehicle, computer equipment and storage medium |
CN116909280A (en) * | 2023-07-20 | 2023-10-20 | 山东科技大学 | Reinforced learning double-layer decision AGV obstacle avoidance method based on visual perception |
CN117130379B (en) * | 2023-07-31 | 2024-04-16 | 南通大学 | LQR near vision distance-based unmanned aerial vehicle air combat attack method |
CN117130379A (en) * | 2023-07-31 | 2023-11-28 | 南通大学 | LQR near vision distance-based unmanned aerial vehicle air combat attack method |
CN116700020B (en) * | 2023-08-10 | 2023-11-24 | 西安爱生无人机技术有限公司 | Control method and system for unmanned aerial vehicle with variable sweepback wings, unmanned aerial vehicle and storage medium |
CN116700020A (en) * | 2023-08-10 | 2023-09-05 | 西安爱生无人机技术有限公司 | Control method and system for unmanned aerial vehicle with variable sweepback wings, unmanned aerial vehicle and storage medium |
CN117140527B (en) * | 2023-09-27 | 2024-04-26 | 中山大学·深圳 | Mechanical arm control method and system based on deep reinforcement learning algorithm |
CN117140527A (en) * | 2023-09-27 | 2023-12-01 | 中山大学·深圳 | Mechanical arm control method and system based on deep reinforcement learning algorithm |
CN117055591A (en) * | 2023-10-11 | 2023-11-14 | 青岛哈尔滨工程大学创新发展中心 | AUV global path planning method integrating ocean current influence and mobility constraint |
CN117055591B (en) * | 2023-10-11 | 2024-03-15 | 青岛哈尔滨工程大学创新发展中心 | AUV global path planning method integrating ocean current influence and mobility constraint |
CN117233520B (en) * | 2023-11-16 | 2024-01-26 | 青岛澎湃海洋探索技术有限公司 | AUV propulsion system fault detection and evaluation method based on improved Sim-GAN |
CN117233520A (en) * | 2023-11-16 | 2023-12-15 | 青岛澎湃海洋探索技术有限公司 | AUV propulsion system fault detection and evaluation method based on improved Sim-GAN |
CN117856904A (en) * | 2023-12-12 | 2024-04-09 | 山东科技大学 | Multi-AUV cooperative mobile optical communication method based on deep reinforcement learning |
CN117872347A (en) * | 2024-01-12 | 2024-04-12 | 兰州理工大学 | JPDA multi-target tracking method and system based on double-layer reinforcement learning optimization |
CN117682429B (en) * | 2024-02-01 | 2024-04-05 | 华芯(嘉兴)智能装备有限公司 | Crown block carrying instruction scheduling method and device of material control system |
CN117682429A (en) * | 2024-02-01 | 2024-03-12 | 华芯(嘉兴)智能装备有限公司 | Crown block carrying instruction scheduling method and device of material control system |
CN117744540A (en) * | 2024-02-19 | 2024-03-22 | 青岛哈尔滨工程大学创新发展中心 | Underwater operation hydrodynamic characteristic trend prediction method of underwater unmanned aircraft |
CN117744540B (en) * | 2024-02-19 | 2024-04-30 | 青岛哈尔滨工程大学创新发展中心 | Underwater operation hydrodynamic characteristic trend prediction method of underwater unmanned aircraft |
CN118244755A (en) * | 2024-03-11 | 2024-06-25 | 华中科技大学 | Underwater vehicle docking control method and device based on imaging sonar |
CN117970931A (en) * | 2024-03-29 | 2024-05-03 | 青岛科技大学 | Robot dynamic path planning method, equipment and medium |
CN117990111A (en) * | 2024-04-03 | 2024-05-07 | 北京盛安同力科技开发有限公司 | Method and system for planning partial path of lunar exploration robot based on MBSE model |
CN118289183A (en) * | 2024-04-08 | 2024-07-05 | 山东科技大学 | Sea cucumber catching robot imitating Indian brin shark and pose control method thereof |
CN118189977A (en) * | 2024-05-17 | 2024-06-14 | 广东海洋大学 | Underwater robot cluster path planning and control method based on artificial intelligence |
CN118249474A (en) * | 2024-05-27 | 2024-06-25 | 西北工业大学宁波研究院 | Energy control strategy of multi-source energy harvesting and storing system of simulated ray of the Hepialus logging device |
CN118249474B (en) * | 2024-05-27 | 2024-08-06 | 西北工业大学宁波研究院 | Energy control strategy of multi-source energy harvesting and storing system of simulated ray of the Hepialus logging device |
CN118466569A (en) * | 2024-07-10 | 2024-08-09 | 中南大学 | Hypersonic variant aircraft preset performance control method based on interval theory |
Also Published As
Publication number | Publication date |
---|---|
CN110333739B (en) | 2020-07-31 |
JP6854549B2 (en) | 2021-04-07 |
CN110333739A (en) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6854549B2 (en) | AUV action planning and motion control methods based on reinforcement learning | |
Cai | ROBOTICS: From Manipulator to Mobilebot | |
CN112241176B (en) | Path planning and obstacle avoidance control method of underwater autonomous vehicle in large-scale continuous obstacle environment | |
CN109765929B (en) | UUV real-time obstacle avoidance planning method based on improved RNN | |
CN109784201B (en) | AUV dynamic obstacle avoidance method based on four-dimensional risk assessment | |
CN113534668B (en) | Maximum entropy based AUV (autonomous Underwater vehicle) motion planning method for actor-critic framework | |
CN112925319B (en) | Underwater autonomous vehicle dynamic obstacle avoidance method based on deep reinforcement learning | |
CN113848974B (en) | Aircraft trajectory planning method and system based on deep reinforcement learning | |
CN113156980A (en) | Tower crane path planning method and system based on deep reinforcement learning | |
CN111930141A (en) | Three-dimensional path visual tracking method for underwater robot | |
CN117590867B (en) | Underwater autonomous vehicle connection control method and system based on deep reinforcement learning | |
CN114995468B (en) | Intelligent control method of underwater robot based on Bayesian depth reinforcement learning | |
Hadi et al. | Adaptive formation motion planning and control of autonomous underwater vehicles using deep reinforcement learning | |
Zhai et al. | Path planning algorithms for USVs via deep reinforcement learning | |
CN116540717A (en) | AUV local path planning method based on improved DWA | |
Kang et al. | Fuzzy logic based behavior fusion for multi-AUV formation keeping in uncertain ocean environment | |
CN114609925B (en) | Training method of underwater exploration strategy model and underwater exploration method of bionic machine fish | |
Li et al. | A Method for Multi-AUV Cooperative Area Search in Unknown Environment Based on Reinforcement Learning | |
Emrani et al. | An adaptive leader-follower formation controller for multiple AUVs in spatial motions | |
Tanaka et al. | Underwater vehicle localization considering the effects of its oscillation | |
Ridao et al. | O2CA2: A new hybrid control architecture for a low cost AUV | |
Lanča et al. | Model predictive altitude and velocity control in ergodic potential field directed multi-UAV search | |
Cui et al. | Intelligent Ship Decision System Based on DDPG Algorithm | |
CN112799414A (en) | AUV relaxation trajectory planning method | |
Gao et al. | Increased autonomy and situation awareness for rov operations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200820 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200820 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6854549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |