CN108153153A - 一种学习变阻抗控制系统及控制方法 - Google Patents
一种学习变阻抗控制系统及控制方法 Download PDFInfo
- Publication number
- CN108153153A CN108153153A CN201711393308.7A CN201711393308A CN108153153A CN 108153153 A CN108153153 A CN 108153153A CN 201711393308 A CN201711393308 A CN 201711393308A CN 108153153 A CN108153153 A CN 108153153A
- Authority
- CN
- China
- Prior art keywords
- control
- strategy
- variable impedance
- gaussian process
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000008569 process Effects 0.000 claims abstract description 51
- 238000011217 control strategy Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000013016 damping Methods 0.000 claims abstract description 24
- 230000007774 longterm Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 8
- 238000004540 process dynamic Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 8
- 230000002452 interceptive effect Effects 0.000 abstract description 4
- 239000002131 composite material Substances 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 5
- 238000004886 process control Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005021 gait Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供的是一种学习变阻抗控制系统及控制方法。主要包括变阻抗控制器、系统的高斯过程模型、变阻抗控制策略和策略学习算法四部分。不需要环境的任何先验知识,根据交互数据构建系统的高斯过程模型,以贝叶斯的方式对系统进行长期推理与规划。能在有限的观测数据中提取更多的有用信息,以最少的交互时间学习完成复杂的力控制任务。通过在成本函数中加入能量损失项,实现误差和能量的权衡,使机器人具有良好的柔顺能力。最后,得到的变阻抗控制策略可在任务的不同阶段根据系统状态同时调整目标刚度与阻尼参数。本发明可广泛应用于双机械臂装配、多机械臂协作与机器人步态控制等柔顺控制任务中,保证交互操作的安全性与鲁棒性。
Description
技术领域
本发明涉及的是一种机器人柔顺控制,具体地说是一种高效的学习变阻抗控制系统及控制方法。
背景技术
随着机器人越来越多的应用于非结构环境下的接触操作任务,如柔顺装配、人机交互等,由于任务复杂,接触环境多变且不可预测,很难建立系统的精确动力学模型,如何让机器人安全高效快速地执行新任务,精确地控制不同环境下的接触力,是机器人面临的新挑战。阻抗控制因良好的适应性及鲁棒性,被广泛应用于机器人交互控制任务中。由于力控制特性决定于机器人的阻抗参数,惯性、刚度和阻尼参数的选择高度依赖任务,通常难以先验推断,为了得到良好的控制性能,通常需要对控制器设计及其参数有深入的认识,仍需手动调整控制参数。而且特别是对于复杂任务,由于环境条件通常包含一些非线性和时变的因素,固定参数的阻抗控制方法很难实现目标任务。若阻抗控制参数能根据任务和环境的变化进行动态规划调整,则控制性能明显好于阻抗控制参数固定的情况。所以,学习变阻抗控制能力是现代机器人安全快速地完成复杂操作任务的关键。
对于需要力控制的操作任务,学习探索次数越少越好,因为大量的物理交互尝试可能会对机器人或工件造成损坏,而且大量的采样数据费时且昂贵,这是不切实际的。所以,提高学习变阻抗控制算法的学习效率,减少所需的试错交互次数,对于机器人快速学习完成新任务而言至关重要。
发明内容
本发明的目的在于提供一种学习效率高,可广泛应用于双机械臂装配、多机械臂协作与机器人步态控制等柔顺控制任务中,保证交互操作的安全性与鲁棒性的学习变阻抗控制系统。本发明的目的在于提供一种基于学习变阻抗控制系统的控制方法。
本发明的学习变阻抗控制系统包括变阻抗控制器、系统的高斯过程模型模块、变阻抗控制策略模块和策略学习算法模块,
系统的高斯过程模型模块根据机器人末端的实际位置和力传感器信息,建立系统的高斯过程模型,作为控制系统的变换动力学模型;
策略学习算法模块根据系统的高斯过程模型,通过级联一步预测过程,推理预测控制系统状态的长期分布,然后根据此模型进行内部仿真和预测控制系统的行为;
变阻抗控制策略模块根据控制系统状态即机械臂末端位置和实际接触力实时计算阻抗参数即目标刚度和阻尼系数,并传递给变阻抗控制器;
变阻抗控制器根据时变的目标刚度、阻尼系数与当前的接触力误差修正期望参考轨迹,输出机械臂末端期望位置增量。
基于本发明的学习变阻抗控制系统的控制方法包括如下步骤:
(1)随机初始化控制变量u=[Kd(t)Bd(t)]并作用于控制系统,记录初始数据[XFa],其中Kd(t)为目标刚度、Bd(t)为阻尼系数、X为机械臂末端位置、Fa为实际接触力;
(2)根据历史采样数据[XFa],建立系统的高斯过程动态模型,作为系统的变换动力学模型;
(3)使用策略学习算法搜索最优阻抗控制策略π(θ);
(4)设置策略为π*←π(θ),应用于变阻抗控制器进行力控制,并采集新的数据[XFa];
(5)重复步骤(2—4)直到得到满意的力跟踪效果,学习得到满意的控制策略。
基于本发明的学习变阻抗控制系统的控制方法还可以包括:
1、所述的建立系统的高斯过程动态模型具体包括:
(1)高斯过程模型为其中选取先验均值为m≡0,选取平方指数核函数为
(2)把状态和控制量作为高斯过程的输入元组,将状态增量作为训练目标;
(3)给定N组训练输入X=[x1,...,xn]及相应的训练目标y=[y1,...,yn]T,使用证据最大化算法,学习到高斯过程模型的超参数
其中,为可观测状态,为训练目标,Δt为状态增量,为独立同分布的系统噪声,α2为潜在函数f的信号方差,li是每个输入维度的特征长度。
2、所述策略学习算法具体包括:
(1)将控制策略π作用于系统高斯过程模型,进行内部仿真,预测系统的行为与性能;
(2)使用学习到的高斯过程模型对状态进行长期推理预测p(x1|π),...,p(xT|π);
(3)评估时间T内的期望总成本Jπ(θ);
(4)计算成本相对于策略参数的梯度信息dJπ(θ)/dθ,使用基于梯度的策略搜索算法寻找最优策略π*←π(θ),更新策略参数θ;
(5)重复步骤(1)—(4)直到策略参数θ收敛。
3、所述变阻抗控制器为基于位置的间接阻抗控制器,根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹,得到机械臂末端的期望位置增量δX;
变阻抗控制器的具体形式为:
ω1=4Md(t)+2Bd(t)T+Kd(t)T2
ω2=-8Md(t)+2Kd(t)T2
ω3=4Md(t)-2Bd(t)T+Kd(t)T2
其中为T控制周期。
本发明提供了一种高效的学习变阻抗控制系统及控制方法,实现机器人高效自主地学习完成力控制任务。
本发明的技术方案的主要特点体现在:
(1)变阻抗控制器,可根据时变的目标刚度与阻尼系数修正期望参考轨迹;
(2)系统的高斯过程模型,是根据实际采样数据建立系统的概率化模型,作为系统的变换动力学模型;
(3)变阻抗控制策略是一种概率化的高斯过程控制策略,以均值函数和方差函数表示,根据系统状态——机械臂末端位置X和实际接触力Fa实时计算阻抗参数——目标刚度Kd(t)和阻尼系数Bd(t),并传递给变阻抗控制器;
(4)策略学习算法,是使用基于模型的强化学习算法学习得到的,通过级联一步预测过程,推理预测系统状态的长期分布,然后根据此模型进行内部仿真和预测系统的行为;在成本函数中加入能量损失项,通过惩罚控制动作降低完成任务所需的阻抗增益,实现误差与能量最小化的权衡。
变阻抗控制器具体为:
(1)变阻抗控制器为基于位置的间接阻抗控制器,根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹,得到机械臂末端的期望位置增量δX;
(2)控制周期为T,Md(t)、Kd(t)、Bd(t)分别为目标惯量、时变的目标刚度与时变的阻尼系数,则变阻抗控制器的具体形式为:
ω1=4Md(t)+2Bd(t)T+Kd(t)T2
ω2=-8Md(t)+2Kd(t)T2
ω3=4Md(t)-2Bd(t)T+Kd(t)T2
系统的高斯过程模型具体为:
(1)高斯过程模型为其中选取先验均值为m≡0,选取平方指数核函数为
(2)把状态和控制量作为高斯过程的输入元组,将状态增量作为训练目标;
(3)给定N组训练输入X=[x1,...,xn]及相应的训练目标y=[y1,...,yn]T,使用证据最大化算法,学习到高斯过程模型的超参数
变阻抗控制策略具体为:
(1)变阻抗控制策略为高斯过程控制器是一种概率化的高斯过程控制策略,以均值函数和方差函数表示,其中为机器人的可观测状态,策略输出为阻抗控制器的目标刚度Kd(t)与阻尼系数Bd(t),θ为需要学习的控制策略参数;
(2)使用有界可微的梯形饱和函数S(πt)=umin+umax+umax[9sinπt+sin(3πt)]/8控制参数u的物理边界,把控制变量u限制在区间[umin umin+umax]内,其中umax为控制变量的最大限幅,umin为控制变量的最小限幅。
策略学习算法具体为:
(1)将控制策略π作用于系统模型——高斯过程模型,进行内部仿真,预测系统的行为与性能;
(2)使用高斯过程模型对状态进行长期推理预测p(x1|π),...,p(xT|π);
(3)评估时间T内的期望总成本其中瞬时成本函数包括状态误差成本项和能量损耗项ce(ut)=ce(π(xt))=ζ·(ut/umax)2两部分,其中d(·)为欧氏距离,σc是成本函数的宽度,ζ为能量损失系数,ut为当前的控制量;
(4)计算成本相对于策略参数的梯度信息dJπ(θ)/dθ,使用基于梯度的策略搜索算法寻找最优策略π*←π(θ),更新策略参数θ。
为了使机器人能在非结构环境中自主学习完成复杂的力控制任务,精确地控制接触操作任务中的接触力,本发明提出了一种使用基于模型的强化学习算法学习调整机器人阻抗参数的新方案。主要包括变阻抗控制器、系统的高斯过程模型、变阻抗控制策略和策略学习算法四部分。其特点是不需要环境的任何先验知识,根据交互数据构建系统的高斯过程模型,以贝叶斯的方式对系统进行长期推理与规划。这样,能在有限的观测数据中提取更多的有用信息,以最少的交互时间学习完成复杂的力控制任务。通过在成本函数中加入能量损失项,实现误差和能量的权衡,使机器人具有良好的柔顺能力。最后,得到的变阻抗控制策略可在任务的不同阶段根据系统状态同时调整目标刚度与阻尼参数。本发明可以使机器人高效地自主学习完成非结构化环境下的复杂力控制任务,仅需数次交互即可学习得到最优的控制策略,具有数据高效性,可广泛应用于双机械臂装配、多机械臂协作与机器人步态控制等柔顺控制任务中,保证交互操作的安全性与鲁棒性。
本发明解决了机器人学习变阻抗控制中的高效性问题,通过从观测数据中提取更多的有用信息,最大限度地减少学习完成力控制任务所需的交互时间,对于机器人实现高效的自主学习完成柔顺控制具有重要的借鉴意义,可直接应用于需要接触力控制的机器人中。
附图说明
图1是本发明的系统的结构框图;
图2是本发明方法的流程图;
图3是本发明的策略学习算法流程图。
具体实施方式
下面举例对本发明做更详细的描述。
如图1所示为学习变阻抗控制方法的系统结构图,虚线框内的各部分为本发明的具体结构,包括包括变阻抗控制器、系统的高斯过程模型、变阻抗控制策略和策略学习算法。具体为:
1)变阻抗控制器根据时变的目标刚度、阻尼系数与当前的接触力误差Fe修正期望参考轨迹,计算输出机械臂末端期望位置增量δX;
2)根据采样数据机器人末端的实际位置X和力传感器信息Fa建立系统的高斯过程模型,作为系统的变换动力学模型;
3)策略学习算法根据高斯过程模型,通过级联一步预测过程,推理预测系统状态的长期分布,然后根据此模型进行内部仿真和预测系统的行为,并使用基于模型的强化学习算法通过最小化期望成本得到变阻抗控制策略π;
4)变阻抗控制策略是一种概率化的高斯过程控制策略,以均值函数和方差函数表示,根据系统状态——机械臂末端位置X和实际接触力Fa实时计算阻抗参数——目标刚度Kd(t)和阻尼系数Bd(t),并传递给变阻抗控制器。
图1中的Fd为期望接触力,Xd为期望位置,Xe为机械臂末端的总期望位置,qd为根据机器人的逆运动学方程计算得到的期望关节位置,根据q为测量的关节实际位置,KE,BE分别为未知的环境刚度与阻尼。
如图2所示本发明的方法主要包括五个步骤:
1)随机初始化控制变量u=[Kd(t)Bd(t)]并作用于系统,记录初始数据[XFa];
2)根据历史采样数据[XFa],建立系统的高斯过程动态模型,作为系统的变换动力学模型;
3)使用策略学习算法搜索最优阻抗控制策略π(θ);
4)设置策略为π*←π(θ),应用于系统进行力控制,并采集新的数据[XFa];
5)重复步骤(2—4)直到得到满意的力跟踪效果,学习得到满意的控制策略。
(1)变阻抗控制器
为使末端达到期望的动态特性,使用二阶阻抗模型:
其中,Md(t)、Bd(t)、Kd(t)分别为阻抗模型中时变的目标惯性矩阵、目标阻尼矩阵与目标刚度矩阵,X分别为机器人末端在笛卡尔空间实际的加速度、速度和位置, Xd分别为机器人末端的期望加速度、速度和位置,Fd和F分别为机器人末端与环境之间的期望接触力与实际接触力。
为得到修正的期望位置增量,对二阶阻抗模型进行拉格朗日变换,并使用双线性变换s=2T-1(z-1)(z+1)-1离散化得:
ω1=4Md(t)+2Bd(t)T+Kd(t)T2 (3)
ω2=-8Md(t)+2Kd(t)T2 (4)
ω3=4Md(t)-2Bd(t)T+Kd(t)T2 (5)
其中,T为控制周期,则阻抗控制器的差分方程即末端的期望位置增量为:
为了简化计算,目标惯性矩阵设为常量Md(t)=I,所以变阻抗控制器需要根据时变的目标刚度Kd(t)、阻尼系数Bd(t)与接触力误差E(n)调节期望位置。
(2)系统的高斯过程模型
高斯过程模型是一种非参数化的概率模型,用均值函数m(·)与半正定的协方差函数k(·,·)表示。设描述系统的动力学方程为:
xt=f(xt-1,ut-1) (7)
yt=xt+εt (8)
其中,为可观测状态,这里为机器人末端的实际位置X和实际接触力Fa。为控制输入,其中Kd(t)为目标刚度,Bd(t)为阻尼系数。为训练目标,其中Δt为状态增量。为独立同分布的系统噪声。f为高斯过程模型函数其中为训练输入元组,为独立同分布的测量噪声。
为了在预测及规划中考虑模型的不确定性,避免学习模型的确定性等价假设,我们根据获得的采样数据,使用高斯过程推测潜在函数f的后验分布,描述所有可能的动态模型。本文为了计算简便,选取先验均值为m≡0,并选取平方指数核函数:
其中,α2为潜在函数f的信号方差,li是每个输入维度的特征长度。给定N组训练输入X=[x1,...,xn]及相应的训练目标y=[y1,...,yn]T,使用证据最大化算法,即可学习到高斯过程模型的参数
给定确定性的测试输入x*,函数值f*=f(x*)的后验预测分布p(f*|x*)服从高斯分布:
其中K=k(X,X)为核函数矩阵。
(3)变阻抗控制策略
定义变阻抗控制策略为其中为机器人的可观测状态,策略输出为阻抗控制器的目标刚度Kd(t)与阻尼系数Bd(t),θ为需要学习的控制策略参数。选用高斯过程控制器作为控制策略π:
其中,n为高斯过程控制器的个数,Xπ为训练输入,yπ为训练目标,初始化为接近零的随机值,为每个状态的特征长度,为信号方差,此处这样在功能上与RBF网络类似,为测量噪声方差。所以,高斯过程控制策略π的超参数为
在实际控制系统中,必须考虑控制参数u的物理边界,本发明选用有界可微的梯形饱和函数,把控制变量u限制在区间[umin umin+umax]内:
(4)策略学习算法
如图3所示为策略学习算法的流程图,主要包括五个步骤:
1)将控制策略π作用于系统模型——高斯过程模型,进行内部仿真,预测系统的行为与性能;
2)使用学习到的高斯过程模型对状态进行长期推理预测p(x1|π),...,p(xT|π);
3)评估时间T内的期望总成本Jπ(θ);
4)计算成本相对于策略参数的梯度信息dJπ(θ)/dθ,使用基于梯度的策略搜索算法寻找最优策略π*←π(θ),更新策略参数θ;
5)重复步骤(1—4)直到策略参数θ收敛。
为得到最优的控制策略需要根据状态的长期预测演化,找到使成本Jπ(θ)最小化的策略参数θ*。我们使用高斯过程模型表示实际系统的变换动力学,通过级联一步预测获得状态分布的长期预测p(x1),...,p(xT)。由于高斯过程模型可以传递输入的不确定性,把高斯分布的状态空间映射到目标空间,所以在长期规划中包含了模型的不确定性,减少了模型偏差带来的负面影响。状态一步预测的过程可简化为:
p(xt-1)→p(ut-1)→p(xt-1,ut-1)→p(Δt)→p(xt) (18)
若p(xt-1)已知,为了从p(xt-1)预测p(xt),需要根据控制变量ut-1=π(xt-1)的分布计算联合分布先计算预测控制变量的分布p(ut-1),然后计算相互协方差cov[xt-1,ut-1],最后得到的近似高斯分布为:
训练目标Δt的预测分布为:
其中变换函数的后验预测分布可根据式(11)—(13)计算。可以使用矩匹配法,把训练目标的分布p(Δt)近似为高斯分布然后,把期望状态分布p(xt)近似为高斯分布:
μt=μt-1+μΔ (22)
Σt=Σt-1+ΣΔ+cov[xt-1,Δt]+cov[Δt,xt-1] (23)
为了评估控制策略π的性能,使用时间T内的总期望成本Jπ(θ)作为评价标准。将控制策略π作用于系统,根据预测状态的长期演化,计算总期望成本:
其中,c(xt)为t时刻的瞬时成本,为瞬时成本相对于预测状态分布的期望值:
为使机器人实现误差和能量最小化之间的权衡具备这种变阻抗特性,约束接触力以保证安全,具有更好的柔顺能力,我们在成本函数中加入能量损耗项,通过惩罚控制动作降低完成任务所需的阻抗增益。定义瞬时成本函数为:
ct=cb(xt)+ce(ut) (27)
ce(ut)=ce(π(xt))=ζ·(ut/umax)2 (29)
瞬时成本函数ct主要包括两项,cb(xt)为状态误差成本,是二次饱和成本函数,当距目标状态的偏差较大时饱和为1,d(·)为欧氏距离,σc是成本函数的宽度;ce(ut)为能量损耗项,即阻抗增益的均方能量损失函数,ζ为能量损失系数,ut为当前的控制量,umax为控制量的最大限幅。
然后,根据链式法则,计算期望成本相对于控制器参数θ的梯度,使用基于梯度的策略搜索方法,得到使得Jπ(θ)最小化的控制器参数θ*。
Claims (6)
1.一种学习变阻抗控制系统,其特征是:包括变阻抗控制器、系统的高斯过程模型模块、变阻抗控制策略模块和策略学习算法模块,
系统的高斯过程模型模块根据机器人末端的实际位置和力传感器信息,建立系统的高斯过程模型,作为控制系统的变换动力学模型;
策略学习算法模块根据系统的高斯过程模型,通过级联一步预测过程,推理预测控制系统状态的长期分布,然后根据此模型进行内部仿真和预测控制系统的行为;
变阻抗控制策略模块根据控制系统状态即机械臂末端位置和实际接触力实时计算阻抗参数即目标刚度和阻尼系数,并传递给变阻抗控制器;
变阻抗控制器根据时变的目标刚度、阻尼系数与当前的接触力误差修正期望参考轨迹,输出机械臂末端期望位置增量。
2.一种基于权利要求1所述的学习变阻抗控制系统的控制方法,其特征是:
(1)随机初始化控制变量u=[Kd(t) Bd(t)]并作用于控制系统,记录初始数据[X Fa],其中Kd(t)为目标刚度、Bd(t)为阻尼系数、X为机械臂末端位置、Fa为实际接触力;
(2)根据历史采样数据[X Fa],建立系统的高斯过程动态模型,作为系统的变换动力学模型;
(3)使用策略学习算法搜索最优阻抗控制策略π(θ);
(4)设置策略为π*←π(θ),应用于变阻抗控制器进行力控制,并采集新的数据[XFa];
(5)重复步骤(2—4)直到得到满意的力跟踪效果,学习得到满意的控制策略。
3.根据权利要求2所述的基于学习变阻抗控制系统的控制方法,其特征是所述的建立系统的高斯过程动态模型具体包括:
(1)高斯过程模型为其中选取先验均值为m≡0,选取平方指数核函数为
(2)把状态和控制量作为高斯过程的输入元组,将状态增量作为训练目标;
(3)给定N组训练输入X=[x1,...,xn]及相应的训练目标y=[y1,...,yn]T,使用证据最大化算法,学习到高斯过程模型的超参数
其中,为可观测状态,为训练目标,Δt为状态增量,为独立同分布的系统噪声,α2为潜在函数f的信号方差,li是每个输入维度的特征长度。
4.根据权利要求2或3所述的基于学习变阻抗控制系统的控制方法,其特征是所述策略学习算法具体包括:
(1)将控制策略π作用于系统高斯过程模型,进行内部仿真,预测系统的行为与性能;
(2)使用学习到的高斯过程模型对状态进行长期推理预测p(x1|π),...,p(xT|π);
(3)评估时间T内的期望总成本Jπ(θ);
(4)计算成本相对于策略参数的梯度信息dJπ(θ)/dθ,使用基于梯度的策略搜索算法寻找最优策略π*←π(θ),更新策略参数θ;
(5)重复步骤(1)—(4)直到策略参数θ收敛。
5.根据权利要求2或3所述的基于学习变阻抗控制系统的控制方法,其特征是:所述变阻抗控制器为基于位置的间接阻抗控制器,根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹,得到机械臂末端的期望位置增量δX;
变阻抗控制器的具体形式为:
ω1=4Md(t)+2Bd(t)T+Kd(t)T2
ω2=-8Md(t)+2Kd(t)T2
ω3=4Md(t)-2Bd(t)T+Kd(t)T2
其中为T控制周期。
6.根据权利要求4所述的基于学习变阻抗控制系统的控制方法,其特征是:所述变阻抗控制器为基于位置的间接阻抗控制器,根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹,得到机械臂末端的期望位置增量δX;
变阻抗控制器的具体形式为:
ω1=4Md(t)+2Bd(t)T+Kd(t)T2
ω2=-8Md(t)+2Kd(t)T2
ω3=4Md(t)-2Bd(t)T+Kd(t)T2
其中为T控制周期。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711393308.7A CN108153153B (zh) | 2017-12-19 | 2017-12-19 | 一种学习变阻抗控制系统及控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711393308.7A CN108153153B (zh) | 2017-12-19 | 2017-12-19 | 一种学习变阻抗控制系统及控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108153153A true CN108153153A (zh) | 2018-06-12 |
CN108153153B CN108153153B (zh) | 2020-09-11 |
Family
ID=62464705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711393308.7A Active CN108153153B (zh) | 2017-12-19 | 2017-12-19 | 一种学习变阻抗控制系统及控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153153B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108972546A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于强化学习的机器人恒力曲面跟踪方法 |
CN109062032A (zh) * | 2018-10-19 | 2018-12-21 | 江苏省(扬州)数控机床研究院 | 一种基于近似动态逆的机器人pid变阻抗控制方法 |
CN109702740A (zh) * | 2018-12-14 | 2019-05-03 | 中国科学院深圳先进技术研究院 | 机器人柔顺性控制方法、装置、设备及存储介质 |
CN111352384A (zh) * | 2018-12-21 | 2020-06-30 | 罗伯特·博世有限公司 | 用于控制自动化或自主运动机构的方法和分析评价单元 |
CN111640495A (zh) * | 2020-05-29 | 2020-09-08 | 北京机械设备研究所 | 基于阻抗控制的变力跟踪控制方法及装置 |
CN111673733A (zh) * | 2020-03-26 | 2020-09-18 | 华南理工大学 | 未知环境下机器人的智能自适应柔顺控制方法 |
CN111687834A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 移动机械手冗余机械臂逆优先级阻抗控制系统及控制方法 |
CN111687833A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 机械手逆优先级阻抗控制系统及控制方法 |
CN111687835A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 水下机械手冗余机械臂逆优先级阻抗控制系统及控制方法 |
CN111687832A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 空间机械手冗余机械臂逆优先级阻抗控制系统及控制方法 |
CN111904795A (zh) * | 2020-08-28 | 2020-11-10 | 中山大学 | 一种结合轨迹规划的康复机器人变阻抗控制方法 |
CN112372630A (zh) * | 2020-09-24 | 2021-02-19 | 哈尔滨工业大学(深圳) | 一种多机械臂协同打磨力柔顺控制方法和系统 |
CN112428278A (zh) * | 2020-10-26 | 2021-03-02 | 北京理工大学 | 机械臂的控制方法、装置及人机协同模型的训练方法 |
CN112743540A (zh) * | 2020-12-09 | 2021-05-04 | 华南理工大学 | 一种基于强化学习的六足机器人阻抗控制方法 |
CN112859868A (zh) * | 2021-01-19 | 2021-05-28 | 武汉大学 | 基于kmp的下肢外骨骼康复机器人及运动轨迹规划算法 |
CN113427483A (zh) * | 2021-05-19 | 2021-09-24 | 广州中国科学院先进技术研究所 | 一种基于强化学习的双机器人力/位多元数据驱动方法 |
CN113641099A (zh) * | 2021-07-13 | 2021-11-12 | 西北工业大学 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
CN113966264A (zh) * | 2019-05-17 | 2022-01-21 | 西门子股份公司 | 用于基于接触定位在通过机器人操纵时可移动的对象的方法、计算机程序产品和机器人控制装置以及机器人 |
CN114193458A (zh) * | 2022-01-25 | 2022-03-18 | 中山大学 | 一种基于高斯过程在线学习的机器人控制方法 |
CN114378820A (zh) * | 2022-01-18 | 2022-04-22 | 中山大学 | 一种基于安全强化学习的机器人阻抗学习方法 |
CN114789444A (zh) * | 2022-05-05 | 2022-07-26 | 山东省人工智能研究院 | 一种基于深度强化学习和阻抗控制的柔顺人机接触方法 |
CN115042178A (zh) * | 2022-06-27 | 2022-09-13 | 清华大学 | 保证接触安全的机器人强化学习方法、装置、设备及介质 |
CN115421387A (zh) * | 2022-09-22 | 2022-12-02 | 中国科学院自动化研究所 | 一种基于逆强化学习的可变阻抗控制系统及控制方法 |
CN115496099A (zh) * | 2022-09-20 | 2022-12-20 | 哈尔滨工业大学 | 一种机械臂传感器的滤波及高阶状态观测方法 |
CN115723139A (zh) * | 2022-12-02 | 2023-03-03 | 哈尔滨工业大学(深圳) | 一种绳驱柔性机械臂操作空间柔顺控制方法及装置 |
CN116643501A (zh) * | 2023-07-18 | 2023-08-25 | 湖南大学 | 稳定性约束下的空中作业机器人可变阻抗控制方法及系统 |
CN117817674A (zh) * | 2024-03-05 | 2024-04-05 | 纳博特控制技术(苏州)有限公司 | 一种机器人自适应阻抗控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104626168A (zh) * | 2014-12-16 | 2015-05-20 | 苏州大学 | 基于智能算法的机器人力位柔顺控制方法 |
CN105213153A (zh) * | 2015-09-14 | 2016-01-06 | 西安交通大学 | 基于脑肌信息变阻抗的下肢康复机器人控制方法 |
US20170007308A1 (en) * | 2015-07-08 | 2017-01-12 | Research & Business Foundation Sungkyunkwan University | Apparatus and method for discriminating biological tissue, surgical apparatus using the apparatus |
CN106406098A (zh) * | 2016-11-22 | 2017-02-15 | 西北工业大学 | 一种机器人系统在未知环境下的人机交互控制方法 |
CN106938470A (zh) * | 2017-03-22 | 2017-07-11 | 华中科技大学 | 一种机器人力控示教模仿学习的装置及方法 |
-
2017
- 2017-12-19 CN CN201711393308.7A patent/CN108153153B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104626168A (zh) * | 2014-12-16 | 2015-05-20 | 苏州大学 | 基于智能算法的机器人力位柔顺控制方法 |
US20170007308A1 (en) * | 2015-07-08 | 2017-01-12 | Research & Business Foundation Sungkyunkwan University | Apparatus and method for discriminating biological tissue, surgical apparatus using the apparatus |
CN105213153A (zh) * | 2015-09-14 | 2016-01-06 | 西安交通大学 | 基于脑肌信息变阻抗的下肢康复机器人控制方法 |
CN106406098A (zh) * | 2016-11-22 | 2017-02-15 | 西北工业大学 | 一种机器人系统在未知环境下的人机交互控制方法 |
CN106938470A (zh) * | 2017-03-22 | 2017-07-11 | 华中科技大学 | 一种机器人力控示教模仿学习的装置及方法 |
Non-Patent Citations (2)
Title |
---|
GUIHUA XIA 等: "Hybrid force/position control of industrial robotic manipulator based on Kalman filter", 《2016 IEEE INTERNATIONAL CONFERENCE ON MECHATRONICS AND AUTOMATION》 * |
李二超等: "基于神经网络视觉伺服的机器人模糊自适应阻抗控制", 《电工技术学报》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108972546A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于强化学习的机器人恒力曲面跟踪方法 |
CN109062032A (zh) * | 2018-10-19 | 2018-12-21 | 江苏省(扬州)数控机床研究院 | 一种基于近似动态逆的机器人pid变阻抗控制方法 |
CN109702740A (zh) * | 2018-12-14 | 2019-05-03 | 中国科学院深圳先进技术研究院 | 机器人柔顺性控制方法、装置、设备及存储介质 |
CN109702740B (zh) * | 2018-12-14 | 2020-12-04 | 中国科学院深圳先进技术研究院 | 机器人柔顺性控制方法、装置、设备及存储介质 |
CN111352384A (zh) * | 2018-12-21 | 2020-06-30 | 罗伯特·博世有限公司 | 用于控制自动化或自主运动机构的方法和分析评价单元 |
US12076865B2 (en) | 2019-05-17 | 2024-09-03 | Siemens Aktiengesellschaft | Method, computer program product and robot control system for the contact-based localization of objects that can be moved when manipulated by robot, and robot |
CN113966264A (zh) * | 2019-05-17 | 2022-01-21 | 西门子股份公司 | 用于基于接触定位在通过机器人操纵时可移动的对象的方法、计算机程序产品和机器人控制装置以及机器人 |
CN111673733A (zh) * | 2020-03-26 | 2020-09-18 | 华南理工大学 | 未知环境下机器人的智能自适应柔顺控制方法 |
CN111673733B (zh) * | 2020-03-26 | 2022-03-29 | 华南理工大学 | 未知环境下机器人的智能自适应柔顺控制方法 |
CN111687832A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 空间机械手冗余机械臂逆优先级阻抗控制系统及控制方法 |
CN111687834A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 移动机械手冗余机械臂逆优先级阻抗控制系统及控制方法 |
CN111687835A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 水下机械手冗余机械臂逆优先级阻抗控制系统及控制方法 |
CN111687833A (zh) * | 2020-04-30 | 2020-09-22 | 广西科技大学 | 机械手逆优先级阻抗控制系统及控制方法 |
CN111640495B (zh) * | 2020-05-29 | 2024-05-31 | 北京机械设备研究所 | 基于阻抗控制的变力跟踪控制方法及装置 |
CN111640495A (zh) * | 2020-05-29 | 2020-09-08 | 北京机械设备研究所 | 基于阻抗控制的变力跟踪控制方法及装置 |
CN111904795B (zh) * | 2020-08-28 | 2022-08-26 | 中山大学 | 一种结合轨迹规划的康复机器人变阻抗控制方法 |
CN111904795A (zh) * | 2020-08-28 | 2020-11-10 | 中山大学 | 一种结合轨迹规划的康复机器人变阻抗控制方法 |
CN112372630A (zh) * | 2020-09-24 | 2021-02-19 | 哈尔滨工业大学(深圳) | 一种多机械臂协同打磨力柔顺控制方法和系统 |
CN112372630B (zh) * | 2020-09-24 | 2022-02-22 | 哈尔滨工业大学(深圳) | 一种多机械臂协同打磨力柔顺控制方法和系统 |
CN112428278A (zh) * | 2020-10-26 | 2021-03-02 | 北京理工大学 | 机械臂的控制方法、装置及人机协同模型的训练方法 |
CN112743540A (zh) * | 2020-12-09 | 2021-05-04 | 华南理工大学 | 一种基于强化学习的六足机器人阻抗控制方法 |
CN112743540B (zh) * | 2020-12-09 | 2022-05-24 | 华南理工大学 | 一种基于强化学习的六足机器人阻抗控制方法 |
CN112859868A (zh) * | 2021-01-19 | 2021-05-28 | 武汉大学 | 基于kmp的下肢外骨骼康复机器人及运动轨迹规划算法 |
CN113427483A (zh) * | 2021-05-19 | 2021-09-24 | 广州中国科学院先进技术研究所 | 一种基于强化学习的双机器人力/位多元数据驱动方法 |
CN113641099A (zh) * | 2021-07-13 | 2021-11-12 | 西北工业大学 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
CN113641099B (zh) * | 2021-07-13 | 2023-02-10 | 西北工业大学 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
CN114378820A (zh) * | 2022-01-18 | 2022-04-22 | 中山大学 | 一种基于安全强化学习的机器人阻抗学习方法 |
CN114193458A (zh) * | 2022-01-25 | 2022-03-18 | 中山大学 | 一种基于高斯过程在线学习的机器人控制方法 |
CN114193458B (zh) * | 2022-01-25 | 2024-04-09 | 中山大学 | 一种基于高斯过程在线学习的机器人控制方法 |
CN114789444A (zh) * | 2022-05-05 | 2022-07-26 | 山东省人工智能研究院 | 一种基于深度强化学习和阻抗控制的柔顺人机接触方法 |
CN114789444B (zh) * | 2022-05-05 | 2022-12-16 | 山东省人工智能研究院 | 一种基于深度强化学习和阻抗控制的柔顺人机接触方法 |
CN115042178A (zh) * | 2022-06-27 | 2022-09-13 | 清华大学 | 保证接触安全的机器人强化学习方法、装置、设备及介质 |
CN115496099A (zh) * | 2022-09-20 | 2022-12-20 | 哈尔滨工业大学 | 一种机械臂传感器的滤波及高阶状态观测方法 |
CN115421387A (zh) * | 2022-09-22 | 2022-12-02 | 中国科学院自动化研究所 | 一种基于逆强化学习的可变阻抗控制系统及控制方法 |
CN115723139A (zh) * | 2022-12-02 | 2023-03-03 | 哈尔滨工业大学(深圳) | 一种绳驱柔性机械臂操作空间柔顺控制方法及装置 |
CN116643501A (zh) * | 2023-07-18 | 2023-08-25 | 湖南大学 | 稳定性约束下的空中作业机器人可变阻抗控制方法及系统 |
CN116643501B (zh) * | 2023-07-18 | 2023-10-24 | 湖南大学 | 稳定性约束下的空中作业机器人可变阻抗控制方法及系统 |
CN117817674A (zh) * | 2024-03-05 | 2024-04-05 | 纳博特控制技术(苏州)有限公司 | 一种机器人自适应阻抗控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108153153B (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108153153B (zh) | 一种学习变阻抗控制系统及控制方法 | |
Carron et al. | Data-driven model predictive control for trajectory tracking with a robotic arm | |
CN114761966A (zh) | 用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法 | |
Tutsoy et al. | Design of a completely model free adaptive control in the presence of parametric, non-parametric uncertainties and random control signal delay | |
CN110647042B (zh) | 一种基于数据驱动的机器人鲁棒学习预测控制方法 | |
Cutler et al. | Efficient reinforcement learning for robots using informative simulated priors | |
Qi et al. | Stable indirect adaptive control based on discrete-time T–S fuzzy model | |
Li | Robot target localization and interactive multi-mode motion trajectory tracking based on adaptive iterative learning | |
CN111399375A (zh) | 一种基于非线性系统的神经网络预测控制器 | |
CN116460860A (zh) | 一种基于模型的机器人离线强化学习控制方法 | |
McKinnon et al. | Learning probabilistic models for safe predictive control in unknown environments | |
CN112571420B (zh) | 一种未知参数下的双功能模型预测控制方法 | |
JP5220542B2 (ja) | 制御器、制御方法及び制御プログラム | |
CN116048085B (zh) | 一种移动机器人的故障估计和容错迭代学习控制方法 | |
Komeno et al. | Deep koopman with control: Spectral analysis of soft robot dynamics | |
He et al. | Adaptive robust control of uncertain euler–lagrange systems using gaussian processes | |
Le et al. | ADMM-based adaptive sampling strategy for nonholonomic mobile robotic sensor networks | |
Hager et al. | Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design | |
Zhou et al. | Launch vehicle adaptive flight control with incremental model based heuristic dynamic programming | |
Wang et al. | A data driven method of feedforward compensator optimization for autonomous vehicle control | |
CN116880184A (zh) | 无人船轨迹追踪预测控制方法、系统及存储介质 | |
Yan et al. | A neural network approach to nonlinear model predictive control | |
Sanci et al. | A Novel Adaptive LSSVR Based Inverse Optimal Controller With Integrator for Nonlinear Non-Affine Systems | |
Baldauf et al. | Iterative learning-based model predictive control for mobile robots in space applications | |
Kanai et al. | Model Predictive Control with Model Error Compensation by Koopman Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |