CN108153153A

CN108153153A - 一种学习变阻抗控制系统及控制方法

Info

Publication number: CN108153153A
Application number: CN201711393308.7A
Authority: CN
Inventors: 夏桂华; 李超; 张智; 谢心如; 朱齐丹; 蔡成涛; 吕晓龙; 刘志林; 班瑞阳
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-06-12
Anticipated expiration: 2037-12-19
Also published as: CN108153153B

Abstract

本发明提供的是一种学习变阻抗控制系统及控制方法。主要包括变阻抗控制器、系统的高斯过程模型、变阻抗控制策略和策略学习算法四部分。不需要环境的任何先验知识，根据交互数据构建系统的高斯过程模型，以贝叶斯的方式对系统进行长期推理与规划。能在有限的观测数据中提取更多的有用信息，以最少的交互时间学习完成复杂的力控制任务。通过在成本函数中加入能量损失项，实现误差和能量的权衡，使机器人具有良好的柔顺能力。最后，得到的变阻抗控制策略可在任务的不同阶段根据系统状态同时调整目标刚度与阻尼参数。本发明可广泛应用于双机械臂装配、多机械臂协作与机器人步态控制等柔顺控制任务中，保证交互操作的安全性与鲁棒性。

Description

一种学习变阻抗控制系统及控制方法

技术领域

本发明涉及的是一种机器人柔顺控制，具体地说是一种高效的学习变阻抗控制系统及控制方法。

背景技术

随着机器人越来越多的应用于非结构环境下的接触操作任务，如柔顺装配、人机交互等，由于任务复杂，接触环境多变且不可预测，很难建立系统的精确动力学模型，如何让机器人安全高效快速地执行新任务，精确地控制不同环境下的接触力，是机器人面临的新挑战。阻抗控制因良好的适应性及鲁棒性，被广泛应用于机器人交互控制任务中。由于力控制特性决定于机器人的阻抗参数，惯性、刚度和阻尼参数的选择高度依赖任务，通常难以先验推断，为了得到良好的控制性能，通常需要对控制器设计及其参数有深入的认识，仍需手动调整控制参数。而且特别是对于复杂任务，由于环境条件通常包含一些非线性和时变的因素，固定参数的阻抗控制方法很难实现目标任务。若阻抗控制参数能根据任务和环境的变化进行动态规划调整，则控制性能明显好于阻抗控制参数固定的情况。所以，学习变阻抗控制能力是现代机器人安全快速地完成复杂操作任务的关键。

对于需要力控制的操作任务，学习探索次数越少越好，因为大量的物理交互尝试可能会对机器人或工件造成损坏，而且大量的采样数据费时且昂贵，这是不切实际的。所以，提高学习变阻抗控制算法的学习效率，减少所需的试错交互次数，对于机器人快速学习完成新任务而言至关重要。

发明内容

本发明的目的在于提供一种学习效率高，可广泛应用于双机械臂装配、多机械臂协作与机器人步态控制等柔顺控制任务中，保证交互操作的安全性与鲁棒性的学习变阻抗控制系统。本发明的目的在于提供一种基于学习变阻抗控制系统的控制方法。

本发明的学习变阻抗控制系统包括变阻抗控制器、系统的高斯过程模型模块、变阻抗控制策略模块和策略学习算法模块，

系统的高斯过程模型模块根据机器人末端的实际位置和力传感器信息，建立系统的高斯过程模型，作为控制系统的变换动力学模型；

策略学习算法模块根据系统的高斯过程模型，通过级联一步预测过程，推理预测控制系统状态的长期分布，然后根据此模型进行内部仿真和预测控制系统的行为；

变阻抗控制策略模块根据控制系统状态即机械臂末端位置和实际接触力实时计算阻抗参数即目标刚度和阻尼系数，并传递给变阻抗控制器；

变阻抗控制器根据时变的目标刚度、阻尼系数与当前的接触力误差修正期望参考轨迹，输出机械臂末端期望位置增量。

基于本发明的学习变阻抗控制系统的控制方法包括如下步骤：

(1)随机初始化控制变量u＝[K_d(t)B_d(t)]并作用于控制系统，记录初始数据[XF_a]，其中K_d(t)为目标刚度、B_d(t)为阻尼系数、X为机械臂末端位置、F_a为实际接触力；

(2)根据历史采样数据[XF_a]，建立系统的高斯过程动态模型，作为系统的变换动力学模型；

(3)使用策略学习算法搜索最优阻抗控制策略π(θ)；

(4)设置策略为π*←π(θ)，应用于变阻抗控制器进行力控制，并采集新的数据[XF_a]；

(5)重复步骤(2—4)直到得到满意的力跟踪效果，学习得到满意的控制策略。

基于本发明的学习变阻抗控制系统的控制方法还可以包括：

1、所述的建立系统的高斯过程动态模型具体包括：

(1)高斯过程模型为其中选取先验均值为m≡0，选取平方指数核函数为

(2)把状态和控制量作为高斯过程的输入元组，将状态增量作为训练目标；

(3)给定N组训练输入X＝[x₁,...,x_n]及相应的训练目标y＝[y₁,...,y_n]^T，使用证据最大化算法，学习到高斯过程模型的超参数

其中，为可观测状态，为训练目标，Δ_t为状态增量，为独立同分布的系统噪声，α²为潜在函数f的信号方差，l_i是每个输入维度的特征长度。

2、所述策略学习算法具体包括：

(1)将控制策略π作用于系统高斯过程模型，进行内部仿真，预测系统的行为与性能；

(2)使用学习到的高斯过程模型对状态进行长期推理预测p(x₁|π),...,p(x_T|π)；

(3)评估时间T内的期望总成本J^π(θ)；

(4)计算成本相对于策略参数的梯度信息dJ^π(θ)/dθ，使用基于梯度的策略搜索算法寻找最优策略π*←π(θ)，更新策略参数θ；

(5)重复步骤(1)—(4)直到策略参数θ收敛。

3、所述变阻抗控制器为基于位置的间接阻抗控制器，根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹，得到机械臂末端的期望位置增量δX；

变阻抗控制器的具体形式为：

ω₁＝4M_d(t)+2B_d(t)T+K_d(t)T²

ω₂＝-8M_d(t)+2K_d(t)T²

ω₃＝4M_d(t)-2B_d(t)T+K_d(t)T²

其中为T控制周期。

本发明提供了一种高效的学习变阻抗控制系统及控制方法，实现机器人高效自主地学习完成力控制任务。

本发明的技术方案的主要特点体现在：

(1)变阻抗控制器，可根据时变的目标刚度与阻尼系数修正期望参考轨迹；

(2)系统的高斯过程模型，是根据实际采样数据建立系统的概率化模型，作为系统的变换动力学模型；

(3)变阻抗控制策略是一种概率化的高斯过程控制策略，以均值函数和方差函数表示，根据系统状态——机械臂末端位置X和实际接触力F_a实时计算阻抗参数——目标刚度K_d(t)和阻尼系数B_d(t)，并传递给变阻抗控制器；

(4)策略学习算法，是使用基于模型的强化学习算法学习得到的，通过级联一步预测过程，推理预测系统状态的长期分布，然后根据此模型进行内部仿真和预测系统的行为；在成本函数中加入能量损失项，通过惩罚控制动作降低完成任务所需的阻抗增益，实现误差与能量最小化的权衡。

变阻抗控制器具体为：

(1)变阻抗控制器为基于位置的间接阻抗控制器，根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹，得到机械臂末端的期望位置增量δX；

(2)控制周期为T，M_d(t)、K_d(t)、B_d(t)分别为目标惯量、时变的目标刚度与时变的阻尼系数，则变阻抗控制器的具体形式为：

ω₁＝4M_d(t)+2B_d(t)T+K_d(t)T²

ω₂＝-8M_d(t)+2K_d(t)T²

ω₃＝4M_d(t)-2B_d(t)T+K_d(t)T²

系统的高斯过程模型具体为：

变阻抗控制策略具体为：

(1)变阻抗控制策略为高斯过程控制器是一种概率化的高斯过程控制策略，以均值函数和方差函数表示，其中为机器人的可观测状态，策略输出为阻抗控制器的目标刚度K_d(t)与阻尼系数B_d(t)，θ为需要学习的控制策略参数；

(2)使用有界可微的梯形饱和函数S(π_t)＝u_min+u_max+u_max[9sinπ_t+sin(3π_t)]/8控制参数u的物理边界，把控制变量u限制在区间[u_min u_min+u_max]内，其中u_max为控制变量的最大限幅，u_min为控制变量的最小限幅。

策略学习算法具体为：

(1)将控制策略π作用于系统模型——高斯过程模型，进行内部仿真，预测系统的行为与性能；

(2)使用高斯过程模型对状态进行长期推理预测p(x₁|π),...,p(x_T|π)；

(3)评估时间T内的期望总成本其中瞬时成本函数包括状态误差成本项和能量损耗项c_e(u_t)＝c_e(π(x_t))＝ζ·(u_t/u_max)²两部分，其中d(·)为欧氏距离，σ_c是成本函数的宽度，ζ为能量损失系数,u_t为当前的控制量；

(4)计算成本相对于策略参数的梯度信息dJ^π(θ)/dθ，使用基于梯度的策略搜索算法寻找最优策略π*←π(θ)，更新策略参数θ。

为了使机器人能在非结构环境中自主学习完成复杂的力控制任务，精确地控制接触操作任务中的接触力，本发明提出了一种使用基于模型的强化学习算法学习调整机器人阻抗参数的新方案。主要包括变阻抗控制器、系统的高斯过程模型、变阻抗控制策略和策略学习算法四部分。其特点是不需要环境的任何先验知识，根据交互数据构建系统的高斯过程模型，以贝叶斯的方式对系统进行长期推理与规划。这样，能在有限的观测数据中提取更多的有用信息，以最少的交互时间学习完成复杂的力控制任务。通过在成本函数中加入能量损失项，实现误差和能量的权衡，使机器人具有良好的柔顺能力。最后，得到的变阻抗控制策略可在任务的不同阶段根据系统状态同时调整目标刚度与阻尼参数。本发明可以使机器人高效地自主学习完成非结构化环境下的复杂力控制任务，仅需数次交互即可学习得到最优的控制策略，具有数据高效性，可广泛应用于双机械臂装配、多机械臂协作与机器人步态控制等柔顺控制任务中，保证交互操作的安全性与鲁棒性。

本发明解决了机器人学习变阻抗控制中的高效性问题，通过从观测数据中提取更多的有用信息，最大限度地减少学习完成力控制任务所需的交互时间，对于机器人实现高效的自主学习完成柔顺控制具有重要的借鉴意义，可直接应用于需要接触力控制的机器人中。

附图说明

图1是本发明的系统的结构框图；

图2是本发明方法的流程图；

图3是本发明的策略学习算法流程图。

具体实施方式

下面举例对本发明做更详细的描述。

如图1所示为学习变阻抗控制方法的系统结构图，虚线框内的各部分为本发明的具体结构，包括包括变阻抗控制器、系统的高斯过程模型、变阻抗控制策略和策略学习算法。具体为：

1)变阻抗控制器根据时变的目标刚度、阻尼系数与当前的接触力误差F_e修正期望参考轨迹，计算输出机械臂末端期望位置增量δX；

2)根据采样数据机器人末端的实际位置X和力传感器信息F_a建立系统的高斯过程模型，作为系统的变换动力学模型；

3)策略学习算法根据高斯过程模型，通过级联一步预测过程，推理预测系统状态的长期分布，然后根据此模型进行内部仿真和预测系统的行为，并使用基于模型的强化学习算法通过最小化期望成本得到变阻抗控制策略π；

4)变阻抗控制策略是一种概率化的高斯过程控制策略，以均值函数和方差函数表示，根据系统状态——机械臂末端位置X和实际接触力F_a实时计算阻抗参数——目标刚度K_d(t)和阻尼系数B_d(t)，并传递给变阻抗控制器。

图1中的F_d为期望接触力，X_d为期望位置，X_e为机械臂末端的总期望位置，q_d为根据机器人的逆运动学方程计算得到的期望关节位置，根据q为测量的关节实际位置，K_E,B_E分别为未知的环境刚度与阻尼。

如图2所示本发明的方法主要包括五个步骤：

1)随机初始化控制变量u＝[K_d(t)B_d(t)]并作用于系统，记录初始数据[XF_a]；

2)根据历史采样数据[XF_a]，建立系统的高斯过程动态模型，作为系统的变换动力学模型；

3)使用策略学习算法搜索最优阻抗控制策略π(θ)；

4)设置策略为π*←π(θ)，应用于系统进行力控制，并采集新的数据[XF_a]；

5)重复步骤(2—4)直到得到满意的力跟踪效果，学习得到满意的控制策略。

(1)变阻抗控制器

为使末端达到期望的动态特性，使用二阶阻抗模型：

其中，M_d(t)、B_d(t)、K_d(t)分别为阻抗模型中时变的目标惯性矩阵、目标阻尼矩阵与目标刚度矩阵，X分别为机器人末端在笛卡尔空间实际的加速度、速度和位置， X_d分别为机器人末端的期望加速度、速度和位置，F_d和F分别为机器人末端与环境之间的期望接触力与实际接触力。

为得到修正的期望位置增量，对二阶阻抗模型进行拉格朗日变换，并使用双线性变换s＝2T^-1(z-1)(z+1)^-1离散化得：

ω₁＝4M_d(t)+2B_d(t)T+K_d(t)T² (3)

ω₂＝-8M_d(t)+2K_d(t)T² (4)

ω₃＝4M_d(t)-2B_d(t)T+K_d(t)T² (5)

其中，T为控制周期，则阻抗控制器的差分方程即末端的期望位置增量为：

为了简化计算，目标惯性矩阵设为常量M_d(t)＝I，所以变阻抗控制器需要根据时变的目标刚度K_d(t)、阻尼系数B_d(t)与接触力误差E(n)调节期望位置。

(2)系统的高斯过程模型

高斯过程模型是一种非参数化的概率模型，用均值函数m(·)与半正定的协方差函数k(·,·)表示。设描述系统的动力学方程为：

x_t＝f(x_t-1,u_t-1) (7)

y_t＝x_t+ε_t (8)

其中，为可观测状态，这里为机器人末端的实际位置X和实际接触力F_a。为控制输入，其中K_d(t)为目标刚度，B_d(t)为阻尼系数。为训练目标，其中Δ_t为状态增量。为独立同分布的系统噪声。f为高斯过程模型函数其中为训练输入元组，为独立同分布的测量噪声。

为了在预测及规划中考虑模型的不确定性，避免学习模型的确定性等价假设，我们根据获得的采样数据，使用高斯过程推测潜在函数f的后验分布，描述所有可能的动态模型。本文为了计算简便，选取先验均值为m≡0，并选取平方指数核函数：

其中，α²为潜在函数f的信号方差，l_i是每个输入维度的特征长度。给定N组训练输入X＝[x₁,...,x_n]及相应的训练目标y＝[y₁,...,y_n]^T，使用证据最大化算法，即可学习到高斯过程模型的参数

给定确定性的测试输入x_*，函数值f_*＝f(x_*)的后验预测分布p(f*|x_*)服从高斯分布：

其中K＝k(X,X)为核函数矩阵。

(3)变阻抗控制策略

定义变阻抗控制策略为其中为机器人的可观测状态，策略输出为阻抗控制器的目标刚度K_d(t)与阻尼系数B_d(t)，θ为需要学习的控制策略参数。选用高斯过程控制器作为控制策略π：

其中，n为高斯过程控制器的个数，X_π为训练输入，y_π为训练目标，初始化为接近零的随机值，为每个状态的特征长度，为信号方差，此处这样在功能上与RBF网络类似，为测量噪声方差。所以，高斯过程控制策略π的超参数为

在实际控制系统中，必须考虑控制参数u的物理边界，本发明选用有界可微的梯形饱和函数，把控制变量u限制在区间[u_min u_min+u_max]内：

(4)策略学习算法

如图3所示为策略学习算法的流程图，主要包括五个步骤：

1)将控制策略π作用于系统模型——高斯过程模型，进行内部仿真，预测系统的行为与性能；

2)使用学习到的高斯过程模型对状态进行长期推理预测p(x₁|π),...,p(x_T|π)；

3)评估时间T内的期望总成本J^π(θ)；

4)计算成本相对于策略参数的梯度信息dJ^π(θ)/dθ，使用基于梯度的策略搜索算法寻找最优策略π*←π(θ)，更新策略参数θ；

5)重复步骤(1—4)直到策略参数θ收敛。

为得到最优的控制策略需要根据状态的长期预测演化，找到使成本J^π(θ)最小化的策略参数θ^*。我们使用高斯过程模型表示实际系统的变换动力学，通过级联一步预测获得状态分布的长期预测p(x₁),...,p(x_T)。由于高斯过程模型可以传递输入的不确定性，把高斯分布的状态空间映射到目标空间，所以在长期规划中包含了模型的不确定性，减少了模型偏差带来的负面影响。状态一步预测的过程可简化为：

p(x_t-1)→p(u_t-1)→p(x_t-1,u_t-1)→p(Δ_t)→p(x_t) (18)

若p(x_t-1)已知，为了从p(x_t-1)预测p(x_t)，需要根据控制变量u_t-1＝π(x_t-1)的分布计算联合分布先计算预测控制变量的分布p(u_t-1)，然后计算相互协方差cov[x_t-1,u_t-1]，最后得到的近似高斯分布为：

训练目标Δ_t的预测分布为：

其中变换函数的后验预测分布可根据式(11)—(13)计算。可以使用矩匹配法，把训练目标的分布p(Δ_t)近似为高斯分布然后，把期望状态分布p(x_t)近似为高斯分布：

μ_t＝μ_t-1+μ_Δ (22)

Σ_t＝Σ_t-1+Σ_Δ+cov[x_t-1,Δ_t]+cov[Δ_t,x_t-1] (23)

为了评估控制策略π的性能，使用时间T内的总期望成本J^π(θ)作为评价标准。将控制策略π作用于系统，根据预测状态的长期演化，计算总期望成本：

其中，c(x_t)为t时刻的瞬时成本，为瞬时成本相对于预测状态分布的期望值：

为使机器人实现误差和能量最小化之间的权衡具备这种变阻抗特性，约束接触力以保证安全，具有更好的柔顺能力，我们在成本函数中加入能量损耗项，通过惩罚控制动作降低完成任务所需的阻抗增益。定义瞬时成本函数为：

c_t＝c_b(x_t)+c_e(u_t) (27)

c_e(u_t)＝c_e(π(x_t))＝ζ·(u_t/u_max)² (29)

瞬时成本函数c_t主要包括两项，c_b(x_t)为状态误差成本，是二次饱和成本函数，当距目标状态的偏差较大时饱和为1，d(·)为欧氏距离，σ_c是成本函数的宽度；c_e(u_t)为能量损耗项，即阻抗增益的均方能量损失函数，ζ为能量损失系数,u_t为当前的控制量，u_max为控制量的最大限幅。

然后，根据链式法则，计算期望成本相对于控制器参数θ的梯度，使用基于梯度的策略搜索方法，得到使得J^π(θ)最小化的控制器参数θ^*。

Claims

1.一种学习变阻抗控制系统，其特征是：包括变阻抗控制器、系统的高斯过程模型模块、变阻抗控制策略模块和策略学习算法模块，

2.一种基于权利要求1所述的学习变阻抗控制系统的控制方法，其特征是：

(1)随机初始化控制变量u＝[K_d(t) B_d(t)]并作用于控制系统，记录初始数据[X F_a]，其中K_d(t)为目标刚度、B_d(t)为阻尼系数、X为机械臂末端位置、F_a为实际接触力；

(2)根据历史采样数据[X F_a]，建立系统的高斯过程动态模型，作为系统的变换动力学模型；

(3)使用策略学习算法搜索最优阻抗控制策略π(θ)；

3.根据权利要求2所述的基于学习变阻抗控制系统的控制方法，其特征是所述的建立系统的高斯过程动态模型具体包括：

4.根据权利要求2或3所述的基于学习变阻抗控制系统的控制方法，其特征是所述策略学习算法具体包括：

(3)评估时间T内的期望总成本J^π(θ)；

(5)重复步骤(1)—(4)直到策略参数θ收敛。

5.根据权利要求2或3所述的基于学习变阻抗控制系统的控制方法，其特征是：所述变阻抗控制器为基于位置的间接阻抗控制器，根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹，得到机械臂末端的期望位置增量δX；

变阻抗控制器的具体形式为：

ω₁＝4M_d(t)+2B_d(t)T+K_d(t)T²

ω₂＝-8M_d(t)+2K_d(t)T²

ω₃＝4M_d(t)-2B_d(t)T+K_d(t)T²

其中为T控制周期。

6.根据权利要求4所述的基于学习变阻抗控制系统的控制方法，其特征是：所述变阻抗控制器为基于位置的间接阻抗控制器，根据接触力误差和时变的目标刚度与阻尼系数修正期望参考轨迹，得到机械臂末端的期望位置增量δX；

变阻抗控制器的具体形式为：

ω₁＝4M_d(t)+2B_d(t)T+K_d(t)T²

ω₂＝-8M_d(t)+2K_d(t)T²

ω₃＝4M_d(t)-2B_d(t)T+K_d(t)T²

其中为T控制周期。