CN113062601B

CN113062601B - 一种基于q学习的混凝土布料机器人轨迹规划方法

Info

Publication number: CN113062601B
Application number: CN202110284547.9A
Authority: CN
Inventors: 范思文; 纪金帅; 王昊天; 李万莉
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-05-13
Anticipated expiration: 2041-03-17
Also published as: CN113062601A

Abstract

本发明涉及智能混凝土布料机器人的一种新型轨迹规划方案，适用于混凝土布料机器人的自主浇筑控制，避免了复杂的运动学逆解插值计算，属于智能制造领域。本发明设计了一种通用的轨迹规划框架，包括布料机器人从初始状态到路径起点、从路径终点复位到初始状态的快速运动过程；布料机器人从浇筑路径起点到浇筑路径终点进行连续混凝土浇筑的过程。在快速运动过程中，采取简单的内点法进行以时间最优为目标的逆解优化，并采用三次多项式拟合轨迹。在混凝土连续浇筑过程中，将布料机器人末端所需浇筑的路径形成一定面积的误差带，利用Q学习算法，对形成的路径误差带进行区域划分，并根据浇筑的目标与约束对已划分的区域给定奖励值，对给定格子进行Q值训练，最终形成机器人各关节的动作序列，直接得到机器人动作，避免了复杂的基于运动学逆解优化的轨迹规划过程。

Description

一种基于Q学习的混凝土布料机器人轨迹规划方法

技术领域

本发明涉及智能混凝土布料机器人的一种新型轨迹规划方法，适用于混凝土布料机器人的自主浇筑控制，避免了复杂的插值计算，属于智能建造领域。

背景技术

混凝土布料机器人是一种将混凝土输送到施工地点的建筑工业机器人，在城市现代化施工的发展进程中起着相当重要的作用。随着工程建设对布料机器人的效率要求不断提高，关于布料机器人的智能控制研究逐渐发展起来。智能控制与机械臂的路径和轨迹规划密不可分，对于工业机器人，路径规划主要是指机械臂末端运动的轨迹，而轨迹规划表示为操作的各节臂架进行联合运动时的位移、速度及加速度的曲线等。布料机器人的具体工作就是实现臂架末端泵送口的位移，可以把其按照工业机器人的机构进行分析。布料浇筑面一般分为无回转水平面、竖直柱面及无回转空间平面或曲面，根据浇筑面的不同，布料的目标浇筑路线也不相同，为简化浇筑路线规划，一般路线由直线构成。

近年来，智能化实时动态自主规划对于工业机器人等作业起着极为重要的作用。针对混凝土布料规划问题，将混凝土自主布料与布料机器人的智能化实时动态路径规划结合，有助于进一步提升布料任务的浇筑效率与质量。目前对于大型布料臂架系统而言，其施工工况比较恶劣，传统的轨迹规划方法计算量大，难以确定最优性能指标，因此无法应对施工现场的实时变化因素，面对不同形状的施工面，工作段的浇筑路径往往根据现场工作人员的有限视角进行规划判断，施工浇筑的质量则过度依靠工人的操作经验和技术水平，自动化程度较低，无法满足大型布料臂架系统浇筑端的轨迹运动需求。强化学习作为机器学习方法的一个分支，其基本原理为模仿生物体的学习过程，智能体将在与外界环境的不断交互中获得学习经验，逐步训练出智能体的自主规划能力。从技术上讲，强化学习方法与工作人员的学习操作过程类似，是解决布料机器人工作端自主路径规划需求的有效途径。

发明内容

本发明针对智能冗余布料机器人的自主规划及控制精度要求，设计了一种基于Q学习的轨迹规划器。布料机器人所需进行轨迹规划的路径为已知条件，首先进行布料机从初始位置到路径起点采用时间最优的内点法规划关节轨迹；在对已知直线路径进行轨迹规划时，根据浇筑精度要求，对以已知浇筑路径为中心建立带宽为2倍精度的误差带，基于强化学习中的Q学习算法，对误差带网格化划分，并根据布料机器人工作条件和一般指标对划分网格给予对映的标量奖励值，以奖励值最大为目标进行分布训练，得到误差带环境下的最佳观测-动作-奖励的序列，并根据动作序列形成布料机器人的关节规划轨迹。

智能混凝土布料机器人具有冗余度，且机器人在进行布料作业时为连续浇筑直线或曲线路径，因此设计布料机器人的轨迹规划方案要在笛卡尔空间进行，且要考虑连续路径浇筑及冗余自由度下的规划问题。按照现有规划方法，首先应采用DH坐标系变换法对机器人建立正运动学模型，在已知笛卡尔空间中的浇筑路径前提下，需先将路径按照一定数量值进行离散，即分成多段路径，对每段离散后的路径段起点、终点进行运动学逆解运算，即由末端浇筑位置进行机器人运动学逆向推导，得到机械臂各关节变化角度。由于冗余自由度的存在，机器人可变换关节数目大于运动空间自由度数目，运动学逆解运算会产生多解情况，一般采取目标优化算法选择最佳逆解，优化目标多设定为时间最优或能量最优。完成运动学逆解运算后，将得到一系列关节角度值，对其进行数据拟合，拟合方法多用三次、五次多项式拟合或B样条曲线拟合，得到机械臂各关节运动轨迹，完成轨迹规划任务。

传统方法对于存在冗余度且进行连续直线动作的机械臂来说存在很多问题。首先，完成轨迹规划后，重新对已规划好的轨迹进行正运动学运算，即从各关节空间轨迹推导笛卡尔空间下的路径，结果发现虽然可以达到路径离散点，但离散点中间段与实际路径偏离较大，尤其是在布料机器人这种超长大型机械臂中，传统方法轨迹误差可达到1m左右，因此传统混凝土布料机器人多用人工操作浇筑末端控制实际路径范围，导致布料机器人自主性差，难以达到智能制造的目标。针对此情况，现有研究集中于更高次多项式的拟合或进行路径点分段拟合的研究，如三-五-三次多项式插值方法，需要较高的数学技巧，且计算难度大，在工业机器人实时规划中难以实现。由于冗余度存在，运动学逆解多采用优化算法求解，而优化算法多以时间最优或能量最优为目标，在目标函数设计中也可加入权值与约束进行耦合，从而达到多目标优化要求，这种算法复杂、计算量大，且大大依赖于性能指标的正确给定，而布料机器人工况复杂，性能指标和约束条件随施工环境变化时刻改变，因此算法设计较为困难，难以改变复杂算法内部结构，无法找到一种具有泛化性的固定算法框架。

发明内容

本发明目的在于克服现有技术不足，公开一种基于Q学习的混凝土布料机器人轨迹规划方法。

本发明解其技术问题所采用的技术方案是：

针对冗余度混凝土布料机器人的特点，设计一种通用的轨迹规划框架，将布料机器人轨迹规划分为两部分：一部分是布料机器人从初始状态到路径起点、从路径终点复位到初始状态的快速运动过程；另一部分是布料机器人从浇筑路径起点到浇筑路径终点进行连续混凝土浇筑的过程。在快速运动过程中，由于无需考虑中间路径，采取简单的内点法进行以时间最优为目标的逆解优化，并采用三次多项式拟合轨迹。在混凝土连续浇筑过程中，将布料机器人末端所需浇筑的路径形成一定面积的误差带，误差带宽根据给定的浇筑精度条件设定。利用Q学习算法，对形成的路径误差带进行区域划分，并根据浇筑的目标与约束对已划分的区域给定奖励值，对给定格子进行训练，最终形成机器人各关节的动作序列，直接得到机器人动作，避免了复杂的轨迹规划过程。

本发明的有益效果是：针对布料机器人工作特点，设计了一种轨迹规划器，更具通用性和泛化性，内部参数主要为设定的标量奖励值，容易更改及测试。采取对浇筑路径设计误差带的方式进行轨迹规划，可以按照工作精度要求自主设定误差大小，保证实际路径偏差在工作精度要求范围之内，避免了传统插值规划方法中路径点之间存在过大误差的问题。采用Q学习算法进行训练的方式可以直接得到机器人各关节动作值，避免了复杂的多目标优化逆解运算及数据拟合过程。采用在线学习的方式进行规划，提高了混凝土布料机械的自主性，容易达到智能建造中无人工程机械的目标。

附图说明

图1是智能冗余混凝土布料机器人整体结构图(在先申请专利2020111625562《一种三关节回转式混凝土布料机器人》)；

图2是基于Q学习的混凝土布料机器人轨迹规划器结构图；

图3是连续直线浇筑过程轨迹规划流程图；

图4是采用轨迹规划器的直线轨迹规划示例图。

具体实施方式

图1展示了已设计的智能冗余混凝土布料机器人的整体结构，主要由五大模块构成，包括立柱总成(1)、管道总成(2)、管卡(3)、悬臂支架(4)、转台总成(5)。该设计采用了三个旋转关节，即三个转台总成(5)，针对于二自由度的平面浇筑，该设计冗余一个自由度。

图2是轨迹规划器整体结构，包括快速运动部分和混凝土连续浇筑部分的规划方法总结。

图3针对于混凝土连续浇筑过程的轨迹规划部分的思路层和技术层进行细节描述，该部分采用了Q学习方法，图3对其应用方式及过程进行了梳理及总结。

在图2中，展示了一种基于Q学习的混凝土布料机器人轨迹规划总体设计框架，设计框架按层次划分，主要包括结构层、思路层、技术层和产出层。在结构层中，将一种基于Q学习的混凝土布料机器人轨迹规划器划分为两部分：一部分是布料机器人从初始状态到路径起点、从路径终点复位到初始状态的快速运动过程；另一部分是布料机器人从浇筑路径起点到浇筑路径终点进行连续混凝土浇筑的过程。

基于结构层的划分，采取以下思路：在快速运动过程中，由于在一般情况中无需考虑中间路径，采取传统的逆运动学轨迹规划思路进行以时间最优为目标的逆解优化，技术采取简单的内点法，后续可采用三次多项式拟合轨迹，最终产出各关节角度的轨迹曲线；在混凝土连续浇筑过程中，采取将布料机器人末端所需浇筑的路径形成一定面积的误差带的思路进行规划，误差带宽根据给定的浇筑精度条件设定，多为2倍精度，技术采取Q学习算法，对形成的路径误差带进行区域划分，并根据浇筑的目标与约束对已划分的区域给定奖励值，对给定格子进行训练，最终产出机器人各关节的动作序列，直接得到机器人动作，避免了复杂的轨迹规划过程。

混凝土连续浇筑过程相对于快速运动过程，包括两个过程，其一是快速运动过程，其二是混凝土连续浇筑过程。快速运动过程，是指，在布料机器人刚开始工作时，初始位置不一定在所设定浇筑轨迹的运动起点，所以设置了快速运动过程使布料机器人的初始位置回归于浇筑轨迹起始点。

在图3中，展示了布料机器人在混凝土连续直线浇筑过程中布料机器人的轨迹规划流程。

第一步，根据施工环境进行路径规划，一般设定浇筑轨迹为直线，之后确定施工精度要求，建立以路径为区域中心线，以2倍精度为区域宽度的轨迹规划误差带。考虑到在路径寻优过程中，并不需要找到最短路径，而是在权衡效率和路线质量的情况下，找到一个次优解，这里建立误差带牺牲了部分精度，而在误差带宽度一定的条件下平衡了效率和路线质量，且满足误差可控，因此能够达到轨迹规划的要求。

第二步，确定误差带后对其划分网格，根据网格区域建立动态奖励值模型R，R为矩阵形式，其中存储了每个网格的奖励值，本申请中设定布料机器人浇筑末端朝向路径目标终点为正奖励，反之为负奖励，误差带之外的区域奖励设定为负无穷，保证规划过程中布料机器人始终在误差带区域中运动。

第三步，对R矩阵中的奖励值量化处理，以便后续规划器进行学习。

3.1设定机器人每动作一次，奖励值将减去一个单位，保证机器人的最优能量要求，即以最少的动作达到浇筑轨迹要求。

3.2在R矩阵加入偏离路径中心值的标量奖励和已完成动作距离的标量奖励，即在R矩阵中存储布料机器人每个状态下的轨迹误差，将误差值直接作为等值的标量负奖励，并将机器人每个状态下的浇筑位置距路径起点的距离作为等值的标量正奖励，保证布料机器人在误差范围内向目标点动作。

3.3设定路径终点所处格子为最大奖励值，保证规划器在寻迹规划时始终朝着目标终点方向前进。

第四步，根据以上要求建立初始R矩阵，并建立布料机器人动作矩阵a，动作包括向前运动、静止及向后运动3种类型，因此动作矩阵规格为3×3×3，代表了布料机器人所有可行动作下的27种状态，为防止出现长期静止状态死区，去掉(0,0,0)状态，即所有关节静止状态，即动作矩阵a包括了布料机器人可行的26种动作状态。

第五步，根据规定的奖励矩阵R及动作矩阵a，建立动态Q矩阵，Q矩阵相当于动作-价值函数，输入机器人当前所处状态和即将进行的下一步动作，得到到达目标点的全部奖励值，这里初始化为所有格子Q值为0，后标记终点所在格子Q值为100个单位。

根据以上步骤，采取Q学习更新策略公式Q*(s,a)＝E[R+γmaxQ*(s′,a′)|s,a]动态Q矩阵不断训练迭代，这里：

在R矩阵加入偏离路径中心值的标量奖励和已完成动作距离的标量奖励，即在R矩阵中存储布料机器人每个状态下的轨迹误差，将误差值直接作为等值的标量负奖励，并将机器人每个状态下的浇筑位置距路径起点的距离作为等值的标量正奖励，保证布料机器人在误差范围内向目标点动作；

动作状态s，包括三个旋转关节角度，即三个转台总成(5)角度；

动作矩阵a，动作矩阵包括向前运动、静止及向后运动3种类型，动作矩阵规格为3×3×3，代表了布料机器人所有可行动作下的27种状态，为防止出现长期静止状态死区，去掉(0,0,0)状态，即所有关节静止状态，即动作矩阵a包括了布料机器人可行的26种动作状态s；

数学概率中期望E；

Q*(s',a')为一次训练中得到的最大Q值，γ为学习率，这里取值为0.9，直到设定的迭代次数到达上限或Q矩阵收敛时，停止更新，此时默认得到的Q矩阵为最优矩阵，根据此可以得到一系列最优的(动作值，奖励值)的映射关系，从而得到在设定误差带内轨迹规划得到的布料机器人3个关节动作值序列，从而完成直线浇筑的轨迹规划，避免了复杂的运动学逆解优化运算，得到了目标浇筑轨迹的最佳路径点和布料机器人状态-动作序列。

如图4所示，通过本申请的Q学习轨迹规划器，得到了最佳的连续路径规划点，路径点之间的部分采用常规曲线拟合方式即可得到最佳连续轨迹。通过本申请提出的方法后得到的混凝土连续浇筑轨迹，由一系列离散点构成，每一离散点代表着布料机器人的一个运动状态。

在图4中，基于Q学习的混凝土布料机器人轨迹规划器得到的直线路径，所有路径点为布料机器人到达的所有状态，均在所设定的误差带范围内，达到了智能建造工程机械自主规划、误差可控的要求。

Claims

1.一种基于Q学习的混凝土布料机器人轨迹规划方法，针对冗余度混凝土布料机器人的特点，其特征在于，设计一种通用的轨迹规划框架，将布料机器人轨迹规划分为两部分：一部分是布料机器人从初始状态到路径起点、从路径终点复位到初始状态的快速运动过程；另一部分是布料机器人从浇筑路径起点到浇筑路径终点进行连续混凝土浇筑的过程；

该设计采用了三个旋转关节，即三个转台总成(5)；

布料机器人在混凝土连续直线浇筑过程中布料机器人的轨迹规划流程：

第一步，根据施工环境进行路径规划，建立以路径为区域中心线，以2倍精度为区域宽度的轨迹规划误差带；

第二步，确定误差带后对其划分网格，根据网格区域建立动态奖励值模型R，R为矩阵形式，其中存储了每个网格的奖励值，设定布料机器人浇筑末端朝向路径目标终点为正奖励，反之为负奖励，误差带之外的区域奖励设定为负无穷；

第三步，对R矩阵中的奖励值量化处理；

3.1设定机器人每动作一次，奖励值将减去一个单位，保证机器人的最优能量要求，即以最少的动作达到浇筑轨迹要求；

3.2在R矩阵加入偏离路径中心值的标量奖励和已完成动作距离的标量奖励，即在R矩阵中存储布料机器人每个状态下的轨迹误差，将误差值直接作为等值的标量负奖励，并将机器人每个状态下的浇筑位置距路径起点的距离作为等值的标量正奖励，保证布料机器人在误差范围内向目标点动作；

3.3设定路径终点所处格子为最大奖励值；

第四步，根据以上要求建立初始R矩阵，并建立布料机器人动作矩阵a，动作包括向前运动、静止及向后运动3种类型，因此动作矩阵规格为3×3×3，代表了布料机器人所有可行动作下的27种状态，为防止出现长期静止状态死区，去掉(0,0,0)状态，即所有关节静止状态，即动作矩阵a包括了布料机器人可行的26种动作状态s；

第五步，根据规定的奖励矩阵R及动作矩阵a，建立动态Q矩阵，Q矩阵相当于动作-价值函数，输入机器人当前所处状态和即将进行的下一步动作，得到到达目标点的全部奖励值；

根据以上步骤，采取Q强化学习更新策略公式Q*(s,a)＝E[R+γmaxQ*(s′,a′)|s,a]动态Q矩阵不断训练迭代，这里：

数学概率中期望E；