CN116276998A

CN116276998A - 基于强化学习的免手眼标定的机械臂抓取方法及系统

Info

Publication number: CN116276998A
Application number: CN202310250707.7A
Authority: CN
Inventors: 张伟; 褚石磊; 杨硕; 宋然; 李大猷; 魏鹏坤; 赵晨琨
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-23

Abstract

本公开提供了一种基于强化学习的免手眼标定的机械臂抓取方法及系统，涉及强化学习技术领域，方法包括构建智能体交互仿真环境，定义仿真环境的状态值；获取所述智能体的状态数据、待抓取目标物体的姿态，识别抓取点的坐标；采用最优闭环抓取策略，智能体感知当前环境的信息，根据环境信息计算最优的抓取动作，执行动作之后并再次感知，获取新的环境信息，不断重复，直至成功抓取目标物体；同时识别所述智能体抓取目标物体的行为，并对抓取过程产生的行为定义奖励机制，监督智能体抓取行为。本公开能够省去手眼标定的繁琐步骤。

Description

基于强化学习的免手眼标定的机械臂抓取方法及系统

技术领域

本公开涉及强化学习技术领域，具体涉及基于强化学习的免手眼标定的机械臂抓取方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着当今物流、无人工厂等产业的发展，工业界对机械臂抓取算法的实用化、智能化提出了更高的要求。机械臂的自主抓取是在以传统的示教控制、固定路径移动能力的基础上，发展出通过视觉传感器和计算模块进行目标检测、环境感知、路径规划和执行的智能化能力。在需要和视觉传感器配合进行抓取的场景下，机械臂的“手眼”标定是非常重要的环节，通过采样、计算得到机械臂和视觉传感器的空间坐标转换关系，从而实现从世界坐标系到图像坐标系的映射。传统的手眼标定的一般步骤是：首先获得手眼关系的模型，明确基础坐标系、末端坐标系、标定板坐标系和相机坐标系；第二步是求的各个坐标系之间的转换关系；最后获得标定好的手眼模型。但是传统的手眼标定方法存在一些问题，即需要复杂的步骤、采样过程中需要较多的人工干预、带来了较多的误差以及随着系统的使用，累积误差也会变大。无论是何种手眼标定的方法，都无法像人类手和眼的配合一样准确。

发明人发现，手眼标定有以下的缺点：

1)手眼标定的精度受到操作者的技术水平的限制，操作者的技术水平越高，标定精度越高。

2)手眼标定的过程较为繁琐，需要操作者按照一定的步骤进行，耗时较长。

3)手眼标定的精度受到环境影响较大，如光照、温度等。

4)手眼标定的精度受到机器人本身的精度影响较大，如机器人的精度、稳定性等。

5)手眼标定的精度受到标定物体的影响较大，如标定物体的精度、稳定性等。

发明内容

本公开为了解决上述问题，提出了基于强化学习的免手眼标定的机械臂抓取方法及系统，借助深度强化学习算法，设计了一个端到端的机器学习模型，仿照人类手眼配合的逻辑，让智能体在不断变换的视角下可以自主的抓取目标物体，从而可以实现无需手眼标定的机械臂抓取。

根据一些实施例，本公开采用如下技术方案：

基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，包括：

构建智能体交互仿真环境，定义仿真环境的状态值，用于表示智能体和环境的状态信息；

获取所述智能体的状态数据、待抓取目标物体的姿态，识别抓取点的坐标；

采用最优闭环抓取策略，智能体感知当前环境的信息，根据环境信息计算最优的抓取动作，执行动作之后并再次感知，获取新的环境信息，不断重复，直至成功抓取目标物体；同时识别所述智能体抓取目标物体的行为，并对抓取过程产生的行为定义奖励机制，监督智能体抓取行为。

根据一些实施例，本公开采用如下技术方案：

基于强化学习的免手眼标定的机械臂抓取系统，包括智能体本体和智能体仿真平台，所述智能体本体包括执行任务所需的机械臂；所述智能体仿真平台包括：

模型构建模块，用于构建智能体交互仿真环境，定义仿真环境的状态值，用于表示智能体和环境的状态信息；

初始化模块，用于获取所述智能体的状态数据、待抓取目标物体的姿态，识别抓取点的坐标；

动作执行模块，用于采用最优闭环抓取策略，智能体感知当前环境的信息，根据环境信息计算最优的抓取动作，执行动作之后并再次感知，获取新的环境信息，不断重复，直至成功抓取目标物体；同时识别所述智能体抓取目标物体的行为，并对抓取过程产生的行为定义奖励机制，监督智能体抓取行为。

与现有技术相比，本公开的有益效果为：

本公开的方法基于PPO算法，使用Proximal的策略优化方法，基于策略梯度和重要性采样的线学习策略，通过输入“状态”来预测动作，在与环境的迭代中获得训练，从而可以学到一定的能力。与传统的机器人控制方法相对比，强化学习对参数的敏感程度低于传统控制方法；强化学习对于难以建模的系统控制具有优势；强化学习学到的是一种策略，而不是简单的参数调整，因此可以学到超出人类的预设的能力。使用强化学习可以帮助机械臂完成特定任务，而不需要复杂的人工编程。强化学习无需训练数据，通过与环境交互进行学习，节约了采集训练样本的成本。

本公开提出的这种端到端的方法可以一次训练，多次部署，从而省去了手眼标定的繁琐步骤；新的思路在手眼关系之间形成闭环，从而也解决了累积产生的误差。通过设计对应的输入层，也可以兼容不同的传感器情况，从而实现一种部署方便，成功率可靠的抓取策略，可以应用在物流、装配等场景里的机械臂上。同时也是对强化学习的应用的一次探索，证明了强化学习在具体的应用中也是具有可行性的。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的仿真的强化学习环境；

图2为本公开实施例的对比学习的结构示意图；

图3为本公开实施例的教师以及学生网络的结构示意图；

图4为本公开实施例的教师网络流程图；

图5为本公开实施例的学生网络流程图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种基于强化学习的免手眼标定的机械臂抓取方法，包括：

步骤一：构建智能体交互仿真环境，定义仿真环境的状态值，用于表示智能体和环境的状态信息；

步骤二：获取所述智能体的状态数据、待抓取目标物体的姿态，识别抓取点的坐标；

步骤三：采用最优闭环抓取策略，智能体感知当前环境的信息，根据环境信息计算最优的抓取动作，执行动作之后并再次感知，获取新的环境信息，不断重复，直至成功抓取目标物体；同时识别所述智能体抓取目标物体的行为，并对抓取过程产生的行为定义奖励机制，监督智能体抓取行为。

作为一种实施例，机械臂抓取使用了强化学习进行训练，任务的目的是让智能体在不断变换的视角下可以自主的抓取目标物体，从而可以实现无需手眼标定的机械臂抓取，首先构建智能体交互仿真环境，定义交互仿真环境下各个物体的状态；

首先需要选择合适的机械臂、末端执行器和传感器的型号。机械臂的型号是UR5，这是一款由丹麦Universal Robots公司设计和生产的机械臂，具有6个自由度，有效载荷为5千克，工作半径为850毫米，重复定位精度为±0.1毫米，适用于轻型组装、拾取放置、打磨抛光等场景。末端执行器的型号是Robotiq Gripper 85，这是一种适应性机器人夹具，可以用于抓取机器人等，实现多种应用。视觉传感器的型号是Kinect，Kinect是一款由微软公司生产的3D摄像机，集成了深度摄像头和彩色摄像头，适用于先进的计算机视觉任务。

传感器是智能体感知环境的手段，在本任务中，传感器由假设在不同位置的多台Kinect相机组成。传感器的基础位置是距离地面0.5m，俯仰角40°，面向智能体和工作区域的多个位置，如图1所示，包含了两台Kinect传感器的位置。传感器在基础位置上，按照一定的概率分布，随机的在一定范围内调整位置和姿态，用于获取更丰富的视角数据。传感器通过设置，采集分别率为640×480的深度图和RGB彩色图像，作为后续步骤的输入。

其次定义一个环境，仿真或者真实的环境，由智能体和其他物理元素组成，它可以接受某些行为，并产生相对应的结果。本次任务中，环境是运行在电脑中的CoppeliaSim虚拟仿真环境，如图1所示，仿真环境的主要功能包括机械臂的仿真、传感器和吸盘等配件的仿真、物理学仿真。

仿真环境另一个重要功能则是提供给外部程序使用的交互方法。CoppeliaSim提供了多种接口，本发明中使用其为Python语言提供的接口和运行库，仿真环境中的一些功能则由Lua脚本实现。

确定好环境之后，接下来需要定义状态，状态是环境中的变量，是环境当前的状态。在本任务中，状态包括机械臂的末端姿态、机械臂的各关节数据，待抓取目标物体的姿态和抓取点的坐标，传感器的数据。

本任务中各个状态的定义如下：

1.机械臂的末端姿态，包括位置和姿态信息，用一个3D位置和四元数表示。

2.机械臂的各关节数据，包括角度和角速度，用一个向量表示。

3.待目标物体的姿态，包括位置和姿态信息，用一个3D位置和四元数表示。

4.抓取点的坐标，用一个3D位置表示。

5.传感器的数据，包括深度图像和彩色图像，用图像数据表示。

接下来说明一下本任务中智能体行为的定义，在本次任务中，智能体行为的定义为：

其中，Δx_i、Δy_i、Δz_i分别表示机械臂末端在三个坐标轴方向的偏移量，

表示机械臂的腕部电机的旋转角度，也就是控制了末端执行器围绕z轴的旋转角度。

作为一种实施例，在步骤二中提到，获取所述智能体的状态数据、待抓取目标物体的姿态，识别抓取点的坐标。

在教师网络训练阶段，智能体的状态数据、待抓取目标物体的姿态和抓取点通过仿真环境的接口直接读出，作为特权信息。在学生网络的训练和推理阶段，智能体的状态通过机械臂运动学和机械臂的关节信息推理而来；待抓取目标物体的姿态和抓取点由深度神经网络隐式的检测得到。规划过程是根据环境信息计算最优的动作，执行动作之后并再次感知，获取新的环境信息，不断迭代，直至成功抓取目标物体。

作为一种实施例，步骤三中，采用最优闭环抓取策略，智能体感知当前环境的信息，根据环境信息计算最优的抓取动作，执行动作之后并再次感知，获取新的环境信息，不断重复，直至成功抓取目标物体；同时识别所述智能体抓取目标物体的行为，并对抓取过程产生的行为定义奖励机制，监督智能体抓取行为。

选择合适的强化学习算法和结构。Proximal Policy Optimization(PPO)是一种强化学习算法，是目前使用较为广泛的算法之一。PPO算法的核心思想是通过有限的步骤来最大化策略的收益，同时保证策略的变化幅度不会太大。PPO算法的优势在于其简单易实现，又具有较好的效率。PPO算法也可以适用于各种不同的环境下的强化学习任务。为了实现这个目标，PPO算法使用了一种叫做Proximal的策略优化方法，其中包含了两个部分：策略更新：通过使用策略梯度的一个近似来更新策略。约束优化：通过设置一个约束来限制策略的变化幅度，从而保证策略的稳定性。

其中，闭环抓取策略采用近端策略进行优化，包含策略更新和约束优化，包括通过使用策略梯度的一个近似来更新策略，设置一个约束来限制策略的变化幅度。

其中，优化过程主要包括两个步骤：采集经验和更新策略。

在采集经验阶段，智能体根据当前策略与环境进行交互，从而生成一些轨迹和状态转移样本。这些样本可以用于更新策略。在更新策略阶段，算法优化目标是最大化经验轨迹的期望回报。PPO算法使用两种不同的策略更新方法，一种是单次更新(single update)和一种是多次更新(multiple updates)。单次更新方法包括两个步骤：计算策略更新的目标函数，并使用一种叫做投影梯度下降的方法更新策略参数。在计算目标函数时，PPO使用一种叫做Clipped Surrogate Objective的技术，通过限制每次更新的策略参数改变的大小，从而控制更新的幅度。这个限制的大小被称为更新幅度约束(clip parameter)。多次更新方法通过重复进行单次更新来更新策略，每次更新都使用新的样本，并保持当前策略不变。在每次更新之后，算法将当前策略的参数保存为旧的策略参数，以便在需要时回滚到先前的状态。总体来说，PPO算法的优化过程是迭代的。通过不断的采集经验和更新策略，算法逐渐学习到最优的策略参数。

传统的抓取策略都是单帧检测，得到路径之后去执行，这样的不足之处是用作计算的帧不一定来自最清晰易辨的角度和时机，而且精度也是非常有限的。人类在抓取一个物体时需要眼睛的持续关注，直到手抓到了物体。这样的好处就是整个过程是闭环的，闭环抓取策略是一种机器人抓取物品的方法，其中机器人的抓取行为与感知结果相互影响。

作为一种实施例，在闭环抓取策略中，机器人首先会进行感知，获取当前环境的信息，然后根据这些信息计算出最优的抓取动作，随后，机器人会执行这个动作，并再次进行感知，获取新的环境信息。这个过程会不断重复，直到机器人成功抓取物品为止。闭环抓取策略的优点在于，机器人可以根据实时的感知结果调整自己的行动，从而提高抓取成功率。

同时识别所述智能体抓取目标物体的行为，并对抓取过程产生的行为定义奖励机制，监督智能体抓取行为。

具体的，奖励机制为当智能体机械臂产生碰撞、超出运行范围或者超出最大限定步长的情况下认为是抓取任务失败，本次执行将会被终止。当智能体长时间未能完成抓取任务，则会产生负责奖励，督促智能体快速完成抓取任务。

本次任务对于智能体行为的奖励，本次任务的奖励如下：

R＝R_任务完成+R_失败+R_生存时间

R_生存时间＝step*α，α<0。

当智能体机械臂产生碰撞、超出运行范围或者超出最大限定步长的情况下认为是任务失败，本次抓取任务执行将会被终止。当智能体长时间未能完成任务，则会产生负责奖励，这样将会督促智能体尽快完成任务。最后需要明确的是智能体执行的终止条件，终止条件有一下几个：

1)机械臂成功抓取到物体；

2)机械臂运行超出了规定的范围；

3)机械臂与环境产生了碰撞；

4)运行步长超过了100步。

在进行本次抓取任务执行之前，先对抓取的执行策略进行优化训练，引入对比学习以及特权学习，使得当前智能体获取的数据和同一时刻不同视角的数据之间的距离变小，使当前智能体获取的数据和不同时刻不同视角的数据之间的距离变大，能够使得智能体不断获取机械臂和待抓取目标物体之间的相对关系。

如图3所示，训练主要分为两个过程：教师网络的训练和学生网络的训练。首先进行的是教师网络的训练，教师网络训练的输入是特权信息、前一帧的输出。

特权信息是指那些可以在仿真环境中读取到，但是无法由机器人或者传感器获得的环境变量，在本任务中，机械臂姿态、待抓取物体的姿态、传感器的位置被视为特权信息。

虽然机械臂姿态是可以通过机械臂的API读取到，但是这里也作为特权信息来使用。特权信息和历史输出被输入到了多层感知机当中，得到了包含需要信息的特征向量，本特征向量将会作为强化学习真正的状态来使用。通过智能体执行输出的动作来与环境进行交互，将会得到环境奖励，用于对当前状态下采取本动作进行评估。经过多次的迭代训练，教师网络可以通过特权信息进行抓取。

接下来是学生网络的训练，由于学生网络将会被应用与测试中，所以学生网络不能采用无法正常获取到的特权信息。学生网络的输入来自传感器，由于传感器中读取到图像数据维度太高，无法使用教师网络中的多层感知机来处理，因此这里采用了深度网络ResNet50来进行数据降维。

接下来的步骤和教师网络一致。将教师网络的数据迁移到学生网络，这里采用了三个操作：

特征向量的监督、多层感知机参数的共享和动作输出的监督。

第一步：特征向量的监督。首先，将教师网络的输出作为特征向量，对学生网络进行监督，使学生网络的输出接近于教师网络的输出。

第二步：多层感知机参数的共享。为了提高训练效率，将教师网络的多层感知机的参数共享给学生网络。

第三步：动作输出的监督。在学生网络训练的过程中，使用教师网络输出的动作作为监督，帮助学生网络逐渐学习到教师网络的行为策略。

通过这三个步骤，教师网络的知识和经验被有效地迁移给学生网络。在共同的监督和迭代过程中，学生网络逐渐独立学习，最终达到了独立运行的能力。此时，教师网络可以被移除，学生网络单独运行即可。

经过教师网络和学生网络的共同迭代和监督，最终学生网络收敛之后便具备了独立运行的能力。此时便可以将教师网络移除，单独的使用学生网络。

为了进一步提高训练的效果，在训练过程中引入了对比学习。对比学习是一种机器学习技术，它可以帮助机器学习系统从给定的训练数据中学习模式，从而更好地预测未知数据。它的基本思想是，通过比较不同的训练样本，机器学习系统可以学习出更好的模式，从而更好地预测未知数据。在强化学习中，对比学习可以用来训练智能体以获得最优策略。

具体的实现方法是：每一次训练输入一个样本以及该样本的一个正样本和该样本的一个负样本。正样本的选择是在同一时刻来自不同传感器的数据，负样本则是在不同时刻的传感器数据。这样设置的目的是可以让智能体更快的注意到在同一时刻不同视角下的共同点。因为机械臂和待抓取物体的相对关系在不同视角下是一致的，在不同时刻是存在差异的。

如图2所示为对比学习的结构和三元损失函数的使用。使当前图像和正样本之间的距离变小；使当前的图像与负样本之间的距离变大。在这个过程中，智能体可以更快的注意到机械臂和待抓取物体之间的相对关系。

loss＝max(0,dist(A,P)-dist(A,)+margin)

其中A为当前图像数据；P为正样本，来自于同一时刻的不同传感器；N为负样本，来自于不同时刻；maegin是一个阈值。

实施例2

本公开的一种实施例中提供了一种基于强化学习的免手眼标定的机械臂抓取系统，包括智能体本体和智能体仿真平台，所述智能体本体包括执行任务所需的机械臂；所述智能体仿真平台包括：

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，包括：

构建智能体交互仿真环境，定义仿真环境的状态值；

2.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，所述智能体的状态数据为机械臂的末端姿态、机械臂的各关节数据、待抓取目标物体的姿态和抓取点的坐标以及传感器的数据。

3.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，所述奖励机制为当智能体机械臂产生碰撞、超出运行范围或者超出最大限定步长的情况下认为是抓取任务失败，本次执行将会被终止。

4.如权利要求3所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，当智能体长时间未能完成抓取任务，则会产生负责奖励，督促智能体快速完成抓取任务。

5.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，当智能体成功抓取到目标物体，则本次抓取任务终止。

6.如权利要求1所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，闭环抓取策略采用近端策略进行优化，包含策略更新和约束优化，包括通过使用策略梯度的一个近似来更新策略，设置一个约束来限制策略的变化幅度。

7.如权利要求6所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，在对闭环抓取策略进行优化训练的同时，引入对比学习以及特权学习，使得当前智能体获取的数据和同一时刻不同视角的数据之间的距离变小，使当前智能体获取的数据和不同时刻不同视角的数据之间的距离变大，能够使得智能体不断获取机械臂和待抓取目标物体之间的相对关系。

8.如权利要求7所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，训练分为两个过程，分别是教师网络的训练和学生网络的训练，教师网络训练的输入是特权信息，所述特权信息是指机械臂姿态、待抓取目标物体的姿态以及传感器的位置，输出智能体的执行动作，智能体执行输出的动作与环境进行交互，多次迭代训练，教师网络通过特权信息进行抓取。

9.如权利要求8所述的基于强化学习的免手眼标定的机械臂抓取方法，其特征在于，所述学生网络的训练的输入为外界读取的图像数据，利用外界读取的图像数据进行训练，之后将教师网络的数据迁移到学生网络中，经过教师网络和学生网络的共同迭代和监督，最后将学生网络作为使用网络。

10.基于强化学习的免手眼标定的机械臂抓取系统，其特征在于，包括智能体本体和智能体仿真平台，所述智能体本体包括执行任务所需的机械臂；所述智能体仿真平台包括：

模型构建模块，用于构建智能体交互仿真环境，定义仿真环境的状态值；