CN113646138A

CN113646138A - 用于利用真实性能数据和模拟性能数据训练物体拾取机器人的基于混合机器学习的系统和方法

Info

Publication number: CN113646138A
Application number: CN202080024548.3A
Authority: CN
Inventors: 黄金苗; 卡洛斯·马蒂内兹; 崔尚恩; 托马斯·A·福尔布里吉
Original assignee: ABB Schweiz AG
Current assignee: ABB Schweiz AG
Priority date: 2019-03-27
Filing date: 2020-03-24
Publication date: 2021-11-12
Anticipated expiration: 2040-03-24
Also published as: US11440183B2; CN113646138B; WO2020194187A1; EP3946828A1; US20200306959A1

Abstract

为了使用真实抓取性能数据和模拟抓取性能数据训练物体拾取机器人，基于物体物理特性分配物体上的抓取位置。使用第一组分配位置执行用于机器人抓取的模拟实验。基于来自模拟的模拟数据，针对每个分配位置评估机器人的模拟物体抓取质量。基于代表来自评估的模拟抓取质量的数据确定物体上的第一组候选抓取位置。基于来自用于机器人使用候选抓取位置中的每个候选抓取位置进行抓取的实际实验的传感器数据，针对候选位置中的每个候选位置评估实际物体抓取质量。

Description

用于利用真实性能数据和模拟性能数据训练物体拾取机器人的基于混合机器学习的系统和方法

相关申请的交叉引用

本专利申请要求于2019年3月27日提交的美国专利申请第16/366,700号的权益，其出于所有目的通过引用并入本文。

技术领域

本公开涉及物体的机器人抓取，并且更具体地涉及用于物体拾取机器人的基于机器学习的训练的系统和方法。

背景技术

在用于基于机器学习的机器人训练的至少一些已知系统和方法中，利用有限的数据源，这可能降低所得到的机器学习模型的效率、速度和准确性。已知的系统和方法可能仅利用来自真实世界机器人拾取实验的数据。同样，已知的机器人训练系统和方法可以仅利用基于物体物理特性而在虚拟环境中生成的合成数据。无论如何，缺乏来自实际和模拟实验以及在训练和运行时间机器学习环境中对机器人抓取性能数据的众多来源的协同利用可能会导致物体拾取机器人训练以及应用有这样的系统的各种工业过程的效率提升机会的丧失。

发明内容

本文中公开的用于利用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人的基于混合机器学习(ML)的训练的系统和方法呈现用于解决机器人拾取问题的新的和改进的处理流水线。混合机器学习引擎用于训练机器人在模拟和真实世界环境中了解抓取位置。传感器反馈系统融合多个传感器信号以评估抓取质量。所公开的系统和方法还能够通过在线学习进行机器人抓取的运行时间/在线自校正和微调。

在一个方面，提供了一种用于使用真实抓取性能数据和模拟抓取性能数据训练物体拾取机器人的方法。该方法包括基于物体的已知或估计物理特性来分配物体上的多个抓取位置。该方法包括执行第一模拟实验，该第一模拟实验针对机器人使用多个分配的抓取位置中的第一组分配的抓取位置来抓取物体。该方法包括基于来自第一模拟实验的第一组模拟数据，针对第一组分配的抓取位置中的每个分配的抓取位置来评估机器人进行抓取的模拟物体抓取质量。该方法包括基于代表在用于模拟物体抓取质量的评估步骤中获取的模拟抓取质量的数据来确定物体上的第一组候选抓取位置。该方法包括基于第一组抓取质量传感器数据，针对第一组候选抓取位置中的每个候选抓取位置来评估机器人进行抓取的实际物体抓取质量，第一组抓取质量传感器数据来自第一实际实验，第一实际实验针对机器人使用第一组候选抓取位置中的每个候选抓取位置抓取物体。该方法包括针对第一组候选抓取位置中的每个候选抓取位置，基于来自第一实际实验的第一组抓取质量传感器数据以及代表模拟抓取质量的数据，来确定实际物体抓取质量和模拟物体抓取质量的收敛。

在另一方面，提供了一种用于使用真实抓取性能数据和模拟抓取性能数据训练物体拾取机器人的系统。该系统包括一个或多个存储器设备、以及与一个或多个存储器设备和物体拾取机器人通信的一个或多个处理器。一个或多个处理器被编程为基于物体的已知或估计物理特性来分配物体上的多个抓取位置。一个或多个处理器被编程为执行第一模拟实验，该第一模拟实验针对机器人使用多个分配的抓取位置中的第一组分配的抓取位置来抓取物体。一个或多个处理器被编程为基于来自第一模拟实验的第一组模拟数据，针对第一组分配的抓取位置中的每个分配的抓取位置评估机器人进行抓取的模拟物体抓取质量。一个或多个处理器被编程为基于代表在评估模拟抓取质量时获取的模拟抓取质量的数据来确定物体上的第一组候选抓取位置。一个或多个处理器被编程为基于第一组传感器数据，针对第一组候选抓取位置中的每个候选抓取位置来评估机器人进行抓取的实际物体抓取质量，第一组传感器数据来自第一实际实验，该第一实际实验用于机器人使用第一组候选抓取位置中的每个候选抓取位置抓取物体。

在又一方面，提供了一种存储处理器可执行指令的非暂态计算机可读存储介质，该处理器可执行指令用于使用真实抓取性能数据和模拟抓取性能数据训练物体拾取机器人。该处理器可执行指令在由一个或多个处理器执行时使一个或多个处理器：(a)基于物体的已知或估计物理特性来分配物体上的多个抓取位置；(b)执行第一模拟实验，该第一模拟实验针对机器人使用多个分配的抓取位置中的第一组分配的抓取位置来抓取物体；(c)基于来自第一模拟实验的第一组模拟数据，针对第一组分配的抓取位置中的每个分配的抓取位置来评估机器人进行抓取的模拟物体抓取质量；(d)基于代表在评估模拟抓取质量时获取的模拟抓取质量的数据来确定物体上的第一组候选抓取位置；(e)基于第一组抓取质量传感器数据，针对第一组候选抓取位置中的每个候选抓取位置来评估机器人进行抓取的实际物体抓取质量，第一组抓取质量传感器数据来自第一实际实验。

与已知系统和方法相比，本文中公开的用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人的基于混合ML的训练的系统和方法为用户提供了很多有益的技术效果并且实现了各种优点。这样的好处包括但不限于与已知过程相比使得能够以提高的准确度、速度、效率和降低的错误率来拾取和放置(一个或多个)物体。将所公开的系统和方法用于物体拾取机器人的基于混合ML的训练，从而减少在训练和运行时间环境两者中(一个或多个)处理器所需要的每个物体CPU时钟周期的所需要的数目。本文中描述的用于物体拾取机器人的基于混合ML的训练的系统和方法能够持续评估和监测物体抓取性能，使得可以根据需要实现混合ML操作以微调和增强ML模型的准确性和鲁棒性，包括跨在单元操作中涉及的多个机器人。因此，所公开的用于物体拾取机器人的基于混合ML的训练的系统和方法能够在期望提高计算、存储器、网络带宽、电力和/或人力资源的利用率的各种工业应用中高效并且有效地训练物体拾取机器人。

从以下详细描述和附图将能够理解所公开的原理的另外的和备选的方面和特征。可以理解，与所公开的用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人的基于混合机器学习的训练的系统和方法相关的原理能够在其他不同实施例中执行，并且能够在各个方面进行修改。因此，应当理解，前述概述和以下详细描述均仅是示例性和说明性的，而并不限制所附权利要求的范围。

附图说明

图1是根据本公开的实施例的用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人的基于混合机器学习的训练的系统的示意图。

图2是根据本公开的实施例的使用图1所示的系统的用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人的基于混合机器学习的训练的方法的流程图。

图3是根据本公开的实施例的定位在图1所示的系统的机器人的模拟或实际工作空间中的物体的示意图。

图4是根据本公开的实施例的使用图1所示的系统和图2所示的方法的用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人的基于混合机器学习的训练的过程的示意图。

图5是根据本公开的实施例的图1的系统中所示的存储器的数据结构的框图。

图6是根据本公开的实施例的用于图2所示的方法的软件架构的框图。

图7是根据本公开的实施例的图2所示的方法的各方面的流程图。

具体实施方式

现在将详细参考特定实施例或特征，其示例在附图中示出。在可能的情况下，将在整个附图中使用对应或相似的附图标记来指代相同或对应的部分。此外，当可能存在相同类型的一个以上的元件时，对本文中描述的各种元件的引用是共同地或个体地进行的。然而，这样的引用在本质上仅仅是示例性的。可以注意到，除非在所附权利要求中明确规定，否则以单数形式对元素的任何引用也可以被解释为涉及复数，反之亦然，而不会将本公开的范围限制为这样的元素的确切数目或类型。

图1是根据本公开的实施例的用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人(2)的基于混合机器学习(ML)的训练的系统(1)的示意图。图2是根据本公开的实施例的用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人(2)的基于混合ML的训练的方法(200)的流程图。在所示出的示例中，图2所示的方法(200)至少部分使用图1的系统(1)来实现。

参考图1，系统(1)包括一个或多个存储器设备(5)，本文中也统称为存储器(5)。存储器(5)包括存储在其中的ML模型(68)。ML模型(68)可以至少部分作为数据库而存储在存储器(5)中。系统(1)包括与存储器(5)通信的一个或多个处理器(3)。系统(1)包括物体拾取机器人(2)，物体拾取机器人(2)包括与(一个或多个)处理器(3)通信的至少一个机械臂(12)。物体拾取机器人(2)在本文中也统称为机器人(2)。(一个或多个)处理器(3)包括与机器人(2)的一个或多个收发器(54)通信的至少一个收发器(55)。在一个示例中，存储器(5)还与机器人(2)通信。机器人(2)包括可操作地耦接到(一个或多个)机械臂(12)的至少一个物体夹具设备(30)。(一个或多个)夹具设备(30)与(一个或多个)处理器(3)通信。在图1所示的实施例中，系统(1)包括多个机器人(71)。如本文中使用的，“可操作地耦接”是指两个或更多个功能相关组件彼此耦接以用于(一个或多个)协作机械运动的目的和/或用于电流流动和/或数据信号流动的目的。在两个或更多个组件的这种可操作耦接是用于数据流流动的目的时，这两个或更多个组件可以经由(一个或多个)有线连接和/或经由无线连接可操作地耦接。经由有线和/或无线连接如此耦接的两个或更多个组件可以彼此靠近(例如，第一组件与第二组件在同一房间或在同一组件壳体中)，或者它们可以在物理空间中相隔一定距离(例如，第一组件位于与第二组件的位置不同的建筑物中)。

系统(1)包括与(一个或多个)处理器(3)通信的一个或多个传感器(22)。(一个或多个)传感器(22)定位在(一个或多个)机械臂(12)上和/或(一个或多个)夹具(30)上并且/或者定位在(一个或多个)机械臂(12)中和/或(一个或多个)夹具(30)中并且可操作地耦接到(一个或多个)机械臂(12)和/或(一个或多个)夹具(30)。(一个或多个)传感器(22)可以定位和/或安装在机器人(2)的结构框架上(例如，固定到机器人单元、隔间和/或安全笼上的固定相机，图1中未示出)，以备选或另外地为定位在(一个或多个)机械臂(12)上和/或(一个或多个)夹具(30)上以及/或者定位在(一个或多个)机械臂(12)中和/或(一个或多个)夹具(30)中。在一个示例中，(一个或多个)传感器(22)是或包括(一个或多个)抓取质量传感器(22)。(一个或多个)抓取质量传感器(22)在本文中也统称为(一个或多个)传感器(22)。(一个或多个)传感器(22)包括以下中的一项或多项：(一个或多个)多自由度(DOF)力转矩传感器、用于在机器人操纵任务(诸如抓取(一个或多个)物体(11))期间监测和收集视觉数据的(一个或多个)相机、用于测量物体(11)处理的机械动态方面的(一个或多个)多DOF惯性测量传感器、以及用于监测和/或检测物体(11)与夹具(30)之间的相对运动的(一个或多个)方向和/或旋转运动传感器(例如，(一个或多个)电机编码器、(一个或多个)相机和/或(一个或多个)触觉传感器)。在一个示例中，(一个或多个)多DOF力转矩传感器和/或(一个或多个)多DOF惯性测量传感器安装和/或以其他方式可操作地耦接到(一个或多个)机械臂(12)和(一个或多个)夹具(30)和/或在其之间，以用于测量(一个或多个)物体(11)相对于(一个或多个)夹具(30)的静态和/或动态状态以及物体(一个或多个)(11)上的抓取位置。同样，在该示例中，(一个或多个)传感器(22)可以包括用于促进(一个或多个)物体(11)的静态和/或动态状态的测量的(一个或多个)固定(到地)抓取质量传感器。

系统(1)包括用于机器人(2)的训练ML环境(74)和运行时间ML环境(80)。训练ML环境(74)和运行时间ML环境(134)包括至少一个拾取位置(10)和至少一个放置位置(42)。在一个示例中，训练ML环境(74)和/或运行时间ML环境(80)是模拟计算和机器人(2)(一个或多个)操纵环境。在另一示例中，训练ML环境(74)和/或运行时间ML环境(80)是实际(例如，“真实世界”)计算和机器人(2)的(一个或多个)操纵环境。在又一示例中，训练ML环境(74)和/或运行时间ML环境(80)是模拟和实际计算和机器人(2)的(一个或多个)操作环境两者。一个或多个物体(11)被传送到和/或以其他方式到达(一个或多个)拾取位置(10)，以用于由包括(一个或多个)机器人(2)的系统(1)进行模拟和/或实际操纵。在图1所示的实施例中，在(一个或多个)训练ML环境(74)和/或(一个或多个)运行时间ML环境(80)中存在多个物体(11)(例如，第一物体(82)和至少第二物体(94)))，第一物体(82)和至少第二物体(94)中的每个物体具有多个物理特性，诸如形状、(一个或多个)构造材料、重量、密度、质心、质量分布、高度、宽度和/或长度。多个物体(11)物理特征可以另外包括物体(11)标识和描绘各种位姿的(一个或多个)物体(11)的(一个或多个)外观的图像。

(一个或多个)处理器(3)可以位于(一个或多个)训练ML环境(74)和/或(一个或多个)运行时间ML环境(80)中。(一个或多个)处理器(3)可以远离(一个或多个)训练ML环境(74)和/或(一个或多个)运行时间ML环境(80)。(一个或多个)处理器(3)可以与机器人(2)并置。(一个或多个)处理器(3)被编程为至少部分实现和/或以其他方式执行方法(200)(如图2所示)的所公开的步骤中的一个或多个，包括但不限于使用系统(1)。(一个或多个)处理器(3)能够在系统(1)中执行多个功能。(一个或多个)处理器(3)包括机械臂(12)控制功能和夹具(30)控制功能。(一个或多个)处理器(3)包括ML功能。在一个示例中，(一个或多个)处理器(3)的ML功能至少部分在系统(1)中使用一个或多个人工智能和/或深度学习计算和处理方案来实现和/或以其他方式执行。

在一个示例中，(一个或多个)存储器设备(5)包括至少一个非暂态计算机可读介质(600)。非暂态计算机可读介质(600)将处理器(3)可执行指令存储为软件(604)，该处理器(3)可执行指令用于使用真实(例如，实际、“真实世界”)和模拟抓取性能数据来训练(一个或多个)机器人(2)，包括但不限于在系统(1)中。在一个示例中，作为软件(604)而存储的处理器(3)可执行指令包括一个或多个软件模块(608)。在由与存储器(5)、(一个或多个)机械臂(12)、(一个或多个)夹具(30)和(一个或多个)传感器(22)通信的(一个或多个)处理器(3)执行时，处理器(3)可执行指令引起(一个或多个)处理器(3)至少部分实现和/或以其他方式执行方法(200)的所公开的步骤中的一个或多个，包括但不限于使用系统(1).

在系统(1)中，(一个或多个)处理器(3)、存储器(5)、(一个或多个)机械臂(12)、(一个或多个)夹具(30)和(一个或多个)传感器(22)经由网络(52)彼此通信，并且使用通过网络(52)发送和/或接收的信号(例如，编码数据信号)彼此通信。(一个或多个)处理器(3)、存储器(5)、(一个或多个)机械臂(12)、(一个或多个)夹具(30)和(一个或多个)传感器(22)之中或之间的通信由收发器(54、55)促进。在一个示例中，使用网络(52)的系统(1)通信包括无线通信设备和协议。在另一示例中，使用网络(52)的系统(1)通信包括有线通信设备和协议。在又一示例中，使用网络(52)的系统(1)通信包括无线和有线通信设备和协议的组合。在一个示例中，系统(1)通信包括用于利用基于云的处理、数据存储和/或通信资源的无线和/或有线通信设备和协议。在一个示例中，系统(1)通信利用互联网，包括但不限于物联网(IoT)协议、实践和/或标准。

图3是根据本公开的实施例的以多个位姿(67)定位在图1所示的系统(1)的机器人(2)的模拟或实际工作空间(75)中的物体(11)的示意图。图4是根据本公开的实施例的使用系统(1)和方法(200)的用于使用真实抓取性能数据和模拟抓取性能数据的对机器人(2)的基于混合ML的训练的过程(300)的示意图。

参考图3，物体(11)具有已知或估计物理特性(6)，包括质心(COM)(70)(例如，在图3中由“x”表示)。COM(70)可以是已知的，或者可以基于诸如质量、尺寸、材料、和质量在物体(11)的体积上的分布等其他已知或估计物理特性(6)被分配给物体(11)。如本文中进一步描述的，多个抓取位置(8)(例如，八个位置，在图3中由星号“*”表示)在物体(11)上被分配。物体可以以多个不同位姿(例如，第一位姿(67a)、第二位姿(67b)和第三位姿(67c))存在于训练ML环境(74)和/或运行时间ML环境(80)中。在该实施例中，物体(11)上分配的抓取位置(8)不会根据系统(1)遇到物体(11)的(一个或多个)特定位姿(67)而变化。如本文所述，所公开的系统(1)和方法(200)包括从多个分配的抓取位置(8)中确定候选抓取位置(20)。在图3所示的示例中，八个分配的抓取位置(8)中的两个分配的抓取位置被确定为候选抓取位置(20)(例如，在图3中由带圆圈的星号表示)。

参考图1-4，过程(300)用于执行特定物体(11)的拾取的(一个或多个)机器人(2)的基于混合ML的训练。在一个示例中，物体(11)可以是具有相同或相似物理特性(6)的物体(11)族。过程(300)可以针对具有不同物理特性(6)的独特物体(11)而针对(一个或多个)机器人(2)单独地实现。在该实施例中，过程(300)从框(301)开始。在框(301)中，过程(300)在模拟器中训练机器人(2)。从框(301)，过程(300)进行到框(304)。在框(304)中，过程(300)从多个分配的抓取位置(8)中确定候选抓取位置(20)。从框(304)，过程(300)进行到框(307)。在框(307)中，使用物体(10)上的所确定的候选抓取位置(20)执行用于机器人(2)的模拟和实际实验。

从框(307)，过程(300)进行到框(310)。在框(310)中，过程(300)从(一个或多个)抓取质量传感器(22)获取关于机器人(2)抓取物体(11)的抓取性能的反馈的数据。从框(310)，过程(300)进行到框(313)。在框(313)中，过程(300)基于来自(一个或多个)传感器(22)的反馈数据来评估机器人(2)对物体(11)的抓取质量。从框(313)，过程(300)进行到逻辑决策(316)。在逻辑决策(316)中，过程(300)确定实际物体(11)抓取质量(例如，根据框(307)的实际实验中的实际机器人动作而确定)和模拟物体(11)抓取质量(例如，根据框(307)的模拟实验中的模拟机器人动作而确定)的收敛的存在。如本文中使用的，“收敛”表示随着算法迭代的进行，计算出的抓取越来越接近真实物体抓取位置。它与“发散”相反，在“发散”中，它的输出将经历越来越大的振荡，永远不会接近有用结果。

基于逻辑决策(316)的结果，如果过程(300)确定缺乏收敛，则过程(300)进行到框(319)。在框(319)中，过程(300)将来自框(313)的抓取质量评估转换为抓取成功概率的度量。在框(319)完成时，过程(300)返回到框(301)，并且过程(300)将抓取成功概率施加到模拟器上以重新训练机器人(2)以抓取物体(11)。在一个实施例中，过程(300)的框(301)、(304)、(307)、(310)、(313)和(319)以及逻辑决策(316)在训练ML环境(74)中进行。

对于指示收敛存在的逻辑决策(316)的结果，过程(300)进行到框(322)而不是进行到框(319)。在框(322)中，过程(300)实现用于使用在框(304)中确定的候选抓取位置(20)中的至少一个来拾取(一个或多个)物体(11)的机器人(2)动作的运行时间性能。在一个实施例中，框(322)还至少部分包括框(310)的上述功能。从框(322)，过程(300)进行到框(325)。在框(325)中，过程(300)监测抓取物体(11)的机器人(2)的抓取质量。在过程(300)中，框(325)中的监测至少部分包括框(328)的功能，或者过程(300)进行到框(328)。在框(328)中，过程(300)实现混合ML引擎(51)，以促进在训练ML环境(74)和运行时间ML环境(80)中以及在适用情况下跨多个机器人(71)对物体(11)抓取质量的持续监测和评估。如本文中进一步描述的，分别在框(325)和框(328)中实现的监测和混合ML引擎(51)促进基于运行时间物体(11)抓取性能及其抓取质量来确定对重新训练机器人(2)抓取物体(11)的需要。因此，例如，如果在框(325)和/或框(328)中，过程(300)确定需要重新训练机器人(2)抓取物体(11)，则过程(300)从框(325)和/或框(328)进行到框(301)。在一个实施例中，过程(300)的框(322)、(325)和(328)在运行时间ML环境(80)中进行。

图5是根据本公开的实施例的系统(1)的存储器(5)的数据结构(502)的框图。图6是根据本公开的实施例的方法(200)的软件架构的框图。参考图1-6，方法(200)包括由(一个或多个)处理器(3)在存储器(5)中基于物体(11)的已知或估计物理特性(6)分别分配(203)和存储(206)物体(11)上的多个抓取位置(8)。在一个示例中，分配(203)和/或存储(206)促进为机器人(2)和要抓取的物体(11)设置(一个或多个)模拟和/或实际实验。在一个示例中，物体(11)上的多个抓取位置(8)由系统(1)的至少一个用户(60)或在其指导下分配(203)和/或存储(206)。在另一示例中，物体(11)上的多个抓取位置(8)由系统(1)的至少一个管理员(48)或在其指导下分配(203)和/或存储(206)。在又一示例中，物体(11)上的多个抓取位置(8)由(一个或多个)处理器(3)或在其指导下分配(203)和/或存储(206)。在(一个或多个)分配(203)和/或存储(206)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在(一个或多个)分配(603)和/或存储(606)模块中的处理器(3)可执行指令。在一个示例中，物体(11)上的多个抓取位置(8)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

方法(200)包括由(一个或多个)处理器(3)执行(209)用于机器人(2)使用多个分配(203)的抓取位置(8)中的第一组(14)来抓取物体(11)的第一模拟实验(212)。在一个示例中，第一模拟实验(212)在训练ML环境(74)中执行(209)。在执行(209)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在执行模块(609)中的处理器(3)可执行指令。在一个示例中，多个分配(203)的抓取位置(8)中的第一组(14)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

方法(200)包括由(一个或多个)处理器(3)针对第一组(14)分配(203)的抓取位置(8)中的每个分配的抓取位置，来评估机器人(2)进行抓取(215)的模拟物体(11)抓取质量。在该实施例中，模拟物体(11)抓取质量基于来自第一模拟实验(212)的第一组(15)模拟数据(17)被评估(218)。评估(218)步骤从而促进判断机器人(2)在第一模拟实验(212)中的抓取(215)性能。在评估(218)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在评估模块(618)中的处理器(3)可执行指令。在一个示例中，来自第一模拟实验(212)的第一组(15)模拟数据(17)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

方法(200)包括由(一个或多个)处理器(3)确定(221)物体(11)上的第一组(16)候选抓取位置(20)。在该实施例中，基于代表在评估(218)步骤中获取(224)的模拟抓取质量的数据(18)来确定(221)物体(11)上的第一组(16)候选抓取位置(20)。评估(218)步骤从而促进基于第一模拟实验(212)中的机器人(2)的评估(218)和判断抓取(215)性能来生成用于实际实验的候选抓取位置列表。因此，从物体(11)上的多个分配(203)的抓取位置(8)中选择物体(11)上的第一组(16)候选抓取位置(20)。在确定(221)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在确定模块(621)中的处理器(3)可执行指令。在一个示例中，物体(11)上的第一组(16)候选抓取位置(20)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

方法(200)可以包括由(一个或多个)处理器(3)和机器人(2)执行(227)用于机器人(2)使用所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置来抓取(215)物体(11)的第一实际实验(230)。在一个示例中，第一实际实验(230)在运行时间ML环境(80)中执行(227)。在执行(227)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在执行模块(627)中的处理器(3)可执行指令。然而，应当理解，被描述为由机器人(2)结合(一个或多个)处理器(3)执行的所公开的方法2的步骤(例如，执行步骤(227))可以在没有机器人(2)与(一个或多个)处理器(3)之间的这种密切协作的情况下执行。例如，执行所公开的方法(2)的(一个或多个)处理器(3)可以从(一个或多个)传感器(22)接收用于处理的数据，这些传感器(22)不一定耦接或安装到机器人(2)，但仍然向(一个或多个)处理器(3)提供(例如，传输)传感器(8)数据以用于所公开的方法(2)。这种情况例示了所公开的系统、方法和软件的灵活性，因为它们有益地适用于多种机器人、夹具设备和传感器。

方法(200)包括由(一个或多个)处理器(3)针对所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置，来评估(233)机器人(2)进行抓取(215)的实际物体(11)抓取质量。在该实施例中，基于来自第一实际实验(230)的第一组(19)抓取质量传感器(22)数据(26)，针对所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置来评估(233)机器人(2)进行抓取(215)的实际物体(11)抓取质量。评估(233)步骤从而促进判断机器人(2)在第一实际实验(230)中的抓取(215)性能。在评估(233)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在评估模块(633)中的处理器(3)可执行指令。在一个示例中，来自第一实际实验(230)的第一组(19)抓取质量传感器(22)数据(26)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

方法(200)包括由(一个或多个)处理器(3)确定(236)实际物体(11)抓取质量和模拟物体(11)抓取质量的收敛。在该实施例中，收敛基于以下各项来确定(236)：来自第一实际实验(230)的第一组(19)抓取质量传感器(22)数据(26)、以及代表模拟抓取质量的数据(18)。在一个示例中，确定(236)步骤包括针对所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置，确定(236)实际物体(11)抓取质量和模拟物体(11)抓取质量的收敛。在确定(236)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在确定模块(636)中的处理器(3)可执行指令。在一个示例中，所确定(236)的收敛状态(66)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

图7是根据本公开的实施例的方法(200)的各方面的流程图。参考图1-7，在一个实施例中，方法(200)包括由(一个或多个)处理器(3)确定(239)抓取成功概率值(29)。在该实施例中，针对所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置，基于在评估(233)步骤中获取(241)的第一组(19)抓取质量传感器(22)数据(26)确定(239)抓取成功概率值(29)。在一个实施例中，响应于针对所确定(221)的第一组(16)候选抓取位置(20)中的至少一个候选抓取位置而确定(236)实际和模拟物体(11)抓取质量的收敛(例如，负收敛状态(66))不存在，来确定(239)抓取成功概率值(29)。确定(239)步骤从而促进在所确定(221)的第一组(16)候选抓取位置(20)中的至少一个但不是全部缺乏收敛(例如，没有正收敛状态(66))的情况下计算、存储器、带宽和/或电力资源的有效使用。因此，在该实施例中，仅针对缺乏收敛的候选抓取位置(20)确定(239)抓取成功概率值(29)。在确定(239)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在确定模块(639)中的处理器(3)可执行指令。

在一个实施例中，方法(200)包括由(一个或多个)处理器(3)在存储器(5)中分别分配(242)和存储(245)针对所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置而分别确定(239)的抓取成功概率值(32)。在(一个或多个)分配(242)和/或存储(245)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在(一个或多个)分配(642)和/或存储(645)模块中的处理器(3)可执行指令。在一个示例中，(一个或多个)所确定(239)的抓取成功概率值(29)和/或抓取成功概率值(32)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)的确定(239)步骤包括由(一个或多个)处理器(3)将第一组(19)抓取质量传感器(22)数据(26)中的每个抓取质量传感器(22)数据变换(248)为离散值(35)。在变换(248)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在变换模块(648)中的处理器(3)可执行指令。在一个示例中，由变换(248)步骤产生的(一个或多个)离散值(35)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。在该实施例中，确定(239)步骤包括由(一个或多个)处理器(3)基于相应变换(248)后的离散值(35)来对所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置进行评分(251)。在该实施例中，所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置的得分值(38)与所确定(239)的抓取成功概率值(29)成比例。在评分(251)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在评分模块(651)中的处理器(3)可执行指令。在一个示例中，由评分(251)步骤产生的(一个或多个)得分值(38)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)的变换(248)步骤包括针对所确定(221)的第一组(16)候选抓取位置(20)中的每个候选抓取位置，基于多个抓取质量传感器(22)读数(41)确定(254)离散值(35)。在确定(254)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在确定模块(654)中的处理器(3)可执行指令。在一个示例中，用于确定(254)离散值的多个抓取质量传感器(22)读数(41)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)包括由(一个或多个)处理器(3)和(一个或多个)机器人(2)针对至少一个候选抓取位置(20)迭代(257)进行执行(209)、评估(218)、确定(221)、执行(227)、评估(233)和确定(236)步骤。在该实施例中，迭代(257)步骤在方法(200)中对于至少一次迭代(266)被执行。在一个示例中，响应于针对至少一个确定(221)的第一组(16)候选抓取位置(20)，确定(236)实际和模拟物体(11)抓取质量的收敛(例如，负收敛状态(66))的不存在，执行迭代(257)步骤。迭代(257)步骤从而促进在所确定(221)的第一组(16)候选抓取位置(20)中的至少一个候选抓取位置缺乏收敛(例如，没有正收敛状态(66))的情况下计算、存储器、带宽和/或电力资源的有效使用。因此，在该实施例中，执行(209)、评估(218)、确定(221)、执行(227)、评估(233)和确定(236)步骤仅针对缺乏收敛的候选抓取位置(20)进行迭代(257)。因此，迭代(257)步骤将方法(200)引导回到用于针对至少一个候选抓取位置(20)重新训练机器人(2)进行抓取(215)的模拟实验(例如，至少第二模拟实验(265))和/或实际实验(例如，至少第二实际实验(267))，这确保了ML模型(68)针对物体(11)的相应候选抓取位置(20)保持准确数据。在迭代(257)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在迭代模块(657)中的处理器(3)可执行指令。

在一个实施例中，方法(200)的迭代(257)步骤包括对于至少一次迭代(266)，由(一个或多个)处理器(3)针对所确定(221)的第一组(16)候选抓取位置(20)，确定(260)抓取成功概率分布(44)。在该实施例中，基于所确定(239)的抓取成功概率值(29)确定(260)抓取成功概率分布(44)。在该实施例中，迭代(257)步骤包括：对于至少一次迭代(266)，由(一个或多个)处理器(3)对用于(一个或多个)机器人(2)使用所确定(221)的第一组(16)候选抓取位置(20)抓取(215)物体(11)的至少一个第二模拟实验(265)施加(263)所确定(260)的抓取成功概率分布(44)。因此，确定(260)和施加(263)步骤促进通过将抓取成功概率分布(44)合并到ML模型(68)中来针对至少一个候选抓取位置(20)重新训练机器人(2)抓取(215)物体(11)，这提高了其准确性和鲁棒性。在(一个或多个)确定(260)和/或施加(263)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在(一个或多个)确定(660)和/或施加(663)模块中的处理器(3)可执行指令。在一个示例中，所确定(260)的和施加(263)的抓取成功概率分布(44)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)的迭代(257)步骤包括对于至少一次迭代(266)，由(一个或多个)处理器(3)确定(269)多个分配(203)的抓取位置(8)中的至少第二组(47)。在该实施例中，基于对至少第二模拟实验(265)施加(263)的抓取成功概率分布(44)，来确定(269)多个分配(203)的抓取位置(8)的至少第二组(47)。在一个示例中，至少第二组(47)与第一组(14)的不同之处在于物体(11)上的至少分配(203)的抓取位置(8)的添加或去除。在该实施例中，迭代(257)步骤包括对于至少一次迭代(266)，由(一个或多个)处理器(3)使用至少第二组(47)分配(203)的抓取位置(8)执行(272)至少第二模拟实验(265)。因此，确定(269)和执行(272)步骤促进通过使用基于所施加(263)的抓取成功概率分布(44)而确定(269)的多个分配(203)的抓取位置(8)中的至少第二组(47)，来执行后续模拟和实际实验来重新训练机器人(2)抓取(215)物体(11)，这细化了所分配(203)的抓取位置(8)并且进一步提高了ML模型(68)的准确性和鲁棒性。在(一个或多个)确定(269)和/或执行(272)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在(一个或多个)确定(669)和/或执行(672)模块中的处理器(3)可执行指令。在一个示例中，所确定(269)的多个分配(203)的抓取位置(8)中的至少第二组(47)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)的迭代(257)步骤包括对于至少一次迭代(266)，由(一个或多个)处理器(3)针对至少第二组(47)所分配(203)的抓取位置(8)中的每个抓取位置确定(275)最大成功对数似然(MLLS)(50)。在该实施例中，基于所确定(260)的抓取成功概率分布(44)来确定(275)MLLS(50)。在该实施例中，迭代(257)步骤包括对于至少一次迭代(266)，由(一个或多个)处理器(3)确定(278)至少第二组(53)候选抓取位置(20)。在该实施例中，至少第二组(53)候选抓取位置(20)是基于针对至少第二组(47)分配(203)的抓取位置(8)中的每个抓取位置而分别确定(275)的MLLS值(56)来确定(278)的。在一个示例中，至少第二组(53)与第一组(16)的不同之处在于至少一个候选抓取位置(20)的添加或去除。因此，确定(275和278)步骤促进通过使用基于分别确定(275)的MLLS值(56)而确定(278)的至少第二组(53)候选抓取位置(20)来执行后续模拟和实际实验来重新训练机器人(2)抓取(215)物体(11)，这细化了候选抓取位置(20)并且进一步增加了ML模型(68)的准确性和鲁棒性。在(一个或多个)确定(275和/或278)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在(一个或多个)确定模块(675和/或678)中的处理器(3)可执行指令。在一个示例中，所确定(275)的MLLS(50)和/或所确定(278)的MLLS值(56)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)的迭代(257)步骤包括对于至少一次迭代(266)，由(一个或多个)处理器(3)针对物体(11)上的至少第二组(47)分配(203)的抓取位置(8)中的每个抓取位置评估(281)机器人(2)进行抓取(215)的模拟抓取质量。在该实施例中，针对至少第二组(47)分配(203)的抓取位置(8)中的每个抓取位置的机器人(2)进行抓取(215)的模拟抓取质量基于来自至少第二模拟实验(265)的至少第二组(59)模拟数据(24)而被评估(281)。在该实施例中，方法(200)的确定(275)步骤还包括基于代表由(一个或多个)处理器(3)在评估(281)步骤中从来自至少第二模拟实验(265)的至少第二组(59)模拟数据(24)中获取(277)的模拟抓取质量的数据(27)来确定(284)MLLS(50)。在(一个或多个)评估(281)和/或确定(284)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在(一个或多个)评估(681)和/或确定(684)模块中的处理器(3)可执行指令。在一个示例中，来自至少第二模拟实验(265)的至少第二组(59)模拟数据(24)和/或代表由(一个或多个)处理器(3)在评估(281)步骤中获取(277)的模拟抓取质量的数据(27)由(一个或多个)处理器(3)或在其指导下存储在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)包括由(一个或多个)处理器(3)在存储器(5)中分别分配(285)和存储(287)ML模型(68)的超参数(65)。如本文中使用的，“超参数”是指可以调节以控制机器学习算法的行为的一个或多个设置。超参数(65)代表用于(一个或多个)机器人(2)抓取(215)物体(11)的至少第二模拟实验(265)的模拟抓取质量。在系统(1)包括多个物体拾取机器人(71)(例如，第一机器人(2)和至少第二机器人(2))的实施例中，方法(200)还包括与至少第二机器人(2)共享(290)分配(285)给第一机器人(2)的超参数(65)。分配(285)和共享(290)步骤从而促进在运行时间ML环境(80)和/或训练ML环境(74)中使用多个机器人(71)的情况下计算、存储器、带宽和/或电力资源的有效使用。因此，在该实施例中，多个机器人(71)中的仅一个机器人(2)(例如，第一机器人(2))需要被训练和/或重新训练，并且根据所公开的方法(200)，ML模型(68)被开发用于此。因此，(一个或多个)附加机器人(2)(例如，具有与第一机器人(2)相同或相似的设计规范和/或满足相同或相似的功能要求的至少第二机器人(2))可能不需要被训练和/或重新训练以抓取(215)物体(11)。在(一个或多个)分配(285)、存储(287)和/或共享(290)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在(一个或多个)分配(685)、存储(687)和/或共享(690)模块中的处理器(3)可执行指令。在一个示例中，分配(285)给ML模型(68)的超参数(65)由(一个或多个)处理器(3)或在其指导下存储(287)在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)的执行(209)、评估(218)、确定(221)、执行(227)、评估(233)和确定(236)步骤在ML训练环境(74)中执行。在该实施例中，方法(200)包括由(一个或多个)处理器(3)来监测(293)(一个或多个)机器人(2)使用至少一个候选抓取位置(20)抓取(215)物体(11)的运行时间抓取质量。在该实施例中，基于从(一个或多个)机器人(2)在ML运行时间(例如，实际、“真实世界”)环境(80)中抓取(215)物体(11)而获取(295)的抓取质量传感器(22)数据(26)的运行时间集合(77)，来监测(293)(一个或多个)机器人(2)使用至少一个候选抓取位置(20)抓取(215)物体(11)的运行时间抓取质量。在该实施例中，响应于针对所确定(221)的第一组(16)候选抓取位置(20)中的至少一个候选抓取位置而确定(236)实际和模拟物体(11)抓取质量的收敛(例如，正收敛状态(66))的存在，执行监测(293)步骤。监测(293)步骤从而促进在所确定(221)的第一组(16)候选抓取位置(20)中的至少一个候选抓取位置具有收敛(例如，没有负收敛状态(66))的情况下计算、存储器、带宽和/或电力资源的有效使用。因此，在该实施例中，只有具有收敛的候选抓取位置(20)进行到运行时间ML环境(80)并且在其中被监测(293)，这有助于确保ML模型(68)用准确的最新数据被维护以用于运行时间ML环境(80)和训练ML环境(74)两者。在监测(293)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在监测(693)模块中的处理器(3)可执行指令。在一个示例中，抓取质量传感器(22)数据(26)的运行时间集合(77)由(一个或多个)处理器(3)或在其指导下存储(287)在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

在一个实施例中，方法(200)包括由(一个或多个)处理器(3)和(一个或多个)机器人(2)针对至少一个候选抓取位置(20)迭代(296)进行执行(209)、评估(218)、确定(221)、执行(227)、评估(233)和确定(236)步骤。在该实施例中，迭代(296)步骤在方法(200)中对于至少一次迭代(273)被执行。在一个示例中，响应于所监测(293)的运行时间抓取质量降低到低于或以其他方式不满足用户(60)预定的质量阈值(83)，执行迭代(296)步骤。在一个示例中，用户(60)预定质量阈值(83)是物体(11)从夹具(30)掉出的事件(例如，如由(一个或多个)相机传感器(22)感测)。在另一示例中，用户(60)预定质量阈值(83)是物体(11)在被夹具(30)抓住(215)和/或在夹具(30)中携带时表现出摆动和/或振动的事件(例如，如由多自由度(DOF)力转矩、多DOF惯性测量和/或(一个或多个)触觉传感器(22)感测)，其中这种摆动和/或振动不合需要地超过了在机器人(2)操作期间通常观察到的水平。在又一示例中，用户(60)预定质量阈值(83)是物体(11)相对于夹具(30)和/或与夹具(30)相比表现出与预期或用户(60)指定的相对运动量相比超出公差的相对运动和/或物理动力学的事件(例如，由(一个或多个)传感器(22)感测)。

在该实施例中，迭代(296)步骤从而促进在如下情况下计算、存储器、带宽和/或电力资源的有效使用：基于所监测(293)的运行时间抓取质量，需要ML模型(68)的优化以确保在运行时间期间一致的物体(11)抓取(215)性能。监测(293)和迭代(296)步骤、连同上述方法(200)的一个或多个步骤共同构成混合ML引擎(51)，混合ML引擎(51)促进跨训练ML环境(74)和运行时间ML环境(80)以及在适用情况下跨多个机器人(71)对物体(11)抓取质量的连续监测和评估。此外，在用例中，由于该机器人(2)的机械问题，至少一个机器人(2)的所监测(293)的运行时间抓取质量可能不满足用户(60)预定质量阈值(83)。在该用例中，可以标识并且纠正机械问题，从而可以根据需要在重新训练相应机器人(2)之后恢复正常的单元操作，包括经由方法(200)的迭代(296)步骤。在迭代(296)步骤由软件(604)实现和/或以其他方式促进的实施例中，(一个或多个)处理器(3)执行存储在迭代(696)模块中的处理器(3)可执行指令。在一个示例中，用户(60)预定的质量阈值(83)由(一个或多个)处理器(3)或在其指导下存储(287)在数据结构(502)中和/或存储器(5)中的其他地方并且从其中读取。

与已知系统和方法相比，使用用于使用真实抓取性能数据和模拟抓取性能数据的对物体拾取机器人的基于混合ML的训练的所公开的系统和方法为用户提供了很多有益的技术效果并且实现了各种优点。这样的益处包括但不限于与已知过程相比能够以提高的准确度、速度、效率和降低的错误率来拾取和放置(一个或多个)物体。与已知系统和方法相比，利用所公开的用于物体拾取机器人的基于混合ML的训练的系统和方法减少了在训练和运行时间环境两者中(一个或多个)处理器所需要的每个物体CPU时钟周期的所需要的数目。上述物体拾取机器人的基于混合ML的训练使得能够持续评估和监测物体抓取性能，使得可以根据需要实现混合ML操作以微调和增强ML模型的准确性和鲁棒性，包括跨在单元操作中涉及的多个机器人。因此，所公开的用于物体拾取机器人的基于混合ML的训练的系统和方法能够在期望提高计算、存储器、网络带宽、电力和/或人力资源的利用率的各种工业应用中高效且有效地训练物体拾取机器人。

与涉及大容量和快节奏工业操作的应用中的已知系统和方法相比，本领域普通技术人员可理解的这些和其他实质性的以及众多的技术益处和有益效果尤其明显。对已知系统和方法的这些改进不是仅通过利用常规和常规处理系统和方法来实现的。即使在这样的改进可以在每个物体的时间减少量(例如，以秒或其分数来衡量)方面、在相关时间段(例如，从几小时到几年)内以及与已知过程相比来量化的情况下，所公开的、用于使用真实抓取性能数据和模拟抓取性能数据的物体拾取机器人的基于混合机器学习的训练的系统和方法以显著更高的效率利用计算、网络、内存、电力、人员等资源，来提供涉及物体的机器人拾取和放置的各种工业单元操作的吞吐量提高和总体成本降低。

本文中公开的各种实施例应当被视为说明性和解释性的，而决不应当被解释为对本公开的限制。

虽然已经参考以上实施例具体地示出和描述了本公开的各方面，但是本领域技术人员将理解，可以通过在不背离所公开内容的精神和范围的情况下对所公开的设备、系统和方法的修改来设想各种附加实施例。这样的实施例应当被理解为落入基于权利要求及其任何等效物而确定的本公开的范围内。

Claims

1.一种用于使用真实抓取性能数据和模拟抓取性能数据训练物体拾取机器人的方法，包括：

(a)由处理器基于物体的已知或估计物理特性来分配所述物体上的多个抓取位置；

(b)由所述处理器执行第一模拟实验，所述第一模拟实验针对所述机器人使用多个分配的抓取位置中的第一组分配的抓取位置来抓取所述物体；

(c)由所述处理器并且基于来自所述第一模拟实验的第一组模拟数据，针对所述第一组分配的抓取位置中的每个分配的抓取位置来评估所述机器人进行抓取的模拟物体抓取质量；

(d)由所述处理器基于代表在(c)中获取的模拟抓取质量的数据来确定所述物体上的第一组候选抓取位置；

(e)由所述处理器并且基于第一组抓取质量传感器数据，针对所述第一组候选抓取位置中的每个候选抓取位置来评估所述机器人进行抓取的实际物体抓取质量，所述第一组抓取质量传感器数据来自第一实际实验，所述第一实际实验针对所述机器人使用所述第一组候选抓取位置中的每个候选抓取位置抓取所述物体；以及

(f)针对所述第一组候选抓取位置中的每个候选抓取位置，由所述处理器基于来自所述第一实际实验的所述第一组抓取质量传感器数据以及代表所述模拟抓取质量的所述数据，来确定所述实际物体抓取质量和所述模拟物体抓取质量的收敛。

2.根据权利要求1所述的方法，还包括：

(g)响应于在(f)中针对所述第一组候选抓取位置中的至少一个候选抓取位置而确定所述实际物体抓取质量和所述模拟物体抓取质量的所述收敛的不存在，由所述处理器基于在(e)中获取的所述第一组抓取质量传感器数据，针对所述第一组候选抓取位置中的每个候选抓取位置确定抓取成功概率值。

3.根据权利要求2所述的方法，还包括：

(h)由所述处理器针对所述第一组候选抓取位置中的每个候选抓取位置分配在(g)中分别确定的抓取成功概率值。

4.根据权利要求2所述的方法，其中确定所述抓取成功概率值包括：

(I)由所述处理器将所述第一组抓取质量传感器数据中的每个抓取质量传感器数据变换为离散值；以及

(II)由所述处理器对所述第一组候选抓取位置中的每个候选抓取位置、基于来自(I)的相应离散值进行评分，其中所述第一组候选抓取位置中的每个候选抓取位置的得分值与在(g)中确定的所述抓取成功概率值成比例。

5.根据权利要求4所述的方法，其中所述变换包括针对所述第一组候选抓取位置中的每个候选抓取位置，基于多个抓取质量传感器读数来确定所述离散值。

6.根据权利要求1所述的方法，其中(b)-(f)在机器学习训练环境中执行，并且其中所述方法还包括：

(g)响应于在(f)中针对所述第一组候选抓取位置中的至少一个候选抓取位置而确定所述实际物体抓取质量和所述模拟物体抓取质量的所述收敛的存在，由所述处理器基于从所述机器人在机器学习运行时间计算环境中进行抓取而获取的抓取质量传感器数据的运行时间集合，来监测所述机器人使用所述至少一个候选抓取位置进行抓取的运行时间抓取质量。

7.根据权利要求6所述的方法，还包括：

(h)响应于在(g)中监测的所述运行时间抓取质量下降到低于或以其他方式不满足用户预定质量阈值，由所述处理器对于至少一次迭代，针对所述至少一个候选抓取位置迭代进行(b)-(f)。

8.一种用于使用真实抓取性能数据和模拟抓取性能数据训练物体拾取机器人的系统，包括：

一个或多个存储器设备；以及

一个或多个处理器，与所述一个或多个存储器设备和所述物体拾取机器人通信，其中所述一个或多个处理器被编程为：

(a)基于物体的已知或估计物理特性来分配所述物体上的多个抓取位置；

(b)执行第一模拟实验，所述第一模拟实验针对所述机器人使用多个分配的抓取位置中的第一组分配的抓取位置来抓取所述物体；

(c)基于来自所述第一模拟实验的第一组模拟数据，针对所述第一组分配的抓取位置中的每个分配的抓取位置评估所述机器人进行抓取的模拟物体抓取质量；

(d)基于代表在(c)中获取的模拟抓取质量的数据来确定所述物体上的第一组候选抓取位置；以及

(e)基于第一组传感器数据，针对所述第一组候选抓取位置中的每个候选抓取位置来评估所述机器人进行抓取的实际物体抓取质量，所述第一组传感器数据来自第一实际实验，所述第一实际实验针对所述机器人使用所述第一组候选抓取位置中的每个候选抓取位置抓取所述物体。

9.根据权利要求8所述的系统，其中所述一个或多个处理器还被编程为：

(f)针对所述第一组候选抓取位置中的每个候选抓取位置，基于来自所述第一实际实验的所述第一组抓取质量传感器数据以及代表所述模拟抓取质量的所述数据，来确定所述实际物体抓取质量和所述模拟物体抓取质量的收敛。

10.根据权利要求9所述的系统，其中所述一个或多个处理器还被编程为：

(g)响应于在(f)中针对所述第一组候选抓取位置中的至少一个候选抓取位置而确定所述实际物体抓取质量和所述模拟物体抓取质量的所述收敛的不存在，基于在(e)中获取的所述第一组传感器数据，针对所述第一组候选抓取位置中的每个候选抓取位置确定抓取成功概率值。

11.根据权利要求10所述的系统，其中所述一个或多个处理器还被编程为：

(h)进一步响应于在(f)中针对所述第一组候选抓取位置中的所述至少一个候选抓取位置而确定所述实际物体抓取质量和所述模拟物体抓取质量的所述收敛的不存在，对于至少一次迭代，针对所述至少一个候选抓取位置迭代进行(b)-(f)。

12.根据权利要求11所述的系统，其中为了对于所述至少一次迭代而针对所述至少一个候选抓取位置迭代进行(b)-(f)，所述一个或多个处理器还被编程为：

(I)基于在(g)中确定的抓取成功概率值，针对所述第一组候选抓取位置确定抓取成功概率分布；以及

(II)对至少第二模拟实验施加在(I)中确定的所述抓取成功概率分布，所述至少第二模拟实验针对所述机器人使用所述第一组候选抓取位置抓取所述物体。

13.根据权利要求12所述的系统，其中为了对于所述至少一次迭代而针对所述至少一个候选抓取位置迭代进行(b)-(f)，所述一个或多个处理器还被编程为：

(III)基于在(II)中对所述至少第二模拟实验施加的所述抓取成功概率分布，确定所述多个分配的抓取位置中的至少第二组分配的抓取位置；以及

(IV)使用所述至少第二组分配的抓取位置执行所述至少第二模拟实验。

14.根据权利要求13所述的系统，其中为了对于所述至少一次迭代而针对所述至少一个候选抓取位置迭代进行(b)-(f)，所述一个或多个处理器还被编程为：

(V)基于在(I)中确定的所述抓取成功概率分布，针对所述至少第二组分配的抓取位置中的每个分配的抓取位置确定最大成功对数似然；以及

(VI)基于在(V)中针对所述至少第二组分配的抓取位置中的每个分配的抓取位置而分别确定的最大成功对数似然值，确定至少第二组候选抓取位置。

15.根据权利要求14所述的系统，其中为了对于所述至少一次迭代而针对所述至少一个候选抓取位置迭代进行(b)-(f)，所述一个或多个处理器还被编程为：

(VII)针对所述物体上的所述至少第二组分配的抓取位置中的每个分配的抓取位置，基于来自所述至少第二模拟实验的至少第二组模拟数据来评估所述机器人进行抓取的模拟抓取质量。

16.根据权利要求15所述的系统，其中为了确定所述最大成功对数似然，所述一个或多个处理器还被编程为：

进一步基于代表在(VII)中获取的所述模拟抓取质量的数据来确定所述最大成功对数似然。

17.根据权利要求11所述的系统，其中所述一个或多个处理器还被编程为：

(i)为针对所述机器人抓取所述物体的至少第二模拟实验分配代表模拟抓取质量的机器学习模型的超参数。

18.根据权利要求17所述的系统，其中为了训练包括第一机器人和至少第二机器人的多个物体拾取机器人，所述一个或多个处理器还被编程为：

(j)将在(i)中分配给第一机器人的所述超模型参数与至少第二机器人共享。

19.一种存储处理器可执行指令的非暂态计算机可读存储介质，所述处理器可执行指令用于使用真实抓取性能数据和模拟抓取性能数据训练物体拾取机器人，其中所述处理器可执行指令在由一个或多个处理器执行时使所述一个或多个处理器：

(c)基于来自所述第一模拟实验的第一组模拟数据，针对所述第一组分配的抓取位置中的每个分配的抓取位置来评估所述机器人进行抓取的模拟物体抓取质量；

(e)基于第一组抓取质量传感器数据，针对所述第一组候选抓取位置中的每个候选抓取位置，来评估所述机器人进行抓取的实际物体抓取质量，所述第一组抓取质量传感器数据来自第一实际实验，所述第一实际实验针对所述机器人使用所述第一组候选抓取位置中的每个候选抓取位置抓取所述物体。

20.根据权利要求19所述的非暂态计算机可读存储介质，其中所述处理器可执行指令在由所述一个或多个处理器执行时还使所述一个或多个处理器：

(f)针对所述第一组候选抓取位置中的每个候选抓取位置，基于来自所述第一实际实验的所述第一组抓取质量传感器数据以及代表所述模拟抓取质量的所述数据，来确定所述实际物体抓取质量和所述模拟物体抓取质量的收敛；

(g)响应于在(f)中针对所述第一组候选抓取位置中的至少一个候选抓取位置而确定所述实际物体抓取质量和所述模拟物体抓取质量的所述收敛的不存在，基于在(e)中获取的所述第一组抓取质量传感器数据，针对所述第一组候选抓取位置中的每个候选抓取位置确定抓取成功概率值；以及

(h)为所述第一组候选抓取位置中的每个候选抓取位置分配在(g)中分别确定的抓取成功概率值。