CN113496168B

CN113496168B - 手语数据采集方法、设备、存储介质

Info

Publication number: CN113496168B
Application number: CN202010256297.3A
Authority: CN
Inventors: 卢飞翔
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-07-25
Anticipated expiration: 2040-04-02
Also published as: CN113496168A

Abstract

本申请公开了一种手语数据采集方法、设备、存储介质，其中，方法包括：当采集对象进行手语动作时，利用至少一个传感器对采集对象进行数据采集，得到至少一条传感器数据；根据至少一条传感器数据，确定采集对象的手语动作的至少一个位姿参数；根据至少一个位姿参数，控制三维虚拟模型进行手语动作，进行手语动作的三维虚拟模型构成三维手语数据。上述方法实现了三维手语数据采集的自动化过程，对数据采集人员的专业要求低，数据采集效率高，有利于有效降低三维手语数据的采集成本。

Description

手语数据采集方法、设备、存储介质

技术领域

本申请涉及交互技术领域，尤其是一种手语数据采集方法、设备、存储介质。

背景技术

手语是一种靠动作/视觉交际的多模式协同语言，手语在语言障碍人士交流、智能人机交互等领域有着广泛的应用，手语数据采集具有重要的研究意义和社会意义。

相关技术中，手语数据采集方法包括利用颜色相机和深度相机对手语视频进行采集和标注，生成二维手语动画；或者，通过建模师和动画师手动构建三维手语动画。

然而，二维手语动画无法提供手语动作的空间位姿信息，准确性不佳；通过建模师和动画师手动构建三维手语动画，手语采集专业要求高，采集效率低下，以上手语动画采集方法均存在采集效果不佳的问题。

发明内容

本申请实施例提供一种手语数据采集方法、设备、存储介质，用于解决现有的手语数据采集方法存在的采集效率低、采集效果不佳的问题。

第一方面，本申请提供了一种手语数据采集方法，所述方法包括：

当采集对象进行手语动作时，利用至少一个传感器对所述采集对象进行数据采集，得到至少一条传感器数据；

根据所述至少一条传感器数据，确定所述采集对象的所述手语动作的至少一个位姿参数；

根据所述至少一个位姿参数，控制三维虚拟模型进行所述手语动作，进行所述手语动作的所述三维虚拟模型构成三维手语数据。

利用采集的传感器数据确定采集对象的手语动作的至少一个位姿参数，并根据确定出的手语动作的至少一个位姿参数，控制三维虚拟模型进行相应的手语动作，有利于有效提高三维手语数据采集的采集效率，位姿参数能够准确清楚描述采集对象的手语动作的三维位姿信息，有效保证了采集的三维手语数据的准确性和实用性。

进一步地，所述手语动作包括手势动作，所述利用至少一个传感器对所述采集对象进行数据采集，得到至少一条传感器数据，包括：

利用具有运动传感器的手套设备和具有运动传感器的手腕设备，对所述采集对象进行数据采集，得到至少一条传感器数据；

所述根据所述至少一条传感器数据，确定所述采集对象的所述手语动作的至少一个位姿参数，包括：

根据所述至少一条传感器数据，确定所述采集对象的至少一个手部关键点的六自由度，得到所述采集对象的所述手势动作的第一位姿参数，其中，所述手部关键点包括手指关键点、手掌关键点和手腕关键点。

利用传感器数据确定采集对象的手部关键点的六自由度，能够准确确定采集对象手势动作的三维位姿信息，能够有效保证采集的三维手语数据的准确性和实用性，有利于提高三维手语数据的采集效率。

进一步地，所述根据所述至少一个位姿参数，控制三维虚拟模型进行所述手语动作，包括：

将所述第一位姿参数输入所述三维虚拟模型，控制所述三维虚拟模型对应的至少一个手部关键点进行所述手势动作。

根据确定出的采集对象的手势动作的第一位姿参数，控制三维虚拟模型对应的手部关键点完成相应的手势动作，实现了手势动作的自动化采集，有利于提高手势动作采集的采集精度和采集效率。

进一步地，所述手语动作包括表情动作、口型动作和肢体动作，所述利用至少一个传感器对所述采集对象进行数据采集，得到至少一条传感器数据，包括：

利用具有图像传感器的图像采集设备，对所述采集对象进行数据采集，得到至少一条图像数据；

利用预设的算法模型，确定所述至少一条图像数据所表征的所述表情动作的第二位姿参数、所述口型动作的第三位姿参数和所述肢体动作的第四位姿参数。

利用传感器数据确定采集对象的表情动作、口型动作和肢体动作的三维位姿信息，有利于降低三维手语数据采集的专业要求度，能够有效控制三维手语数据的采集成本。

进一步地，所述利用预设的算法模型，确定所述至少一条图像数据所表征的所述表情动作的第二位姿参数、所述口型动作的第三位姿参数和所述肢体动作的第四位姿参数，包括：

利用预设的算法模型，确定所述至少一条图像数据中的至少一个五官关键点和至少一个骨骼关键点；

根据标准的三维人脸模型，确定所述至少一个五官关键点中的每一个五官关键点的六自由度，得到所述第二位姿参数和所述第三位姿参数；确定所述至少一个骨骼关键点中的每一个骨骼关键点的六自由度，得到所述第四位姿参数。

利用传感器数据确定采集对象的五官关键点和骨骼关键点的六自由度，能够实现对采集对象的手语动作的准确还原，有利于提高三维手语数据采集的有效性和实用性。

将所述第二位姿参数和所述第三位姿参数输入所述三维虚拟模型，控制所述三维虚拟模型对应的至少一个五官关键点进行所述表情动作和所述口型动作；

将所述第四位姿参数输入所述三维虚拟模型，控制所述三维虚拟模型对应的至少一个骨骼关键点进行所述肢体动作。

根据确定出的采集对象的手语动作的位姿参数，控制三维虚拟模型对应的各关键点完成相应的手语动作，实现了三维手语数据采集的自动化进程，有效提高了三维手语数据采集的采集效率和采集效果。

进一步地，当所述手语动作包括手势动作时，所述方法还包括：

确定所述采集对象的所述手势动作的手势类型，根据手势类型与第一位姿参数的映射关系，确定与所述手势类型对应的所述第一位姿参数；

其中，确定所述映射关系的方法包括：

利用具有运动传感器的手套设备和具有运动传感器的手腕设备，对每一种手势类型的手势动作进行数据采集，得到所述每一种手势类型对应的传感器数据；

根据所述每一种手势类型对应的传感器数据，确定所述每一种手势类型对应的所述第一位姿参数，得到所述映射关系。

根据手势类型与第一位姿参数的映射关系，确定与采集对象的手势类型匹配的第一位姿参数，有效降低了确定第一位姿参数的专业性要求，提高了确定手势动作的三维位姿信息的效率，保证了手势动作还原的准确性。

进一步地，所述具有运动传感器的手套设备包括数据手套，所述具有运动传感器的手腕设备包括设在在手腕处的位置追踪器。

利用数据手套和位置追踪器确定采集对象的手势动作的第一位姿参数，实现方式简单，自动化程度高，有利于有效提高三维手语数据的采集效率。

进一步地，所述具有图像传感器的图像采集设备包括多个摄像设备，所述多个摄像设备呈圆弧形状分布，所述多个摄像设备等间距分布。

利用摄像设备获取采集对象的图像数据，实现方式简单，有利于有效控制三维手语数据的采集成本。

第二方面，本申请提供一种手语数据采集装置，所述采集装置包括至少一个具有传感器的数据采集设备和处理器，所述处理器包括第一处理单元和第二处理单元，其中：

所述至少一个具有传感器的数据采集设备用于当采集对象进行手语动作时，对所述采集对象进行数据采集，得到至少一条传感器数据；

所述第一处理单元用于根据所述至少一条传感器数据，确定所述采集对象的所述手语动作的至少一个位姿参数；

所述第二处理单元用于根据所述至少一个位姿参数，控制三维虚拟模型进行所述手语动作，进行所述手语动作的所述三维虚拟模型构成三维手语数据。

进一步地，所述手语动作包括手势动作，所述至少一个具有传感器的数据采集设备包括具有运动传感器的手套设备和具有运动传感器的手腕设备，

所述具有运动传感器的手套设备和所述具有运动传感器的手腕设备用于对所述采集对象进行数据采集，得到至少一条传感器数据；

所述第一处理单元包括第一处理子单元，

所述第一处理子单元用于根据所述至少一条传感器数据，确定所述采集对象的至少一个手部关键点的六自由度，得到所述采集对象的所述手势动作的第一位姿参数，其中，所述手部关键点包括手指关键点、手掌关键点和手腕关键点。

进一步地，所述第二处理单元包括：

第三处理子单元，用于将所述第一位姿参数输入所述三维虚拟模型，控制所述三维虚拟模型对应的至少一个手部关键点进行所述手势动作。

进一步地，所述手语动作包括表情动作、口型动作和肢体动作，所述至少一个具有传感器的数据采集设备还包括具有图像传感器的图像采集设备，

所述具有图像传感器的图像采集设备用于对所述采集对象进行数据采集，得到至少一条图像数据；

所述第一处理单元包括第二处理子单元，

所述第二处理子单元用于利用预设的算法模型，确定所述至少一条图像数据所表征的所述表情动作的第二位姿参数、所述口型动作的第三位姿参数和所述肢体动作的第四位姿参数。

进一步地，所述第二处理子单元包括：

第一处理模块，用于利用预设的算法模型，确定所述至少一条图像数据中的至少一个五官关键点和至少一个骨骼关键点；

第二处理模块，用于根据标准的三维人脸模型，确定所述至少一个五官关键点中的每一个五官关键点的六自由度，得到所述第二位姿参数和所述第三位姿参数；确定所述至少一个骨骼关键点中的每一个骨骼关键点的六自由度，得到所述第四位姿参数。

进一步地，所述第二处理单元包括：

第四处理子单元，用于将所述第二位姿参数和所述第三位姿参数输入所述三维虚拟模型，控制所述三维虚拟模型对应的至少一个五官关键点进行所述表情动作和所述口型动作；

第五处理子单元，用于将所述第四位姿参数输入所述三维虚拟模型，控制所述三维虚拟模型对应的至少一个骨骼关键点进行所述肢体动作。

进一步地，所述处理器还包括第三处理单元，

所述第三处理单元用于响应于输入的所述采集对象的所述手势动作的手势类型，根据手势类型与第一位姿参数的映射关系，确定与所述手势类型对应的所述第一位姿参数；

其中，所述映射关系是

根据所述每一种手势类型对应的传感器数据，确定所述每一种手势类型对应的所述第一位姿参数所得到的。

第三方面，本申请提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中任一项所述的方法。

第四方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

本申请公开了一种手语数据采集方法、设备、存储介质，其中，方法包括当采集对象进行手语动作时，利用至少一个传感器对采集对象进行数据采集，得到至少一条传感器数据；根据至少一条传感器数据，确定采集对象的手语动作的至少一个位姿参数；根据至少一个位姿参数，控制三维虚拟模型进行手语动作，进行手语动作的三维虚拟模型构成三维手语数据。利用采集的传感器数据，确定手语动作的至少一个位姿参数，位姿参数描述了手语动作的三维位姿信息，能够准确提供手语动作在空间中的姿态信息和位置信息，保证了采集的三维手语数据的准确性和实用性，数据采集效果显著；实现了三维手语数据采集的自动化过程，对数据采集人员的专业要求低，数据采集效率高，有利于有效降低三维手语数据的采集成本。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定，其中：

图1为本申请实施例提供的一种手语数据采集方法的流程示意图；

图1a为本申请实施例提供的常见手势动作示意图；

图1b为本申请实施例提供的静态手势动作生成连续动作的示意图；

图1c为本申请实施例提供的一种三维虚拟模型的示意图；

图1d为本申请实施例提供的手语动作校正的示意图；

图2为本申请实施例提供的又一种手语数据采集方法的流程示意图；

图2a为本申请实施例提供的具有传感器的数据采集设备的示意图；

图2b为本申请实施例提供的一种采集图像数据的场景示意图；

图2c为本申请实施例提供的一种三维人脸模型的示意图；

图2d为本申请实施例提供的一种骨骼关键点的示意图；

图3为本申请实施例提供的一种手语数据采集装置的结构示意图；

图4为本申请实施例提供的又一种手语数据采集装置的结构示意图；

图5为本申请实施例提供的一种手语数据采集设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请涉及的名词解释：

六自由度：物体在空间中具有六个自由度，分别是沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度。

泛化性能：generalization ability，指机器学习算法对新鲜样本的适应能力。

CCD图像传感器：Charge Coupled Device图像传感器，电荷耦合器件图像传感器；

CMOS图像传感器：Complementary Metal Oxide Semiconductor图像传感器，互补金属氧化物半导体图像传感器；

CIS图像传感器：Contact Image Sensor图像传感器，接触式图像传感器。

数据手套：一种多模式的虚拟现实硬件，通过软件编程，可进行虚拟场景中物体的抓取、移动、旋转等动作，能够检测手指的弯曲，并利用磁定位传感器精确地定位出手在三维空间中的位置。

深度图像：depth image，也被称为距离图像(range image)，是指将从图像采集设备到场景中各点的距离(深度)作为像素值的图像。

本申请的应用场景：手语是一种靠动作/视觉交际的多模式协同语言，手语在语言障碍人士交流、智能人机交互、手语电视、手语对话系统、手语沟通机器人等领域有着广泛的应用，手语数据采集具有重要的研究意义和社会意义。手语动作包括手势动作、表情动作、口型动作和肢体动作，相关技术中，手语数据采集方法包括利用颜色相机和深度相机对现成的手语视频进行采集和标注，生成二维手语动画；或者，通过建模师和动画师手动构建三维手语动画。

然而，二维手语动画无法提供手语动作的空间位姿信息，具体的，无法提供手指的三维位姿信息，也无法提供手腕和肢体的三维位姿信息，二维手语动画能够提供的手语信息有限，准确性不佳；通过建模师和动画师手动构建三维手语动画，手语采集专业要求高，采集效率低下，以上两种手语数据采集方法均存在采集效果不佳的问题。

本申请提供的一种手语数据采集方法、装置、设备及存储介质，旨在解决上述技术问题。

图1为本申请实施例提供的一种手语数据采集方法，如图1所示，该方法包括：

步骤101、当采集对象进行手语动作时，利用至少一个传感器对采集对象进行数据采集，得到至少一条传感器数据。

在本实施例中，具体的，当采集对象进行手语动作时，利用至少一个传感器对采集对象进行数据采集，具体的，利用至少一个具有传感器的数据采集设备对采集对象进行数据采集，传感器包括运动传感器和图像传感器，运动传感器包括距离传感器、角度传感器、弯曲传感器、位置传感器、力传感器、加速度传感器等，图像传感器包括CCD图像传感器、CMOS图像传感器、CIS图像传感器等。示例性的，当手语老师进行手语动作时，利用佩戴在手语老师手上的数据手套采集手指及手掌的运动数据，利用相机采集手语老师的图像数据。

步骤102、根据至少一条传感器数据，确定采集对象的手语动作的至少一个位姿参数。

在本实施例中，具体的，手语动作包括手势动作、表情动作、口型动作和肢体动作，图1a为本实施例提供的常见手势动作示意图，手语中常用手势动作的手势类型大概包括70种，70种手势动作可以涵盖手语表达中可能用到的所有手型。四种动作搭配能够准确表达手语含义，在手语理解时，仅通过手势动作理解手语含义可能出现歧义，例如，同样是表达高兴的手势，搭配“装作高兴”“勉强高兴”“非常高兴”不同表情动作和肢体动作，会让手语的表达更准确。位姿参数描述了手语动作的三维位姿信息，具体描述了进行手语动作的关键点或节点的六自由度，六自由度包括物体沿x、y、z三个直角坐标轴方向的移动自由度和绕x、y、z三个直角坐标轴的转动自由度。在确定出进行手语动作的关键点或节点的六自由度后，能够完全确定出手语动作在空间中的位置和形态，能够提供准确和实用的手语信息。

确定手语动作的至少一个位姿参数，包括确定手势动作的第一位姿参数、表情动作的第二位姿参数、口型动作的第三位姿参数和肢体动作的第四位姿参数。由于手势动作的手势类型有限，确定手势动作的第一位姿参数方法还包括：在采集对象进行手势动作时，确定采集对象的手势动作的手势类型，根据手势类型与第一位姿参数预设的映射关系，确定与采集对象的手势动作的手势类型对应的第一位姿参数。示例性的，当手语老师食指中指并拢做出“H”手势动作时，根据手势类型与第一位姿参数预设的映射关系，确定出与“H”手势动作对应的第一位姿参数。其中，确定手势类型与第一位姿参数预设的映射关系的方法包括：利用具有运动传感器的手套设备和具有运动传感器的手腕设备，对每一种手势类型的手势动作进行数据采集，得到每一种手势类型对应的传感器数据；根据每一种手势类型对应的传感器数据，确定每一种手势类型对应的第一位姿参数，得到映射关系。

当采集对象进行手势动作的速度较快时，具有运动传感器的数据采集设备可能无法采集手势动作全部的有效传感器数据，导致在确定快速变化的手势动作的第一位姿参数时，存在有效数据缺失或者数据误差大的情况，进而造成确定出的第一位姿参数误差较大，不利于保证采集的三维手语数据的准确性，因此可利用调整第一位姿参数的方式进行手势动作的变化，具体的，可通过调整六自由度的方法进行手势动作的变化。图1b为本申请实施例提供的静态手势生成连续动作的示意图，如图1b所示，采集对象在A手势动作的基础上，变化部分手指的三维空间位姿，实现由A手势动作变化为B手势动作，当手势变化过程较快时，传感器可能无法准确获取到全部传感器数据，因此可能无法根据传感器数据确定出手势动作变化过程中的全部位姿参数，导致无法准确还原采集对象的手势动作的变化过程，造成采集的三维手语数据存在数据缺失，采集效果不佳。通过对手势动作的位姿参数进行更改或插值处理，具体的，对手部关键点的六自由度进行更改，实现手势动作的连续变化，有利于保证采集的三维手语数据的连贯性和准确性。

步骤103、根据至少一个位姿参数，控制三维虚拟模型进行手语动作，进行手语动作的三维虚拟模型构成三维手语动画。

在本实施例中，具体的，至少一个位姿参数描述了手语动作的三维位姿信息，将确定出的手语动作的至少一个位姿参数，输入至三维虚拟模型，三维虚拟模型包括三维虚拟人物模型、三维虚拟脸部模型、三维虚拟手部模型等，图1c为本申请实施例提供的一种三维虚拟模型的示意图。将手语动作的至少一个位姿参数输入三维虚拟模型，即将进行手语动作的各关键点或各节点的六自由度输入三维虚拟模型，调整三维虚拟模型对应的各关键点或各节点具有相同的六自由度，即控制三维虚拟模型完成相同的手语动作，进行相同手语动作的三维虚拟模型构成三维手语数据，实现了将进行手语动作的采集对象转换成进行相同手语动作的三维虚拟模型，完成了三维手语数据的采集，对数据采集人员的专业要求低，采集效率高，采集的三维手语数据能够同步反应手语动作的三维位姿信息，能够提供的手语信息实用性强、准确性高，三维手语数据采集效果良好。

在利用确定出的手语动作的至少一个位姿参数，控制三维虚拟模型进行相同的手语动作时，可通过对位姿参数的调整进行手语动作的校正。由于确定出的位姿参数可能存在误差，具体的，确定出的进行手语动作的各关键点或各节点的六自由度可能存在误差，在根据至少一个位姿参数控制三维虚拟模型进行手语动作时，存在误差的位姿参数导致三维虚拟模型完成的手语动作存在偏差，此时可通过调整相应关键点或相应节点的六自由度的方式进行手语动作的校正。图1d为本申请实施例提供的手语动作校正的示意图，通过调整各个手指的关键点的六自由度，实现对手势动作的细微调整。通过调整位姿参数的方式，进行三维虚拟模型的手语动作的调整，有利于保证采集的三维手语数据的准确性。

本实施例中，当采集对象进行手语动作时，利用至少一个传感器对采集对象进行数据采集，得到至少一条传感器数据；根据至少一条传感器数据，确定采集对象的手语动作的至少一个位姿参数；根据至少一个位姿参数，控制三维虚拟模型进行手语动作，进行手语动作的三维虚拟模型构成三维手语动画。利用采集的传感器数据，确定手语动作的至少一个位姿参数，位姿参数描述了手语动作的三维位姿信息，能够准确提供手语动作在空间中的姿态信息和位置信息，保证了采集的三维手语数据的准确性和实用性，数据采集效果显著；实现了三维手语数据采集的自动化过程，对数据采集人员的专业要求低，数据采集效率高，有利于有效降低三维手语数据的采集成本。

图2为本申请实施例提供的另一种手语数据采集方法，如图2所示，该方法包括：

步骤201、当采集对象进行手语动作时，利用至少一个传感器对采集对象进行数据采集，得到至少一条传感器数据。

在本实施例中，具体的，图2a本申请实施例提供的具有传感器的数据采集设备的示意图，当手语动作包括手势动作时，利用具有运动传感器的手套设备和具有运动传感器的手腕设备，对采集对象进行数据采集，得到采集对象的至少一条传感器数据。具有运动传感器的手套设备包括数据手套，利用佩戴在采集对象手部的数据手套，对采集对象进行数据采集，具体的，对采集对象的至少一个手指关键点和至少一个手掌关键点进行数据采集，数据手套中设置有磁定位传感器，能够精确定位出采集对象的手部关键点在三维空间中的位置。数据手套可以采用14触点数据手套，其用于测量手指弯曲时每个手指的两个手指节点的空间位姿信息，也可以采用18触点数据手套，用于测量每个手指的三个手指节点的空间位姿信息，利用数据手套确定手的三维位姿信息的方法可采用现有技术实现，本申请在此不做赘述。

具有运动传感器的手腕设备包括设在在手腕处的位置追踪器，位置追踪器是一种六自由度的测量装置，其能够动态地、实时地六自由度地测量位置(x轴、y轴和z轴笛卡尔坐标)和方位(俯仰角、偏行角、滚动角)。利用绑在采集对象手腕处的位置追踪器，采集手腕至少一个手腕关键点的传感器数据，利用采集到的传感器数据确定出采集对象手腕的六自由度。

当手语动作包括表情动作、口型动作和肢体动作时，利用具有图像传感器的图像采集设备，对采集对象进行数据采集，得到至少一条图像数据。具有图像传感器的图像采集设备包括多个具有图像传感器的摄像设备，多个摄像设备呈圆弧形状分布，且多个摄像设备等间距分布，一般地，多个摄像设备分布在以采集对象为圆心的圆弧线上，相邻两个摄像设备与采集对象的夹角相同，示例性的，共设置有7台摄像设备，相邻两个摄像设备与采集对象的夹角均为30°。利用多个具有图像传感器的图像采集设备对采集对象进行数据采集，得到至少一条图像数据，示例性的，采集手语老师的多张面部图像和多张全身图像，面部可以包括五官，图像包括颜色图像和深度图像。

图2b为本申请实施例提供的一种采集图像数据的场景示意图，在利用多个图像采集设备对采集对象进行图像采集时，为防止采集对象的手语动作较快产生图像模糊，将图像采集设备的曝光时间缩短。但曝光时间缩短可能会导致采集到的图像发暗，因此，额外加装摄像补光设备进行补光，摄像补光设备的位置根据实际需求进行调整，一般设置于采集对象正前方左右45度的方向。同时为方便后期抠图，在进行图像数据采集时，将图像采集场景的背景和地面设置为绿色幕布。

步骤202、根据至少一条传感器数据，确定采集对象的至少一个关键点的六自由度。

在本实施例中，具体的，采集对象的至少一个关键点包括至少一个手部关键点、至少一个五官关键点和至少一个骨骼关键点，手部关键点包括手指关键点、手掌关键点和手腕关键点。至少一个手指关键点的六自由度和至少一个手掌关键点的六自由度是利用具有运动传感器的手套设备确定得到的；至少一个手腕关键点的六自由度是利用具有运动传感器的手腕设备确定得到的；至少一个五官关键点的六自由度和至少一个骨骼关键点的六自由度是根据图像采集设备采集的图像数据确定得到的。至少一个手指关键点的六自由度、至少一个手掌关键点的六自由度和至少一个手腕关键点的六自由度构成采集对象的手势动作的第一位姿参数；至少一个五官关键点的六自由度构成采集对象的表情动作的第二位姿参数和口型动作的第三位姿参数；至少一个骨骼关键点的六自由度构成采集对象的肢体动作的第四位姿参数。

在确定至少一个五官关键点的六自由度时，将图像采集设备采集的至少一条图像数据输入预设的算法模型中，利用预设的算法模型确定出采集对象的面部图像中的至少一个五官关键点。预设的算法模型是利用大量的标记有五官关键点的人脸图像训练得到的，训练过程可采用现有技术实现，本申请在此不做赘述。将人脸图像输入训练好的算法模型中，利用算法模型标记出人脸图像中至少一个五官关键点，至少一个五官关键点能够反映人的表情动作和口型动作，具体包括眼睛、嘴巴、鼻子、眉毛、脸部轮廓等部位的关键点。在确定出至少一个五官关键点后，根据标准的三维人脸模型，确定至少一个五官关键点中的每一个五官关键点的六自由度，得到第二位姿参数和第三位姿参数。图2c为本申请实施例提供的一种三维人脸模型的示意图，三维人脸模型中包括多个五官关键点，并且三维人脸模型反映了人物的标准表情，将确定出的采集对象的每一个五官关键点与三维人脸模型的每一个五官关键点进行比对，确定采集对象的每一个五官关键点的三维位姿信息，即确定出每一个五官关键点的六自由度。嘴巴部位的五官关键点的六自由度构成了采集对象的口型动作的第三位姿参数，所有五官关键点的六自由度构成了采集对象的表情动作的第二位姿参数。

在确定至少一个骨骼关键点的六自由度时，将图像采集设备采集的至少一条图像数据输入预设的算法模型中，利用预设的算法模型确定出采集对象的全身图像中的至少一个骨骼关键点。预设的算法模型是利用大量的标记有骨骼关键点的人物的全身图像训练得到的，训练过程可采用现有技术实现，本申请在此不做赘述。将采集对象的全身图像输入训练好的算法模型中，利用算法模型标记出采集对象的全身图像中至少一个骨骼关键点，图2d为本申请实施例提供的一种骨骼关键点的示意图，如图2d所示，至少一个骨骼关键点能够反映采集对象的肢体动作，具体包括肩膀、胳膊、腿、躯干等部位的关键点。在确定出至少一个骨骼关键点后，确定每一个骨骼关键点的三维位姿信息，得到每一个骨骼关键点的六自由度，所有骨骼关键点的六自由度构成了采集对象的肢体动作的第四位姿参数。

步骤203、根据采集对象的至少一个关键点的六自由度，控制三维虚拟模型进行手语动作，进行手语动作的三维虚拟模型构成三维手语数据。

在本实施例中，具体的，为实现根据采集对象的至少一个关键点的六自由度，控制三维虚拟模型进行相应的手语动作，具体的，将第一位姿参数输入三维虚拟模型，控制三维虚拟模型对应的至少一个手部关键点进行手势动作；将第二位姿参数和第三位姿参数输入三维虚拟模型，控制三维虚拟模型对应的至少一个五官关键点进行表情动作和口型动作；将第四位姿参数输入三维虚拟模型，控制三维虚拟模型对应的至少一个骨骼关键点进行肢体动作，实现了根据确定出的采集对象的手语动作的至少一个位姿参数，控制三维虚拟模型完成相应的手语动作，进行手语动作的三维虚拟模型构成三维手语数据。

本实施例中，当采集对象进行手语动作时，利用至少一个传感器对采集对象进行数据采集，得到至少一条传感器数据；根据至少一条传感器数据，确定采集对象的至少一个关键点的六自由度；根据采集对象的至少一个关键点的六自由度，控制三维虚拟模型进行手语动作，进行手语动作的三维虚拟模型构成三维手语数据。利用至少一个传感器对采集对象进行数据采集，利用采集的传感器数据确定采集对象的至少一个关键点的六自由度，具体确定采集对象的手部关键点、五官关键点和骨骼关键点的六自由度，六自由度能够准确清楚地反映各关键点在三维空间中的位姿信息，根据各关键点的六自由度，控制三维虚拟模型进行相应的手语动作，能够实现手语动作的同步还原，实现了三维手语数据的自动化采集，手语数据采集专业要求低，采集效率高，同时手语数据采集的采集成本也得以有效控制；确定出的采集对象各关键点的六自由度，很好地提供了采集对象的手语动作的三维位姿信息，有效保证了手语数据采集的准确性和实用性，数据采集效果良好。

图3为本申请实施例提供的一种手语数据采集装置的结构示意图，如图3所示，采集装置包括至少一个具有传感器的数据采集设备1和处理器2，处理器2包括第一处理单元21和第二处理单元22，其中：

至少一个具有传感器的数据采集设备1用于当采集对象进行手语动作时，对采集对象进行数据采集，得到至少一条传感器数据；

第一处理单元21用于根据至少一条传感器数据，确定采集对象的手语动作的至少一个位姿参数；

第二处理单元22用于根据至少一个位姿参数，控制三维虚拟模型进行手语动作，进行手语动作的三维虚拟模型构成三维手语数据。

图4为本申请实施例提供的另一种手语数据采集装置的结构示意图，在图3的基础上，如图4所示，

手语动作包括手势动作，至少一个具有传感器的数据采集设备1包括具有运动传感器的手套设备11和具有运动传感器的手腕设备12，

具有运动传感器的手套设备11和具有运动传感器的手腕设备12用于对采集对象进行数据采集，得到至少一条传感器数据；

第一处理单元21包括第一处理子单元211，

第一处理子单元211用于根据至少一条传感器数据，确定采集对象的至少一个手部关键点的六自由度，得到采集对象的手势动作的第一位姿参数，其中，手部关键点包括手指关键点、手掌关键点和手腕关键点。

手语动作还包括表情动作、口型动作和肢体动作，至少一个具有传感器的数据采集设备1还包括具有图像传感器的图像采集设备13，

具有图像传感器的图像采集设备13用于对采集对象进行数据采集，得到至少一条图像数据；

第一处理单元21包括第二处理子单元212，

第二处理子单元212用于利用预设的算法模型，确定至少一条图像数据所表征的表情动作的第二位姿参数、口型动作的第三位姿参数和肢体动作的第四位姿参数。

第二处理子单元212包括：

第一处理模块2121，用于利用预设的算法模型，确定至少一条图像数据中的至少一个五官关键点和至少一个骨骼关键点；

第二处理模块2122，用于根据标准的三维人脸模型，确定至少一个五官关键点中的每一个五官关键点的六自由度，得到第二位姿参数和第三位姿参数；确定至少一个骨骼关键点中的每一个骨骼关键点的六自由度，得到第四位姿参数。

第二处理单元22包括：

第三处理子单元221，用于将第一位姿参数输入三维虚拟模型，控制三维虚拟模型对应的至少一个手部关键点进行手势动作；

第四处理子单元222，用于将第二位姿参数和第三位姿参数输入三维虚拟模型，控制三维虚拟模型对应的至少一个五官关键点进行表情动作和口型动作；

第五处理子单元223，用于将第四位姿参数输入三维虚拟模型，控制三维虚拟模型对应的至少一个骨骼关键点进行肢体动作。

处理器2还包括第三处理单元23，

第三处理单元23用于响应于输入的采集对象的手势动作的手势类型，根据手势类型与第一位姿参数的映射关系，确定与手势类型对应的第一位姿参数；

其中，映射关系是

利用具有运动传感器的手套设备和具有运动传感器的手腕设备，对每一种手势类型的手势动作进行数据采集，得到每一种手势类型对应的传感器数据；

根据每一种手势类型对应的传感器数据，确定每一种手势类型对应的第一位姿参数所得到的。

具有运动传感器的手套设备11包括数据手套，具有运动传感器的手腕设备12包括设在在手腕处的位置追踪器。

具有图像传感器的图像采集设备13包括多个摄像设备，多个摄像设备呈圆弧形状分布，多个摄像设备等间距分布。

本申请的技术方案中，所涉及的对采集对象的手语数据的采集，符合相关法律法规的规定，且不违背公序良俗。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的手语数据采集的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的手语数据采集的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的手语数据采集的方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的手语数据采集的方法对应的程序指令/模块(例如，附图3所示的获取单元1、第一处理单元2和第二处理单元3)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的手语数据采集方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据手语数据采集的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至手语数据采集的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

手语数据采集的方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与手语数据采集的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在本申请实施例中，上述各实施例之间可以相互参考和借鉴，相同或相似的步骤以及名词均不再一一赘述。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种手语数据采集方法，其特征在于，包括：

根据所述至少一个位姿参数，控制三维虚拟模型进行所述手语动作，进行所述手语动作的所述三维虚拟模型构成三维手语数据；

若所述手语动作包括表情动作、口型动作和肢体动作，所述利用至少一个传感器对所述采集对象进行数据采集，得到至少一条传感器数据，包括：

2.根据权利要求1所述的方法，其特征在于，若所述手语动作包括手势动作，所述利用至少一个传感器对所述采集对象进行数据采集，得到至少一条传感器数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个位姿参数，控制三维虚拟模型进行所述手语动作，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用预设的算法模型，确定所述至少一条图像数据所表征的所述表情动作的第二位姿参数、所述口型动作的第三位姿参数和所述肢体动作的第四位姿参数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述至少一个位姿参数，控制三维虚拟模型进行所述手语动作，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，当所述手语动作包括手势动作时，所述方法还包括：

其中，确定所述映射关系的方法包括：

7.根据权利要求2或3所述的方法，其特征在于，所述具有运动传感器的手套设备包括数据手套，所述具有运动传感器的手腕设备包括设在在手腕处的位置追踪器。

8.根据权利要求1所述的方法，其特征在于，所述具有图像传感器的图像采集设备包括多个摄像设备，所述多个摄像设备呈圆弧形状分布，所述多个摄像设备等间距分布。

9.一种手语数据采集装置，其特征在于，包括至少一个具有传感器的数据采集设备和处理器，所述处理器包括第一处理单元和第二处理单元，其中，

所述第二处理单元用于根据所述至少一个位姿参数，控制三维虚拟模型进行所述手语动作，进行所述手语动作的所述三维虚拟模型构成三维手语数据；

若所述手语动作还包括表情动作、口型动作和肢体动作，所述至少一个具有传感器的数据采集设备还包括具有图像传感器的图像采集设备，

所述第一处理单元包括第二处理子单元，

10.根据权利要求9所述的装置，其特征在于，若所述手语动作包括手势动作，所述至少一个具有传感器的数据采集设备包括具有运动传感器的手套设备和具有运动传感器的手腕设备，

所述第一处理单元包括第一处理子单元，

11.根据权利要求10所述的装置，其特征在于，所述第二处理单元包括：

12.根据权利要求9所述的装置，其特征在于，所述第二处理子单元包括：

13.根据权利要求12所述的装置，其特征在于，所述第二处理单元包括：

14.根据权利要求12或13所述的装置，其特征在于，所述处理器还包括第三处理单元，

所述第三处理单元用于响应于输入的所述采集对象的所述手语动作的手势类型，根据手势类型与第一位姿参数的映射关系，确定与所述手势类型对应的所述第一位姿参数；

其中，所述映射关系是

15.根据权利要求11或12所述的装置，其特征在于，所述具有运动传感器的手套设备包括数据手套，所述具有运动传感器的手腕设备包括设在在手腕处的位置追踪器。

16.根据权利要求9所述的装置，其特征在于，所述具有图像传感器的图像采集设备包括多个摄像设备，所述多个摄像设备呈圆弧形状分布，所述多个摄像设备等间距分布。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8任一项所述的方法。

18.一种储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8任一项所述的方法。