CN115620016B

CN115620016B - 一种骨架检测模型的构建方法、图像数据识别方法

Info

Publication number: CN115620016B
Application number: CN202211592632.2A
Authority: CN
Inventors: 项乐宏; 王翀; 夏银水; 李裕麒; 郑瑜杰
Original assignee: Loctek Ergonomic Technology Co Ltd
Current assignee: Loctek Ergonomic Technology Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-03-28
Anticipated expiration: 2042-12-13
Also published as: CN115620016A

Abstract

本发明提供了一种骨架检测模型的构建方法、图像数据识别方法。构建方法包括：根据训练图像，获取训练RGB图像和训练深度图像；将训练RGB图像和训练深度图像输入训练网络，分别获取第一热力图和第二热力图；将标签转换为第一正确热力图，计算第一热力图和第一正确热力图的第一损失，以及第二热力图和第一正确热力图的第二损失；根据第一热力图和第二热力图，通过热图回归技术，分别确定第一骨架关键点和第二骨架关键点；将第一骨架关键点和第二骨架关键点采用均方误差计算第三损失；根据第一损失、第二损失和第三损失的叠加优化训练网络的参数。本发明解决的问题是：现有技术无法通过模型训练有效地提高骨架检测模型的鲁棒性。

Description

一种骨架检测模型的构建方法、图像数据识别方法

技术领域

本发明涉及图像数据处理技术领域，具体而言，涉及一种骨架检测模型的构建方法、图像数据识别方法。

背景技术

人体姿态识别是检测图像或者视频中人体关键点的位置、构建人体骨架图的过程。利用人体姿态信息可以进一步进行动作识别、人机信息交互、异常行为检测等任务。然而，人的肢体比较灵活，姿态特征在视觉上变化比较大，并且容易受到视角和服饰变化的影响。

现有技术中，对人体姿态的识别往往使用HRNet骨架模型进行骨架关键点的检测，而传统的HRNet仅使用RGB图像对模型进行训练，导致最终训练完成的HRNet骨架模型的准确性和鲁棒性不够，进而导致人体姿态检测精度不够。

由此可见，相关技术中存在的问题是：现有技术无法通过模型训练有效地提高骨架检测模型的鲁棒性。

发明内容

本发明解决的问题是：现有技术无法通过模型训练有效地提高骨架检测模型的鲁棒性。

为解决上述问题，本发明的第一目的在于提供一种基于多视图知识蒸馏的骨架检测模型的构建方法，

本发明的第二目的在于提供一种人体姿态的图像数据识别方法。

为实现本发明的第一目的，本发明的实施例提供了一种基于多视图知识蒸馏的骨架检测模型的构建方法，构建方法包括：

S100：获取带有标签的训练图像，对训练图像打标签是指，将训练图像的人体骨架关键点坐标和训练图像建立对应关系；

S200：根据训练图像，获取训练RGB图像和训练深度图像；

S300：将训练RGB图像和训练深度图像输入训练网络，分别获取第一热力图和第二热力图；

S400：将标签转换为第一正确热力图，计算第一热力图和第一正确热力图的第一损失，以及第二热力图和第一正确热力图的第二损失；

S500：根据第一热力图和第二热力图，通过热图回归技术，分别确定第一骨架关键点和第二骨架关键点；

S600：将第一骨架关键点和第二骨架关键点采用均方误差计算第三损失；

S700：根据第一损失、第二损失和第三损失的叠加优化训练网络的参数；

S800：获取多幅带有标签的训练图像，循环S100至S700的步骤，迭代至损失收敛，完成训练，将训练网络的参数固定，由此构建骨架检测模型。

与现有技术相比，采用该技术方案所达到的技术效果：经过多视图知识蒸馏的HRNet对于同一场景的不同视图具有更好的鲁棒性，使用本发明的构建方法能够有效地提高骨架检测模型的鲁棒性，构建的骨架检测模型能够有效地提高人体骨架检测的精度。

在本发明的一个实施例中，计算第一损失和第二损失的函数为OHKM损失函数。

与现有技术相比，采用该技术方案所达到的技术效果：本实施例的方法采用OHKM损失函数，使获得的第一损失和第二损失更加准确。

在本发明的一个实施例中，在S400之后，还包括：

S450：将第一热力图和第二热力图采用均方误差计算第四损失；

S700包括：

根据第一损失、第二损失、第三损失和第四损失叠加优化训练网络的参数。

与现有技术相比，采用该技术方案所达到的技术效果：添加对第四损失的计算，能够使训练网络最终训练出来的参数更加准确，进而使骨架检测模型功能性和鲁棒性更强。

在本发明的一个实施例中，S300包括：

S310：获取训练网络的目标通道数量n；

S320：将训练RGB图像和训练深度图像复制转化为通道数量为目标通道数量n的图像后输入训练网络，分别获取第一热力图和第二热力图。

与现有技术相比，采用该技术方案所达到的技术效果：本实施例的方案能够帮助将训练RGB图像和训练深度图像同时输入同一个训练网络，进而使后续热力图的生成更加稳定，有效地增加了整个构建方法的稳定性和可靠性。

在本发明的一个实施例中，S700包括：

根据第一损失、第二损失和第三损失的叠加，使用梯度下降法优化训练网络的参数。

与现有技术相比，采用该技术方案所达到的技术效果：通过本实施例的方案，能够准确地根据损失优化训练网络的参数，进而使构建的骨架检测模型更加准确。

为实现本发明的第二目的，本发明的实施例提供了一种人体姿态的图像数据识别方法，图像数据识别方法使用如本发明任一实施例的构建方法构建出的骨架检测模型，图像数据识别方法包括：获取用户的RGB图像；将RGB图像输入骨架检测模型，获取第一人体骨架关键点坐标；其中，第一人体骨架关键点坐标为2D骨架关键点坐标。

在本发明的一个实施例中，图像数据识别方法使用如本发明任一实施例的构建方法构建出的骨架检测模型，图像数据识别方法包括：获取用户的深度图像；将深度图像输入骨架检测模型，获取第二人体骨架关键点坐标；其中，第二人体骨架关键点坐标为3D骨架关键点坐标。

在本发明的一个实施例中，图像数据识别方法使用如本发明任一实施例的构建方法构建出的骨架检测模型，图像数据识别方法包括：获取用户的RGB图像和深度图像；将RGB图像和深度图像输入骨架检测模型，获取第三人体骨架关键点坐标；其中，第三人体骨架关键点坐标为3D骨架关键点坐标。

与现有技术相比，采用该技术方案所达到的技术效果：单独输入RGB图像或深度图像，或同时输入RGB图像和深度图像，骨架检测模型均能适应性地准确地输出人体骨架关键点坐标，进而使本实施例的图像数据识别方法能够适应更多的情形。

附图说明

图1为本发明一些实施例的基于多视图知识蒸馏的骨架检测模型的构建方法的步骤流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

【第一实施例】

参见图1，本实施例提供一种基于多视图知识蒸馏的骨架检测模型的构建方法，构建方法包括：

S200：根据训练图像，获取训练RGB图像和训练深度图像；

在本实施例中，提供了一种基于多视图知识蒸馏的骨架检测模型的构建方法，通过本发明的构建方法构建的骨架检测模型，能够应用于人体工学智能设备，使人体工学智能设备在无法检测到完整的用户姿态图像的情况下，通过骨架检测模型识别获取用户在使用人体工学智能设备时的使用姿态。

需要说明的是，人体工学智能设备包括但不限于升降桌、升降讲台等，用户往往需要将双手放于人体工学智能设备上进行办公或学习，人体工学智能设备可通过电机进行高度调节。

现有技术中的识别模型采用HRNet，HRNet是针对2D人体姿态估计任务提出的，并且该网络主要是针对单一个体的姿态评估，即输入网络的图像中只有一个人体目标。HRNet平行地连接从高到低分辨率的子网络，使用重复的多尺度融合，利用相同深度和相似级别的低分辨率表示来提高高分辨率表示。模型的最终输出包括人体的多个骨架关键点。

传统的HRNet仅使用RGB图像对模型进行训练。在自监督学习领域中有一个经典假设，即强大的表示是对视图不变因素建模的表示。在本发明的方案中，采集了人体的RGB图像和深度图像，二者可以看作是人体图像的不同视图，同一个网络对于这两种视图的输出预测结果应保持一致，即最大化同一场景的不同视图之间的互信息。同一场景的不同视图为模型的训练提供了更多的信息。

进一步地，在S100中，获取带有标签的训练图像，对训练图像打标签是指，将训练图像的人体骨架关键点坐标和训练图像建立对应关系。需要说明的是，在本实施例的构建方法中，标签可为工作人员根据RGB图像输入，标签包含了人体骨架的多个关键点坐标；在确定标签后，可将标签转化为正确关键点坐标的正确热力图；训练图像至少包括RGB图像和深度图像。

进一步地，在S200中，根据训练图像，获取训练RGB图像和训练深度图像。训练图像从数据库中获取，数据库内包括多张训练RGB图像和训练深度图像，多张训练RGB图像和训练深度图像用于训练骨架检测模型。需要说明的是，训练RGB图像为彩色图像，训练深度图像也被称为距离影像，是指将图像采集器到场景中各点的距离（深度）作为像素值的图像，它直接反映了景物可见表面的几何形状。

进一步地，在S300中，将训练RGB图像和训练深度图像输入训练网络，分别获取第一热力图和第二热力图。将训练RGB图像和训练深度图像输入同一训练网络，即基于多视图蒸馏的HRNet训练网络，分别获取第一热力图和第二热力图。

进一步地，在S400中，将标签转换为第一正确热力图，计算第一热力图和第一正确热力图的第一损失，以及第二热力图和第一正确热力图的第二损失。需要说明的是，将标签转换为正确热力图为现有技术，在此不再赘述。

进一步地，在S500中，根据第一热力图和第二热力图，通过热图回归技术，分别确定第一骨架关键点和第二骨架关键点。需要说明的是，热图回归技术为现有技术，在此不再赘述。

进一步地，在S600中，将第一骨架关键点和第二骨架关键点采用均方误差计算第三损失。输出的2组骨架关键点应该保持一致，因此采用均方误差损失进行约束。根据两组热力图可以得到2组骨架关键点，我们希望2组关键点更加相似，因为训练RGB图像和训练深度图像表示的都是同一个场景，人的姿态是一样的，所以不管哪个图片输入网络都应该得到一样的结果，所以采用均方误差损失进行约束。

进一步地，在S700中，根据第一损失、第二损失和第三损失的叠加优化训练网络的参数。

进一步地，在S800中，获取多幅带有标签的训练图像，循环S100至S700的步骤，迭代至损失收敛，完成训练，将训练网络的参数固定，由此构建骨架检测模型。需要说明的是，每进行一次S100至S700的步骤，骨架检测模型的参数都会进一步地优化，当多次循环S100至S700的步骤直至损失收敛时，说明此时训练完成。

需要说明的是，HRNet的作用在于提取图像的特征，也称为表示。只要提取的特征足够好，在进行热力图回归后能够得到更加精确的骨架。在自监督学习领域的经典假设认为：强大的表示是对视图不变因素建模的表示。而本发明的方案中，采用HRNet对RGB图像和深度图像提取特征，当二者的特征保持一致时，RGB图像和深度图像的互信息最大，此时提取的特征就是一个鲁棒的特征。

可以理解地，经过多视图知识蒸馏的HRNet对于同一场景的不同视图具有更好的鲁棒性，使用本发明的构建方法能够有效地提高骨架检测模型的鲁棒性，构建的骨架检测模型能够有效地提高人体骨架检测的精度。

进一步地，计算第一损失和第二损失的函数为OHKM损失函数。

需要说明的是，OHKM损失函数为现有技术，本实施例将OHKM损失函数应用于骨架检测模型的构建方法，能够帮助第一训练网络高效地完成其训练任务。

可以理解地，本实施例的方法采用OHKM损失函数，使获得的第一损失和第二损失更加准确。

进一步地，在S400之后，还包括：

S700包括：

进一步地，在S450中，将第一热力图和第二热力图采用均方误差计算第四损失。输出的2组热力图也应该保持一致，因此采用均方误差损失进行约束。我们希望2组热力图更加相似，因为RGB图像和深度图像表示的都是同一个场景，人的姿态是一样的，所以不管哪个图片输入网络都应该得到一样的结果，所以采用均方误差损失进行约束。

可以理解地，添加对第四损失的计算，能够使训练网络最终训练出来的参数更加准确，进而使骨架检测模型功能性和鲁棒性更强。

进一步地，S300包括：

S310：获取训练网络的目标通道数量n；

在本实施例中，由于训练RGB图像和训练深度图像与训练网络的通道数量不一致，因此当需要将训练RGB图像和训练深度图像同时输入同一个训练网络时，需要将训练RGB图像和训练深度图像均复制转化为通道数量为目标通道数量n的图像后才能输入训练网络。

示例性地，n取值为3。即分别将训练RGB图像和训练深度图像输入到同一个网络中（由于网络的输入为3通道，深度图像的通道数为1，故将深度图像复制3次，转化为3通道图像），分别得到2组热力图，进而确定第一热力图和第二热力图。

可以理解地，本实施例的方案能够帮助将训练RGB图像和训练深度图像同时输入同一个训练网络，进而使后续热力图的生成更加稳定，有效地增加了整个构建方法的稳定性和可靠性。

进一步地，S700包括：

在本实施例中，梯度下降法为现有技术，在此不过多赘述。

可以理解地，通过本实施例的方案，能够准确地根据损失优化训练网络的参数，进而使构建的骨架检测模型更加准确。

进一步地，训练RGB图像和训练深度图像在训练网络的训练过程中，进行权重共享。权重共享表示两个网络是同一个网络，结构相同，参数相同，即训练RGB图像和训练深度图像均输入训练网络进行训练。

可以理解地，RGB图像和深度图像，二者可以看作是人体图像的不同视图，同一个网络对于这两种视图的输出预测结果应保持一致，即最大化同一场景的不同视图之间的互信息，因此RGB图像和深度图像在训练网络的训练过程中，进行权重共享，能够保证训练结果的准确性和可靠性。

【第二实施例】

本实施例提供了一种人体姿态的图像数据识别方法，图像数据识别方法使用如本发明任一实施例的构建方法构建出的骨架检测模型，图像数据识别方法包括：获取用户的RGB图像；将RGB图像输入骨架检测模型，获取第一人体骨架关键点坐标；其中，第一人体骨架关键点坐标为2D骨架关键点坐标。

进一步地，图像数据识别方法使用如本发明任一实施例的构建方法构建出的骨架检测模型，图像数据识别方法包括：获取用户的深度图像；将深度图像输入骨架检测模型，获取第二人体骨架关键点坐标；其中，第二人体骨架关键点坐标为3D骨架关键点坐标。

进一步地，图像数据识别方法使用如本发明任一实施例的构建方法构建出的骨架检测模型，图像数据识别方法包括：获取用户的RGB图像和深度图像；将RGB图像和深度图像输入骨架检测模型，获取第三人体骨架关键点坐标；其中，第三人体骨架关键点坐标为3D骨架关键点坐标。

在本实施例中，获取用户上半身的RGB图像和深度图像。在本实施例中，人体工学智能设备包括图像实时采集设备，即在用户的正前方设有1个彩色摄像头以及1个深度摄像头，分别用于实时采集用户上半身的RGB图像和深度图像。深度图像也被称为距离影像，是指将图像采集器到场景中各点的距离（深度）作为像素值的图像，它直接反映了景物可见表面的几何形状。

需要说明的是，输入RGB图像，骨架检测模型可获取第一人体骨架关键点坐标，由于RGB图像为2D的彩色图像，因此第一人体骨架关键点坐标为2D骨架关键点坐标；输入深度图像，骨架检测模型可获取第二人体骨架关键点坐标，由于深度图像为3D图像，因此第二人体骨架关键点坐标为3D骨架关键点坐标；同时输入RGB图像和深度图像，骨架检测模型可获取第三人体骨架关键点坐标，第三人体骨架关键点坐标为3D骨架关键点坐标。

可以理解地，单独输入RGB图像或深度图像，或同时输入RGB图像和深度图像，骨架检测模型均能适应性地准确地输出人体骨架关键点坐标，进而使本实施例的图像数据识别方法能够适应更多的情形。

进一步地，RGB图像输入骨架检测模型后，进行多次卷积下采样和卷积上采样操作，获取多个维度的特征图，将多个特征图进行特征融合，进行1×1卷积，获取人体关键点热图，根据人体关键点热图，通过热图回归技术，获取第一人体骨架关键点坐标。

示例性地，对于每张第一人体骨架关键点坐标图片，输出维度为1×17×3，1表示人数，17表示每个人身上的17关键点，3表示每个关键点的坐标及置信度。

在本实施例中，高分辨的特征图需要先用一个或者若干个连续的步长为2的3x3卷积进行下采样，然后使用逐元素加法来融合不同分辨率的特征图。同样的，低分辨率的特征图要先用一个上采样的方式将分辨率提高，然后使用1x1卷积使得通道数与高分辨率的特征图一致，然后再进行特征融合操作。在上采样操作中，首先采用最邻近插值对齐特征图的宽度和高度，再用1×1的卷积对齐特征图的通道数。在2倍下采样操作中使用步长为2的3×3卷积即可，如要完成4倍下采样，则使用2个步长为2的3×3卷积。

可以理解地，通过本实施例的方法，能够使获取的多个维度的特征图更加准确，进而更准确地获取用户的第一人体骨架关键点坐标。

进一步地，进行多次卷积下采样和卷积上采样操作，包括：使用至少一个连续的步长为2的3x3卷积进行多次下采样，使用至少一个1x1卷积进行多次上采样。通过本发明的方法能够更加准确地获取多个维度的特征图。

需要说明的是，本实施例的人体姿态的图像数据识别方法可应用于人体工学智能设备。在日常使用过程中，人体工学智能设备最佳的高度是：桌面高度与手肘平齐。此时，无论是用键盘打字还是伏案写字，均可以防止耸肩的情况出现，从而保护用户的脊椎。用户在使用该人体工学智能设备时，需要将双手平放于桌面，本发明的方法根据实时计算得到的3D人体骨架，进一步地调整人体工学智能设备的高度，使其高度维持在最佳高度。

可以理解地，本实施例的方法根据实时采集到的RGB图像和/或深度图像，识别获取用户的姿态信息，即人体骨架关键点坐标信息，进而能够使人体工学智能设备的高度根据用户的姿态信息进行调节，将人体工学智能设备调节到合适的高度，让用户在工作时不必再将心思放在调整桌面高度上，从而可以更加专注高效地工作，有效地提升了用户体验的舒适性。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于多视图知识蒸馏的骨架检测模型的构建方法，其特征在于，所述构建方法包括：

S100：获取带有标签的训练图像，对所述训练图像打标签是指，将所述训练图像的人体骨架关键点坐标和所述训练图像建立对应关系；

S200：根据所述训练图像，获取训练RGB图像和训练深度图像；

S300：将所述训练RGB图像和所述训练深度图像输入训练网络，分别获取第一热力图和第二热力图；

S400：将所述标签转换为第一正确热力图，计算所述第一热力图和所述第一正确热力图的第一损失，以及所述第二热力图和所述第一正确热力图的第二损失；

S500：根据所述第一热力图和所述第二热力图，通过热图回归技术，分别确定第一骨架关键点和第二骨架关键点；

S600：将所述第一骨架关键点和所述第二骨架关键点采用均方误差计算第三损失；

S700：根据所述第一损失、所述第二损失和所述第三损失的叠加优化所述训练网络的参数；

S800：获取多幅带有标签的训练图像，循环所述S100至所述S700的步骤，迭代至损失收敛，完成训练，将所述训练网络的参数固定，由此构建骨架检测模型。

2.根据权利要求1所述的构建方法，其特征在于，计算所述第一损失和所述第二损失的函数为OHKM损失函数。

3.根据权利要求1所述的构建方法，其特征在于，

在所述S400之后，还包括：

S450：将所述第一热力图和所述第二热力图采用均方误差计算第四损失；

所述S700包括：

根据所述第一损失、所述第二损失、所述第三损失和所述第四损失叠加优化所述训练网络的参数。

4.根据权利要求1所述的构建方法，其特征在于，所述S300包括：

S310：获取所述训练网络的目标通道数量n；

S320：将所述训练RGB图像和所述训练深度图像复制转化为通道数量为所述目标通道数量n的图像后输入所述训练网络，分别获取所述第一热力图和所述第二热力图。

5.根据权利要求1所述的构建方法，其特征在于，所述S700包括：

根据所述第一损失、所述第二损失和所述第三损失的叠加，使用梯度下降法优化所述训练网络的参数。

6.一种人体姿态的图像数据识别方法，其特征在于，所述图像数据识别方法使用如权利要求1至5任一项所述的构建方法构建出的骨架检测模型，所述图像数据识别方法包括：

获取用户的RGB图像；

将所述RGB图像输入所述骨架检测模型，获取第一人体骨架关键点坐标；

其中，所述第一人体骨架关键点坐标为2D骨架关键点坐标。

7.一种人体姿态的图像数据识别方法，其特征在于，所述图像数据识别方法使用如权利要求1至5任一项所述的构建方法构建出的骨架检测模型，所述图像数据识别方法包括：

获取用户的深度图像；

将所述深度图像输入所述骨架检测模型，获取第二人体骨架关键点坐标；

其中，所述第二人体骨架关键点坐标为3D骨架关键点坐标。

8.一种人体姿态的图像数据识别方法，其特征在于，所述图像数据识别方法使用如权利要求1至5任一项所述的构建方法构建出的骨架检测模型，所述图像数据识别方法包括：

获取用户的RGB图像和深度图像；

将所述RGB图像和所述深度图像输入所述骨架检测模型，获取第三人体骨架关键点坐标；

其中，所述第三人体骨架关键点坐标为3D骨架关键点坐标。