CN115984972B

CN115984972B - 基于运动视频驱动的人体姿态识别方法

Info

Publication number: CN115984972B
Application number: CN202310265135.XA
Authority: CN
Inventors: 项乐宏; 夏银水; 李裕麒; 王翀; 蓝艇
Original assignee: Loctek Ergonomic Technology Co Ltd
Current assignee: Loctek Ergonomic Technology Co Ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-08-11
Anticipated expiration: 2043-03-20
Also published as: CN115984972A

Abstract

本发明提供了基于运动视频驱动的人体姿态识别方法。方法包括：基于待识别的运动视频中的每帧图像建立可微分成像模型并建立三维人体骨架模型；将人体骨架的各关键点位置参数代入可微分成像模型，得到人体骨架的各关键点的二维坐标A1；根据运动视频中的每帧图像得到二维坐标A2；二维坐标A1与二维坐标A2计算损失，得到第一损失结果；根据第一损失结果，优化可微分成像模型，得到可微分成像模型参数，及三维人体骨架模型中的各关键点位置参数，根据各关键点位置参数得到人体姿态识别结果。本发明解决的问题是：相关技术中的技术方案无法有效的解决针对视频转场及局部遮挡造成的人体姿态识别结果突变的技术问题。

Description

基于运动视频驱动的人体姿态识别方法

技术领域

本发明涉及图像数据处理技术领域，具体而言，涉及基于运动视频驱动的人体姿态识别方法。

背景技术

人体姿态识别方法在很多领域都发挥着重要作用，在人体工学智能设备领域，人体姿态识别能够根据识别信息对设备进行智能调节。在居家瑜伽健身时，人体工学设备应当根据瑜伽健身视频内对应的运动姿态针对人体工学设备进行调节，相关技术中，针对视频频繁转场对人体姿态和头部姿态检测带来的困难常难以解决，给用户带来的不适感严重，无法保证在连续的健身运动视频播放过程中动态调节桌面到合适高度。

相关技术中，直接对视频提取人体图像及人体姿态信息具有低成本、易配置、用户友好等特点，但是直接提取的人体图像及人体姿态信息只有一种视角的二维信息，难以提供全面的人体姿态信息。因此在处理视频转场及局部遮挡时，直接提取人体图像及人体姿态信息容易产生识别错误造成识别结果突变。

发明内容

本发明解决的问题是：相关技术中的技术方案无法有效的解决针对视频转场及局部遮挡造成的人体姿态识别结果突变的技术问题。

为解决上述问题，本发明的目的在于提供一种基于运动视频驱动的人体姿态识别方法。

为实现本发明的目的，本发明提供了一种基于运动视频驱动的人体姿态识别方法，包括：S100：基于待识别的运动视频中的每帧图像建立可微分成像模型，其中，可微分成像模型中的参数包含可训练的相机机位参数及相机参数；S200：针对运动视频中的每帧图像建立三维人体骨架模型，三维人体骨架模型包含人体骨架各关键点的位置参数；S300：对人体骨架的各关键点位置参数赋予初始值；S400：将人体骨架的各关键点位置参数代入可微分成像模型，得到人体骨架的各关键点的二维坐标A1；S500：根据运动视频中的每帧图像得到图像中的人体骨架各关键点的二维坐标A2；S600：根据二维坐标A1与二维坐标A2计算损失，得到第一损失结果；S700：根据第一损失结果，优化可微分成像模型中的各项参数以及三维人体骨架模型中的人体骨架各关键点的位置参数，其中，在优化过程中添加第一时间约束与第一空间约束，第一时间约束包括每两个相邻帧图像中相同关键点的时间参数约束，第一空间约束包括每帧图像中各关键点之间的位置参数约束；循环执行S700，直到第一损失结果收敛，得到可微分成像模型的参数，以及三维人体骨架模型中的各关键点位置参数，根据三维人体骨架模型中的各关键点位置参数得到人体姿态识别结果。

与现有技术相比，采用该技术方案所达到的技术效果：本方案的方法根据可微分成像模型得到的结果与直接获取到的信息对比，得到了有效且详细的人体姿态信息，解决了在视频转场或局部遮挡造成的检测结果异常时，无法输出有效结果的问题。

在本发明的一个实施例中，第一时间约束和第一空间约束包含相机机位参数的约束及相机参数的约束；若在优化过程中发现两个相邻帧图像中人体骨架各关键点位置参数的差异超过设定值，则认为两个相邻帧图像的相机机位参数及相机参数发生变化，并重新赋予新的相机机位参数及相机参数的初始值；若在优化过程中发现两个相邻帧图像中人体骨架各关键点位置参数的差异未超过设定值，则认为两个相邻帧图像的相机机位参数及相机参数未发生变化，则在优化过程中添加两个相邻帧图像中的相机机位参数及相机参数相同的约束条件。

与现有技术相比，采用该技术方案所达到的技术效果：本发明优化了识别模型，针对转场过程中需要重新标定相机机位参数及相机参数提出了解决方案。

在本发明的一个实施例中，S100包括，将相机的机位参数记为可训练的姿态{pi}；S200包括，根据姿态{pi}搭建：关于人体的m个可训练的骨架关键点在t时刻下的三维坐标{xjt}，其中，m为大于1或等于1的整数。

与现有技术相比，采用该技术方案所达到的技术效果：通过预先优化相机姿态及人体骨架关键点，使得在视频转场或局部遮挡时能更有效的完成对人体姿态信息的估计。

在本发明的一个实施例中，S500包括：根据运动视频中的每帧图像得到RGB图像；根据RGB图像，利用HRnet确定人体骨架的各关键点的二维坐标A2。

与现有技术相比，采用该技术方案所达到的技术效果：本发明采用HRNet算法，能够准确地根据RGB图像和深度图像识别2D骨架，有效地提升了本发明方法的准确性和可靠性。

在本发明的一个实施例中，S600包括：根据二维坐标A1与二维坐标A2得到序列均方误差；根据序列均方误差生成损失函数，通过损失函数得到第一损失结果。

与现有技术相比，采用该技术方案所达到的技术效果：通过本发明的方法能够有效的解决姿态检测算法不稳定的现象。

在本发明的一个实施例中，对两个相邻帧图像中的人体骨架各关键点位置参数引入约束；其中，约束包括第二空间约束与第二时间约束。

与现有技术相比，采用该技术方案所达到的技术效果：能够使训练的人体骨架各关键点模型在多个场景下的更加准确，进而更准确地获取人体姿态识别信息。

在本发明的一个实施例中，第二空间约束包括：相邻帧图像的人体骨架各关键点的距离比例关系约束及角度约束；第二时间约束包括：相邻帧图像的人体骨架各关键点在时间t上的约束。

与现有技术相比，采用该技术方案所达到的技术效果：将骨架点通过时间连续约束得到时序上平滑的3D骨架、面部关键点序列，约束模块使用如总变分正则化等方式，给姿态识别带来了更好的连续性与准确性。

本发明的实施例提供了一种人体工学智能设备的调节方法，利用上述实施例中任一项的人体姿态识别方法得到的人体姿态识别结果进行调节，调节方法包括：根据人体姿态识别结果，与预存的人体运动姿态对比，产生第一对比结果；将第一对比结果与预存的桌面调节模式对比，产生第二对比结果，根据第二对比结果驱动桌面调节产生第一调节结果。

与现有技术相比，采用该技术方案所达到的技术效果：本发明的方法能够根据人体姿势识别对人体工学智能设备的高度进行即时调节，进而让人们在观看瑜伽健身等视频时获得更好的使用体验。

本发明的实施例提供了一种人体工学智能设备，设备执行上述实施例中的人体工学智能设备调节方法人体工学智能设备包括：实时控制系统，实时控制系统包括：播放器模块、抗干扰模块、优化调节模块；播放器模块用于播放运动视频，同时根据视频利用人体姿态识别方法，产生识别结果；抗干扰模块使用卡尔曼滤波消除人体姿态识别方法产生的误差；优化调节模块，通过第一调节结果优化桌面调节模式产生的调节高度与调节高度速率。

本发明实施例的人工学智能设备集成了多模块系统，更好的辅助基于视频驱动的人体姿态识别方法，因而具有如本发明任一实施例的人体姿态识别方法的全部有益效果，在此不再赘述。

附图说明

图1为本发明实施例中基于运动视频驱动的人体姿态识别方法的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

【第一实施例】

参见图1，本实施例提供一种基于运动视频的人体姿态识别方法，包括：

S10：准备所需运动视频。

优选的，在本实施例中，所需的视频不只限于本实施例提供的素材视频，除了运动视频本身，通过运动视频提取得到的RGB图像信息可用于提取二维与三维人体骨架信息与人脸关键点序列信息，提取方式不限于本发明利用的提取关键帧与插帧提取技术。

S100：基于待识别的运动视频中的每帧图像建立可微分成像模型。

可以理解的是，其中可微分成像模型中的参数包含可训练的相机机位参数及相机参数，在本实施例中，可微分成像模型包括但不限于可训练的相机姿态，可调整的相机内参与相机外参。

具体的，在本实施例中，在视频内模拟出相机需要的世界坐标系，并根据可训练的相机姿态搭建多相机视角各自的相机坐标系，将每个相机的姿态记为可训练的{pi}，并对可训练的相机姿态添加时间约束与空间约束，时间约束可以是时刻t与下一时刻t+1之间的时长约束，也可以是关于一段时间的函数约束，空间约束可以是相机在世界坐标系下的空间变换函数，变换方式不限于剪切、旋转、平移等。

具体的，对搭建好的相机系统进行内参与外参调节，调节相机姿态外参，在此不限于本实施例列举的在训练素材视频内创建的世界坐标系，将相机姿态，例如相机位置旋转角度完成定义，设置多相机关联约束，结合相机的外参，调节相机内参，建立像素坐标系。

S200：针对运动视频中的每帧图像建立三维人体骨架模型，三维人体骨架模型包含人体骨架各关键点的位置参数。

优选的，根据相机姿态{pi}搭建：确定关于人体的m个可训练的骨架关键点在t时刻下的三维坐标{xjt}，关于人脸的n个可训练的关键点在t时刻的三维坐标{yjt}；其中，m与n分别为大于1或等于1的整数，m通常为17，n通常为68。

S300：对人体骨架的各关键点位置参数赋予初始值；

优选的，针对运动视频建立的人体骨架在针对运动视频建立的坐标系内的运动需要有起始点，根据可微分成像模型的设计需求，赋予可以简化操作与运算逻辑的初始值能提高整体识别流程的效率。

S400：将人体骨架的各关键点位置参数代入可微分成像模型，得到人体骨架的各关键点的二维坐标A1。

优选的，根据矩阵坐标变化通过人体骨架的各关键点位置参数代入可微分成像模型提取三维人体骨架与三维人脸的二维信息，得到二维坐标A1。

S500：根据运动视频中的每帧图像得到图像中的人体骨架各关键点的二维坐标A2。

优选的，通过运动视频所提取的图像为通过视频生成RGB图像，进行筛选，将关键帧提取并排除视频可能存在的插帧处理造成的歧义，根据图像确定热力图，通过热力图回归技术确定二维人体骨架和人脸二维关键点，再进行分类与筛选，得到训练集，识别模型采用HRNet与hopehet，针对人体骨架信息与人脸信息并行检测，HRnet是非常经典的深度学习框架，它不仅可以用来检测人脸关键点，而且可以检测到骨骼和脸部的纹理。HRNet平行地连接从高到低分辨率的子网络，使用重复的多尺度融合，利用相同深度和相似级别的低分辨率表示来提高高分辨率表示。Hopenet则是一种基于 TensorFlow的深度学习框架，通过TensorFlow对其进行预测，得到一个骨架和人脸2D关键点。使用HRnet预测一个骨架和两个人脸关键点，只需要对模板数据进行训练即可达到很好的效果，现在 Hopenet和 HRnet两种模型通过组合可以实现更好的算法效果。模型的最终输出包括人体的多个二维骨架信息与二维人脸关键点序列。

S600:根据二维坐标A1与二维坐标A2计算损失，得到第一损失结果。

优选的，根据二维坐标A1与二维坐标A2计算损失得到序列均方误差，根据序列均方误差生成损失函数，通过损失函数得到第一损失结果，计算损失的过程使用损失函数，损失函数（loss function）是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常使用的损失函数包括logloss对数损失函数、使用最小二乘法的平方损失函数，指数损失函数及hinge损失函数，本方案采用逻辑回归的损失函数通过线性回归在假设样本高斯分布的条件下，求得似然函数，优化3D骨架、面部关键点序列。

S700:根据第一损失结果，优化可微分成像模型中的各项参数以及三维人体骨架模型中的人体骨架各关键点的位置参数。

优选的，其中，在优化过程中添加第一时间约束与第一空间约束，第一时间约束包括每两个相邻帧图像中相同关键点的时间参数约束，第一空间约束包括每帧图像中各关键点之间的位置参数约束；第一时间约束和第一空间约束包含相机机位参数的约束及相机参数的约束；若在优化过程中发现两个相邻帧图像中人体骨架各关键点位置参数的差异超过设定值，则认为两个相邻帧图像的相机机位参数及相机参数发生变化，并重新赋予新的相机机位参数及相机参数的初始值；若在优化过程中发现两个相邻帧图像中人体骨架各关键点位置参数的差异未超过设定值，则认为两个相邻帧图像的相机机位参数及相机参数未发生变化，则在优化过程中添加两个相邻帧图像中的相机机位参数及相机参数相同的约束条件，对两个相邻帧图像中的人体骨架各关键点位置参数引入约束，其中，约束包括第二空间约束与第二时间约束，第二空间约束包括：相邻帧图像的人体骨架各关键点的距离比例关系约束及角度约束；第二时间约束包括：相邻帧图像的人体骨架各关键点在时间t上的约束。

进一步地，在S700中，引入人体骨架与面部关键点约束，将可训练的骨架点通过几何约束模块得到可训练的满足几何约束的3D骨架、面部关键点序列，根据可训练的三维人体骨架与人脸关键点序列引入约束，将临近的三维人体骨架点或人脸关键点距离比例关系及角度进行约束，针对可训练的三维人体骨架点与人脸关键点在时间t上的变化引入时间约束；使用基于时间尺度与距离及角度的计算方法，根据不同场景，对不同类型的骨架点及人脸点采用不同的方法计算点连线的权值和点的位置，并采用不同的简化策略进行简化。这种约束方法具有低耦合、高质量、低复杂度的简化效果，有效地简化了人体骨架识别及人脸识别中的建模难度，提高了模型在实际应用中的准确率。

可以理解地，本实施例的方法还需要使用分类器通过计算损失优化过的人体骨架和人脸关键点信息得到最终的识别结果分类集，所用分类器使用支持向量机二分类模型，在保证样本点具有最大置信度的正确分类结果下，得出分类支持向量机模型，从而得到视频中的人体运动姿态，产生识别结果。

【第二实施例】

本实施例提供了一种人体工学智能设备调节方法，根据人体姿态识别方法，调整人体工学智能设备，包括：根据如第一实施例的人体姿态识别方法，使用分类器通过计算损失优化过的人体骨架和人脸关键点信息得到视频中的人体运动姿态，与预存的人体运动姿态对比，预存的人体姿态为经过筛选的人体骨架关键点信息，存储在对比数据集中，产生第一对比结果：

桌面调节模式根据使用场景设置划分，具体根据健身视频的类别，如瑜伽，构建起标准动作集合，并且根据人体工学及专业教练建议，建立不同健身姿态与最优观看高度的一一对应关系。以瑜伽为例，将瑜伽运动中几种标准姿态作为参考并设定建议高度值及调整范围，再将其它非标工作根据各关节位置与头部姿态相似度对应到标准姿态上来，从而获得不同姿态与桌面高度的映射调节模式。第一对比结果与预存的桌面调节模式对比，产生第二对比结果，根据第二对比结果驱动桌面调节产生第一调节结果，调节结果将直接反馈到具体的人体工学智能设备。

本发明实施例的人体工学智能设备调节方法实现如本发明任一实施例的基于运动视频驱动的人体姿态识别方法的步骤，因而具有如本发明任一实施例的图像数据识别方法的全部有益效果，在此不再赘述。

【第三实施例】

本实施例提供了一种人体工学智能设备，根据人体姿态识别方法，与人体工学智能设备调节方法，调整人体工学智能设备，人体工学智能设备包括：

实时控制系统，实时控制系统集成了，播放器模块，抗干扰模块，优化调节模块；

播放器模块可以播放视频，集成了姿态估计算法，视频播放器不仅有播放健身视频的基本功能，如调节音量、播放速度、进度条，暂停等，也集成了人体与头部姿态的估计算法，可以在播放视频的同时实时处理每一帧的内容。同时根据视频利用人体姿态调节方法，产生识别结果。

由于姿态估计算法无法保证100%的识别准确度，因此在控制桌面升降之前，需要对计算得到的最佳高度值进行抗干扰的滤波操作。

抗干扰模块使用卡尔曼滤波消除人体姿态识别方法产生的估计算法产生的误差。

由于硬件限制，如桌面升降速度较慢、长时间升降过热保护等，设计一个参数a的优化调节模块，优化调节模块通过设计保护方法，根据第一调节结果优化桌面调节模式产生的调节高度与调节高度速率，具体使用参数a控制升降时间占全部时间的百分比上限，并且测量得到桌面的升降速度v，输入一组通过姿态估计得到的最优桌面高度ht，建立回归模型来最小化ht与输出高度的均方误差，同时该优化包括约束，如输出高度差分的0范数除以总时间小于等于a，以及输出高度变化的斜率的绝对值等于v，可以得到根据给定a得到的最优升降高度。

Claims

1.一种基于运动视频驱动的人体姿态识别方法，其特征在于，

所述识别方法包括：

S100：基于待识别的运动视频中的每帧图像建立可微分成像模型，其中，所述可微分成像模型中的参数包含可训练的相机机位参数及相机参数；

S200：针对所述运动视频中的每帧图像建立三维人体骨架模型，所述三维人体骨架模型包含人体骨架各关键点的位置参数；

S300：对所述人体骨架的各关键点的位置参数赋予初始值；

S400：将所述人体骨架的各关键点的位置参数代入所述可微分成像模型，得到人体骨架的各关键点的二维坐标A1；

S500：根据所述运动视频中的每帧图像得到所述图像中的人体骨架的各关键点的二维坐标A2；

S600：根据所述二维坐标A1与所述二维坐标A2计算损失，得到第一损失结果；

S700：根据所述第一损失结果，优化所述可微分成像模型中的各项参数以及所述三维人体骨架模型中的所述人体骨架各关键点的位置参数，其中，在优化过程中添加第一时间约束与第一空间约束，所述第一时间约束包括每两个相邻帧图像中相同关键点的时间参数约束，所述第一空间约束包括每帧图像中各关键点之间的位置参数约束；

循环执行所述S700，直到所述第一损失结果收敛，得到所述可微分成像模型的参数，以及所述三维人体骨架模型中的各关键点位置参数，根据所述三维人体骨架模型中的各关键点位置参数得到人体姿态识别结果。

2.根据权利要求1所述的基于运动视频驱动的人体姿态识别方法，其特征在于，

所述第一时间约束和所述第一空间约束包含所述相机机位参数的约束及所述相机参数的约束；

若在优化过程中发现两个相邻帧图像中所述人体骨架各关键点位置参数的差异超过设定值，则认为两个相邻帧图像的所述相机机位参数及所述相机参数发生变化，并重新赋予新的相机机位参数及相机参数的初始值；

若在优化过程中发现两个相邻帧图像中所述人体骨架各关键点位置参数的差异未超过所述设定值，则认为两个相邻帧图像的所述相机机位参数及所述相机参数未发生变化，则在优化过程中添加两个相邻帧图像中的所述相机机位参数及所述相机参数相同的约束条件。

3.根据权利要求1所述的基于运动视频驱动的人体姿态识别方法，其特征在于，

所述S100包括，将所述相机的机位参数记为可训练的姿态{pi}；

所述S200包括，根据所述姿态{pi}搭建：

关于人体的m个可训练的骨架关键点在t时刻下的三维坐标{xjt}，m为大于1或等于1的整数。

4.根据权利要求1所述的基于运动视频驱动的人体姿态识别方法，其特征在于，

所述S500包括：

根据所述运动视频中的每帧图像得到RGB图像；

根据所述RGB图像，利用HRnet确定所述人体骨架的各关键点的二维坐标A2。

5.根据权利要求1所述的基于运动视频驱动的人体姿态识别方法，其特征在于，

所述S600包括：

根据所述二维坐标A1与所述二维坐标A2得到序列均方误差；

根据所述序列均方误差生成损失函数，通过所述损失函数得到所述第一损失结果。

6.根据权利要求2所述的基于运动视频驱动的人体姿态识别方法，其特征在于，

对两个相邻帧图像中的所述人体骨架各关键点的位置参数引入约束；

其中，所述约束包括第二空间约束与第二时间约束。

7.根据权利要求6所述的运动视频驱动的人体姿态识别方法，其特征在于，

所述第二空间约束包括：相邻帧图像的所述人体骨架各关键点的距离比例关系约束及角度约束；

所述第二时间约束包括：相邻帧图像的所述人体骨架各关键点在时间t上的约束。