CN114360031B

CN114360031B - 头部姿态估计方法、计算机设备及存储介质

Info

Publication number: CN114360031B
Application number: CN202210250751.3A
Authority: CN
Inventors: 杨帆; 郝强; 潘鑫淼; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology (Jiangsu) Co.,Ltd.
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-21
Anticipated expiration: 2042-03-15
Also published as: CN114360031A

Abstract

本发明公开了一种头部姿态估计方法、计算机设备及存储介质，其中头部姿态估计方法，包括：采用三维形变模型，生成N个3D人脸，记录每个3D人脸对应的头部姿态；获取3D人脸的关键点；采用N个头部姿态和对应的关键点构建训练数据集，训练头部姿态估计模型；对待识别的人脸图像进行关键点检测，将检测的待识别的人脸图像的关键点输入到训练好的头部姿态估计模型，得到头部姿态结果。本发明训练数据集的获取简单高效，生成的数据多样性丰富数据量大，从关键点坐标预测头部姿态排除了图像中的场景影响，稳定性高。

Description

头部姿态估计方法、计算机设备及存储介质

技术领域

本发明涉及图像处理技术领域，具体是一种头部姿态估计方法、计算机设备及存储介质。

背景技术

头部姿态估计是指根据人脸图像预测人物头部的三个旋转角（俯仰角pitch，偏航角yaw，桶滚角roll）。

传统方法的头部姿态估计方法，一类是直接从人脸图像预测头部姿态，需要使用3D传感器采集不同人不同角度的头部姿态，再以此训练机器学习模型，数据采集成本较高，且实验室环境下采集的数据场景（背景、光照、身份）单一，数据多样性不足。

还有一类方法将姿态估计分为两步：人脸关键点检测和从关键点预测姿态，由于人脸关键点检测技术较为成熟，因此主要需解决的问题是从关键点预测姿态。较为主流的方法是预先设定一组默认人脸关键点三维坐标，利用PnP算法解算出从默认三维关键点投影到检测的关键点的近似变换矩阵，再提取出旋转矩阵，这种算法会严重受到相机参数和脸型的影响，因此精度较低。

发明内容

本发明所要解决的技术问题是提供一种模型泛化性好、预测结果稳定性高的头部姿态估计方法、计算机设备及存储介质。

为解决上述技术问题，本发明采用的技术方案是：

本发明首先提供一种头部姿态估计方法，包括：

采用三维形变模型，生成N个3D人脸

，记录每个3D人脸对应的头部姿态

，其中

是指第

个3D人脸

对应的头部姿态，

分别是俯仰角、偏航角、桶滚角的角度或弧度值，N为大于100的正整数，

为0到N—1的整数；

获取3D人脸

的关键点；

采用N个头部姿态和对应的关键点构建训练数据集，训练头部姿态估计模型；

对待识别的人脸图像进行关键点检测，将检测的待识别的人脸图像的关键点输入到训练好的头部姿态估计模型，得到头部姿态结果。

获取3D人脸

的关键点方法为：

将3D人脸

投影到二维平面，记录二维平面上人脸的关键点坐标。

采用N个头部姿态和对应的关键点构建训练数据集，包括：

基于记录的二维平面上人脸的关键点坐标，构建第

个3D人脸

对应的投影关键点集

，

为第

个关键点，

分别是第

个关键点的横、纵坐标；

为0到K-1的整数，K为关键点的个数；

对关键点进行归一化处理，将关键点集

中最左侧关键点横坐标记作

，最右侧关键点横坐标记作

，最上方关键点纵坐标记作

，最下方关键点纵坐标记作

；归一化后第

个关键点集

，其中第

个关键点坐标为

；

将

个头部姿态和对应的归一化关键点集组成训练数据集

。

头部姿态估计模型，包括U个全连接层，U为大于2的整数，第一个全连接层的神经元数为2K，最后一个全连接层的神经元数为3，中间各层神经元数为大于64的整数；模型输入为K个关键点的横纵坐标，输出为预测的3个旋转角；采用L1损失函数计算一个批次训练数据的预测旋转角与真实旋转角的损失，使用梯度下降法迭代优化模型。

人脸的关键点坐标为人脸的眉毛、眼睛、鼻子、嘴唇、下巴附近的42个关键点坐标。

三维形变模型为巴塞尔人脸模型或大规模人脸模型。

本发明还提供一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述头部姿态估计方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述头部姿态估计方法。

与现有技术相比，本发明的有益效果是：

本发明基于三维形变模型生成人脸关键点和对应头部姿态数据，用于构建训练数据集。首先，训练数据集的获取简单高效；其次，生成的数据多样性丰富数据量大，结合机器学习模型，训练出的模型泛化性好，不受相机参数、脸型、表情等因素的影响；最后，从关键点坐标预测头部姿态排除了图像中的场景影响，稳定性高。

附图说明

图1是本发明头部姿态估计方法的流程图；

图2是人脸关键点的位置示意图。

具体实施方式

下面结合附图，对本发明作详细说明。

本实施例提供一种头部姿态估计方法，如图1所示，包括如下步骤：

1.使用3DMM模型生成多姿态的3D人脸数据。人脸3DMM（3D Morphable Models，三维形变模型）是一种人脸参数化模型，它能通过调节身份参数、表情参数、旋转角生成特定姿态的3D脸型。常见的人脸3DMM模型有BFM（Basel Face Model，巴塞尔人脸模型）、LSFM（Large Scale Facial Model，大规模人脸模型）等。

选取与目标场景贴近的3DMM模型，随机调整身份系数、表情系数、旋转角生成N个（N为大于100的正整数）3D人脸

，并记录每个3D人脸对应的头部姿态

，其中

是指第n个（n为0到N—1）3D人脸

对应的头部姿态，

为3个旋转角分别是俯仰角、偏航角、桶滚角的角度或弧度值。

2.构建训练数据。

21.获取3D人脸

的关键点；将3D人脸

投影到二维平面，记录二维平面人脸的K个关键点坐标。

在一个实施例中，记录的二维平面人脸的K个关键点坐标为人脸的眉毛、眼睛、鼻子、嘴唇、下巴附近的42个关键点坐标，如图2所示，42个关键点的具体分布是每条眉毛5个，每个眼睛6个，鼻子9个，嘴唇8个，下巴3个。则第n个3D人脸

对应的投影关键点集

，

为第

个关键点，k为0到41的整数，

分别是第k个关键点的横、纵坐标。

对关键点进行归一化处理，将关键点集

中最左侧关键点横坐标记作

，最右侧关键点横坐标记作

，最上方关键点纵坐标记作

，最下方关键点纵坐标记作

。

归一化后第n个关键点集

，其中第k个关键点坐标为

。

将N个头部姿态和对应的归一化关键点集组成训练数据集

。

3.训练头部姿态估计模型。

搭建多层感知机模型，包括4个全连接层，全连接层的神经元数分别为2K、256、256、3。模型输入为2K个关键点的横纵坐标，输出为预测的3个旋转角。采用L1损失函数计算一个批次训练数据的预测旋转角与真实旋转角的损失，使用梯度下降法迭代优化模型。最终训练后的模型能准确地从输入关键点预测头部姿态旋转角。

当关键点K选取42时，第一层全连接层的神经元数为84。

4.人脸关键点检测。

使用人脸关键点检测工具（如Dlib、Face-alignment）对待识别的人脸图像进行关键点检测，筛选出与训练数据对应的K个关键点

，

为第k个关键点，

分别是第k个关键点的横、纵坐标。对关键点坐标进行归一化处理，将K个关键点最左侧关键点横坐标记作left，最右侧关键点横坐标记作right，最上方关键点纵坐标记作top，最下方关键点纵坐标记作bottom。归一化后K个关键点为

，其中第k个关键点坐标为

。

5. 头部姿态估计。

将归一化后的人脸关键点

输入训练后的模型，预测出头部姿态。

本实施例提供一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现实施例头部姿态估计方法中的步骤。

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现实施例头部姿态估计方法中的步骤。

Claims

1.一种头部姿态估计方法，其特征在于，包括：

采用三维形变模型，生成N个3D人脸

，记录每个3D人脸对应的头部姿态

，其中

是指第

个3D人脸

对应的头部姿态，

是俯仰角的角度或弧度值，

是偏航角的角度或弧度值，

是桶滚角的角度或弧度值，N为大于100的正整数，

为0到N—1的整数；

获取3D人脸

的关键点；

对待识别的人脸图像进行关键点检测，将检测的待识别的人脸图像的关键点输入到训练好的头部姿态估计模型，得到头部姿态结果；获取3D人脸

的关键点方法为：

将3D人脸

投影到二维平面，记录二维平面上人脸的关键点坐标；采用

个头部姿态和对应的关键点构建训练数据集，包括：

基于记录的二维平面上人脸的关键点坐标，构建第

个3D人脸

对应的投影关键点集

，

为第

个关键点，

分别是第

个关键点的横、纵坐标；

为0到K-1的整数，K为关键点的个数；

对关键点进行归一化处理，将关键点集

中最左侧关键点横坐标记作

，最右侧关键点横坐标记作

，最上方关键点纵坐标记作

，最下方关键点纵坐标记作

；归一化后第

个关键点集

，其中第

个关键点坐标为

；

将N个头部姿态和对应的归一化关键点集组成训练数据集

。

2.根据权利要求1所述的头部姿态估计方法，其特征在于，对待识别的人脸图像进行关键点检测，包括：

筛选出与训练数据对应的K个关键点

，

为第k个关键点，

分别是第K个关键点的横、纵坐标；

对关键点坐标进行归一化处理，将K个关键点最左侧关键点横坐标记作left，最右侧关键点横坐标记作right，最上方关键点纵坐标记作top，最下方关键点纵坐标记作bottom；归一化后K个关键点为

，其中第k个关键点坐标为

。

3.根据权利要求1所述的头部姿态估计方法，其特征在于，头部姿态估计模型，包括U个全连接层，U为大于2的整数，第一个全连接层的神经元数为2K，最后一个全连接层的神经元数为3，中间各层神经元数为大于64的整数；模型输入为K个关键点的横纵坐标，输出为预测的3个旋转角；采用L1损失函数计算一个批次训练数据的预测旋转角与真实旋转角的损失，使用梯度下降法迭代优化模型。

4.根据权利要求1所述的头部姿态估计方法，其特征在于，人脸的关键点坐标为人脸的眉毛、眼睛、鼻子、嘴唇、下巴附近的42个关键点坐标。

5.根据权利要求1所述的头部姿态估计方法，其特征在于，三维形变模型为巴塞尔人脸模型或大规模人脸模型。

6.根据权利要求1所述的头部姿态估计方法，其特征在于，对待识别的人脸图像，使用人脸关键点检测工具进行关键点检测。

7.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的头部姿态估计方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的头部姿态估计方法。