Nothing Special   »   [go: up one dir, main page]

CN114360031B - 头部姿态估计方法、计算机设备及存储介质 - Google Patents

头部姿态估计方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN114360031B
CN114360031B CN202210250751.3A CN202210250751A CN114360031B CN 114360031 B CN114360031 B CN 114360031B CN 202210250751 A CN202210250751 A CN 202210250751A CN 114360031 B CN114360031 B CN 114360031B
Authority
CN
China
Prior art keywords
key point
face
key points
head
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210250751.3A
Other languages
English (en)
Other versions
CN114360031A (zh
Inventor
杨帆
郝强
潘鑫淼
胡建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoshi Technology (Jiangsu) Co.,Ltd.
Original Assignee
Nanjing Zhenshi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhenshi Intelligent Technology Co Ltd filed Critical Nanjing Zhenshi Intelligent Technology Co Ltd
Priority to CN202210250751.3A priority Critical patent/CN114360031B/zh
Publication of CN114360031A publication Critical patent/CN114360031A/zh
Application granted granted Critical
Publication of CN114360031B publication Critical patent/CN114360031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种头部姿态估计方法、计算机设备及存储介质,其中头部姿态估计方法,包括:采用三维形变模型,生成N个3D人脸,记录每个3D人脸对应的头部姿态;获取3D人脸的关键点;采用N个头部姿态和对应的关键点构建训练数据集,训练头部姿态估计模型;对待识别的人脸图像进行关键点检测,将检测的待识别的人脸图像的关键点输入到训练好的头部姿态估计模型,得到头部姿态结果。本发明训练数据集的获取简单高效,生成的数据多样性丰富数据量大,从关键点坐标预测头部姿态排除了图像中的场景影响,稳定性高。

Description

头部姿态估计方法、计算机设备及存储介质
技术领域
本发明涉及图像处理技术领域,具体是一种头部姿态估计方法、计算机设备及存储介质。
背景技术
头部姿态估计是指根据人脸图像预测人物头部的三个旋转角(俯仰角pitch,偏航角yaw,桶滚角roll)。
传统方法的头部姿态估计方法,一类是直接从人脸图像预测头部姿态,需要使用3D传感器采集不同人不同角度的头部姿态,再以此训练机器学习模型,数据采集成本较高,且实验室环境下采集的数据场景(背景、光照、身份)单一,数据多样性不足。
还有一类方法将姿态估计分为两步:人脸关键点检测和从关键点预测姿态,由于人脸关键点检测技术较为成熟,因此主要需解决的问题是从关键点预测姿态。较为主流的方法是预先设定一组默认人脸关键点三维坐标,利用PnP算法解算出从默认三维关键点投影到检测的关键点的近似变换矩阵,再提取出旋转矩阵,这种算法会严重受到相机参数和脸型的影响,因此精度较低。
发明内容
本发明所要解决的技术问题是提供一种模型泛化性好、预测结果稳定性高的头部姿态估计方法、计算机设备及存储介质。
为解决上述技术问题,本发明采用的技术方案是:
本发明首先提供一种头部姿态估计方法,包括:
采用三维形变模型,生成N个3D人脸
Figure 533330DEST_PATH_IMAGE002
,记录每个3D人脸对应的头部姿态
Figure 771544DEST_PATH_IMAGE004
,其中
Figure 276475DEST_PATH_IMAGE006
是指第
Figure 840311DEST_PATH_IMAGE008
个3D人脸
Figure 430692DEST_PATH_IMAGE010
对应的头部姿态,
Figure 502291DEST_PATH_IMAGE012
分别是俯仰角、偏航角、桶滚角的角度或弧度值,N为大于100的正整数,
Figure 596149DEST_PATH_IMAGE014
为0到N—1的整数;
获取3D人脸
Figure 330887DEST_PATH_IMAGE016
的关键点;
采用N个头部姿态和对应的关键点构建训练数据集,训练头部姿态估计模型;
对待识别的人脸图像进行关键点检测,将检测的待识别的人脸图像的关键点输入到训练好的头部姿态估计模型,得到头部姿态结果。
获取3D人脸
Figure 100002_DEST_PATH_IMAGE018
的关键点方法为:
将3D人脸
Figure 100002_DEST_PATH_IMAGE020
投影到二维平面,记录二维平面上人脸的关键点坐标。
采用N个头部姿态和对应的关键点构建训练数据集,包括:
基于记录的二维平面上人脸的关键点坐标,构建第
Figure 100002_DEST_PATH_IMAGE022
个3D人脸
Figure 511027DEST_PATH_IMAGE024
对应的投影关键点集
Figure 887782DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE028
为第
Figure 100002_DEST_PATH_IMAGE030
个关键点,
Figure 508250DEST_PATH_IMAGE032
分别是第
Figure 100002_DEST_PATH_IMAGE034
个关键点的横、纵坐标;
Figure 100002_DEST_PATH_IMAGE036
为0到K-1的整数,K为关键点的个数;
对关键点进行归一化处理,将关键点集
Figure 584529DEST_PATH_IMAGE038
中最左侧关键点横坐标记作
Figure 883923DEST_PATH_IMAGE040
,最右侧关键点横坐标记作
Figure 798789DEST_PATH_IMAGE041
,最上方关键点纵坐标记作
Figure 100195DEST_PATH_IMAGE043
,最下方关键点纵坐标记作
Figure 442315DEST_PATH_IMAGE045
;归一化后第
Figure 229005DEST_PATH_IMAGE047
个关键点集
Figure 947563DEST_PATH_IMAGE049
,其中第
Figure 870519DEST_PATH_IMAGE051
个关键点坐标为
Figure 147655DEST_PATH_IMAGE053
Figure 156062DEST_PATH_IMAGE055
个头部姿态和对应的归一化关键点集组成训练数据集
Figure 412731DEST_PATH_IMAGE057
头部姿态估计模型,包括U个全连接层,U为大于2的整数,第一个全连接层的神经元数为2K,最后一个全连接层的神经元数为3,中间各层神经元数为大于64的整数;模型输入为K个关键点的横纵坐标,输出为预测的3个旋转角;采用L1损失函数计算一个批次训练数据的预测旋转角与真实旋转角的损失,使用梯度下降法迭代优化模型。
人脸的关键点坐标为人脸的眉毛、眼睛、鼻子、嘴唇、下巴附近的42个关键点坐标。
三维形变模型为巴塞尔人脸模型或大规模人脸模型。
本发明还提供一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述头部姿态估计方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述头部姿态估计方法。
与现有技术相比,本发明的有益效果是:
本发明基于三维形变模型生成人脸关键点和对应头部姿态数据,用于构建训练数据集。首先,训练数据集的获取简单高效;其次,生成的数据多样性丰富数据量大,结合机器学习模型,训练出的模型泛化性好,不受相机参数、脸型、表情等因素的影响;最后,从关键点坐标预测头部姿态排除了图像中的场景影响,稳定性高。
附图说明
图1是本发明头部姿态估计方法的流程图;
图2是人脸关键点的位置示意图。
具体实施方式
下面结合附图,对本发明作详细说明。
本实施例提供一种头部姿态估计方法,如图1所示,包括如下步骤:
1.使用3DMM模型生成多姿态的3D人脸数据。人脸3DMM(3D Morphable Models,三维形变模型)是一种人脸参数化模型,它能通过调节身份参数、表情参数、旋转角生成特定姿态的3D脸型。常见的人脸3DMM模型有BFM(Basel Face Model,巴塞尔人脸模型)、LSFM(Large Scale Facial Model,大规模人脸模型)等。
选取与目标场景贴近的3DMM模型,随机调整身份系数、表情系数、旋转角生成N个(N为大于100的正整数)3D人脸
Figure DEST_PATH_IMAGE058
,并记录每个3D人脸对应的头部姿态
Figure 924615DEST_PATH_IMAGE060
,其中
Figure 608537DEST_PATH_IMAGE062
是指第n个(n为0到N—1)3D人脸
Figure 608635DEST_PATH_IMAGE064
对应的头部姿态,
Figure 668995DEST_PATH_IMAGE066
为3个旋转角分别是俯仰角、偏航角、桶滚角的角度或弧度值。
2.构建训练数据。
21.获取3D人脸
Figure DEST_PATH_IMAGE067
的关键点;将3D人脸
Figure DEST_PATH_IMAGE069
投影到二维平面,记录二维平面人脸的K个关键点坐标。
在一个实施例中,记录的二维平面人脸的K个关键点坐标为人脸的眉毛、眼睛、鼻子、嘴唇、下巴附近的42个关键点坐标,如图2所示,42个关键点的具体分布是每条眉毛5个,每个眼睛6个,鼻子9个,嘴唇8个,下巴3个。则第n个3D人脸
Figure DEST_PATH_IMAGE071
对应的投影关键点集
Figure 674866DEST_PATH_IMAGE072
Figure 529689DEST_PATH_IMAGE074
为第
Figure 778268DEST_PATH_IMAGE076
个关键点,k为0到41的整数,
Figure 111161DEST_PATH_IMAGE078
分别是第k个关键点的横、纵坐标。
对关键点进行归一化处理,将关键点集
Figure 128795DEST_PATH_IMAGE080
中最左侧关键点横坐标记作
Figure 918634DEST_PATH_IMAGE082
,最右侧关键点横坐标记作
Figure 388930DEST_PATH_IMAGE084
,最上方关键点纵坐标记作
Figure 791092DEST_PATH_IMAGE086
,最下方关键点纵坐标记作
Figure 397654DEST_PATH_IMAGE088
归一化后第n个关键点集
Figure 859860DEST_PATH_IMAGE090
,其中第k个关键点坐标为
Figure 817451DEST_PATH_IMAGE092
将N个头部姿态和对应的归一化关键点集组成训练数据集
Figure 256261DEST_PATH_IMAGE094
3.训练头部姿态估计模型。
搭建多层感知机模型,包括4个全连接层,全连接层的神经元数分别为2K、256、256、3。模型输入为2K个关键点的横纵坐标,输出为预测的3个旋转角。采用L1损失函数计算一个批次训练数据的预测旋转角与真实旋转角的损失,使用梯度下降法迭代优化模型。最终训练后的模型能准确地从输入关键点预测头部姿态旋转角。
当关键点K选取42时,第一层全连接层的神经元数为84。
4.人脸关键点检测。
使用人脸关键点检测工具(如Dlib、Face-alignment)对待识别的人脸图像进行关键点检测,筛选出与训练数据对应的K个关键点
Figure 982908DEST_PATH_IMAGE095
Figure 616015DEST_PATH_IMAGE097
为第k个关键点,
Figure 60903DEST_PATH_IMAGE099
分别是第k个关键点的横、纵坐标。对关键点坐标进行归一化处理,将K个关键点最左侧关键点横坐标记作left,最右侧关键点横坐标记作right,最上方关键点纵坐标记作top,最下方关键点纵坐标记作bottom。归一化后K个关键点为
Figure 804868DEST_PATH_IMAGE101
,其中第k个关键点坐标为
Figure DEST_PATH_IMAGE102
5. 头部姿态估计。
将归一化后的人脸关键点
Figure 105397DEST_PATH_IMAGE103
输入训练后的模型,预测出头部姿态。
本实施例提供一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现实施例头部姿态估计方法中的步骤。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现实施例头部姿态估计方法中的步骤。

Claims (8)

1.一种头部姿态估计方法,其特征在于,包括:
采用三维形变模型,生成N个3D人脸
Figure DEST_PATH_IMAGE001
,记录每个3D人脸对应的头部姿态
Figure DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE003
是指第
Figure DEST_PATH_IMAGE004
个3D人脸
Figure DEST_PATH_IMAGE005
对应的头部姿态,
Figure DEST_PATH_IMAGE007
是俯仰角的角度或弧度值,
Figure DEST_PATH_IMAGE009
是偏航角的角度或弧度值,
Figure DEST_PATH_IMAGE011
是桶滚角的角度或弧度值,N为大于100的正整数,
Figure DEST_PATH_IMAGE012
为0到N—1的整数;
获取3D人脸
Figure DEST_PATH_IMAGE013
的关键点;
采用N个头部姿态和对应的关键点构建训练数据集,训练头部姿态估计模型;
对待识别的人脸图像进行关键点检测,将检测的待识别的人脸图像的关键点输入到训练好的头部姿态估计模型,得到头部姿态结果;获取3D人脸
Figure DEST_PATH_IMAGE014
的关键点方法为:
将3D人脸
Figure DEST_PATH_IMAGE015
投影到二维平面,记录二维平面上人脸的关键点坐标;采用
Figure DEST_PATH_IMAGE016
个头部姿态和对应的关键点构建训练数据集,包括:
基于记录的二维平面上人脸的关键点坐标,构建第
Figure DEST_PATH_IMAGE017
个3D人脸
Figure DEST_PATH_IMAGE018
对应的投影关键点集
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
为第
Figure DEST_PATH_IMAGE021
个关键点,
Figure DEST_PATH_IMAGE022
分别是第
Figure DEST_PATH_IMAGE023
个关键点的横、纵坐标;
Figure DEST_PATH_IMAGE024
为0到K-1的整数,K为关键点的个数;
对关键点进行归一化处理,将关键点集
Figure DEST_PATH_IMAGE025
中最左侧关键点横坐标记作
Figure DEST_PATH_IMAGE026
,最右侧关键点横坐标记作
Figure DEST_PATH_IMAGE027
,最上方关键点纵坐标记作
Figure DEST_PATH_IMAGE028
,最下方关键点纵坐标记作
Figure DEST_PATH_IMAGE029
;归一化后第
Figure DEST_PATH_IMAGE030
个关键点集
Figure DEST_PATH_IMAGE031
,其中第
Figure DEST_PATH_IMAGE032
个关键点坐标为
Figure DEST_PATH_IMAGE033
将N个头部姿态和对应的归一化关键点集组成训练数据集
Figure DEST_PATH_IMAGE034
2.根据权利要求1所述的头部姿态估计方法,其特征在于,对待识别的人脸图像进行关键点检测,包括:
筛选出与训练数据对应的K个关键点
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
为第k个关键点,
Figure DEST_PATH_IMAGE037
分别是第K个关键点的横、纵坐标;
对关键点坐标进行归一化处理,将K个关键点最左侧关键点横坐标记作left,最右侧关键点横坐标记作right,最上方关键点纵坐标记作top,最下方关键点纵坐标记作bottom;归一化后K个关键点为
Figure DEST_PATH_IMAGE038
,其中第k个关键点坐标为
Figure DEST_PATH_IMAGE039
3.根据权利要求1所述的头部姿态估计方法,其特征在于,头部姿态估计模型,包括U个全连接层,U为大于2的整数,第一个全连接层的神经元数为2K,最后一个全连接层的神经元数为3,中间各层神经元数为大于64的整数;模型输入为K个关键点的横纵坐标,输出为预测的3个旋转角;采用L1损失函数计算一个批次训练数据的预测旋转角与真实旋转角的损失,使用梯度下降法迭代优化模型。
4.根据权利要求1所述的头部姿态估计方法,其特征在于,人脸的关键点坐标为人脸的眉毛、眼睛、鼻子、嘴唇、下巴附近的42个关键点坐标。
5.根据权利要求1所述的头部姿态估计方法,其特征在于,三维形变模型为巴塞尔人脸模型或大规模人脸模型。
6.根据权利要求1所述的头部姿态估计方法,其特征在于,对待识别的人脸图像,使用人脸关键点检测工具进行关键点检测。
7.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的头部姿态估计方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的头部姿态估计方法。
CN202210250751.3A 2022-03-15 2022-03-15 头部姿态估计方法、计算机设备及存储介质 Active CN114360031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210250751.3A CN114360031B (zh) 2022-03-15 2022-03-15 头部姿态估计方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210250751.3A CN114360031B (zh) 2022-03-15 2022-03-15 头部姿态估计方法、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114360031A CN114360031A (zh) 2022-04-15
CN114360031B true CN114360031B (zh) 2022-06-21

Family

ID=81094901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250751.3A Active CN114360031B (zh) 2022-03-15 2022-03-15 头部姿态估计方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114360031B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011929A (zh) * 2022-09-15 2023-11-07 腾讯科技(深圳)有限公司 一种头部姿态估计方法、装置、设备以及存储介质
CN117877126B (zh) * 2024-03-12 2024-05-17 无锡车联天下信息技术有限公司 一种基于人脸关键点与Haar特征的头部姿态估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122705A (zh) * 2017-03-17 2017-09-01 中国科学院自动化研究所 基于三维人脸模型的人脸关键点检测方法
CN110321821A (zh) * 2019-06-24 2019-10-11 深圳爱莫科技有限公司 基于三维投影的人脸对齐初始化方法及装置、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417737B2 (en) * 2017-06-21 2019-09-17 International Business Machines Corporation Machine learning model for automatic image registration quality assessment and correction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122705A (zh) * 2017-03-17 2017-09-01 中国科学院自动化研究所 基于三维人脸模型的人脸关键点检测方法
CN110321821A (zh) * 2019-06-24 2019-10-11 深圳爱莫科技有限公司 基于三维投影的人脸对齐初始化方法及装置、存储介质

Also Published As

Publication number Publication date
CN114360031A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN108549873B (zh) 三维人脸识别方法和三维人脸识别系统
CN109325437B (zh) 图像处理方法、装置和系统
Lv et al. A deep regression architecture with two-stage re-initialization for high performance facial landmark detection
WO2020063527A1 (zh) 基于多特征检索和形变的人体发型生成方法
WO2021093453A1 (zh) 三维表情基的生成方法、语音互动方法、装置及介质
CN101751689B (zh) 一种三维人脸重建方法
CN111160269A (zh) 一种人脸关键点检测方法及装置
CN108182397B (zh) 一种多姿态多尺度的人脸验证方法
CN106407958B (zh) 基于双层级联的面部特征检测方法
CN114360031B (zh) 头部姿态估计方法、计算机设备及存储介质
Cheng et al. Image-to-class dynamic time warping for 3D hand gesture recognition
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN101833654B (zh) 基于约束采样的稀疏表示人脸识别方法
CN109472198A (zh) 一种姿态鲁棒的视频笑脸识别方法
CN106599810B (zh) 一种基于栈式自编码的头部姿态估计方法
CN104392223A (zh) 二维视频图像中的人体姿态识别方法
CN108171133A (zh) 一种基于特征协方差矩阵的动态手势识别方法
Mao et al. Classroom micro-expression recognition algorithms based on multi-feature fusion
CN114463815A (zh) 一种基于人脸关键点的面部表情捕捉方法
CN111274883A (zh) 基于多尺度hog特征和深层特征的合成素描人脸识别方法
CN111274944A (zh) 一种基于单张图像的三维人脸重建方法
CN115984972B (zh) 基于运动视频驱动的人体姿态识别方法
CN108564043B (zh) 一种基于时空分布图的人体行为识别方法
CN106778579B (zh) 一种基于累计属性的头部姿态估计方法
CN111881261A (zh) 一种物联网多点应答互动智能机器人系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd.

Address before: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd.