CN116259001A - 一种多视角融合的三维行人姿态估计与追踪方法 - Google Patents
一种多视角融合的三维行人姿态估计与追踪方法 Download PDFInfo
- Publication number
- CN116259001A CN116259001A CN202211700904.6A CN202211700904A CN116259001A CN 116259001 A CN116259001 A CN 116259001A CN 202211700904 A CN202211700904 A CN 202211700904A CN 116259001 A CN116259001 A CN 116259001A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- pedestrian
- pedestrians
- space
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 230000036544 posture Effects 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000009466 transformation Effects 0.000 claims description 25
- 241000283070 Equus zebra Species 0.000 claims description 18
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000013507 mapping Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多视角融合的三维行人姿态估计与追踪方法,用于路口人行横道场景中的行人监控,利用二维图像在三维空间中估计并追踪行人的姿态,获取行人物理的位置、速度等信息。本发明通过人行横道实际中的位置与其在二维图像中投影的映射关系去构建路口三维模型,并通过对图像流进行高维特征提取估计行人的三维姿态,最后结合多路口传感器的信息融合并追踪行人,得到行人的运动信息。本发明在三维空间进行追踪和运动分析,相比于二维空间的分析更能准确的获取行人的位置和运动状态;提取具有时空信息的高维特征张量,避免了传感器单视角下行人的遮挡问题;利用多传感器下行人的信息,实现多角度全面的行人姿态融合。
Description
技术领域
本发明涉及一种多视角融合的三维行人姿态估计与追踪方法,属于行人姿态估计与追踪领域。
背景技术
行人追踪技术是一种计算机视觉技术,可以使用摄像头和相关的软件程序来自动追踪行人的动态信息,例如他们的位置、方向和速度。这种技术在许多领域都有应用,包括安全监控、智能交通系统、运动分析和人群管理等。
目前行人追踪通常是在二维图像上进行的,这些图像通常来自摄像机或其他类似的视频设备。行人追踪系统的目的是识别图像中的行人,并且能够跟踪行人在图像中的运动。这样可以帮助系统跟踪人群动态,有助于改善交通流量管理、安全监控和人群控制等方面的工作。
在二维图像中,行人可能会被其他物体遮挡,这可能会导致追踪算法无法准确地追踪行人。同时,行人所处的环境可能会发生变化,例如光照变化或背景变化,这也会对追踪算法造成挑战。
三维空间中的行人追踪相比二维图像上的行人追踪有一些优点。首先,三维空间中的行人追踪更容易识别行人的三维姿态,这对于识别行人的动作和姿态来说非常重要。其次,三维空间中的行人追踪更容易处理遮挡问题,因为它可以利用行人在空间中的深度信息来解决遮挡问题。此外,三维空间中的行人追踪可以更准确地识别行人的特征,这有助于提高识别的准确率。
发明内容
由于在三维空间上进行行人追踪相较二维图像上进行追踪有着种种优点,本发明公开了一种多视角融合的三维行人姿态估计与追踪方法,方法相比于二维空间的分析更能准确的获取行人的位置和运动状态,避免了传感器单视角下行人的遮挡问题,并且利用多传感器下行人的信息,实现多角度全面的行人姿态融合。
为了实现上述目的,本发明公开了一种多视角融合的三维行人姿态估计与追踪方法,步骤包括:
步骤S10:空间三维模型构建,利用场景中人行横道的二维语义信息和三维位置信息获取二维空间和三维空间的射影变换矩阵。
步骤S101:构建空间模型。以路口的中心为三维空间原点,以东方为x轴正方向,北方为y轴正方向,上方为z轴正方向,构建路口三维空间坐标系。测量各个传感器在路口三维空间坐标系的位置,并测量人行横道在真实世界中的长宽、人行横道中点在路口三维空间坐标系的位置,确定人行横道每一根斑马线的位置。
步骤S102:检测斑马线位置信息。利用传感器采集到的图像,提取像素纹理、形状、梯度等语义信息,并回归出每根斑马线的图像位置及其概率。
步骤S103:获取射影变换矩阵。利用每根斑马线的图像位置即其在路口三维空间坐标系中的位置,根据相机投影模型确定二维图像空间和路口三维空间的射影变换矩阵组,并根据每根斑马线的回归概率对射影变换矩阵组进行加权求积,得到最终的射影变换矩阵。
步骤S20:行人三维姿态估计,结合传感器采集图像流的时空信息获取每个行人的三维姿态。
步骤S201:检测行人的二维空间位置。首先对图像流进行特征提取,得到具有时空信息的高维特征张量,接着将特征张量分割成若干长宽一致的矩形特征块,然后用不同大小的特征框对矩形特征块进行分类预测,得到场景中行人的位置和置信度,最终采用非极大值抑制算法筛选出可靠的目标。
步骤S202:检测行人的二维姿态。使用步骤S201的特征张量和目标检测位置,获取每个行人的高维特征,并构建特征金字塔,从不同尺度下的特征中提取并聚合出行人人头、臀部、双脚关节点的位置热图,最终输出行人的二维姿态。
步骤S203:恢复行人的三维姿态。使用步骤S103的射影变换矩阵和步骤S101传感器的三维位置,利用三角关系恢复出各个二维位置点的高度,并对最终输出行人的三维姿态。
步骤S30:多传感器信息融合和追踪,结合路口多个传感器提取到的行人的三维姿态进行融合,并根据行人姿态的空间位置和特征差异对目标进行匹配和追踪。
步骤S301:行人目标匹配。将不同传感器中行人的三维姿态的空间位置和语义特征的差异归一化为代价,并在时空上构建行人之间的代价矩阵,随后采用贪心算法将不同传感器中和前后帧最相似的行人进行匹配。
步骤S302:行人目标追踪。采用Kalman滤波方法对匹配目标进行追踪,得到目标的轨迹,并根据目标三维姿态和S201中目标的置信度对轨迹进行更新。
步骤S303:运动特征提取。根据轨迹历史的位置,计算目标的速度,输出目标轨迹的运动特征。
与现有技术相比,本发明提出了一种多视角融合的三维行人姿态估计与追踪方法,存在诸多优势:
1. 在三维空间进行追踪和运动分析,相比于二维空间的分析更能准确的获取行人的位置和运动状态。
2. 通过提取具有时空信息的高维特征张量,避免了传感器单视角下行人的遮挡问题。
3. 通过利用多传感器下行人的信息,可以在多角度检测行人的姿态。
4. 通过利用多角度的行人姿态信息,对光照变化具有鲁棒性。
附图说明
图1为本发明一种多视角融合的三维行人姿态估计与追踪方法的流程图示意图;
图2为本发明实施例的使用场景示意图;
图3为本发明行人高度的计算示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种多视角融合的三维行人姿态估计与追踪方法的流程图示意图。图2为本发明实施例的使用场景示意图。该方法包括:
步骤S10:空间三维模型构建,利用场景中人行横道的二维语义信息和三维位置信息获取二维空间和三维空间的射影变换矩阵。
步骤S101:构建空间模型。以路口的中心为三维空间原点,以东方为x轴正方向,北方为y轴正方向,上方为z轴正方向,构建路口三维空间坐标系。测量各个传感器在路口三维空间坐标系的位置,并测量人行横道在真实世界中的长宽、人行横道中点在路口三维空间坐标系的位置,确定人行横道每一根斑马线的位置。
步骤S102:检测斑马线位置信息。利用传感器采集到的图像,提取像素纹理、形状、梯度等语义信息,并回归出每根斑马线的图像位置及其概率。
步骤S103:获取射影变换矩阵。利用每根斑马线的图像位置即其在路口三维空间坐标系中的位置,根据相机投影模型确定二维图像空间和路口三维空间的射影变换矩阵组,并根据每根斑马线的回归概率对射影变换矩阵组进行加权求积,得到最终的射影变换矩阵,实现方法如下:
进一步简化,
进一步地,求出加权求积后的透视变换矩阵,如下:
步骤S20:行人三维姿态估计,结合传感器采集图像流的时空信息获取每个行人的三维姿态。
步骤S201:检测行人的二维空间位置。首先对图像流进行特征提取,得到具有时空信息的高维特征张量,接着将特征张量分割成若干长宽一致的矩形特征块,然后用不同大小的特征框对矩形特征块进行分类预测,得到场景中行人的位置和置信度,最终采用非极大值抑制算法筛选出可靠的目标。
步骤S202:检测行人的二维姿态。使用步骤S201的特征张量和目标检测位置,获取每个行人的高维特征,并构建特征金字塔,从不同尺度下的特征中提取并聚合出行人人头、臀部、双脚关节点的位置热图,最终输出行人的二维姿态。
步骤S203:恢复行人的三维姿态。使用步骤S103的射影变换矩阵和步骤S101传感器的三维位置,利用三角关系恢复出各个二维位置点的高度,并对最终输出行人的三维姿态。具体实现方法如下:
首先,通过S103中加权求积后的透视变换矩阵求出二维图像到三维世界的变换公式,如下:
步骤S30:多传感器信息融合和追踪,结合路口多个传感器提取到的行人的三维姿态进行融合,并根据行人姿态的空间位置和特征差异对目标进行匹配和追踪。
步骤S301:行人目标匹配。将不同传感器中行人的三维姿态的空间位置和语义特征的差异归一化为代价,并在时空上构建行人之间的代价矩阵,随后采用贪心算法将不同传感器中和前后帧最相似的行人进行匹配。
步骤S302:行人目标追踪。采用Kalman滤波方法对匹配目标进行追踪,得到目标的轨迹,并根据目标三维姿态和S201中目标的置信度对轨迹进行更新。
步骤S303:运动特征提取。根据轨迹历史的位置,计算目标的速度,输出目标轨迹的运动特征。
Claims (2)
1.一种多视角融合的三维行人姿态估计与追踪方法,包括空间三维模型构建步骤S10,行人三维姿态估计步骤S20,多传感器信息融合和追踪步骤S30,其特征在于:
空间三维模型构建步骤S10,利用场景中人行横道的二维语义信息和三维位置信息获取二维空间和三维空间的射影变换矩阵,进一步包括:
步骤S101:构建空间模型;以路口的中心为三维空间原点,以东方为x轴正方向,北方为y轴正方向,上方为z轴正方向,构建路口三维空间坐标系;测量各个传感器在路口三维空间坐标系的位置,并测量人行横道在真实世界中的长宽、人行横道中点在路口三维空间坐标系的位置,确定人行横道每一根斑马线的位置;
步骤S102:检测斑马线位置信息;利用传感器采集到的图像,提取像素纹理、形状、梯度等语义信息,并回归出每根斑马线的图像位置及其概率;
步骤S103:获取射影变换矩阵;利用每根斑马线的图像位置即其在路口三维空间坐标系中的位置,根据相机投影模型确定二维图像空间和路口三维空间的射影变换矩阵组,并根据每根斑马线的回归概率对射影变换矩阵组进行加权求积,得到最终的射影变换矩阵;
行人三维姿态估计步骤S20,结合传感器采集图像流的时空信息获取每个行人的三维姿态,进一步包括:
步骤S201:检测行人的二维空间位置;首先对图像流进行特征提取,得到具有时空信息的高维特征张量,接着将特征张量分割成若干长宽一致的矩形特征块,然后用不同大小的特征框对矩形特征块进行分类预测,得到场景中行人的位置和置信度,最终采用非极大值抑制算法筛选出可靠的目标;
步骤S202:检测行人的二维姿态;使用步骤S201的特征张量和目标检测位置,获取每个行人的高维特征,并构建特征金字塔,从不同尺度下的特征中提取并聚合出行人人头、臀部、双脚关节点的位置热图,最终输出行人的二维姿态;
步骤S203:恢复行人的三维姿态;使用步骤S103的射影变换矩阵和步骤S101传感器的三维位置,利用三角关系恢复出各个二维位置点的高度,并对最终输出行人的三维姿态;
多传感器信息融合步骤S30,结合路口多个传感器提取到的行人的三维姿态进行融合,并根据行人姿态的空间位置和特征差异对目标进行匹配和追踪,进一步包括:
步骤S301:行人目标匹配;将不同传感器中行人的三维姿态的空间位置和语义特征的差异归一化为代价,并在时空上构建行人之间的代价矩阵,随后采用贪心算法将不同传感器中和前后帧最相似的行人进行匹配;
步骤S302:行人目标追踪;采用Kalman滤波方法对匹配目标进行追踪,得到目标的轨迹,并根据目标三维姿态和S201中目标的置信度对轨迹进行更新;
步骤S303:运动特征提取;根据轨迹历史的位置,计算目标的速度,输出目标轨迹的运动特征。
2.根据权利要求项1所述的一种多视角融合的三维行人姿态估计与追踪方法,其特征在于,所述的传感器为鱼眼彩色相机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211700904.6A CN116259001A (zh) | 2022-12-27 | 2022-12-27 | 一种多视角融合的三维行人姿态估计与追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211700904.6A CN116259001A (zh) | 2022-12-27 | 2022-12-27 | 一种多视角融合的三维行人姿态估计与追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116259001A true CN116259001A (zh) | 2023-06-13 |
Family
ID=86678433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211700904.6A Pending CN116259001A (zh) | 2022-12-27 | 2022-12-27 | 一种多视角融合的三维行人姿态估计与追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116259001A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690123A (zh) * | 2024-02-04 | 2024-03-12 | 南京航空航天大学 | 多目视觉下基于融合特征的行人3d姿态点跟踪方法 |
-
2022
- 2022-12-27 CN CN202211700904.6A patent/CN116259001A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690123A (zh) * | 2024-02-04 | 2024-03-12 | 南京航空航天大学 | 多目视觉下基于融合特征的行人3d姿态点跟踪方法 |
CN117690123B (zh) * | 2024-02-04 | 2024-06-11 | 南京航空航天大学 | 多目视觉下基于融合特征的行人3d姿态点跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462200B (zh) | 一种跨视频行人定位追踪方法、系统及设备 | |
Gurghian et al. | Deeplanes: End-to-end lane position estimation using deep neural networksa | |
CN108406731B (zh) | 一种基于深度视觉的定位装置、方法及机器人 | |
US10192113B1 (en) | Quadocular sensor design in autonomous platforms | |
Sidla et al. | Pedestrian detection and tracking for counting applications in crowded situations | |
US7321386B2 (en) | Robust stereo-driven video-based surveillance | |
CN107665506B (zh) | 实现增强现实的方法及系统 | |
Gao et al. | Robust RGB-D simultaneous localization and mapping using planar point features | |
JP2018522348A (ja) | センサーの3次元姿勢を推定する方法及びシステム | |
CN107665505B (zh) | 基于平面检测实现增强现实的方法及装置 | |
CN101344965A (zh) | 基于双目摄像的跟踪系统 | |
EP2798611A1 (en) | Camera calibration using feature identification | |
Józsa et al. | Towards 4D virtual city reconstruction from Lidar point cloud sequences | |
CN110941996A (zh) | 一种基于生成对抗网络的目标及轨迹增强现实方法和系统 | |
CN117593650B (zh) | 基于4d毫米波雷达与sam图像分割的动点滤除视觉slam方法 | |
Herghelegiu et al. | Robust ground plane detection and tracking in stereo sequences using camera orientation | |
Kanhere et al. | Vehicle segmentation and tracking in the presence of occlusions | |
Dornaika et al. | A new framework for stereo sensor pose through road segmentation and registration | |
CN116643291A (zh) | 一种视觉与激光雷达联合剔除动态目标的slam方法 | |
Sahili et al. | A Survey of Visual SLAM Methods | |
CN116259001A (zh) | 一种多视角融合的三维行人姿态估计与追踪方法 | |
Li et al. | A hybrid pose tracking approach for handheld augmented reality | |
CN115131407B (zh) | 面向数字仿真环境的机器人目标跟踪方法、装置和设备 | |
Geiger et al. | Object flow: A descriptor for classifying traffic motion | |
Pravallika et al. | Deep Learning Frontiers in 3d Object Detection: A Comprehensive Review for Autonomous Driving |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |