CN110910449B

CN110910449B - 识别物体三维位置的方法和系统

Info

Publication number: CN110910449B
Application number: CN201911223409.9A
Authority: CN
Inventors: 陈健生; 薛有泽; 万纬韬; 张馨予
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-10-13
Anticipated expiration: 2039-12-03
Also published as: CN110910449A

Abstract

本发明提供一种识别物体三维位置的方法和系统，所述方法包括：获取由多个摄像装置对同一物体分别拍摄的多个视频；分别确定所述物体的关键点在所述多个视频中的二维位置；利用神经网络根据所述二维位置预测所述关键点的三维位置；根据所述三维位置和所述多个摄像装置的参数确定所述关键点在各个所述摄像装置的成像面中的投影位置；根据所述投影位置和所述二维位置的差异计算所述神经网络的损失函数，并根据所述损失函数优化所述神经网络的参数。

Description

识别物体三维位置的方法和系统

技术领域

本发明涉及图像识别领域，具体涉及一种识别物体三维位置的方法和系统。

背景技术

目前，神经网络已经被用于根据物体的二维图像估计三维位置，现有的算法是以单一视角的二维关键点坐标为输入直接推断三维坐标。在一些视频上测试现有的神经网络估计算法后，实验结果表明这些方法的泛化能力都比较差。

现有技术泛化能力差的原因主要有两点，首先是单个视角无法提供足够的三维信息，神经网络推断出的三维结构依赖于训练数据的统计特点，在面对新的场景以及不同的相机配置时无法正确迁移；第二是实际使用环境与常用的公开数据集如Human3.6M等场景差异较大，在数据集上训练的模型无法泛化到实际应用的场景中。

发明内容

有鉴于此，本发明提供一种识别物体三维位置的方法，包括：

获取由多个摄像装置对同一物体分别拍摄的多个视频；

分别确定所述物体的关键点在所述多个视频中的二维位置；

利用神经网络根据所述二维位置预测所述关键点的三维位置；

根据所述三维位置和所述多个摄像装置的参数确定所述关键点在各个所述摄像装置的成像面中的投影位置；

根据所述投影位置和所述二维位置的差异计算所述神经网络的损失函数，并根据所述损失函数优化所述神经网络的参数。

可选地，在利用神经网络根据所述二维位置预测所述关键点的三维位置的步骤中，以所述关键点在一个所述视频中的二维位置作为所述神经网络的输入数据，使所述神经网络输出所述三维位置。

可选地，所述多个视频是由奇数个高度接近且具有一定水平间隔的摄像装置所拍摄的视频，所述输入数据取自位于水平方向居中的摄像装置所拍摄的视频。

可选地，分别确定所述物体的关键点在所述多个视频中的二维位置包括：

利用经过训练的物体检测网络分别在所述多个视频中确定所述物体所在的区域；

利用经过训练的关键点检测网络分别在所述区域内确定所述关键点的二维位置。

可选地，在获取由多个摄像装置对同一物体分别拍摄的多个视频之前，还包括：利用训练数据初始化所述神经网络的参数，所述训练数据是由多个摄像装置对同一物体所拍摄的多个视频，所述视频包含物体远离及接近所述摄像装置位置的过程。

可选地，所述初始化被分为两个阶段，在所述两个阶段中所使用的损失函数不相同。

可选地，在第一阶段中所使用的损失函数以第一优化目标更新所述神经网络的参数，所述第一优化目标是使所述神经网络输出的训练数据中物体关键点的三维位置的深度坐标为正数；

在第二阶段中所使用的损失函数以第二优化目标更新所述神经网络的参数，所述第二优化目标是在所述第一优化目标的基础上，使训练数据中的物体关键点的投影位置和二维位置一致。

可选地，所述神经网络为长短期记忆网络。

可选地，所述物体为人体，所述关键点包括人体的多个部位。

本发明还提供一种识别物体三维位置的系统，包括：

多个摄像装置，用于对同一物体分别拍摄视频；

终端，用于根据上述识别物体三维位置的方法识别物体三维位置。

本发明提供的识别物体三维位置的方法将数据驱动的神经网络与人工建模的传统优化方法相结合，利用神经网络将二维关键点坐标序列转变为三维坐标序列，将三维关键点坐标的优化问题转变为神经网络的参数优化，相比起直接优化三维坐标可以更好地约束坐标的时序关系。并且本发明采用优化而非直接推断的方式估计三维位置，充分利用多个视角拍摄的视频信息，对三维关键点坐标施加明确的几何约束，使识别过程具有较高的效率，使识别结果具有较高的准确性，并克服了现有技术普遍存在的泛化能力弱的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的识别物体三维位置的方法的流程图；

图2和图3为本发明实施例中识别物体三维位置的系统的场景示意图；

图4为本发明实施例中识别人体三维位置的过程示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明提供一种识别物体三维位置的方法，该方法可以由计算机、服务器等电子设备执行，如图1所示该方法包括如下步骤：

S1，获取由多个摄像装置对同一物体分别拍摄的多个视频。多个摄像装置具体可以是2个、3个或者更多，实际使用场景中，应当使各个摄像装置的高度基本一致，在水平方向上有一定间隔，并且都朝向被拍摄的物体。

这些摄像装置同时对一个物体进行拍摄得到i个视角的视频。

S2，分别确定物体的关键点在多个视频中的二维位置。视频由图像序列(帧)组成，以视频t时刻的一帧图像为例，时刻t对应i个图像，得到的二维位置可表示为其含义是t时刻的关键点m在视角i的图像上的二维位置。在二维图像中确定某点的二维坐标的方法有多种，本方案可以使用任一种现有技术实现此操作。

S3，利用神经网络根据二维位置预测关键点的三维位置。神经网络利用当前(或者初始化)的参数根据t时刻的i个图像中的一个、多个或者全部图像中的输出一个三维坐标，即关键点m在时刻t的三维位置，表示为/>

S4，根据三维位置和多个摄像装置的参数确定关键点在各个摄像装置的成像面中的投影位置。摄像装置的参数可以在搭建硬件环境时进行标定，参数具体包括内参和外参，首先可以用黑白格图片对三台摄像机的内部参数进行标定，使用MATLAB的相机标定工具箱即可。之后使用COLMAP进行相机外参的标定，选择各个摄像装置在同一时刻拍摄的一组照片，使用COLMAP的稀疏重建功能，在稀疏重建的同时得到外参。标定后的摄像装置不再移动，之后拍摄视频时不再重新标定，均使用搭建环境时标定好的参数。

利用预先标定的参数将三维坐标投影到各个视角上，得到投影坐标其含义是t时刻的关键点m的三维坐标在视角i的投影位置。

S5，根据投影位置和二维位置的差异计算神经网络的损失函数，并根据损失函数优化神经网络的参数。关键点m的三维坐标在各个视角中应当具有一致性，经过投影后应当与各个视角的二维关键点坐标重合，即应该与/>一致(相等或基本相同)，因此可以根据二者的差异定义优化目标，也即确定损失函数L，可表示为/>L应尽可能小。

例如针对t时刻的图像估计出t时刻的关键点的三维位置，通过计算损失函数并对神经网络的参数进行优化后，针对t+1时刻神经网络则采用优化后的参数估计t+1时刻的关键点的三维位置。如此通过梯度下降的方式即可优化上文定义的优化目标L，优化过程中不断更新神经网络的参数，直到神经网络估计的三维关键点与各个视角的二维关键点具有一致性。如此将神经网络的结构和优化的思路结合到一起，通过优化神经网络的参数间接获得具有视角一致性的三维关键点坐标。

本方法可以逐帧确定视频中的物体关键点的二维位置，并逐帧估计其三维位置，以及逐帧对网络进行优化，也可以间隔若干帧执行上述处理，因此上述t时刻和t+1时刻只用于说明两个时刻的时序关系，而不是用于限定两个相邻的帧。

由于向神经网络输入的是图像序列(视频)，关键点在序列中具有时序性的关系，因此神经网络优选为采用具有多层LSTM(长短期记忆网络，LongShort-Term Memory)结构的循环神经网络，LSTM解决了序列输入的长时依赖问题，可以有效地利用输入的时序关系，从而使预测关键点三维位置的效率和准确性更高。

上述步骤既是识别过程也可作为训练过程，神经网络的参数可以被随机初始化，然后针对输入的视频进行识别，从而修正神经网络的参数，直至达到设定的收敛条件才向用户输出识别结果。

为了提高识别效率，也可以在进行识别前采用特定的方式初始化神经网络的参数，也即在用于识别前先使用特定的训练数据对神经网络进行训练。训练数据为视频数据，同样由上述i个视角的摄像装置拍摄得到，训练数据中包含物体远离及接近摄像装置位置的过程，训练数据中的物体同样被预定关键点。

在训练过程中，参照上述步骤S2-S5进行识别二位位置、预测三维位置、计算投影位置的操作，与识别过程不同的是损失函数。在本实施例中训练过程被分为两个阶段，其中使用不同的损失函数，也即优化目标不同。具体地，在第一阶段中所使用的损失函数以第一优化目标更新神经网络的参数，第一优化目标是使所述神经网络输出的训练数据中物体关键点的三维位置的深度坐标为正数，如以为损失函数训练，其中/>表示在t时刻关键点m的三维坐标中的z坐标，τ为一个大于0的常数，通过不断更新神经网络的参数直到Q＝0结束第一阶段的训练。

在第二阶段中所使用的损失函数以第二优化目标更新神经网络的参数，第二优化目标是在第一优化目标的基础上，使训练数据中的物体关键点的投影位置和二维位置一致。第二阶段以Q+L为损失函数进行训练，即为要求一致性的同时依然防止网络发散到Q>0的状态。

两个阶段的训练结束后将网络参数保存，之后在识别时使用此参数作为初始参数，然后在识别过程中仍可以继续优化L。测试表明上述初始化方式能够保证优化的收敛。在实际应用时，以此方式初始化网络在10分钟之内优化即可收敛，可以满足实际应用场景的需要。

在一个优选的实施例中，上述步骤S2包括：

S21，利用经过训练的物体检测网络分别在多个视频中确定物体所在的区域。例如可以使用物体检测网络MASK-RCNN，对每段视频的每一帧图像都进行物体检测，得到目标物体的边框。为了抑制误检现象的发生，可要求如果在一幅图像中检测到多个目标物体，则只保留置信程度最大的检测框。每帧图像的物体位置由一个四元组(x₁,y₁,x₂,y₂)表示，代表检测框左上角和右下角的像素坐标。对于部分图像无法正确检测出目标物体，则输出(0，0，1，1)来表示。

S22，利用经过训练的关键点检测网络分别在所述区域内确定所述关键点的二维位置。例如被识别物体是人体时，可采用CPN(Cascaded Pyramid Network)在图像序列中标记出人体位置，将每一帧图像和对应的人体检测框送入CPN，得到各个关键点的像素坐标。原始的CPN可采用COCO数据集训练，COCO数据集只有二维关键点标签，并且采用不同的人体关键点定义，为了得到和三维数据集Human3.6M一致的关键点表示，本实施例采用Human3.6M数据集的二维关键点标签对CPN进行训练。

在一个具体的实施例中，上述方法被用于医疗场景，被识别的对象为人体，并定义人体的多个部位为关键点。结合图2所示，本实施例提供一种识别物体三维位置的系统，该系统包括三台摄像机和用于数据处理的终端。

三台摄像机放置于一条长约6米的通道前，保持三台摄像机高度接近，分别从左前方、正前方和右前方对通道内进行拍摄。三台摄像机以相同的帧率(25帧/秒)同步进行拍摄，每帧图像的高和宽分别为1920像素和1080像素，视频采集场景如图2和图3所示。

相机搭建完毕后对三台相机进行标定。首先用黑白格图片对三台摄像机的内部参数进行标定，直接使用MATLAB的相机标定工具箱即可。之后使用COLMAP进行相机外参的标定。选出三台摄像机在同一时刻拍摄的一组照片，使用COLMAP的稀疏重建功能，在稀疏重建的同时得到相机参数。相机标定后三台相机不再移动，之后拍摄新视频时不再重新标定相机，均使用搭建环境时标定好的参数。

长约6米的通道远端放置一把椅子，通道每隔约60厘米标记一条横线，在距离相机约2.5米的位置上标记一道红线，患者需要在红线前完成转身动作。通道外侧设置隔离板，用来遮挡外部干扰，通道上方提供充足的照明。三台相机以USB的方式连接终端(PC)，终端设有专用软件来操纵相机进行拍摄、存储和对视频进行处理和分析。

三台摄像机用于采集视频，首先患者坐在通道远端的椅子上，拍摄开始后，要求患者从坐姿逐渐站起并走向通道的近端，行走约3.5米后转身走回远端的椅子并坐下，一次拍摄即可结束。整个拍摄过程中要求保证三个摄像机拍摄的画面内仅出现一名患者，其他无关人员不得进入通道。根据患者行走速度的不同，一次拍摄的时长大约在10秒到20秒之间，对于部分行走障碍严重的患者拍摄时长可能达到一分钟以上。

采集到三段视频后，由终端执行识别人体关键点三维位置的操作，在本实施例中，人体关键点包括17个位置，分别是头顶、鼻子、脖子、左肩、左肘、左腕、右肩、右肘、右腕、脊背、两胯中心、左臀、左膝、左踝、右臀、右膝、右踝。

终端利用如图1所示的方法对这些关键点的位置进行识别，在本实施例中，以正面视角的时序二维关键点为输入得到每个时刻的三维关键点坐标。神经网络识别和优化的过程如图4所示，例如t时刻的关键点m在左前视角video1的二维位置为在正面视角video2的二维位置为/>在右前视角video3的二维位置为/>则神经网络的输入数据为/>

神经网络根据输出关键点m在时刻t的三维位置/>然后根据/>和相机的参数计算关键点在这三个视角上的投影位置/>和/>由此可以计算/>与/>的差距、/>与/>的差距、/>与/>的差距，从而根据差距优化神经网络的参数。

神经网络的参数初始化可参照上述实施例中的训练方案，此处不再赘述。

在得到人体各个关键点的三维位置后则可以对人体的姿态进行分析。三维关键点的坐标可以体现人体的姿态，这些数据随时间变化的情况可以体现人体的运动状态，这些数据可用于相关疾病的诊断或分析。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种识别物体三维位置的方法，其特征在于，包括：

获取由多个摄像装置对同一物体分别拍摄的多个视频，所述多个视频是由奇数个高度接近且具有一定水平间隔的摄像装置所拍摄的视频；

分别确定所述物体的关键点在所述多个视频中的二维位置；

利用神经网络根据所述二维位置预测所述关键点的三维位置，其中以位于水平方向居中的摄像装置所拍摄的视频中的关键点的二维位置作为所述神经网络的输入数据，使所述神经网络输出所述三维位置；

根据所述投影位置和所述二维位置的差异计算所述神经网络的损失函数，并根据所述损失函数优化所述神经网络的参数，所述损失函数包括，其中是t时刻的关键点m在视角i的图像上的二维位置，/>是t时刻的关键点m的三维坐标在视角i的投影位置，所述损失函数还包括/>, 其中/>表示在t时刻关键点m的三维坐标中的z坐标，/>为大于0的常数；所述神经网络的训练过程分为两个阶段，在第一阶段中采用损失函数/>，通过更新神经网络的参数直到/>结束第一阶段的训练，在第二阶段中采用损失函数/>和损失函数L，在要求物体关键点的投影位置和二维位置一致性的同时防止网络发散到/>的状态，所述两个阶段的训练结束后将网络参数保存，之后在识别所述三维位置时将保存的网络参数作为初始值，采用损失函数L优化网络参数。

2.根据权利要求1所述的方法，其特征在于，分别确定所述物体的关键点在所述多个视频中的二维位置包括：

3.根据权利要求1所述的方法，其特征在于，在获取由多个摄像装置对同一物体分别拍摄的多个视频之前，还包括：利用训练数据初始化所述神经网络的参数，所述训练数据是由多个摄像装置对同一物体所拍摄的多个视频，所述视频包含物体远离及接近所述摄像装置位置的过程。

4.根据权利要求3所述的方法，其特征在于，所述初始化被分为两个阶段，在所述两个阶段中所使用的损失函数不相同。

5.根据权利要求4所述的方法，其特征在于，在第一阶段中所使用的损失函数以第一优化目标更新所述神经网络的参数，所述第一优化目标是使所述神经网络输出的训练数据中物体关键点的三维位置的深度坐标为正数；

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述神经网络为长短期记忆网络。

7.一种识别物体三维位置的系统，其特征在于，包括：

多个摄像装置，用于对同一物体分别拍摄视频；

终端，用于根据权利要求1-6中任一项所述的方法识别物体关键点的三维位置。