CN111723926B

CN111723926B - 用于确定图像视差的神经网络模型的训练方法和训练装置

Info

Publication number: CN111723926B
Application number: CN201910222225.4A
Authority: CN
Inventors: 高鹏; 任伟强
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2023-09-12
Anticipated expiration: 2039-03-22
Also published as: CN111723926A

Abstract

公开了一种用于确定图像视差的神经网络模型的训练方法和训练装置。该训练方法可以包括：将由双目相机采集的第一图像和第二图像输入到神经网络模型中，以获得预测视差图；根据预测视差图和预先标定的真值视差图确定损失值，其中，在损失值中，与关注对象所在的关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重；以及根据损失值调整神经网络模型的参数。通过根据本公开的实施例的训练方法和训练装置，能够确保关注区域内的视差值的正确性，从而更好地训练神经网络模型。

Description

用于确定图像视差的神经网络模型的训练方法和训练装置

技术领域

本公开总体上涉及模式识别的技术领域，并且具体地涉及一种用于确定图像视差的神经网络模型的训练方法和训练装置。

背景技术

人脸活体检测对于诸如门禁、登录等要求高安全性的应用场景非常重要。例如，可以训练用于确定图像视差的神经网络模型，然后可以基于所获得的视差图进行活体检测。因此，始终期望能够获得准确的视差图。

发明内容

根据本公开的一个方面，提供了一种用于确定图像视差的神经网络模型的训练方法。该训练方法可以包括：将由双目相机采集的第一图像和第二图像输入到神经网络模型中，以获得预测视差图；根据预测视差图和预先标定的真值视差图确定损失值，其中，在损失值中，与关注对象所在的关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重；以及根据损失值调整神经网络模型的参数。

根据本公开的另一个方面，还提供了一种用于确定图像视差的神经网络模型的训练装置。该训练装置可以包括：预测单元，被配置为将由双目相机采集的第一图像和第二图像输入到神经网络模型中，以获得预测视差图；损失估算单元，被配置为根据来自预测单元的预测视差图和预先标定的真值视差图确定损失值，其中，在损失值中，与关注对象所在的关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重；以及参数更新单元，被配置为根据来自损失估算单元的损失值调整神经网络模型的参数。

根据本公开的另一个方面，还提供了一种电子设备。该电子设备可以包括处理器和用于存储所述处理器可执行的指令的存储器，其中，处理器可以用于从存储器中读取指令，并执行指令以实现上述训练方法。

根据本公开的另一个方面，还提供了一种计算机可读存储介质，该存储介质可以存储有计算机程序，并且该计算机程序可以用于执行上述训练方法。

通过根据本公开的实施例的训练方法和训练装置，能够确保关注区域内的视差值的正确性，从而更好地训练神经网络模型。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出根据本公开的实施例的用于确定图像视差的神经网络模型的训练方法的示例。

图2示出根据本公开的实施例的用于确定图像视差的神经网络模型的训练方法的示例。

图3示出根据本公开的实施例的关注区域和非关注区域的示例。

图4示出根据本公开的实施例的用于确定图像视差的神经网络模型的训练装置的示例。

图5示出根据本公开的实施例的用于确定图像视差的神经网络模型的训练装置的示例。

图6示出根据本公开的实施例的用电子设备的示例。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

概述

提供给用于确定图像视差的神经网络模型(例如，立体匹配神经网络)的输入通常是原始图像。在这样的原始图像中，相比于诸如人脸区域这样的关注区域，背景所占的比例通常较大，从而导致样本不均衡的问题，这将严重地影响关注区域内的视差值的正确性。

示例性方法

根据本公开的实施例的训练方法可以应用于电子设备，并且如图1所示，根据本公开的实施例的训练方法可以包括步骤S110、S120和S130。

在步骤S110中，可以将由双目相机采集的第一图像和第二图像输入到神经网络模型中，以获得预测视差图。

例如，在通过双目相机采集到左图像和右图像的情况下，第一图像可以是左图像和右图像中的一个，而第二图像可以是左图像和右图像中的另一个。

然后，在步骤S120中，可以根据在预测视差图和预先标定的真值视差图确定损失值，其中，在损失值中，与关注对象所在的关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重。

根据不同的实施例，关注对象可以包括例如人脸、车辆等作为识别或检测目标的对象。在第一图像、第二图像、预测视差图和真值视差图中，关注对象所在的关注区域可以通过例如矩形、圆形等适当形状的标注框或包围框来表示或标注，并且非关注区域可以是从全图区域或包括关注区域的局部区域中去除关注区域后所获得的剩余部分。

真值视差图可以是通过任何适当手段获得的用作损失评估基准的真值，并且可以在步骤S120之前通过任何适当的手段对真值视差图中的关注区域和非关注区域进行检测和关注，从而获得预先标定的真值视差图。

然后，根据本公开的实施例的方法可以继续步骤S130，根据所确定的损失值调整神经网络模型的参数。

在一个实施例中，可以针对神经网络模型迭代地执行步骤S110至S130，直至在步骤S130中确定的损失值变得收敛为止。

在根据本公开的实施例的训练方法中，在每次评估所获得的预测视差图的损失时，考虑关注区域和非关注区域两方面的损失，并且使得与关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重，即，提升关注区域内的损失值并抑制非关注区域内的损失值。根据这样的损失函数或损失值调整神经网络模型的参数，使得能够更加突出关注区域，从而克服或减轻样本不均匀的问题。由此，在最终生成的预测视差图中，至少能够确保关注区域的视差值的正确性。

本公开不局限于用于确定图像视差的神经网络模型的结构和/或配置。例如，利用根据本公开的方法进行训练的神经网络模型可以包括但不局限于基于卷积神经网络、耦合神经网络等构建的立体匹配网络等，只要这样的神经网络模型能够基于由双目相机采集的两个图像(例如，左图像和右图像)进行立体匹配并获得预测视差图即可。

另外，根据不同的实施例，可以通过任何适当的方式获得在损失评估中用作比较基准的真值视差图。例如，可以使用红外深度摄像机拍摄的图像作为真值视差图。

对于在步骤S120中用于确定损失值的损失函数，根据不同的实施例，可以使用诸如L1-smooth、L1loss等适当类型的损失函数，并且损失函数可以被修改或调整为至少考虑与关注对象所在的关注区域相对应的损失和与非关注区域相对应的损失这两方面的损失。

例如，损失值可以是与关注区域相对应的损失和与非关注区域相对应的损失的加权和。也就是说，可以通过下面形式的损失函数确定损失值L：

L＝a*L_ROI+b*L_NROI

其中，L_ROI表示所评估出的关注区域的损失，L_NROI表示所评估出的非关注区域的损失；a和b为权重系数，并且a>b，例如，a＝1.5，b＝0.5。根据不同的实施例，可以使用诸如铰链损失函数、交叉熵损失函数等适当类型的损失函数确定L_ROI和L_NROI。

由此，可以在评估整个神经网络模型的损失时，同时考虑关注区域和非关注区域两方面的损失，并且能够通过提升关注区域内的损失值并抑制非关注区域内的损失值，使得关注区域更加突出，从而克服或减轻样本不均匀的问题。

为了确定关注区域和非关注区域，如图2所示，根据本公开的实施例的训练方法还可以包括：

步骤S115，通过对第一图像和第二图像中的至少一个进行对象检测，确定关注区域。

根据不同的实施例，可以通过任何适当的方式对第一图像和第二图像中的至少一个进行对象检测。例如，可以进行人工检测和标注，也可以通过诸如选择性搜索、SPP-net、Faster-RCNN等各种适当的方法或模型进行自动检测和标注。

然后，可以根据第一图像和/或第二图像的像素与预测视差图的像素之间的对应关系，确定关注区域在预测视差图中的位置。

在另外的实施例中，在步骤S115中，也可以根据第一图像和/或第二图像的像素与真值视差图的像素之间的对应关系，确定关注区域在真值视差图中的位置，从而获得步骤S120中的预先标定的真值视差图。

通过检测和标注关注区域和非关注区域，使得能够在评估整个神经网络模型的损失时同时考虑关注区域和非关注区域两方面的损失。

在一个实施例中，包括非关注区域和关注区域的局部区域的面积小于预测视差图和真值视差图中的任一个的全图面积。

例如，如图3所示，可以在步骤S115中对第一图像和第二图像中的至少一个进行对象检测，从而针对关注对象确定对应的关注区域，并且可以对应地确定该关注区域在预测视差图和/或真值视差图中的位置。

然后，在预测视差图和/或真值视差图中，可以确定包括所确定的关注区域的一个局部区域，使得该局部区域的面积大于该关注区域并且小于预测视差图和真值视差图中的任一个的全图面积。例如，该局部区域的面积可以是关注区域的面积的1.5倍，并且小于预测视差图和真值视差图中的任一个的全图面积。然后，可以将该局部区域中除了关注区域之外的部分设置为非关注区域。由此，能够在保留上下文特征的同时节约计算量。

另外，根据不同的实施例，取决于神经网络模型的类型和结构，在步骤S130中，可以调整各种类型的参数。例如，在卷积神经网络的情况下，相关参数可以包括卷积核、池化核等。另外，根据不同的实施例，可以通过任何适当的方式，调整神经网络模型的参数。应当理解，本公开不局限于要调整的参数的类型和参数的调整方式。

示例性装置

如图4所示，根据本公开的实施例的训练装置可以包括预测单元210、损失估算单元220和参数更新单元230。

预测单元210可以被配置为执行根据本公开的实施例的训练方法的步骤S110，即，可以被配置为将由双目相机采集的第一图像和第二图像输入到神经网络模型中，以获得预测视差图。

根据不同的实施例，预测单元210可以包括诸如中央处理器和图形处理器等通用的处理器，也可以是基于诸如现场可编程门阵列等开发出的专用处理器。例如，在基于卷积神经网络确定预测视差图的情况下，预测单元210还可以包括用于加速诸如卷积、池化、逐点加、激活等运算的乘加单元阵列、加法器阵列、扭变算子等元件以及用于数据的高速缓存的静态随机存取存储器等。

损失估算单元220可以被配置为执行根据本公开的实施例的训练方法的步骤S120，即，可以被配置为根据来自预测单元210的预测视差图和预先标定的真值视差图确定损失值，其中，在损失值中，与关注对象所在的关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重。

根据一个实施例，损失估算单元220可以包括诸如中央处理器和图形处理器等通用的处理器，也可以是基于诸如现场可编程门阵列等开发出的专用处理器。

在一个实施例中，损失估算单元220可以被配置为计算与关注区域相对应的损失和与非关注区域相对应的损失的加权和作为所述损失值，并且相应地可以包括至少一个加法器和至少一个乘法器。

参数更新单元230可以被配置为执行根据本公开的实施例的训练方法的步骤S130，即，可以被配置为根据来自损失估算单元220的损失值调整神经网络模型的参数。

根据不同的实施例，参数更新单元230可以包括诸如鼠标、键盘等用于更新神经网络模型的参数的输入装置，也可以包括诸如显示器等用于显示数据的输出装置。

如图5所示，在一个实施例中，根据本公开的实施例的训练装置还可以包括区域确定单元215，该区域确定单元215可以被配置为通过对第一图像和第二图像中的至少一个进行对象检测，确定关注区域。

另外，如图5所示，区域确定单元215还可以根据第一图像和/或第二图像的像素与预测视差图的像素之间的对应关系，确定关注区域在预测视差图中的位置，也可以根据第一图像和/或第二图像的像素与真值视差图的像素之间的对应关系，确定关注区域在真值视差图中的位置。

根据不同的实施例，区域确定单元215可以包括诸如中央处理器和图形处理器等通用的处理器，也可以是基于诸如现场可编程门阵列等开发出的专用处理器。例如，在基于卷积神经网络确定进行对象检测和标注的情况下，区域确定单元215还可以包括用于加速诸如卷积、池化、逐点加、激活等运算的乘加单元阵列、加法器阵列、扭变算子等元件以及用于数据的高速缓存的静态随机存取存储器等。

在一个实施例中，上述各个单元可以复用诸如加法器、乘法器等一个或多个运算加速部件。在另外的实施例中，可以通过诸如中央处理器、图形处理器、现场可编程门阵列等一个或多个通用或专用的处理器实现上述各个单元的功能。

根据不同的实施例，上述各个单元之间可以通过诸如总线、交叉开关(crossbar)、共享存储器等各种适当的方式互连。

应当理解，图4和图5仅为根据本公开的实施例的训练装置的示例，并且本公开不局限于此。例如，在另外的示例中，根据本公开的实施例的训练装置还可以包括用于存储中间数据或结果数据的存储器和/或用于接收数据或向外部传送检测结果的一个或多个接口。

示例性电子设备

图6示出根据本公开实施例的电子设备。如图6所示，该电子设备可以包括一个或多个处理器310和存储器320。

处理器310可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器320可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器310可以运行所述程序指令，以实现上文所述的本申请的各个实施例的声源定位方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括输入装置330和输出装置340，这些组件可以通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是单机设备时，该输入装置330可以包括通信网络连接器。此外，该输入装置330还可以包括例如键盘、鼠标等。

该输出装置340可以向外部输出各种信息，包括确定出的距离信息、方向信息等。例如，该输出装置340可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等。

为了简化，图6中仅示出该电子设备中与本公开有关的组件中的一些，并省略了诸如总线、输入/输出接口等的组件。根据另外的实施例，该电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声源定位方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声源定位方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于确定图像视差的神经网络模型的训练方法，包括：

将由双目相机采集的第一图像和第二图像输入到所述神经网络模型中，以获得预测视差图；

通过对所述第一图像和所述第二图像中的至少一个进行对象检测，确定关注对象所在的关注区域；

根据所述预测视差图和预先标定的真值视差图确定损失值，其中，在所述损失值中，与所述关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重；以及

根据所述损失值调整所述神经网络模型的参数。

2.根据权利要求1所述的训练方法，其中，所述损失值是与所述关注区域相对应的损失和与所述非关注区域相对应的损失的加权和。

3.根据权利要求1至2中的任一项所述的训练方法，其中，包括所述非关注区域和所述关注区域的局部区域的面积小于所述预测视差图和所述真值视差图中的任一个的全图面积。

4.一种用于确定图像视差的神经网络模型的训练装置，包括：

预测单元，被配置为将由双目相机采集的第一图像和第二图像输入到所述神经网络模型中，以获得预测视差图；

区域确定单元，被配置为通过对所述第一图像和所述第二图像中的至少一个进行对象检测，确定关注对象所在的关注区域；

损失估算单元，被配置为根据来自所述预测单元的所述预测视差图和预先标定的真值视差图确定损失值，其中，在所述损失值中，与所述关注区域相对应的损失的权重大于与非关注区域相对应的损失的权重；以及

参数更新单元，被配置为根据来自所述损失估算单元的所述损失值调整所述神经网络模型的参数。

5.根据权利要求4所述的训练装置，其中，所述损失估算单元包括至少一个加法器和至少一个乘法器，并且被配置为计算与所述关注区域相对应的损失和与所述非关注区域相对应的损失的加权和作为所述损失值。

6.根据权利要求4至5中的任一项所述的训练装置，其中，包括所述非关注区域和所述关注区域的局部区域的面积小于所述预测视差图和所述真值视差图中的任一个的全图面积。

7.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行的指令的存储器；

所述处理器，用于从所述存储器中读取所述指令，并执行所述指令以实现根据权利要求1至3中的任一项所述的训练方法。

8.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行根据权利要求1至3中的任一项所述的训练方法。