CN109241888B

CN109241888B - 神经网络训练与对象识别方法、装置和系统及存储介质

Info

Publication number: CN109241888B
Application number: CN201810974385.XA
Authority: CN
Inventors: 赵致辰
Original assignee: Shanghai Kuangjing Boxuan Technology Co ltd; Beijing Kuangshi Technology Co Ltd
Current assignee: Shanghai kuangjing Boxuan Technology Co., Ltd; Beijing Kuangshi Technology Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2022-01-28
Anticipated expiration: 2038-08-24
Also published as: CN109241888A

Abstract

本发明实施例提供一种神经网络训练与对象识别方法、装置和系统以及存储介质。训练方法包括：将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得第一底库特征、第二抓拍特征、第三底库特征、第四抓拍特征、第五底库特征和第六抓拍特征，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域；计算第一底库特征和第二抓拍特征之间的第一相似度、第三底库特征和第四抓拍特征之间的第二相似度、第五底库特征和第六抓拍特征之间的第三相似度；计算总损失函数的值；调整神经网络的参数。上述方法实现不同域下的图像对比。

Description

神经网络训练与对象识别方法、装置和系统及存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种神经网络训练方法、装置和系统与对象识别方法、装置和系统以及存储介质。

背景技术

在红外环境下进行人脸识别是夜间识别人脸的重要课题。在进行人脸识别时，需要两张图像进行对比，判断是否属于同一个人。在夜间进行人脸识别时，普通的可见光图像无法成像，需要红外摄像头来进行成像。

在某些任务及产品中，并不会提供专门的红外摄像头，而是在可见光环境下成可见光图像，在黑暗环境下成红外图像。这样会为人脸识别算法带来额外的要求，即人脸识别算法不仅要完成可见光图像与可见光图像或者红外图像与红外图像的对比，还要完成可见光图像与红外图像的对比。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种神经网络训练方法、装置和系统与对象识别方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种神经网络训练方法。神经网络训练方法包括：将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得第一底库图像的第一底库特征、第二抓拍图像集合中的每个图像的第二抓拍特征、第三底库图像的第三底库特征、第四抓拍图像集合中的每个图像的第四抓拍特征、第五底库图像的第五底库特征和第六抓拍图像集合中的每个图像的第六抓拍特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域；计算第一底库特征和第二抓拍特征之间的第一相似度、第三底库特征和第四抓拍特征之间的第二相似度、以及第五底库特征和第六抓拍特征之间的第三相似度；基于第一相似度、第二相似度和第三相似度计算总损失函数的值；基于总损失函数的值调整神经网络的参数直到总损失函数的值收敛。

示例性地，基于第一相似度、第二相似度和第三相似度计算总损失函数的值包括：将第一相似度输入第一损失函数，以计算第一损失函数的值；将第二相似度输入第二损失函数，以计算第二损失函数的值；将第三相似度输入第三损失函数，以计算第三损失函数的值；将第一损失函数的值、第二损失函数的值和第三损失函数的值加权相加，以获得总损失函数的值。

示例性地，第一底库图像为包含第一预定对象的图像，第二抓拍图像集合包括至少一个包含第一预定对象的第二正抓拍图像以及至少一个不包含第一预定对象的第二负抓拍图像，第一损失函数是三元组损失函数；将第一相似度输入第一损失函数，以计算第一损失函数的值包括：将第一底库图像与任一第二正抓拍图像之间的第一相似度以及第一底库图像与任一第二负抓拍图像之间的第一相似度输入第一损失函数，以计算第一损失函数的值。

示例性地，第三底库图像为包含第二预定对象的图像，第四抓拍图像集合包括至少一个包含第二预定对象的第四正抓拍图像以及至少一个不包含第二预定对象的第四负抓拍图像，第二损失函数是三元组损失函数；将第二相似度输入第二损失函数，以计算第二损失函数的值包括：将第三底库图像与任一第四正抓拍图像之间的第二相似度以及第三底库图像与任一第四负抓拍图像之间的第二相似度输入第二损失函数，以计算第二损失函数的值。

示例性地，第五底库图像为包含第三预定对象的图像，第六抓拍图像集合包括至少一个包含第三预定对象的第六正抓拍图像以及至少一个不包含第三预定对象的第六负抓拍图像，第三损失函数是三元组损失函数；将第三相似度输入第三损失函数，以计算第三损失函数的值包括：将第五底库图像与任一第六正抓拍图像之间的第三相似度以及第五底库图像与任一第六负抓拍图像之间的第三相似度输入第三损失函数，以计算第三损失函数的值。

示例性地，基于总损失函数的值调整神经网络的参数直到总损失函数的值收敛包括：基于总损失函数的值，采用反向传播算法调整神经网络的参数直到总损失函数的值收敛。

根据本发明另一方面，提供了一种对象识别方法，包括：将第一域或者第二域下采集的抓拍图像以及第一域下采集的底库图像分别输入神经网络，以获得抓拍图像的抓拍特征和底库图像的底库特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域，神经网络采用上述神经网络训练方法训练获得；计算抓拍特征和底库特征之间的相似度；根据相似度判断抓拍图像和底库图像是否包含同一对象。

根据本发明另一方面，提供了一种神经网络训练装置，包括：输入模块，用于将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得第一底库图像的第一底库特征、第二抓拍图像集合中的每个图像的第二抓拍特征、第三底库图像的第三底库特征、第四抓拍图像集合中的每个图像的第四抓拍特征、第五底库图像的第五底库特征和第六抓拍图像集合中的每个图像的第六抓拍特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域；第一计算模块，用于计算第一底库特征和第二抓拍特征之间的第一相似度、第三底库特征和第四抓拍特征之间的第二相似度、以及第五底库特征和第六抓拍特征之间的第三相似度；第二计算模块，用于基于第一相似度、第二相似度和第三相似度计算总损失函数的值；参数调整模块，用于基于总损失函数的值调整神经网络的参数直到总损失函数的值收敛。

根据本发明另一方面，提供了一种对象识别装置，包括：输入模块，用于将第一域或者第二域下采集的抓拍图像以及第一域下采集的底库图像分别输入神经网络，以获得抓拍图像的抓拍特征和底库图像的底库特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域，神经网络采用上述神经网络训练方法训练获得；计算模块，用于计算抓拍特征和底库特征之间的相似度；判断模块，用于根据相似度判断抓拍图像和底库图像是否包含同一对象。

根据本发明另一方面，提供了一种神经网络训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述神经网络训练方法。

根据本发明另一方面，提供了一种对象识别系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述对象识别方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述神经网络训练方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述对象识别方法。

根据本发明实施例的神经网络训练方法、装置和系统与对象识别方法、装置和系统以及存储介质，在训练神经网络的过程中，考虑可见光图像与可见光图像之间的对比、红外图像与红外图像之间的对比、以及可见光图像与红外图像之间的对比，使得训练获得的神经网络能够缩小不同域下的特征信息之间的差距，有利于训练获得的神经网络实现不同域下的图像对比。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的神经网络训练方法和装置或者对象识别方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的神经网络训练方法的示意性流程图；

图3示出根据本发明一个实施例的神经网络的训练流程的示意图；

图4示出根据本发明一个实施例的对象识别方法的示意性流程图；

图5示出根据本发明一个实施例的神经网络训练装置的示意性框图；

图6示出了根据本发明一个实施例的对象识别装置的示意性框图；

图7示出根据本发明一个实施例的神经网络训练系统的示意性框图；以及

图8示出了根据本发明一个实施例的对象识别系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

为了解决上述问题，本发明实施例提供一种神经网络训练方法和装置。本发明实施例提供的神经网络训练方法，可以在神经网络中自动地去除可见光域和红外域这两个域的差异，通过端到端的训练，提升对于跨域交叉对比的对象(例如人脸)的识别性能。本发明实施例还提供一种基于上述神经网络的、针对可见光域和红外域这两个域进行自身对比以及交叉对比的对象识别方法。根据本发明实施例的神经网络训练方法和装置以及对象识别方法和装置可以应用于各种涉及对象识别的领域，例如电子商务、银行业务、安全监控等领域的人脸识别，交通监控领域的车辆或车牌识别，等等。

本文所述的对象可以是任何物体，包括但不限于：文字、特定图案、人或人体的一部分(诸如人脸)、动物、车辆、建筑物等。在本文中，将主要以对象是人脸为例来描述本文各实施例，但这并非对本发明的限制。

首先，参照图1来描述用于实现根据本发明实施例的神经网络训练方法和装置或者对象识别方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用微处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置110可以采集图像(包括静态图像和视频帧)，例如用户的人脸图像等，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是单独的相机、移动终端中的摄像头或抓拍机中的图像传感器。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的神经网络训练方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的神经网络训练方法。图2示出根据本发明一个实施例的神经网络训练方法200的示意性流程图。如图2所示，神经网络训练方法200包括以下步骤S210、S220、S230和S240。

在步骤S210，将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得第一底库图像的第一底库特征、第二抓拍图像集合中的每个图像的第二抓拍特征、第三底库图像的第三底库特征、第四抓拍图像集合中的每个图像的第四抓拍特征、第五底库图像的第五底库特征和第六抓拍图像集合中的每个图像的第六抓拍特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域。

在本文中，用“域”来抽象图像的来源，即如果在可见光下成像，称图像来自“可见光域”，类似地，如果图像在红外光下成像，则称图像来自“红外域”。

底库图像和抓拍图像是用来进行相似度对比的图像，底库图像和抓拍图像这两个术语的名称仅用于区分两个图像，并不一定具有特殊含义。示例性而非限制性地，底库图像可以是存储在已知数据库中的对象图像(例如人脸图像)，抓拍图像可以是现场采集的对象图像。当然，参与相似度对比的图像可以是任意图像，例如，底库图像和抓拍图像均可以是现场采集的对象图像。

示例性地，第一底库图像和第三底库图像来源可以相同。例如，在第一域为可见光域的情况下，第一底库图像和第三底库图像可以来自同一可见光图像底库。在一个示例中，第一底库图像和第三底库图像是同一图像，在这种情况下，神经网络仅需对该图像进行一次处理，即可提取获得第一底库特征和第三底库特征(第一底库特征和第三底库特征相同)。第一底库图像和第三底库图像是同一图像，这样神经网络仅需处理一次，因此能够节省计算资源。

示例性地，第四抓拍图像和第六抓拍图像来源可以相同。在一个示例中，第四抓拍图像和第六抓拍图像可以是同一图像，在这种情况下，神经网络仅需对该图像进行一次处理，即可提取获得第四抓拍特征和第六抓拍特征(第四抓拍特征和第六抓拍特征相同)。类似地，第四抓拍图像和第六抓拍图像是同一图像，这样神经网络仅需处理一次，因此能够节省计算资源。

本发明实施例采用的神经网络可以是任何合适的网络，例如卷积神经网络等。

图3示出根据本发明一个实施例的神经网络的训练流程的示意图。在图3中，示出第一域为可见光域，第二域为红外域，但是其仅是示例，第一域和第二域可以设置为与图3所示的情况相反。

如图3所示，可以将可见光域下采集获得的第一底库图像(底库图像1)、第二抓拍图像(抓拍图像2)、第三底库图像(底库图像3)分别输入神经网络，获得各自对应的第一底库特征(底库特征1)、第二抓拍特征(抓拍特征2)、第三底库特征(底库特征3)。在图3中，仅示出可见光域下的一个第二抓拍图像，用来指示第二抓拍图像集合。第二抓拍图像集合可以包括任意数目的第二抓拍图像。

此外，如图3所示，还可以将红外域下采集获得的第四抓拍图像(抓拍图像4)、第五底库图像(底库图像5)、第六抓拍图像(抓拍图像6)分别输入神经网络，获得各自对应的第四抓拍特征(抓拍特征4)、第五底库特征(底库特征5)、第六抓拍特征(抓拍特征6)。在图3中，仅示出红外域下的一个第四抓拍图像，用来指示第四抓拍图像集合，并且仅示出红外域下的一个第六抓拍图像，用来指示第六抓拍图像集合。第四抓拍图像集合可以包括任意数目的第四抓拍图像，第六抓拍图像集合可以包括任意数目的第六抓拍图像。

在步骤S220，计算第一底库特征和第二抓拍特征之间的第一相似度、第三底库特征和第四抓拍特征之间的第二相似度、以及第五底库特征和第六抓拍特征之间的第三相似度。

可以将第一底库特征和第二抓拍特征进行对比，计算二者之间的相似度。本领域技术人员可以理解图像特征之间的相似度的计算方式，本文不对此进行赘述。第一底库图像和第二抓拍图像都是可见光域下的图像，二者特征之间的对比属于针对同一域的对比。

可以将第三底库特征和第四抓拍特征进行对比，计算二者之间的相似度。第三底库图像是可见光域下的图像，而第四抓拍图像是红外域下的图像，二者特征之间的对比属于跨域的交叉对比。在神经网络的训练过程中，考虑两个域之间的交叉对比，这样在后续神经网络的实际应用过程中，使得这样的交叉对比成为可能。

可以将第五底库特征和第六抓拍特征进行对比，计算二者之间的相似度。第五底库图像和第六抓拍图像都是可见光域下的图像，二者特征之间的对比属于针对同一域的对比。

为了能使神经网络学习在红外域中分辨对象，可以在神经网络中输入红外域下采集的底库图像和抓拍图像(例如第五底库图像和第六抓拍图像)。类似地，为了能使神经网络学习在可见光域中分辨对象，可以在神经网络中输入可见光域下采集的底库图像和抓拍图像(例如第一底库图像和第二抓拍图像)。上述设计可以使神经网络保持在两个域中都具有分辨力。

此外，第一底库图像与第二抓拍图像之间的对比以及第五底库图像与第六抓拍图像之间的对比属于同一域的对比，由于在神经网络的训练过程中考虑到这两种情况，可以使得神经网络能够更好地融合不同域之间的特征，减小不同域之间的特征信息的隔阂，进而使得后续神经网络的实际应用过程中，跨域的交叉对比能够更准确。

在步骤S230，基于第一相似度、第二相似度和第三相似度计算总损失函数的值。

示例性地，基于第一相似度、第二相似度和第三相似度计算总损失函数的值(步骤S230)可以包括：将第一相似度输入第一损失函数，以计算第一损失函数的值；将第二相似度输入第二损失函数，以计算第二损失函数的值；将第三相似度输入第三损失函数，以计算第三损失函数的值；将第一损失函数的值、第二损失函数的值和第三损失函数的值加权相加，以获得总损失函数的值。

图3示出了第一相似度(相似度1)、第二相似度(相似度2)、第三相似度(相似度3)。第一相似度、第二相似度和第三相似度可以分别输入各自对应的损失函数中进行计算(图3未示出)，再将计算获得的值加权相加在一起，作为总损失函数的值。

示例性地，第一损失函数、第二损失函数和第三损失函数均可以是三元组损失函数(triplet loss)。三元组损失函数的计算方式将在下文描述。

在步骤S240，基于总损失函数的值调整神经网络的参数直到总损失函数的值收敛。

示例性地，基于总损失函数的值调整神经网络的参数(步骤S240)可以包括：基于总损失函数的值，采用反向传播算法调整神经网络的参数直到总损失函数的值收敛。

根据损失函数求出的值执行反向传播算法，可以使得神经网络向期望的方向去训练。示例性地，可以在进行对比的抓拍图像和底库图像中包含同一对象的情况下，通过调整神经网络的参数，使得抓拍图像和底库图像之间的相似度增大，并且在进行对比的抓拍图像和底库图像中包含不同对象的情况下，通过调整神经网络的参数，使得抓拍图像和底库图像之间的相似度减小。

神经网络的参数可以经过多次调整(迭代)，直至满足要求(例如总损失函数的值收敛)为止，最终可以获得训练好的神经网络。

在神经网络能够分别分辨可见光图像中的对象和红外图像中的对象的基础上，对可见光域的底库图像和红外域的抓拍图像进行对比训练，可以驱动神经网络掩盖两个域的不同信息，进而达到交叉对比的目的，也就是使得基于训练后的神经网络，能够将不同域下的抓拍图像和底库图像进行交叉对比识别。

根据本发明实施例的神经网络训练方法，在训练神经网络的过程中，考虑可见光图像(可见光域下采集的图像)与可见光图像之间的对比、红外图像(红外域下采集的图像)与红外图像之间的对比、以及可见光图像与红外图像之间的对比，使得训练获得的神经网络能够缩小不同域下的特征信息之间的差距，有利于训练获得的神经网络实现不同域下的图像对比。

示例性地，根据本发明实施例的神经网络训练方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的神经网络训练方法可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的神经网络训练方法还可以分布地部署在服务器端和客户端处。例如，可以在客户端获取图像(例如在图像采集端采集用户的人脸图像)，客户端将获取的图像传送给服务器端(或云端)，由服务器端(或云端)进行神经网络训练。

根据本发明实施例，第一底库图像为包含第一预定对象的图像，第二抓拍图像集合包括至少一个包含第一预定对象的第二正抓拍图像以及至少一个不包含第一预定对象的第二负抓拍图像，第一损失函数是三元组损失函数；将第一相似度输入第一损失函数，以计算第一损失函数的值包括：将第一底库图像与任一第二正抓拍图像之间的第一相似度以及第一底库图像与任一第二负抓拍图像之间的第一相似度输入第一损失函数，以计算第一损失函数的值。

第一预定对象可以是任意对象。在一个示例中，第二抓拍图像集合可以仅包括第二正抓拍图像，第二正抓拍图像的数目可以是任意的。在另一个示例中，第二抓拍图像集合可以仅包括第二负抓拍图像，第二负抓拍图像的数目可以是任意的。在又一个示例中，第二抓拍图像集合可以同时包括第二正抓拍图像和第二负抓拍图像。第二正抓拍图像和第二负抓拍图像的数目均可以是任意的。第二抓拍图像集合同时包括第二正抓拍图像和第二负抓拍图像的实施例是比较可取的。

例如，假设第一底库图像是包含人脸A的图像。在训练时，可以采用至少一个包含人脸A的第二正抓拍图像(正样本)以及至少一个不包含人脸A的第二负抓拍图像(负样本)。第一底库图像、第二正抓拍图像以及第二负抓拍图像为三元组损失函数所需的三个元素。将第一底库图像与第二正抓拍图像之间的第一相似度以及第一底库图像与第二负抓拍图像之间的第一相似度代入三元组损失函数，可以求得该三元组损失函数的值。本领域技术人员能够理解三元组损失函数的设计和计算方式，本文不对此进行赘述。

根据本发明实施例，第三底库图像为包含第二预定对象的图像，第四抓拍图像集合包括至少一个包含第二预定对象的第四正抓拍图像以及至少一个不包含第二预定对象的第四负抓拍图像，第二损失函数是三元组损失函数；将第二相似度输入第二损失函数，以计算第二损失函数的值包括：将第三底库图像与任一第四正抓拍图像之间的第二相似度以及第三底库图像与任一第四负抓拍图像之间的第二相似度输入第二损失函数，以计算第二损失函数的值。

第二预定对象可以是任意对象。在一个示例中，第四抓拍图像集合可以仅包括第四正抓拍图像，第四正抓拍图像的数目可以是任意的。在另一个示例中，第四抓拍图像集合可以仅包括第四负抓拍图像，第四负抓拍图像的数目可以是任意的。在又一个示例中，第四抓拍图像集合可以同时包括第四正抓拍图像和第四负抓拍图像。第四正抓拍图像和第四负抓拍图像的数目均可以是任意的。第四抓拍图像集合同时包括第四正抓拍图像和第四负抓拍图像的实施例是比较可取的。

例如，假设第三底库图像是包含人脸B的图像。在训练时，可以采用至少一个包含人脸B的第四正抓拍图像(正样本)以及至少一个不包含人脸B的第四负抓拍图像(负样本)。第三底库图像、第四正抓拍图像以及第四负抓拍图像为三元组损失函数所需的三个元素。将第三底库图像与第四正抓拍图像之间的第二相似度以及第三底库图像与第四负抓拍图像之间的第二相似度代入三元组损失函数，可以求得该三元组损失函数的值。本领域技术人员能够理解三元组损失函数的设计和计算方式，本文不对此进行赘述。

根据本发明实施例，第五底库图像为包含第三预定对象的图像，第六抓拍图像集合包括至少一个包含第三预定对象的第六正抓拍图像以及至少一个不包含第三预定对象的第六负抓拍图像，第三损失函数是三元组损失函数；将第三相似度输入第三损失函数，以计算第三损失函数的值包括：将第五底库图像与任一第六正抓拍图像之间的第三相似度以及第五底库图像与任一第六负抓拍图像之间的第三相似度输入第三损失函数，以计算第三损失函数的值。

第三预定对象可以是任意对象。在一个示例中，第六抓拍图像集合可以仅包括第六正抓拍图像，第六正抓拍图像的数目可以是任意的。在另一个示例中，第六抓拍图像集合可以仅包括第六负抓拍图像，第六负抓拍图像的数目可以是任意的。在又一个示例中，第六抓拍图像集合可以同时包括第六正抓拍图像和第六负抓拍图像。第六正抓拍图像和第六负抓拍图像的数目均可以是任意的。第六抓拍图像集合同时包括第六正抓拍图像和第六负抓拍图像的实施例是比较可取的。

例如，假设第五底库图像是包含人脸C的图像。在训练时，可以采用至少一个包含人脸C的第六正抓拍图像(正样本)以及至少一个不包含人脸B的第六负抓拍图像(负样本)。第五底库图像、第六正抓拍图像以及第六负抓拍图像为三元组损失函数所需的三个元素。将第五底库图像与第六正抓拍图像之间的第三相似度以及第五底库图像与第六负抓拍图像之间的第三相似度代入三元组损失函数，可以求得该三元组损失函数的值。本领域技术人员能够理解三元组损失函数的设计和计算方式，本文不对此进行赘述。

在神经网络的训练过程中，可以采用任意数目的图像，其中第一底库图像、第二抓拍图像、第三底库图像、第四抓拍图像、第五底库图像、第六抓拍图像中的每一项的数目均可以是任意的。例如，在神经网络的训练过程中，可以采用900个图像，其中包括100个第一底库图像、200个第二抓拍图像、100个第三底库图像、200个第四抓拍图像、100个第五底库图像、200个第六抓拍图像。比较可取的是，在每次训练神经网络时，所选择的可见光域下的图像和红外域下的图像的数目是相等的，这样可以训练获得用于较均衡准确地在两个域中识别图像的神经网络。

示例性地，在采用多个第一底库图像进行训练的情况下，神经网络的每次迭代过程中，可以选择一个第一底库图像，与一个第二正抓拍图像和一个第二负抓拍图像组成一组，用于输入第一损失函数进行计算。第三底库图像与第五底库图像的情况类似，不再赘述。

根据本发明另一方面，提供一种对象识别方法。图4示出根据本发明一个实施例的对象识别方法400的示意性流程图。如图4所示，对象识别方法400包括步骤S410、S420和S430。

在步骤S410，将第一域或者第二域下采集的抓拍图像以及第一域下采集的底库图像分别输入神经网络，以获得抓拍图像的抓拍特征和底库图像的底库特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域，神经网络采用上述神经网络训练方法200训练获得。

在步骤S420，计算抓拍特征和底库特征之间的相似度。

在步骤S430，根据相似度判断抓拍图像和底库图像是否包含同一对象。

神经网络训练好之后，可以将其用于图像对比，识别图像中是否包含同一对象。抓拍图像和底库图像可以是任意图像，这两个图像可以同时来自可见光域，或者可以同时来自红外域，或者可以一个来自可见光域，一个来自红外域。

无论抓拍图像和底库图像来自哪个域，也无论这两个图像是否来自同一个域，均可以采用神经网络提取特征，并且可以基于两个图像的特征之间的相似度判断是否包含同一对象。

示例性地，如果抓拍特征和底库特征之间的相似度大于相似度阈值，则确定抓拍图像和底库图像包含同一对象，否则确定抓拍图像和底库图像未包含同一对象。

例如，在实际的人脸识别应用中，进行人脸注册时可以只需注册可见光图像，而实际采集时可以是采集可见光图像，也可以是红外图像。这样可以在一个神经网络里面实现两种图像的识别，避免使用两个网络模型才能对比两个域的问题。

根据本发明实施例的对象识别方法，由于采用神经网络训练方法200训练获得的神经网络，使得在红外域和可见光域这两个域的交叉对比成为可能，能够很好地适应可见光图像以及红外图像交叉采集和识别的场景。

根据本发明另一方面，提供一种神经网络训练装置。图5示出了根据本发明一个实施例的神经网络训练装置500的示意性框图。

如图5所示，根据本发明实施例的神经网络训练装置500包括输入模块510、第一计算模块520、第二计算模块530和参数调整模块540。所述各个模块可分别执行上文中结合图2-3描述的神经网络训练方法的各个步骤/功能。以下仅对该神经网络训练装置500的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

输入模块510用于将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得所述第一底库图像的第一底库特征、所述第二抓拍图像集合中的每个图像的第二抓拍特征、所述第三底库图像的第三底库特征、所述第四抓拍图像集合中的每个图像的第四抓拍特征、所述第五底库图像的第五底库特征和所述第六抓拍图像集合中的每个图像的第六抓拍特征，其中，所述第一域为可见光域且所述第二域为红外域，或者所述第一域为红外域且所述第二域为可见光域。输入模块510可以由图1所示的电子设备中的处理器102运行存储装置103中存储的程序指令来实现。

第一计算模块520用于计算所述第一底库特征和所述第二抓拍特征之间的第一相似度、所述第三底库特征和所述第四抓拍特征之间的第二相似度、以及所述第五底库特征和所述第六抓拍特征之间的第三相似度。第一计算模块520可以由图1所示的电子设备中的处理器102运行存储装置103中存储的程序指令来实现。

第二计算模块530用于基于所述第一相似度、所述第二相似度和所述第三相似度计算总损失函数的值。第二计算模块530可以由图1所示的电子设备中的处理器102运行存储装置103中存储的程序指令来实现。

参数调整模块540用于基于所述总损失函数的值调整所述神经网络的参数直到总损失函数的值收敛。参数调整模块540可以由图1所示的电子设备中的处理器102运行存储装置103中存储的程序指令来实现。

根据本发明另一方面，提供一种对象识别装置。图6示出了根据本发明一个实施例的对象识别装置600的示意性框图。

如图6所示，根据本发明实施例的对象识别装置600包括输入模块610、计算模块620和判断模块630。所述各个模块可分别执行上文中结合图4描述的对象识别方法的各个步骤/功能。以下仅对该对象识别装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

输入模块610用于将第一域或者第二域下采集的抓拍图像以及所述第一域下采集的底库图像分别输入神经网络，以获得所述抓拍图像的抓拍特征和所述底库图像的底库特征，其中，所述第一域为可见光域且所述第二域为红外域，或者所述第一域为红外域且所述第二域为可见光域，所述神经网络采用上述神经网络训练方法200训练获得。输入模块610可以由图1所示的电子设备中的处理器102运行存储装置103中存储的程序指令来实现。

计算模块620用于计算所述抓拍特征和所述底库特征之间的相似度。计算模块620可以由图1所示的电子设备中的处理器102运行存储装置103中存储的程序指令来实现。

判断模块630用于根据所述相似度判断所述抓拍图像和所述底库图像是否包含同一对象。判断模块630可以由图1所示的电子设备中的处理器102运行存储装置103中存储的程序指令来实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图7示出了根据本发明一个实施例的神经网络训练系统700的示意性框图。神经网络训练系统700包括图像采集装置710、存储装置720、以及处理器730。

所述图像采集装置710用于采集图像(底库图像或抓拍图像)。图像采集装置710是可选的，神经网络训练系统700可以不包括图像采集装置710。在这种情况下，可选地，可以利用其他图像采集装置采集图像并将采集的图像发送给神经网络训练系统700。

所述存储装置720存储用于实现根据本发明实施例的神经网络训练方法中的相应步骤的计算机程序指令。

所述处理器730用于运行所述存储装置720中存储的计算机程序指令，以执行根据本发明实施例的神经网络训练方法的相应步骤。

在一个实施例中，计算机程序指令被处理器730运行时用于执行以下步骤：将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得第一底库图像的第一底库特征、第二抓拍图像集合中的每个图像的第二抓拍特征、第三底库图像的第三底库特征、第四抓拍图像集合中的每个图像的第四抓拍特征、第五底库图像的第五底库特征和第六抓拍图像集合中的每个图像的第六抓拍特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域；计算第一底库特征和第二抓拍特征之间的第一相似度、第三底库特征和第四抓拍特征之间的第二相似度、以及第五底库特征和第六抓拍特征之间的第三相似度；基于第一相似度、第二相似度和第三相似度计算总损失函数的值；基于总损失函数的值调整神经网络的参数直到总损失函数的值收敛。

图8示出了根据本发明一个实施例的对象识别系统800的示意性框图。对象识别系统800包括图像采集装置810、存储装置820、以及处理器830。

所述图像采集装置810用于采集图像(底库图像或抓拍图像)。图像采集装置810是可选的，对象识别系统800可以不包括图像采集装置810。在这种情况下，可选地，可以利用其他图像采集装置采集图像并将采集的图像发送给对象识别系统800。

所述存储装置820存储用于实现根据本发明实施例的对象识别方法中的相应步骤的计算机程序指令。

所述处理器830用于运行所述存储装置820中存储的计算机程序指令，以执行根据本发明实施例的对象识别方法的相应步骤。

在一个实施例中，计算机程序指令被处理器830运行时用于执行以下步骤：将第一域或者第二域下采集的抓拍图像以及第一域下采集的底库图像分别输入神经网络，以获得抓拍图像的抓拍特征和底库图像的底库特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域，神经网络采用上述神经网络训练方法训练获得；计算抓拍特征和底库特征之间的相似度；根据相似度判断抓拍图像和底库图像是否包含同一对象。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的神经网络训练方法的相应步骤，并且用于实现根据本发明实施例的神经网络训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的神经网络训练装置的各个功能模块，并和/或者可以执行根据本发明实施例的神经网络训练方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得第一底库图像的第一底库特征、第二抓拍图像集合中的每个图像的第二抓拍特征、第三底库图像的第三底库特征、第四抓拍图像集合中的每个图像的第四抓拍特征、第五底库图像的第五底库特征和第六抓拍图像集合中的每个图像的第六抓拍特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域；计算第一底库特征和第二抓拍特征之间的第一相似度、第三底库特征和第四抓拍特征之间的第二相似度、以及第五底库特征和第六抓拍特征之间的第三相似度；基于第一相似度、第二相似度和第三相似度计算总损失函数的值；基于总损失函数的值调整神经网络的参数直到总损失函数的值收敛。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的对象识别方法的相应步骤，并且用于实现根据本发明实施例的对象识别装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的对象识别装置的各个功能模块，并和/或者可以执行根据本发明实施例的对象识别方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：将第一域或者第二域下采集的抓拍图像以及第一域下采集的底库图像分别输入神经网络，以获得抓拍图像的抓拍特征和底库图像的底库特征，其中，第一域为可见光域且第二域为红外域，或者第一域为红外域且第二域为可见光域，神经网络采用上述神经网络训练方法训练获得；计算抓拍特征和底库特征之间的相似度；根据相似度判断抓拍图像和底库图像是否包含同一对象。

根据本发明实施例的神经网络训练系统中的各模块可以通过根据本发明实施例的实施神经网络训练的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的神经网络训练装置和/或对象识别装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经网络训练方法，包括：

将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得所述第一底库图像的第一底库特征、所述第二抓拍图像集合中的每个图像的第二抓拍特征、所述第三底库图像的第三底库特征、所述第四抓拍图像集合中的每个图像的第四抓拍特征、所述第五底库图像的第五底库特征和所述第六抓拍图像集合中的每个图像的第六抓拍特征，其中，所述第一域为可见光域且所述第二域为红外域，或者所述第一域为红外域且所述第二域为可见光域；

计算所述第一底库特征和所述第二抓拍特征之间的第一相似度、所述第三底库特征和所述第四抓拍特征之间的第二相似度、以及所述第五底库特征和所述第六抓拍特征之间的第三相似度；

基于所述第一相似度、所述第二相似度和所述第三相似度计算总损失函数的值；

基于所述总损失函数的值调整所述神经网络的参数直到所述总损失函数的值收敛；

其中，所述基于所述第一相似度、所述第二相似度和所述第三相似度计算总损失函数的值包括：

将所述第一相似度输入第一损失函数，以计算所述第一损失函数的值；

将所述第二相似度输入第二损失函数，以计算所述第二损失函数的值；

将所述第三相似度输入第三损失函数，以计算所述第三损失函数的值；

将所述第一损失函数的值、所述第二损失函数的值和所述第三损失函数的值加权相加，以获得所述总损失函数的值；

其中，所述第一底库图像为包含第一预定对象的图像，所述第二抓拍图像集合包括至少一个包含所述第一预定对象的第二正抓拍图像以及至少一个不包含所述第一预定对象的第二负抓拍图像，所述第一损失函数是三元组损失函数；

所述将所述第一相似度输入第一损失函数，以计算所述第一损失函数的值包括：

将所述第一底库图像与任一第二正抓拍图像之间的所述第一相似度以及所述第一底库图像与任一第二负抓拍图像之间的所述第一相似度输入所述第一损失函数，以计算所述第一损失函数的值；和/或，

所述第三底库图像为包含第二预定对象的图像，所述第四抓拍图像集合包括至少一个包含所述第二预定对象的第四正抓拍图像以及至少一个不包含所述第二预定对象的第四负抓拍图像，所述第二损失函数是三元组损失函数；

所述将所述第二相似度输入第二损失函数，以计算所述第二损失函数的值包括：

将所述第三底库图像与任一第四正抓拍图像之间的所述第二相似度以及所述第三底库图像与任一第四负抓拍图像之间的所述第二相似度输入所述第二损失函数，以计算所述第二损失函数的值；和/或

所述第五底库图像为包含第三预定对象的图像，所述第六抓拍图像集合包括至少一个包含所述第三预定对象的第六正抓拍图像以及至少一个不包含所述第三预定对象的第六负抓拍图像，所述第三损失函数是三元组损失函数；

所述将所述第三相似度输入第三损失函数，以计算所述第三损失函数的值包括：

将所述第五底库图像与任一第六正抓拍图像之间的所述第三相似度以及所述第五底库图像与任一第六负抓拍图像之间的所述第三相似度输入所述第三损失函数，以计算所述第三损失函数的值。

2.如权利要求1所述的方法，其中，所述基于所述总损失函数的值调整所述神经网络的参数直到所述总损失函数的值收敛包括：

基于所述总损失函数的值，采用反向传播算法调整所述神经网络的参数直到所述总损失函数的值收敛。

3.一种对象识别方法，包括：

将第一域或者第二域下采集的抓拍图像以及所述第一域下采集的底库图像分别输入神经网络，以获得所述抓拍图像的抓拍特征和所述底库图像的底库特征，其中，所述第一域为可见光域且所述第二域为红外域，或者所述第一域为红外域且所述第二域为可见光域，所述神经网络采用如权利要求1或2所述的神经网络训练方法训练获得；

计算所述抓拍特征和所述底库特征之间的相似度；

根据所述相似度判断所述抓拍图像和所述底库图像是否包含同一对象。

4.一种神经网络训练装置，包括：

输入模块，用于将第一域下采集的第一底库图像、第二抓拍图像集合和第三底库图像以及第二域下采集的第四抓拍图像集合、第五底库图像和第六抓拍图像集合分别输入神经网络，以获得所述第一底库图像的第一底库特征、所述第二抓拍图像集合中的每个图像的第二抓拍特征、所述第三底库图像的第三底库特征、所述第四抓拍图像集合中的每个图像的第四抓拍特征、所述第五底库图像的第五底库特征和所述第六抓拍图像集合中的每个图像的第六抓拍特征，其中，所述第一域为可见光域且所述第二域为红外域，或者所述第一域为红外域且所述第二域为可见光域；

第一计算模块，用于计算所述第一底库特征和所述第二抓拍特征之间的第一相似度、所述第三底库特征和所述第四抓拍特征之间的第二相似度、以及所述第五底库特征和所述第六抓拍特征之间的第三相似度；

第二计算模块，用于基于所述第一相似度、所述第二相似度和所述第三相似度计算总损失函数的值；

参数调整模块，用于基于所述总损失函数的值调整所述神经网络的参数直到所述总损失函数的值收敛；

其中，所述第二计算模块包括：

第一输入子模块，用于将所述第一相似度输入第一损失函数，以计算所述第一损失函数的值；

第二输入子模块，用于将所述第二相似度输入第二损失函数，以计算所述第二损失函数的值；

第三输入子模块，用于将所述第三相似度输入第三损失函数，以计算所述第三损失函数的值；

加权子模块，用于将所述第一损失函数的值、所述第二损失函数的值和所述第三损失函数的值加权相加，以获得所述总损失函数的值；

所述第一输入子模块包括：

第一输入单元，用于将所述第一底库图像与任一第二正抓拍图像之间的所述第一相似度以及所述第一底库图像与任一第二负抓拍图像之间的所述第一相似度输入所述第一损失函数，以计算所述第一损失函数的值；和/或，

所述第二输入子模块包括：

第二输入单元，用于将所述第三底库图像与任一第四正抓拍图像之间的所述第二相似度以及所述第三底库图像与任一第四负抓拍图像之间的所述第二相似度输入所述第二损失函数，以计算所述第二损失函数的值；和/或

所述第三输入子模块包括：

第三输入单元，用于将所述第五底库图像与任一第六正抓拍图像之间的所述第三相似度以及所述第五底库图像与任一第六负抓拍图像之间的所述第三相似度输入所述第三损失函数，以计算所述第三损失函数的值。

5.一种对象识别装置，包括：

输入模块，用于将第一域或者第二域下采集的抓拍图像以及所述第一域下采集的底库图像分别输入神经网络，以获得所述抓拍图像的抓拍特征和所述底库图像的底库特征，其中，所述第一域为可见光域且所述第二域为红外域，或者所述第一域为红外域且所述第二域为可见光域，所述神经网络采用如权利要求1或2所述的神经网络训练方法训练获得；

计算模块，用于计算所述抓拍特征和所述底库特征之间的相似度；

判断模块，用于根据所述相似度判断所述抓拍图像和所述底库图像是否包含同一对象。

6.一种神经网络训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1或2所述的神经网络训练方法。

7.一种对象识别系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求3所述的对象识别方法。

8.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1或2所述的神经网络训练方法。

9.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求3所述的对象识别方法。