CN109919251A

CN109919251A - 一种基于图像的目标检测方法、模型训练的方法及装置

Info

Publication number: CN109919251A
Application number: CN201910218444.5A
Authority: CN
Inventors: 揭泽群
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-06-21
Anticipated expiration: 2039-03-21
Also published as: US20210279513A1; CN109919251B; US20230360357A1; US11978239B2; WO2020187153A1; JP2022504704A; EP3944147A1; US11763541B2; JP7265003B2; EP3944147A4; KR20210078539A

Abstract

本申请公开了一种基于图像的目标检测方法。包括：获取第一待检测图像；获取第一待检测图像所对应的第二待检测图像，第二待检测图像属于第二领域，通过跨领域图像检测模型获取第二待检测图像所对应的检测结果，检测结果包括目标对象的目标定位信息和目标类别信息，跨领域图像检测模型包括第一网络模型以及第二网络模型，第一网络模型用于将图像从第一领域转换为第二领域，第二网络模型用于对第二领域的图像进行区域定位。本申请还公开了一种模型训练的方法及装置。本申请通过跨领域图像检测模型，将待检测图像的风格转换为测试集图像的风格，进而对转换后的图像进行目标定位，从而提升图像定位的准确性，增强模型预测效果。

Description

一种基于图像的目标检测方法、模型训练的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种基于图像的目标检测方法、模型训练的方法及装置。

背景技术

在机器学习领域中，通常需要将样本分成独立的两个部分，分别为训练集和测试集，训练集用于监督学习，监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练。测试集则用于检验最终选择的模型性能如何。在图像处理领域中，容易出现训练图像与测试图像之间领域差异较大的情况。

目前，当训练集图像和测试集图像来自不同领域的时候，通常依靠一个对抗性损失函数来约束网络模型提取的特征，使得网络模型无法被分辨训练集图像来自哪个领域，从而达到对特征分布领域不敏感的目的。

然而，由于训练集图像与测试集图像具有天然的领域分布差异，因此，强行让网络模型对训练集图像与测试集图像的特征模糊化是非常困难的，这样的话，通过采用领域A的训练集图像所训练得到的网络模型预测领域B上的测试集图像，导致预测效果较差。

发明内容

本申请实施例提供了一种基于图像的目标检测方法、模型训练的方法及装置，无需特意采用与测试集图像风格相同的待检测图像进行目标定位，而是采用跨领域图像检测模型，将待检测图像的风格转换为测试集图像的风格，进而对转换后的图像进行目标定位，从而提升图像定位的准确性，增强模型预测效果。

有鉴于此，本申请第一方面提供一种基于图像的目标检测方法，包括：

获取第一待检测图像，其中，所述第一待检测图像属于第一领域；

获取第一待检测图像所对应的第二待检测图像，其中，所述第二待检测图像属于第二领域，所述第一领域与所述第二领域为不同的领域；

通过跨领域图像检测模型获取所述第二待检测图像所对应的检测结果，其中，所述检测结果包括目标对象的目标定位信息和目标类别信息，所述目标对象属于所述第一待检测图像中的被检测对象，所述跨领域图像检测模型包括第一网络模型以及第二网络模型，所述第一网络模型用于将图像从所述第一领域转换为所述第二领域，所述第二网络模型用于对所述第二领域的图像进行区域定位。

本申请第二方面提供一种模型训练的方法，包括：

获取待训练图像以及待测试图像，其中，所述待训练图像属于第一领域，所述待测试图像属于第二领域，所述第一领域与所述第二领域为不同的领域；

通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像，其中，所述测试风格图像属于所述第二领域，所述训练风格图像属于所述第一领域；

通过第二待训练网络模型获取候选区域所对应的预测概率值，其中，所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框；

通过所述第二待训练网络模型获取所述测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值；

根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练，得到跨领域图像检测模型。

本申请第三方面提供一种目标检测装置，包括：

获取模块，用于获取第一待检测图像，其中，所述第一待检测图像属于第一领域；

所述获取模块，还用于获取第一待检测图像所对应的第二待检测图像，其中，所述第二待检测图像属于第二领域，所述第一领域与所述第二领域为不同的领域；

检测模块，用于通过跨领域图像检测模型获取所述获取模块获取到的所述第二待检测图像所对应的检测结果，其中，所述检测结果包括目标对象的目标定位信息和目标类别信息，所述目标对象属于所述第一待检测图像中的被检测对象，所述跨领域图像检测模型包括第一网络模型以及第二网络模型，所述第一网络模型用于将图像从所述第一领域转换为所述第二领域，所述第二网络模型用于对所述第二领域的图像进行区域定位。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练图像以及待测试图像，其中，所述待训练图像属于第一领域，所述待测试图像属于第二领域，所述第一领域与所述第二领域为不同的领域；

所述获取模块，还用于通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像，其中，所述测试风格图像属于所述第二领域，所述训练风格图像属于所述第一领域；

所述获取模块，还用于通过第二待训练网络模型获取候选区域所对应的预测概率值，其中，所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框；

所述获取模块，还用于通过所述第二待训练网络模型获取所述测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值；

训练模块，用于根据所述获取模块获取的所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练，得到跨领域图像检测模型。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

所述训练模块，具体用于根据所述测试风格图像以及所述训练风格图像确定第一损失函数；

根据所述预测概率值确定第二损失函数；

根据所述所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，确定第三损失函数；

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，生成所述目标损失函数；

采用所述目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述训练模块，具体用于采用如下方式确定所述第一损失函数；

L_cyc(G_t-s,G_s-t)＝E_t～X(t)[||G_s-t(G_t-s(x_t))-x_t||]+E_s～X(s)[||G_t-s(G_s-t(x_s))-x_s||]；

其中，所述L_cyc(G_t-s,G_s-t)表示所述第一损失函数，所述x_t表示所述待测试图像，所述x_s表示所述待训练图像，所述G_s-t表示将所述待训练图像变换为所述测试风格图像的生成器，所述G_t-s表示将所述待测试图像变换为所述训练风格图像的生成器，所述G_t-s(x_t)表示所述训练风格图像，所述G_s-t(x_s)表示所述测试风格图像，所述E_s～X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算，所述E_t～X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，所述模型训练装置还包括检测模块；

所述检测模块，用于在所述获取模块通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后，通过第一判别器对所述测试风格图像进行真实性检测，其中，所述第一判别器为采用第一对抗损失函数进行训练后得到的；

所述检测模块，还用于在所述获取模块通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后，通过第二判别器对所述训练风格图像进行真实性检测，其中，所述第二判别器为采用第二对抗损失函数进行训练后得到的。

在一种可能的设计中，在本申请实施例的第四方面的第四种实现方式中，

所述获取模块，还用于所述检测模块通过第一判别器对所述测试风格图像进行真实性检测之前，采用如下方式获取所述第一对抗损失函数：

L_GAN(D_t,G_s-t)＝E_t～X(t)[logD_t(x)]+E_s～X(s)[log(1-D_t(G_s-t(s)))]；

其中，所述L_GAN(D_t,G_s-t)表示所述第一对抗损失函数，所述E_s～X(s)x示对待训练图像集合中的每个待训练图像进行期望值计算，所述E_t～X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算，所述D_t()表示所述第一判别器，所述s表示所述第一领域的图像，所述G_s-t()表示将所述第一领域的图像变换为所述二领域的图像的网络，所述x表示输入的图像。

在一种可能的设计中，在本申请实施例的第四方面的第五种实现方式中，

所述获取模块，还用于所述检测模块通过第一判别器对所述测试风格图像进行真实性检测之前，采用如下方式获取所述第二对抗损失函数：

L_GAN(D_s,G_t-s)＝E_s～X(s)[logD_s(x)]+E_t～X(t)[log(1-D_s(G_t-s(t)))]；

其中，所述L_GAN(D_s,G_t-s)表示所述第二对抗损失函数，所述E_s～X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算，所述E_t～X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算，所述D_s()表示所述第二判别器，所述t表示所述第二领域的图像，所述G_t-s()表示将所述第二领域的图像变换为所述一领域的图像的网络，所述x表示输入的图像。

在一种可能的设计中，在本申请实施例的第四方面的第六种实现方式中，

所述训练模块，具体用于采用如下方式确定所述第二损失函数；

其中，所述L_domain表示所述第二损失函数，所述p_i,j表示第i个候选区域在第j类上的预测概率值，所述d表示图像来源值。

在一种可能的设计中，在本申请实施例的第四方面的第七种实现方式中，

所述训练模块，具体用于采用如下方式确定所述第三损失函数；

其中，所述L_det(p,u,t^m,v)表示所述第三损失函数，所述L_rpn-cls表示所述第二待训练网络模型中区域生成网络RPN的分类损失函数，所述p_rpn表示所述RPN的所述第一预测类别概率值，所述u_rpn表示所述RPN的第一真实类别概率值，所述L_rpn-loc表示所述第二待训练网络模型中所述RPN的定位损失函数，所述表示所述RPN的所述第一预测定位值，所述v_rpn表示所述RPN的第一真实定位值，所述L_obj-cls表示所述第二待训练网络模型中目标检测网络的分类损失函数，所述p_obj表示所述目标检测网络的所述第二预测类别概率值，所述u_obj表示所述目标检测网络的第二真实类别概率值，所述L_obj-loc表示所述第二待训练网络模型中所述目标检测网络的定位损失函数，所述表示所述目标检测网络的所述第二预测定位值，所述v_obj表示所述目标检测网络的第二真实定位值。

在一种可能的设计中，在本申请实施例的第四方面的第八种实现方式中，

所述训练模块，具体用于采用如下方式确定所述目标损失函数：

L＝L_cyc(G_t-s,G_s-t)+L_domain+L_det；

其中，所述L表示所述目标损失函数，所述L_cyc(G_t-s,G_s-t)表示所述第一损失函数，所述L_domain表示所述第二损失函数，所述L_det表示所述第三损失函数。

本申请第五方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过跨领域图像检测模型获取所述第二待检测图像所对应的检测结果，其中，所述检测结果包括目标对象的目标定位信息和目标类别信息，所述目标对象属于所述第一待检测图像中的被检测对象，所述跨领域图像检测模型包括第一网络模型以及第二网络模型，所述第一网络模型用于将图像从所述第一领域转换为所述第二领域，所述第二网络模型用于对所述第二领域的图像进行区域定位；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供一种基于图像的目标检测方法，首先获取第一待检测图像，其中，第一待检测图像属于第一领域，然后通过跨领域图像检测模型获取第一待检测图像所对应的第二待检测图像，其中，第二待检测图像属于第二领域，最后通过跨领域图像检测模型获取第二待检测图像所对应的检测结果，其中，检测结果包括目标对象的目标定位信息和目标类别信息，目标对象属于第一待检测图像。通过上述方式，无需特意采用与测试集图像风格相同的待检测图像进行目标定位，而是采用跨领域图像检测模型，将待检测图像的风格转换为测试集图像的风格，进而对转换后的图像进行目标定位，从而提升图像定位的准确性，增强模型预测效果。

附图说明

图1为本申请实施例中跨领域目标检测的一个对比示意图；

图2为本申请实施例中目标检测系统的一个架构示意图；

图3为本申请实施例中基于自动驾驶系统的一个目标检测效果示意图；

图4为本申请实施例中基于自动驾驶系统的另一个目标检测效果示意图；

图5为本申请实施例中基于图像的目标检测方法一个实施例示意图；

图6为本申请实施例中第一待检测图像的一个实施例示意图；

图7为本申请实施例中第二待检测图像的一个实施例示意图；

图8为本申请实施例中待进行目标定位的图像的一个实施例示意图；

图9为本申请实施例中跨领域图像检测模型的一个部署流程示意图；

图10为本申请实施例中模型训练的方法一个实施例示意图；

图11为本申请实施例中不同领域的图像对比示意图；

图12为本申请实施例中两类可用于训练跨领域图像检测模型的图像对比示意图；

图13为本申请实施例中跨领域图像检测模型的一个结构示意图；

图14为本申请实验结果中检测得到的一个图像对比示意图；

图15为本申请实验结果中检测得到的另一个图像对比示意图；

图16为本申请实验结果中从Sim10k数据集到Kitti数据集的一个转换效果示意图；

图17为本申请实验结果中从Cityscapes数据集到Foggy-Cityscapes数据集的一个转换效果示意图；

图18为本申请实施例中目标检测装置一个实施例示意图；

图19为本申请实施例中模型训练装置一个实施例示意图；

图20为本申请实施例中模型训练装置另一个实施例示意图；

图21为本申请实施例中终端设备的一个结构示意图；

图22为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提出一种基于对抗学习的跨领域图像目标检测方法，适用于解决深度卷积神经网络当面对训练集数据和测试集数据分布不同时，导致测试精度低的问题。具体地，本申请可以广泛地用于图像目标检测任务，尤其针对实际应用中，训练集图像和测试集图像分布不同的情况有更为重要意义。实际情况下，多数训练集图像和测试集图像的领域分布是不同的，例如在无人车的目标检测场景中，训练时所采用的训练集图像是自来A城市的场景图片，而实际测试时所使用的测试集图像则使用来自B城市的场景图片，可见，两个城市的图片通常领域分布不一致。又比如，训练时所采用的训练集图像是来自室内的场景图片，测试时所采用的测试集图像是来自室外的场景图片，可见，室内和室外的领域分布也不一致。又比如，训练时所采用的训练集图像中的汽车品牌颜色，与测试时所采用的测试集图像中的汽车品牌颜色也可能不同。请参阅图1，图1为本申请实施例中跨领域目标检测的一个对比示意图，在图1的(a)图和(b)图分别来自两个领域分布，很显然，虽然两者都能检测到“汽车”这个物体，但是两类图像的风格差异较大。众所周知，深度网络当面对训练集图像和测试集图像分布差异大时，往往在测试集图像上的泛化性差，且测试精度低，目标检测的深度网络模型同样不能避免该问题。

为了便于理解，本申请提出了一种基于图像的目标检测方法，该方法应用于图2所示的目标检测系统，请参阅图2，图2为本申请实施例中目标检测系统的一个架构示意图，如图所示，在服务器中实现本申请提出的模型训练方法，即服务器在训练跨领域图像检测模型过程中引入了两个子网络模型，第一个是像素领域适应(Pixel Domain Adaptation，PDA)网络模型,第二个为特征领域适应(Feature Domain Adaptation，FDA)网络模型，PDA网络将原始的训练集图像变换为测试集风格的图像，使模型训练时以变换后测试集风格图像作为输入，从而更有助于跨领域图像检测模型对测试集风格图像的适应。FDA网络则在特征层面约束模型学习测试集风格的特征。在服务器训练得到跨领域图像检测模型之后，客户端获取待检测图像，这里的待检测图像与训练集图像属于相同的领域分布，于是，客户端将待检测图像输入至服务器训练好的跨领域图像检测模型中，然后由跨领域图像检测模型待检测图像的风格变换为测试集图像的风格，并用对抗学习方法确保该转换的效果逼真，从而制造了测试集图像风格的待检测图像，使得在测试集领域的图像上的预测效果得到增强。

此外，跨领域图像检测模型还引入了判别器，该判别器用于判断检测器学习的特征是否来自于测试集图像的领域，再通过对抗学习确保待检测图像通过检测器学习到的特征与测试集图像的特征足够相似，使判别器无法区分，进一步确保了待检测图像在检测时充分变换为测试集图像的风格。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于无人车、机器人、平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personalcomputer，PC)，此处不做限定。

目标检测的目的是为每个对象(比如人、自行车、摩托车或汽车等)分配一个定位信息(如边界框)以及类别信息(如类标签)，目标检测在现代自动驾驶系统中发挥着重要作用，这是因为检测其他交通参与者至关重要，请参阅图3，图3为本申请实施例中基于自动驾驶系统的一个目标检测效果示意图,，如图所示，在图3所对应的图像中标注出汽车的定位信息(即边界框)以及类别信息(即“汽车”)。请参阅图4，图4为本申请实施例中基于自动驾驶系统的另一个目标检测效果示意图，如图所示，在图4所对应的图像中标注出汽车和行人的定位信息(即边界框)以及类别信息(即“汽车”和“行人”)。

应理解，本申请除了可以应用于无人车场景，还可以应用于其他场景，比如机器人执行任务的场景，比如，在机器人执行凶险任务的时候，可能很难直接获取到凶险场景下真实的测试集图像，因此，需要通过凶险场景下模拟的训练集图像进行训练，采用本申请所提供的模型训练方法即可以对抗学习使训练集图像的风格变换为测试集图像的风格，能够在检测器学习特征之前确保训练集图像与测试集图像尽量来自于同一个领域分布，然后再以对抗损失函数约束训练集图像与测试集图像学到的特征接近相对容易很多。

结合上述介绍，下面将对本申请中基于图像的目标检测方法进行介绍，请参阅图5，本申请实施例中基于图像的目标检测方法一个实施例包括：

101、获取第一待检测图像，其中，第一待检测图像属于第一领域；

本实施例中，首先目标检测装置获取第一待检测图像，目标检测装置通常部署于终端设备上，比如机器人或者无人车等终端设备。第一待检测图像属于第一领域，其中，该第一领域可以是指具体的场景，比如室内场景，也可以是指来自某个数据集的分布，比如来自Sim10k的数据集。第一待检测图像的获取方式可以是实时获取，比如通过终端设备的摄像头实时拍摄得到的图像，也可以是从图像数据库中提取的图像，此处不做限定。

102、获取第一待检测图像所对应的第二待检测图像，其中，第二待检测图像属于第二领域，第一领域与第二领域为不同的领域；

本实施例中，目标检测装置将第一待检测图像输入至跨领域图像检测模型，由跨领域图像检测模型中的PDA网络输出对应的第二待检测图像，其中，第二待检测图像属于第二领域，也就是与第一待检测图像属于两种不同的风格。为了便于理解，请参阅图6，图6为本申请实施例中第一待检测图像的一个实施例示意图，如图所示，第一待检测图像具体可以是从Sim10k数据集中采样的实像。经过PDA网络的转换后，如图7所示，请参阅图7，图7为本申请实施例中第二待检测图像的一个实施例示意图，第二待检测图像的风格与第一待检测图像的风格不同，即属于两个领域。

其中，待训练的跨领域图像检测模型可以包括两个部分，即第一待训练网络模型以及第二待训练网络模型，采用目标损失函数对这两个部分进行训练，分别得到第一待训练网络模型所对应第一网络模型，第一网络模型主要包括PDA网络，以及第二待训练网络模型所对应第二网络模型，第二网络模型主要包括的FDA网络以及物体检测网络。PDA网络主要用于将训练风格(即第一领域)的图像转换为测试风格(即第二领域)的图像。FDA网络主要用于约束图像风格(即约束转换后第二领域的图像风格)，物体检测网络主要用于对测试风格的图像进行对象检测。

103、通过跨领域图像检测模型获取第二待检测图像所对应的检测结果，其中，检测结果包括目标对象的目标定位信息和目标类别信息，目标对象属于第一待检测图像中的被检测对象，跨领域图像检测模型包括第一网络模型以及第二网络模型，第一网络模型用于将图像从第一领域转换为第二领域，第二网络模型用于对第二领域的图像进行区域定位。

本实施例中，目标检测装置通过跨领域图像检测模型中的PDA网络输出第二待检测图像，于是由跨领域图像检测模型中的FDA网络对第二待检测图像进行变换，得到待进行目标定位的图像，然后通过跨领域图像检测模型中的物体检测网络对该图像进行检测，从而得到检测结果。在第一待训练图像经过PDA网络以及FDA网络的变换后，即可得到如图8所示的图像，请参阅图8，图8为本申请实施例中待进行目标定位的图像的一个实施例示意图。

基于上述介绍的目标检测方法，其应用流程如图9所示，图9为本申请实施例中跨领域图像检测模型的一个部署流程示意图，首先，跨领域图像检测模型在训练集图像上进行预训练，得到一个较好的模型初始化权重，其中，训练集图像属于领域1。然后利用对抗学习的方法，同时采用有标注的训练集图像和未知标注的测试集图像继续训练，其中，测试集图像属于领域2，将属于领域1的训练集图像和属于领域2的测试集图像之间的特征对齐后，既可以共享同一个领域的特征，从而完成对跨领域图像检测模型(领域2的模型)的预测。采用本申请提供的跨领域图像检测模型将会对领域2的图像有较高的识别精度。初步测试结果表明，利用VGG16的卷积神经网络(Convolutional Neural Networks，CNN)结构，当训练集图像来源于Sim10K数据集，测试集图像来源于Kitti数据集时，采用现有方案进行预测的精度约为52.7％，而采用本申请进行预测的精度可到59.3％。得到更高精度的跨领域图像检测模型后，则可直接应用于测试集图像的预测。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图10，本申请实施例中模型训练的方法一个实施例包括：

201、获取待训练图像以及待测试图像，其中，待训练图像属于第一领域，待测试图像属于第二领域，第一领域与第二领域为不同的领域；

本实施例中，在进行模型训练之前需要获取待训练图像以及待测试图像，其中，待训练图像以及待测试图像属于两个不同的领域，即待训练图像属于第一领域，待测试图像属于第二领域。为了便于理解，请参阅图11，图11为本申请实施例中不同领域的图像对比示意图，如图所示，图中提供了四种不同领域的图像，其中，图11中的(a)图表示来自Cityscapes数据集的图像，(b)图表示来自Foggy-Cityscapes数据集的图像，(c)图表示来自Sim10k数据集的图像，(d)图表示来自Kitti数据集的图像，其中，FoggyCityscapes数据集和Sim10k数据集都是模拟驾驶场景的合成数据集。Foggy-Cityscapes数据集基于真实的Cityscapes数据集进行渲染，以模拟模糊的天气状况。Kitti数据集用于对自动驾驶中的不同视觉任务进行基准测试，例如深度估计、立体匹配、场景或光学估计以及物体检测等。

可以理解的是，第一领域可以是Sim10k数据集，第二领域可以是Kitti数据集，然而，这不应理解为对本申请的限定。请参阅图12，图12为本申请实施例中两类可用于训练跨领域图像检测模型的图像对比示意图，如图所示，其中，图12中的(a)图和(c)图表示来自Sim10k数据集的图像，(b)图和(d)图表示来自Kitti数据集的图像。

202、通过第一待训练网络模型获取待训练图像所对应的测试风格图像，通过第一待训练网络模型获取待测试图像所对应的训练风格图像，其中，测试风格图像属于第二领域，训练风格图像属于第一领域；

本实施例中，将待训练图像输入至第一待训练网络模型(具体可以是待训练的PDA网络)，由该第一待训练网络模型输出测试风格图像，类似地，将待测试图像输入至第一待训练网络模型，由该第一待训练网络模型输出训练风格图像。

具体地，为了便于说明，请参阅图13，图13为本申请实施例中跨领域图像检测模型的一个结构示意图，如图所示，其中，图13的左侧部分为PDA网络的模型结构，用于在训练FDA网络之前将源域转换为目标域，PDA网络主要采用循环对抗生成网络(CycleGenerative Adversarial Networks，CycleGAN)。右侧部分为FDA网络的模型结构，用于基于特征级别的对抗训练，物体检测部分增强了几个额外的神经层。假设待训练图像(real_s)，经过第一待训练网络模型(待训练的PDA网络)变换后，得到测试风格图像(fake_t)。待测试图像(real_t)经过第一待训练网络模型(待训练的PDA网络)变换后，得到训练风格图像(fake_s)，其中，测试风格图像(fake_t)与待测试图像(real_t)属于同一个领域，而训练风格图像(fake_s)与待训练图像(real_s)属于同一个领域。

203、通过第二待训练网络模型获取候选区域所对应的预测概率值，其中，候选区域是从待测试图像或测试风格图像中提取的候选框；

本实施例中，基于上述介绍，将待训练图像(real_s)变换为测试风格图像(fake_t)之后，会直接送入至第二待训练网络模型中的FDA网络，模型训练装置将测试风格图像(fake_t)与待测试图像(real_t)输入至FDA网络中判别器，由此，对测试风格图像(fake_t)和待测试图像(real_t)中所有位置的特征进行判断，即对来自待测试图像或来自测试风格图像上的候选框(bounding box，bbox)进行概率值的预测，从而得到获取候选区域所对应的预测概率值。

204、通过第二待训练网络模型获取测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值；

本实施例中，基于上述介绍，将测试风格图像(fake_t)输入至第二待训练网络模型，通过第二待训练网络模型输出第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，其中，跨领域图像检测模型中的物体检测网络具体可以包括区域生成网络(Region Proposal Network，RPN)和目标检测网络两个部分，第一预测类别概率值和第一预测定位值属于RPN输出的预测值，第二预测类别概率值和第二预测定位值属于目标检测网络输出的预测值。

物体检测网络用于进行特征学习和目标检测。其中，物体检测网络可以是基于更快区域的卷积神经网络(Regions with Convolutional Neural Network，RCNN)，或者基于区域的全卷积网络(Region-based Fully Convolutional Networks，RFCN)等。

205、根据预测概率值、测试风格图像、训练风格图像、第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，采用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练，得到跨领域图像检测模型。

本实施例中，模型训练装置结合预测概率值、测试风格图像、训练风格图像、第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，采用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练，得到跨领域图像检测模型，该跨领域图像检测模型可以将第一领域的图像转换为第二领域的图像后进行训练，也可以对第一领域的图像进行定位信息和类别信息的检测。具体地，第一待训练网络模型包括待训练的PDA网络，第二待训练网络模型包括FDA网络以及物体检测网络，物体检测网络具体可以包括RPN以及目标检测网络。

为了便于说明，请参阅图14，图14为本申请实验结果中检测得到的一个图像对比示意图，如图所示，图14中的(a)图是经过PDA网络变换后得到的车辆，(b)图是经过PDA网络和FDA网络变换后得到的车辆，不难看出，(b)图车辆的还原度和清晰度高于(a)图车辆的还原度和清晰度。请参阅图15，图15为本申请实验结果中检测得到的另一个图像对比示意图，如图所示，图15中的(a)图是经过PDA网络变换后得到的车辆，(b)图是经过PDA网络和FDA网络变换后得到的车辆，不难看出，(b)图车辆的还原度和清晰度同样高于(a)图车辆的还原度和清晰度。

本申请实施例中，提供了一种模型训练的方法，首先，获取待训练图像以及待测试图像，然后通过第一待训练网络模型获取待训练图像所对应的测试风格图像，通过第一待训练网络模型获取待测试图像所对应的训练风格图像，通过第二待训练网络模型用于获取候选区域所对应的预测概率值，通过第二待训练网络模型获取测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，最后用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练，得到跨领域图像检测模型。通过上述方式，训练得到的领域图像检测模型可以实现跨领域图像的变换，采用跨领域图像检测模型，可以将训练集图像的风格转换为测试集图像的风格，进而对转换后的图像进行目标定位，从而提升图像定位的准确性，增强模型预测效果。

可选地，在上述图10对应的实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，根据预测概率值、测试风格图像、训练风格图像、第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，采用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练，可以包括：

根据测试风格图像以及训练风格图像确定第一损失函数；

根据预测概率值确定第二损失函数；

根据第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，确定第三损失函数；

根据第一损失函数、第二损失函数以及第三损失函数，生成目标损失函数；

采用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练。

本实施例中，将介绍目标损失函数的组成内容。首先，在模型训练装置获取到测试风格图像以及训练风格图像之后，根据待训练图像、待测试图像测试风格图像以及训练风格图像确定第一损失函数。接下来，模型训练装置根据待测试图像或测试风格图像所对应的预测概率值，确定第二损失函数。最后，模型训练装置可以根据RPN生成的第一预测类别概率值、第一真实类别概率值、第一预测定位值以及第一真实定位值，对RPN进行训练，同时，根据目标检测网络生成的第二预测类别概率值、第二真实类别概率值、第二预测定位值以及第二真实定位值，对目标检测网络进行训练。即根据第一预测类别概率值、第一真实类别概率值、第一预测定位值、第一真实定位值、第二预测类别概率值、第二真实类别概率值、第二预测定位值以及第二真实定位值生成第三损失函数。

结合第一损失函数、第二损失函数以及第三损失函数，得到目标损失函数，采用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练。

其次，本申请实施例中，提供了一种得到目标损失函数的过程，即根据测试风格图像以及训练风格图像确定第一损失函数，然后根据预测概率值确定第二损失函数，再根据第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，确定第三损失函数，最后生成目标损失函数，并采用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练。通过上述方式，将模型训练的过程分为三个部分，分别采用三个损失函数进行相应的训练，从而提升训练的灵活性和可操作性。

可选地，在上述图10对应的第一个实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，根据测试风格图像以及训练风格图像确定第一损失函数，可以包括：

采用如下方式确定第一损失函数；

其中，L_cyc(G_t-s,G_s-t)表示第一损失函数，x_t表示待测试图像，x_s表示待训练图像，G_s-t表示将待训练图像变换为测试风格图像的生成器，G_t-s表示将待测试图像变换为训练风格图像的生成器，G_t-s(x_t)表示训练风格图像，G_s-t(x_s)表示测试风格图像，E_s～X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算，E_t～X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算。

本实施例中，第一待训练网络模型的训练主要基于对CycleGAN的学习。传统的GAN是单向生成，而CycleGAN是互相生成，网络是个环形。CycleGAN其实就是一个从A到B单向GAN加上一个从B到A单向GAN。两个GAN共享两个生成器，然后各自带一个判别器，所以加起来总共有两个判别器和两个生成器。一个单向GAN有两个损失，而CycleGAN总共有四个损失。其中，本申请中，判别器的损失分开计算，生成器的可以损失合并在一起计算，从而得到如下第一损失函数：

可以理解的是，G_t-s和G_s-t是具体使用的变换网络，其可以是任意深度卷积神经网络模型，比如VGG网络或者残差神经网络(Residual Neural Network，ResNet)等。在本申请中，生成器可以拆分为两个部分，如图13所示的G_s-t和G_t-s，其中，第一个生成器G_s-t用于将原始的待训练图像变换为测试风格图像，第二个生成器G_t-s用于将待测试图像变换为训练风格图像。

在实际应用中，也GAN可以学习映射函数G_t-s和G_s-t，以生成从待测试图像的数据分布和待训练图像的数据分布中采样的图像。但是采用GAN可能会丢失源图像的结构信息，为了解决上述问题，因此，可以采用循环一致性的第一损失函数来强制G_s-t生成的图像，与G_t-s生成的图像具有相同的图像效果，反之亦然。

再次，本申请实施例中，提供了一种根据测试风格图像以及训练风格图像确定第一损失函数的具体方式。通过上述方式，能够在没有成对训练数据的情况下，将图像内容从源域迁移到目标域，第一待训练网络模型在训练时，只需要将源域的图像和目标域的图像作为输入即可，并不要求源域跟目标域的图像内容是匹配的，从而具有灵活性。此外，采用第一损失函数可以确保训练集图像经过两次变换后与初始的训练集图像尽可能相同，以及测试集图像经过两次变换后也与初始的测试集图像尽可能相同。

可选地，在上述图10、图10对应的第一个或第二个实施例的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，通过第一待训练网络模型获取待训练图像所对应的测试风格图像，通过第一待训练网络模型获取待测试图像所对应的训练风格图像之后，还可以包括：

通过第一判别器对测试风格图像进行真实性检测，其中，第一判别器为采用第一对抗损失函数进行训练后得到的；

通过第二判别器对训练风格图像进行真实性检测，其中，第二判别器为采用第二对抗损失函数进行训练后得到的。

本实施例中，将介绍如何采用判别器对第一待训练网络模型进行训练。判别器主要用于对生成器生成的结果和真实结果进行判断，目的是要让生成的结果更接近真实结果，达到“以假乱真”的目的，比如，对于待测试图像而言，第一判别器判定其标签为1，对于测试风格图像而言，第一判别器判定其标签为0。又比如，对于待训练图像而言，第二判别器判定其标签为1，对于训练风格图像而言，第二判别器判定其标签为0。

其中，第一判别器主要用于区分变换后的图像是真实的测试集图像，还是由待训练图像变换后得到的测试风格图像。第二个判别器主要用于区分图像是原始的训练集图像，还是经过变换得到的训练风格图像。

进一步地，本申请实施例中，在通过第一待训练网络模型获取待训练图像所对应的测试风格图像，通过第一待训练网络模型获取待测试图像所对应的训练风格图像之后，还可以通过第一判别器对测试风格图像进行真实性检测，并且通过第二判别器对训练风格图像进行真实性检测。通过上述方式，能够采用判别器对生成器生成的图像进行真假识别，从而有利于提升模型训练的效果。

可选地，在上述图10对应的第三个实施例的基础上，本申请实施例提供的模型训练的方法第四个可选实施例中，通过第一判别器对测试风格图像进行真实性检测之前，还可以包括：

采用如下方式获取第一对抗损失函数：

L_GAN(D_t,G_s-t)＝E_t～X(t)[logD_t(x)]+E_s～X(s)[log(1-D_t(G_s-t(s)))]；

其中，L_GAN(D_t,G_s-t)表示第一对抗损失函数，E_s～X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算，E_t～X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算，D_t()表示第一判别器，s表示第一领域的图像，G_s-t()表示将第一领域的图像变换为二领域的图像的网络，x表示输入的图像。

本实施例中，为了便于介绍，请继续参阅图13，在采用G_s-t和G_t-s分别在两个域中生成伪造的图像之后，需要训练两个判别器，即第一判别器D_t和第二判别器D_s，以此区分真实图像和伪造图像。生成器总是试图生成无法与真实图像区分的图像，同时训练判别器可以对真实图像和伪造图像进行分类。

于是，采用如下第一判别器的第一对抗损失函数进行训练：

L_GAN(D_t,G_s-t)＝E_t～X(t)[logD_t(x)]+E_s～X(s)[log(1-D_t(G_s-t(s)))]；

更进一步地，本申请实施例中，提供了一种通过第一判别器对测试风格图像进行真实性检测之前，还可以获取第一对抗损失函数，通过第一对抗损失函数进行模型效果的判别。通过上述方式，可以使得从第一领域变到第二领域的图像更接近第二领域的图像，从而提升方案的可行性。

可选地，在上述图10对应的第三个实施例的基础上，本申请实施例提供的模型训练的方法第五个可选实施例中，通过第二判别器对训练风格图像进行真实性检测之前，还可以包括：

采用如下方式获取第二对抗损失函数：

L_GAN(D_s,G_t-s)＝E_s～X(s)[logD_s(x)]+E_t～X(t)[log(1-D_s(G_t-s(t)))]；

其中，L_GAN(D_s,G_t-s)表示第二对抗损失函数，E_s～X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算，E_t～X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算，D_s()表示第二判别器，t表示第二领域的图像，G_t-s()表示将第二领域的图像变换为一领域的图像的网络，x表示输入的图像。

于是，采用如下第一判别器的第二对抗损失函数进行训练：

L_GAN(D_s,G_t-s)＝E_s～X(s)[logD_s(x)]+E_t～X(t)[log(1-D_s(G_t-s(t)))]；

更进一步地，本申请实施例中，提供了一种通过第二判别器对训练风格图像进行真实性检测之前，还可以获取第二对抗损失函数，通过第二对抗损失函数进行模型效果的判别。通过上述方式，可以使得从第二领域变回到第一领域的图像更接近第一领域的图像，从而提升方案的可行性。

可选地，在上述图10对应的第一个实施例的基础上，本申请实施例提供的模型训练的方法第六个可选实施例中，根据预测概率值确定第二损失函数，可以包括：

采用如下方式确定第二损失函数；

其中，L_domain表示第二损失函数，p_i,j表示第i个候选区域在第j类上的预测概率值，d表示图像来源值。

本实施例中，在待训练图像变换成测试风格图像之后，会输入至物体检测网络进行特征学习和目标检测。其中，物体检测网络中间层学习的特征被输入到一个FDA网络所对应的判别器，该判别器用于判别特征是来自于真实的待测试图像，还是由待训练图像变换后得到的测试风格图像。训练时所采用的第二损失函数为:

其中，L_domain表示第二损失函数，p_i,j表示第i个候选区域在第j类上的预测概率值，d表示图像来源值。该第二损失函数对所有位置的特征进行判断。当该特征来自于真实的待测试图像时d＝1，该特征来自于变换得到的测试风格图像时d＝0，p_i,j表示第i个候选区域在第j类上的预测概率值，即来自真实的待测试图像时j＝0，来自于变换得到的测试风格图像时j＝1。

再次，本申请实施例中，提供了一种根据预测概率值确定第二损失函数的具体方式。通过上述方式，可以判别图像的特征是来自于真实的测试集图像，还是训练集图像变换后得到的测试风格图像，从而使得模型输出的图像更贴近实际图像。

可选地，在上述图10对应的第一个实施例的基础上，本申请实施例提供的模型训练的方法第七个可选实施例中，根据第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，确定第三损失函数，可以包括：

采用如下方式确定第三损失函数；

其中，L_det(p,u,t^m,v)表示第三损失函数，L_rpn-cls表示第二待训练网络模型中区域生成网络RPN的分类损失函数，p_rpn表示RPN的第一预测类别概率值，u_rpn表示RPN的第一真实类别概率值，L_rpn-loc表示第二待训练网络模型中RPN的定位损失函数，表示RPN的第一预测定位值，v_rpn表示RPN的第一真实定位值，L_obj-cls表示第二待训练网络模型中目标检测网络的分类损失函数，p_obj表示目标检测网络的第二预测类别概率值，u_obj表示目标检测网络的第二真实类别概率值，L_obj-loc表示第二待训练网络模型中目标检测网络的定位损失函数，表示目标检测网络的第二预测定位值，v_obj表示目标检测网络的第二真实定位值。

本实施例中，介绍了物体检测网络的训练方式，以Faster RCNN的物体检测网络为例，Faster RCNN检测损失函数如下：

具体地，假设目标检测任务中有m个类别，区域分类层将输出m+1维概率分布，p＝(p0,p1,…pm)，还有一个用于背景的类别。通过边界框回归层为每个可能的类别预测实数值t^m。其中，可以采用交叉熵来计算分类损失和平滑L1损失，域类学习将假设分类为测试风格图像(fake_t)标签设置为d＝0，将待测试图像(real_t)标签设置为d＝1。

再次，本申请实施例中，提供了一种根据第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，确定第三损失函数的方法。通过上述方式，能够为模型的训练提供具有的实现方式，从而提升方案的可行性和可操作性。

可选地，在上述图10对应的第一个实施例的基础上，本申请实施例提供的模型训练的方法第八个可选实施例中，根据第一损失函数、第二损失函数以及第三损失函数，生成目标损失函数，可以包括：

采用如下方式确定目标损失函数：

L＝L_cyc(G_t-s,G_s-t)+L_domain+L_det；

其中，L表示目标损失函数，L_cyc(G_t-s,G_s-t)表示第一损失函数，L_domain表示第二损失函数，L_det表示第三损失函数。

本实施例中，基于上述对第一损失函数、第二损失函数以及第三损失函数的介绍，可以得到目标损失函数：

L＝L_cyc(G_t-s,G_s-t)+L_domain+L_det；

为了更容易理解，并且为了更好地控制各个损失函数之间的重要性，可以得到如下完整训练下的目标损失函数：

L_full＝λ₁L_det+λ₂L_domain+λ₃(L_cyc+L_GAN(D_s,G_t-s)+L_GAN(D_t,G_s-t))；

基于上述公式，L_full表示完整训练下的目标损失函数，λ₁、λ₂和λ₃分别表示三个权重系数，用于平衡不同的损失。

受到图形处理器(Graphics Processing Unit，GPU)内存的限制，在训练阶段将图像的高度缩放至512个像素，然后裁剪尺寸为512×512的图像块，以此实现像素级的自适应。考虑到训练过程的稳定性以及图像的质量，可以采用最小二乘GAN目标替换对抗性损失的对数似然目标。在实际训练过程中，基于第一待训练网络模型以及第二待训练网络模型进行端到端的训练，考虑到在第一待训练网络模型(待训练的PDA网络)的起始训练阶段中，大多数生成的图像都具有较大噪声，因此，可以使用Adam优化器训练第一待训练网络模型(待训练的PDA网络)，可以理解的是，其初始学习率可设置为0.0002，在30次迭代训练之后，学习速率在30次迭代的训练过程中衰减为0。采用标准随机梯度下降(Stochasticgradient descent,SGD)算法对第二待训练网络模型(待训练的FDA网络)进行训练，其初始学习率可设置为0.001，在6次迭代训练之后，将学习率降低到0.0001，并且将继续进行3次迭代训练。

对于端到端的训练，将上述提到的学习率都缩小10被，然后将PDA网络和FDA网络进行迭代次数的微调，并将λ₁＝130，λ₂＝0.5，λ₃＝0.5，将24吉字节(Gigabyte，GB)内存的Tesla M40的GPU用于本申请的网络训练，可得到如下结果，请参阅表1，表1为使用Sim10k作为训练数据集，使用Cityscapes为测试数据集的分析检测结果。

表1

	PDA网络	FDA网络	PDA+FDA网络	模型性能指标(％)
					Faster R-CNN	-	-	-	30.1
目前最高	-	-	-	38.97
					本申请的模型	√	-	-	37.8
本申请的模型	-	√	-	33.8
					本申请的模型	√	√	√	39.6
oracle大网络	-	-	-	48.3

由此可见，由于oracle是指直接在测试集所对应的领域2上训练得到的模型，所以模型性能指标最高，其次，采用本申请提供的PDA网络+FDA网络的模型性能是最好的。

再次，本申请实施例中，提供了一种确定目标损失函数的具体方式。通过上述方式，结合了三个损失函数生成的目标损失函数，能够更好地控制跨领域图像检测模型的训练，从而提升训练的可靠性和可操作性。

为了便于介绍，下面将结合在自动驾驶环境中的实验结果，对本申请所提供的模型进行介绍。请参阅图16，图16为本申请实验结果中从Sim10k数据集到Kitti数据集的一个转换效果示意图，如图所示，其中，图16中的(a)图和(c)图来自Sim10k数据集，图16中的(b)图和(d)图来自Kitti数据集。请参阅表2，表2为使用Sim10k数据集作为源数据集在Kitti数据集上评估检测结果。

表2

	PDA网络	FDA网络	PDA+FDA网络	模型性能指标(％)
					Faster R-CNN	-	-	-	52.7
本申请的模型	√	-	-	58.4
					本申请的模型	-	√	-	55.3
本申请的模型	√	√	√	59.3

由此可见，Faster R-CNN的模型性能指标可到达52.67％，而通过独立的PDA网络可以将模型性能指标提高到58.4％，通过独立的FDA网络可以将模型性能指标提高到55.3％，经过端到端训练，可以获得59.3％的模型性能指标，显然，采用PDA网络和FDA网络可以提升模型的准确度。

请参阅图17，图17为本申请实验结果中从Cityscapes数据集到Foggy-Cityscapes数据集的一个转换效果示意图，如图所示，其中，图17中的(a)图和(c)图来自Cityscapes数据集，图16中的(b)图和(d)图来自Foggy-Cityscapes数据集，请参阅表3，表3为使用Cityscapes数据集作为源数据集在Foggy-Cityscapes数据集上评估检测结果。

表3

	PDA网络	FDA网络	PDA+FDA网络	模型性能指标(％)
					Faster R-CNN	-	-	-	18.8
目前最高	-	-	-	27.6
					本申请的模型	√	-	-	27.1
本申请的模型	-	√	-	23.6
					本申请的模型	√	√	√	28.9
oracle大网络	-	-	-	35.0

由此可见，采用本申请所提供的模型能够比oracle大网络结果获得10.1％以上的性能提升，比目前最高(State Of The Art，SOTA)获得1.8％以上的提升，即PDA网络和FDA网络都可以在很大程度上提高检测性能。基于对几个不同的数据集进行了广泛的实验，结果证明了本申请提供的模型具有较好的稳健性和优越性。

下面对本申请中的目标检测装置进行详细描述，请参阅图18，图18为本申请实施例中目标检测装置一个实施例示意图，目标检测装置30包括：

获取模块301，用于获取第一待检测图像，其中，所述第一待检测图像属于第一领域；

所述获取模块301，还用于获取第一待检测图像所对应的第二待检测图像，其中，所述第二待检测图像属于第二领域，所述第一领域与所述第二领域为不同的领域；

检测模块302，用于通过跨领域图像检测模型获取所述获取模块301获取到的所述第二待检测图像所对应的检测结果，其中，所述检测结果包括目标对象的目标定位信息和目标类别信息，所述目标对象属于所述第一待检测图像中的被检测对象，所述跨领域图像检测模型包括第一网络模型以及第二网络模型，所述第一网络模型用于将图像从所述第一领域转换为所述第二领域，所述第二网络模型用于对所述第二领域的图像进行区域定位。

本实施例中，获取模块301获取第一待检测图像，其中，所述第一待检测图像属于第一领域，所述获取模块301获取第一待检测图像所对应的第二待检测图像，其中，所述第二待检测图像属于第二领域，所述第一领域与所述第二领域为不同的领域，检测模块302通过跨领域图像检测模型获取所述获取模块301获取到的所述第二待检测图像所对应的检测结果，其中，所述检测结果包括目标对象的目标定位信息和目标类别信息，所述目标对象属于所述第一待检测图像中的被检测对象，所述跨领域图像检测模型包括第一网络模型以及第二网络模型，所述第一网络模型用于将图像从所述第一领域转换为所述第二领域，所述第二网络模型用于对所述第二领域的图像进行区域定位。

本申请实施例中，提供一种基于图像的目标检测装置，首先该装置获取第一待检测图像，其中，第一待检测图像属于第一领域，然后通过跨领域图像检测模型获取第一待检测图像所对应的第二待检测图像，其中，第二待检测图像属于第二领域，最后通过跨领域图像检测模型获取第二待检测图像所对应的检测结果，其中，检测结果包括目标对象的目标定位信息和目标类别信息，目标对象属于第一待检测图像。通过上述方式，无需特意采用与测试集图像风格相同的待检测图像进行目标定位，而是采用跨领域图像检测模型，将待检测图像的风格转换为测试集图像的风格，进而对转换后的图像进行目标定位，从而提升图像定位的准确性，增强模型预测效果。

下面对本申请中的模型训练装置进行详细描述，请参阅图19，图19为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练图像以及待测试图像，其中，所述待训练图像属于第一领域，所述待测试图像属于第二领域，所述第一领域与所述第二领域为不同的领域；

所述获取模块401，还用于通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像，其中，所述测试风格图像属于所述第二领域，所述训练风格图像属于所述第一领域；

所述获取模块401，还用于通过第二待训练网络模型获取候选区域所对应的预测概率值，其中，所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框；

训练模块402，用于根据所述获取模块401获取的所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练，得到跨领域图像检测模型。

本实施例中，获取模块401获取待训练图像以及待测试图像，其中，所述待训练图像属于第一领域，所述待测试图像属于第二领域，所述第一领域与所述第二领域为不同的领域，所述获取模块401通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像，其中，所述测试风格图像属于所述第二领域，所述训练风格图像属于所述第一领域，所述获取模块401通过第二待训练网络模型获取候选区域所对应的预测概率值，其中，所述候选区域是从所述待测试图像或所述测试风格图像中提取的候选框，所述获取模块通过所述第二待训练网络模型获取所述测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，训练模块402根据所述获取模块401获取的所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练，得到跨领域图像检测模型。

本申请实施例中，提供了一种模型训练装置，首先，获取待训练图像以及待测试图像，然后通过第一待训练网络模型获取待训练图像所对应的测试风格图像，通过第一待训练网络模型获取待测试图像所对应的训练风格图像，通过第二待训练网络模型用于获取候选区域所对应的预测概率值，通过第二待训练网络模型获取测试风格图像所对应的第一预测类别概率值、第一预测定位值、第二预测类别概率值以及第二预测定位值，最后用目标损失函数对第一待训练网络模型以及第二待训练网络模型进行训练，得到跨领域图像检测模型。通过上述方式，训练得到的领域图像检测模型可以实现跨领域图像的变换，采用跨领域图像检测模型，可以将训练集图像的风格转换为测试集图像的风格，进而对转换后的图像进行目标定位，从而提升图像定位的准确性，增强模型预测效果。

可选地，在上述图19所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述训练模块402，具体用于根据所述测试风格图像以及所述训练风格图像确定第一损失函数；

根据所述预测概率值确定第二损失函数；

所述训练模块402，具体用于采用如下方式确定所述第一损失函数；

可选地，在上述图19所对应的实施例的基础上，请参阅图20，本申请实施例提供的模型训练装置40的另一实施例中，所述模型训练装置40还包括检测模块403；

所述检测模块403，用于在所述获取模块401通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后，通过第一判别器对所述测试风格图像进行真实性检测，其中，所述第一判别器为采用第一对抗损失函数进行训练后得到的；

所述检测模块403，还用于在所述获取模块401通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后，通过第二判别器对所述训练风格图像进行真实性检测，其中，所述第二判别器为采用第二对抗损失函数进行训练后得到的。

可选地，在上述图20所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述获取模块401，还用于所述检测模块403通过第一判别器对所述测试风格图像进行真实性检测之前，采用如下方式获取所述第一对抗损失函数：

L_GAN(D_t,G_s-t)＝E_t～X(t)[logD_t(x)]+E_s～X(s)[log(1-D_t(G_s-t(s)))]；

其中，所述L_GAN(D_t,G_s-t)表示所述第一对抗损失函数，所述E_s～X(s)表示对待训练图像集合中的每个待训练图像进行期望值计算，所述E_t～X(t)表示对待测试图像集合中的每个待测试图像进行期望值计算，所述D_t()表示所述第一判别器，所述s表示所述第一领域的图像，所述G_s-t()表示将所述第一领域的图像变换为所述二领域的图像的网络，所述x表示输入的图像。

所述获取模块401，还用于所述检测模块403通过第一判别器对所述测试风格图像进行真实性检测之前，采用如下方式获取所述第二对抗损失函数：

L_GAN(D_s,G_t-s)＝E_s～X(s)[logD_s(x)]+E_t～X(t)[log(1-D_s(G_t-s(t)))]；

可选地，在上述图19或图20所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述训练模块402，具体用于采用如下方式确定所述第二损失函数；

所述训练模块402，具体用于采用如下方式确定所述第三损失函数；

所述训练模块402，具体用于采用如下方式确定所述目标损失函数：

L＝L_cyc(G_t-s,G_s-t)+L_domain+L_det；

本申请实施例还提供了另一种目标检测装置，如图21所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备设备，以终端设备为手机为例：

图21示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图21，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图21中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图21对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图21中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图21示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器580还具有以下功能：

图22是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图22所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 622还具有以下功能：

可选地，该服务器所包括的CPU 622具体用于执行如下步骤：

根据所述测试风格图像以及所述训练风格图像确定第一损失函数；

根据所述预测概率值确定第二损失函数；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练，得到所述跨领域图像检测模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练，包括：

根据所述预测概率值确定第二损失函数；

3.根据权利要求2所述的方法，其特征在于，所述根据所述测试风格图像以及所述训练风格图像确定第一损失函数，包括：

采用如下方式确定所述第一损失函数；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述通过第一待训练网络模型获取所述待训练图像所对应的测试风格图像，通过所述第一待训练网络模型获取所述待测试图像所对应的训练风格图像之后，所述方法还包括：

通过第一判别器对所述测试风格图像进行真实性检测，其中，所述第一判别器为采用第一对抗损失函数进行训练后得到的；

通过第二判别器对所述训练风格图像进行真实性检测，其中，所述第二判别器为采用第二对抗损失函数进行训练后得到的。

5.根据权利要求4所述的方法，其特征在于，所述通过第一判别器对所述测试风格图像进行真实性检测之前，所述方法还包括：

采用如下方式获取所述第一对抗损失函数：

L_GAN(D_t,G_s-t)＝E_t～X(t)[logD_t(x)]+E_s～X(s)[log(1-D_t(G_s-t(s)))]；

6.根据权利要求4所述的方法，其特征在于，所述通过第二判别器对所述训练风格图像进行真实性检测之前，所述方法还包括：

采用如下方式获取所述第二对抗损失函数：

L_GAN(D_s,G_t-s)＝E_s～X(s)[logD_s(x)]+E_t～X(t)[log(1-D_s(G_t-s(t)))]；

7.根据权利要求2所述的方法，其特征在于，所述根据所述预测概率值确定第二损失函数，包括：

采用如下方式确定所述第二损失函数；

8.根据权利要求2所述的方法，其特征在于，所述根据所述所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，确定第三损失函数，包括：

采用如下方式确定所述第三损失函数；

9.根据权利要求2所述的方法，其特征在于，所述根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，生成所述目标损失函数，包括：

采用如下方式确定所述目标损失函数：

L＝L_cyc(G_t-s,G_s-t)+L_domain+L_det；

10.一种基于图像的目标检测方法，其特征在于，包括：

11.一种目标检测装置，其特征在于，包括：

12.一种模型训练装置，其特征在于，包括：

13.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取第一待检测图像所对应的第二待检测图像，其中，所述第二待检测图像属于第二领域，所述第一领域与所述第二领域为不同的领域，

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述预测概率值、所述测试风格图像、所述训练风格图像、所述第一预测类别概率值、所述第一预测定位值、所述第二预测类别概率值以及所述第二预测定位值，采用目标损失函数对所述第一待训练网络模型以及所述第二待训练网络模型进行训练，得到跨领域图像检测模型；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法，或者执行如权利要求10所述的方法。