Nothing Special   »   [go: up one dir, main page]

CN115147644A - 图像描述模型的训练和描述方法、系统、设备及存储介质 - Google Patents

图像描述模型的训练和描述方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115147644A
CN115147644A CN202210658065.XA CN202210658065A CN115147644A CN 115147644 A CN115147644 A CN 115147644A CN 202210658065 A CN202210658065 A CN 202210658065A CN 115147644 A CN115147644 A CN 115147644A
Authority
CN
China
Prior art keywords
domain image
target
cross
style
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210658065.XA
Other languages
English (en)
Inventor
陆阳
赵明
杨帆
白婷
闻斌
张立
卫星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210658065.XA priority Critical patent/CN115147644A/zh
Publication of CN115147644A publication Critical patent/CN115147644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供图像描述模型的训练和描述方法、系统、设备及存储介质,属于图像识别技术领域。图像描述模型的训练方法包括:获取训练集,训练集包括带有标签的源域图像和不带标签的目标域图像;获取跨域图像描述模型,跨域图像描述模型包括风格迁移模块、对比学习模块和目标检测模块;基于训练集对风格迁移模块、对比学习模块和目标检测模块进行联合训练,获得训练好的跨域图像描述模型,跨域图像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。本发明能够最大化减小对比损失以及源域和目标域之间的差异,有效提升了不同域下的检测能力,不需对人工采集的目标域图像进行标注,便能实现对目标域图像进行描述。

Description

图像描述模型的训练和描述方法、系统、设备及存储介质
技术领域
本发明涉及图像识别技术领域,具体涉及图像描述模型的训练和描述方法、 系统、设备及存储介质。
背景技术
在很多现实场景中,一般的视觉任务例如图像识别、目标检测、图像平移 等,总是面临着来自视角、光照、背景、遮挡物、场景变换等方面的严峻挑战。 这些不可避免的因素使这些领域转移环境下的任务成为近年来一个具有挑战性 和新兴的研究方向。在视频监控、自动驾驶等现实任务中,领域的变换也是一 个被广泛认可且迫切需要突破的问题,因此,为了推动这一领域的发展,亟需 进行大规模的跨领域基准测试。
目前,现有技术中常用的跨域自适应目标检测(Cross-Domain ObjectDetection)目的是在领域移动的情况下学习特征相关表示,其中训练数据(源 域)是带有包围框标注的丰富标签,而测试数据(目标域)的标签是较少或者 没有。源域和目标域之间的特征分布不同,导致训练好的模型泛化性较差,通 过在训练过程中对齐两个域的分布,使源域的标签监督对目标域更具有可共享 性,从而获得具有增强泛化能力的检测器。然而在域自适应中存在两大难点: 第一,域差异无法消除,性能急剧下降,导致无法收敛,所以在源域上训练的 分类器不能直接运用到目标域;第二,我们无法得知源域类别空间中的何种部 分与目标域类别空间共享特征,因为目标域类别空间在训练中无法访问。
因此,需要提供图像描述模型的训练和描述方法、系统、设备及存储介质, 以解决上述问题。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种图像描述模型的训 练和描述方法、系统、设备及存储介质,以改善现有技术中,由于跨域自适应 目标检测方法训练的分类器无法消除域差,分类器在训练中无法对齐源域和目 标域的共同特征,致使训练出的分类器无法对目标域图像有效识别的技术问题。
为实现上述目的及其它相关目的,本发明提一种跨域图像描述模型的训练 方法,包括以下过程:
获取训练集,所述训练集包括带有标签的源域图像和不带标签的目标域图 像;
获取跨域图像描述模型,所述跨域图像描述模型包括风格迁移模块、对比 学习模块和目标检测模块;
基于所述训练集对所述风格迁移模块、对比学习模块和目标检测模块进行 联合训练,获得训练好的所述跨域图像描述模型,所述跨域图像描述模型基于 源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
在本发明一实施例中,本发明还提供一种跨域图像描述的识别方法,所述 跨域图像描述的识别方法采用上述任意一项实施例所述跨域图像描述模型的训 练方法训练得到的跨域图像描述模型,所述跨域图像描述的识别方法包括:
获取图像数据;
将所述图像数据输入所述跨域图像描述模型,获取所述图像数据的目标识 别结果。
在本发明一实施例中,本发明还提供一种跨域图像描述模型的训练系统, 所述系统包括:
数据获取单元,用于获取训练集,所述训练集包括带有标签的源域图像和 不带标签的目标域图像;
模型调用单元,用于获取跨域图像描述模型,所述跨域图像描述模型包括 风格迁移模块、对比学习模块和目标检测模块;
联合训练单元,基于所述训练集对所述风格迁移模块、对比学习模块和目 标检测模块进行联合训练,获得训练好的所述跨域图像描述模型,所述跨域图 像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识 别。
在本发明一实施例中,还提供一种计算机设备,包括处理器,所述处理器 与存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被 所述处理器执行时实现上述任一项所述的方法。
在本发明一实施例中,还提供一种计算机可读存储介质,包括程序,当所 述程序在计算机上运行时,使得计算机执行上述中任一项所述的方法。
本发明中,图像描述模型的训练和描述方法、系统、设备及存储介质,将 风格化嵌入对比学习和目标识别,通过对源域图像和目标域图像进行风格化处 理,使源域图像带有目标域图像风格,在保留源域图像内容结构的同时消除了 域差,从而在对比学习中无域差最大化源域图像和目标域图像中特征的相似性, 保证目标识别时可利用源域图像的标签信息来对目标域图像中的识别目标进行 准确的定位和分类,获得对目标场景图像的较好的描述结果。
综上所述,图像描述模型的训练和描述方法、系统、设备及存储介质,能 够最大化减小对比损失以及源域和目标域之间的差异,有效提升了不同域下的 检测能力,不需对人工采集的目标域图像进行标注,便能实现对目标域图像进 行描述。采用本发明的技术方案,能够有效解决当前数据量大,标签信息无法 及时有效标注,用技术手段降低人工标注成本的问题,完成跨域的目标检测任 务,提升目标识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中跨域图像描述模型的整体框架图;
图2为本发明一实施例中风格迁移模块对源域图像风格迁移的过程图;
图3为本发明一实施例中对比学习模块对训练集中图像对比学习提取相似 特征的过程图;
图4为本发明一实施例中目标检测模块对训练集中图像识别的过程图;
图5为本发明一实施例中目标检测模块的SSD框架示意图;
图6为本发明一实施例中跨域图像描述模型的训练方法的流程示意图;
图7为本发明一实施例中步骤S3的流程示意图;
图8为本发明一实施例中步骤S32的流程示意图;
图9为本发明一实施例中步骤S33的流程示意图;
图10为本发明一实施例中步骤S34的流程示意图;
图11为本发明一实施例中跨域图像描述模型的训练系统的结构框图。
元件标号说明:
10、跨域图像描述模型的训练系统;11、数据获取单元;12、模型调用单 元;13、联合训练单元。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本 说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过 另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于 不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的 是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。还应当 理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为 了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法,通常按 照常规条件,或者按照各制造商所建议的条件。
请参阅图1至图10。须知,本说明书附图所绘示的结构、比例、大小等, 均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非 用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修 饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达 成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时, 本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一” 等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相 对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范 畴。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围 的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明 中使用的所有技术和科学术语与本技术领域的技术人员对现有技术的掌握及本 发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等 同的现有技术的任何方法、设备和材料来实现本发明。
请参见图1至图6,本发明的目的在于提供一种图像描述模型的训练和描 述方法、系统、设备及存储介质,以改善现有技术中,由于跨域自适应目标检 测方法训练的分类器无法消除域差,分类器在训练中无法对齐源域和目标域的 共同特征,致使训练出的分类器无法对目标域图像有效识别的技术问题。
请参见图1至图4,基于本发明训练方法训练的图像描述模型,在模型中 嵌入风格化网络,将风格化嵌入对比学习,最大化减小对比损失以及源域和目 标域之间的差异,有效提升了不同域下的检测能力,减少人工标注数据的成本 和时间。
请参阅图1至图6,图6显示为本发明一实施例中跨域图像描述模型的训 练方法的流程示意图。在本发明一实施例中,提供一种跨域图像描述模型的训 练方法,包括以下过程:
步骤S1、获取训练集,并对训练集中的图像进行预处理;其中,所述训练 集包括带有标签的源域图像和不带标签的目标域图像,所述预处理包括将训练 集中全部图像裁剪至224×224大小;具体地,所述目标域图像是通过摄像机在 目标场景拍摄采集获得,所述源域图像从现有数据集中选取,并通过对应的工 具包对选取的源域图像进行标注,以获得带有标签的源域图像。例如,在一实 施例中,所述目标域图像是通过摄像机在真实交通场景下拍摄的日常状态图像, 具体是通过在交通环境路面上安装静态工业摄像机拍摄来采集该交通场景下日 常状态视频流数据,然后按照预设时间间隔选取视频流数据中的关键帧并保存 以获得目标域图像;所述源域图像则是从当前流行的数据集Cityscapes中获取的图像,并采用pycocotools包对获取的图像进行标注,从而获得带有标签的源 域图像;其中,在本实施例中所采用的数据集Cityscapes拥有5000张在城市环 境中驾驶场景的图像(2975train,500val,1525test),具有19个类别的密集 像素标注(97%coverage),其中8个具有实例级分割。该大型数据集包含来自 50个不同城市的街道场景中记录的多种立体视频序列,集中于对城市街道场景 的语义理解图片数据集。
步骤S2、获取跨域图像描述模型,所述跨域图像描述模型包括风格迁移模 块、对比学习模块和目标检测模块;
所述风格迁移模块,可用于对输入的源域图像和目标域图像进行风格迁移, 用于将源域图像风格化为带有目标域图像风格的图像,具体为保留源域图像的 内容特征,将源域图像的风格特征,例如纹理、色彩等特征,迁移为目标域图 像的风格特征,获得带有目标域风格的源域图像,从而有效减少源域图像和目 标域图像的域差。
所述对比学习模块,对目标域图像和带有目标域图像风格的源域图像进行 自监督的对比学习比对,将源域图像和目标域图像的特征对齐,从而对源域图 像和目标域图像进行分类,并基于源域图像带有的标签为同类的目标域图像打 上伪标签。其中,所述对比学习模块采用由ImageNet数据集训练VGG19(Visual Geometry Group Network,视觉几何群网络)网络模型。
所述目标检测模块,用于对目标域图像和带有目标域图像风格的源域图像 进行目标识别,基于源域图像带有的标签和目标域图像带有的伪标签,获得目 标域图像和带有目标域图像风格的源域图像中目标的定位信息和分类信息,完 成对目标域风格场景下图像的目标识别。其中,目标检测模块的采用基于SSD 算法(Single Shot MultiBoxDetector,单激发多框探测器)的目标识别框架,与传 统的FastRCNN(Fast Regions withCNN features,快速的基于区域的卷积网络 方法)相比,该算法没有生成region proposal的过程,因此极大提高了检测速 度。
如图4和图5所示,SSD的默认基础网络是VGG16(Visual Geometry GroupNetwork,视觉几何群网络),VGG16网络由2个Conv1_x卷积层、2个Conv2_x、 3个Conv3_x、3个Conv4_x、3个Conv5_x以及5个平均池化层组成,最后3 层是一个全连接层,包含卷积核1*1,且数量为4096;所述Conv1_x、Conv2_x、 Conv3_x、Conv4_x、Conv5_x为四种不同大小残差块,详细结构如下所述:
Conv1_x有两个卷积层,其中包含卷积核3*3,且数量为64,输入图像: 224*224*3,卷积后大小:224*224*64;
Pool1包含卷积核3*3,且数量为64,输入图像:224*224*64,卷积后大 小:112*112*64;
Conv2_x有两个卷积层,其中包含卷积核3*3,且数量为128,输入图像: 112*112*64,卷积后大小:112*112*128;
Pool2包含卷积核2*2,且数量为128,输入图像:112*112*128,卷积后大 小:56*56*128;
Conv3_x有三个卷积层,其中包含卷积核3*3,且数量为256,输入图像: 56*56*128,卷积后大小:56*56*256;
Pool3包含卷积核2*2,且数量为256,输入图像:56*56*256,卷积后大 小:28*28*256;
Conv4_x有三个卷积层,其中包含卷积核3*3,且数量为256,输入图像: 28*28*256,卷积后大小:28*28*512;
Pool4包含卷积核2*2,且数量为512,输入图像:28*28*512,卷积后大 小:14*14*512;
Conv5_x有三个卷积层,其中包含卷积核3*3,且数量为512,输入图像: 14*14*512,卷积后大小:14*14*512;
Pool5包含卷积核2*2,且数量为512,输入图像:14*14*512,卷积后大 小:7*7*512。
由上述内容可知,本发明中跨域图像描述模型,通过风格迁移模块将源域 图像风格迁移为目标域图像风格,从而消除源域图像与目标域图像的域差,以 便于对比学习模块在自监督对比学习中获取无域差的源域图像目标域图像的相 似特征,基于特征对齐利用源域图像的标签为目标域图像打上准确的伪标签, 最终在目标检测模块基于伪标签分类完成对目标域图像中目标的准确识别,有 效实现了利用已有源域图像的标签分类对目标域风格图像的有效描述。该跨域 图像描述模型在现实应用中解决突破了传统的交通场景车辆行人检测中存在大 量人工检查、环境复杂(视角、光照、背景、遮挡物、场景变换等方面)引起 的肉眼观测的误判、传统监控设备无法提供有效的状态信息等问题,提高了系 统检测一般场景中物体的准确率。
步骤S3、基于所述训练集对所述风格迁移模块、对比学习模块和目标检测 模块进行联合训练,获得训练好的所述跨域图像描述模型,所述跨域图像描述 模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
具体地,将所述训练集输入所述跨域图像描述模型,获得所述风格迁移模 块、对比学习模块和目标检测模块的损失函数,计算得到所述跨域图像描述模 型总损失函数;
采用小批量随机梯度下降的方式,将所述训练集按批次输入所述风格迁移 模块、对比学习模块和目标检测模块进行迭代训练,通过迭代训练使所述总损 失函数最小化,使跨域图像描述模型能够缩小风格化后带有目标域风格的源域 图像与目标域图像的域差,保证模型有效利用源域图像的标签来对目标域图像 进行分类,从而使跨域图像描述模型能够完成对不同场景下图像中识别目标的 准确定位和分类,以获得训练好的跨域图像描述模型。
在本发明一实施例中,使用权重衰减为0.0005,动量为0.9的小批量随机 梯度下降的方式对跨域图像描述模型进行训练,通过多批次的小批量样本对跨 域图像描述模型进行迭代训练,对跨域图像描述模型内的参数进行微调直至收 敛,从而使跨域图像描述模型的总损失函数最小化。其中,迭代过程遵循相同 学习速率,每批次样本在模型中迭代训练50次,使得模型学习率ηp依据公式
Figure BDA0003689191970000091
从初始学习率η0线性调整增加到1。
进一步,请参见图1和图7,所述步骤S3中将训练集输入跨域图像描述模 型,获得跨域图像描述模型的总损失函数包括以下过程:
S31、将所述训练集输入所述跨域图像描述模型;
S32、通过所述风格迁移模块对所述源域图像进行风格迁移,将所述训练集 中源域图像的风格迁移为目标域图像风格,根据带有目标域图像风格的源域图 像与所述源域图像和目标域图像的比对,获得所述风格迁移模块的第一损失函 数Lneural
S33、通过所述对比学习模块的自监督对比学习,获得所述训练集中图像的 相似特征,比对特征获取所述对比学习模块的第二损失函数LNCE,并基于所述 源域图像的标签为具有相同相似特征的所述目标域图像打上伪标签;
S34、通过所述目标检测模块对所述训练集的图像进行目标识别,获得对所 述具有目标域图像风格的源域图像和目标域图像的目标识别结果,根据所述目 标识别结果确定所述目标检测模块的第三损失函数LSSD
S35、获得所述跨域图像描述模型的总损失函数Ltotal,所述总损失函数Ltotal为所述第一损失函数Lneural、第二损失函数LNCE和第三损失函数LSSD之和,公 式表示为Ltotal=Lneural+LNCE+LSSD
请参见图2和图8,在本发明一实施例中,所述步骤S32包括以下过程:
S321、将所述训练集进行分组,使训练集中的全部图像均分为多个迁移组, 其中,每个所述迁移组内包括种类相近的一个源域图像和目标域图像;
S322、通过风格迁移模块从所述迁移组的目标域图像中提取风格特征图像, 具体为利用风格迁移模块中卷积神经网络架构的多个卷积层对目标域图像
Figure BDA0003689191970000101
进行风格特征的提取,从而获得来源于迁移组内一张目标域图像IP的 多张风格特征图像Φl(IP),其中Φl(IP)表示为目标域图像IP在第l卷积层提取的 风格特征图像;
S323、通过风格迁移模块从同一所述迁移组的源域图像中提取内容特征图 像,具体为利用风格迁移模块中卷积神经网络架构的多个卷积层对源域图像
Figure BDA0003689191970000102
进行内容特征的提取,从而获得来源于迁移组内一张源域图像IS的多 张内容特征图像Φl(IS),其中Φl(IS)表示为源域图像IS在第l卷积层提取的内容 特征图像;
S324、根据获得的风格特征图像Φl(IP)和内容特征图像Φl(IS)生成合成特征 图像Φl(IC),基于合成特征图像Φl(IC)还原出合成图像,所述合成图像是带有 目标域图像风格的源域图像,使用合成图像替换所述训练集中对应的源域图像, 并保留源域图像的标签,使得所述训练集中所述源域图像的风格迁移为所述目 标域图像的风格;其中,所述合成图像Φl(IC)保留源域图像的内容特征,如结 构特征,并融合了目标域图像的风格特征,如纹理、色彩等特征;
S325、通过将合成图像与同一迁移组内的源域图像和目标域图像进行比对, 计算获得风格迁移模块的第一损失函数Lneural。所述风格迁移模块的第一损失函 数Lneural为风格迁移过程中的内容损失函数Lcontent和风格损失函数Lstyle的线性叠 加,公式表示为Lneural=λcontentLcontentstyleLstyle,λcontent和λstyle分别为内容损失函数和 风格损失函数的权重因子。
其中,所述风格损失函数Lstyle通过合成图像和目标域图像比对获得,定义 为带有所述目标域图像风格的源域图像之间的风格特征之差,具体为风格迁移 模块中各个卷积层获得的合成特征图像和目标域风格图像的Gram矩阵之差的 累加求和,公式表示为
Figure BDA0003689191970000103
其中,γl为第l卷积层的超参数控制 层系数因子;
Figure BDA0003689191970000111
为第l卷积层获得的合成特征图像Φl(IC)的Gram矩阵,可由合 成特征图像Φl(IC)根据公式
Figure BDA0003689191970000112
计算获得;
Figure BDA0003689191970000113
为第l卷积层从目标 域图像IP获得的风格特征图像Φl(IP)的Gram矩阵,可由风格特征图像Φl(IP)根 据公式
Figure BDA0003689191970000114
计算获得。
所述内容损失函数Lcontent通过合成图像和初始源域图像比对获得,定义为 所述源域图像和带有所述目标域图像风格的源域图像之间的内容特征之差,具 体为风格迁移模块中合成特征图像和内容特征图像之差,公式表示为
Figure BDA0003689191970000115
其中,
Figure BDA0003689191970000116
为风格迁移模块中第l卷积层合成的合成特征图像
Figure BDA0003689191970000117
Figure BDA0003689191970000118
为风格迁移模块中第l卷积层由初始源域图像IS提取的内容特征 图像
Figure BDA0003689191970000119
请参见图3和图9,在本发明一实施例中,所述步骤S33包括以下过程:
S331、对所述训练集中的图像进行两次锚点增强;
S332、选取所述训练集中来源于同一图像的两张锚点图像作为正样本,将 其他锚点图像作为负样本;
S333、通过对比学习模块的自监督对比学习比对正负样本,计算获得对比 学习模块的第二损失函数LNCE;具体为,通过神经网络的基础编码器f(·),获 得扩充锚点图像的表征向量h=f(x),然后将正样本和负样本中锚点图像的表征 向量h=f(x)经由神经网络映射头g(·)映射到对比损失的同一空间,通过比对正 样本和负样本锚点图像在同一空间表征向量h=f(x)的相似度,获得对比学习模 块的第二损失函数LNCE,最后通过使第二损失函数LNCE最小化来增强正样本中 两个锚点图像的相似性,并拉大正样本中两个锚点图像与负样本中其他锚点图 像的差异性,从而获得所述正样本对应训练集中图像的相似特征;其中,基础 编码器f(·)采用ResNet结构。
S334、根据所述训练集中图像的相似特征,对所述训练集中的图像进行分 类,从而在训练集中基于所述源域图像的标签为具有相同相似特征的所述目标 域图像打上伪标签。
其中,对比学习模块的第二损失函数LNCE是通过比自监督学习中的正样本 和负样本的特征差异性获得的,公式表示为
Figure BDA0003689191970000121
其中,sim(.)表示余弦相似函数, q表示为源域样本,k+表示正样本,k-表示负样本,τ是超参数,也被称为温 度系数。
请参见图4和图10,在本发明一实施例中,所述步骤S34包括以下过程:
S341、通过所述目标检测模块的卷积神经网络提取所述训练集中图像的特 征图(Feature Map),获得所述训练集中图像在不同卷积层下提取的特征图;其 中,在本实施例中,所述目标检测模块使用基于SSD算法的VGG16神经网络 作为编码器,以利用VGG16神经网络中的多个卷积层获得训练集中图像的特 征图;
S342、使用卷积核对所述特征图进行检测,获取所述训练集的图像中识别 目标的定位信息和特征信息,所述定位信息为图像中识别目标定位框的坐标信 息,所述特征信息为所述训练集中图像上识别目标的特征信息;其中,所述目 标检测模块的采用一系列的小卷积核,如尺寸3×3的卷积核或1×1的卷积核, 对不同卷积层获得的特征图进行检测,来预测图像中识别目标的坐标和类别; 由于不同卷积层获得的特征图具有不同的感受野(Receptive Field),故而检测过 程可视为对不同尺寸的特征图的回归和分类。
需要说明的是,在卷积神经网络中,感受野的定义是卷积神经网络每一层 输出的特征图上的像素点在输入图片上映射的区域大小,通常尺寸大的感受野 可以提取图像的更大范围的特征。因此,在网络的同一层级上采用多个尺度的 卷积核,这些卷积核可以适应多种图像特征并在网络的深层可以得到更好的图 像表示。这样做的优点是可以提高网络的自适应能力,而且省去了研究者的一 些调优工作。
S343、对齐所述训练集中图像的特征信息,基于所述训练集中源域图像的 标签和目标域图像的伪标签,获得所述特征信息对应的标签或伪标签,从而获 得所述训练集中图像的分类信息;
S344、基于所述训练集中图像的定位信息和分类信息,分别计算所述目标 检测模块在目标识别过程中的定位损失函数Lloc和置信度损失函数Lconf,根据 定位损失函数Lloc和置信度损失函数Lconf获得所述目标检测模块的第三损失函 数LSSD;同时采用非极大值抑制(Non-Maximum Suppression,NMS)的方式减 小第三损失函数LSSD,从而筛选出置信度最高的定位信息和分类信息,综合所 述定位信息和分类信息获得所述训练集中图像的目标识别结果。
所述目标检测模块的第三损失函数LSSD为定位损失函数Lloc和置信度损失 函数Lconf之和,公式表示为
Figure BDA0003689191970000131
公式中,N 表示先验框的正样本数量(正样本代表与边界框(ground truth)匹配的先验框, 负样本代表不与边界框(ground truth)匹配的先验框),α为权重项,通过交叉 验证设为1,
Figure BDA0003689191970000132
是一个指示参数,当
Figure BDA0003689191970000133
时表示第i个先验框与第j个对 应边界框(ground truth)匹配,p为边界框的类别,c为类别置信度预测值,l为 先验框的对应边界框(的位置预测值,而g是边界框的位置参数。
其中,所述定位损失函数Lloc为目标检测模块在目标识别过程获得的先验 框与对应边界框(ground truth)的定位误差,该定位误差采用SmoothL1 loss表 示,定义如下:
Figure BDA0003689191970000134
公式中,
Figure BDA0003689191970000135
Figure BDA0003689191970000136
Figure BDA0003689191970000137
Figure BDA0003689191970000141
Figure BDA0003689191970000142
由于
Figure BDA0003689191970000143
的存在,所以定位误差仅针对正样本进行计算,另外要先对边界框(ground truth)的g进行编码得到
Figure BDA0003689191970000144
因为预测值l也是编码值。
而对于置信度损失函数Lconf则采用softmax loss进行表示,定义如下:
Figure BDA0003689191970000145
其中,
Figure BDA0003689191970000146
请参阅图1和图4,请本发明还提供了一种跨域图像描述方法,采用上述跨 域图像描述的训练方法训练得到的跨域图像描述模型,所述跨域图像描述方法 包括:
获取图像数据,并对图像数据进行预处理,将图像数据调整为跨域图像描 述模型中网络输入的大小224×224;
将所述图像数据输入所述跨域图像描述模型,获取所述图像数据的目标识 别结果。
请参阅图11,图11显示为本发明一实施例中跨域图像描述模型的训练系 统10的结构框图。该跨域图像描述模型的训练系统10包括数据获取单元11、 模型调用单元12和联合训练单元13。其中,数据获取单元11用于获取数据集, 所述数据集包括带有标签的源域图像和不带标签的目标域图像;模型调用单元 12用于获取跨域图像描述模型,所述跨域图像描述模型包括风格迁移模块、对 比学习模块和目标检测模块;联合训练单元13,基于所述数据集对所述风格迁 移模块、对比学习模块和目标检测模块进行联合训练,获得训练好的所述跨域 图像描述模型,所述跨域图像描述模型基于源域图像的标签分类对具有目标域 图像风格的图像进行目标识别。
需要说明的是,为了突出本发明的创新部分,本实施例中并没有将与解决 本发明所提出的技术问题关系不太密切的模块引入,但这并不表明本实施例中 不存在其它的模块。
此外,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上 述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此 不再赘述。在本发明所提供的实施例中,应该理解到,所揭露的系统,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意 性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有 另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或 直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块 显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可 以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元 来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中, 也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块 中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。
本实施例还提出了一种计算机设备,该设备包括处理器和存储器,处理器 和存储器耦合,存储器存储有程序指令,当存储器存储的程序指令被处理器执 行时实现上述任务管理方法。处理器可以是通用处理器,包括中央处理器 (Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称 NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专 用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程 门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器 件、分立门或者晶体管逻辑器件、分立硬件组件;所述存储器可能包含随机存 取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存 储器(Non-Volatile Memory),例如至少一个磁盘存储器。所述存储器可以为 随机存取存储器(Random Access Memory,RAM)类型的内部存储器,所述处 理器、存储器可以集成为一个或多个独立的电路或硬件,如:专用集成电路 (Application Specific IntegratedCircuit,ASIC)。需要说明的是,上述的存储 器中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以 软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设 备等)执行本发明各个实施例方法的全部或部分步骤。
本实施例还提出一种计算机可读的存储介质,所述存储介质存储有计算机 指令,所述计算机指令用于使计算机执行上述的任务管理方法。存储介质可以 是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。 存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存 取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读 存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。
本发明中,图像描述模型的训练和描述方法、系统、设备及存储介质,将 风格化嵌入对比学习和目标识别,通过对源域图像和目标域图像进行风格化处 理,使源域图像带有目标域图像风格,在保留源域图像内容结构的同时消除了 域差,从而在对比学习中无域差最大化源域图像和目标域图像中特征的相似性, 保证目标识别时可利用源域图像的标签信息来对目标域图像中的识别目标进行 准确的定位和分类,获得对目标场景图像的较好的描述结果。
综上所述,图像描述模型的训练和描述方法、系统、设备及存储介质,能 够最大化减小对比损失以及源域和目标域之间的差异,有效提升了不同域下的 检测能力,不需对人工采集的目标域图像进行标注,便能实现对目标域图像进 行描述。采用本发明的技术方案,能够有效解决当前数据量大,标签信息无法 及时有效标注,用技术手段降低人工标注成本的问题,完成跨域的目标检测任 务,提升目标识别的准确度。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。 任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进 行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所 揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利 要求所涵盖。

Claims (10)

1.一种跨域图像描述模型的训练方法,其特征在于,包括:
获取训练集,所述训练集包括带有标签的源域图像和不带标签的目标域图像;
获取跨域图像描述模型,所述跨域图像描述模型包括风格迁移模块、对比学习模块和目标检测模块;
基于所述训练集对所述风格迁移模块、对比学习模块和目标检测模块进行联合训练,获得训练好的所述跨域图像描述模型,所述跨域图像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
2.根据权利要求1所述跨域图像描述模型的训练方法,其特征在于,所述基于所述训练集对所述风格迁移模块、对比学习模块和目标检测模块进行联合训练,获得训练好的所述跨域图像描述模型,包括:
将所述训练集输入所述跨域图像描述模型,获得所述风格迁移模块、对比学习模块和目标检测模块的损失函数,计算得到所述跨域图像描述模型总损失函数;
采用小批量随机梯度下降的方式,将所述训练集按批次输入所述风格迁移模块、对比学习模块和目标检测模块进行迭代训练,使所述总损失函数最小化,获得训练好的跨域图像描述模型。
3.根据权利要求2所述跨域图像描述模型的训练方法,其特征在于,所述将所述训练集输入所述跨域图像描述模型,获得所述风格迁移模块、对比学习模块和目标检测模块的损失函数,计算得到所述跨域图像描述模型总损失函数,包括:
将所述训练集输入所述跨域图像描述模型;
通过所述风格迁移模块对所述源域图像进行风格迁移,将所述训练集中源域图像的风格迁移为目标域图像风格,根据带有目标域图像风格的源域图像与所述源域图像和目标域图像的比对,获得所述风格迁移模块的第一损失函数Lneural
通过所述对比学习模块的自监督对比学习,获得所述训练集中图像的相似特征,比对特征获取所述对比学习模块的第二损失函数LNCE,并基于所述源域图像的标签为具有相同相似特征的所述目标域图像打上伪标签;
通过所述目标检测模块对所述训练集的图像进行目标识别,获得对所述具有目标域图像风格的源域图像和目标域图像的目标识别结果,根据所述目标识别结果确定所述目标检测模块的第三损失函数LSSD
获得所述跨域图像描述模型的总损失函数Ltotal,所述总损失函数Ltotal为所述第一损失函数Lneural、第二损失函数LNCE和第三损失函数LSSD之和。
4.根据权利要求3所述跨域图像描述模型的训练方法,其特征在于,所述风格迁移模块的第一损失函数Lneural为风格迁移时内容损失函数Lcontent和风格损失函数Lstyle的线性叠加;其中,所述风格损失函数为所述目标域图像和带有所述目标域图像风格的源域图像之间的风格特征之差,所述内容损失函数Lcontent为所述源域图像和带有所述目标域图像风格的源域图像之间的内容特征之差。
5.根据权利要求3所述跨域图像描述模型的训练方法,其特征在于,所述通过所述对比学习模块的自监督对比学习,获得所述训练集中图像的相似特征,比对特征获取所述对比学习模块的第二损失函数LNCE,并基于所述源域图像的标签为具有相同相似特征的所述目标域图像打上伪标签,包括:
对所述训练集中的图像进行两次锚点增强;
选取所述训练集中同一图像的两张锚点图像作为正样本,将其他锚点图像作为负样本;
对比所述正样本和负样本,计算获得所述对比学习模块的第二损失函数LNCE,并获得所述正样本对应图像的相似特征;
根据所述训练集中图像的相似特征,基于所述源域图像的标签为具有相同相似特征的所述目标域图像打上伪标签。
6.根据权利要求3所述跨域图像描述模型的训练方法,其特征在于,所述通过所述目标检测模块对所述训练集的图像进行目标识别,获得对所述具有目标域图像风格的源域图像和目标域图像的目标识别结果,根据所述目标识别结果确定所述目标检测模块的第三损失函数LSSD,包括:
通过所述目标检测模块的卷积神经网络提取所述训练集中图像的特征图,获得所述训练集中图像在不同卷积层下提取的特征图;
使用卷积核对所述特征图进行检测,获取所述训练集的图像中识别目标的定位信息和特征信息;
基于所述训练集中源域图像的标签和目标域图像的伪标签对齐所述训练集中图像的特征信息,获得所述训练集中图像的分类信息;
基于所述训练集中图像的定位信息和分类信息,计算获得所述目标检测模块的第三损失函数LSSD,并获取所述训练集中图像的目标识别结果。
7.一种跨域图像描述方法,其特征在于,采用权利要求1至6任意一项所述跨域图像描述模型的训练方法训练得到的跨域图像描述模型,所述跨域图像描述方法包括:
获取图像数据;
将所述图像数据输入所述跨域图像描述模型,获取所述图像数据的目标识别结果。
8.一种跨域图像描述模型的训练系统,其特征在于,包括:
数据获取单元,用于获取训练集,所述训练集包括带有标签的源域图像和不带标签的目标域图像;
模型调用单元,用于获取跨域图像描述模型,所述跨域图像描述模型包括风格迁移模块、对比学习模块和目标检测模块;
联合训练单元,基于所述训练集对所述风格迁移模块、对比学习模块和目标检测模块进行联合训练,获得训练好的所述跨域图像描述模型,所述跨域图像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210658065.XA 2022-06-10 2022-06-10 图像描述模型的训练和描述方法、系统、设备及存储介质 Pending CN115147644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210658065.XA CN115147644A (zh) 2022-06-10 2022-06-10 图像描述模型的训练和描述方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210658065.XA CN115147644A (zh) 2022-06-10 2022-06-10 图像描述模型的训练和描述方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115147644A true CN115147644A (zh) 2022-10-04

Family

ID=83408207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210658065.XA Pending CN115147644A (zh) 2022-06-10 2022-06-10 图像描述模型的训练和描述方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115147644A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152901A (zh) * 2023-04-24 2023-05-23 广州趣丸网络科技有限公司 图像生成模型的训练方法及风格化图像生成方法
CN117690164A (zh) * 2024-01-30 2024-03-12 成都欣纳科技有限公司 基于边缘计算的机场飞鸟识别驱赶方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152901A (zh) * 2023-04-24 2023-05-23 广州趣丸网络科技有限公司 图像生成模型的训练方法及风格化图像生成方法
CN117690164A (zh) * 2024-01-30 2024-03-12 成都欣纳科技有限公司 基于边缘计算的机场飞鸟识别驱赶方法及系统
CN117690164B (zh) * 2024-01-30 2024-04-30 成都欣纳科技有限公司 基于边缘计算的机场飞鸟识别驱赶方法及系统

Similar Documents

Publication Publication Date Title
CN109655019B (zh) 一种基于深度学习和三维重建的货物体积测量方法
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN110490202A (zh) 检测模型训练方法、装置、计算机设备和存储介质
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN103324937B (zh) 标注目标的方法和装置
CN109410168B (zh) 用于确定图像中的子图块类别的卷积神经网络的建模方法
CN112395957B (zh) 一种针对视频目标检测的在线学习方法
CN111783590A (zh) 一种基于度量学习的多类别小目标检测方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN111104898A (zh) 基于目标语义和注意力机制的图像场景分类方法及装置
CN108182388A (zh) 一种基于图像的运动目标跟踪方法
CN111695522A (zh) 一种平面内的旋转不变人脸检测方法、装置及存储介质
Li et al. A review of deep learning methods for pixel-level crack detection
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
CN111199556A (zh) 基于摄像头的室内行人检测和跟踪方法
CN114117614A (zh) 一种建筑物立面纹理自动生成方法和系统
CN110827304A (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
CN112766136A (zh) 一种基于深度学习的空间车位检测方法
CN115147644A (zh) 图像描述模型的训练和描述方法、系统、设备及存储介质
CN114565675A (zh) 一种在视觉slam前端去除动态特征点的方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
CN113139540B (zh) 背板检测方法及设备
CN110910497B (zh) 实现增强现实地图的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination