CN114419195A

CN114419195A - 一种基于关系嵌入的图像合成的方法、装置及存储介质

Info

Publication number: CN114419195A
Application number: CN202111457354.5A
Authority: CN
Inventors: 朱鹏飞; 贾安; 汪廉杰; 刘洋
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-04-29
Anticipated expiration: 2041-12-01
Also published as: CN114419195B

Abstract

本发明公开了一种基于关系嵌入的图像合成的方法、装置及存储介质，方法包括：将图像合成和图像修复间的互逆关系嵌入到图像合成模型中；基于所述互逆关系对图像进行互监督学习，使得图像合成模型学习到前景图像的物体和背景图像的特征；对关系嵌入的图像合成模型进行训练获取到图像合成器，所述图像合成器包括：生成器和判别器；基于合成图像的数据集，训练合成图像得分分类器对合成图像进行自动评分；基于图像合成器、合成图像得分分类器、前景图像、背景图像、以及训练好的关系嵌入的图像合成模型，进行图像合成工作并对合成图像进行评分。装置包括：处理器和存储器。通过本发明设计的图像合成关系，使得前景和背景图像完成较好的图像合成。

Description

一种基于关系嵌入的图像合成的方法、装置及存储介质

技术领域

本发明涉及图像合成领域，尤其涉及一种基于关系嵌入的图像合成的方法、装置及存储介质。

背景技术

图像合成早期工作中，研究者使用图形学和数学思想结合的方法来实现图像合成。其中最经典的是应用泊松融合来做图像合成，其思想是基于求解Poisson(泊松)方程的通用插值机制，引入图像梯度域，在图像融合时，用色彩梯度代替色彩强度产生更真实的合成效果。之后随着深度学习研究的发展，数据不足是个比较严峻的问题，模型不能从数据中学到有价值的表征，研究者则将关注点聚焦在了使用深度学习的方法来解决图像合成，从而从一定程度上解决数据不足和人工标注耗时费力的问题。GAN(生成对抗网络)帮助解决了图像生成的问题，DCGAN(深度卷积生成对抗网络)可以生成属于特定类的图像，LAPGAN(基于拉普拉斯金字塔的生成对抗网络)使用拉普拉斯金字塔可以从粗到细生成图像。

GAN确实可以帮助模型学习到有价值的表征，但是只使用GAN却无法将两张独立图像进行合成。研究者从数据合成角度提出一种简单的剪切粘贴方法，在框级别的标注下提取物体并粘贴到可能的场景中去，从而得到新的更真实的合成数据，但是更真实并不能确保数据一定会增强训练模型的性能。因此，之后的研究结合了图像合成和对抗两种方法，提出了新的图像合成网络去学习合成图像，然后使用该方法训练一个合成器来生成有用的合成样本，从而帮助提高目标网络的性能。目前，完全使用复制粘贴方法进行图像合成工作做得比较少。人们更愿意使用虚拟引擎来产生大量的合成数据，有的还工作基于虚拟图像场景，得到合成数据集。另外，合成数据也帮助人们更好的认识真实世界。可以将合成图像分为真实与非真实图像，并且为真实合成图像区域进行重新着色，有助于更好地理解自然颜色统计和颜色感知。人们基于对真实世界理解的先验知识，可以发现合成图像的前景与背景不兼容，合成数据集和真实数据集的数据分布之间会有差异。

总得来说，图像合成领域目前主要存在如下问题：

1、合成数据和真实数据之间存在数据分布差异，导致模型学习难度增大；

2、合成前景和背景的关系不能规则化，无法很好的使用深度学习来刻画前景和背景的关系；

3、设计特定的3D模型花费较大，导致使用3D模型合成数据变得昂贵；

4、难以评估合成数据和真实数据集的差异，导致合成数据后，无法量化合成模型的有效性；

5、无法自动合成海量图像，并完成质量评测。

发明内容

本发明提供了一种基于关系嵌入的图像合成的方法、装置及存储介质，通过本发明设计的图像合成关系，使得前景和背景图像完成较好的图像合成；并基于关系嵌入的图像合成模型的训练学习，提高了合成图像的一致性；使用本发明的图像合成可以按需扩充有用的数据集，详见下文描述：

第一方面，一种基于关系嵌入的图像合成的方法，所述方法包括以下步骤：

将图像合成和图像修复间的互逆关系嵌入到图像合成模型中；

基于所述互逆关系对图像进行互监督学习，使得图像合成模型学习到前景图像的物体和背景图像的特征；

对关系嵌入的图像合成模型进行训练获取到图像合成器，所述图像合成器包括：生成器和判别器；

基于合成图像的数据集，训练合成图像得分分类器对合成图像进行自动评分；

基于图像合成器、合成图像得分分类器、前景图像、背景图像、以及训练好的关系嵌入的图像合成模型，进行图像合成工作并对合成图像进行评分。

在一种实施方式中，所述互逆关系为：

RSI＝Relation(B，B+F)

其中，B表示修复好的背景图像，F表示合成所需要的前景图像，Relation表示关系。

其中，所述图像合成模型的输入包括：背景图x，有前景图像的背景图y，其中x，

R为特征空间，H为人脸图像高度，W为宽度，C为通道数。

在一种实施方式中，所述图像合成模型包括：生成器和判别器，

生成器由背景图像外观编码器

前景图像物体编码器

和解码器(G_x，G_y)组成；

编码器

用于通过对背景图像编码，获取到背景外观特征向量

同理获得前景图像中物体的特征向量

与解码器(G_x，G_y)组合生成新的图像，G_x为生成修复图像，G_y为生成合成图像；

(D_x，D_y)分别是生成修复图像和生成合成图像的两个判别器，D_x用于将解码器

生成的修复图像与自然图像区分，D_y用于将解码器

生成的合成图像与自然图像区分。

优选地，所述图像合成工作包括修复路线方式和合成路线方式：

所述修复路线方式为：

从目标背景图像B中提取目标位置特征f₁；从自然图像F+B中提取目标背景特征B₂；

将f₁和B₂作为生成器的输入，生成f₁+B₂的一张合成图像；

所述合成路线方式为：

从目标背景图像B中提取背景特征B₁；从自然图像F+B中提取前景特征f₂；

将f₂+B₁作为生成器的输入，生成f₂+B₁的一张合成图像。

进一步地，所述方法还包括：基于自动合成得分指标和理想合成得分指标对图像合成的质量进行评估；

所述自动合成得分用于使用复制粘贴合成图像，人工进行外观、大小和位置的评分标注后完成训练，对合成图像自动打分；

所述理想合成得分的比例系数均为最大值1。

第二方面，一种基于关系嵌入的图像合成的装置，所述装置包括：

嵌入模块，用于将图像合成和图像修复间的互逆关系嵌入到图像合成模型中；

学习模块，用于基于所述互逆关系对图像进行互监督学习，使得图像合成模型学习到前景图像的物体和背景图像的特征；

获取模块，用于对关系嵌入的图像合成模型进行训练获取到图像合成器，所述图像合成器包括：生成器和判别器；

训练模块，用于基于合成图像的数据集，训练合成图像得分分类器对合成图像进行自动评分；

评分模块，用于基于图像合成器、合成图像得分分类器、前景图像、背景图像、以及训练好的关系嵌入的图像合成模型，进行图像合成工作并对合成图像进行评分。

第三方面、一种基于关系嵌入的图像合成的装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求第一方面中的任一项所述的方法步骤。

第四方面、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本方法可以较好的完成图像合成工作、图像修复工作；并证明了图像合成和图像修复是可逆的；

2、本方法可以学习到图像合成的位置和前景比例；提高图像合成的外观、大小和位置特征的一致性；

3、本方法可以作为新的数据增强方法应用到深度学习中；并通过实验证明本方法适合在图像合成领域进行应用和推广。

附图说明

图1为基于关系嵌入的图像合成的关系定义图例示意图；

图2为基于关系嵌入的图像合成模型图；

图3为基于关系嵌入的图像合成的关系嵌入的逻辑流程图；

图4为使用关系嵌入的图像合成模型进行图像合成工作的流程图；

图5为一种基于关系嵌入的图像合成的评测打分示例图；

图6为一种基于关系嵌入的图像合成的整体流程图；

图7为一种基于关系嵌入的图像合成的装置的结构示意图；

图8为一种基于关系嵌入的图像合成的装置的另一结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于关系嵌入的图像合成的方法，参见图1-图4，该方法包括以下步骤：

101：将图像合成和图像修复间的互逆关系嵌入到图像合成模型中；

102：基于互逆关系对图像进行互监督学习，使得图像合成模型学习到前景图像的物体和背景图像的特征；

103：对关系嵌入的图像合成模型进行训练获取到图像合成器，：图像合成器包括：生成器和判别器；

104：基于合成图像的数据集，训练合成图像得分分类器对合成图像进行自动评分；

105：基于图像合成器、合成图像得分分类器、前景图像、背景图像、以及训练好的关系嵌入的图像合成模型，进行图像合成工作并对合成图像进行评分。

其中，步骤102中的图像合成模型的输入包括：

背景图x，有前景图像的背景图y，其中x，

R为特征空间，H为人脸图像高度，W为宽度，C为通道数。

在一种实施方式中，步骤101和步骤102中的图像合成模型包括：生成器和判别器，

生成器由背景图像外观编码器

前景图像物体编码器

和解码器(G_x，G_y)组成；

编码器

用于通过对背景图像编码，获取到背景外观特征向量

同理获得前景图像中物体的特征向量

生成的修复图像与自然图像区分，D_y用于将解码器

生成的合成图像与自然图像区分。

在一种实施方式中，步骤105中的图像合成工作包括：修复路线方式和合成路线方式；

其中，修复路线方式为：

将f₁和B₂作为生成器的输入，生成f₁+B₂的一张修复图像；

合成路线方式为：

将f₂+B₁作为生成器的输入，生成f₂+B₁的一张合成图像。

在一种实施方式中，该方法还包括：基于自动合成得分指标和理想合成得分指标对图像合成的质量进行评估；

其中，自动合成得分用于使用复制粘贴合成图像，人工进行外观、大小和位置的评分标注后完成训练，对合成图像自动打分；理想合成得分的比例系数均为最大值1。

综上所述，本发明实施例通过上述步骤101-步骤105实现了前景和背景图像较好的合成；并基于关系嵌入的图像合成模型的训练学习，提高了合成图像的一致性。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

一、关系嵌入的图像合成模型

1、关系嵌入的定义

本发明实施例将此处的关系嵌入定义为图像的合成和修复的关系，简称为RSI(Relationship Between Image Synthesis and Inpainting)，在一定程度上，图像合成和修复可以看作为一种互逆的关系，然后本发明实施例将RSI嵌入到合成模型中。

因此，合成模型的学习目标是：学习图像合成和图像修复的互逆关系，使模型学习到合成前景的位置及前景比例等信息，尽可能提高合成图像的外观、前景图像大小和在背景图中的一致性。

RSI的图例说明如图1所示，该图以人脸不戴眼镜和戴眼镜人脸为例显示了RSI关系，上面一行表示的是RSI中的合成流程，下面一行表示的是RSI中的修复流程，两个流程构成了RSI的关系，将其形式化表达为：

RSI＝Relation(B，B+F) (1)

其中，B表示Inpainting(修复)好的背景图像，F表示Synthesis(合成)所需要的前景图像，Relation表示关系。

2、关系嵌入的图像合成模型

本发明实施例的关系嵌入的图像合成模型框架是基于VAE(VariationalAutoencode，变分自编码器)和GAN(Generative Adversarial Network，生成对抗网络)设计。如图2所示，模型的输入有两张图，一张图是背景图，将其定义为x，另一张是有前景图像的背景图，将其定义为y，其中x，

R为特征空间，H为人脸图像高度，W为宽度，C为通道数。为了介绍方便，将关系嵌入的图像合成模型称为ISRE(即Image SynthesizerBased on Relational Embedding，基于关系嵌入的图像合成器)，下面介绍模型的细节。

2.1、ISRE的生成器设计

生成器的构造主要包含编码器和解码器，如图2所示，主要由背景图像外观编码器

前景图像物体编码器

和解码器(G_x，G_y)组成。其中，编码器

的作用是通过对背景图像编码，从而获取到背景外观特征向量

同理获得前景图像中物体的特征向量

然后与解码器(G_x，G_y)组合去生成新的图像。G_x生成修复的图像，G_y生成合成的图像。

需要注意的是，图像x∈X，代表不包含合成图像前景的自然背景图像，合成图像的前景物体o∈O代表目标合成图像的前景图像，图像y∈Y，代表包含合成图像前景图像的自然图像，并且

2.2、ISRE的判别器设计

图2中D表示判别器，其中(D_x，D_y)分别是生成修复图像和生成合成图像的两个判别器，D_x的目的是将解码器

生成的修复图像与自然图像区分出来，

其中

和

作为G_x的两个输入，参数

表示背景图像的外观编码信息，参数

表示前景图像的物体的编码信息。D_y的目的是将解码器

生成的合成图像与自然图像区分出来，其中

和

作为G_y的两个输入，参数

表示前景图像的背景外观编码信息，

表示的是背景图像中的要合成的前景物体的位置特征信息。

二、关系嵌入的图像合成算法

本发明实施例所设计的算法整体流程如图3所示，其中B表示单独背景图像，F+B表示前景+背景的自然图像。基于RSI定义，设计了算法的两条学习路线，上面路线为该算法的修复路线，下面路线为该算法的合成路线，详细地：

1、修复路线算法

第一步：从目标背景图像B中提取目标位置特征f₁；

第二步：从自然图像F+B中提取目标背景特征B₂；

第三步：将f₁和B₂作为生成器的输入，生成f₁+B₂的一张修复图像。

2、合成路线算法

第一步：从目标背景图像B中提取背景特征B₁；

第二步：从自然图像F+B中提取前景特征f₂；

第三步：将f₂+B₁作为生成器的输入，生成f₂+B₁的一张合成图像。

最后，本发明实施例的目标是合成海量的f₂+B₁图像，然后作为数据集应用到具体工程场景中。

3、损失函数的设计

为了使模型学习的更好，使两条学习路线按照可以有效学习到“合成-修复”的关系，本发明实施例设计了五个损失函数来约束目标模型，详细介绍如下：

1)f₁+B₂相关的损失函数

为f₁+B₂设计了两个损失函数来约束它的合成效果。其中loss₁约束f₁+B₂合成图像的前景特征，loss₂约束f₁+B₂合成图像的背景特征，分别定义如下：

2)f₂+B₁相关的损失函数

为f₂+B₁设计了两个损失函数来约束它的合成效果。其中，loss₃约束f₂+B₁合成图像的前景特征，loss₄约束f₂+B₁合成图像的背景特征，分别定义如下：

3)生成对抗损失函数

为了鼓励生成的合成图像效果更好，也就是与自然图像无法区分，本发明实施例采用了生成对抗损失，其中G_x和G_y试图生成真实的合成图像，D_x和D_y试图区分自然图像和生成的合成图像，所以，本发明实施例将生成对抗损失定义如下：

其中，B_y表示y的背景特征，F_x表示x的前景特征；对应的，B_x表示x的背景特征，F_y表示y的前景特征，D_x(x)和D_y(y)表示区分合成图像与自然图像的判别器，E表示数学期望。

4)目标学习函数

训练生成器和判别器时需要同时使用上述的损失函数，因此本发明实施例定义完整的目标学习函数为：

其中，α为f₁+B₂合成图像损失权重，β为f₂+B₁合成图像损失权重，取值都在0到1之间。

5)使用ISRE模型进行图像合成

基于上面的步骤训练好ISRE模型后，就可以使用ISRE模型进行图像合成工作。该过程如图4所示，本发明实施例使用街景数据集作为示例，当使用街景数据集训练好ISRE模型后，对ISRE模型输入前景图像(如图4中的车)和背景图像(如图4中的街道图)，然后ISRE模型内部完成前景图像和背景图像的合成，最后输出图将是所期待的合成图。同理，使用本发明实施例中的算法在其他数据集完成训练，亦可作为合成模型进行图像合成工作，从而完成扩充数据集，解决深度学习中数据集不足的问题。

三、新的评测指标的设计

在此实施例中提出了两种图像合成的通用性评测指标，据调研，本发明实施例提出的评测指标是图像合成领域的第一个通用性评测指标，因此，它也是本发明实施例的重要发明之一，详细介绍如下：

1、自动合成得分ACS

自动合成得分ACS(Automatic Composite Score)旨在评估关系嵌入的图像合成算法提出的自动合成策略的性能。令C_i表示第i个合成图像的合成结果。自动合成得分ACS的定义如下所示：

ACS＝λ₁a(C_i)+λ₂s(C_i)+λ₃p(C_i) (8)

其中，a、s、p分别表示外观、大小和位置的合成得分，{λ₁、λ₂、λ₃}分别是a、s、p对应的比例系数，取值在0到1之间，表示得分计算中的重要性。a、s、p通过合成图像得分分类器(CISC，即Composite Image Score Classifier)预测得到。而合成图像得分分类器是通过训练得到的，具体地：

使用复制粘贴的方式预先合成了一批图像，然后人工进行三者的评分，一个图像评分包括三个部分，分别是外观、大小和位置。当分类器训练好后，输入一张合成图像，将得到该图像的a、s、p三个得分，取值在0到1之间，越趋近于1表示合成效果越好。即：

{a，s，p}＝CISC(C_i) (9)

2、理想合成得分ICS

理想合成得分ICS(Ideal Composite Score)是为了评估传统的图像合成算法通过理想的合成策略能够达到的最大性能，它可以认为是自动合成得分的上界，也就是比例系数都取到最大值1的情况，旨在激励关系嵌入的图像合成算法提出更好的，更有效的自动合成策略。令C_i表示第i个合成图像的合成结果。理想融合得分ICS主要的定义如下所示：

ICS＝a(C_i)+s(C_i)+p(C_i) (10)

如图5所示，本发明实施例使用ISRE模型完成模型的训练后，对测试图像进行打分，可以得到对应合成图像的a、s、p三者的分数，图5示例的是理想合成得分，自动合成得分需要乘以对应的系数权重。

综上，本发明实施例即一种基于关系嵌入的图像合成方法，整体流程如图6所示。首先本发明实施例需要训练得到实施例所设计的ISRE模型，然后使用该模型完成图像合成工作，最后进行合成图像的质量评价。

实施例3

一种基于关系嵌入的图像合成的装置，参见图7，该装置包括：

嵌入模块1，用于将图像合成和图像修复间的互逆关系嵌入到图像合成模型中；

学习模块2，用于基于所述互逆关系对图像进行互监督学习，使得图像合成模型学习到前景图像的物体和背景图像的特征；

获取模块3，用于对关系嵌入的图像合成模型进行训练获取到图像合成器，所述图像合成器包括：生成器和判别器；

训练模块4，用于基于合成图像的数据集，训练合成图像得分分类器对合成图像进行自动评分；

评分模块5，用于基于图像合成器、合成图像得分分类器、前景图像、背景图像、以及训练好的关系嵌入的图像合成模型，进行图像合成工作并对合成图像进行评分。

其中，图像合成模型包括：生成器和判别器，

生成器由背景图像外观编码器

前景图像物体编码器

和解码器(G_x，G_y)组成；

编码器

用于通过对背景图像编码，获取到背景外观特征向量

同理获得前景图像中物体的特征向量

生成的修复图像与自然图像区分，D_y用于将解码器

生成的合成图像与自然图像区分。

综上所述，本发明实施例通过上述模块实现了前景和背景图像较好的合成；并基于关系嵌入的图像合成模型的训练学习，提高了合成图像的一致性。

实施例4

一种基于关系嵌入的图像合成的装置，参见图8，该装置包括：处理器6和存储器7，存储器7中存储有程序指令，处理器6调用存储器7中存储的程序指令以使装置执行实施例1中的以下方法步骤：

在一种实施方式中，互逆关系为：

RSI＝Relation(B，B+F)

R为特征空间，H为人脸图像高度，W为宽度，C为通道数。

在一种实施方式中，图像合成模型包括：生成器和判别器，

生成器由背景图像外观编码器

前景图像物体编码器

和解码器(G_x，G_y)组成；

编码器

用于通过对背景图像编码，获取到背景外观特征向量

同理获得前景图像中物体的特征向量

生成的修复图像与自然图像区分，D_y用于将解码器

生成的合成图像与自然图像区分。

优选地，图像合成工作包括：修复路线方式和合成路线方式：

其中，修复路线方式为：从目标背景图像B中提取目标位置特征f₁；从自然图像F+B中提取目标背景特征B₂；

其中，合成路线方式为：从目标背景图像B中提取背景特征B₁；从自然图像F+B中提取前景特征f₂；

将f₂+B₁作为生成器的输入，生成f₂+B₁的一张合成图像。

进一步地，本发明还包括：基于自动合成得分指标和理想合成得分指标对图像合成的质量进行评估；

自动合成得分用于使用复制粘贴合成图像，人工进行外观、大小和位置的评分标注后完成训练，对合成图像自动打分；

理想合成得分的比例系数均为最大值1。

综上所述，本发明实施例通过处理器和存储器实现了前景和背景图像较好的合成；并基于关系嵌入的图像合成模型的训练学习，提高了合成图像的一致性。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器6和存储器7的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器7和处理器6之间通过总线8传输数据信号，本发明实施例对此不做赘述。

实施例5

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。