CN116452410A

CN116452410A - 一种基于深度学习的文本引导无掩膜图像编辑方法

Info

Publication number: CN116452410A
Application number: CN202310227341.1A
Authority: CN
Inventors: 张繁; 刘泽润
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-18

Abstract

本发明公开了一种基于深度学习的文本引导无掩膜图像编辑方法。其包括1)使用基于深度学习的方法对图像中的像素分类并分割，得到图像所包含的实体，将分割后的实体预处理后与获取掩膜的文本引导词一起输入图像文本匹配模型，得到与该文本引导词对应的所有的掩膜。2)将原图、掩膜和指导图像编辑的文本输入基于扩散方法的图像编辑模型得到修复的结果。3)本发明根据图像与指导图像编辑的文本描述一致性和图像与原图的和谐度即图片质量两个评价指标提出了评价方法，并根据该方法设计图像选取模块，该模块能在生成的多张图片中选择最优结果以提升图像编辑的整体质量。本发明的方法无需用户自主提供掩膜，且生成的图像质量高，具有实用性和有效性。

Description

一种基于深度学习的文本引导无掩膜图像编辑方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于深度学习的文本引导无掩膜图像编辑方法。

背景技术

随着拍照设备的普及和互联网的发展，人们可以轻易地获取到各式各样的图像，但是图像的内容往往与自己的期望有偏差，因此需要图像编辑技术来解决这个问题。目前市场上存在大量的图像编辑软件，然而对于非专业人士来说，操作图像编辑软件对图像进行修改非常地困难，即使对专业人士来说，通过软件对图像的内容进行编辑从而达到理想的结果也要耗费大量的时间。如果能够借助计算机技术实现根据文本描述对图像进行编辑的功能，不仅能极大地降低图像编辑的难度，节省大量的学习成本和时间，还能促进图像编辑被大规模地应用。

最近，随着深度学习技术的不断发展，深度学习在基于文本的图像编辑领域取得了巨大的进步。例如，基于扩散模型的GLIDE通过在海量的数据集上进行训练，得到含有50亿参数的巨大模型并取得了很好的效果。它采用的是两阶段的修复方式，第一阶段通过文本、掩膜和原图得到较低分辨率的初始结果，第二阶段以第一阶段的条件和结果为输入，得到高分辨率的编辑结果。但GLIDE也存在模型大，推理速度较慢的问题。后来Robin Rombach等提出了根据文本编辑图像的潜向量扩散模型(Latent Diffusion Model)，做法是先将图像映射到潜向量空间得到潜向量，然后通过扩散过程训练神经网络，最后再将潜向量转到图像空间得到最终结果。与GLIDE这一类传统的扩散模型相比，将图像映射到潜向量空间后用潜向量进行计算会因为降低数据的尺度而减轻计算的复杂度，以此来达到减少推理时间的目的。然而目前的基于文本编辑图像的扩散模型存在一个共同的问题，即它们需要用户提供掩膜指导模型编辑图像的对应区域，这增加了用户的使用成本。为了解决这一问题，本发明提出了一种文本引导的无掩膜的图像编辑方法，模型可以根据文本信息准确地生成掩膜而不需要用户提供掩膜。此外为了提高最终图像编辑结果的质量，本发明设计了图像选取模块。扩散模型随机生成的特性使得图像编辑的质量一定程度上不受控制，图像选取模块能够在生成多项结果的基础上选择最优结果，总体上提高图像编辑的质量。此外，使用潜向量扩散模型时图像会先映射到潜向量空间再映射回原本的图像空间，这会损失一定的图像细节，可以利用图像背景重建模块以最大程度还原损失的细节，提高图像编辑时的质量。

发明内容

为了解决目前基于扩散模型的文本图像编辑方法大多需要自主提供掩膜、生成图像的质量不受控制和图像未被编辑的部分细节损失等问题，本发明针对性地提出了一种基于深度学习的文本引导的无掩膜的图像编辑方法，它包含基于文本引导的掩膜生成模型、基于文本的图像编辑模型、和图像选取模块，此外还可以包括图像背景重建模块。基于文本引导的掩膜生成模型能根据文本引导词快速地提供边缘清晰、符合要求的掩膜；得到掩膜后，基于文本的图像编辑模型以文本描述、掩膜和原图为输入，在掩膜对应的区域生成符合文本描述的内容；图像选取模块能够根据评价方法得到每个结果的评分，据此模型可以从多项结果中选出最优解，总体上提高图像编辑的质量；图像背景重建模块能够根据原图重建图像未被修改部分的细节特征。它们能够提高基于文本引导的图像编辑方法的实用性和有效性。

为了实现上述目的，本发明采用的技术方案是：

基于深度学习的文本引导无掩膜图像编辑方法包括以下步骤：

1)基于文本的掩膜生成模型可以得到与文本引导词对应的掩膜。首先利用实体分割模型(Entity Segmentation)对图像中的像素分类并分割，接着更改模型的输出以获取图像中各实体对应的掩膜，原图和获取到的每张掩膜点乘得到含有不同实体的图像，将所有图像和文本引导词一起放入图像文本匹配模型(CLIP，即Contrastive Language-ImagePre-Training)进行匹配，采用动态阈值处理方法，与文本引导词相似度最高的实体对应的掩膜为最终的结果。

2)基于文本的图像编辑模型(Stable Diffusion)可以推理出最终的修复结果。基于文本的图像编辑模型以文本描述、原图像和掩膜为输入，通过扩散过程的逆过程得到符合文本描述的编辑结果。

3)图像选取模块能够在多项结果中选择最优解。以文本描述与图像的符合度(即一致性)和图像整体的和谐度(即图片质量)为两个指标，图像选取模块可以得到编辑结果对应的两个分数，因为两个分数都是独立分布，所以将每张图像的两个得分相乘作为它们的最终分数，得分最高的图像作为最终结果。

上述技术方案中，进一步地，所述步骤1)中的预处理，具体为：将原图像中所有的实体各自对应掩膜和原图像点乘，得到每个实体单独的图片，提取其中的有效像素的范围，通过缩放有效像素的尺寸，使每张实体单独的图片有效像素的最大边尺寸一致。

进一步地，所述的动态阈值处理方法具体为：

将处理后的掩膜对应实体图片E_i和指导性文本引导词T₁一同输入图像文本匹配模型后，得到每个实体i与文本引导词的置信度C_i,i∈{1,...,m}，此时所有C_i的和为1；计算C_i的累积分布函数F，并定义严格单调的变换为反函数，由此可得：

其中P_r表示概率密度函数，F作为的反函数，即/>具体来说，首先将C_i从大到小排序并计算出累积值，接着根据给定的逆变换取样对累积值的贡献u，得到适应性阈值τ，u控制着选取掩膜的比例，因此，对图像根据不同的文本引导词获取掩膜时，τ都会动态地选取掩膜以获得良好的结果，这样就可以根据F^-1(u)生成动态的阈值τ，令C_i对应的掩膜为M_i，则全部掩膜的集合M＝[C_i＞τ]。

进一步地，在步骤1)中当存在多个符合文本引导词的实体，但是只需提取其中一个对应掩膜时，首先获取所有符合文本引导词的实体的掩膜，根据它们在图片中的位置构建相对位置图，对文本引导词增加方向性，然后根据映射关系将给定的方向性文本引导词映射到相对位置图上，将距离该位置最近的实体的掩膜进行输出。

进一步的，所述的步骤2)具体为：

基于文本描述的图像编辑模型以原图I、步骤1)最终所得的掩膜M和文本描述T₂为输入；模型根据公式z＝E(I)通过变分自编码器的编码器E将原图映射至潜向量空间得到z，此时z的维度可通过编码器设置，一旦z的维度确定，由基于文本的掩膜生成模型得到的掩膜M也要降维为M_l，此时z和M_l的维度应相同，在扩散模型的前向过程中，模型会向z中添加噪声得到一系列的添加噪声后的数据z₁,z₂,...,z_T，在逆向过程，由于要完成文本编辑图像的任务，对网络进行更改以完成保留图像背景的功能，即从开始，去噪网络∈_θ根据公式/>逐步根据文本条件T₂和时间t对图像进行编辑，其中表示目标函数，/>表示期望，∈表示前向过程中添加的噪声数据；对于每一步逆扩散过程中得到的/>都会以掩膜M_l为条件和前向过程中得到的z_t结合，以保留原始图像的背景和结构，具体公式如下：

得到逆扩散过程最后一步的输出之后，通过解码器D将/>映射到图像空间转化为图像P作为最后的编辑结果。

进一步的，步骤3)中所述图像选取模块包括语义一致性评估模块，所述语义一致性评估模块采用文本图像对比模型CLIP，将文本描述T₂输入CLIP的文本编码器E_T，将步骤2)得到的编辑结果P_k放入CLIP的图像编辑器E_I，由如下公式得到对应编辑结果P_k的语义一致性得分的值分布在[0，1]之间；

进一步的，步骤3)中所述图像选取模块还包括图片质量评估模块，按下式确定图像质量的信心系数S_k如下：

其中，H为图像的高度，W为图像的宽度，I(i,j)为原图中像素点所对应的值，P_k(i,j)为编辑结果图片中像素点所对应的值。

进一步的，由所述图像选取模块确定最优解P_k'为：

其中α是超参数。

此外，本发明中还可设置有图像背景重建模块，能够一定程度上减轻图像在被编辑时背景的损失。背景重建模块根据原图对将图像从潜向量映射回图像空间的解码器进行微调，减轻图像经历图像空间到潜向量空间再回到图像空间造成的图像纹理损失。

与现有技术相比，本发明的优点在于：

本发明能够根据文本为现有的基于文本引导的图像编辑模型快速方便地提供边缘清晰的、符合语义的实体级别的掩膜，与传统的基于图像编辑软件手绘的方法得到的掩膜和代码生成的形状简单的掩膜(如正方形、矩形)相比，本发明节省了获取掩膜的时间，降低了获取掩膜的难度，提高了掩膜的质量，方便了基于文本引导的图像编辑模型的推广和使用。

基于文本的图像编辑模型得到多个结果后，使用图像选取模块，根据评价方法在结果中挑选最优解，总体上提高模型编辑结果的质量。

此外还可使用图像背景重建模块，对最终结果因经历空间的连续变化而造成的图像细节损失给予一定的修复，提高视觉上的感知。

最后，本发明将上述方法整合，形成了一个基于深度学习的文本引导无掩膜图像编辑方法。

附图说明

图1是本发明实施例示出的整体框架图；

图2是本发明实施例示出的基于文本引导词的掩膜获取效果图，第一列是原图，第二列则是模型在原图的基础上根据图片下面的文本得到的掩膜；

图3是本发明实施例示出的基于含方向文本引导词的掩膜获取效果图，第一张图片为原图，其他三张图片分别根据图片下方的文本引导词得到的掩膜；

图4是本发明实施例示出的背景重建模块效果图，可以看到重建后图像在细节处更加逼真；

图5是本发明实施例示出的实际应用效果图，图片下面的文本信息表示图中符合第一个文本的物体转换成符合后面文本描述的物体。第一行展示了物体移除的功能，第二行展示了物体替换的功能，第三行展示了背景替换的功能；

具体实施方式

下面结合附图和实施例对本发明进行进一步说明。附图仅为本发明的示意性图解，附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

此外本发明中所述的“文本引导无掩膜”是指用户在使用时只需提供文本引导而无需提供掩膜指导模型编辑图像的对应区域，具体的掩膜会由方法中的模型自动生成。

基于深度学习的文本引导无掩膜图像编辑方法主要包括以下步骤：

1)获取图像中与文本引导词对应的实体的掩膜。对于每一个输入图像I，模型处理后会得到一个不重叠的实体ID预测图P和一个信心分数图S列表。根据预测图和分数图调整实体分割模型的输出，获得图像中各个实体的掩膜M_i,i∈{1,...,m}，其中m为图像中包含的实体数，掩膜的大小和原图像大小相同。将所有的掩膜M_i和原图像点乘，根据公式E_i＝I⊙M_i得到每个实体单独的照片E_i,i∈{1,...,m}，接着对E_i进行预处理，提取其中的有效像素的范围，通过变换有效像素的尺寸，使每张实体的照片有效像素的大小为256×256。此时将处理后的E_i和指导性文本引导词T₁放入图像文本匹配模型中，得到每个实体与文本引导词的置信度C_i,i∈{1,...,m}，此时所有C_i的和为1。若实体的置信度高于阈值则选取其对应的掩膜M_i，最后组合所有被选中的掩膜构成最后的结果M。若设置固定的阈值选择置信度C_i，那么模型可能不能找到所有符合文本引导词的掩膜，这会导致获取掩膜的失败。因此本发明提出了动态阈值以解决这一问题。动态阈值是使用逆变换采样来得出的，这是一种从指定概率分布生成样品的统计方法。具体而言，我们首先将置信度C_i按升序排序，i范围从1到m，然后计算累积分布函数，最后通过采样此分布的反函数来生成阈值。具体的，

首先将C_i从大到小排序并计算出累积分布函数F，并定义严格单调的变换为反函数，由此可得：

其中P_r表示概率密度函数，F作为的反函数，即/>u～[0,1]；接着根据上述给定的逆变换取样对累积值的贡献u，得到适应性阈值τ，其中u控制着选取掩膜的比例，因此，对图像根据不同的文本引导词获取掩膜时，τ都会动态地选取掩膜以获得良好的结果，这样就可以根据F^-1(u)生成动态的阈值τ，令C_i对应的掩膜为M_i，则全部掩膜的集合M＝[C_i＞τ]。

如图2所示，即便面对复杂的场景，比如图像中存在多个相似的物体，图像中存在多个符合文本引导词的物体等，采用了动态阈值的模型依然能够获取到正确的掩膜。

此外本发明还考虑图片中存在多个符合文本引导词的实体，但是只提取其中一个对应掩膜的解决办法。首先将所有符合文本引导词的实体获取到，然后根据它们在图片中的位置构建相对位置图，然后根据映射关系将给定的方向性文本引导词映射到相对位置图上，距离该位置最近的实体掩膜为输出。如图3所示，模型可以根据方位词准确的生成符合文本引导词的掩膜。

2)基于文本的图像编辑模型以原图I、步骤1)最终所得的掩膜M和文本描述T₂为输入。首先模型根据公式z＝E(I)通过变分自编码器的编码器E将原图映射至潜向量空间，此时z的维度可以通过编码器设置，一旦z的维度确定，由基于文本的掩膜生成模型得到的掩膜M也要降维为M_l，此时z和M_l的维度应相同。在扩散模型的前向过程中，模型会根据公式向z中添加噪声得到一系列的添加噪声后的数据z₁,z₂,...,z_T，其中β₁,β₂,...,β_T∈(0,1)表示扩散过程中的标准差，它可以在训练过程之前被直接设置，均值则是以β_t和t时刻的数据z_t决定的。在逆向过程，由于要完成文本编辑图像的任务，本发明对网络进行了更改以完成保留图像背景的功能。即从/>开始，去噪网络∈_θ根据公式/>逐步根据文本条件T₂和时间t对图像进行编辑。对于每一步逆扩散过程中得到的/>都会以掩膜M_l为条件和前向过程中得到的z_t结合，这是为了保留原始图像的背景和结构，具体公式如下：

3)相比于其他生成模型，扩散模型的生成具有多样性强的优点，然而多样性可能会导致生成结果不易控制。为了提高编辑图像后输出结果的质量，本文提出了多模态质量评估模块即图像选取模块，该模块能够根据给定的文本条件在众多编辑后的结果中选出最优解，下面将对多模态质量评估模块中的语义一致性和图片质量两个判定标准做详细的描述。假设基于文本描述的图像编辑模型一次生成了h张图片，则该模型输出的结果为P_k,k∈{1,...,h}。语义一致性评估的目的是评价文本描述T₂与根据该文本编辑图像结果P_k之间的相关性，其输出是两者之间相关性的得分。该模块引入了文本图像对比模型CLIP，将文本描述T₂输入CLIP的文本编码器E_T，将根据v编辑图像后所有的结果P_k放入CLIP的图像编辑器E_I，则可以由如下公式得到对应编辑结果P_k的语义一致性得分的值分布在[0，1]之间。

除了上述的语义一致性评估模块，本文还引入了图片质量评估模块以希望被编辑后的图像有较高的质量。在此本发明定义图像质量的信心系数S_k如下：

最后通过如下的公式得到最优解P_k'：

其中α是超参数，在此可以设置α＝5.0

此外，潜向量扩散模型的潜向量是通过变分自编码器获取的，事实上将图像映射到潜向量空间会有一定的误差，因此即使在任何操作完成之前，被编码后的图像也不会被完全的重建，结果就是图像的细节丢失会造成图像的观感变差，当图像的内容包含人脸、文字等细致的纹理时这样的现象尤其明显，因此，还可在上述步骤完成之后基于背景重建模块进行修复重建原图的背景，背景重建模块可以采用现有的任意背景重建方式，例如可以通过在每个图像的基础上微调解码器的权重θ来重建原图的背景，或采用其他任意方法。

本发明方法的具体效果如图4、图5所示，可以清晰看到图像的细节处重建后的效果比初始的预测效果更加符合原图。图5为本发明实际应用效果图，可以看出本发明方法很好的实现了所述功能，效果优异。

Claims

1.基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，包括以下步骤：

1)使用实体分割模型对图像中的像素分类并分割，得到图片中所有的实体各自对应的掩膜，预处理后和文本引导词一同输入图像文本匹配模型，基于动态阈值处理方法得到与文本引导词相对应的实体的掩膜；

2)采用基于文本描述的图像编辑模型，通过输入文本描述、原图和步骤1)所得对应实体的掩膜，在扩散模型的逆扩散过程中得到符合文本描述的编辑结果；

3)设计图像选取模块以步骤2)中得到的编辑结果与所述文本描述的一致性、编辑结果相对原图的生成部分与原图未被编辑部分的和谐度即图片质量两个方面为评价指标对所得编辑结果图片的质量进行评分，在步骤2)得到多张图片时，通过该模块获取到质量最高的结果。

2.根据权利要求1所述的基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，所述步骤1)中的预处理，具体为：将原图像中所有的实体各自对应掩膜和原图像点乘，得到每个实体单独的图片，提取其中的有效像素的范围，通过缩放有效像素的尺寸，使每张实体单独的图片有效像素的最大边尺寸一致。

3.根据权利要求1所述的基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，所述的动态阈值处理方法具体为：

将处理后的掩膜对应实体图片E_i和指导性文本引导词T₁一同输入图像文本匹配模型后，得到每个实体i与文本引导词的置信度C_i,i∈{1,...,m}，此时所有C_i的和为1；首先计算C_i的累积分布函数F，并定义严格单调的变换为反函数，由此可得：

4.根据权利要求1所述的基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，在步骤1)中当存在多个符合文本引导词的实体，但是只需提取其中一个对应掩膜时，首先获取所有符合文本引导词的实体的掩膜，根据它们在图片中的位置构建相对位置图，对文本引导词增加方向性，然后根据映射关系将给定的方向性文本引导词映射到相对位置图上，将距离该位置最近的实体的掩膜进行输出。

5.根据权利要求1所述的基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，所述的步骤2)具体为：

基于文本描述的图像编辑模型以原图I、步骤1)最终所得的掩膜M和文本描述T₂为输入；模型根据公式z＝E(I)通过变分自编码器的编码器E将原图映射至潜向量空间得到z，此时z的维度可通过编码器设置，一旦z的维度确定，由基于文本的掩膜生成模型得到的掩膜M也要降维为M_l，此时z和M_l的维度应相同，在扩散模型的前向过程中，模型会向z中添加噪声得到一系列的添加噪声后的数据z₁,z₂,...,z_T，在逆向过程，由于要完成文本编辑图像的任务，对网络进行更改以完成保留图像背景的功能，即从开始，去噪网络∈_θ根据公式/>逐步根据文本条件T₂和时间t对图像进行编辑，其中/>表示目标函数，/>表示期望，∈表示前向过程中添加的噪声数据；对于每一步逆扩散过程中得到的/>都会以掩膜M_l为条件和前向过程中得到的z_t结合，以保留原始图像的背景和结构，具体公式如下：

6.根据权利要求1所述的基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，步骤3)中所述图像选取模块包括语义一致性评估模块，所述语义一致性评估模块采用文本图像对比模型CLIP，将文本描述T₂输入CLIP的文本编码器E_T，将步骤2)得到的编辑结果P_k放入CLIP的图像编辑器E_I，由如下公式得到对应编辑结果P_k的语义一致性得分的值分布在[0，1]之间；

7.根据权利要求6所述的基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，步骤3)中所述图像选取模块还包括图片质量评估模块，按下式确定图像质量的信心系数S_k如下：

8.根据权利要求7所述的基于深度学习的文本引导无掩膜图像编辑方法，其特征在于，由所述图像选取模块确定最优解P_k'为：

其中α是超参数。