CN116168186A

CN116168186A - 一种服装长度可控的虚拟试衣图生成方法

Info

Publication number: CN116168186A
Application number: CN202310177297.8A
Authority: CN
Inventors: 姚金良; 郑豪男; 黄孝喜; 杨冰; 王荣波; 谌志群
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-26

Abstract

本发明公开了一种服装长度可控的虚拟试衣图生成方法，涉及虚拟试衣技术领域。本发明方法主要包括：输入预处理阶段需要的图片，经过预处理去除服装信息、计算服装长度控制向量得到服装未知的人物表示和服装长度控制向量；输入语义预测阶段需要的图片，经过试穿语义分割图生成器生成待调整的试穿语义分割图；输入语义补偿阶段需要的图片，经过基于真值的补偿网络对待调整的试穿语义分割图进行修剪补偿，得到试穿语义分割图；输入服装变形阶段需要的图片，经过服装对齐生成器预测服装形变图；输入试穿图生成阶段需要的图片，经过试穿生成器生成试衣图像。本发明方法提出了新的服装未知的人物表示和服装长度控制向量，实现了服装长度可控的虚拟试穿。

Description

一种服装长度可控的虚拟试衣图生成方法

技术领域

本发明涉及虚拟试衣技术领域，并且更具体地，涉及一种服装长度可控的虚拟试衣图生成方法。

背景技术

虚拟图像生成技术在最近几年已有飞快的发展，使得虚拟试衣技术也成为可能。基于图像的虚拟试衣方法用试穿服装取代目标人身上的服装，让用户可以直接地看到服装穿在自己身上时的效果，从而提升用户网络购买服装的体验，减少购物的退货率。

虚拟试衣可以通过3D和2D技术实现，基于3D的虚拟试衣技术主要归纳为建模和渲染。人体的建模和服装的建模都要收集大量3D数据，同时建模和渲染工作都需要昂贵的设备来支持。于是人们将目光投入基于2D虚拟试衣技术，2D虚拟试衣技术的本质为虚拟图像生成。

基于2D图像的虚拟试衣是一种图像生成任务，给出单独的服装图像，将一个人身上的服装替换为另一个不同的服装。具体操作中，虚拟试穿采用图像合成的方法实现，给定一个人和一件服装的图像，合成图像应该满足以下标准:(1)人的身体部位和姿势与原始图像相同；(2)试穿服装根据人的姿势和身体形状自然变形；(3)试穿结果里的服装图案清晰可见，包括颜色和纹理等低级特征和绣花、标志等复杂的图形。虚拟试穿具有独特的挑战性，服装的非刚性特性经常受到变形和遮挡的影响，在没有三维信息的情况下，要生成既满足姿态正确、服装形变效果好、图案清晰、图片合理真实的试穿图像是一种挑战。

GANs是最受欢迎的图像合成生成模型之一，并且在图像生成和图像编辑等任务中有不错的表现。为了在生成的样本中纳入所需的属性，研究人员还利用不同的信号，以类标签、文本、属性等形式作为图像生成的条件。

以往的虚拟试衣技术往往较为关注生成的试穿图的质量而忽视了对服装长度的研究。事实上不同人的着装习惯有所不同，有些人喜欢将服装穿在裤子里，有些人喜欢将服装穿在裤子外，这在视觉上可以表现为穿在身上的服装长短，而以往的虚拟试衣技术只能产生一种效果，即保留原始图像的着装效果，无法提供更多的选择。

发明内容

本发明的目的是提供一种服装长度可控的虚拟试衣图生成方法，使用者可以输入不同的服装、不同的服装长度控制信息获得不同服装、不同着衣方式的图片。本发明方法具有网络学习速度快，试穿效果显著的能力，可用于广泛复杂的虚拟试穿情景。

为了实现上述的发明目的，具体采用的技术方案如下：

一种服装长度可控的虚拟试衣图生成方法，其包括以下步骤：

S1：输入目标人物穿有原服装的原始图像以及原始图像对应的语义分割图、密度姿态图和骨架姿态图，经过预处理操作去除原始图像的服装信息，根据骨架姿态图的关键点得到服装未知的人物图、服装未知的人物语义分割图；

S2：输入待试穿的服装图、服装图的掩码以及所述密度姿态图、所述骨架姿态图、所述服装未知的人物语义分割图和服装长度控制向量，经过预先经过训练的端到端的试穿语义分割图生成器生成待调整的试穿语义分割图；

S3：输入所述原始图像的语义分割图和待调整的试穿语义分割图，经过基于真值的补偿网络对待调整的试穿语义分割图进行修剪补偿，得到试穿语义分割图；

S4：输入待试穿的服装图、服装图的掩码、所述密度姿态图、所述骨架姿态图和所述试穿语义分割图，经过预先经过训练的端到端的服装对齐生成器预测得到服装形变图；

S5：输入所述服装未知的人物图、所述密度姿态图、所述骨架姿态图、所述服装形变图和所述试穿语义分割图，经过预先经过训练的端到端的试穿生成器生成最终输出的试衣图像。

作为优选，所述步骤S1中，服装未知的人物图和服装未知的人物语义分割图分别为经过处理的不包含上衣、部分裤子、手臂的原始图像及其语义分割图，其获取方法为：从骨架姿态图中获取各关键点位置并映射至原始图像上，在原始图像上连接驱干、手臂臀的关键点，形成一片覆盖手臂、上衣、部分裤子但不包括手掌部分的蒙版区域，删除原始图像及其语义分割图中蒙版区域内的图像从而达到删除服装信息的目的，最终得到服装未知的人物图和服装未知的人物语义分割图。

作为优选，所述步骤S2中，服装长度控制向量为一个维度为一的离散型向量，用于表示服装长度；

在试穿语义分割图生成器的训练阶段，该服装长度控制向量由标注的服装下沿、脖子、中臀三个关键点的坐标标准化计算得到，计算方法为：

将骨架姿态图中的脖子关键点和中臀关键点映射至语义分割图上，得到语义分割图上的脖子关键点P_n(x_n，y_n)和中臀关键点P_h(x_h，y_h)；连接脖子关键点P_n和中臀关键点P_h构造一条直线，并沿该直线有序遍历直线上的像素点并判断各像素点在语义分割中的语义类型，将该直线上像素值从代表服装的类型值刚好变为代表非服装的类型值时的像素点作为关键点P_c(x_c，y_c)，该关键点P_c代表直线与语义分割图中服装下沿的交点；由P_c和P_h的纵坐标之差与P_h和P_n的纵坐标之差的比值计算得到服装长度控制向量z，具体计算公式如下：

其中z的大小表示服装相对于身体的长度，当z＜0时在图像中体现为服装的样式或穿着效果为短款服装；当z＞0时在图像中体现为服装的样式或穿着效果为长款服装。

作为优选，所述步骤S2中，在试穿语义分割图生成器的推理阶段，服装长度控制向量由用户直接输入或者采用上述计算方法得到。

作为优选，所述步骤S2中，试穿语义分割图生成器是一种端到端的网络，网络结构采用编码解码结构，网络输入分为三组，第一组输入为待试穿的服装图Ic及服装图的掩码Mc，第二组输入为服装未知的人物语义分割图P_agnostic，第三组输入为密度姿态图I_densepose、骨架姿态图I_pose和将服装长度控制向量z通过全连接层后得到的映射结果，将三组输入各自拼接后分别经过经过第一个特征提取器R₁、第二个特征提取器R₂、第三个特征提取器R₃，由三个特征提取器下采样提取浅层特征和最深层特征，再将三个特征提取器R₁、R₂、R₃分别提取到的最深层特征F₁、F₂、F₃拼接后输入特征上采样融合模块中，所述特征上采样融合模块包含多层用于进行特征上采样融合的上采样层，第一层上采样层前端级联三个特征提取器；特征上采样融合模块中每一层上采样层的一部分输入为前端级联的网络层输出的三个最深层特征F₁、F₂、F₃，另一部分输入为三个特征提取器的浅层特征，最深层特征F₁、F₃经过上采样后分别与来源于同一个特征提取器的同尺度浅层特征进行融合，从而输出对应的两个融合特征F′₁、F′₃，然后再将最深层特征F₂上采样至与来源于同一个特征提取器R₂的同尺度浅层特征F^l ₂相同尺度从而得到F′₂，将F′₂、F^l ₂、F′₁、F′₃拼接后通过一层卷积层后得到特征F″₂，最后将当前上采样层中得到的特征F′₁、F″₂、F′₃分别作为输入下一层的最深层特征F₁、F₂、F₃；特征上采样融合模块最终输出的最深层特征以及试穿语义分割图生成器网络的三组输入一并输入归一化层中，经过拼接后经过一个卷积实现降维，输出与网络输入尺寸相同的待调整的试穿语义分割图。

作为优选，所述步骤S3中，基于真值的补偿网络对待调整的试穿语义分割图进行修剪补偿，具体包括修剪和补偿两个步骤；首先，需基于原始图像对待调整的试穿语义分割图进行修剪处理，去除待调整的试穿语义分割图中存在多余的裤子部分，去除后的区域形成无语义区域；然后用背景区域的值对所述修剪步骤中形成的无语义区域进行赋值，使待调整的试穿语义分割图恢复完整。

作为优选，所述步骤S3中，基于真值的补偿网络的输入为原始图像的语义分割图P_parse和待调整的试穿语义分割图

网络内的具体处理流程如下：

首先，从原始图像的语义分割图P_parse中提取裤子通道M_{bottom_o}，再从待调整的试穿语义分割图

中提取裤子通道M_bottom，将裤子通道M_bottom与M_{bottom_o}相乘得到M′_bottom＝M_bottom⊙M_{bottom_o}；

然后，从待调整的试穿语义分割图

中提取背景通道M_background，将背景通道M_background与(1-M_bottom)⊙M_{bottom_o}相加得到M′_background＝M_background+(1-M_bottom)⊙M_{bottom_o}；

最后，用M′_bottom和M′_background分别替换待调整的试穿语义分割图

中的裤子通道和背景通道，得到完成修剪补偿后的试穿语义分割图P_tryon并作为补偿网络输出。

作为优选，所述步骤S4中的服装对齐生成器是一种端到端的网络，网络结构采用编码解码结构，该网络具体包括形变参数预测模块、服装形变和去重叠化模块：

所述形变参数预测模块中，输入分成三组，第一组输入是服装图I_c及服装掩码图M_c，第二组输入为密度姿态图I_densepose和骨架姿态图I_pose，第三组输入为试穿语义分割图P_tryon，将三组输入各自拼接后分别经过第一个特征提取器f₁、第二个特征提取器f₂、第三个特征提取器f₃，由三个特征提取器下采样提取浅层特征和最深层特征，再将三个特征提取器f₁、f₂、f₃分别提取到的最深层特征E1、E2、E3拼接后经过一层卷积层预测得到初始的流参数

将三个特征提取器提取到的浅层特征、最深层特征和初始的流参数

一并输入由多层上采样层级联组成的特征上采样融合模块；所述特征上采样融合模块中，第一层上采样层前端级联三个特征提取器，用流参数

初始化输入特征上采样融合模块的流参数F_flow；每一层上采样层的一部分输入为该上采样层前端级联的网络层输出的三个最深层特征E₁、E₂、E₃，另一部分输入为三个特征提取器中的浅层特征，输入的最深层特征E1、E₂、E₃经过上采样后分别与来源于同一个特征提取器的同尺度浅层特征进行相加融合得到新的最深层特征E′₁、E′₂、E′₃，将输入当前上采样层的流参数F_flow上采样至与最深层特征E′₁、E′₂、E′₃相同的尺度得到新的流参数F′_flow，利用流参数F′_flow对最深层特征E′₁进行采样得到变形特征E_1w，通过一次卷积映射将最深层特征E′₂、E′₃分别映射到与变形特征E_1w相同尺度从而对应得到特征E_2b和特征E_3b，再将E_1w、E_2b和E_3b沿通道拼接后经过一次卷积得到流参数变化值ΔF_flow，将流参数变化值ΔF_flow与当前的流参数F_flow相加得到新的流参数F″_flow，上一层上采样层中的最深层特征E′₁、E′₂、E′₃和流参数F″_flow分别作为输入下一层上采样层的最深层特征E₁、E₂、E₃和流参数F_flow；经过特征上采样融合模块中所有上采样层后，输出最终的流参数F_flow；

所述服装形变和去重叠化模型中，输入是服装图I_c、服装掩码图M_c、流参数F_flow和试穿语义分割图P_Rtryon，先用特征上采样融合模块最终输出的流参数F_flow对服装图I_c和服装掩码图M_c进行采样，得到待调整的服装形变图I_{cwarped_o}和服装掩码形变图M_{cwarped_o}，再用试穿语义分割图P_tryon对待调整的服装形变图I_{cwarped_o}和服装掩码形变图M_{cwarped_o}进一步修剪补偿，删除重叠的遮挡部分从而得到对齐且无重叠的服装形变图I_cwarped及其掩码M_cwarped。

作为优选，所述步骤S5中，试穿生成器为端到端的网络，该网络采用ALIAS试穿网络，其以服装未知的人物图、密度姿态图、骨架姿态图、服装形变图拼接后作为输入，同时用试穿语义分割图作为额外输入，由网络合成最终的试穿图像。

作为优选，所述试穿语义分割图生成器、服装对齐生成和试穿生成器均预先通过条件对抗训练框架进行训练。

相对于现有技术而言，本发明的有益效果如下：

本发明方法提出了新的服装未知的人物表示和服装长度控制向量，通过生成可控制的语义分割图来实现服装长度可控的虚拟试穿。本发明方法具有网络学习速度快，试穿效果显著的能力，可用于广泛复杂的虚拟试穿情景。

附图说明

图1为本发明的方法流程示意图；

图2为数据预处理效果图；

图3为服装长度控制向量的计算图；

图4为本发明方法试穿语义分割图生成器结构；

图5为语义分割图生成器训练过程；

图6为基于真值的补偿网络具体实施过程；

图7为本发明方法服装对齐生成器结构；

图8为服装对齐生成器训练过程；

图9为基于ALIAS的试穿生成器输入及输出；

图10为试穿生成器训练过程；

图11为不同服装和不同长度的试穿效果图。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅便于对本发明的理解，而对其不起任何限定作用。

如图1所示，为本发明的一个较佳实施例中提供的一种服装长度可控的虚拟试衣图生成方法的流程示意图。该实施例提供的一种服装长度可控的虚拟试衣图生成方法包括如下步骤：

S1：输入目标人物穿有原服装的原始图像以及原始图像对应的语义分割图、密度姿态图和骨架姿态图，经过预处理操作去除原始图像的服装信息，根据骨架姿态图的关键点得到服装未知的人物图、服装未知的人物语义分割图。

该步骤主要为对数据集进行图像数据预处理，其目的是获取服装未知的人物图和服装未知的人物语义分割图。需要说明的是，本发明中的密度姿态图是指dense pose map，而骨架姿态图则是指由人体关键点(或称为关节点)组成的pose map。服装未知的人物图和服装未知的人物语义分割图分别为经过处理的不包含上衣、部分裤子、手臂的原始图像及其语义分割图。如图2所示，定义原始图像I，骨架姿态图I_pose，原始图像语义分割图P_parse。根据I_pose中手臂、驱干、左臀、中臀、右臀的关键点，用有粗度的线在I上连接这些关键点，这些线与连接驱干关键点形成的四边形区域一起形成一片蒙版区域mask，该蒙版区域覆盖手臂(还可能覆盖了手臂周边的部分区域)、上衣、部分裤子但不包括手掌部分。该蒙版的意义是真正消除了服装、部分裤子、手臂的形状，保存了剩下不参与试衣的身体部位。利用(1-mask)分别与I、P_parse相乘可以去除待替换的服装区域，并保留图像的其余部分从而获得服装未知的人物图I_agnostic和服装未知的人物语义分割图P_agnostic。具体实现方法如下公式：

mask＝f(I_pose)

P_agnostic＝P_parse⊙(1-mask)

I_agnostic＝I⊙(1-mask)

另外，本发明后续的试穿语义分割图生成器中还需要一个服装长度控制向量作为输入，该服装长度控制向量可以在S1步骤中通过计算得到，也可以由人为指定。下面简单介绍通过计算获取该服装长度控制向量的方式。该服装长度控制向量为一个维度为一的离散型向量，用于表示服装长度，服装长度控制向量由标注的服装下沿、脖子、中臀三个关键点的坐标标准化计算得到。如图3所示，定义骨架姿态图I_pose，原始图像语义分割图P_parse。我们将所需I_pose的部分关键点通过映射置于P_parse上，得到对应于骨架姿态图中的脖子关键点和中臀关键点，在语义分割图上标注出脖子、中臀两个关键点，分别用P_n(x_n，y_n)、P_h(x_h，y_h)表示。连接P_n、P_h构造一条直线l，l方程可以由这两个关键点的坐标计算为：

直线l与语义分割图的服装区域相交于服装下沿关键点P_c，P_c的坐标(x_c，y_c)由该直线所处区域的像素值从服装值变为非服装值时的像素点的坐标表示。操作中以y_n为下界，图片的最大高度height为上界，定义y从y_n向height方向沿该直线有序遍历，遍历的同时计算对应l中的横坐标x。遍历过程中，判断直线上各像素点在语义分割图中的语义类型，将该直线上(x，y)处的像素值从代表服装的类型值刚好变为代表非服装的类型值时，(x，y)即所求P_c的坐标(x_c，y_c)。在试穿语义分割图生成器的训练阶段，该服装长度控制向量由P_c、P_h纵坐标的差与P_h、P_n纵坐标的差的比值计算得到，具体计算如下：

其中z的大小表示服装相对于身体的长度。当z＜0时，在图像中体现为服装的样式或穿着效果为短款服装。当z＞0时，在图像中体现为服装的样式或穿着效果为长款服装。

但需要说明的是，在试穿语义分割图生成器的推理阶段，服装长度控制向量可以同样采用上述计算方法得到，也可以由用户直接输入，由此根据自身喜好变换服装的样式或穿着效果。

S2：输入待试穿的服装图、服装图的掩码以及所述密度姿态图、所述骨架姿态图、所述服装未知的人物语义分割图和服装长度控制向量，经过预先经过训练的端到端的试穿语义分割图生成器生成待调整的试穿语义分割图。

如图4所示，所述试穿语义分割图生成器是一种端到端的网络，网络结构采用编码解码结构。试穿语义分割图生成器的网络输入分为三组，第一组输入为待试穿的服装图I_c及服装图的掩码M_c，第二组输入为服装未知的人物语义分割图P_agnostic，第三组输入为密度姿态图I_densepose、骨架姿态图I_pose和将服装长度控制向量z通过全连接层后得到的映射结果，将三组输入各自拼接后分别经过经过第一个特征提取器R₁、第二个特征提取器R₂、第三个特征提取器R₃，由三个特征提取器下采样提取浅层特征和最深层特征，再将三个特征提取器R₁、R₂、R₃分别提取到的最深层特征F₁、F₂、F₃拼接后输入特征上采样融合模块中，所述特征上采样融合模块包含多层用于进行特征上采样融合的上采样层，第一层上采样层前端级联三个特征提取器；特征上采样融合模块中每一层上采样层的一部分输入为前端级联的网络层输出的三个最深层特征F₁、F₂、F₃，另一部分输入为三个特征提取器的浅层特征，最深层特征F₁、F₃经过上采样后分别与来源于同一个特征提取器的同尺度浅层特征进行融合，从而输出对应的两个融合特征F′₁、F′₃，然后再将最深层特征F₂上采样至与来源于同一个特征提取器R₂的同尺度浅层特征F^l ₂相同尺度从而得到F′₂，将F′₂、F^l ₂、F′₁、F′₃拼接后通过一层卷积层后得到特征F″₂，最后将当前上采样层中得到的特征F′₁、F″₂、F′₃分别作为输入下一层的最深层特征F₁、F₂、F₃；特征上采样融合模块最终输出的最深层特征以及试穿语义分割图生成器网络的三组输入一并输入归一化层中，经过拼接后经过一个卷积实现降维，输出与网络输入尺寸相同的待调整的试穿语义分割图。

上述试穿语义分割图生成器在实际用于推理之前，可预先通过条件对抗训练框架进行训练。如图5所示，训练中定义原始的待试穿服装图为I_c，服装掩码图为M_c，密度姿态图为I_densepose，骨架姿态图为I_pose，服装未知的人物语义分割图为P_agnostic，服装长度控制向量为z，原始图像的语义分割图为P_parse。服装长度控制向量z经过两层全连接映射成与密度姿态图和骨架姿态图相同尺寸的映射结果Z，将训练组(I_c，M_c，I_densepose，I_pose，P_agnostic，Z)分为(I_c，M_c)，(P_agnostic)，(I_densepose，I_pose，Z)三组输入生成器，生成器将提取三组输入的特征并融合，经过数层的特征上采样融合得到预测的语义分割图P_fake。在损失函数的约束下，试穿语义分割图生成器逐渐能生成与原始语义分割图相近的语义分割图，逐渐具备预测试穿语义分割图的能力。该试穿语义分割图生成器的损失函数为：

l＝λ₁L_CE(P_fake，P_parse)+λ₂L_CGAN

上式中λ₁和λ₂为两类损失的权重系数都为1。L_CE为P_fake，P_parse的像素级交叉熵损失，L_CGAN为条件对抗损失。条件对抗损失表示为：

L_CGAN(G，D)＝E_x，y[log(D(x，y))]+E_x，y[log(1-D(x，-y))]+E_x，y[log(1-D(G(x，y)，y))]+E_x，y[log(1-D(G(x，y)，-y))]

其中x表示输入，y表示服装长度控制向量。该条件对抗损失的作用是判别生成器生成的语义分割图是否真实，并且是穿着短衣服还是长衣服。在本实施例中，上述训练需要进行20轮次，即可得到所需语义分割图生成器。该端到端的试穿语义分割图生成器允许使用者输入不同的服装图得到不同的服装试穿语义分割图。也允许使用者输入不同的服装长度控制向量z得到不同服装长度的服装试穿语义分割图。在实际使用中，此时得到的语义分割图为待调整的试穿语义分割图，需要进一步的修剪补偿才可以得到最终的试穿语义分割图。

S3：输入所述原始图像的语义分割图和待调整的试穿语义分割图，经过基于真值的补偿网络对待调整的试穿语义分割图进行修剪补偿，得到试穿语义分割图。

如图6所示，所述基于真值的补偿网络具体处理分为两方面，分别是修剪和补偿，具体如下：

(1)修剪。在该步骤中，待调整的试穿语义分割图中存在于多余的裤子部分。在最终的试穿图像合成中，试穿语义分割图具有引导网络生成试穿结果的作用，而该本不存在于原始图像的裤子部分会为最终的试穿图合成提供错误引导从而产生伪影或不合语义的内容。因此待调整的试穿语义分割图要经过基于原始图像的修剪处理去除这一部分多余内容，这保证了试穿前后不会生成不应该存在的裤子图案从而导致试穿图片质量下降。

(2)补偿。在修剪步骤中，因为多余的裤子部分被修剪删除，所以语义分割图会多出一小片空缺的无语义区域，所述补偿即用背景区域的值赋予该片空缺的无语义区域服装的语义，从而使语义分割图的语义完整正确。语义补偿后，该部分语义会在最终的试穿图生成中指引试穿生成器生成肚子上的皮肤部分。

在本发明的实施例中，定义原始图像的语义分割图P_parse，待调整的试穿语义分割图

试穿图像语义分割图P_tryon。则基于真值的补偿网络的输入为原始图像的语义分割图P_parse和待调整的试穿语义分割图

网络内的具体处理流程如下：

然后，从待调整的试穿语义分割图

S4：输入待试穿的服装图、服装图的掩码、所述密度姿态图、所述骨架姿态图和所述试穿语义分割图，经过预先经过训练的端到端的服装对齐生成器预测得到服装形变图。

如图7所示，所述服装对齐生成器是一种端到端的网络，网络结构采用编码解码结构，具体处理分为两方面，具体如下：

(1)预测形变参数。形变方法采用光流法，输入是服装图及其掩码、密度姿态图、骨架姿态图、试穿语义分割图。将输入分成三组并拼接在一起，分别经过三个特征提取器下采样提取特征，再将提取到的特征拼接经过一层卷积层预测第一级流参数。将三条支路上的特征和第一级流参数分别输入上采样层，同时将特征提取器提取到的每一层特征输入相对应的上采样层。在上采样层中，特征和流参数被上采样放大尺寸，然后用流参数对服装特征进行采样，采样结果与其他两个特征拼接后再输入一层卷积层得到流参数的变化值，用变化值更新流参数得到该层的流参数输出。其他特征和该层的流参数输出作为该上采样层的输出输入下一层上采样层，经过数个上采样层的特征融合和上采样，得到最终的流参数。

(2)服装形变和去重叠化。输入是服装图及其掩码、流参数、试穿语义分割图。用流参数对服装图进行采样，得到待调整的服装形变图。此时服装与试穿语义分割图没有完全对齐，且形变图里仍有与身体产生重叠的遮挡部分，因此用试穿语义分割图对待调整的服装形变图进一步修剪补偿，删除重叠的遮挡部分从而得到对齐且无重叠的服装形变图及其掩码。

因此，在本发明的实施例中，上述服装对齐生成器具体包括形变参数预测模块、服装形变和去重叠化模块，各模块中的具体处理流程如下：

上述形变参数预测模块中，输入分成三组，第一组输入是服装图I_c及服装掩码图M_c，第二组输入为密度姿态图I_densepose和骨架姿态图I_pose，第三组输入为试穿语义分割图P_tryon，将三组输入各自拼接后分别经过第一个特征提取器f₁、第二个特征提取器f₂、第三个特征提取器f₃，由三个特征提取器下采样提取浅层特征和最深层特征，再将三个特征提取器f₁、f₂、f₃分别提取到的最深层特征E1、E2、E3拼接后经过一层卷积层预测得到初始的流参数

上述服装形变和去重叠化模型中，输入是服装图I_c、服装掩码图M_c、流参数F_flow和试穿语义分割图P_tryon，先用特征上采样融合模块最终输出的流参数F_flow对服装图I_c和服装掩码图M_c进行采样，得到待调整的服装形变图I_{cwarped_o}和服装掩码形变图M_{cwarped_o}，再用试穿语义分割图P_tryon对待调整的服装形变图I_{cwarped_o}和服装掩码形变图M_{cwarped_o}进一步修剪补偿，删除重叠的遮挡部分从而得到对齐且无重叠的服装形变图I_cwarped及其掩码M_cwarped。

同样的，上述服装对齐生成器在实际用于推理之前，可预先通过条件对抗训练框架进行训练。但需要注意的是，图7中的服装对齐生成器在推理阶段的第三组输入为试穿语义分割图P_tryon，但在训练阶段中第三组输入可以替换为原始图像的语义分割图为P_parse。由此如图8所示，训练中定义原始图像为I，原始的服装图为I_c，服装掩码图为M_c，密度姿态图为I_densepose，骨架姿态图为I_pose，原始图像的语义分割图为P_parse。利用P_parse对I的上衣部区域进行提取，得到上衣区域目标图I_pc，上衣区域目标掩码图M_pc作为目标值。具体为取P_parse的服装部分M_top，I与M_top相乘即可得到I_pc，M_pc可直接取值M_top。其中涉及公式如下：

I_pc＝M_top⊙I

M_pc＝M_top

利用训练组(I_c，M_c，I_densepose，I_pose，P_parse)通过生成器得到流参数F_flow。对I_c以流参数F_flow采样，得到服装采样结果I_{cwarped_o}及其掩码M_{cwarped_o}。结合I_{cwarped_o}与P_parse移除I_{cwarped_o}与身体产生重叠的遮挡部分，具体为取P_parse的服装部分M_top，M_top与M_{cwarped_o}相乘得到M_cwarped，再用M_cwarped与I_{cwarped_o}相乘，即可去除不对齐和重叠的遮挡部分得到最终的服装形变图I_cwarped。其中涉及公式如下：

M_cwarped＝M_top⊙M_{cwarped_o}

I_cwarped＝M_cwarped⊙I_{cwarped_o}

在损失函数的约束下，服装对齐生成器逐渐能生成与原始图像中服装相近的服装形变图，逐渐具备预测服装形变的能力。该服装对齐生成器的损失函数为：

l＝λ₁L_VGG(I_cwarped，I_pc)+λ₂L₁(M_cwarped，M_pc)+λ₃L_CGAN

上式中λ₁、λ₂、λ₃为三类损失的权重系数都为1。L_VGG为I_cowarped与I_pc的VGG视觉损失，L₁为M_cowarped与M_pc的L1损失，L_CGAN为条件对抗损失。条件对抗损失表示为：

L_CGAN(G，D)＝E_x[log(D(x))]+E_x[log(1-D(G(x)))]

其中x表示输入。该条件对抗损失的作用是判别生成器生成的服装形变图是否真实。在本实施例中，上述训练需要进行20轮次，即可得到所需服装对齐生成器。

如图9所示，所述试穿生成器为端到端的网络，网络为基于ALIgnmentAwareSegment(ALIAS)的试穿网络，将服装未知的人物图、密度姿态图、骨架姿态图、服装形变图拼接输入，用试穿语义分割图作为额外输入，网络将合成最终的试穿图像。

同样的，该试穿生成器在实际用于推理前也需要预先通过条件对抗训练框架进行训练。如图10所示，训练中定义原始图像为I，服装未知的人物图为I_agnostic，服装形变图为I_cwarped，密度姿态图为I_densepose，骨架姿态图为I_pose，原始图像的语义分割图为P_parse。利用训练组(I_cwarped，I_{dense□□se}，I_pose，I_agnostic，P_parse)通过试穿生成器生成试穿图I_fake。该试穿生成器的损失函数为：

l＝λ₂L_VGG(I_fake，I)+λ₂L_CGAN

上式中λ₁、λ₂为两类损失的权重系数都为1。其中，L_VGG为I_fake和I的VGG视觉损失，L_CGAN为条件对抗损失。条件对抗损失表示为：

L_CGAN(G，D)＝E_x[log(D(x))]+E_x[log(1-D(G(x)))]

其中x表示输入。该条件对抗损失的作用是判别生成器生成的试穿图是否真实。

所有的试穿语义分割图生成器、服装对齐生成和试穿生成器在训练完成后，使用者可以输入不同的服装、不同的服装长度控制向量(通过计算或者直接指定)按以上步骤获得不同服装、不同着衣方式的图片即获得服装可控的虚拟试衣效果。在本发明的实施例中，通过上述方法生成的部分虚拟试衣效果如图11所示，表明本发明可以较好地实现服装图的虚拟试穿，效果显著，且可实现虚拟试穿过程中的服装长度灵活可控。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种服装长度可控的虚拟试衣图生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S1中，服装未知的人物图和服装未知的人物语义分割图分别为经过处理的不包含上衣、部分裤子、手臂的原始图像及其语义分割图，其获取方法为：从骨架姿态图中获取各关键点位置并映射至原始图像上，在原始图像上连接驱干、手臂臀的关键点，形成一片覆盖手臂、上衣、部分裤子但不包括手掌部分的蒙版区域，删除原始图像及其语义分割图中蒙版区域内的图像从而达到删除服装信息的目的，最终得到服装未知的人物图和服装未知的人物语义分割图。

3.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S2中，服装长度控制向量为一个维度为一的离散型向量，用于表示服装长度；

将骨架姿态图中的脖子关键点和中臀关键点映射至语义分割图上，得到语义分割图上的脖子关键点P_n(x_n,y_n)和中臀关键点P_h(x_h,y_h)；连接脖子关键点P_n和中臀关键点P_h构造一条直线，并沿该直线有序遍历直线上的像素点并判断各像素点在语义分割中的语义类型，将该直线上像素值从代表服装的类型值刚好变为代表非服装的类型值时的像素点作为关键点P_c(x_c,y_c)，该关键点P_c代表直线与语义分割图中服装下沿的交点；由P_c和P_h的纵坐标之差与P_h和P_n的纵坐标之差的比值计算得到服装长度控制向量z，具体计算公式如下：

其中z的大小表示服装相对于身体的长度，当z<0时在图像中体现为服装的样式或穿着效果为短款服装；当z>0时在图像中体现为服装的样式或穿着效果为长款服装。

4.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S2中，在试穿语义分割图生成器的推理阶段，服装长度控制向量由用户直接输入或者采用上述计算方法得到。

5.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S2中，试穿语义分割图生成器是一种端到端的网络，网络结构采用编码解码结构，网络输入分为三组，第一组输入为待试穿的服装图I_c及服装图的掩码M_c，第二组输入为服装未知的人物语义分割图P_agnostic，第三组输入为密度姿态图I_densepose、骨架姿态图I_pose和将服装长度控制向量z通过全连接层后得到的映射结果，将三组输入各自拼接后分别经过经过第一个特征提取器R₁、第二个特征提取器R₂、第三个特征提取器R₃，由三个特征提取器下采样提取浅层特征和最深层特征，再将三个特征提取器R₁、R₂、R₃分别提取到的最深层特征F₁、F₂、F₃拼接后输入特征上采样融合模块中，所述特征上采样融合模块包含多层用于进行特征上采样融合的上采样层，第一层上采样层前端级联三个特征提取器；特征上采样融合模块中每一层上采样层的一部分输入为前端级联的网络层输出的三个最深层特征F₁、F₂、F₃，另一部分输入为三个特征提取器的浅层特征，最深层特征F₁、F₃经过上采样后分别与来源于同一个特征提取器的同尺度浅层特征进行融合，从而输出对应的两个融合特征F'₁、F'₃，然后再将最深层特征F₂上采样至与来源于同一个特征提取器R₂的同尺度浅层特征F^l ₂相同尺度从而得到F'₂，将F'₂、F^l ₂、F'₁、F'₃拼接后通过一层卷积层后得到特征F”₂，最后将当前上采样层中得到的特征F'₁、F”₂、F'₃分别作为输入下一层的最深层特征F₁、F₂、F₃；特征上采样融合模块最终输出的最深层特征以及试穿语义分割图生成器网络的三组输入一并输入归一化层中，经过拼接后经过一个卷积实现降维，输出与网络输入尺寸相同的待调整的试穿语义分割图。

6.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S3中，基于真值的补偿网络对待调整的试穿语义分割图进行修剪补偿，具体包括修剪和补偿两个步骤；首先，需基于原始图像对待调整的试穿语义分割图进行修剪处理，去除待调整的试穿语义分割图中存在多余的裤子部分，去除后的区域形成无语义区域；然后用背景区域的值对所述修剪步骤中形成的无语义区域进行赋值，使待调整的试穿语义分割图恢复完整。

7.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S3中，基于真值的补偿网络的输入为原始图像的语义分割图P_parse和待调整的试穿语义分割图

网络内的具体处理流程如下：

然后，从待调整的试穿语义分割图P_rawtryon中提取背景通道M_background，将背景通道M_background与(1-M_bottom)⊙M_{bottom_o}相加得到M′_background＝M_background+(1-M_bottom)⊙M_{bottom_o}；

8.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S4中的服装对齐生成器是一种端到端的网络，网络结构采用编码解码结构，该网络具体包括形变参数预测模块、服装形变和去重叠化模块：

初始化输入特征上采样融合模块的流参数F_flow；每一层上采样层的一部分输入为该上采样层前端级联的网络层输出的三个最深层特征E₁、E₂、E₃，另一部分输入为三个特征提取器中的浅层特征，输入的最深层特征E1、E₂、E₃经过上采样后分别与来源于同一个特征提取器的同尺度浅层特征进行相加融合得到新的最深层特征E'₁、E'₂、E'₃，将输入当前上采样层的流参数F_flow上采样至与最深层特征E'₁、E'₂、E'₃相同的尺度得到新的流参数F′_flow，利用流参数F′_flow对最深层特征E'₁进行采样得到变形特征E_1w，通过一次卷积映射将最深层特征E'₂、E'₃分别映射到与变形特征E_1w相同尺度从而对应得到特征E_2b和特征E_3b，再将E_1w、E_2b和E_3b沿通道拼接后经过一次卷积得到流参数变化值ΔF_flow，将流参数变化值ΔF_flow与当前的流参数F_flow相加得到新的流参数F″_flow，上一层上采样层中的最深层特征E'₁、E'₂、E'₃和流参数F″_flow分别作为输入下一层上采样层的最深层特征E₁、E₂、E₃和流参数F_flow；经过特征上采样融合模块中所有上采样层后，输出最终的流参数F_flow；

所述服装形变和去重叠化模型中，输入是服装图I_c、服装掩码图M_c、流参数F_flow和试穿语义分割图P_tryon，先用特征上采样融合模块最终输出的流参数F_flow对服装图I_c和服装掩码图M_v进行采样，得到待调整的服装形变图I_{cwarped_o}和服装掩码形变图M_{cwarped_o}，再用试穿语义分割图P_tryon对待调整的服装形变图

I_{cwarped_o}和服装掩码形变图M_{cwarped_o}进一步修剪补偿，删除重叠的遮挡部分从而得到对齐且无重叠的服装形变图I_cwarped及其掩码M_cwarped。

9.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述步骤S5中，试穿生成器为端到端的网络，该网络采用ALIAS试穿网络，其以服装未知的人物图、密度姿态图、骨架姿态图、服装形变图拼接后作为输入，同时用试穿语义分割图作为额外输入，由网络合成最终的试穿图像。

10.根据权利要求1所述的一种服装长度可控的虚拟试衣图生成方法，其特征在于，所述试穿语义分割图生成器、服装对齐生成和试穿生成器均预先通过条件对抗训练框架进行训练。