CN111340720B - 一种基于语义分割的套色木刻版画风格转换算法 - Google Patents
一种基于语义分割的套色木刻版画风格转换算法 Download PDFInfo
- Publication number
- CN111340720B CN111340720B CN202010091956.2A CN202010091956A CN111340720B CN 111340720 B CN111340720 B CN 111340720B CN 202010091956 A CN202010091956 A CN 202010091956A CN 111340720 B CN111340720 B CN 111340720B
- Authority
- CN
- China
- Prior art keywords
- image
- style
- content
- woodcut
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 82
- 230000011218 segmentation Effects 0.000 title claims abstract description 55
- 238000004422 calculation algorithm Methods 0.000 title description 16
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000009826 distribution Methods 0.000 claims abstract description 35
- 238000012512 characterization method Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000013213 extrapolation Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000002023 wood Substances 0.000 abstract description 19
- ZLSWBLPERHFHIS-UHFFFAOYSA-N Fenoprop Chemical compound OC(=O)C(C)OC1=CC(Cl)=C(Cl)C=C1Cl ZLSWBLPERHFHIS-UHFFFAOYSA-N 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 28
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于语义分割的套色木刻版画风格转换方法,包括:步骤一:对内容图像和版画艺术风格图像分别进行语义分割,得到语义分割结果图;步骤二:对语义分割结果图进行二值化处理得到图像掩模;步骤三:使用内容图像和版画艺术风格图像的语义分割掩模作为引导,通过加入空间引导通道对内容图像和版画艺术风格图像进行分区域风格转换,最后得到具有木刻版画风格的艺术风格转换结果。本发明提出的套色木刻版画风格转换方法,有效避免了木刻版画风格转换结果容易出现木刻刻痕纹理不明显、刻痕纹理分布混乱等问题。提出的方法木刻版画风格转换结果所呈现的木刻刻痕纹理明显,刻痕纹理分布合理,转换结果真实自然,更接近真实的木刻版画。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于语义分割的套色木刻版画风格转换算法。
背景技术
神经网络图像风格转换是一种使用神经网络将艺术风格图像的风格渲染到内容图像上技术。Gatys等[1]的开创性工作证明了卷积神经网络(convolutional neuralnetworks,CNN)在创造艺术图像方面的能力;之后,神经网络图像风格转换受到越来越多的关注,并提出了很多方法来改进或扩展原有算法。Li等[2]通过加入拉普拉斯损失来增强转换结果的细节及边缘轮廓;Risser等[3]提出一种加入直方图损失来提高风格转换稳定性的方法;Johnson等[4]通过训练模型,以前馈传播的方式实现了图像快速风格转换;Chen等[5]基于局部匹配的方法,实现了任意风格的快速转换;Li等[6]以数据驱动方式提出一种可学习线性变换矩阵的风格转换算法,该算法能够实现任意图像与视频的风格转换。
目前,神经网络图像风格转换算法已能够实现任意风格图像的转换,但对于如木刻版画这样一类不同于纸上绘画,而是通过媒介物拓印得到,作品中带有明显木刻刻痕纹理,在一些局部区域刻痕类型基本一致且纹理分布大致都是均匀统一的版画艺术风格画作,已有的神经网络图像风格转换算法获得的结果容易出现木刻刻痕不明显、刻痕纹理分布混乱、内容图的语义信息被破坏的现象。存在所述缺陷的原因是:现有的神经网络风格转换方法分为两大类:(1)基于图像优化的在线神经网络方法;(2)基于模型优化的离线神经网络方法。对于第(1)类方法,通常将生成图像初始化为随机噪声,使用VGG19网络作为特征提取器,将VGG19网络较高层提取的特征表征作为内容表征,将每一个卷积层提取的特征表征之间的相关性作为风格表征;使用Gram矩阵来计算不同特征表征之间的相关性作为风格表征,由于Gram只能够提取图像的全局平均特征,对空间物体信息没有限制作用,在白噪声初始化的图像上进行优化得到的木刻版画风格化图像就容易出现上述现象。第(2)类方法通常是通过训练模型或解码器的形式得到具体的模型或解码器参数,任意艺术风格图像都可以通过训练这些模型或解码器来实现风格化,但这些模型或解码器中没有对木刻版画的特点设计相应突出木刻刻痕纹理和优化纹理分布的结构,因此,风格化结果容易出现上述现象。
[1]Gatys LA,EckerA S,Bethge M.Image style transfer usingconvolutional neural networks[C]//Proceedings of the IEEE conference oncomputer vision and pattern recogni-tion.2016:2414-2423
[2]Li S,Xu X,Nie L,et al.Laplacian-steered neural style transfer[C]//Proceedings ofthe 25thACM international conference on Multimedia.ACM,2017:1716-1724
[3]Risser E,Wilmot P,Barnes C.Stable and controllable neural texturesynthesis and style transferusing histogram losses[OL].arXivpreprint arXiv:1701.08893,2017
[4]Johnson J,Alahi A,Fei-Fei L.Perceptual losses for real-time styletransfer and super-resolution[C]//European conference on computervision.Springer,Cham,2016:694-711
[5]Chen T Q,Schmidt M.Fast patch-based style transfer of arbitrarystyle[OL].arXivpreprint arXiv:1612.04337,2016
[6]Li X,Liu S,Kautz J,et al.Learning Linear Transformations for FastImage and Video Style Transfer[C]//Proceedings of the IEEE Conference onComputer Vision andPattern Recognition.2019:3809-3817
[7]Zheng S,Jayasumana S,Romera-Paredes B,et al.Conditional randomfields as recurrent neural net-works[C]//Proceedings ofthe IEEE internationalconfer-ence on computervision.2015:1529-1537
[8]Gatys L A,Ecker A S,Bethge M,et al.Controlling perceptual factorsin neural style transfer[C]//Proceedings of the IEEE Conference on ComputerVision and PatternRecognition.2017:3985-3993
[9]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[OL].arXivpreprint arXiv:1409.1556,2014。
发明内容
本发明的目的在于避免木刻版画风格转换时获得的结果容易出现木刻刻痕不明显、刻痕纹理分布混乱、生成图语义信息被破坏的问题,提供一种基于语义分割的套色木刻版画风格转换算法,使生成的木刻版画刻痕纹理分布合理,转换结果真实自然。
一种基于语义分割的套色木刻版画风格转换方法,包括以下步骤:
步骤一:对内容图像和版画艺术风格图像分别进行语义分割,得到语义分割结果图;
其中,对内容图像使用CRF-RNN网络对其进行语义分割得到语义分割结果图;对版画艺术风格图像使用语义标注工具Lableme对其进行分割得到语义分割结果图;
步骤二:对所述两个语义分割结果图分别进行二值化处理,分别得到内容图像的两个互补的内容图像掩模和版画艺术风格图像的两个互补的风格图像掩模;
步骤三:使用所述内容图像掩模和风格图像掩模作为引导,通过加入空间引导通道对内容图像和版画艺术风格图像进行分区域风格转换,最后得到具有木刻版画风格的艺术风格转换结果。
进一步地,如上所述的于语义分割的套色木刻版画风格转换方法,所述步骤一中,所述对内容图像使用CRF-RNN网络对其进行语义分割得到语义分割结果图包括:
步骤1:将内容图像像素Xi的标签作为随机变量,像素与像素之间的关系作为边,构成一个条件随机场,令X是由随机变量X1,X2,...XN组成的向量,其中N是图像中的像素个数;获得全局观测I时,I为图像,(I,X)可以建模为CRF模型,其特征是如下形式的吉布斯分布:
其中,E(x)为x取某个值的能量,Z(I)为配分函数。
在CRF模型中,赋予x某个标签的能量由如下能量函数计算:
其中,ψu(xi)为一元能量分量,用于度量标签xi分配给像素i的概率,ψp(xi,xj)为二元能量分量,用于描述两个相邻像素i、j之间的关联;
一元能量分量由CNN计算而来,只是粗略的预测了像素的标签;二元能量分量提供了与图像数据相关的平滑项,该项表示为加权高斯核函数:
其中,μ(xi,xj)为标签相容性函数,用于捕获不同标签对之间的相容性,对于m=1,2,...,M的每一个是应用于特征向量的高斯函数,w(m)为每一个m=1,2,...,M的权重,fi,fj为像素的特征向量;
步骤2:将CRF分布的平均场近似用于最大后验边缘推断,它是用一个更简单的分布Q(X)来近似CRF分布P(X),可以写成独立的边缘分布的乘积,即:
Q(x)=ΠiQi(xi)
其中,Q(X)代表CRF的平均场近似;Xi代表图像中的某一像素。
步骤3:将步骤2得到的所述CRF平均场的单次迭代过程建模为CNN层的一次前向传播过程,将CRF平均场进行多次迭代,直到完成迭代次数,这相当于将CRF平均场推理作为一个RNN模型处理,将上述模型称为CRF-RNN;
步骤4:将CRF-RNN模型与FCN网络结合,形成端到端的网络;
步骤5:使用PASCAL Context语义分割数据集再对上述网络进行训练,训练完成后,将内容图像输入到FCN结合CRF-RNN端到端的网络中,最终得到内容图像的语义分割结果图。
进一步地,如上所述的于语义分割的套色木刻版画风格转换方法,所述步骤三包括:
步骤1:使用内容图像作为生成图的初始化图像;内容图像与生成图在网络的每一个卷积层都会得到相应的特征图,将每一层特征图存储为一个二维矩阵得到该层的特征表征,使用VGG19网络较高层提取的特征表征作为内容表征;
步骤2:木刻版画风格图像与生成图像在网络的每一个卷积层也会得到相应的特征表征;使用Gram矩阵计算每一层各通道特征图之间的相关性作为风格表征;
步骤3:掩模图像输入到风格转换网络后,会被重新编码,网络根据掩模图像在每一层生成引导通道Tl r,这相当于根据引导通道Tl r为特征图增加了一个权重信息,权重的作用使得特征图中与引导通道对应区域激活值增大,图像优化过程只在相应的空间引导通道区域进行;
步骤4:步骤1通过风格转换网络计算得到内容图像和生成图像的内容表征之后,将内容表征中的特征图与步骤3所生成对应的空间引导通道进行对应元素相乘运算得到空间引导内容表征,使用欧氏距离来定义内容损失;
对步骤2通过风格转换网络计算得到的木刻版画风格图像和生成图像的特征表征之后,将每一个特征图与步骤3所生成对应的空间引导通道进行对应元素相乘运算得到空间引导特征表征;再使用Gram矩阵计算空间引导特征图之间的相关性,得到空间引导Gram矩阵作为空间引导风格表征,使用欧氏距离来定义风格损失;
步骤5:将内容损失和风格损失加权联立得到一个总损失函数,使用梯度下降对生成图初始化图像进行优化,设置迭代次数,达到迭代次数后停止,最终得到具有木刻版画风格的转换结果。
进一步地,如上所述的于语义分割的套色木刻版画风格转换方法,步骤4中所述内容损失的函数为:
其中,x表示生成图初始化图像,xc表示内容图像;
所述风格损失的函数为:
进一步地,如上所述的基于语义分割的套色木刻版画风格转换方法,所述总损失函数为:
Ltotal=αLc+βLs
其中,Lc表示内容图与生成图之间的损失函数,Ls表示版画风格图像与生成图之间的损失函数,α和β分别表示内容损失函数与版画风格损失函数的权重。
有益效果:
本发明提出的套色木刻版画风格转换方法,有效避免了木刻版画风格转换结果容易出现木刻刻痕纹理不明显、刻痕纹理分布混乱等问题。提出的方法木刻版画风格转换结果所呈现的木刻刻痕纹理明显,刻痕纹理分布合理,转换结果真实自然,更接近真实的木刻版画。
本发明提供的转换方法基于神经网络分割算法和CNN的图像风格转换方法将内容图像作为生成图初始化图像,使用图像掩模作为引导,通过加入空间引导通道进行套色木刻版画的风格转换,避免木刻版画风格化出现木刻刻痕纹理不明显、刻痕纹理分布混乱等问题。其原理如下:
本发明提出的木刻版画风格转换方法属于基于图像优化的在线神经网络方法,每一幅原始输入图像拥有两个互补的掩模图像,图像掩模的像素取值为0或1(掩模图像中的黑色区域像素值为0,白色区域为1),使用图像掩模作为引导,加入空间引导通道进行木刻版画分区域风格转换,空间引导通道可以理解为掩模图像中像素值为1的区域;
将内容图、风格图和对应的掩模图像作为风格转换网络的输入,网络根据掩模图像在每一层生成引导通道Tl r,将引导通道Tl r与网络提取的特征图进行对应元素相乘运算,得到空间引导特征表征,相当于根据引导通道Tl r为特征图增加了一个权重信息,权重的作用使得特征图中与引导通道对应区域激活值增大,Gram矩阵只计算引导通道区域内的特征相关性,网络在优化风格损失的时候也只对该引导通道区域进行优化,消除了非引导通道区域风格特征的影响,避免出现木刻痕纹理分布混乱的现象;先使用第一个掩模图像优化引导通道的区域,达到设置的迭代次数后使用第二个掩模图像来对相应的引导通道区域进行优化,直到设置的迭代次数之后停止,得到风格化图像。
本发明使用内容图像取代白噪声图像作为生成图的初始化图像,相比使用白噪声图像初始化,这样能够很好地保持图像中的语义结构信息及减少迭代次数,VGG19网络更容易提取到生成图像的语义特征;Gram矩阵在具有语义信息图像的特征表征上更容易获取图像高级语义信息的特征和木刻版画风格特征之间的相关性,在具有语义信息的初始化生成图上进行优化,减少了噪声的干扰,结合上述的空间引导通道,图像优化的过程加强了木刻版画风格特征的迁移,转换结果木刻刻痕特征会更明显;
空间引导通道与使用内容图取代白噪声作为生成图的初始化图像,二者的结合避免了木刻版画风格化出现木刻刻痕纹理特征不明显,刻痕纹理分布混乱,图像语义信息被破坏等问题。
附图说明
图1是套色木刻版画风格转换整体流程图;
图2是用于内容图像分割的CRF-RNN算法示意图;
图3是原始图像、图像语义分割结果及其掩模图像;
图4是套色木刻版画分区域风格转换流程图;
图5是不同权重的风格化结果图;
图6是人物肖像图像木刻版画风格转换结果对比;
图7是景物图像木刻版画风格转换结果对比;
图8是局部纹理细节对比图;
图9是木刻版画风格转换结果视觉评估平均分统计。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一部分:图像语义分割:
内容图像语义分割
对于内容图像的语义分割,使用CRF-RNN算法[7]得到像素级的语义分割,该算法是一个端到端的图像语义神经网络分割算法。
在图像的逐像素标记任务中,CRF(conditional random field,CRF)通常用于标签类别的预测,将图像像素的标签作为随机变量,像素与像素之间的关系作为边,构成一个条件随机场,获得全局观测时,CRF可以对这些标签进行建模。设图像I有N个像素,将图像I中的每一个像素分配到一个预设置好的标签集合L中,令分配给像素i的像素标签为随机变量Xi,Xi∈L;令变量X是由X1,X2,...,XN组成的随机向量。令图G=(V,E),其中V={X1,X2,...,XN},V与X等价,在图中,通常用G(V,E)表示一个图,因此使用V来表示像素点集合,E为像素与像素之间的关系,当获得全局观测I(I为图像)时,(I,X)可以建模为CRF模型,其特征是如下形式的吉布斯分布:
其中,E(x)为x取某个值的能量,Z(I)为配分函数。在全连接的CRF模型中,标签的能量定义为:
其中,ψu(xi)为一元能量分量,用于度量标签xi分配给像素i的概率,ψp(xi,xj)为二元能量分量,用于描述两个相邻像素i、j之间的关联,该项能够使相邻像素的颜色值相近的像素点有更大的概率分到同一类别标签下。一元能量分量由CNN计算而来,只是粗略的预测了像素的标签;二元能量分量提供了与图像数据相关的平滑项,该项表示为加权高斯核函数:
式中,μ(xi,xj)为标签相容性函数,用于捕获不同标签对之间的相容性。对于m=1,2,...,M的每一个是应用于特征向量的高斯函数,w(m)为每一个m=1,2,...,M的权重,fi,fj为像素的特征向量。
将上述CRF能量E(x)最小化,得到给定图像的最大可能的标签,由于这种精确的极小化是难以处理的,因此将CRF分布的平均场近似用于最大后验边缘推断,它是用一个更简单的分布Q(X)来近似CRF分布P(X),可以写成独立的边缘分布的乘积,即Q(x)=ΠiQi(xi)Q(X)代表CRF的平均场近似。将CRF平均场的单次迭代过程建模为CNN层的一次前向传播过程,将CRF平均场进行多次迭代,直到完成迭代次数,迭代次数一般为10次,这相当于将CRF平均场推理作为一个RNN模型处理,整个算法可以表示为一个RNN的过程。
将上述RNN结构定义为CRF-RNN,将CRF平均场视为一个RNN计算过程,将该模型与FCN(fully convolutionalnetworks,FCN)结合,形成端到端的网络,使用PASCALContext语义分割数据集再对上述网络进行训练,训练完成后,将内容图像输入到FCN结合CRF-RNN端到端的网络中,最终得到内容图像的语义分割结果图。CRF-RNN与FCN结合的结构如图2所示。
下面对版画艺术风格图像分割进行阐述:
CRF-RNN语义分割网络实现精确分割的前提是需要对大量标注的图像数据集进行训练,而现有的木刻版画数据集较小,使用CRF-RNN网络进行训练后难以得到满足木刻版画艺术风格转换条件的分割结果;因此,使用Labelme图像标注工具对版画艺术风格图像进行语义分割。
第二部分:语义分割结果二值化
套色木刻版画按语义风格转换需要使用内容图像和版画艺术风格图像的掩模作为引导,通过使用CRF-RNN图像语义分割算法和Labelme得到的内容图像和版画风格图像分割结果后,对分割结果进行二值化处理,得到内容图像和风格图像的掩模图像,每一幅原始图像有两个互补的掩模图像。原始图像、图像语义分割结果及其掩模图像如图3所示。
第三部分:套色木刻版画风格转换
套色木刻版画分区域风格转换主要基于CNN图像风格转换方法[1]和带空间引导通道的图像风格化方法[8]。将上述语义分割掩模图像作为引导,在内容图像和版画艺术风格图像上对空间引导通道区域进行分区域风格转换。使用预训练VGG-19卷积神经网络模型[9]作为特征提取器,使用卷积神经网络较高层提取的特征表征作为内容表征,卷积层各通道特征表征之间的相关性作为风格表征。即:VGG19网络具有提取图像高级语义信息能力,图像输入到网络后,网络会对图像重新编码,网络的每一个卷积层都会提取到相应的特征图,将这些特征图存储为一个二维矩阵可以得到该层响应的特征表征。该转换方法具体包括以下步骤:
步骤1:使用内容图像作为生成图的初始化图像;内容图像与生成图在网络的每一个卷积层都会得到相应的特征图,将每一层特征图存储为一个二维矩阵得到该层的特征表征,使用VGG19网络较高层提取的特征表征作为内容表征;
具体地,定义生成图初始化图像x和内容图像xc(生成图是作为优化对象的图像,使用内容图像与风格图像作为参照,在第三幅图像上进行优化得到具有内容图像语义信息同时具有风格图像的风格特征的转换结果图),初始化图像和内容图像在VGG-19网络的每一层都会被重新编码,第l层的卷积核数量为Nl,其特征图大小为Ml,Ml为第l层上特征图宽度与高度的乘积,每一层输出的特征图可以存储为矩阵Fl(x)和Fl(xc)表示初始化图像和内容图像在网络第l层上相应的特征表征,将这些特征表征作为内容表征。
步骤2:木刻版画风格图像与生成图像在网络的每一个卷积层也会得到相应的特征表征;使用Gram矩阵计算每一层各通道特征图之间的相关性作为风格表征;
步骤3:掩模图像输入到风格转换网络后,会被重新编码,网络根据掩模图像在每一层生成引导通道Tl r,这相当于根据引导通道Tl r为特征图增加了一个权重信息,权重的作用使得特征图中与引导通道对应区域激活值增大,图像优化过程只在相应的空间引导通道区域进行;
具体的,为了避免木刻刻痕纹理不明显、刻痕分布混乱的问题,通过加入空间导引导通道来实现。将掩模图像作为空间引导通道,空间引导通道可以理解为掩模图像中像素值为1的区域,将每一个卷积层向量化后的特征图与向量化后的空间引导通道Tl r做对应元素乘法运算,定义空间引导特征图为:
步骤4:步骤1通过风格转换网络计算得到内容图像和生成图像的内容表征之后,将内容表征中的特征图与步骤3所生成对应的空间引导通道进行对应元素相乘运算得到空间引导内容表征,使用欧氏距离来定义内容损失;
对步骤2通过风格转换网络计算得到的风格图像和生成图像的特征表征之后,将每一个特征图与步骤3所生成对应的空间引导通道进行对应元素相乘运算得到空间引导特征表征;再使用Gram矩阵计算空间引导特征图之间的相关性,得到空间引导Gram矩阵作为空间引导风格表征,使用欧氏距离来定义风格损失;
具体地,通过(4)式计算得到空间引导特征表征;再使用Gram矩阵计算空间引导特征图之间的相关性作为空间引导通道区域的风格表征,空间引导Gram矩阵定义为:
定义生成图的初始化图像x,木刻版画风格图像xs,与/>分别为生成图像与木刻版画艺术风格图像在网络中第l层的空间引导风格表征。使用均方误差定义生成图与木刻版画艺术风格图像之间的差异,定义第l层的风格损失函数为:
则所有层的风格损失函数为:
其中,wl代表VGG-19中每一层特征表征的权重因子。
步骤5:将内容损失和风格损失加权联立得到一个总损失函数,使用梯度下降对生成图初始化图像进行优化,设置迭代次数,达到迭代次数后停止,最终得到具有木刻版画风格的转换结果。
将内容损失函数Lc和风格损失函数Ls加权联立,定义总损失函数:
Ltotal=αLc+βLs (9)
其中,Lc表示内容图与生成图之间的损失函数,Ls表示版画风格图像与生成图之间的损失函数,α和β分别表示内容损失函数与版画风格损失函数的权重,选择不同的α/β值控制木刻版画的风格化程度,通过梯度下降,得到生成图像。空间引导通道确保样式在内容和风格图像中得相似语义区域之间传递,避免整幅图像出现纹理特征分布混乱的情况,图4为套色木刻版画分区域风格转换流程图。
本发明选择VGG-19网络中conv4_2作为内容特征提取层,conv1_1,conv2_1,conv3_1,conv4_1,conv5_1这5网络层作为风格特征提取层,选择原始内容图像作为生成图的初始化图像,这样能够很好地保持图像语义结构,同时增强木刻刻痕纹理效果及减少迭代次数。对于内容损失函数和风格损失函数的权重,α/β越大,生成图像木刻版画风格化程度越低,反之风格化程度越高。图5为不同权重下风格化程度的生成图。
第四部分:风格转换结果对比
将本发明应用于木刻版画风格转换,分别对不同类型的图片,比如人物肖像和景物图片、黑白图片和彩色图片分别进行了木刻版画风格转换,并与Gatys[1]、Johnson[6]和Li[8]的风格转换结果进行对比,实验结果如图6-图8所示。
图6中,第1行黑白木刻版画的风格转换结果显示,Gatys[1],Johnson[6]和Li[8]的风格化结果均出现了木刻刻痕纹理分布混乱的现象;在第2行彩色人物肖像风格转换结果中,Gatys[1]和Johnson[6]的风格化结果木刻刻痕纹理特征表现不突出且纹理分布出现混乱,Li[8]的转换结果相对于原始版画风格图像来说在人脸区域的色彩分布不均匀,本发明在黑白和彩色的人物肖像风格转换的生成结果刻痕纹理特征更明显,刻痕纹理和色彩的分布合理。
从图7的景物图像风格转换结果可以看出,Gatys[1]的转换结果存在扭曲,在一定程度上破坏语义信息的现象;Johnson[6]的结果在相对平滑的区域会出现迁移失败的情况,如图7的风格化结果中天空区域没有版画风格图像中相同语义的风格特征,而且其他语义上木刻刻痕纹理特征没有很好的表现出来。Li[8]的转换结果在语义结构信息上保持良好,但木刻刻痕纹理特征表现不突出。本发明的风格化结果在语义结构保持和表现出的木刻刻痕纹理特征优于其他方法。
在图7的转换结果中选取相同区域(图7中白色方框区域)与进行局部区域细节纹理对比,见图8。通过对比可以看出,本发明的转换结果木刻刻痕纹理特征更为突出,真实与自然,接近真实套色木刻版画中的刻痕效果。
除上述实验结果的对比之外,对版画风格转换结果进行视觉质量的用户评估。让参与者先观看内容图像和版画艺术风格图像,用随机顺序观看四种方法风格化的生成图,以原始真实版画艺术风格图像为标准,对每一幅风格化后的生成图从整体视觉质量、木刻刻痕纹理质量和刻痕纹理分布合理性三方面进行打分,评估分数分为5个等级,分别是很差、差、一般、好和很好,用1-5分分别对应表示,然后根据参与者给出的分数计算出每一种方法的平均分。评估实验邀请了20名图像处理方向的人士和20名非专业人士参与实验和打分。图9为评估实验参与者所给出分数的平均分数统计。
从图9的实验评分结果来看,本发明在三个方面的平均分数均高于其他三种方法,说明本发明的木刻版画风格转换结果在整体视觉质量、木刻刻痕纹理质量及纹理分布合理性上优于其他方法。
本发明提出的套色木刻版画风格转换方法一方面很好的保持了内容图的语义结构,另一方面较好地模拟了套色木刻版画中的木刻刻痕纹理特征且刻痕纹理分布均匀合理,转换结果真实自然,更接近真实的木刻版画。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (1)
1.一种基于语义分割的套色木刻版画风格转换方法,其特征在于,包括以下步骤:
步骤一:对内容图像和版画艺术风格图像分别进行语义分割,得到语义分割结果图;
其中,对内容图像使用CRF-RNN网络对其进行语义分割得到语义分割结果图;对版画艺术风格图像使用语义标注工具Lableme对其进行分割得到语义分割结果图;
步骤二:对所述两个语义分割结果图分别进行二值化处理,分别得到内容图像的两个互补的内容图像掩模和版画艺术风格图像的两个互补的风格图像掩模;
步骤三:使用所述内容图像掩模和风格图像掩模作为引导,通过加入空间引导通道对内容图像和版画艺术风格图像进行分区域风格转换,最后得到具有木刻版画风格的艺术风格转换结果;
所述步骤一中,所述对内容图像使用CRF-RNN网络对其进行语义分割得到语义分割结果图包括:
步骤1:将图像像素的标签Xi作为随机变量,像素与像素之间的关系作为边,构成一个条件随机场,令X是由随机变量X1,X2,...XN组成的向量,其中N是图像中的像素个数;获得全局观测I时,(I,X)可以建模为CRF模型,其特征是如下形式的吉布斯分布:
其中,E(x)为x取某个值的能量,Z(I)为配分函数;
在CRF模型中,赋予x某个标签的能量由如下能量函数计算:
其中,ψu(xi)为一元能量分量,用于度量标签xi分配给像素i的概率,ψp(xi,xj)为二元能量分量,用于描述两个相邻像素i、j之间的关联,
一元能量分量由CNN计算而来,只是粗略的预测了像素的标签;二元能量分量提供了与图像数据相关的平滑项,该项表示为加权高斯核函数:
其中,μ(xi,xj)为标签相容性函数,用于捕获不同标签对之间的相容性,对于m=1,2,...,M,KG (m)是应用于特征向量的高斯函数,W(m)为m=1,2,...,M的权重,fi,fj为像素i和j的特征向量;
步骤2:将CRF分布的平均场近似用于最大后验边缘推断,它是用一个更简单的分布Q(X来近似CRF分布P(X),可以写成独立的边缘分布的乘积,即:
Q(x)=∏iQi(xi)
其中,Q(X)代表CRF的平均场近似;Xi代表图像中的某一像素;
步骤3:将步骤2得到的所述CRF平均场的单次迭代过程建模为CNN层的一次前向传播过程,将CRF平均场进行多次迭代,直到完成迭代次数,这相当于将CRF平均场推理作为一个RNN模型处理,将上述模型称为CRF-RNN;
步骤4:将CRF-RNN模型与FCN网络结合,形成端到端的网络;
步骤5:使用PASCALContext语义分割数据集再对上述网络进行训练,训练完成后,将内容图像输入到该网络中,最终得到内容图像的语义分割结果图;
所述步骤三包括:
步骤1:使用内容图像作为生成图的初始化图像;内容图像与生成图在网络的每一个卷积层都会得到相应的特征图,将每一层特征图存储为一个二维矩阵得到该层的特征表征,使用VGG19网络较高层提取的特征表征作为内容表征;
步骤2:木刻版画风格图像与生成图像在网络的每一个卷积层也会得到相应的特征表征;使用Gram矩阵计算每一层各通道特征图之间的相关性作为风格表征;
步骤3:掩模图像输入到风格转换网络后,会被重新编码,网络根据掩模图像在每一层生成引导通道这相当于根据引导通道/>为特征图增加了一个权重信息,权重的作用使得特征图中与引导通道对应区域激活值增大,图像优化过程只在相应的空间引导通道区域进行;
步骤4:步骤1通过风格转换网络计算得到内容图像和生成图像的内容表征之后,将内容表征中的特征图与步骤3所生成对应的空间引导通道进行对应元素相乘运算得到空间引导内容表征,使用欧氏距离来定义内容损失;
对步骤2通过风格转换网络计算得到的木刻版画风格图像和生成图像的特征表征之后,将每一个特征图与步骤3所生成对应的空间引导通道进行对应元素相乘运算得到空间引导特征表征;再使用Gram矩阵计算空间引导特征图之间的相关性,得到空间引导Gram矩阵作为空间引导风格表征,使用欧氏距离来定义风格损失;
步骤5:将内容损失和风格损失加权联立得到一个总损失函数,使用梯度下降对生成图初始化图像进行优化,设置迭代次数,达到迭代次数后停止,最终得到具有木刻版画风格的转换结果;
步骤4中所述内容损失的函数为:
其中,X表示生成图初始化图像,Xc表示内容图像;
所述风格损失的函数为:
其中,
Wl代表VGG-19中每一层特征表征的权重因子;
所述总损失函数为:
Ltotal=αLc+βLs
其中,Lc表示内容图与生成图之间的损失函数,Ls表示版画风格图像与生成图之间的损失函数,α和β分别表示内容损失函数与版画风格损失函数的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010091956.2A CN111340720B (zh) | 2020-02-14 | 2020-02-14 | 一种基于语义分割的套色木刻版画风格转换算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010091956.2A CN111340720B (zh) | 2020-02-14 | 2020-02-14 | 一种基于语义分割的套色木刻版画风格转换算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111340720A CN111340720A (zh) | 2020-06-26 |
CN111340720B true CN111340720B (zh) | 2023-05-19 |
Family
ID=71186865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010091956.2A Active CN111340720B (zh) | 2020-02-14 | 2020-02-14 | 一种基于语义分割的套色木刻版画风格转换算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340720B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI762971B (zh) * | 2020-07-15 | 2022-05-01 | 宏碁股份有限公司 | 圖像風格轉換的方法及其電腦程式產品 |
US12094076B2 (en) | 2020-10-21 | 2024-09-17 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
CN112288622B (zh) * | 2020-10-29 | 2022-11-08 | 中山大学 | 一种基于多尺度生成对抗网络的伪装图像生成方法 |
CN112967180B (zh) * | 2021-03-17 | 2023-12-22 | 福建库克智能科技有限公司 | 一种生成对抗网络的训练方法、图像风格转换方法和装置 |
CN114004739A (zh) * | 2021-11-08 | 2022-02-01 | 厦门美图之家科技有限公司 | 图像风格化处理方法、系统、终端设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050722A (zh) * | 2014-06-06 | 2014-09-17 | 北京航空航天大学 | 一种图像内容驱动的室内三维场景布局与颜色迁移生成方法 |
CN110503716A (zh) * | 2019-08-12 | 2019-11-26 | 中国科学技术大学 | 一种机动车车牌合成数据生成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105765502B (zh) * | 2013-11-19 | 2019-10-08 | 株式会社和冠 | 用于墨水数据生成、墨水数据呈现、墨水数据操纵以及墨水数据通信的方法和系统 |
CN108470320B (zh) * | 2018-02-24 | 2022-05-20 | 中山大学 | 一种基于cnn的图像风格化方法及系统 |
CN108805803B (zh) * | 2018-06-13 | 2020-03-13 | 衡阳师范学院 | 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法 |
CN108898082B (zh) * | 2018-06-19 | 2020-07-03 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN109697690A (zh) * | 2018-11-01 | 2019-04-30 | 北京达佳互联信息技术有限公司 | 图像风格迁移方法和系统 |
CN109712068A (zh) * | 2018-12-21 | 2019-05-03 | 云南大学 | 用于葫芦烙画的图像风格迁移与模拟方法 |
-
2020
- 2020-02-14 CN CN202010091956.2A patent/CN111340720B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050722A (zh) * | 2014-06-06 | 2014-09-17 | 北京航空航天大学 | 一种图像内容驱动的室内三维场景布局与颜色迁移生成方法 |
CN110503716A (zh) * | 2019-08-12 | 2019-11-26 | 中国科学技术大学 | 一种机动车车牌合成数据生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111340720A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340720B (zh) | 一种基于语义分割的套色木刻版画风格转换算法 | |
Jiang et al. | Scfont: Structure-guided chinese font generation via deep stacked networks | |
CN110378985B (zh) | 一种基于gan的动漫绘画辅助创作方法 | |
CN106548208B (zh) | 一种照片图像快速智能风格化方法 | |
CN110222722A (zh) | 交互式图像风格化处理方法、系统、计算设备及存储介质 | |
CN111310760B (zh) | 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法 | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN110163884B (zh) | 一种基于全连接深度学习神经网络的单个图像分割方法 | |
Liu et al. | Structure-guided arbitrary style transfer for artistic image and video | |
Wang et al. | Evaluate and improve the quality of neural style transfer | |
CN111986125A (zh) | 一种用于多目标任务实例分割的方法 | |
CN113705371B (zh) | 一种水上视觉场景分割方法及装置 | |
CN113705579A (zh) | 一种视觉显著性驱动的图像自动标注方法 | |
Sun et al. | Cfr-icl: Cascade-forward refinement with iterative click loss for interactive image segmentation | |
CN117934688A (zh) | 一种基于高斯泼溅样例的神经表示建模方法 | |
Zhu et al. | Learning dual transformation networks for image contrast enhancement | |
CN117173409A (zh) | 一种实时的交互式图像分割方法 | |
Fang et al. | Stylized-colorization for line arts | |
Subramanian et al. | Strive: Scene text replacement in videos | |
CN114842330B (zh) | 一种多尺度背景感知池化弱监督建筑物提取方法 | |
CN113033656B (zh) | 一种基于生成对抗网络的交互式孔探数据扩展方法 | |
CN112329803B (zh) | 一种基于标准字形生成的自然场景文字识别方法 | |
CN113901916A (zh) | 一种基于可视化光流特征的面部欺诈动作识别方法 | |
Tomar et al. | An Effective Cartoonifying of an Image using Machine Learning | |
CN113112397A (zh) | 一种基于风格与内容解耦的图像风格迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |