CN111260548B - 基于深度学习的贴图方法及装置 - Google Patents
基于深度学习的贴图方法及装置 Download PDFInfo
- Publication number
- CN111260548B CN111260548B CN201811450336.2A CN201811450336A CN111260548B CN 111260548 B CN111260548 B CN 111260548B CN 201811450336 A CN201811450336 A CN 201811450336A CN 111260548 B CN111260548 B CN 111260548B
- Authority
- CN
- China
- Prior art keywords
- linear regression
- image
- background
- foreground
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013135 deep learning Methods 0.000 title claims abstract description 34
- 238000012417 linear regression Methods 0.000 claims abstract description 151
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012546 transfer Methods 0.000 claims abstract description 7
- 230000007704 transition Effects 0.000 claims description 88
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 1
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于深度学习的贴图方法及装置,涉及图像处理领域。所述方法包括检测目标图像的前景掩膜区域,得到前景掩膜图;将目标图像、前景掩膜图及背景图像输入卷积神经网络,对目标图像及背景图像进行融合训练,得到输出图像;计算输出图像的线性回归损失并判断是否满足预设条件,若不满足,将线性回归损失反向传递;根据反向传递的线性回归损失调整卷积神经网络的网络权重参数;根据调整后的网络权重参数再次进行融合,并计算再次融合后的输出图像的线性回归损失,直到线性回归损失满足预设条件。本申请对贴图目标的特征数据进行自动计算和标定,调整网络权重参数使目标特征自动进行迭代,以满足贴图质量需求,提高贴图效率。
Description
技术领域
本申请涉及图像处理领域,具体而言,涉及一种基于深度学习的贴图方法及装置。
背景技术
近十年来,深度学习是人工智能技术领域取得的重要突破,尤其是在图像识别及处理领域,更是取得了巨大的成功。
深度学习是机器学习中的一种基于对数据进行表征学习的方法,其目的在于建立或模拟人脑进行分析学习的神经网络,用以模仿人脑对于图像、声音和文本的识别过程。
在深度学习中,对于实际所需要识别的物体或内容的数据的标定和迭代通常是采用人工标定的方式,而人工标定是一个非常缓慢的过程,这一过程容易出现类别错标、目标位置偏移、标定速度缓慢等一系列问题,使贴图质量下降、效率不高。
发明内容
有鉴于此,本申请实施例的目的在于提供一种基于深度学习的贴图方法及装置,以解决上述问题。
第一方面,本申请实施例提供一种基于深度学习的贴图方法,所述方法包括:
检测目标图像的前景掩膜区域,得到前景掩膜图;
将目标图像、前景掩膜图及背景图像输入卷积神经网络,对所述目标图像及背景图像进行融合训练,得到融合后的输出图像;
根据所述前景掩膜图计算所述输出图像的线性回归损失;
判断所述线性回归损失是否满足预设条件,若不满足,将所述线性回归损失进行反向传递;
根据反向传递的线性回归损失调整所述卷积神经网络的网络权重参数;
根据调整后的网络权重参数对所述目标图像及背景图像再次进行融合,并计算再次融合后的输出图像的线性回归损失,直到所述线性回归损失满足所述预设条件。
可选地,对目标图像及背景图像进行融合训练,包括:
获取所述目标图像的高层特征;
获取所述背景图像的浅层特征;
根据网络权重参数加权叠加所述目标图像的高层特征及所述背景图像的浅层特征,对所述目标图像及背景图像进行融合。
可选地,根据所述前景掩膜图计算所述输出图像的线性回归损失,包括:
根据所述前景掩膜图得到所述输出图像的前景区域及背景区域;
计算所述前景区域的图像梯度损失;
计算所述背景区域的图像梯度损失;
配置线性回归损失权值,其中,所述线性回归损失权值包括前景区域线性回归损失权值及背景区域线性回归损失权值;
根据所述线性回归损失权值加权叠加所述前景区域的图像梯度损失以及所述背景区域的图像梯度损失,得到所述输出图像的线性回归损失。
可选地,在配置线性回归损失权值的步骤之前,所述方法还包括:
获取所述输出图像中的过渡区域,其中,所述过渡区域包括所述前景区域中的前景过渡区域及所述背景区域中的背景过渡区域。
可选地,配置线性回归损失权值,包括:
当所述输出图像中的像素点属于所述前景区域时,配置所述像素点的前景区域线性回归损失权值为第一数值,所述像素点的背景区域线性回归损失权值为第二数值,其中第一数值大于第二数值;
当所述像素点属于所述过渡区域时,配置所述像素点的前景区域线性回归损失权值为所述像素点到背景过渡区域的背景过渡边界的距离与前景过渡区域的前景过渡边界到所述背景过渡边界的距离的比值,所述像素点的背景区域线性回归损失权值为所述像素点到所述前景过渡边界的距离与所述前景过渡边界到所述背景过渡边界的距离的比值;
当所述像素点属于所述背景区域时,配置所述像素点的前景区域线性回归损失权值为第三数值,所述像素点的背景区域线性回归损失权值为第四数值,其中,第三数值小于第四数值。
第二方面,本申请实施例还提供一种基于深度学习的贴图装置,所述装置包括:
检测模块,用于检测目标图像的前景掩膜区域,得到前景掩膜图;
融合模块,用于将目标图像、前景掩膜图及背景图像输入卷积神经网络,对所述目标图像及背景图像进行融合训练,得到融合后的输出图像;
计算模块,用于根据所述前景掩膜图计算所述输出图像的线性回归损失;
判断模块,用于判断所述线性回归损失是否满足预设条件,若不满足,将所述线性回归损失进行反向传递;
调整模块,用于根据反向传递的线性回归损失调整所述卷积神经网络的网络权重参数;
所述融合模块还用于根据调整后的网络权重参数对所述目标图像及背景图像再次进行融合,并计算再次融合后的输出图像的线性回归损失,直到所述线性回归损失满足所述预设条件。
可选地,所述融合模块具体用于:
获取所述目标图像的高层特征;
获取所述背景图像的浅层特征;
根据网络权重参数加权叠加所述目标图像的高层特征及所述背景图像的浅层特征,对所述目标图像及背景图像进行融合。
可选地,所述计算模块具体用于:
根据所述前景掩膜图得到所述输出图像的前景区域及背景区域;
计算所述前景区域的图像梯度损失;
计算所述背景区域的图像梯度损失;
配置线性回归损失权值,其中,所述线性回归损失权值包括前景区域线性回归损失权值及背景区域线性回归损失权值;
根据所述线性回归损失权值加权叠加所述前景区域的图像梯度损失以及所述背景区域的图像梯度损失,得到所述输出图像的线性回归损失。
可选地,所述融合模块还用于:
获取所述输出图像中的过渡区域,其中,所述过渡区域包括所述前景区域中的前景过渡区域及所述背景区域中的背景过渡区域。
可选地,当用于计算线性回归损失权值时,所述计算模块具体用于:
当所述输出图像中的像素点属于所述前景区域时,配置所述像素点的前景区域线性回归损失权值为第一数值,所述像素点的背景区域线性回归损失权值为第二数值,其中第一数值大于第二数值;
当所述像素点属于所述过渡区域时,配置所述像素点的前景区域线性回归损失权值为所述像素点到背景过渡区域的背景过渡边界的距离与前景过渡区域的前景过渡边界到所述背景过渡边界的距离的比值,所述像素点的背景区域线性回归损失权值为所述像素点到所述前景过渡边界的距离与所述前景过渡边界到所述背景过渡边界的距离的比值;
当所述像素点属于所述背景区域时,配置所述像素点的前景区域线性回归损失权值为第三数值,所述像素点的背景区域线性回归损失权值为第四数值,其中,第三数值小于第四数值。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供的基于深度学习的贴图方法及装置,通过卷积神经网络对输入的贴图目标图像及背景图像进行融合训练,计算融合后的输出图像的线性回归损失,并将所述线性回归损失反向传递,根据反向传递的线性回归损失调整卷积神经网络的网络权重参数,直到再次融合后的输出图像的线性回归损失满足预设条件。相对于现有技术中对目标图像的人工标定方式,本申请能够对待识别的贴图目标特征数据进行自动计算和标定,并通过反向传递的方式调整网络权重参数,使目标特征自动进行迭代,以满足贴图质量需求,提高贴图效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应该看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构示意图;
图2为本申请实施例提供的基于深度学习的贴图方法的流程示意图;
图3为图2中步骤S12的子步骤流程示意图;
图4为图2中步骤S13的子步骤流程示意图;
图5为本申请实施例提供的融合后的输出图像的示例图;
图6为本申请实施例提供的基于深度学习的贴图装置的结构示意图。
图标:100-电子设备;200-基于深度学习的贴图装置;110-处理器;120-存储器;210-检测模块;220-融合模块;230-计算模块;240-判断模块;250-调整模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
现有技术中,为提高贴图质量及贴图处理效率,可以采用泊松融合的方式,通过计算图像中像素点的梯度及散度来达到无缝融合的效果。
然而,申请人发现,上述方案的场景适应性较差,对于背景颜色与贴图目标颜色相近,贴图目标的前景区域扣取不完整时,会由于边缘过渡过于平滑而导致目标图像的边缘梯度消失,从而使贴图效果较差。
为了克服上述现有技术中存在的问题,申请人经过研究提供了下面实施例给出的解决方案。
请参照图1,图1是本申请实施例提供的一种电子设备100的结构示意图,所述电子设备100包括处理器110,存储器120及基于深度学习的贴图装置200。
所述电子设备100可以是,但不限于,个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)等。所述处理器110及存储器120直接或间接地电性连接,以实现数据的传输或交互。例如,所述处理器110及存储器120之间可通过一条或多条通讯总线或信号线实现电性连接。所述基于深度学习的贴图装置200包括至少一个可以软件或固件的形式存储于所述存储器120中的软件功能模块,所述处理器110用于执行所述存储器120中的可执行模块,例如所述基于深度学习的贴图装置200所包括的软件功能模块及计算机程序等。
其中,所述存储器120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。所述处理器110可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP))、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
请参照图2,图2是本申请实施例提供的一种基于深度学习的贴图方法的流程示意图,所述基于深度学习的贴图方法可以应用于图1所示的电子设备100。下面将对所述基于深度学习的贴图方法作具体阐述。
所述基于深度学习的贴图方法包括:
步骤S11,检测目标图像的前景掩膜区域,得到前景掩膜图。
在本实施例中,作为一种可选的实施方式,可以采用全卷积网络(FullyConvolutional Networks,FCN)对目标图像进行前景感兴趣区域的训练,提取前景目标区域轮廓。
具体地,首先,采用全卷积网络对所述目标图像进行语义分割训练,所述全卷积网络包括多个卷积层和对应的多个下采样层,作为一种优选的实施方式,所述卷积层及下采样层可设置为四个及以上,以使后续图像融合的结果更清晰。在每一个下采样层都进行一次双线性插值的上采样,可选地,可以通过反卷积运算来进行上采样操作。然后对经过卷积运算的图像特征图上的值进行求并集计算,将叠加结果作为上采样层的输出,使计算结果更加精确。然后,对目标图像上的每个像素点计算逻辑回归损失,以对每个像素点进行一次前景像素点与背景像素点的二分类,判断所述目标图像上的像素点是前景像素点还是背景像素点,从而得到目标轮廓。
其次,采用训练好的全卷积网络监测所述目标图像的前景掩膜区域,得到前景掩膜图。所述前景掩膜图中的掩膜区域可以保留待贴图目标的原始特征数据,也可以对感兴趣区域进行赋值,除掩膜区域以外的区域中的特征数据通常可以置为零,以满足贴图的具体需求。
得到所述前景掩膜图后,进入步骤S12。
步骤S12,将目标图像、前景掩膜图及背景图像输入卷积神经网络,对所述目标图像及背景图像进行融合训练,得到融合后的输出图像。
在本实施例中,采用端到端的图像融合卷积神经网络结构(ConvolutionalNeural Networks,CNN)对目标图像及背景图像进行融合训练,此结构在全卷积网络结构的基础上增加了一个输入分支,用于输入背景图像,另一个输入分支用于输入目标图像及前景掩膜图。其中,每个输入分支分别包括多个卷积层以及对应多个下采样层,在每一个下采样层同样会进行一次上采样操作,即每一个下采样层均对应一个上采样层。
另外,在进行融合训练之前,本申请还可以包括对所述背景图像进行截取的步骤,即选定所述背景图像中需要贴图的区域,并截取出与所述目标图像尺寸相等的区域,可以理解的是,在后文所要描述的图像融合训练过程中,都可以将所述目标图像与截取出的局部背景图像进行融合,再将融合后的输出图像返回到完整的背景图像中。采用局部贴图的方式能够减少需要参与运算的区域,节省处理时间,加快处理过程。
具体地,请参照图3,图3是上述步骤S12的子步骤流程图。在本实施例中,对目标图像及背景图像进行融合训练的步骤包括:
子步骤S121,获取所述目标图像的高层特征。
根据所述目标图像中的待贴图目标的特征数据,从中提取到所述目标图像中用于表征待贴图目标的内容信息的高层特征。
子步骤S122,获取所述背景图像的浅层特征。
根据所述背景图像中的特征数据,从中提取到用于表征背景风格信息的浅层特征。
子步骤S123,根据网络权重参数加权叠加所述目标图像的高层特征及所述背景图像的浅层特征,对所述目标图像及背景图像进行融合。
在首次融合时,可以采用预训练模型对所述网络权重参数进行初始化,给待融合的区域的特征参数赋予初始的权值,使融合后的输出图像的特征更加贴近于网络融合的标签图像的特征。例如,可以将所述网络权重参数初始化为小的随机数,或采用Xavier初始化方法、MSRA Filler初始化方法等。然后根据所述网络权重参数加权叠加所述目标图像的高层特征以及所述背景图像的浅层特征,使网络融合的输出图像既能够较好地表达出待贴图目标的特征,也能够较好地表达出背景的特征。
请返回结合参照图2,得到融合后的输出图像后,进入步骤S13。
步骤S13,根据所述前景掩膜图计算所述输出图像的线性回归损失。
在实际的贴图过程中,根据需求,融合后的输出图像的不同位置受到高层特征信息以及浅层特征信息的影响程度不同,故本申请采用分别计算输出图像的前景区域及背景区域的图像梯度损失,并通过配置不同权值,加权叠加前景区域以及背景区域的图像梯度损失来计算所述输出图像的线性回归损失,使计算结果更加真实可靠。具体计算过程请参照图4。
图4是上述步骤S13的子步骤流程图,在本实施例中,步骤S13具体包括:
子步骤S131,根据所述前景掩膜图得到所述输出图像的前景区域及背景区域。
在本实施例中,根据所述前景掩膜图得到所述输出图像中的贴图目标的轮廓,该轮廓内的区域即为所述输出图像的前景区域,该轮廓以外的区域即为所述输出图像的背景区域。
子步骤S132,计算所述前景区域的图像梯度损失。
在本实施例中,可选地,计算图像梯度损失可以采用欧氏距离公式:
其中,Lfg为前景区域的图像梯度损失,为卷积神经网络的标签图像中的像素点的梯度值,/>为所述输出图像中的像素点的梯度值,x,y分别为像素点的横、纵坐标分量,N为前景区域的像素点个数,i为前景区域的像素点序号,i=1,2,……,N。
子步骤S133,计算所述背景区域的图像梯度损失。
与子步骤S132类似,计算所述背景区域的图像梯度损失同样可以采用欧氏距离公式:
其中,Lbg为背景区域的图像梯度损失,M为背景区域的像素点个数,j为背景区域的像素点序号,j=1,2,……,M。
子步骤S134,配置线性回归损失权值,其中,所述线性回归损失权值包括前景区域线性回归损失权值及背景区域线性回归损失权值。
在本实施例中,在配置线性回归损失权值的步骤之前,所述方法还包括获取所述输出图像中的过渡区域的步骤,其中,所述过渡区域包括所述前景区域中的前景过渡区域及所述背景区域中的背景过渡区域。
请参照图5,图5为本申请实施例提供的融合后的输出图像的示例图。图5中,B圈为贴图目标的轮廓,B圈以外的区域为背景区域,B圈以内的区域为前景区域。B圈到A圈之间为背景过渡区域,B圈到C圈之间为前景过渡区域,其中,A圈为背景过渡边界,C圈为前景过渡边界,A圈及C圈的最优范围可以通过以往实验统计数据来得到,也可以根据贴图需求预先设定,在此不作具体限制。
配置线性回归损失权值的步骤具体包括以下内容:
一方面,当所述输出图像中的像素点属于所述前景区域时,配置所述像素点的前景区域线性回归损失权值为第一数值,所述像素点的背景区域线性回归损失权值为第二数值,其中第一数值大于第二数值。
可选地,所述第一数值可以是1,所述第二数值可以是0。
另一方面,当所述像素点属于所述过渡区域时,配置所述像素点的前景区域线性回归损失权值为所述像素点到背景过渡边界的距离与前景过渡边界到背景过渡边界的距离的比值,所述像素点的背景区域线性回归损失权值为所述像素点到前景过渡边界的距离与前景过渡边界到背景过渡边界的距离的比值。
再一方面,当所述像素点属于所述背景区域时,配置所述像素点的前景区域线性回归损失权值为第三数值,所述像素点的背景区域线性回归损失权值为第四数值,其中,第三数值小于第四数值。
可选地,所述第三数值可以是0,所述第四数值可以是1。
可选地,所述像素点的前景区域线性回归损失权值及背景区域线性回归损失权值还可以用如下公式来描述:
其中,α为背景区域线性回归损失权值,β为前景区域线性回归损失权值,P为所述输出图像中的像素点坐标,A′为背景区域中除背景过渡区域以外的区域,C′为前景区域中除前景过渡区域以外的区域,A′C′为过渡区域,|PA|为像素点到背景过渡边界的距离,|PC|为像素点到前景过渡边界的距离,|AC|为前景过渡边界与背景过渡边界之间的距离。
子步骤S135,根据所述线性回归损失权值加权叠加所述前景区域的图像梯度损失以及所述背景区域的图像梯度损失,得到所述输出图像的线性回归损失。
可选地,所述输出图像的线性回归损失权值可以用如下公式来描述:
Ltotal=αLbg+βLfg
其中,Ltotal为输出图像的线性回归损失权值。
请返回结合参照图2,得到所述输出图像的线性回归损失后,进入步骤S14。
步骤S14,判断所述线性回归损失是否满足预设条件,若不满足,将所述线性回归损失进行反向传递。
在本实施例中,为使融合后的输出图像的质量更高,通常要求所述线性回归损失的值尽量低。具体地,可以预先设置一个线性回归损失阈值,判断计算得到的线性回归损失的值是否低于该线性回归损失阈值,若不低于,则将所述线性回归损失进行反向传递,即将所述线性回归损失值对于所述网络权重参数求偏导。
步骤S15,根据反向传递的线性回归损失调整所述卷积神经网络的网络权重参数。
在本实施例中,将所述线性回归损失权值分别对于前景区域的网络权重参数以及背景区域的网络权重参数求偏导,并根据求得的偏导值以及预设的学习速率分别调整前景区域的网络权重参数以及背景区域的网络权重参数。所述学习速率可以根据实际贴图需求预先设定,在此无特殊限制。
步骤S16,根据调整后的网络权重参数对所述目标图像及背景图像再次进行融合,并计算再次融合后的输出图像的线性回归损失,直到所述线性回归损失满足所述预设条件。
至此,根据反向传递的线性回归损失对网络权重参数进行多次迭代调整后,当线性回归损失值低于预设的线性回归损失阈值,融合后的输出图像即为能够满足贴图质量需求的图像。在本实施例中,作为另一种可选的实施方式,还可以预先设定网络权重参数的迭代调整的次数,以避免当所述线性回归损失无法低于预设的线性回归损失阈值时造成不断重复地迭代调整,影响贴图处理效率。
请参照图6,图6是图1所示的基于深度学习的贴图装置200的结构示意图。可以理解的是,由于所述基于深度学习的贴图装置200的各个模块的具体功能在以上实施例中已经详细介绍过,下面仅对所述基于深度学习的贴图装置200的各个功能模块作简要说明。
所述基于深度学习的贴图装置200包括:
检测模块210,用于检测目标图像的前景掩膜区域,得到前景掩膜图。
融合模块220,用于将目标图像、前景掩膜图及背景图像输入卷积神经网络,对所述目标图像及背景图像进行融合训练,得到融合后的输出图像。
在本实施例中,所述融合模块220具体用于:
获取所述目标图像的高层特征;
获取所述背景图像的浅层特征;
根据网络权重参数加权叠加所述目标图像的高层特征及所述背景图像的浅层特征,对所述目标图像及背景图像进行融合。
计算模块230,用于根据所述前景掩膜图计算所述输出图像的线性回归损失。
在本实施例中,所述计算模块230具体用于:
根据所述前景掩膜图得到所述输出图像的前景区域及背景区域;
计算所述前景区域的图像梯度损失;
计算所述背景区域的图像梯度损失;
配置线性回归损失权值,其中,所述线性回归损失权值包括前景区域线性回归损失权值及背景区域线性回归损失权值;
根据所述线性回归损失权值加权叠加所述前景区域的图像梯度损失以及所述背景区域的图像梯度损失,得到所述输出图像的线性回归损失。
在本实施例中,所述融合模块220还用于:
获取所述输出图像中的过渡区域,其中,所述过渡区域包括所述前景区域中的前景过渡区域及所述背景区域中的背景过渡区域。
在本实施例中,当用于配置线性回归损失权值时,所述计算模块230具体用于:
当所述输出图像中的像素点属于所述前景区域时,配置所述像素点的前景区域线性回归损失权值为第一数值,所述像素点的背景区域线性回归损失权值为第二数值,其中第一数值大于第二数值;
当所述像素点属于所述过渡区域时,配置所述像素点的前景区域线性回归损失权值为所述像素点到背景过渡区域的背景过渡边界的距离与前景过渡区域的前景过渡边界到所述背景过渡边界的距离的比值,所述像素点的背景区域线性回归损失权值为所述像素点到所述前景过渡边界的距离与所述前景过渡边界到所述背景过渡边界的距离的比值;
当所述像素点属于所述背景区域时,配置所述像素点的前景区域线性回归损失权值为第三数值,所述像素点的背景区域线性回归损失权值为第四数值,其中,第三数值小于第四数值。
判断模块240,用于判断所述线性回归损失是否满足预设条件,若不满足,将所述线性回归损失进行反向传递。
调整模块250,用于根据反向传递的线性回归损失调整所述卷积神经网络的网络权重参数。
所述融合模块220还用于根据调整后的网络权重参数对所述目标图像及背景图像再次进行融合,并计算再次融合后的输出图像的线性回归损失,直到所述线性回归损失满足所述预设条件。
综上所述,本申请实施例提供的基于深度学习的贴图方法及装置,通过卷积神经网络对输入的贴图目标图像及背景图像进行融合训练,计算融合后的输出图像的线性回归损失,并将所述线性回归损失反向传递,根据反向传递的线性回归损失调整卷积神经网络的网络权重参数,直到再次融合后的输出图像的线性回归损失满足预设条件。相对于现有技术中对目标图像的人工标定方式,本申请能够对待识别的贴图目标特征数据进行自动计算和标定,并通过反向传递的方式调整网络权重参数,使目标特征自动进行迭代,以满足贴图质量需求,提高贴图效率。
在本申请所提供的实施例中,应当理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示所指代内容的相对重要性。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于深度学习的贴图方法,其特征在于,所述方法包括:
检测目标图像的前景掩膜区域,得到前景掩膜图;
将目标图像、前景掩膜图及背景图像输入卷积神经网络,对所述目标图像及背景图像进行融合训练,得到融合后的输出图像;
根据所述前景掩膜图计算所述输出图像的线性回归损失;
判断所述线性回归损失是否满足预设条件,若不满足,将所述线性回归损失进行反向传递;
根据反向传递的线性回归损失调整所述卷积神经网络的网络权重参数;
根据调整后的网络权重参数对所述目标图像及背景图像再次进行融合,并计算再次融合后的输出图像的线性回归损失,直到所述线性回归损失满足所述预设条件;
其中,根据所述前景掩膜图计算所述输出图像的线性回归损失,包括:
根据所述前景掩膜图得到所述输出图像的前景区域及背景区域;
计算所述前景区域的图像梯度损失;
计算所述背景区域的图像梯度损失;
配置线性回归损失权值,其中,所述线性回归损失权值包括前景区域线性回归损失权值及背景区域线性回归损失权值;
根据所述线性回归损失权值加权叠加所述前景区域的图像梯度损失以及所述背景区域的图像梯度损失,得到所述输出图像的线性回归损失。
2.如权利要求1所述的基于深度学习的贴图方法,其特征在于,对目标图像及背景图像进行融合训练,包括:
获取所述目标图像的高层特征;
获取所述背景图像的浅层特征;
根据网络权重参数加权叠加所述目标图像的高层特征及所述背景图像的浅层特征,对所述目标图像及背景图像进行融合。
3.如权利要求1所述的基于深度学习的贴图方法,其特征在于,在配置线性回归损失权值的步骤之前,所述方法还包括:
获取所述输出图像中的过渡区域,其中,所述过渡区域包括所述前景区域中的前景过渡区域及所述背景区域中的背景过渡区域。
4.如权利要求3所述的基于深度学习的贴图方法,其特征在于,配置线性回归损失权值,包括:
当所述输出图像中的像素点属于所述前景区域时,配置所述像素点的前景区域线性回归损失权值为第一数值,所述像素点的背景区域线性回归损失权值为第二数值,其中第一数值大于第二数值;
当所述像素点属于所述过渡区域时,配置所述像素点的前景区域线性回归损失权值为所述像素点到背景过渡区域的背景过渡边界的距离与前景过渡区域的前景过渡边界到所述背景过渡边界的距离的比值,所述像素点的背景区域线性回归损失权值为所述像素点到所述前景过渡边界的距离与所述前景过渡边界到所述背景过渡边界的距离的比值;
当所述像素点属于所述背景区域时,配置所述像素点的前景区域线性回归损失权值为第三数值,所述像素点的背景区域线性回归损失权值为第四数值,其中,第三数值小于第四数值。
5.一种基于深度学习的贴图装置,其特征在于,所述装置包括:
检测模块,用于检测目标图像的前景掩膜区域,得到前景掩膜图;
融合模块,用于将目标图像、前景掩膜图及背景图像输入卷积神经网络,对所述目标图像及背景图像进行融合训练,得到融合后的输出图像;
计算模块,用于根据所述前景掩膜图计算所述输出图像的线性回归损失;
判断模块,用于判断所述线性回归损失是否满足预设条件,若不满足,将所述线性回归损失进行反向传递;
调整模块,用于根据反向传递的线性回归损失调整所述卷积神经网络的网络权重参数;
所述融合模块还用于根据调整后的网络权重参数对所述目标图像及背景图像再次进行融合,并计算再次融合后的输出图像的线性回归损失,直到所述线性回归损失满足所述预设条件;
其中,所述计算模块具体用于:
根据所述前景掩膜图得到所述输出图像的前景区域及背景区域;
计算所述前景区域的图像梯度损失;
计算所述背景区域的图像梯度损失;
配置线性回归损失权值,其中,所述线性回归损失权值包括前景区域线性回归损失权值及背景区域线性回归损失权值;
根据所述线性回归损失权值加权叠加所述前景区域的图像梯度损失以及所述背景区域的图像梯度损失,得到所述输出图像的线性回归损失。
6.如权利要求5所述的基于深度学习的贴图装置,其特征在于,所述融合模块具体用于:
获取所述目标图像的高层特征;
获取所述背景图像的浅层特征;
根据网络权重参数加权叠加所述目标图像的高层特征及所述背景图像的浅层特征,对所述目标图像及背景图像进行融合。
7.如权利要求5所述的基于深度学习的贴图装置,其特征在于,所述融合模块还用于:
获取所述输出图像中的过渡区域,其中,所述过渡区域包括所述前景区域中的前景过渡区域及所述背景区域中的背景过渡区域。
8.如权利要求7所述的基于深度学习的贴图装置,其特征在于,当用于配置线性回归损失权值时,所述计算模块具体用于:
当所述输出图像中的像素点属于所述前景区域时,配置所述像素点的前景区域线性回归损失权值为第一数值,所述像素点的背景区域线性回归损失权值为第二数值,其中第一数值大于第二数值;
当所述像素点属于所述过渡区域时,配置所述像素点的前景区域线性回归损失权值为所述像素点到背景过渡区域的背景过渡边界的距离与前景过渡区域的前景过渡边界到所述背景过渡边界的距离的比值,所述像素点的背景区域线性回归损失权值为所述像素点到所述前景过渡边界的距离与所述前景过渡边界到所述背景过渡边界的距离的比值;
当所述像素点属于所述背景区域时,配置所述像素点的前景区域线性回归损失权值为第三数值,所述像素点的背景区域线性回归损失权值为第四数值,其中,第三数值小于第四数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811450336.2A CN111260548B (zh) | 2018-11-30 | 2018-11-30 | 基于深度学习的贴图方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811450336.2A CN111260548B (zh) | 2018-11-30 | 2018-11-30 | 基于深度学习的贴图方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260548A CN111260548A (zh) | 2020-06-09 |
CN111260548B true CN111260548B (zh) | 2023-07-21 |
Family
ID=70951874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811450336.2A Active CN111260548B (zh) | 2018-11-30 | 2018-11-30 | 基于深度学习的贴图方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260548B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393465A (zh) * | 2021-05-26 | 2021-09-14 | 浙江吉利控股集团有限公司 | 一种图像生成方法及装置 |
WO2023283894A1 (zh) * | 2021-07-15 | 2023-01-19 | 京东方科技集团股份有限公司 | 图像处理方法及装置 |
CN114782460B (zh) * | 2022-06-21 | 2022-10-18 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分割模型的生成方法及图像的分割方法、计算机设备 |
CN117456077B (zh) * | 2023-10-30 | 2024-10-01 | 神力视界(深圳)文化科技有限公司 | 一种材质贴图生成方法及相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760859A (zh) * | 2016-03-22 | 2016-07-13 | 中国科学院自动化研究所 | 基于多任务卷积神经网络的网纹人脸图像识别方法及装置 |
CN106295678A (zh) * | 2016-07-27 | 2017-01-04 | 北京旷视科技有限公司 | 神经网络训练与构建方法和装置以及目标检测方法和装置 |
CN107341805A (zh) * | 2016-08-19 | 2017-11-10 | 北京市商汤科技开发有限公司 | 图像前背景分割及网络模型训练、图像处理方法和装置 |
CN107705242A (zh) * | 2017-07-20 | 2018-02-16 | 广东工业大学 | 一种结合深度学习与深度感知的图像风格化迁移方法 |
CN108491835A (zh) * | 2018-06-12 | 2018-09-04 | 常州大学 | 面向面部表情识别的双通道卷积神经网络 |
CN108647588A (zh) * | 2018-04-24 | 2018-10-12 | 广州绿怡信息科技有限公司 | 物品类别识别方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593474B (zh) * | 2013-11-28 | 2017-03-01 | 中国科学院自动化研究所 | 基于深度学习的图像检索排序方法 |
US9928410B2 (en) * | 2014-11-24 | 2018-03-27 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing object, and method and apparatus for training recognizer |
WO2018033156A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 视频图像的处理方法、装置和电子设备 |
CN108229455B (zh) * | 2017-02-23 | 2020-10-16 | 北京市商汤科技开发有限公司 | 物体检测方法、神经网络的训练方法、装置和电子设备 |
CN107301387A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种基于深度学习的图像高密度人群计数方法 |
CN108805898B (zh) * | 2018-05-31 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 视频图像处理方法和装置 |
-
2018
- 2018-11-30 CN CN201811450336.2A patent/CN111260548B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760859A (zh) * | 2016-03-22 | 2016-07-13 | 中国科学院自动化研究所 | 基于多任务卷积神经网络的网纹人脸图像识别方法及装置 |
CN106295678A (zh) * | 2016-07-27 | 2017-01-04 | 北京旷视科技有限公司 | 神经网络训练与构建方法和装置以及目标检测方法和装置 |
CN107341805A (zh) * | 2016-08-19 | 2017-11-10 | 北京市商汤科技开发有限公司 | 图像前背景分割及网络模型训练、图像处理方法和装置 |
CN107705242A (zh) * | 2017-07-20 | 2018-02-16 | 广东工业大学 | 一种结合深度学习与深度感知的图像风格化迁移方法 |
CN108647588A (zh) * | 2018-04-24 | 2018-10-12 | 广州绿怡信息科技有限公司 | 物品类别识别方法、装置、计算机设备和存储介质 |
CN108491835A (zh) * | 2018-06-12 | 2018-09-04 | 常州大学 | 面向面部表情识别的双通道卷积神经网络 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积神经网络的图像重建算法;于波;方业全;刘闽;董君陶;;计算机系统应用(09);172-177 * |
Also Published As
Publication number | Publication date |
---|---|
CN111260548A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260548B (zh) | 基于深度学习的贴图方法及装置 | |
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
CN110598600A (zh) | 一种基于unet神经网络的遥感图像云检测方法 | |
CN107798381B (zh) | 一种基于卷积神经网络的图像识别方法 | |
CN108108764B (zh) | 一种基于随机森林的视觉slam回环检测方法 | |
CN111582021B (zh) | 场景图像中的文本检测方法、装置及计算机设备 | |
CN112001403B (zh) | 一种图像轮廓检测方法及系统 | |
CN108960261B (zh) | 一种基于注意力机制的显著物体检测方法 | |
CN113822284B (zh) | 一种基于边界注意力的rgbd图像语义分割方法 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN110956615B (zh) | 图像质量评估模型训练方法、装置、电子设备及存储介质 | |
CN111967464B (zh) | 一种基于深度学习的弱监督目标定位方法 | |
CN111666905B (zh) | 模型训练方法、行人属性识别方法和相关装置 | |
CN114549765A (zh) | 三维重建方法及装置、计算机可存储介质 | |
CN111444923A (zh) | 自然场景下图像语义分割方法和装置 | |
CN111611968B (zh) | 一种遥感图像的处理方法以及遥感图像处理模型 | |
CN112750139A (zh) | 图像处理方法及装置、计算设备、存储介质 | |
CN110969602B (zh) | 一种图像清晰程度检测方法及装置 | |
CN113516697B (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN114841974A (zh) | 一种水果内部结构无损检测方法、系统、电子设备及介质 | |
CN117830701A (zh) | 基于注意力机制的多尺度特征融合星图识别方法和装置 | |
CN109472771A (zh) | 玉米雄穗的检测方法、装置及检测设备 | |
CN110956621B (zh) | 一种基于神经网络的组织癌变的检测方法及系统 | |
CN111368792B (zh) | 特征点标注模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |