CN108986050B - 一种基于多分支卷积神经网络的图像和视频增强方法 - Google Patents
一种基于多分支卷积神经网络的图像和视频增强方法 Download PDFInfo
- Publication number
- CN108986050B CN108986050B CN201810804618.1A CN201810804618A CN108986050B CN 108986050 B CN108986050 B CN 108986050B CN 201810804618 A CN201810804618 A CN 201810804618A CN 108986050 B CN108986050 B CN 108986050B
- Authority
- CN
- China
- Prior art keywords
- image
- video
- enhancement
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 238000005286 illumination Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 238000011524 similarity measure Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 230000015556 catabolic process Effects 0.000 claims description 5
- 238000006731 degradation reaction Methods 0.000 claims description 5
- 230000000903 blocking effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000013441 quality evaluation Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 230000003137 locomotive effect Effects 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于多分支卷积神经网络的图像和视频增强方法,包括:输入低质量的单幅图像或视频序列,稳定求解增强后的图像或者视频;一种新颖的多分支卷积神经网络结构,能够有效解决因光照不足、噪声等因素所导致的图像或视频质量下降问题;一种新颖的训练损失函数,能够有效提高神经网络的精度和稳定度。本发明的应用之一是无人车(机)驾驶,其原理是针对视频传感器因周围环境变化或干扰所带来的图像质量下降进行处理增强,从而为决策系统提供更高质量的图像及视频信息,从而有助于决策系统做出更加准确、正确的决策。本发明也可广泛用于视频通话、自动导航、视频监控、短视频娱乐、社交媒体、图像修复等领域。
Description
技术领域
本发明涉及计算机视觉和图像处理领域,具体地说是一种基于多分支卷积神经网络的图像和视频增强方法。
背景技术
图像增强作为图像处理领域的基础性问题,对于许多依赖高质量图像和视频的计算机视觉算法来说具有重要意义。现有的计算机视觉算法大多是针对高质量的图片或者视频进行的处理,但是在实际应用中,受成本和自然条件变化的影响,很难获取高质量的图像和视频。图像增强算法在这种情况下可以作为计算机视觉算法的预处理过程,提高计算机视觉算法输入图像和视频的质量,从而提高计算机视觉算法的精度,产生实际应用价值。
近年来,深度学习获得了极大的成功,有力的推动了图像处理、计算机视觉、自然语言处理、机器翻译等诸多领域的发展,这充分说明深度学习的强大潜力。同时,考虑到现有的最先进的计算机视觉方法大多采用深度神经网络的方法,因此我们采用深度神经网络的方法进行图像增强能够非常容易的作为预处理部分嵌入到现有的计算机视觉方法中,这对于实际应用中对于整体算法进行固化和优化非常有帮助。
图像增强作为图像处理的基础性问题,大量科学家和研究已经进行了非常久的探索,但由于环境问题变化复杂,引起图像质量下降的因素众多,这个问题没有得到完美的解决,依然是一个极富挑战的问题。
目前众多的图像增强算法取得广泛应用的算法大致可以分为直方图均衡化(HE)算法、频域变化算法、偏微分方程算法、基于Retinex理论的算法和基于深度学习的算法。
图像直方图均衡化算法及其改进都是通过使图像灰度级的概率密度函数满足近似均匀分布的形式来达到增大图像动态范围和提高图像对比度的目的;频域变化算法是将图像分解为低频图像和高频图像,通过对不同频率的图像进行增强达到突出细节信息的目的;偏微分方程图像增强算法是通过放大图像的对比度场来达到图像增强的目的;Retinex图像增强算法是通过去除原始图像中照度分量的影响,求解出反应物体本质颜色的反射分量,从而达到图像增强的目的。基于深度学习的增强算法大多通过训练一个端到端或者生成模型中一部分的方法达到图像增强的目的。
这五类方法中,前四类方法属于传统增强方法,效果相比近几年兴起的深度学习方法有较大的差距,但是现有的深度学习方法大多针对某一种特殊情景进行研究,如噪声、雾霾、低光等。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于多分支卷积神经网络的图像和视频增强方法,结合多层次的目标损失函数进行优化训练,能够处理多种情景下的图像增强方法,进而实现较高质量的逼真的图像或视频增强结果。
本发明技术解决方案:一种基于多分支卷积神经网络的图像和视频增强方法,包含以下步骤:
(1)根据具体应用场景,采用模拟仿真或人工采集应用场景数据的方法,构建图像或视频的训练数据集;
(2)根据应用场景条件,确定多分支卷积神经网络每条分支的网络深度的超参数,构建一个多分支卷积神经网络模型;
(3)采用优化方法和目标损失函数,在步骤(1)训练数据集上对步骤(2)构建的多分支卷积神经网络模型进行训练,得到收敛的多分支卷积神经网络模型参数;
(4)对于尺寸大于多分支卷积神经网络所限定输入大小的图像,首先对需要处理的图像按照多分支卷积神经网络所限定的输入大小进行分块处理,然后把这些图像块输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的图像按照分块处理的逆过程进行拼接,重叠部分取平均,即得到最终的图像处理结果;对于视频的帧数大于多分支卷积神经网络所限定输入大小的视频,首先按照多分支卷积神经网络所限定的输入帧数对需要增强的视频进行分段处理,得到分段后的短视频序列,将这些短视频序列输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的视频序列按照分段处理的逆过程进行拼接,重叠部分取平均,即得到最终的视频处理结果。
所述步骤(1)中,采用模拟采集应用场景数据的方法为:针对光线或照明不足所导致图像质量下降时,首先采用伽马变换调整图像亮度,模拟光线不足可能导致的图像或视频细节缺失情况;然后对图像添加泊松噪声来模拟低光条件下传感器可能产生的噪声分布;在视频模拟的时候,保证同一视频帧的伽马变换参数保持相同,不同视频帧的伽马参数随机选择;通过对百万级甚至更大规模公开的视频或图像数据集进行处理,即得到视频或图像训练数据集。
所述步骤(2)中,超参数包括:输入图像的大小、图像归一化方法、网络层数、网络分支个数、网络每层特征个数、卷积操作步长。
步骤(2)中,构造多分支神经网络模型的具体过程如下:
(a)构建输入模块,输入模块对视频或图像采用选定的归一化方法进行归一化处理,输入模块的大小即为输入图像的大小;
(b)构建特征提取模块,特征提取模块的卷积层个数与网络分支个数保持一致,网络特征个数越多需要消耗内存硬件资源越多,根据实际情况进行选择;然后构建增强模块,增强模块由若干卷积层构成,增强模块的输入为增强模块对应分支的特征提取模块的输出;最后构建融合模块,融合模块接受所有分支的增强模块的输出作为输入,对这些输入进行融合处理得到最终增强结果,融合处理模块实现为:首先将所有分支的增强模块的输出按照最高维度进行拼接,然后进行卷积核大小为1×1的卷积操作得到最终结果;网络层数、网络分支个数、每层特征个数以卷积操作步长都根据具体应用限制进行选择,直观来看就是:网络层数、网络分支个数、网络每层特征个数越多,处理能力越强,需要的资源消耗也越大,卷积操作步长越小处理越精细,消耗资源也越大;
(c)构建多分支卷积神经网络的输出模块,输出模块需要对增强的视频或图像进行归一化操作的逆操作,比如简单的将从[0,1]恢复到[0,255];输出模块的大小与增强结果相同,输出模块不需要进行训练;得到一个端到端的多分支卷积神经网络模型。
步骤(3)中,所述优化方法采用Adam优化方法,使用Adam优化方法和目标损失函数在训练数据集上进行多次迭代训练,得到收敛的网络模型参数;训练过程中采用学习率递减的方法,每次迭代调整学习率为当前学习率的95%。
目标损失函数包含以下三个部分:
(3.1)结构相似性度量:当网络增强效果趋于理想时,增强后的结果和对应目标应该在结构上保持一致;
(3.2)语义特征相似性度量:当网络增强效果趋于理想时,增强后的结果和对应目标应该具有相同的语义特征;
(3.2)区域相似性度量:考虑到图像不同区域质量下降程度不同,应该给予不同区域不同权重,重点关注质量下降严重的区域。
目标损失函数Loss由结构化损失、语义信息损失和区域损失构成,如下述公式所示:
Loss=α·Lstruct+β·Lcontent+λ·Lregion
其中,Lstruct为结构化损失,Lcontent为语义信息损失,Lregion为区域损失,α、β、λ为三个损失的系数,根据具体情境及问题的难以程度调整所占的比重,根据经验,α、β、λ均取1能够较快的收敛到较好的结果;
其中,结构化损失Lstruct:
其中,μx和μx是像素均值、σx和σy是像素的标准差、σxy是协方差、C1和C2是为了避免分母为0,一般取较小的常数;
语义信息损失Lcontent如下所示:
其中,E和G分别代表增强结果和目标图像,Wi,j Hi,j Ci,j分别代表VGG19的第i个卷积块的第j个卷积层输出的长、宽和通道数,φi,j代表VGG19的第i个卷积块的第j个卷积层输出的特征;
区域损失Lregion:
其中,W为权重矩阵,E为增强结果,G为目标图像,i,j,k为像素点的坐标,m,n,z为坐标对应取值。
步骤(3.1)中结构相似性度量的方法为,采用SSIM质量评价标准作为度量方法,该相似性度量的取值范围为[-1,1],值越大相似性越好,当网络增强效果趋于理想时,SSIM取值无限接近于1。
步骤(3.2)中语义特征相似性度量的方法为,采用在ImageNet上训练的VGG19模型的中间层输出作为对应的语义信息,然后采用均方误差(MSE)作为度量标准,判断增强结果和对应真实图像语义特征的相似性;中间层的选择越靠近输出层其包含的语义特征越高级,越靠近输入层包含的语义特征越低级。
步骤(3.3)中区域相似性度量的方法为,根据具体实例,采用某种评判指标度量出图像不同区域的质量情况,给予不同区域不同的权重使得网络更加关注图像细节缺失更严重区域,从而生成更加逼真的增强结果。
与其它的增强方法相比,本发明有益的特点在于:
(1)发明了一种新颖的多分支网络结构,能够生成高质量的逼真的增强结果,并且能够直接作为预处理模块无缝嵌入现有的大量先进的基于神经网络的计算机视觉算法中(如语义分割、目标检测等);
(2)发明了一种新颖的目标损失函数,能够指导网络进行有效的学习,从而稳定的、快速的收敛到目标状态;
(3)本发明的网络结构并不像现有的方法仅仅适用于某种特殊情况,能够非常容易的扩展到多种情况(如低光、噪声、模糊等)所造成的图像质量下降情境中;
(4)本发明的网络能够非常容易的扩展为对视频进行处理,同时考虑视频帧间信息而不是对每帧图像进行单独处理,从而有效避免可能出现的伪影和闪烁现象,能够得到高质量的逼真的视频增强效果。
(5)本发明的应用之一是无人车(机)驾驶,其原理是针对视频传感器因周围环境变化或干扰所带来的图像质量下降进行处理增强,从而为决策系统提供更高质量的图像及视频信息,从而有助于决策系统做出更加准确、正确的决策。本发明也可广泛用于视频通话、自动导航、视频监控、短视频娱乐、社交媒体、图像修复等领域。
附图说明
图1是本发明的多分支卷积神经网络模块间关系示意图;
图2是本发明的多分支卷积神经网络结构示意图;
图3是本发明的训练数据流示意图。
具体实施方式
下面结合附图对本发明的具体实施作详细说明,本实例选择因周围光线较暗而导致曝光不足的图片增强(编码格式为JPG)进行详细说明。
本发明提出一种基于神经网络的图像或视频增强方法,能够得到高质量的逼真的增强效果。本方法对系统没有额外需求,任何彩色图片或视频均可作为输入。同时,本方法通过提出一种特定的目标损失函数,能够有效的提高神经网络训练的稳定性,促进神经网络快速收敛。
参阅图1本发明的多分支卷积神经网络处理模块组成示意图,本网络的输入模块首先读入需要处理的低光图像或视频,然后对其进行归一化操作,将归一化后的结果输入到特征提取模块;特征提取模块提取归一化后的输入图片的特征,将其作为原始信息输入到增强模块;增强模块将低光图像特征信息转换为符合增强后图像特征空间分布的信息,并将这些信息输入融合模块;融合模块将多个分支的增强模块的结果进行整合,得到图像或视频增强结果;输出模块对融合模块的增强结果进行归一化操作的逆变换从而得到最终的增强结果。
参阅图2本发明的多分支卷积神经网络结构示意图,发明了一种多分支卷积神经网络,考虑到图像增强是一个比较困难的问题,采用多分支的结构,其中每个分支都具备单独生成增强结果的能力,这相当于把复杂问题分成若干个简单问题进行求解。每个分支都由特征提取模块、增强模块和融合模块构成,特征提取模块的输出是下一个特征提取模块和该分支的增强模块的输入,每个分支的增强模块的输出是融合模块的输入,融合模块整合所有分支的增强模块输出结果得到最终的图像增强结果。
特征提取模块由多个卷积层构成,其中每个卷积层的输入输出大小保持不变,其作用是从原始数据中提取特征,输入为归一化操作后的低光图像或视频,输出为提取到的特征图;增强模块由多个卷积层和反卷积层堆叠构成,中间特征的尺寸先逐渐减小,然后逐渐增大至与原始图像相同大小,采用瓶颈层的结构有利于网络生成可能因为低光所导致的细节丢失情况,增强模块的输入为特征提取模块的输出,输出为符合增强结果分布的特征信息;融合模块接受各分支增强模块的输出作为输入,先将其进行拼接然后采用卷积进行融合生成增强结果。最后,需要将融合模块的输出结果按照归一化方法进行逆变换从而得到最终增强结果。
参阅图3本发明的训练数据流示意图,发明了一种新颖的目标损失函数,能够有效的指导网络进行训练,从而得到较好的增强结果。该目标损失函数Loss由结构化损失、语义信息损失和区域损失构成,其定义如下述公式所示:
Loss=α·Lstruct+β·Lcontent+λ·Lregion
其中,Lstruct为结构化损失,Lcontent为语义信息损失,Lregion为区域损失,α、β、λ为三个损失的系数,根据具体情境及问题的难以程度调整所占的比重。根据经验,α、β、λ均取1可以较快的收敛到较好的结果。
其中,结构化损失Lstruct采用SSIM图像评价指标,其定义如下所示:
其中,μx和μx是像素均值、σx和σy是像素的标准差、σxy是协方差、C1和C2是为了避免分母为0,一般取较小的常数。
语义信息损失Lcontent采用在ImageNet数据集上训练好的VGG19模型的中间层结果作为其语义特征信息,采用均方误差(MSE)作为其度量标准,其定义如下所示:
其中,E和G分别代表增强结果和目标图像,Wi,j Hi,j Ci,j分别代表VGG19的第i个卷积块的第j个卷积层输出的长、宽和通道数,φi,j代表VGG19的第i个卷积块的第j个卷积层输出的特征。
区域损失Lregion主要是考虑到图像不同区域质量下降的比例不同,因此对于不同区域给予不同的权重,能够有效的指导网络的训练,从而产生较好的增强效果。
其中,W为权重矩阵,E为增强结果,G为目标图像。在训练过程中,低光图像或视频经过特征提取模块、增强模块和融合模块之后得到增强结果,采用包含三部分的目标损失函数判断增强结果与目标图像的相似度,进而采用反向传播算法指导网络参数进行更新训练,从而生成高质量的逼真的增强结果。i,j,k为像素点的坐标,m,n,z为坐标对应取值。
另外,发明的网络结构在对视频进行处理时需要把2D卷积转化为3D卷积,这样就能够充分利用视频的帧间信息进行增强,从而保证增强结果不会出现伪影和闪烁的现象。
下面结合具体的实例进一步说明。
如图1所示,本发明的网络处理模块组成示意图,输入模块首先读入需要处理的尺寸为W×H×3的低光图像,对其进行归一化操作,将图像像素值从[0,255]放缩到[-1,1];然后经过特征提取模块提取特征,本发明实施例假定网络包含10个分支,第一个分支的特征提取模块的输入为归一化操作后的W×H×3图像,第二个分支的特征提取模块的输入为第一个分支的特征提取模块的输出,第三个分支的特征提取模块的输入为第一个分支的特征提取模块的输出,以此类推,所有特征提取模块的输出均为W×H×N的特征图,在本次实例中,N=32;图像增强模块接受当前分支对应的特征提取模块的输出W×H×N的特征图作为输入,输出为W×H×3的增强结果;融合模块接受10个分支的增强结果,对其进行拼接得到W×H×30的特征,然后对其进行1×1的卷积操作,得到W×H×3的增强结果;输出层对最终的增强结果进行归一化逆变换,把图像像素值放缩回[0,255]。
参阅图2本发明的多分支卷积神经网络结构示意图,本发明实施例中,多分支卷积神经网络包含10个分支,每个分支都由特征提取模块、增强模块和融合模块构成。首先对W×H×3的低光图像进行归一化操作,将图像像素值从[0,255]放缩到[-1,1],并将其作为第一个分支的特征提取的输入,第一个分支的特征提取模块对W×H×3的低光图像按照步长为1,卷积核大小为3×3进行卷积操作,得到W×H×32的特征图;第一个分支的增强模块对W×H×32的特征图进行处理,首先对其进行降维卷积,从而减少计算量,按照步长为1,卷积核大小为3*3进行特征图大小不变的卷积操作得到W×H×8的特征图,然后进行四次卷积操作和三次反卷积操作,每次卷积/反卷积操作步长都为1,卷积核大小均为3×3,特征图通道个数一次为16、16、16、16、8、3,最终得到W×H×3的增强结果;融合模块接受10个分支增强模块的输出即W×H×3的增强结果作为输入,先将其按照第三维进行拼接得到W×H×30的特征信息,然后对其进行步长都为1,卷积核大小为1×1的卷积操作,从而得到融合了各分支增强信息的W×H×3的增强结果;输出层对最终的增强结果进行归一化逆变换,把图像像素值放缩回[0,255]。与第一个分支不同的是,第二个分支的特征提取模块的输入为第一个分支的特征提取模块的输出,即W×H×32的特征图,第三个分支的特征提取模块的输入为第二个分支的特征提取模块的输出,以此类推。其余各分支的增强模块与第一个分支的增强模块完全相同。
参阅图3本发明的训练数据流示意图,本发明实施例在NVIDIAGPU 1080 Ti上进行训练,采用Kears和TensorFlow作为实现框架,在训练过程中,低光图像L经过特征提取模块、增强模块和融合模块之后得到增强结果E,将E与目标结果G进行比较,根据上述公式依次计算Lstruct、Lcontent、Lregion,取α、β、λ均为1,得到最终Loss。其中,对于区域损失的计算,根据低光图像的特殊性,首先将图像由RGB颜色模型转换为HIS颜色模型,然后根据图像亮度分量I进行排序,求得到第40个百分位数大小V,将小于V的点权重记为6,其余点权重记为1,得到权重矩阵W,进而得到Lregion;对于Lcontent的计算,选择VGG19网络的第3个卷积块的第4个卷积层的输出作为语义特征进行判别。然后采用反向传播算法,采用Adam优化方法进行参数更新和训练,初始学习率为0.0002,批训练样本数为24。训练过程采用学习率衰减方法,每经过一个epoch,学习率衰减为当前学习率的95%,当Loss低于一定阈值或者迭代次数达到上限(本实例设定为200)时停止训练,认为网络收敛,保持网络当前的参数。
以上所述仅为本发明的一个代表性实施例,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。
Claims (7)
1.一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于,包含以下步骤:
(1)根据具体应用场景,采用模拟仿真或人工采集应用场景数据的方法,构建图像或视频的训练数据集;
(2)根据应用场景条件,确定多分支卷积神经网络每条分支的网络深度的超参数,构建一个多分支卷积神经网络模型;
(3)采用优化方法和目标损失函数,在步骤(1)训练数据集上对步骤(2)构建的多分支卷积神经网络模型进行训练,得到收敛的多分支卷积神经网络模型参数;
(4)对于尺寸大于多分支卷积神经网络所限定输入大小的图像,首先对需要处理的图像按照多分支卷积神经网络所限定的输入大小进行分块处理,然后把这些图像块输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的图像按照分块处理的逆过程进行拼接,重叠部分取平均,即得到最终的图像处理结果;对于视频的帧数大于多分支卷积神经网络所限定输入大小的视频,首先按照多分支卷积神经网络所限定的输入帧数对需要增强的视频进行分段处理,得到分段后的短视频序列,将这些短视频序列输入到训练好的多分支卷积神经网络模型中进行增强,最后将增强后的视频序列按照分段处理的逆过程进行拼接,重叠部分取平均,即得到最终的视频处理结果;
步骤(2)中,构造多分支神经网络模型的具体过程如下:
(2.1)构建输入模块,输入模块对视频或图像采用选定的归一化方法进行归一化处理,输入模块的大小即为输入图像的大小;
(2.2)构建特征提取模块,特征提取模块的卷积层个数与网络分支个数保持一致,网络特征个数越多需要消耗内存硬件资源越多,根据实际情况进行选择;然后构建增强模块,增强模块由若干卷积层构成,增强模块的输入为增强模块对应分支的特征提取模块的输出;最后构建融合模块,融合模块接受所有分支的增强模块的输出作为输入,对这些输入进行融合处理得到最终增强结果,融合处理模块实现为:首先将所有分支的增强模块的输出按照最高维度进行拼接,然后进行卷积核大小为1×1的卷积操作得到最终结果;
(2.3)构建多分支卷积神经网络的输出模块,输出模块需要对增强的视频或图像进行归一化操作的逆操作;输出模块的大小与增强结果相同,输出模块不需要进行训练;得到多分支卷积神经网络模型;
步骤(3)中,目标损失函数包含以下三个部分:
(3.1)结构相似性度量:当网络增强效果趋于理想时,增强后的结果和对应目标应该在结构上保持一致;
(3.2)语义特征相似性度量:当网络增强效果趋于理想时,增强后的结果和对应目标应该具有相同的语义特征;
(3.3)区域相似性度量:考虑到图像不同区域质量下降程度不同,应该给予不同区域不同权重,重点关注质量下降严重的区域;
步骤(3)中,目标损失函数Loss由结构化损失、语义信息损失和区域损失构成,如下述公式所示:
Loss=α·Lstruct+β·Lcontent+λ·Lregion
其中,Lstruct为结构化损失,Lcontent为语义信息损失,Lregion为区域损失,α、β、λ为三个损失的系数,根据具体情境及问题的难易程度调整所占的比重;
其中,结构化损失Lstruct:
其中,μx和μy是像素均值、σx和σy是像素的标准差、σxy是协方差、C1和C2为常数;
语义信息损失Lcontent如下所示:
其中,E和G分别代表增强结果和目标图像,Wi,j,Hi,j,Ci,j分别代表VGG19的第i个卷积块的第j个卷积层输出的长、宽和通道数,φi,j代表VGG19的第i个卷积块的第j个卷积层输出的特征;
区域损失Lregion:
其中,W为权重矩阵,E为增强结果,G为目标图像,i,j,k为像素点的坐标,m,n,z为坐标对应取值。
2.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:所述步骤(1)中,采用模拟采集应用场景数据的方法为:针对光线或照明不足所导致图像质量下降时,首先采用伽马变换调整图像亮度,模拟光线不足可能导致的图像或视频细节缺失情况;然后对图像添加泊松噪声来模拟低光条件下传感器可能产生的噪声分布;在视频模拟的时候,保证同一视频帧的伽马变换参数保持相同,不同视频帧的伽马参数随机选择;通过对大规模公开的视频或图像数据集进行处理,即得到视频或图像训练数据集。
3.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:步骤(2)中,超参数包括:输入图像的大小、图像归一化方法、网络层数、网络分支个数、网络每层特征个数、卷积操作步长。
4.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:步骤(3)中,所述优化方法采用Adam优化方法,使用Adam优化方法和目标损失函数在训练数据集上进行多次迭代训练,得到收敛的网络模型参数;训练过程中采用学习率递减的方法,每次迭代调整学习率为当前学习率的95%。
5.根据权利要求4所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:步骤(3.1)中结构相似性度量的方法为,采用SSIM质量评价标准作为度量方法,当网络增强效果趋于理想时,SSIM取值无限接近于1。
6.根据权利要求4所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:步骤(3.2)中语义特征相似性度量的方法为,采用在ImageNet上训练的VGG19模型的中间层输出作为对应的语义信息,然后采用均方误差MSE作为度量标准,判断增强结果和对应真实图像语义特征的相似性。
7.根据权利要求4所述的一种基于多分支卷积神经网络的图像和视频增强方法,其特征在于:步骤(3.3)中区域相似性度量的方法为,采用评判指标度量出图像不同区域的质量情况,给予不同区域不同的权重使得网络更加关注图像细节缺失更严重区域,从而生成更加逼真的增强结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810804618.1A CN108986050B (zh) | 2018-07-20 | 2018-07-20 | 一种基于多分支卷积神经网络的图像和视频增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810804618.1A CN108986050B (zh) | 2018-07-20 | 2018-07-20 | 一种基于多分支卷积神经网络的图像和视频增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108986050A CN108986050A (zh) | 2018-12-11 |
CN108986050B true CN108986050B (zh) | 2020-11-10 |
Family
ID=64549165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810804618.1A Active CN108986050B (zh) | 2018-07-20 | 2018-07-20 | 一种基于多分支卷积神经网络的图像和视频增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108986050B (zh) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753891A (zh) * | 2018-12-19 | 2019-05-14 | 山东师范大学 | 基于人体关键点检测的足球运动员姿势校准方法及系统 |
CN109785252B (zh) * | 2018-12-25 | 2023-03-24 | 山西大学 | 基于多尺度残差密集网络夜间图像增强方法 |
CN111383171B (zh) * | 2018-12-27 | 2022-08-09 | Tcl科技集团股份有限公司 | 一种图片处理方法、系统及终端设备 |
CN111383188B (zh) * | 2018-12-29 | 2023-07-14 | Tcl科技集团股份有限公司 | 一种图像处理方法、系统及终端设备 |
CN109918988A (zh) * | 2018-12-30 | 2019-06-21 | 中国科学院软件研究所 | 一种结合成像仿真技术的可移植的无人机检测系统 |
CN109829443B (zh) * | 2019-02-23 | 2020-08-14 | 重庆邮电大学 | 基于图像增强与3d卷积神经网络的视频行为识别方法 |
CN110033422B (zh) * | 2019-04-10 | 2021-03-23 | 北京科技大学 | 一种眼底oct图像融合方法及装置 |
CN110335242A (zh) * | 2019-05-17 | 2019-10-15 | 杭州数据点金科技有限公司 | 一种基于多模型融合的轮胎x光病疵检测方法 |
CN110262529B (zh) * | 2019-06-13 | 2022-06-03 | 桂林电子科技大学 | 一种基于卷积神经网络的无人机监控方法及系统 |
CN110349102A (zh) * | 2019-06-27 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 图像美化的处理方法、图像美化的处理装置以及电子设备 |
CN110281949B (zh) * | 2019-06-28 | 2020-12-18 | 清华大学 | 一种自动驾驶统一分层决策方法 |
CN110278415B (zh) * | 2019-07-02 | 2020-04-28 | 浙江大学 | 一种网络摄像机视频质量提升方法 |
CN110378854B (zh) * | 2019-07-17 | 2021-10-26 | 上海商汤智能科技有限公司 | 机器人图像增强方法及装置 |
CN110298810A (zh) * | 2019-07-24 | 2019-10-01 | 深圳市华星光电技术有限公司 | 图像处理方法及图像处理系统 |
CN110516716B (zh) * | 2019-08-05 | 2021-11-09 | 西安电子科技大学 | 基于多分支相似度网络的无参考图像质量评价方法 |
CN112348747A (zh) * | 2019-08-08 | 2021-02-09 | 苏州科达科技股份有限公司 | 图像增强方法、装置及存储介质 |
CN110544214A (zh) * | 2019-08-21 | 2019-12-06 | 北京奇艺世纪科技有限公司 | 一种图像修复方法、装置及电子设备 |
CN110514662B (zh) * | 2019-09-10 | 2022-06-28 | 上海深视信息科技有限公司 | 一种多光源融合的视觉检测系统 |
WO2021063118A1 (en) * | 2019-10-02 | 2021-04-08 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and apparatus for image processing |
CN110992272B (zh) * | 2019-10-18 | 2023-03-14 | 深圳大学 | 基于深度学习的暗光图像增强方法、装置、设备及介质 |
CN110956202B (zh) * | 2019-11-13 | 2023-08-01 | 重庆大学 | 基于分布式学习的图像训练方法、系统、介质及智能设备 |
CN110855959B (zh) * | 2019-11-23 | 2021-12-07 | 英特灵达信息技术(深圳)有限公司 | 一种端到端的低光照视频增强算法 |
CN111047532B (zh) * | 2019-12-06 | 2020-12-29 | 广东启迪图卫科技股份有限公司 | 一种基于3d卷积神经网络的低照度视频增强方法 |
CN113222827A (zh) * | 2020-01-21 | 2021-08-06 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN111353956B (zh) * | 2020-02-28 | 2022-11-15 | Oppo广东移动通信有限公司 | 图像修复方法、装置、计算机设备及存储介质 |
CN111567468A (zh) * | 2020-04-07 | 2020-08-25 | 广西壮族自治区水产科学研究院 | 一种稻田红螯螯虾共作生态养殖系统 |
CN111681177B (zh) * | 2020-05-18 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 视频处理方法及装置、计算机可读存储介质、电子设备 |
CN111340146A (zh) * | 2020-05-20 | 2020-06-26 | 杭州微帧信息科技有限公司 | 一种通过共享特征提取网络加速视频恢复任务的方法 |
CN111931841A (zh) * | 2020-08-05 | 2020-11-13 | Oppo广东移动通信有限公司 | 基于深度学习的树状处理方法、终端、芯片及存储介质 |
CN111930992B (zh) * | 2020-08-14 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置及电子设备 |
CN112115871B (zh) * | 2020-09-21 | 2024-04-19 | 大连民族大学 | 适用于行人目标检测的高低频交织边缘特征增强方法 |
WO2022067653A1 (zh) * | 2020-09-30 | 2022-04-07 | 京东方科技集团股份有限公司 | 图像处理方法及装置、设备、视频处理方法及存储介质 |
RU2764395C1 (ru) | 2020-11-23 | 2022-01-17 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для совместного выполнения дебайеризации и устранения шумов изображения с помощью нейронной сети |
CN112819716B (zh) * | 2021-01-29 | 2023-06-09 | 西安交通大学 | 基于高斯-拉普拉斯金字塔的无监督学习x光图像增强方法 |
CN112949431B (zh) * | 2021-02-08 | 2024-06-25 | 证通股份有限公司 | 视频篡改检测方法和系统、存储介质 |
CN112991236B (zh) * | 2021-05-20 | 2021-08-13 | 南京甄视智能科技有限公司 | 一种基于模板的图像增强方法及装置 |
CN113536905B (zh) * | 2021-06-03 | 2023-08-25 | 大连民族大学 | 时频域联合全景分割卷积神经网络及应用 |
CN113256537B (zh) | 2021-06-22 | 2022-01-07 | 英特灵达信息技术(深圳)有限公司 | 一种图像数据生成方法和装置 |
CN113628130B (zh) * | 2021-07-22 | 2023-10-27 | 上海交通大学 | 基于深度学习的视障辅助的图像增强方法、设备和介质 |
CN114445288B (zh) * | 2021-12-27 | 2024-10-15 | 哈尔滨工程大学 | 一种基于深度学习的轻量级水下图像增强方法 |
CN115100509B (zh) * | 2022-07-15 | 2022-11-29 | 山东建筑大学 | 基于多分支块级注意力增强网络的图像识别方法及系统 |
CN115239603A (zh) * | 2022-09-23 | 2022-10-25 | 成都视海芯图微电子有限公司 | 一种基于多分支神经网络的无人机航拍图像暗光增强方法 |
CN115775381B (zh) * | 2022-12-15 | 2023-10-20 | 华洋通信科技股份有限公司 | 一种光照不均匀下的矿井电机车路况识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481209A (zh) * | 2017-08-21 | 2017-12-15 | 北京航空航天大学 | 一种基于卷积神经网络的图像或视频质量增强方法 |
-
2018
- 2018-07-20 CN CN201810804618.1A patent/CN108986050B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481209A (zh) * | 2017-08-21 | 2017-12-15 | 北京航空航天大学 | 一种基于卷积神经网络的图像或视频质量增强方法 |
Non-Patent Citations (2)
Title |
---|
Multi-View Vehicle Type Recognition With;Zhibo Chen 等;《IEEE Transactions on Circuits and Systems for Video Technology》;20170809;全文 * |
基于多分支卷积神经网络的车辆图像比对方法;蔡晓东 等;《电视技术》;20161117;第40卷(第11期);第118页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108986050A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986050B (zh) | 一种基于多分支卷积神经网络的图像和视频增强方法 | |
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN113313657A (zh) | 一种用于低光照图像增强的非监督学习方法和系统 | |
CN104217404A (zh) | 雾霾天视频图像清晰化处理方法及其装置 | |
Hu et al. | A multi-stage underwater image aesthetic enhancement algorithm based on a generative adversarial network | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
Fan et al. | Multiscale cross-connected dehazing network with scene depth fusion | |
Steffens et al. | Cnn based image restoration: Adjusting ill-exposed srgb images in post-processing | |
Zhang et al. | Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
Lyu et al. | An efficient learning-based method for underwater image enhancement | |
Das et al. | A comparative study of single image fog removal methods | |
CN116993975A (zh) | 基于深度学习无监督领域适应的全景相机语义分割方法 | |
Wang et al. | Multiscale supervision-guided context aggregation network for single image dehazing | |
Dwivedi et al. | Single image dehazing using extended local dark channel prior | |
CN115063318A (zh) | 自适应频率分解的低光照图像增强方法与相关设备 | |
Feng et al. | Low-light image enhancement algorithm based on an atmospheric physical model | |
Guan et al. | DiffWater: Underwater image enhancement based on conditional denoising diffusion probabilistic model | |
Zhang et al. | Photo-realistic dehazing via contextual generative adversarial networks | |
Baiju et al. | An intelligent framework for transmission map estimation in image dehazing using total variation regularized low-rank approximation | |
Qiu et al. | Perception-oriented UAV Image Dehazing Based on Super-Pixel Scene Prior | |
Song et al. | A single image dehazing method based on end-to-end cpad-net network in deep learning environment | |
Zhang et al. | Dehazing with improved heterogeneous atmosphere light estimation and a nonlinear color attenuation prior model | |
Goncalves et al. | Guidednet: Single image dehazing using an end-to-end convolutional neural network | |
Wang et al. | An effective algorithm for single image fog removal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |