CN108986050B

CN108986050B - 一种基于多分支卷积神经网络的图像和视频增强方法

Info

Publication number: CN108986050B
Application number: CN201810804618.1A
Authority: CN
Inventors: 陆峰; 吕飞帆; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2020-11-10
Anticipated expiration: 2038-07-20
Also published as: CN108986050A

Abstract

本发明提供一种基于多分支卷积神经网络的图像和视频增强方法，包括：输入低质量的单幅图像或视频序列，稳定求解增强后的图像或者视频；一种新颖的多分支卷积神经网络结构，能够有效解决因光照不足、噪声等因素所导致的图像或视频质量下降问题；一种新颖的训练损失函数，能够有效提高神经网络的精度和稳定度。本发明的应用之一是无人车(机)驾驶，其原理是针对视频传感器因周围环境变化或干扰所带来的图像质量下降进行处理增强，从而为决策系统提供更高质量的图像及视频信息，从而有助于决策系统做出更加准确、正确的决策。本发明也可广泛用于视频通话、自动导航、视频监控、短视频娱乐、社交媒体、图像修复等领域。

Description

一种基于多分支卷积神经网络的图像和视频增强方法

技术领域

本发明涉及计算机视觉和图像处理领域，具体地说是一种基于多分支卷积神经网络的图像和视频增强方法。

背景技术

图像增强作为图像处理领域的基础性问题，对于许多依赖高质量图像和视频的计算机视觉算法来说具有重要意义。现有的计算机视觉算法大多是针对高质量的图片或者视频进行的处理，但是在实际应用中，受成本和自然条件变化的影响，很难获取高质量的图像和视频。图像增强算法在这种情况下可以作为计算机视觉算法的预处理过程，提高计算机视觉算法输入图像和视频的质量，从而提高计算机视觉算法的精度，产生实际应用价值。

近年来，深度学习获得了极大的成功，有力的推动了图像处理、计算机视觉、自然语言处理、机器翻译等诸多领域的发展，这充分说明深度学习的强大潜力。同时，考虑到现有的最先进的计算机视觉方法大多采用深度神经网络的方法，因此我们采用深度神经网络的方法进行图像增强能够非常容易的作为预处理部分嵌入到现有的计算机视觉方法中，这对于实际应用中对于整体算法进行固化和优化非常有帮助。

图像增强作为图像处理的基础性问题，大量科学家和研究已经进行了非常久的探索，但由于环境问题变化复杂，引起图像质量下降的因素众多，这个问题没有得到完美的解决，依然是一个极富挑战的问题。

目前众多的图像增强算法取得广泛应用的算法大致可以分为直方图均衡化(HE)算法、频域变化算法、偏微分方程算法、基于Retinex理论的算法和基于深度学习的算法。

图像直方图均衡化算法及其改进都是通过使图像灰度级的概率密度函数满足近似均匀分布的形式来达到增大图像动态范围和提高图像对比度的目的；频域变化算法是将图像分解为低频图像和高频图像，通过对不同频率的图像进行增强达到突出细节信息的目的；偏微分方程图像增强算法是通过放大图像的对比度场来达到图像增强的目的；Retinex图像增强算法是通过去除原始图像中照度分量的影响，求解出反应物体本质颜色的反射分量，从而达到图像增强的目的。基于深度学习的增强算法大多通过训练一个端到端或者生成模型中一部分的方法达到图像增强的目的。

这五类方法中，前四类方法属于传统增强方法，效果相比近几年兴起的深度学习方法有较大的差距，但是现有的深度学习方法大多针对某一种特殊情景进行研究，如噪声、雾霾、低光等。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于多分支卷积神经网络的图像和视频增强方法，结合多层次的目标损失函数进行优化训练，能够处理多种情景下的图像增强方法，进而实现较高质量的逼真的图像或视频增强结果。

本发明技术解决方案：一种基于多分支卷积神经网络的图像和视频增强方法，包含以下步骤：

(1)根据具体应用场景，采用模拟仿真或人工采集应用场景数据的方法，构建图像或视频的训练数据集；

(2)根据应用场景条件，确定多分支卷积神经网络每条分支的网络深度的超参数，构建一个多分支卷积神经网络模型；

(3)采用优化方法和目标损失函数，在步骤(1)训练数据集上对步骤(2)构建的多分支卷积神经网络模型进行训练，得到收敛的多分支卷积神经网络模型参数；

(4)对于尺寸大于多分支卷积神经网络所限定输入大小的图像，首先对需要处理的图像按照多分支卷积神经网络所限定的输入大小进行分块处理，然后把这些图像块输入到训练好的多分支卷积神经网络模型中进行增强，最后将增强后的图像按照分块处理的逆过程进行拼接，重叠部分取平均，即得到最终的图像处理结果；对于视频的帧数大于多分支卷积神经网络所限定输入大小的视频，首先按照多分支卷积神经网络所限定的输入帧数对需要增强的视频进行分段处理，得到分段后的短视频序列，将这些短视频序列输入到训练好的多分支卷积神经网络模型中进行增强，最后将增强后的视频序列按照分段处理的逆过程进行拼接，重叠部分取平均，即得到最终的视频处理结果。

所述步骤(1)中，采用模拟采集应用场景数据的方法为：针对光线或照明不足所导致图像质量下降时，首先采用伽马变换调整图像亮度，模拟光线不足可能导致的图像或视频细节缺失情况；然后对图像添加泊松噪声来模拟低光条件下传感器可能产生的噪声分布；在视频模拟的时候，保证同一视频帧的伽马变换参数保持相同，不同视频帧的伽马参数随机选择；通过对百万级甚至更大规模公开的视频或图像数据集进行处理，即得到视频或图像训练数据集。

所述步骤(2)中，超参数包括：输入图像的大小、图像归一化方法、网络层数、网络分支个数、网络每层特征个数、卷积操作步长。

步骤(2)中，构造多分支神经网络模型的具体过程如下：

(a)构建输入模块，输入模块对视频或图像采用选定的归一化方法进行归一化处理，输入模块的大小即为输入图像的大小；

(b)构建特征提取模块，特征提取模块的卷积层个数与网络分支个数保持一致，网络特征个数越多需要消耗内存硬件资源越多，根据实际情况进行选择；然后构建增强模块，增强模块由若干卷积层构成，增强模块的输入为增强模块对应分支的特征提取模块的输出；最后构建融合模块，融合模块接受所有分支的增强模块的输出作为输入，对这些输入进行融合处理得到最终增强结果，融合处理模块实现为：首先将所有分支的增强模块的输出按照最高维度进行拼接，然后进行卷积核大小为1×1的卷积操作得到最终结果；网络层数、网络分支个数、每层特征个数以卷积操作步长都根据具体应用限制进行选择，直观来看就是：网络层数、网络分支个数、网络每层特征个数越多，处理能力越强，需要的资源消耗也越大，卷积操作步长越小处理越精细，消耗资源也越大；

(c)构建多分支卷积神经网络的输出模块，输出模块需要对增强的视频或图像进行归一化操作的逆操作，比如简单的将从[0,1]恢复到[0,255]；输出模块的大小与增强结果相同，输出模块不需要进行训练；得到一个端到端的多分支卷积神经网络模型。

步骤(3)中，所述优化方法采用Adam优化方法，使用Adam优化方法和目标损失函数在训练数据集上进行多次迭代训练，得到收敛的网络模型参数；训练过程中采用学习率递减的方法，每次迭代调整学习率为当前学习率的95％。

目标损失函数包含以下三个部分：

(3.1)结构相似性度量：当网络增强效果趋于理想时，增强后的结果和对应目标应该在结构上保持一致；

(3.2)语义特征相似性度量：当网络增强效果趋于理想时，增强后的结果和对应目标应该具有相同的语义特征；

(3.2)区域相似性度量：考虑到图像不同区域质量下降程度不同，应该给予不同区域不同权重，重点关注质量下降严重的区域。

目标损失函数Loss由结构化损失、语义信息损失和区域损失构成，如下述公式所示：

Loss＝α·L_struct+β·L_content+λ·L_region

其中，L_struct为结构化损失，L_content为语义信息损失，L_region为区域损失，α、β、λ为三个损失的系数，根据具体情境及问题的难以程度调整所占的比重，根据经验，α、β、λ均取1能够较快的收敛到较好的结果；

其中，结构化损失L_struct：

其中，μ_x和μ_x是像素均值、σ_x和σ_y是像素的标准差、σ_xy是协方差、C₁和C₂是为了避免分母为0，一般取较小的常数；

语义信息损失L_content如下所示：

其中，E和G分别代表增强结果和目标图像，W_i,j H_i,j C_i,j分别代表VGG19的第i个卷积块的第j个卷积层输出的长、宽和通道数，φ_i,j代表VGG19的第i个卷积块的第j个卷积层输出的特征；

区域损失L_region：

其中，W为权重矩阵，E为增强结果，G为目标图像，i，j，k为像素点的坐标，m，n,z为坐标对应取值。

步骤(3.1)中结构相似性度量的方法为，采用SSIM质量评价标准作为度量方法，该相似性度量的取值范围为[-1,1]，值越大相似性越好，当网络增强效果趋于理想时，SSIM取值无限接近于1。

步骤(3.2)中语义特征相似性度量的方法为，采用在ImageNet上训练的VGG19模型的中间层输出作为对应的语义信息，然后采用均方误差(MSE)作为度量标准，判断增强结果和对应真实图像语义特征的相似性；中间层的选择越靠近输出层其包含的语义特征越高级，越靠近输入层包含的语义特征越低级。

步骤(3.3)中区域相似性度量的方法为，根据具体实例，采用某种评判指标度量出图像不同区域的质量情况，给予不同区域不同的权重使得网络更加关注图像细节缺失更严重区域，从而生成更加逼真的增强结果。

与其它的增强方法相比，本发明有益的特点在于：

(1)发明了一种新颖的多分支网络结构，能够生成高质量的逼真的增强结果，并且能够直接作为预处理模块无缝嵌入现有的大量先进的基于神经网络的计算机视觉算法中(如语义分割、目标检测等)；

(2)发明了一种新颖的目标损失函数，能够指导网络进行有效的学习，从而稳定的、快速的收敛到目标状态；

(3)本发明的网络结构并不像现有的方法仅仅适用于某种特殊情况，能够非常容易的扩展到多种情况(如低光、噪声、模糊等)所造成的图像质量下降情境中；

(4)本发明的网络能够非常容易的扩展为对视频进行处理，同时考虑视频帧间信息而不是对每帧图像进行单独处理，从而有效避免可能出现的伪影和闪烁现象，能够得到高质量的逼真的视频增强效果。

(5)本发明的应用之一是无人车(机)驾驶，其原理是针对视频传感器因周围环境变化或干扰所带来的图像质量下降进行处理增强，从而为决策系统提供更高质量的图像及视频信息，从而有助于决策系统做出更加准确、正确的决策。本发明也可广泛用于视频通话、自动导航、视频监控、短视频娱乐、社交媒体、图像修复等领域。

附图说明

图1是本发明的多分支卷积神经网络模块间关系示意图；

图2是本发明的多分支卷积神经网络结构示意图；

图3是本发明的训练数据流示意图。

具体实施方式

下面结合附图对本发明的具体实施作详细说明，本实例选择因周围光线较暗而导致曝光不足的图片增强(编码格式为JPG)进行详细说明。

本发明提出一种基于神经网络的图像或视频增强方法，能够得到高质量的逼真的增强效果。本方法对系统没有额外需求，任何彩色图片或视频均可作为输入。同时，本方法通过提出一种特定的目标损失函数，能够有效的提高神经网络训练的稳定性，促进神经网络快速收敛。

参阅图1本发明的多分支卷积神经网络处理模块组成示意图，本网络的输入模块首先读入需要处理的低光图像或视频，然后对其进行归一化操作，将归一化后的结果输入到特征提取模块；特征提取模块提取归一化后的输入图片的特征，将其作为原始信息输入到增强模块；增强模块将低光图像特征信息转换为符合增强后图像特征空间分布的信息，并将这些信息输入融合模块；融合模块将多个分支的增强模块的结果进行整合，得到图像或视频增强结果；输出模块对融合模块的增强结果进行归一化操作的逆变换从而得到最终的增强结果。

参阅图2本发明的多分支卷积神经网络结构示意图，发明了一种多分支卷积神经网络，考虑到图像增强是一个比较困难的问题，采用多分支的结构，其中每个分支都具备单独生成增强结果的能力，这相当于把复杂问题分成若干个简单问题进行求解。每个分支都由特征提取模块、增强模块和融合模块构成，特征提取模块的输出是下一个特征提取模块和该分支的增强模块的输入，每个分支的增强模块的输出是融合模块的输入，融合模块整合所有分支的增强模块输出结果得到最终的图像增强结果。

特征提取模块由多个卷积层构成，其中每个卷积层的输入输出大小保持不变，其作用是从原始数据中提取特征，输入为归一化操作后的低光图像或视频，输出为提取到的特征图；增强模块由多个卷积层和反卷积层堆叠构成，中间特征的尺寸先逐渐减小，然后逐渐增大至与原始图像相同大小，采用瓶颈层的结构有利于网络生成可能因为低光所导致的细节丢失情况，增强模块的输入为特征提取模块的输出，输出为符合增强结果分布的特征信息；融合模块接受各分支增强模块的输出作为输入，先将其进行拼接然后采用卷积进行融合生成增强结果。最后，需要将融合模块的输出结果按照归一化方法进行逆变换从而得到最终增强结果。

参阅图3本发明的训练数据流示意图，发明了一种新颖的目标损失函数，能够有效的指导网络进行训练，从而得到较好的增强结果。该目标损失函数Loss由结构化损失、语义信息损失和区域损失构成，其定义如下述公式所示：

Loss＝α·L_struct+β·L_content+λ·L_region

其中，L_struct为结构化损失，L_content为语义信息损失，L_region为区域损失，α、β、λ为三个损失的系数，根据具体情境及问题的难以程度调整所占的比重。根据经验，α、β、λ均取1可以较快的收敛到较好的结果。

其中，结构化损失L_struct采用SSIM图像评价指标，其定义如下所示：

其中，μ_x和μ_x是像素均值、σ_x和σ_y是像素的标准差、σ_xy是协方差、C₁和C₂是为了避免分母为0，一般取较小的常数。

语义信息损失L_content采用在ImageNet数据集上训练好的VGG19模型的中间层结果作为其语义特征信息，采用均方误差(MSE)作为其度量标准，其定义如下所示：

其中，E和G分别代表增强结果和目标图像，W_i,j H_i,j C_i,j分别代表VGG19的第i个卷积块的第j个卷积层输出的长、宽和通道数，φ_i,j代表VGG19的第i个卷积块的第j个卷积层输出的特征。

区域损失L_region主要是考虑到图像不同区域质量下降的比例不同，因此对于不同区域给予不同的权重，能够有效的指导网络的训练，从而产生较好的增强效果。

其中，W为权重矩阵，E为增强结果，G为目标图像。在训练过程中，低光图像或视频经过特征提取模块、增强模块和融合模块之后得到增强结果，采用包含三部分的目标损失函数判断增强结果与目标图像的相似度，进而采用反向传播算法指导网络参数进行更新训练，从而生成高质量的逼真的增强结果。i，j，k为像素点的坐标，m，n,z为坐标对应取值。

另外，发明的网络结构在对视频进行处理时需要把2D卷积转化为3D卷积，这样就能够充分利用视频的帧间信息进行增强，从而保证增强结果不会出现伪影和闪烁的现象。

下面结合具体的实例进一步说明。

如图1所示，本发明的网络处理模块组成示意图，输入模块首先读入需要处理的尺寸为W×H×3的低光图像，对其进行归一化操作，将图像像素值从[0,255]放缩到[-1,1]；然后经过特征提取模块提取特征，本发明实施例假定网络包含10个分支，第一个分支的特征提取模块的输入为归一化操作后的W×H×3图像，第二个分支的特征提取模块的输入为第一个分支的特征提取模块的输出，第三个分支的特征提取模块的输入为第一个分支的特征提取模块的输出，以此类推，所有特征提取模块的输出均为W×H×N的特征图，在本次实例中，N＝32；图像增强模块接受当前分支对应的特征提取模块的输出W×H×N的特征图作为输入，输出为W×H×3的增强结果；融合模块接受10个分支的增强结果，对其进行拼接得到W×H×30的特征，然后对其进行1×1的卷积操作，得到W×H×3的增强结果；输出层对最终的增强结果进行归一化逆变换，把图像像素值放缩回[0,255]。

参阅图2本发明的多分支卷积神经网络结构示意图，本发明实施例中，多分支卷积神经网络包含10个分支，每个分支都由特征提取模块、增强模块和融合模块构成。首先对W×H×3的低光图像进行归一化操作，将图像像素值从[0,255]放缩到[-1,1]，并将其作为第一个分支的特征提取的输入，第一个分支的特征提取模块对W×H×3的低光图像按照步长为1，卷积核大小为3×3进行卷积操作，得到W×H×32的特征图；第一个分支的增强模块对W×H×32的特征图进行处理，首先对其进行降维卷积，从而减少计算量，按照步长为1，卷积核大小为3*3进行特征图大小不变的卷积操作得到W×H×8的特征图，然后进行四次卷积操作和三次反卷积操作，每次卷积/反卷积操作步长都为1，卷积核大小均为3×3，特征图通道个数一次为16、16、16、16、8、3，最终得到W×H×3的增强结果；融合模块接受10个分支增强模块的输出即W×H×3的增强结果作为输入，先将其按照第三维进行拼接得到W×H×30的特征信息，然后对其进行步长都为1，卷积核大小为1×1的卷积操作，从而得到融合了各分支增强信息的W×H×3的增强结果；输出层对最终的增强结果进行归一化逆变换，把图像像素值放缩回[0,255]。与第一个分支不同的是，第二个分支的特征提取模块的输入为第一个分支的特征提取模块的输出，即W×H×32的特征图，第三个分支的特征提取模块的输入为第二个分支的特征提取模块的输出，以此类推。其余各分支的增强模块与第一个分支的增强模块完全相同。

参阅图3本发明的训练数据流示意图，本发明实施例在NVIDIAGPU 1080 Ti上进行训练，采用Kears和TensorFlow作为实现框架，在训练过程中，低光图像L经过特征提取模块、增强模块和融合模块之后得到增强结果E，将E与目标结果G进行比较，根据上述公式依次计算L_struct、L_content、L_region，取α、β、λ均为1，得到最终Loss。其中，对于区域损失的计算，根据低光图像的特殊性，首先将图像由RGB颜色模型转换为HIS颜色模型，然后根据图像亮度分量I进行排序，求得到第40个百分位数大小V，将小于V的点权重记为6，其余点权重记为1，得到权重矩阵W，进而得到L_region；对于L_content的计算，选择VGG19网络的第3个卷积块的第4个卷积层的输出作为语义特征进行判别。然后采用反向传播算法，采用Adam优化方法进行参数更新和训练，初始学习率为0.0002，批训练样本数为24。训练过程采用学习率衰减方法，每经过一个epoch，学习率衰减为当前学习率的95％，当Loss低于一定阈值或者迭代次数达到上限(本实例设定为200)时停止训练，认为网络收敛，保持网络当前的参数。

以上所述仅为本发明的一个代表性实施例，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种基于多分支卷积神经网络的图像和视频增强方法，其特征在于，包含以下步骤：

(4)对于尺寸大于多分支卷积神经网络所限定输入大小的图像，首先对需要处理的图像按照多分支卷积神经网络所限定的输入大小进行分块处理，然后把这些图像块输入到训练好的多分支卷积神经网络模型中进行增强，最后将增强后的图像按照分块处理的逆过程进行拼接，重叠部分取平均，即得到最终的图像处理结果；对于视频的帧数大于多分支卷积神经网络所限定输入大小的视频，首先按照多分支卷积神经网络所限定的输入帧数对需要增强的视频进行分段处理，得到分段后的短视频序列，将这些短视频序列输入到训练好的多分支卷积神经网络模型中进行增强，最后将增强后的视频序列按照分段处理的逆过程进行拼接，重叠部分取平均，即得到最终的视频处理结果；

步骤(2)中，构造多分支神经网络模型的具体过程如下：

(2.1)构建输入模块，输入模块对视频或图像采用选定的归一化方法进行归一化处理，输入模块的大小即为输入图像的大小；

(2.2)构建特征提取模块，特征提取模块的卷积层个数与网络分支个数保持一致，网络特征个数越多需要消耗内存硬件资源越多，根据实际情况进行选择；然后构建增强模块，增强模块由若干卷积层构成，增强模块的输入为增强模块对应分支的特征提取模块的输出；最后构建融合模块，融合模块接受所有分支的增强模块的输出作为输入，对这些输入进行融合处理得到最终增强结果，融合处理模块实现为：首先将所有分支的增强模块的输出按照最高维度进行拼接，然后进行卷积核大小为1×1的卷积操作得到最终结果；

(2.3)构建多分支卷积神经网络的输出模块，输出模块需要对增强的视频或图像进行归一化操作的逆操作；输出模块的大小与增强结果相同，输出模块不需要进行训练；得到多分支卷积神经网络模型；

步骤(3)中，目标损失函数包含以下三个部分：

(3.3)区域相似性度量：考虑到图像不同区域质量下降程度不同，应该给予不同区域不同权重，重点关注质量下降严重的区域；

步骤(3)中，目标损失函数Loss由结构化损失、语义信息损失和区域损失构成，如下述公式所示：

Loss＝α·L_struct+β·L_content+λ·L_region

其中，L_struct为结构化损失，L_content为语义信息损失，L_region为区域损失，α、β、λ为三个损失的系数，根据具体情境及问题的难易程度调整所占的比重；

其中，结构化损失L_struct：

其中，μ_x和μ_y是像素均值、σ_x和σ_y是像素的标准差、σ_xy是协方差、C₁和C₂为常数；

语义信息损失L_content如下所示：

其中，E和G分别代表增强结果和目标图像，W_i,j，H_i,j，C_i,j分别代表VGG19的第i个卷积块的第j个卷积层输出的长、宽和通道数，φ_i,j代表VGG19的第i个卷积块的第j个卷积层输出的特征；

区域损失L_region：

2.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法，其特征在于：所述步骤(1)中，采用模拟采集应用场景数据的方法为：针对光线或照明不足所导致图像质量下降时，首先采用伽马变换调整图像亮度，模拟光线不足可能导致的图像或视频细节缺失情况；然后对图像添加泊松噪声来模拟低光条件下传感器可能产生的噪声分布；在视频模拟的时候，保证同一视频帧的伽马变换参数保持相同，不同视频帧的伽马参数随机选择；通过对大规模公开的视频或图像数据集进行处理，即得到视频或图像训练数据集。

3.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法，其特征在于：步骤(2)中，超参数包括：输入图像的大小、图像归一化方法、网络层数、网络分支个数、网络每层特征个数、卷积操作步长。

4.根据权利要求1所述的一种基于多分支卷积神经网络的图像和视频增强方法，其特征在于：步骤(3)中，所述优化方法采用Adam优化方法，使用Adam优化方法和目标损失函数在训练数据集上进行多次迭代训练，得到收敛的网络模型参数；训练过程中采用学习率递减的方法，每次迭代调整学习率为当前学习率的95％。

5.根据权利要求4所述的一种基于多分支卷积神经网络的图像和视频增强方法，其特征在于：步骤(3.1)中结构相似性度量的方法为，采用SSIM质量评价标准作为度量方法，当网络增强效果趋于理想时，SSIM取值无限接近于1。

6.根据权利要求4所述的一种基于多分支卷积神经网络的图像和视频增强方法，其特征在于：步骤(3.2)中语义特征相似性度量的方法为，采用在ImageNet上训练的VGG19模型的中间层输出作为对应的语义信息，然后采用均方误差MSE作为度量标准，判断增强结果和对应真实图像语义特征的相似性。

7.根据权利要求4所述的一种基于多分支卷积神经网络的图像和视频增强方法，其特征在于：步骤(3.3)中区域相似性度量的方法为，采用评判指标度量出图像不同区域的质量情况，给予不同区域不同的权重使得网络更加关注图像细节缺失更严重区域，从而生成更加逼真的增强结果。