CN113705665B

CN113705665B - 图像变换网络模型的训练方法和电子设备

Info

Publication number: CN113705665B
Application number: CN202110990081.4A
Authority: CN
Inventors: 卢圣卿; 肖斌; 王宇; 朱聪超
Original assignee: Honor Device Co Ltd
Current assignee: Shanghai Glory Smart Technology Development Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2022-09-23
Anticipated expiration: 2041-08-26
Also published as: CN113705665A

Abstract

本申请属于图像处理领域，提出了一种图像变换网络模型的训练方法和电子设备，该方法包括：电子设备获取样本视频；将闪烁视频输入到预设的图像变换网络模型，得到输出视频中的第一输出图像；根据标签视频确定光流，根据所述光流对所述第一输出图像进行变换，得到与所述第一输出图像相邻的第二输出图像；确定所述第一输出图像和第一标签图像的差异，以及第二输出图像与第二标签图像的差异，根据所述差异调整所述图像变换网络模型的参数，直到完成所述图像变换网络模型的训练。由于本申请所训练的图像变换网络模型所优化视频，不必受限于引起时域一致性问题的原因，可以适应不同时域一致性问题的视频的优化，有利于提高视频优化的适应范围。

Description

图像变换网络模型的训练方法和电子设备

技术领域

本申请涉及图像处理领域，尤其涉及一种图像变换网络模型的训练方法和电子设备。

背景技术

随着手机、平板、智慧电视等电子设备性能的提升，以及通信技术的发展，视频业务在电子设备中的应用也越来越广泛。高质量的视频播放效果，有利于用户观看到更为清晰的画面内容，有利于提升用户的观看体验。

电子设备所播放的视频图像，由于受到拍摄因素、后期剪辑因素或转码因素的影响，可能会存在画质缺陷或时域一致性的缺陷。为了改善视频图像的质量，提升用户观看体验。在电子设备播放视频之前，通常可以对视频图像进行优化处理。

目前对于视频图像的优化处理方式，通常先做时域一致性处理，然后再进行画质增强处理。但是，造成时域不一致的缺陷的因素有多种，对于某一具体视频，产生时域不一致的缺陷的因素可能是单一因素，也可能是多种因素共同作用导致的，在进行时域一致性处理时，需要针对产生时域一致性问题的因素进行处理，处理过程的较为麻烦，视频优化效率不高。

发明内容

本申请实施例公开了一种图像变换网络模型的训练方法和电子设备，以解决目前对视频图像的时域一致性的优化处理时，需要针对产生时域一致性问题的因素进行处理，处理过程较为麻烦，视频优化效率不高的问题。

为了解决该技术问题，本申请公开了以下技术方案：

第一方面，本申请实施例提出了一种图像变换网络模型的训练方法，该方法包括：电子设备获取样本视频，将样本视频包括的闪烁视频中的图像输入到预测的图像变换网络模型，得到输出视频的第一输出图像，根据标签视频确定光流，根据所确定的光流对第一输出图像进行变换，得到与第一输出图像相邻的第二输出图像，根据第一输出图像与第一标签图像的差异，以及第二输出图像与第二标签图像的差异，对图像变换网络模型的参数进行调整，直到调整参数后计算的差异满足预设的要求，完成所述图像变换网络模型的训练。

其中，第一标签图像和第二标签图像为样本视频包括的标签视频中的图像。第一标签图像与第一输出图像的内容关联，第二标签图像与第二输出图像的内容关联。标签图像和输出图像的内容关联，可以理解为标签图像和输出图像的内容相同，或者标签图像和输出图像根据同一个闪烁图像通过变换得到。

电子设备根据图像变换网络模型生成第一输出图像后，根据标签视频所确定的光流，对第一输出图像进行时域上的变换，得到与第一输出图像相邻的第二输出图像。由于第二输出图像由标准的标签视频所确定的光流对第一输出图像变换得到，因此，第二输出图像中包括的时域特征与第一输出图像一致，通过将其与时间位置相同的第二标签图像进行比较确定第二差异，可以有效的反应图像变换网络模型的输出视频中的时域一致性。通过第一输出图像与第一标签图像的比较确定第一差异，可以反应图像变换网络模型的输出视频中的画质问题。根据所确定的第一差异和第二差异，对图像变换网络模型的参数进行优化调整，直到调整参数后的图像变换网络模型所计算的差异满足预设的收敛要求，从而完成模型的训练。由于训练过程不必限定引起时域一致性问题的原因，因而使得所训练后的图像变换网络模型，可以适应不同原因产生的时域一致性问题的视频的优化处理。

其中，样本视频中包括闪烁视频和标签视频。标签视频为视频在时域和空域优化后的视频，闪烁视频为图像中包括时域噪声和空域噪声的视频。

样本视频包括闪烁视频和标签视频，在获取样本视频时，可以对待训练视频进行画质和时域一致性检测，确定待训练视频的视频种类，根据所确定的视频种类，选择相应的样本视频获取方法。或者，也可以通过指定待训练视频的类型，根据所指定的类型确定相应的样本视频获取方法。

结合第一方面，在第一方面的第一种可能实现方式中，当待训练视频为闪烁视频时，可以对闪烁视频的图像进行时域一致性处理，得到时域稳定的视频，然后再对时域稳定的视频进行图像增强处理，得到样本视频中的标签视频。根据所生成的标签视频和进行图像增强前和时域一致性处理前的闪烁视频，即可得到样本视频进行模型的训练。

结合第一方面，在第一方面的第二种可能实现方式中，当待训练视频为时域稳定的视频时，可以对所述待训练视频的图像进行退化处理，得到样本视频的闪烁视频；并所述待训练视频的图像进行图像增强处理，得到样本视频的标签视频。通过对待训练视频进行图像的画质增强得到标签图像，以及对待训练视频的时域一致性的退化处理得到闪烁图像，从而可根据所得到样本视频进行模型的训练。

其中，对闪烁视频进行时域一致性处理时，可以根据引起时域一致性问题，即闪烁问题的原因，采用传统图像处理算法进行时域一致性处理。比如，闪烁的原因是由于帧间亮度不一致导致的，可以根据当前视频的亮度水平构建一个符合其亮度水平的时域滤波器，包括如均值滤波器、中值滤波器等滤波器进行滤波处理，滤波器的参数可以由视频的整体亮度水平确定。通过对帧间亮度不一致的视频进行滤波处理后，使其满足时域一致性要求。

因此，对获取的待训练视频，即原始视频进行变换处理，可以生成样本视频所需要的闪烁视频和标签视频，从而能够有效的生成样本视频所包括的标签视频和闪烁视频。

结合第一方面的第二种可能实现方式，在第一方面的第三种可能实现方式中，在将具有时域一致性的视频退化处理为闪烁视频时，可以根据随机亮度和/或随机对比度的方式，确定待训练视频中的图像的亮度和/或对比度。或者，还可以根据不同原因所产生的时域一致性问题，确定相同效果的变换参数，将视频退化为闪烁视频。通过随机亮度和/或对比度的方式，可以快速有效的生成闪烁视频。

结合第一方面，在第一方面的第四种可能实现方式中，电子设备将所述闪烁视频中的图像，输入到预设的图像变换网络模型，得到输出视频中的第一输出图像，包括：电子设备将所述闪烁视频的第t帧图像，以及第t-1帧图像输入到预设的图像变换网络模型，输出第t帧输出图像与所述闪烁视频的第t帧图像的残差，t大于或等于2；电子设备将所述残差与所述闪烁视频的第t帧图像求和得到第t帧输出图像，所述第t帧输出图像为第一输出图像。

在图像变换网络模型中引入残差块，使图像变换网络模型输出残差，根据所输出的残差与闪烁视频的图像生成第一输出图像，使得图像变换网络模型能够有效的解决优化训练时的层数加深的难题，在达到同样的效果时，需要的网络层数减少，同时，网络模型的参数收敛速度更快，在训练过程中不容易出现梯度爆炸、梯度弥散等深度学习网络训练时的难题。

其中，t大于或等于2，可用于表示视频中的图像的序号。将闪烁视频中的相邻两帧图像输入到图像变换网络模型的一次计算，即可输出一个第一输出图像。可以理解的是，随着所输入的闪烁图像的不同，以及图像变换网络模型中的参数的不同，所输出的第一输出图像也可能不同。

结合第一方面，在第一方面的第六种可能实现方式中，电子设备可以通过感知损失函数确定第一输出图像与第一标签图像的差异，通过感知损失函数确定第一输出图像与第一标签图像的差异，即第一输出图像与第一标签图像的感知损失。可以根据该感知损失对图像变换网络模型的参数进行调整和优化，使得输出的第一输出图像与第一标签图像的感知损失减小，提升输出视频中的输出图像的画质。

结合第一方面，在第一方面的第七种可能实现方式中，第一标签图像和第一输出图像确定第一差异，第二输出图像与第二标签图像确定第二差异。在进行图像变换网络模型的参数优化调整时，可以根据第一差异确定的感知损失，以及第二差异确定的时域一致性损失，结合相应的权重系数，得到图像变换网络模型的总损失，根据该总损失进行模型的参数调整，直到总损失满足预先设定的收敛要求。

结合第一方面的第七种可能实现方式，在第一方面的第八种可能实现方式中，可以设定不同的权重系数组合，通过不同的权重系数组合分别进行训练。比如，参数训练过程可以包括第一训练过程，按照第一权重系数组合对所述图像变换网络模型的参数进行调整；第二训练过程，按照第二权重系数组合对所述图像变换网络模型的参数进行调整；其中，第一权重系数组合中，α_t>α_p，第二权重系数组合中，α_t<α_p。

其中，α_t为时域一致性损失的权重系数，α_p为感知损失的权重系数。当时域一致性损失的权重系数较大，比如时域一致性损失的权重系数为感知损失的权重系数的1.2倍以上时，所确定的总损失侧重于时域一致性损失，根据该总损失进行参数调整，所输出的图像具有更佳的时域一致性。在第一训练过程后，提高感知损失的权重系数，使得训练后模型具有更佳的画质。通过分开侧重训练的方式，可以使得图像变换网络模型更容易收敛，提高图像变换网络模型的训练效率。并且先时域一致性的参数优先训练后，可以降低时域一致性参数的训练难度，提升系统训练效率。

第二方面，本申请实施例提出了一种视频优化方法，包括获取待优化视频；将所述待优化视频的图像输入到根据第一方面任一项所述训练完成的图像变换网络模型，得到优化后的输出视频的图像。

第三方面，本申请实施例提出了一种电子设备，包括处理器，所述处理器与存储器耦合，所述存储器用于存储指令，所述处理器用于执行所述存储器中的指令，使得所述电子设备执行如第一方面任一项所述的方法。

第四方面，本申请实施例提出了一种计算机可读存储介质，所述存储介质中存储有指令，当所述指令被运行时，实现如第一方面任一项所述的方法。

附图说明

图1为一种视频出现条纹或闪烁的原理示意图；

图2为本申请实施例提供的一种电子设备的硬件结构示意图；

图3为本申请实施例提供的一种电子设备的软件结构框图；

图4为本申请实施例提供的一种图像变换网络模型的训练方法的实现流程示意图；

图5为本申请实施例提供的一种样本视频生成示意图；

图6为本申请实施例提供的又一种样本视频生成示意图；

图7为本申请实施例提供的一种图像变换网络模型的训练结构示意图；

图8为本申请实施例提供的一种参数学习过程示意图；

图9为本申请实施例提供的一种视频优化方法的示意图；

图10为本申请实施例提供的一种图像变换网络模型的训练装置示意图；

图11为本申请实施例提供的一种视频优化装置的示意图。

具体实施方式

为了使本技术领域的人员更好的理解本申请实施例中的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中的技术方案作详细的说明。

在说明本申请实施例的技术方案之前，道德结合附图对本申请技术场景和相关技术术语进行介绍。

本实施例的技术方案应用于图像处理的技术领域，主要针对视频中的一系列连续帧的图像做图像的画质增强，以及时域一致性处理。其中，画质增强可以包括对图像的色彩、亮度和对比度等参数的优化调整。时域一致性处理包括视频的不同帧之间的图像出现的条纹(Banding)，以及视频的不同帧之间出现的闪烁(Flicking)。处理后的视频中的图像中的物体，在物体本身未发生变化时，不会产生用户可感知的变化，则表示视频没有时域一致性问题。

其中，条纹(Banding)或闪烁产生的原因如图1所示，视频拍摄的场景处于日光灯等光源设备下，光源会根据电源的频率产生一定的频率光能量。比如，图1所示的电源的频率为50Hz，所产生的光能的频率为100Hz(由于能量没有方向性)。由于CMOS光感传感器的曝光方式为逐行曝光，按照所设定的曝光周期进行曝光。同一行的所有像素开始曝光的时间点相同，任意一行的所有像素所需要的曝光的时长相同。因此，当第N帧图像的顶部位置的亮度偏高，第N+1帧图像的中部位置的亮度偏高，而第N+2帧图像的底部位置的亮度偏高时，在播放第N帧至第N+2帧时，可能在屏幕上显示由上至下的滚动条纹。

不同帧之间的闪烁(Flicking)所产生的原因，可能为视频采集的帧率大于电源的能源频率。比如，频率为50Hz的市电电源的能量频率为100Hz，如果帧率较大，比如帧率大于100Hz，位于同一位置的像素点，按照预设的曝光周期进行图像采集时，可能在采集不同帧的亮度不同，从而在不同帧呈现出现亮度不同的显示效果，使得不同帧之间产生亮度不同的闪烁(Flicking)现象。并不局限于此，在对采集的视频进行压缩、编码时，也可能会使得视频的图像出现闪烁等时域不一致的问题。

目前，可以根据所存在的图像优化算法对单个图像进行优化处理，而且能够得到优秀的处理效果。但是，如果将图像优化算法直接用于视频优化，往往会遇到时域不一致的问题，比如上面说到的视频的不同帧的亮度不同而出现闪烁的问题。为了提高时域一致性，大多数研究者针对不同视频处理任务设计了专用的算法改善时域一致性。比如通过最小化输出和处理后的视频在梯度域上的距离，以及两个连续输出帧之间的距离来改善时域一致性的问题。但是这种处理方式建立在输出和处理后的视频在梯度域相似的基础之上，实际情况可能会不符合。

为了提升视频优化后的时域一致性，且具有更好的普遍适用性，本申请实施例提出了一种图像变换网络模型的训练方法，根据该图像变换网络模型的训练方法所训练完成的图像变换网络模型，可以更为广泛的应用于不同场景下的视频优化，在解决时域一致性问题的基础上，使优化方法具有更加具有普遍适用性。

本申请实施例提供的图像变换网络模型的训练方法，获取包括闪烁视频和闪烁视频优化后的标签视频的样本视频，将闪烁视频的相邻两帧(第t帧和第t-1帧)输入到图像变换网络模型，得到第t帧输出图像。根据与闪烁视频对应的、位于标签视频中的相邻两帧(第t帧和第t-1帧)图像，确定标签视频的第t帧到第t-1帧的光流。根据所确定的标签视频的第t帧到第t-1帧的光流，结合图像变换网络模型得到的第t帧输出图像，生成第t-1帧输出图像。确定第t帧输出图像与标签视频的第t帧图像的差异，以及第t-1帧输出图像与标签视频的第t-1帧输出图像的差异，对图像变换网络模型的参数进行调整，直到调整后的差异符合预设的要求。其中，t为大于1且小于T的整数，T为样本视频的帧数，根据样本视频可以生成T-1组的样本图像。可将T-1组样本图像按照时间顺序依次调用，对图像变换网络模型进行训练，也可以随机调用T-1组样本图像进行训练。

本申请实施例提供的图像变换网络模型的训练方法，以及视频优化方法，可以应用于电子设备，上述电子设备可以是终端，也可以是终端内部的芯片。终端例如，手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

图2为本申请实施例提供的一种电子设备的硬件结构示意图。如图2所示，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universalserial bus，USB)接口130，音频模块140，扬声器140A，麦克风140B，耳机接口140C，传感器模块150，摄像头160以及显示屏170等。其中传感器模块150可以包括压力传感器150A，陀螺仪传感器150B，加速度传感器150C，距离传感器150D，指纹传感器150E，触摸传感器150F，环境光传感器150G等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。包括如用于执行本申请的图像变换网络模型训练方法，对图像变换网络模型进行训练优化，并可用于根据训练优化后的图像变换网络模型，对视频进行优化处理。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。比如，当图像变换网络模型训练完成后，可以将图像变换网络模型的相关数据存储在处理器110中的高速缓冲存储器中，便于提高系统对视频优化的处理效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，移动产业处理器接口(mobile industryprocessor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器150F，充电器，闪光灯，摄像头160等。例如：处理器110可以通过I2C接口耦合触摸传感器150F，使处理器110与触摸传感器150F通过I2C总线接口通信，实现电子设备100的触摸功能，使电子设备通过触摸传感器接收视频拍摄指令、视频优化指令等。

MIPI接口可以被用于连接处理器110与显示屏170，摄像头160等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头160通过CSI接口通信，实现电子设备100的拍摄功能，所拍摄的视频可以通过本申请优化后的图像变换网络模型，对拍摄的视频进行优化处理。处理器110和显示屏170通过DSI接口通信，实现电子设备100的显示功能，使得电子设备可以通过显示屏观看到优化后的视频的画面。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头160，显示屏170，无线通信模块160，音频模块140，传感器模块150等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据，比如接收其它设备或存储器传输的视频文件，或者通过USB接口将电子设备的视频文件传送至其它设备或存储器。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备100通过GPU，显示屏170，以及应用处理器等实现显示功能，包括如显示拍摄视频时的预览图像，或者显示视频播放时的画面。GPU为图像处理的微处理器，连接显示屏170和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏170用于显示图像，视频等，比如显示优化后的视频。显示屏170包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或M个显示屏170，M为大于1的正整数。

电子设备100可以通过ISP，摄像头160，视频编解码器，GPU，显示屏170以及应用处理器等实现拍摄功能。ISP用于处理摄像头160反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头160中。所拍摄的视频，可以通过本申请所述视频优化方法，得到优化后的视频，从而可在直播、视频通话等应用场景下，得到更佳的视频显示效果。

摄像头160用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或M个摄像头160，M为大于1的正整数。

数字信号处理器用于处理数字信号，可以处理数字图像信号，以及其他数字信号。例如，当电子设备100在进行视频优化时，可以通过数字信号处理器执行本申请实施例所述的视频优化方法。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：在本申请实施例中，可以通过NPU实现图像变换网络模型的智能学习，对图像变换网络模型中的参数进行优化处理。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如，可以将优化后或优化前的视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，包括如本申请实施例中所述的图像变换网络模型的训练方法对应的可执行程序代码，以及本申请实施例所述的视频优化方法所对应的可执行程序代码等，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块140，扬声器140A，麦克风140B，耳机接口140C，以及应用处理器等实现音频功能、音频采集。例如视频中的音频播放，视频拍摄时的录音等。

音频模块140用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块140还可以用于对音频信号编码和解码。在一些实施例中，音频模块140可以设置于处理器110中，或将音频模块140的部分功能模块设置于处理器110中。

扬声器140A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器140A收听视频中的音频等。

麦克风140B，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拍摄视频时，可以通过麦克风140B采集场景中的声音信息。在另一些实施例中，电子设备100可以设置两个麦克风140B，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风140B，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口140C用于连接有线耳机。耳机接口140C可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器150A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器150A可以设置于显示屏170。压力传感器150A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器150A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏170，电子设备100根据压力传感器150A检测所述触摸操作强度。电子设备100也可以根据压力传感器150A的检测信号计算触摸的位置，从而实现不同指令的采集，包括如视频拍摄指令等。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器150B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器150B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器150B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器150B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖，减少所拍摄的视频所存在的抖动问题，提高所拍摄的视频的质量。

加速度传感器150C可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。比如，在播放优化后的视频时，检测到电子设备100的姿态，自动进行全屏和非全屏播放状态的切换。

距离传感器150D，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器150D测距以实现快速对焦，使得所拍摄的视频的画面更为清晰。比如在直播场景或视频通话场景中，可以使得视频聚焦人脸，有利于提升视频交互体验。

环境光传感器150G用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节视频拍摄参数，包括如感光度、快门时间和曝光度等。

指纹传感器150E用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

触摸传感器150F，也称“触控面板”。触摸传感器150F可以设置于显示屏170，由触摸传感器150F与显示屏170组成触摸屏，也称“触控屏”。触摸传感器150F用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏170提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器150F也可以设置于电子设备100的表面，与显示屏170所处的位置不同。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图3是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。应用程序层可以包括一系列应用程序包。

如图3所示，应用程序包可以包括相机，视频等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括内容提供器，视图系统，资源管理器，通知管理器等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像等。

视图系统包括可视控件，例如显示文字的控件，显示视频的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括视频图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知视频下载、视频优化完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime(安卓运行时)包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：媒体库(Media Libraries)、图像处理库等。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

在获取到用于训练的样本视频后，电子设备可以将样本视频中的图像，通过图像处理库中的图像变换网络模型进行处理，得到样本图像中的闪烁视频的第t帧对应的第t帧输出图像。通过标签视频的图像，可以提取标签视频中的第t帧至第t-1帧的光流。根据所提取的光流和第t帧输出图像，可以变换得到第t-1帧输出图像。根据第t帧输出图像与标签视频的第t帧图像的差异，以及第t-1帧输出图像与标签视频的第t-1帧图像的差异，对图像变换网络模型的参数进行调整，直到上述差异满足预定的要求，从而完成对图像变换网络模型的训练。根据已训练图像变换模型，即可对任意闪烁视频进行视频优化处理。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

如图2和图3所示结构的终端可以用于执行本申请实施例提供的图像变换网络模型的训练方法或视频优化方法。为了便于理解，本申请以下实施例将以具有图2和图3所示结构的手机为例，结合附图对本申请实施例提供的拍摄场景下的图像处理方法进行具体阐述。

图4为本申请实施例提供的一种图像变换网络模型的训练方法的实现流程示意图，详述如下：

在S401中，电子设备获取样本视频。

本申请实施例中的样本视频，可以理解为用于训练图像变换网络模型的视频。样本视频中包括多帧图像，可以根据图像的先后顺序，依次对样本视频中的每帧图像进行标号。比如，样本视频中包括T帧图像，根据每帧图像在样本视频中的先后顺序，依次标记为样本视频的第1帧图像、第2帧图像……第T帧图像。为了描述方便，样本视频的第i(0<i<T)帧图像，可以表示为第i帧样本图像。

样本视频中包括闪烁视频和标签视频。所标记的闪烁视频中的第i帧图像，以及所标注的标签视频的第i帧图像，为图像内容相同的图像。即：可以对第i帧闪烁图像(闪烁视频的图像)进行去闪烁和画质增强处理，得到第i帧标签图像(标签视频中的图像)。

本申请实施例中的“获取样本视频”，可以指电子设备从其它设备中接收样本视频，也可以是电子设备在本地存储器中读取样本视频，或者，在可能的实现方式中，还可以根据接收的视频，或者根据本地读取的视频，生成样本视频。

其中，样本视频可以包括闪烁视频和标签视频。

所述闪烁视频的图像，包括时域噪声和空域噪声。其中，时域噪声可以通过图像的清晰度、对比度、饱和度等参数的设定值来确定。空域噪声可以通过视频相邻帧的亮度一致性、对比度一致性来确定。

比如，对于闪烁视频中的图像，其清晰度、对比度和/或饱和度可能小于预先设定的空域参数阈值，并且相邻的两帧图像可能存在亮度和/或对比度的差异大于预先设定的时域差异阈值。在播放闪烁视频时，由于不同帧的亮度或对比度等参数存在差异，会呈现闪烁的状态。闪烁视频中的图像模糊，没有对闪烁视频的单帧图像进行亮度、色彩等画质增强处理，播放闪烁视频时，呈现的画面较为模糊，影响用户观看体验。

将所述闪烁视频变换为标签视频时，需要对闪烁视频中的闪烁图像进行画质增强，以及对闪烁视频进行时域一致性处理。

所述标签视频的图像，为满足预定的画质要求以及时域一致性要求的图像。比如，可以设定标签视频的图像的画质的清晰度、亮度为进行画质增强处理过，且不同帧之间不存在时域一致性问题的图像。并且，所述标签视频的图像与闪烁视频的图像，在时间上对应。即：标签视频的第i帧图像，与闪烁视频的第i帧图像的内容相似或相同。标签视频的图像，可以通过对闪烁视频进行画质增强处理，以及时域一致性处理得到。比如，标签视频的第i帧图像，与闪烁视频的第i帧图像的内容相同，但画面的参数可能会有区别。在处理过程中，可以包括对闪烁视频的第i帧图像经过画质增强处理，以及时域一致性处理，得到标签视频的第i帧图像。为了描述方便，标签视频的第i帧图像，可以简述为第i帧标签图像，闪烁视频的第i帧图像，可以表述为第i帧闪烁图像。

在生成样本视频的过程中，可以根据所获取的原始视频的不同，按照不同的处理方式，得到本申请实施例所需要的样本视频。

如图5所示，所获取的原始视频为闪烁视频。为了得到完整的样本视频，需要生成与原始视频对应的标签视频(Ground Truth)。在生成标签视频时，可以先对原始视频，即闪烁视频的每帧闪烁图像进行画质增强处理，得到闪烁视频中的每帧图像对应的清晰图像。由清晰图像所构成的视频，我们可以称为清晰视频。其中，画质增强处理，可以使用卷积神经网络，包括如通过DnCNN、FFDNet、CBDNet等网络进行降噪处理，通过HDR-Net、U-Net、ResNet、Alex-Net等网络进行图像超分处理、色彩增强处理等。可以通过对比度调整、色彩调整、滤波、饱和度调整、细节增强和边缘处理等操作，实现图像的画质增强。原始视频的图像通过画质增强处理后，每帧图像的画质得到增强，成为清晰的图像。但是，在清晰视频的不同帧之间图像，仍然会存在亮度或对比度等参数的差异，播放清晰视频时，会在时间维度上存在明暗交替，或者对比度变化的闪烁问题。

可以进一步对清晰视频进行时域一致性处理。可以根据引起时域一致故障的原因，对清晰视频的时域一致性问题进行调整。可以根据拍摄器材原因、拍摄场景的原因、编码原因等，对清晰视频中的清晰图像进行调整，使得调整后的图像的对比度或亮度保持一致，从而得到满足时域一致性要求的标签视频。

在可能的实现方式中，也可以先对原始视频进行时域一致性处理，得到时域一致性的视频后，再进一步对时域一致性的视频中的图像进行画质增强处理，得到原始视频所对应的标签图像。

在可能的实现方式中，所获取的原始视频可能不是闪烁视频。如图6所示的样本视频生成示意图中，所获取的原始视频中所包括的图像，存在画质问题，原始视频中的图像未进行画质增强处理。但是，原始视频中的图像之间未存在时域一致性问题。为了得到所需要的标签视频和闪烁视频，需要对原始视频进行变换处理。

在生成闪烁视频时，可以对原始视频中所包括的原始图像进行退化处理，得到亮度或对比度不同的图像。比如可以根据随机亮度和/或随机对比度的方式，调整原始视频中的不同帧图像的亮度和/或对比度，从而得到亮度和/或对比度不同的图像。由亮度和/或对比度不同的图像生成闪烁视频。

比如，可以设定随机亮度的变化范围为[-50,50]，随机对比度的变化范围为[-0.5，1.5]，在所设定的随机亮度的变化范围和/或随机对比度的变化范围内，随机确定不同帧的亮度和/或对比度的调节参数，以使得随机调整后的视频的时域不具有一致性，存在时域一致性问题。当然，可以不局限于随机亮度和随机对比度，还可以按照预先设定的变化形式，确定不同帧的亮度和/或对比度的调节参数。

在生成标签视频时，由于原始视频的图像为未进行画质增强处理的图像，因此，为了满足标签视频中的图像为画质清晰的图像的要求，可以对原始图像进行画质增强(或图像增强)处理，将原始图像中的每帧图像，变换为画质清晰的图像。由于原始视频具有时域一致性，结合变换后的视频画质清晰的图像，即可生成标签图像。

当然，不局限于图5和图6所示的情形。所获取的原始视频，也可能为画质清晰，并且不存在时域一致性问题的视频，在这种情况下，可以将原始视频为作标签视频，通过退化处理，包括对原始视频的图像加入噪声，降低原始视频的图像质量，然后进一步将降低了图像质量的图像进行退化处理，比如通过对不同帧的图像采用随机对比度和/或随机亮度处理，得到存在时域一致性问题和画质问题的闪烁图像。

或者，所获取的原始视频，也可能存在时域一致性问题，但图像为清晰的图像。为了得到样本视频中的闪烁视频，可以对原始视频的原始图像加入噪声，从而降低原始图像的图像质量，根据处理后的图像生成闪烁视频。

进一步对原始视频进行时域一致性处理。可以根据引起时域一致故障的原因，对原始视频的时域一致性问题进行调整。比如，可以根据拍摄场景的原因、编码原因等，对原始视频中的原始图像进行调整，使得调整后的图像的对比度或亮度保持一致，从而得到时域一致性的标签视频。

在S402中，将样本视频包括的闪烁视频中的图像输入图像变换网络模型，得到输出视频中的第一输出图像。

如图7所示的图像变换网络模型训练结构示意图中，本申请实施例中所述的图像变换网络模型，可以由嵌入卷积长短期记忆人工神经网络(英文全称为convolution Long-Short Term Memory,英文简称为conv-LSTM)来捕捉闪烁视频中的时空相关性。通过卷积操作抽取空间特征，将所抽取的空间特征加载到能抽时序特征的LSTM网络中，从而使得训练完成的图像变换网络模型能够有效的对视频的画质进行增强处理的同时，而且能够解决视频的时域一致性问题。

在本申请实施例中，所述图像变换网络模型中可以包括残差块，使得闪烁视频中的闪烁图像(I_t，I_t-1)图像变换网络模型输出的残差，而并非直接输出第一输出图像。比如，第一输出图像可以为第t帧输出图像，第t帧输出图像O_t可以表示为：O_t＝I_t+F(I_t)，其中，I_t为闪烁视频的第t帧图像(第t帧闪烁图像)，F(I_t)为图像变换网络模型输出的残差。通过引入残差块，图像变换网络模型输出第t帧输出图像与第t帧闪烁图像的差，从而能够使得图像变换网络模型能够有效的解决优化训练时的层数加深的难题。其中，T为大于或等于2的自然数。

可以理解的是，第一输出图像，可以为输出视频中的第任意帧图像。同样，第一标签图像，可以为标签视频中的任意帧标签图像。第二输出图像为与第一输出图像相邻的图像，第二标签图像为与第一标签图像相邻的图像，且第二标签图像的内容与第二输出图像相同。

相邻两帧的闪烁图像，可以为第t帧闪烁图像，以及第t-1帧闪烁图像。相邻两帧的闪烁图像输入到图像变换网络模型后，通过图像变换网络模型的计算处理，计算得到残差F(I_t)，即第t帧输出图像与第t帧闪烁图像的差值。根据所输出的残差(或称为残差图像)，与输入的第t帧闪烁图像，将对应位置的像素进行求和，即可得到第t帧输出图像。其中，对应位置的像素进行求和，可以理解为闪烁图像和残差图像的相同位置的像素进行求和。比如，闪烁图像的左上角的第一个像素的像素值，与残差图像的左上角的第一个像素的像素值进行求和，求和结果即为输出图像的左上角的第一个像素的像素值。

所述图像变换网络模型所输出的残差，为第t帧输出图像(即输出视频的第t帧图像)与第t帧闪烁图像(即闪烁视频的第t帧图像)的差值。该差值可以为两个图像中的相对应位置的像素点的像素差。

比如，第t帧输出图像的位置A处的像素点的像素值为(r1，g1，b1)，第t帧闪烁图像的位置A处的像素点的像素值为(r2，g2，b2)，该像素点对应的残差可以表示为(r1-r2，g1-g2，b1-b2)。

在本申请实施例中，输入所述图像变换网络模型中的闪烁视频的闪烁图像，即第t帧闪烁图像和第t-1帧闪烁图像，可以为闪烁视频中的相邻的任意两帧图像。在进行图像变换网络模型的训练时，可以根据闪烁视频中包括的多帧图像的播放顺序，依次输入到图像变换网络模型，或者随机输入到图像变换网络模型，以完成对所述图像变换网络模型中的参数的训练。比如，可以依次将第1帧和第2帧闪烁图像输入到图像变换网络模型训练，然后将第2帧和第3帧输入到图像变换网络模型进行训练……最后将第T-1帧和第T帧闪烁图像输入到图像变换网络模型进行训练。或者，也可不必局限于闪烁图像的播放顺序，可以将闪烁图像中所包括的任意一组闪烁图像，按照随机确定的顺序，输入到图像变换网络模型进行训练。

本申请实施例中的图像变换网络模型，在进行训练之前，可以通过随机生成的方式，确定所述图像变换网络模型中的参数，或者，也可以根据预先设定的数值，作为所述图像变换网络模型中的参数。所述图像变换网络模型的参数可以包括图像变换网络模型中的卷积层的卷积核的大小、卷积核的数值、学习率、卷积计算的步长、扩充边缘大小等参数。比如，卷积层的卷积核中的每个位置的数值，以及步长可以初始为预先设定数值1、2等数值。卷积核大小可以初始化为3*3大小，扩充边缘大小可以初始化为0，学习率可以初始化为0.1。

通常情况下，初始化的参数与训练完成的参数不相同。因此，在训练过程中，由图像变换网络模型所输出的残差所生成的输出图像，与所期望的输出图像，即标签图像之间可能会存在差异。可以根据第t帧输出图像与第t帧标签图像之间的差异，确定所生成的输出图像与标签图像在空间域的差异信息，调整图像变换网络模型的参数，学习标签图像的空间域信息。

在S403中，根据标签视频确定光流，根据所确定的光流对第一输出图像进行图像变换，得到第二输出图像。

在确定输出图像后，为了保证输出图像在时间域的一致性，需要将所生成的输出图像，在时域上，与其它时间的标签图像进行比较，以使得图像变换网络模型所输出的图像对应的视频不存在时域一致性的问题。

然而，将闪烁视频中相邻的两帧图像输入到图像变换网络模型进行计算，生成第一输出图像，不能直接根据第一输出图像确定输出视频在时域是否存在时域一致性问题。比如，在生成第一输出图像时，可能会对图像的对比度或亮度进行调整，在满足画质增强要求时，可能与第一输出图像的相邻图像在时域上不一致。

为此，本申请实施例引入光流，通过光流对第一输出图像进行变换，将变换后得到的第二输出图像与时间点相同的第二标签图像进行比较，以便根据比较结果对图像变换网络模型的时域的变换参数进行优化。

其中，光流是指空间运动物体在观察成像平面上的像素运动的瞬时速度。可以通过标签视频中的相邻标签图像确定。即标签视频中的任意相邻的两帧标签图像，可以确定一个光流。比如，第1帧标签图像与第2帧标签图像可以确定光流，第2帧标签图像与第3帧标签图像可以确定光流，第T-1帧标签图像与第T帧标签图像可以确定光流。其中，T为标签视频中包括的标签图像的帧数。

如图7所示，在根据标签视频中的标签图像G_t和G_t-1计算光流时，可以选择神经光流网络(FlowNet)进行光流计算。所述神经光流网络可以包括简单神经光流网络(FlowNetsimple)、关联神经光流网络(FlowNetcorr)等。将需要计算的两帧图像输入到神经光流网络，输出两帧图像的光流计算结果。

其中，与第一输出图像O_t相邻的第二输出图像，可以为第一输出图像的前一帧图像O_t'_-1，也可以为第一输出图像的后一帧图像。比如，第一输出图像为第t帧输出图像，第二输出图像可以为第t-1帧输出图像，也可以为第t+1帧输出图像。

对于光流的方向，可以为第t帧标签图像至第t-1帧图像的方向，可以表示为

也可以为第t-1帧标签图像至第t帧标签图像的方向。光流的方向选择与第二标签图像的选择相关联。使得第一输出图像通过光流变换后的第二输出图像，与第二标签图像在时间上保持一致。即可通过光流的方向确定所选择的第二标签图像，也可以根据所选择的第二标签图像，确定光流的方向。

比如，第一输出图像为第t帧输出图像，第一标签图像为第t帧标签图像。如果第二标签图像为第t-1帧标签图像，则将第一输出图像变换为第二输出图像的光流，可以是由第t帧标签图像至第t-1帧标签图像所确定的光流，通过第t-1个光流和第t帧输出图像进行变换计算，得到第t-1帧输出图像。

如果第二标签图像为t+1帧标签图像，由第一输出图像变换为第二输出图像的光流，可以是由第t帧标签图像至第t+1帧标签图像的光流。通过第t个光流，结合第t帧输出图像进行变换计算，得到第t+1帧输出图像。

本申请实施例中的光流可以根据第二标签图像的设定，预先根据标签视频中的T-1组标签图像(分别为第1帧与第2帧、第2帧与第3帧……第T-1帧与第T帧)，计算得到T-1个光流。当计算得到第一输出图像时，根据第一输出图像的位置，查找相同位置的光流，根据查找的光流对所述第一输出图像进行变换，得到第二输出图像。比如，第一输出图像为第t帧图像，则可以查找到第t-1个光流，根据第t-1个光流对第一输出图像进行变换。其中，第1帧标签图像和第2帧标签图像得到第1个光流，第t-1帧标签图像与第t帧标签图像，计算得到第t-1个光流。

值得注意的是，本申请实施例中的输出图像的序号，与用于计算输出图像的两帧相邻的闪烁图像的较大序号相同。比如，第t-1帧闪烁图像与第t帧闪烁图像输入至图像变换网络模型，由模型计算得到残差，根据残差计算得到第t帧输出图像。即包括T帧图像的闪烁视频，通过图像变换网络模型计算后，得到包括第2帧至第T帧输出图像的输出视频。

在S404中，根据输出图像与标签图像的差异，调整图像变换网络模型的参数。

本申请实施例中，输出图像与标签图像的差异，包括第一输出图像与第一标签图像的差异，第二输出图像与第二标签图像的差异。其中，第一标签图像和第二标签图像为标签视频中的相邻的图像。第一标签图像与第一输出图像的内容相同，第二标签图像与第二输出图像的内容相同，可能存在画质参数或时域一致性参数所引起的差异。在第t-1帧闪烁图像和第t帧闪烁图像生成的第一输出图像为第t帧输出图像时，第一标签图像可以为第t帧标签图像。第二输出图像为第t-1帧输出图像时，第二标签图像为第t-1帧标签图像。第二输出图像为第t+1帧输出图像时，第二标签图像为第t+1帧标签图像。

第一输出图像和第一标签图像的差异，可以为第一输出图像与第一标签图像的感知差异，可以通过VGG网络、AlexNet、LeNet等卷积神经网络中的部分模块，比如采用网络中的卷积层，用于提取第一输出图像和第一标签图像的特征，计算第一输出图像与第一标签图像的感知损失。

在可能的实现方式中，可以根据感知损失函数

计算感知损失，其中，N为一帧闪烁图像或输出图像的总的像素点个数，T为闪烁视频的总帧数，φ_l(.)表示网络φ的第l层的特征激活，

表示第t帧输出图像的像素值，

表示第t帧标签图像的像素值，L_p表示感知损失。

第二输出图像与第二标签图像的差异，可以通过计算时域一致性损失来表示。时域一致性损失函数可以表示为：

其中，

表示第t-1帧输出图像的像素值，

表示第t-1帧标签图像的像素值，表示时域一致性损失，N为一帧闪烁图像或输出图像的总的像素点个数，T为闪烁视频的总帧数，L_t表示时域一致性损失。

在进行参数优化的训练时，可以由时域一致性损失和感知损失确定总损失。即总损失可以通过时域一致性损失、感知损失及相应的权重系数计算得到。可以通过公式的形式表示为：L_Total＝α_pL_p+α_tL_t。L_Total表示总损失，α_t表示时域一致性损失的权重系数，α_p表示感知损失的权重系数。当权重系数越大，表示该系数所关联的损失对总损失的影响越大，权重系数越小，该系数所关联的损失对总损失的影响越小。比如，当α_t不变，增加α_p的值，表示增加感知损失对总损失的影响，通过该权重系数所对应的总损失对图像变换网络模型的参数进行训练，使得训练后的图像变换网络模型所生成的输出图像具有更佳的感知性能，即输出视频的画质更优。当α_p不变，增加α_t的值，表示增加时域一致性损失对总损失的影响，通过该权重系数所对应的总损失对图像变换网络模型的参数进行训练，使得训练后的图像变换网络模型所生成的输出图像具有更佳的画质。

当根据图7所示的网络框架计算样本视频中的图像的总损失L_Total能够稳定有效的收敛至一定值，比如，总损失的数值小于预先设定的收敛阈值，则可以完成对所述图像变换网络模型的训练。

在本申请实施例中，为了能够提高训练效率，可以由不同数值的感知损失的权重系数和时域一致性损失的权重系数构成权重系数组合。可以采用两个或两个以上的权重系数组合，依次对图像变换网络模型的参数进行训练。

在可能的实现方式中，可以采用两个权重系数组合依次对图像变换网络模型的参数进行训练。其中第一权重系数组合中，感知损失的权重系数大于时域一致性损失的权重系数，第二权重系数组合中，感知损失的权重系数小于时域一致性损失的权重系数。其中，第二权重系数组合可以通过调整第一权重系数组合的参数得到。比如，可以保持第一权重系数组合中的时域一致性损失的权重系数不变，增加感知损失的权重系数，或者减小第一权重系数组合中的时域一致性损失的权重系数，增加或保持感知损失的权重系数。

如图8所示为本申请实施例提供的一种参数学习过程的示意图，为描述简便，以视频中两帧相邻图像为例进行说明。其中，左图为闪烁视频，该闪烁视频具有时域一致性问题和画质问题。其中，时域一致性问题为时域上所表现的前后不一致问题，比如图8所示的闪烁视频，相邻两帧图像的亮度不一致等。画质问题为闪烁视频中的单帧图像的画质问题，包括如清晰度、色彩等问题。

通过第一权重系数组合进行训练时，由于第一权重系数组合中的感知损失的权重系数小于时域一致性损失的权重系数，比如可以设定时域一致性损失的权重系数为感知损失的权重系数的1.2倍以上，总损失L_Total更加偏重对时域一致性参数的约束学习。在第一权重系数组合训练收敛后，时域一致性参数的约束学习完成。通过所学习到的图像变换网络模型的参数，对闪烁视频进行图像变换的计算，所输出的视频如图8的中图所示，图像的时域一致性得到有效的改善，相邻两帧之间所存在的亮度问题得到了明显的缓解。

将时域一致性的约束参数学习完成后，可以进一步通过第二权重系数组合进行参数的训练。在第二权重系数组合中，感知损失的权重系数大于时域一致性损失的权重系数，比如可以设定感知损失的权重系数为时域一致性损失的权重系数的1.2倍以上，总损失L_Total更加偏重对感知参数的约束学习。在第二权重系数组合训练收敛后，可以根据训练学习后的图像变换网络模型的参数，对闪烁视频，或者第一权重系数组合训练后的参数所计算输出的视频进行计算变换，得到图8右图所示的输出视频。该输出视频的画质得到改善，且克服了时域一致性问题。

通过第一权重系数组合和第二权重系数组合进行参数的训练优化时，通过逐步侧重的方式对参数进行优化训练，和同时进行优化训练的方式相比，能够使得训练过程更容易收敛，因而能够有效的提升训练效率。

图9为本申请实施例提供的一种根据图4所示的图像变换网络模型的训练方法所训练的图像变换网络模型对待优化视频进行优化的示意图。图9所示的示意图中示意了其中相邻的两帧图像。待优化视频可以为存在时域一致性问题的视频，或者也可以为存在画质问题的视频，或者也可以如图9所示的存在时域一致性问题(相邻帧亮度明显不同)和画质问题(画质模糊)的视频。通过本申请图4所示的图像变换网络模型的训练方法所训练后的图像变换网络模型进行计算变换，可以输出图9右图所示的输出视频，在该输出视频中，输出视频的图像的清晰度，相对于待优化视频的清晰度更高，且输出视频的图像的相邻帧的亮度变化更为温和或基本一致，时域一致性问题和画质问题得到明显改善。

其中，对视频优化时，可以为电子设备本身所采集的视频进行优化，也可以为电子设备对接收到的由其它电子设备所发送的视频进行优化。所述视频优化方法可以在视频播放前，也可以在视频播放时进行优化。

图10为本申请实施例提供的一种图像变换网络模型的训练装置的示意图，如图10所示，该装置包括：样本视频获取单元1001、第一输出图像获取单元1002、第二输出图像获取单元1003以及参数调整单元1004。

其中，样本视频获取单元1001用于获取样本视频，该样本视频中包括闪烁视频和标签视频。标签视频为视频优化后所期望得到的视频。标签视频中的图像的画质较好，比如可以通过画质评估参数，包括如色彩、清晰度等参数确定视频中的图像是否满足标签视频的要求。标签视频中的相邻图像具有时域一致性，即相邻图像的对比度或亮度的变化小于预先所设定的值。闪烁图像与标签视频相反，闪烁视频中的图像存在画质问题和时域一致性问题，同样可以通过预先设定的相关参数来确定视频是否为闪烁视频。

第一输出图像获取单元1002用于将闪烁视频的相邻的两帧图像输入到预设的图像变换网络模型，得到第一输出图像。其中，图像变换网络模型的输出可以为残差。第一输出图像可以根据残差和输入的闪烁视频的图像求和获得。通过图像变换网络模型输出残差，使得图像变换网络模型能够有效的解决优化训练时的层数加深的难题。

第二输出图像获取单元1003用于根据标签视频中相邻的两帧图像，确定标签视频中相邻的标签图像的光流，根据所确定的光流，对第一输出图像进行变换，得到与第一输出图像相邻的第二输出图像。其中，第一输出图像和第二输出图像为输出视频中相邻的两帧图像。如果第一输出图像为第t帧输出图像，第二输出图像可以为第t-1帧输出图像，也可以为第t+1帧输出图像。

将所述第一输出图像变换为第二输出图像时，可以根据第一输出图像的位置，确定所选择的光流。比如，第一输出图像为第t帧输出图像，光流可以为第t-1帧标签图像至第t帧标签图像的光流，也可以为第t+1帧至第t帧的光流。根据光流的方向，确定第二输出图像为第t+1帧输出图像，或者为第t-1帧输出图像。

参数调整单元1004用于确定所述第一输出图像和第一标签图像的差异，以及第二输出图像与第二标签图像的差异，根据所述差异调整所述图像变换网络模型的参数，直到调整参数后计算的差异满足预设的要求，完成所述图像变换网络模型的训练。其中，所述第一标签图像和第二标签图像为标签视频中的图像，且第一标签图像和第一输出图像的内容关联，第二标签图像和第二输出图像的内容关联。此处的内容关联，可以理解为内容相同，但画质参数和/或时域一致性参数上存在区别，或者也可以理解为第一标签图像和第一输出图像根据相同的图像变换得到，比如，作为第一标签图像的第t帧标签图像，根据第t帧闪烁图像变换得到；作为第一输出图像的第t帧输出图像，根据第t-1帧闪烁图像和第t帧闪烁图像计算得到。

第一输出图像和第一标签图像的差异，可以通过感知损失来表示。第二输出图像与第二标签图像的差异，可以通过时域一致性损失来表示。

其中，感知损失可以通过基于神经网络模型进行计算，或者可以通过公式进行计算。比如，感知损失可以表示为：

其中，N为一帧闪烁图像或输出图像的总的像素点个数，T为闪烁视频的总帧数，φ_l(.)表示网络φ的第l层的特征激活，

表示第t帧输出图像的像素值，

表示第t帧标签图像的像素值，L_p表示感知损失。

时域一致性损失可以通过时域一致性损失函数

表示。其中，

表示第t-1帧输出图像的像素值，

基于所获取的感知损失和时域一致性损失，可以结合相应的权重系数求和得到总损失，通过计算总损失收敛，对图像变换网络模型中的参数进行优化调整。

可能的实现方式中，可以通过两组或两组以上的权重系数，按照先后顺序对图像变换网络模型中的参数逐步训练。比如，可以先使时域一致性损失相对于感知损失较高的权重系数进行训练，对模型中的时域参数进行约束，使训练后的模型所生成的视频具有较好的时域一致性。然后再采用感知损失相对于时域一致性损失较高的权重系数进行训练，对模型中空域参数进行约束，使训练后的模型生成的视频具有较好的画质和时域一致性。

图10所示的图像变换网络模型的训练装置，与图4所示的图像变换的网络模型的训练方法对应。

图11为本申请实施例提供的一种视频优化装置的示意图。如图11所示，该装置包括待优化视频获取单元1101，用于获取优化的视频。其中，该待优化视频可以为电子设备本身所采集的视频，或者也可以为接收到的，由其它电子设备所发送的视频。视频优化单元1102，用于根据图4所示的图像变换网络模型的训练方法所训练得到的图像变换网络模型，对待优化视频进行优化处理，得到优化后的输出视频。

图11所示的视频优化装置，与图9所示的视频优化方法对应。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

此外，本申请实施例的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读介质可以包括，但不限于:磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatiledisc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasableprogrammable read-only memory，EPROM)、卡、棒或钥匙驱动器等)。另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

在上述实施例中，图10或图11中的装置，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

应当理解的是，在本申请实施例的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者接入网设备等)执行本申请实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种图像变换网络模型的训练方法，其特征在于，所述方法包括：

电子设备获取样本视频，所述样本视频包括闪烁视频和标签视频，所述闪烁视频的图像为包括时域噪声和空域噪声的图像，所述标签视频为对所述闪烁视频进行画质增强处理和时域一致性处理所得到的视频；

电子设备将所述闪烁视频中的图像，输入到预设的图像变换网络模型，得到第一输出图像；

电子设备根据标签视频确定光流，根据所述光流对所述第一输出图像进行变换，得到与所述第一输出图像相邻的第二输出图像，所述光流根据标签视频中相邻的两帧标签图像确定，根据第一输出图像的位置，查找相同位置的光流；

电子设备确定所述第一输出图像和第一标签图像的差异，以及第二输出图像与第二标签图像的差异，根据所述第一输出图像和第一标签图像的差异和第二输出图像与第二标签图像的差异调整所述图像变换网络模型的参数，直到调整参数后计算的差异满足预设的要求，完成所述图像变换网络模型的训练，所述第一标签图像和第二标签图像为标签视频中的图像，且第一标签图像和第一输出图像的内容关联，第二标签图像和第二输出图像的内容关联。

2.根据权利要求1所述的方法，其特征在于，当待训练视频为闪烁视频时，电子设备获取样本视频，包括：

电子设备对所述闪烁视频的图像进行时域一致性处理，得到时域稳定的视频；

电子设备将时域稳定的视频进行图像增强处理，得到样本视频中的标签视频。

3.根据权利要求1所述的方法，其特征在于，当待训练视频为时域稳定的视频时，电子设备获取样本视频，包括：

电子设备对所述待训练视频的图像进行退化处理，得到样本视频的闪烁视频；

电子设备对所述待训练视频的图像进行图像增强处理，得到样本视频的标签视频。

4.根据权利要求3所述的方法，其特征在于，电子设备对所述待训练视频的图像进行退化处理，包括：

电子设备根据随机亮度和/或随机对比度的方式，随机调整所述待训练视频的图像的亮度和/或对比度。

5.根据权利要求1所述的方法，其特征在于，电子设备将所述闪烁视频中的图像，输入到预设的图像变换网络模型，得到输出视频中的第一输出图像，包括：

电子设备将所述闪烁视频的第t帧图像，以及第t-1帧图像输入到预设的图像变换网络模型，输出第t帧输出图像与所述闪烁视频的第t帧图像的残差，t大于或等于2；

电子设备将所述残差与所述闪烁视频的第t帧图像求和得到第t帧输出图像，所述第t帧输出图像为第一输出图像。

6.根据权利要求1所述的方法，其特征在于，电子设备根据标签视频确定光流，包括：

电子设备将所述标签视频的第t帧图像和第t帧图像相邻的图像输入到预先训练完成的光流计算网络，输出所述标签视频中的第t帧图像至第t帧图像相邻的图像的光流，t大于或等于2。

7.根据权利要求1所述的方法，其特征在于，电子设备确定第一输出图像与第一标签图像的差异，包括：

电子设备通过感知损失函数确定第一输出图像与第一标签图像的差异。

8.根据权利要求1所述的方法，其特征在于，根据所述差异调整所述图像变换网络模型的参数，包括：

根据所述第二输出图像与第二标签图像的差异确定时域一致性损失，以及根据第一输出图像与第一标签图像的差异确定感知损失；

根据所述时域一致性损失、感知损失以及预先设定的时域一致性损失的权重系数α_t和感知损失的权重系数α_p，确定所述图像变换网络模型的总损失；

根据所述总损失对所述图像变换网络模型的参数进行调整。

9.根据权利要求8所述的方法，其特征在于，根据所述总损失对所述图像变换网络模型的参数进行调整，包括：

第一训练过程，按照第一权重系数组合对所述图像变换网络模型的参数进行调整；

第二训练过程，按照第二权重系数组合对所述图像变换网络模型的参数进行调整；

其中，第一权重系数组合中，α_t>α_p，第二权重系数组合中，α_t<α_p。

10.一种视频优化方法，其特征在于，所述方法包括：

获取待优化视频；

将所述待优化视频的图像输入到根据权利要求1-9任一项所述训练完成的图像变换网络模型，得到优化后的输出视频的图像。

11.一种电子设备，包括处理器，所述处理器与存储器耦合，其特征在于，所述存储器用于存储指令，所述处理器用于执行所述存储器中的指令，使得所述电子设备执行如权利要求1-10任一项所述的方法。

12.一种计算机可读存储介质，所述存储介质中存储有指令，其特征在于，当所述指令被运行时，实现如权利要求1-10任一项所述的方法。