CN113379749A

CN113379749A - 图像处理方法、可读存储介质及计算机程序产品

Info

Publication number: CN113379749A
Application number: CN202110646981.7A
Authority: CN
Inventors: 王静远
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-10

Abstract

本发明涉及图像处理技术领域，公开一种图像处理方法、可读存储介质及计算机程序产品。所述图像处理方法包括：获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数；获取所述待裁切图像的深度信息；根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数；以及根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。本发明通过综合考虑子图的美感因素与深度信息来实现对图像的裁切，从而极大地增强了图像的裁切效果。

Description

图像处理方法、可读存储介质及计算机程序产品

技术领域

本发明涉及图像处理技术领域，具体地涉及一种图像处理方法、可读存储介质及计算机程序产品。

背景技术

在程序化创意及其他智能图文相关领域中，常常需要从原图获得不同长宽比的图片。当原图长宽比和目标长宽比差异较大时，对原图进行尺寸的缩放会带来图片的拉伸，进而影响图片的整体美感，因此，大多数情况下需要对原图进行裁切。

现有的图像自动化裁切方法为基于物体显著性的图像处理方法，其主要根据物体显著性来确定子图的主要区域。然而，有些场景可能会出现没有显著性物体或者显著性物体分散的情形。这些情形使用基于物体显著性的方法都无法有效地进行裁切。

发明内容

本发明的目的是提供一种图像处理方法、可读存储介质及计算机程序产品，其通过综合考虑子图的美感因素与深度信息来实现对图像的裁切，从而极大地增强了图像的裁切效果。

为了实现上述目的，本发明第一方面提供一种图像处理方法，所述图像处理方法包括：获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数；获取所述待裁切图像的深度信息；根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数；以及根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。

优选地，所述获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数包括：通过初始分数预测模型获取所述目标尺寸下的多个候选子图的初始美感分数：对所述待裁切图像的特征进行抽取，以获取所述待裁切图像的特征图及所述待裁切图像的特征图与所述待裁切图像之间的映射关系；以及根据所述待裁切图像的特征图及所述映射关系，获取所述目标尺寸下的多个候选子图的初始美感分数，其中，所述目标尺寸包括所述多个候选子图与所述待裁切图像的目标长度比例与目标宽度比例。

优选地，所述获取所述目标尺寸下的多个候选子图的初始美感分数包括：按照第一预设规则对所述待裁切图像的特征图进行预裁切，以获取多个子特征图，其中，所述多个子特征图至少覆盖所述待裁切图像的特征图，以及所述第一预设规则包括：所述多个子特征图与所述待裁切图像的特征图的长度比例与宽度比例分别为目标长度比例与目标宽度比例且所述多个子特征图的位置为多个第一预设位置；获取所述多个子特征图的初始美感分数；以及根据所述映射关系与所述多个子特征图的初始美感分数，获取与所述多个子特征图相对应的所述多个候选子图的初始美感分数。

优选地，所述图像处理方法还包括：通过图像训练样本集对所述初始分数预测模型进行训练的步骤，其中，所述图像训练样本集中的每一者包括：第一图像及按照第二预设规则预裁切的所述第一图像的多个第一样本子图的初始美感分数，其中，所述多个第一子图至少覆盖所述第一图像，以及所述第二预设规则包括所述多个第一子图的位置为多个第二预设位置。

优选地，所述通过图像训练样本集对所述初始分数预测模型进行训练包括：通过从所述图像训练样本集中随机选取的图像训练样本组对所述初始分数预测模型进行训练，以获取所选取的图像训练样本组中的每一者的多个第一子图的初始美感分数，其中，所述图像训练样本组包括预设数目的图像训练样本，所述多个第一子图为按照与所述多个第一子图的位置、长度与宽度一一对应的规则对所述图像训练样本组中的每一者进行预裁切获取的；根据所述多个第一子图的初始美感分数与所述多个第一子图的初始美感分数，对所述初始分数预测模型中的参数进行优化；以及通过从所述图像训练样本集中随机选取的图像训练样本组对优化后的初始分数预测模型进行迭代训练和优化，直至训练过程满足预设停止条件为止。

优选地，对所述初始分数预测模型进行训练还包括：通过图像验证样本集对与多个预设轮次训练相对应的优化后的初始分数预测模型进行验证，以获取所述图像验证样本集中的每一者的多个第二子图及所述多个第二子图的初始美感分数，其中，所述图像验证样本集中的每一者包括：第二图像及按照第三预设规则预裁切的所述第二图像的多个第二子图的初始美感分数，所述多个第二子图至少覆盖所述第二图像，所述第三预设规则包括所述多个第二样本子图的位置为多个第三预设位置，以及所述多个第二子图为按照与多个第二子图的位置、长度与宽度一一对应的规则对所述图像验证样本组中的每一者进行预裁切获取的；以及根据所述多个第二子图的初始美感分数与所述多个第二子图的初始美感分数，确定所述多个预设轮次训练相对应的优化后的初始分数预测模型的准确度，相应地，所述图像处理方法还包括：从迭代训练和优化过程中得到的多个优化后的初始分数预测模型中，筛选出准确度最高的初始分数预测模型为训练完成的初始分数预测模型。

优选地，在执行所述通过图像训练样本集对所述初始分数预测模型进行训练的步骤之前，所述图像处理方法还包括：采用基于网格锚点的方法获取所述多个第一子图与所述多个第二子图；根据所述多个第一子图中的每个第一子图的信息丰富度与构图信息，确定所述每个第一子图的初始美感分数；以及根据所述多个第二子图中的每个第二子图的信息丰富度与构图信息，确定所述每个第二子图的初始美感分数。

优选地，所述训练过程满足预设停止条件包括：训练次数满足预设次数；或者所述多个第一子图的目标美感分数与所述多个第一子图的初始美感分数的差值均小于预设差值。

优选地，所述预测多个候选子图的目标美感分数包括：通过初始分数预测模型执行以下步骤：根据所述待裁切图像的深度信息、所述多个子特征图的位置信息及所述映射关系，确定所述多个候选子图的深度信息；根据所述多个候选子图的深度信息，确定所述多个候选子图的深度因子；以及根据所述多个候选子图的深度因子及所述多个候选子图的初始美感分数，确定所述多个候选子图的目标美感分数。

优选地，所述确定所述多个候选子图的深度因子包括：针对所述多个候选子图中的候选子图i，根据所述候选子图i的最大深度值

与最小深度值

及下式，确定所述候选子图i的深度因子α_i，

优选地，所述确定所述多个候选子图的目标美感分数包括：针对所述多个候选子图中的候选子图i，根据所述候选子图i的深度因子α_i、所述候选子图i的初始美感分数

及下式，确定所述候选子图i的目标美感分数

优选地，所述对所述待裁切图像进行裁切包括：从所述多个候选子图中筛选出目标美感分数最高的候选子图；以及从所述待裁切图像中裁切出所述目标美感分数最高的候选子图。

通过上述技术方案，本发明创造性地首先获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数与所述待裁切图像的深度信息；接着根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数；最后根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。由此，本发明可通过综合考虑子图的美感因素与深度信息来实现对图像的裁切，从而极大地增强了图像的裁切效果。

本发明第二方面还提供一种图像处理系统，所述图像处理系统包括：初始分数获取装置，用于获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数；深度信息获取装置，用于获取所述待裁切图像的深度信息；目标分数获取装置，用于根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数；图像裁切装置，用于根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。

优选地，所述初始分数获取装置用于获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数包括：通过初始分数预测模型获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数：对所述待裁切图像的特征进行抽取，以获取所述待裁切图像的特征图及所述待裁切图像的特征图与所述待裁切图像之间的映射关系；以及根据所述待裁切图像的特征图及所述映射关系，获取所述目标尺寸下的多个候选子图的初始美感分数，其中，所述目标尺寸包括所述多个候选子图与所述待裁切图像的目标长度比例与目标宽度比例。

优选地，所述初始分数获取装置用于通过初始分数预测模型获取所述目标尺寸下的多个候选子图的初始美感分数包括：按照第一预设规则预裁切所述待裁切图像的特征图进行预裁切，以获取多个子特征图，其中，所述多个子特征图至少覆盖所述待裁切图像的特征图，以及所述第一预设规则包括：所述多个子特征图与所述待裁切图像的特征图的长度比例与宽度比例分别为目标长度比例与目标宽度比例且所述多个子特征图的位置为多个第一预设位置；获取所述多个子特征图的初始美感分数；以及根据所述映射关系与所述多个子特征图的初始美感分数，获取与所述多个子特征图相对应的所述多个候选子图的初始美感分数。

优选地，所述目标分数获取装置用于预测所述多个候选子图的目标美感分数包括：深度信息确定模块，用于根据所述待裁切图像的深度信息、所述多个子特征图的位置信息及所述映射关系，确定所述多个候选子图的深度信息；深度因子确定模块，用于根据所述多个候选子图的深度信息，确定所述多个候选子图的深度因子；以及目标分数确定模块，用于根据所述多个候选子图的深度因子及所述多个候选子图的初始美感分数，确定所述多个候选子图的目标美感分数。

优选地，所述深度因子确定模块用于确定所述多个候选子图的深度因子包括：针对所述多个候选子图中的候选子图i，根据所述候选子图i的最大深度值

与最小深度值

及下式，确定所述候选子图i的深度因子α_i，

优选地，所述目标分数确定模块用于确定所述多个候选子图的目标美感分数包括：针对所述多个候选子图中的候选子图i，根据所述候选子图i的深度因子α_i、所述候选子图i的初始美感分数

及下式，确定所述候选子图i的目标美感分数

优选地，所述图像裁切装置包括：筛选模块，用于从所述多个候选子图中筛选出目标美感分数最高的候选子图；以及裁切模块，用于从所述待裁切图像中裁切出所述目标美感分数最高的候选子图。

有关本发明提供的图像处理系统的具体细节及益处可参阅上述针对图像处理方法的描述，于此不再赘述。

本发明第三方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的图像处理方法的步骤。

本发明第四方面提供一种电子设备，所述电子设备包括：处理器；用于存储所述计算机程序的存储器；所述处理器，用于从所述存储器中读取所述计算机程序，并执行所述计算机程序以实现上述的图像处理方法的步骤。

本发明第五方面提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述的图像处理方法的步骤。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明一实施例提供的图像处理方法的流程图；

图2是本发明一实施例提供的获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数的流程图；

图3是本发明一实施例提供的目标美感分数预测框架的原理示意图；

图4是本发明一实施例提供的获取所述目标尺寸下的多个候选子图的初始美感分数的流程图；

图5是本发明一实施例提供的待裁切图像的特征图的多个子特征图的示意图；

图6是本发明一实施例提供的预测多个候选子图的目标美感分数的流程图；

图7是本发明一实施例提供的第一图像的多个样本子图的示意图；以及

图8是本发明一实施例提供的图像处理系统的结构图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

图1是本发明一实施例提供的图像处理方法的流程图。如图1所示，所述图像处理方法可包括以下步骤S101-S104。

步骤S101，获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数。

对于步骤S101，所述获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数可包括通过初始分数预测模型执行以下步骤S201-S202，如图2所示。

步骤S201，对所述待裁切图像的特征进行抽取，以获取所述待裁切图像的特征图及所述待裁切图像的特征图与所述待裁切图像之间的映射关系。

步骤S201通过初始分数预测模型1中的特征抽取模型100执行，为了保证能给初始分数预测模型1中的后续模型(即分数预测模型110)提供足够的空间分辨率，所述特征抽取模型100可采用合适层深的卷积神经网络(例如，所述特征抽取模型100采用图3所示的卷积神经网络)。通过所述特征抽取模型100可抽取待裁切图像的特征图(feature map)及其与所述待裁切图像之间的映射关系。其中，所述映射关系可包括：所述特征图上的每个点与所述待裁切图像上的相应点之间的位置映射关系；以及所述特征图与所述待裁切图像之间的尺寸映射关系。

具体地，所述映射关系中包括待裁切图像的特征图与所述待裁切图像的位置映射关系与尺寸映射关系。对于位置映射关系而言，子特征图i的位置坐标(xi，yi)与相应的候选子图i的位置坐标(xi’，yi’)满足如下关系：(kxi，kyi)＝(xi’，yi’)(其中，k为待裁切图像的长度(或宽度)与其特征图的长度(或宽度)的比例，其可在抽取特征图之前进行预先设定，且待裁切图像的中心为原图坐标系的原点)。对于尺寸映射关系而言，子特征图i的长度比Li/L(或宽度Wi/W)与相应的候选子图i的长度比Li’/L’，其中L’＝kL(或宽度Wi’/W’，其中W’＝kW)满足如下关系：kLi＝Li’(或kWi＝Wi’)，其中Li、Wi分别为子特征图i的长度与宽度，L与W分别为待裁切图像的特征图的长度与宽度，Li’、Wi’分别为候选子图i的长度与宽度，L’与W’分别为待裁切图像的长度与宽度。

步骤S202，根据所述待裁切图像的特征图及所述映射关系，获取所述目标尺寸下的多个候选子图的初始美感分数。

其中，所述目标尺寸包括所述多个候选子图与所述待裁切图像的目标长度比例与目标宽度比例。所述步骤S202由所述初始分数预测模型1中的分数预测模型110执行。

对于步骤S202，所述获取所述目标尺寸下的多个候选子图的初始美感分数可包括以下步骤S401-S403，如图4所示。

步骤S401，按照第一预设规则对所述待裁切图像的特征图进行预裁切，以获取多个子特征图。

其中，所述多个子特征图至少覆盖所述待裁切图像的特征图，以及所述第一预设规则可包括：所述多个子特征图与所述待裁切图像的特征图的长度比例与宽度比例分别为目标长度比例与目标宽度比例且所述多个子特征图的位置为多个第一预设位置。

具体地，如图5所示，在通过特征抽取模型100获取所述待裁切图像的特征图之后，通过所述分数预测模型110执行以下操作：以特征图的中心为特征图坐标系的原点，在所述特征图上的位置1(x1，y1)处预裁切子特征图1、在位置2(x2，y2)处预裁切子特征图2、在位置3(x3，y3)处预裁切子特征图3、在位置4(x4，y4)处预裁切子特征图4、在位置5(x5，y5)处预裁切子特征图5、以及在位置6(x6，y6)处预裁切子特征图6，且各个子特征图的尺寸相同(例如，目标长度比为0.5；目标宽度比为0.5，其可根据实际需求进行设置)。其中，各个位置的坐标也可提前预设。也就是说，按照第一预设规则预裁切，只要待裁切图像上的相应的位置周围的区域满足目标尺寸，就对该区域进行预裁切，而不论该区域是否具有显著性特征。

另外，在本发明各个实施例中，按照第一预设规则对待裁切图像的特征图进行“预裁切”是指确定所述待裁切图像的特征图上的满足所述第一预设规则的多个子特征图(即确定所述特征图与多个子特征图之间的映射关系)，此时实际上并没有执行裁切动作。

步骤S402，获取所述多个子特征图的初始美感分数。

通过所述初始分数预测模型可获取所述多个子特征图的初始美感分数。具体地，根据所述多个子特征图的信息丰富度与构图信息，可确定每个子特征图的初始美感分数(具体过程可详见下述关于初始美感分数的相关描述)。也就是说，所述美感分数的高低体现了图的信息丰富度与构图信息。然而，所述多个子特征图的初始美感分数不包含关于构图的纵深信息。

步骤S403，根据所述映射关系与所述多个子特征图的初始美感分数，获取与所述多个子特征图相对应的所述多个候选子图的初始美感分数。

其中，所述初始美感分数为仅考虑了候选子图的美感度(即子特征图的美感分数)。通过所述初始分数预测模型可根据所述映射关系与所述多个子特征图的初始美感分数，获取与所述多个子特征图相对应的所述多个候选子图的初始美感分数。

具体地，可通过所述映射关系将多个子特征图的初始美感分数作为相应的多个候选子图的初始美感分数。例如，在图5所示的子特征图1、2、3、4、5、6的初始美感分数分别为1、2.5、3.5、4、5、4.5的情况下，根据映射关系确定的与子特征图1、2、3、4、5、6相对应的候选子图1、2、3、4、5、6的初始美感分数分别为1、2.5、3.5、4、5、4.5。

由此，通过上述步骤S401-S403可获取所述目标尺寸下的多个候选子图的初始美感分数(即实现步骤S202的过程)。进而，通过上述步骤S201-S202可获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数(即实现步骤S101的过程)。

步骤S102，获取所述待裁切图像的深度信息。

对于步骤S102，所述获取所述待裁切图像的深度信息可包括：通过深度预测模型120获取所述待裁切图像的深度信息。其中，所述深度预测模型120可为迈达斯(MiDaS)网络(其可通过多个深度数据集混合预训练而成)，用于获取待裁切图像的深度信息(例如，构图的纵深)。

步骤S103，根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数。

其中，所述目标美感分数为综合考虑了候选子图的美感度与纵深双重因素。对于步骤S103，所述预测多个候选子图的目标美感分数可包括通过目标分数获取装置30执行以下步骤S601-S603，如图6所示。

步骤S601，根据所述待裁切图像的深度信息、所述多个子特征图的位置信息及所述映射关系，确定所述多个候选子图的深度信息。

具体地，所述待裁切图像的深度信息可为所述待裁切图像上的各个像素点的位置信息与深度信息的映射关系。相应地，可根据所述各个像素点的位置信息与深度信息的映射关系及所述多个子特征图的位置信息，确定所述多个候选子图的深度信息。例如，从所述映射关系中查找对应于各个子特征图的位置坐标(即子特征图的中心坐标相对于整个特征图的偏移坐标)，并确定与围绕所查找的位置坐标的相应区域(该相应区域的尺寸即为所述各个子特征图的尺寸)内的各个像素点相对应的深度信息。

步骤S602，根据所述多个候选子图的深度信息，确定所述多个候选子图的深度因子。

对于步骤S602，所述确定所述多个候选子图的深度因子可包括：针对所述多个候选子图中的候选子图i，根据所述候选子图i的最大深度值

与最小深度值

及下式(1)，确定所述候选子图i的深度因子α_i，

步骤S603，根据所述多个候选子图的深度因子及所述多个候选子图的初始美感分数，确定所述多个候选子图的目标美感分数。

对于步骤S603，针对所述多个候选子图中的候选子图i，根据所述候选子图i的深度因子α_i、所述候选子图i的初始美感分数

及下式(2)，可确定所述候选子图i的目标美感分数

在确定了各个候选子图的深度信息之后，可根据所述深度信息确定各个候选子图的最大深度值与最小深度值，然后结合公式(1)可确定各个候选子图的深度因子；接着根据各个候选子图的深度因子与初始美感因子结合公式(2)，确定各个候选子图的目标美感因子。由此，所述各个候选子图的目标美感因子兼顾了候选子图的美感度与纵深双重因素，故通过目标美感因子筛选出来的目标子图可显著增强裁切效果。

在通过步骤S601-S603(即步骤S103)确定各个候选子图的目标美感分数(其考虑了美感度与构图的纵深的双重因素)之后，可通过后续步骤S104从多个候选子图中筛选目标美感分数最大值的子图为目标子图。由此，通过下述实施例可裁切得到的目标子图可兼顾美感度与构图的纵深的双重因素，从而可显著增强裁切效果。

步骤S104，根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。

对于步骤S104，所述对所述待裁切图像进行裁切包括：从所述多个候选子图中筛选出目标美感分数最高的候选子图；以及从所述待裁切图像中裁切出所述目标美感分数最高的候选子图。

具体地，在(例如通过图8所示的目标分数获取装置30)得到各个候选子图的目标美感分数之后，可先对各个候选子图的目标美感分数进行降序排序，然后筛选出位于第1位(即目标美感分数最高)的候选子图。然后，可根据所述目标美感分数最高的候选子图的位置信息及该候选子图的尺寸信息，从所述待裁切图像中裁切出相应的候选子图，并将裁切出的候选子图作为目标子图输出。例如，若筛选出候选子图s的目标美感分数最高，则按照候选子图s的位置及其尺寸，从待裁切图像中裁切出所述候选子图s，以将其作为目标子图进行输出。

上述步骤S101涉及的初始分数预测模型1(其包括图3所示的所述特征抽取模型100与所述分数预测模型110)可为训练完成的模型或者未训练完成的模型。当然，采用训练完成的初始分数预测模型1执行上述过程可得到各个子图的初始分数的非常精确的预测结果。

在一实施例中，所述初始分数预测模型1为训练完成的初始分数预测模型1。所述图像处理方法还包括：通过图像训练样本集对所述初始分数预测模型1进行训练。

其中，所述图像训练样本集中的每一者包括：第一图像及按照第二预设规则裁切的所述第一图像的多个第一样本子图的初始美感分数，其中，所述多个第一样本子图至少覆盖所述第一图像，以及所述第二预设规则包括所述多个第一样本子图的位置为多个第二预设位置。

在各个实施例中，所述第二预设规则中的所述多个第二预设位置与所述第一预设规则中的所述多个第一预设位置可以相同或者不同。

具体地，先对图像训练样本集进行简要说明。所述图像训练样本集中的每个图像训练样本可为任一图片(例如，照相机或手机拍摄的图片，具体可包括风景、人像、动物、建筑等各个类别的图片)及该图片的子图(所述子图通过所述第二预设规则进行预裁切)。

关于所述图片的子图的具体情况介绍如下：如图7所示，以图像的中心为坐标系的原点，在所述图像上的位置1(x1，y1)处裁切子图1(长度比例为R_L1、宽度比例为R_W1)、在位置2(x2，y2)处裁切子图2(长度比例为R_L2、宽度比例为R_W2)、在位置3(x3，y3)处裁切子图3(长度比例为R_L3、宽度比例为R_W3)、在位置4(x4，y4)处裁切子图4(长度比例为R_L4、宽度比例为R_W4)、在位置5(x5，y5)处裁切子图5(长度比例为R_L5、宽度比例为R_W5)、以及在位置6(x6，y6)处裁切子图6(长度比例为R_L6、宽度比例为R_W6)。其中，上述位置1-位置6的坐标可与所述第一预设规则所涉及的位置1-位置6的坐标可以相同或者不同。其中，长度比例为样本子图长度与图像长度的比例，以及宽度比例为样本子图宽度与图像宽度的比例(这两种比例可提前预设，各个样本子图的长度比例或宽度比例可相同或者不同)。也就是说，按照第二预设规则裁切(裁切操作可通过基于网格锚点(Grid anchor)的方法来执行)，只要图像上的相应的位置周围的区域满足相应尺寸，就对该区域进行裁切，而不论该区域是否具有显著性特征。由此，可得到每个图像样本的不同预设尺寸下的多个样本子图。例如，若照相机或手机拍摄的图片共计1500张(包括风景、人像、动物、建筑等多个类别图片)，按照第二预设规则平均每张照片可获得约86张样本子图(标准子图)，共计获得129000张样本子图。然后根据所述多个样本子图中的每一者的信息丰富度与构图信息，确定每个样本子图的初始美感分数(具体确定初始美感分数的过程可参见下文的描述)。

当然，在通过Grid anchor方法获得所述图像训练样本集之后，还可让11个具有摄影相关背景的标注人员分别对这129000张样本子图打分(以获得各个样本子图的初始美感分数)。具体地，可根据每个样本子图的信息丰富度与构图信息进行打分(例如，信息丰富度越高，分数越高，以及构图信息越满足美感需求，分数越高；并且还可对根据信息丰富度所得的分数与根据构图信息所得的分数进行加权融合。例如，最终得分的范围可为1分到5分的范围)，最终根据11个标注人员对每个样本子图所标注的11个分数的均值作为每个样本子图的分数(即初始美感分数)。

具体地，所述通过图像训练样本集对所述初始分数预测模型进行训练可包括：通过从所述图像训练样本集中随机选取的图像训练样本组对所述初始分数预测模型进行训练，以获取所选取的图像训练样本组中的每一者的多个第一子图的初始美感分数，其中，所述图像训练样本组包括预设数目的图像训练样本，所述多个第一子图为按照与所述多个第一样本子图的位置、长度与宽度一一对应的规则对所述图像训练样本组中的每一者进行裁切获取的，根据所述多个第一子图的初始美感分数与所述多个第一样本子图的初始美感分数，对所述初始分数预测模型中的参数进行优化；以及通过从所述图像训练样本集中随机选取的图像训练样本组对优化后的初始分数预测模型进行迭代训练和优化，直至训练过程满足所述预设停止条件为止。

为了便于描述，在本发明各个实施例中，将图像训练样本的子图称为第一子图，且将图像验证样本的子图称为第二子图。此外，上述随机选取可包括有放回的随机选取或无放回的随机选取。

其中，所述训练过程满足预设停止条件可包括：训练次数满足预设次数；或者所述多个第一子图的初始美感分数与所述多个第一样本子图的初始美感分数的差值均小于预设差值。

在获得图像训练样本集的情况下，可通过所述图像训练样本集对初始分数预测模型进行训练。具体地，首先，从图像训练样本集中随机抽取预设数目个图像样本(例如，图像训练样本组1)，将所述图像训练样本组1输入未经训练的初始分数预测模型(即最初的初始分数预测模型)中，即可获取该图像训练样本组1中的每个图像样本的多个子图(例如，图像a的多个子图与图像a的多个样本子图的位置、长度与宽度一一对应；图像b的多个子图与图像b的多个样本子图的位置、长度与宽度一一对应。这可通过将所述初始分数预测模型1中的分数预测模型的预设规则设置为第二预设规则来实现)的初始美感分数(该过程称为训练过程)。然后，根据图像训练样本组1中的每个图像样本的多个子图的初始美感分数与相应图像样本的多个样本子图的初始美感分数，对最初的初始分数预测模型中的参数进行优化(该过程称为优化过程，优化后的初始分数预测模型可称为经第一次优化的初始分数预测模型)。此时，表明第一次训练过程(包括训练与优化过程)结束。

接着，从图像训练样本集中随机抽取预设数目个图像样本(例如，图像训练样本组2)，将所述图像训练样本组2输入经第一次优化的初始分数预测模型中，即可获取该图像训练样本组2中的每个图像样本的多个子图(例如，图像c的多个子图与图像c的多个样本子图的位置、长度与宽度一一对应；图像d的多个子图与图像d的多个样本子图的位置、长度与宽度一一对应。这可通过将所述初始分数预测模型1中的分数预测模型的预设规则设置为第二预设规则来实现)的初始美感分数(该过程称为训练过程)。然后，根据图像训练样本组2中的每个图像样本的多个子图的初始美感分数与相应图像样本的多个样本子图的初始美感分数，对经第一次优化的初始分数预测模型中的参数进行优化(该过程称为优化过程，优化后的初始分数预测模型可称为经第二次优化的初始分数预测模型)。此时，表明第二次训练过程(包括训练与优化过程)结束。

再者，从图像训练样本集中随机抽取预设数目个图像样本(例如，图像训练样本组3)，并重复上述类似过程(只不过需要将上述过程中的图像训练样本组2替换为图像训练样本组3，并适应性地修改其他相应内容)，即对第二轮次训练相对应的优化后的初始分数预测模型进行训练；以此类推，不断对上一轮次训练相对应的优化后的初始分数预测模型进行训练(即迭代训练)，直至训练次数满足预设次数(或者由初始分数预测模型输出的每个图像样本的多个子图的初始美感分数与相应多个样本子图的初始美感分数的差值均小于预设差值)为止。在各个实施例中，可采用随机梯度下降法(SGD)对模型进行训练(即优化)。

在上述实施例中，初始分数预测模型仅采用图像训练样本集进行训练，虽然通过上述过程可得到输出误差较小的子图结果，但由于其仅与图像训练样本集本身的样本子图进行比较，一旦通过训练完成的初始分数预测模型对待裁切图像进行裁切，相应的输出结果可能不满足相应的预期。由此，在本实施例中，可通过与图像训练样本集不同的图像验证样本集对训练过程中的各个初始分数预测模型进行验证，以筛选出精确度和可靠性更高的初始分数预测模型。

在通过从所述图像训练样本集中随机选取的图像训练样本组对优化后的初始分数预测模型进行每次训练和优化之后，所述通过图像训练样本集对所述初始分数预测模型进行训练还可包括：通过图像验证样本集对与多个预设轮次训练相对应的优化后的初始分数预测模型进行验证，以获取所述图像验证样本集中的每一者的多个第二子图及所述多个第二子图的初始美感分数，其中，所述图像验证样本集中的每一者包括：第二图像及按照第三预设规则裁切的所述第二图像的多个第二样本子图的初始美感分数。并且，所述多个第二样本子图至少覆盖所述第二图像，所述第三预设规则可包括所述多个第二样本子图的位置为多个第三预设位置，以及所述多个第二子图为与多个第二样本子图的位置、长度与宽度一一对应的规则对所述图像验证样本组中的每一者进行预裁切获取的；以及根据所述多个第二子图的初始美感分数与所述多个第二样本子图的初始美感分数，确定所述多个预设轮次训练相对应的优化后的初始分数预测模型的准确度。

另外，在本发明各个实施例中，按照第二(或第三)预设规则对图像进行“预裁切”是指确定所述图像上的满足所述第二(或第三)预设规则的多个样本子图(即确定所述图像与多个样本子图之间的映射关系)，此时实际上并没有执行裁切动作。注意，在本发明各个实施例中，通过初始分数预测模型获取的子图/子特征图仍为整个图像/整个特征图的组成部分(其实际上并没有从整个图像/整个特征图中被裁切出来)，只有在根据目标美感分数对待裁切图像进行“裁切”时，才执行了裁切动作。下面先对图像验证样本集(其不同于图像训练样本集，训练样本集与验证样本集的样本数量比例可为9:1)进行简要说明。

以图像的中心为坐标系的原点，在所述图像上的位置1(x1’，y1’)处裁切子图1(长度比例为R’_L1、宽度比例为R’_W1)、在位置2(x2’，y2’)处裁切子图2(长度比例为R’_L2、宽度比例为R’_W2)、在位置3(x3’，y3’)处裁切子图3(长度比例为R’_L3、宽度比例为R’_W3)、在位置4(x4’，y4’)处裁切子图4(长度比例为R’_L4、宽度比例为R’_W4)、在位置5(x5’，y5’)处裁切子图5(长度比例为R’_L5、宽度比例为R’_W5)、以及在位置6(x6’，y6’)处裁切子图6(长度比例为R’_L6、宽度比例为R’_W6)。其中，长度比例为子图长度与图像长度的比例，以及宽度比例为子图宽度与图像宽度的比例(这两种比例可提前预设，各个子图的长度比例或宽度比例可相同或者不同)。由此，可得到每个图像样本的不同预设尺寸下的多个样本子图(所述多个样本子图的数量可与图像训练样本集中的多个样本子图的数量之比为1：9，当然该比值还可为其他合理的数值)。然后，根据所述多个样本子图中的每一者的信息丰富度与构图信息，确定每个样本子图的初始美感分数(具体确定初始美感分数的过程可参见下文的描述)。

当然，所述第三预设规则可与所述第二预设规则相同或者不同。具体地，所述第三预设规则中的所述多个第三预设位置与所述第二预设规则中的所述多个第二预设位置可以相同或不同。并且，也可类似于上述图像训练样本集的情形，通过人工标注的方式获取图像验证样本集的多个样本子图的初始美感分数。所述多个预设轮次可为第N轮次、第2N轮次、第3N轮次……第k*N轮次，其中N可为第一预设整数(例如16，当然可根据实际情况对N进行合理设置)，k为第二预设整数(其可根据图像训练样本集中的样本数量与N值进行设置)。

具体地，在对经第一次优化的初始分数预测模型中的参数进行优化之后，此时的初始分数预测模型为经第二次优化的初始分数预测模型(即第二轮次训练相对应的优化后的初始分数预测模型)，以此类推，在对经第N-1次优化的初始分数预测模型中的参数进行优化后，此时的初始分数预测模型为经第N次优化的初始分数预测模型(即第N轮次训练相对应的优化后的初始分数预测模型)。可将图像验证样本集输入到经第N轮次训练相对应的优化后的初始分数预测模型中，以输出每个图像样本的多个子图的初始美感分数。然后，根据所述每个图像样本的多个子图的目标美感分数与相应的多个样本子图的初始美感分数(例如，多个子图的目标美感分数与相应的多个样本子图的初始美感分数的均方误差)，确定第N轮次训练相对应的优化后的初始分数预测模型的准确度。类似地，在对经第k*N-1轮次训练相对应的优化后的初始分数预测模型中的参数进行优化之后，此时，初始分数预测模型为经第k*N次优化的初始分数预测模型(即第k*N轮次训练相对应的优化后的初始分数预测模型)。可将图像验证样本集输入到经第k*N次优化的初始分数预测模型中，以输出每个图像样本的多个子图的初始美感分数。然后，根据所述每个图像样本的多个子图的初始美感分数与相应的多个样本子图的初始美感分数(例如，多个子图的初始美感分数与相应的多个样本子图的初始美感分数的均方误差)，确定经第k*N次优化的初始分数预测模型的准确度。由此，与对各轮次训练对应的优化后的初始分数预测模型进行验证相比，本实施例，仅对多个预设轮次训练对应的优化后的模型进行验证，由此可极大地减小模型训练过程的开销，提高模型训练与验证的效率。

相应地，所述图像处理方法还可包括：从迭代训练和优化过程中得到的多个优化后的初始分数预测模型中，筛选出准确度最高的初始分数预测模型为训练完成的初始分数预测模型。

具体地，若多个优化后的初始分数预测模型中的经第i次优化的初始分数预测模型的准确度最高，则筛选该经第i次优化的初始分数预测模型为训练完成(即训练好)的初始分数预测模型。

在执行所述通过图像训练样本集对所述初始分数预测模型进行训练的步骤之前，所述图像处理方法还包括：采用基于网格锚点的方法获取所述多个第一样本子图与所述多个第二样本子图；以及根据所述多个第一样本子图中的每个第一样本子图的信息丰富度与构图信息，确定所述每个第一样本子图的初始美感分数；以及用于根据所述多个第二样本子图中的每个第二样本子图的信息丰富度与构图信息，确定所述每个第二样本子图的初始美感分数。

其中，信息丰富度可为图像中的元素及其颜色特征的丰富程度。构图信息可为图像的布局与结构(即图像中的各个元素的联结关系、组合结构)信息等。具体地，通过Gridanchor方法并采用所述第二预设规则(或第三预设规则)来获取多个第一样本子图(或第二样本子图)。其中，所述第二预设规则(或第三预设规则)包括多个第一样本子图的位置信息与尺寸信息。在获取多个第一样本子图(或第二样本子图)之后，根据各个第一样本子图(或第二样本子图)的信息丰富度与构图信息，确定各个第一样本子图(或第二样本子图)的初始美感分数。例如，可根据样本子图的信息丰富度获取相应的第一分数；根据所述样本子图的构图信息获取相应的第二分数；然后对第一分数与第二分数进行加权融合，以获取所述样本子图的初始美感分数(即标准美感分数)。

当然，在一实施例中，还可让11个具有摄影相关背景的标注人员分别对各个样本子图打分，最终根据11个标注人员对每个样本子图所标注的11个分数的均值作为每个样本子图的分数(即初始美感分数)。

本实施例创造性地采用图像训练样本对上述的初始分数预测模型进行训练，由此，本实施例可通过训练完成的初始分数预测模型对待裁切图像的多个候选子图的目标美感分数进行预测，从而通过综合考虑子图的美感因素与深度信息来实现对图像的裁切，从而极大地增强了图像的裁切效果。

综上所述，本发明创造性地首先获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数与所述待裁切图像的深度信息；接着根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数；最后根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。由此，本发明可通过综合考虑子图的美感因素与深度信息来实现对图像的裁切，从而极大地增强了图像的裁切效果。

图8是本发明一实施例提供的图像处理系统的结构图。如图8所示，所述图像处理系统包括：初始分数获取装置10，用于获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数；深度信息获取装置20，用于获取所述待裁切图像的深度信息；目标分数获取装置30，用于根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数；图像裁切装置40，用于根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。

优选地，所述初始分数获取装置10用于获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数包括：通过初始分数预测模型获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数：对所述待裁切图像的特征进行抽取，以获取所述待裁切图像的特征图及所述待裁切图像的特征图与所述待裁切图像之间的映射关系；根据所述待裁切图像的特征图及所述映射关系，获取所述目标尺寸下的多个候选子图的初始美感分数，其中，所述目标尺寸包括所述多个候选子图与所述待裁切图像的目标长度比例与目标宽度比例。

优选地，所述初始分数获取装置10用于通过初始分数预测模型获取所述目标尺寸下的多个候选子图的初始美感分数包括：按照第一预设规则裁切所述待裁切图像的特征图的多个子特征图，其中，所述多个子特征图至少覆盖所述待裁切图像的特征图，以及所述第一预设规则包括：所述多个子特征图与所述待裁切图像的特征图的长度比例与宽度比例分别为目标长度比例与目标宽度比例且所述多个子特征图的位置为多个第一预设位置；获取所述多个子特征图的初始美感分数；以及根据所述映射关系与所述多个子特征图的初始美感分数，获取与所述多个子特征图相对应的所述多个候选子图的初始美感分数。

优选地，所述目标分数预测装置30用于预测所述多个候选子图的目标美感分数包括：深度信息确定模块(未示出)，用于根据所述待裁切图像的深度信息、所述多个子特征图的位置信息及所述映射关系，确定所述多个候选子图的深度信息；深度因子确定模块(未示出)，用于根据所述多个候选子图的深度信息，确定所述多个候选子图的深度因子；以及目标分数确定模块(未示出)，用于根据所述多个候选子图的深度因子及所述多个候选子图的初始美感分数，确定所述多个候选子图的目标美感分数。

与最小深度值

及下式，确定所述候选子图i的深度因子α_i，

及下式，确定所述候选子图i的目标美感分数

优选地，所述图像裁切装置40包括：筛选模块(未示出)，用于从所述多个候选子图中筛选出目标美感分数最高的候选子图；以及裁切模块(未示出)，用于从所述待裁切图像中裁切出所述目标美感分数最高的候选子图。

本发明一实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的图像处理方法的步骤。

本发明一实施例还提供一种电子设备，所述电子设备包括：处理器；用于存储计算机程序的存储器；所述处理器，用于从所述存储器中读取所述计算机程序，并执行所述计算机程序以实现上述的图像处理方法的步骤。

本发明一实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述的图像处理方法的步骤。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种图像处理方法，其特征在于，所述图像处理方法包括：

获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数；

获取所述待裁切图像的深度信息；

根据所述多个候选子图的初始美感分数及所述待裁切图像的深度信息，预测所述多个候选子图的目标美感分数；以及

根据所述多个候选子图的目标美感分数，对所述待裁切图像进行裁切。

2.根据权利要求1所述的图像处理方法，其特征在于，

所述获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数包括：通过初始分数预测模型获取所述待裁切图像的目标尺寸下的多个候选子图的初始美感分数：

对所述待裁切图像的特征进行抽取，以获取所述待裁切图像的特征图及所述待裁切图像的特征图与所述待裁切图像之间的映射关系；根据所述待裁切图像的特征图及所述映射关系，获取所述目标尺寸下的多个候选子图的初始美感分数，其中，所述目标尺寸包括所述多个候选子图与所述待裁切图像的目标长度比例与目标宽度比例；或者，

所述对所述待裁切图像进行裁切包括：

从所述多个候选子图中筛选出目标美感分数最高的候选子图；以及

从所述待裁切图像中裁切出所述目标美感分数最高的候选子图。

3.根据权利要求2所述的图像处理方法，其特征在于，所述获取所述目标尺寸下的多个候选子图的初始美感分数包括：

按照第一预设规则对所述待裁切图像的特征图进行预裁切，以获取多个子特征图，其中，所述多个子特征图至少覆盖所述待裁切图像的特征图，所述第一预设规则包括：所述多个子特征图与所述待裁切图像的特征图的长度比例与宽度比例分别为目标长度比例与目标宽度比例且所述多个子特征图的位置为多个第一预设位置；

获取所述多个子特征图的初始美感分数；以及

根据所述映射关系与所述多个子特征图的初始美感分数，获取与所述多个子特征图相对应的所述多个候选子图的初始美感分数；或者

所述图像处理方法还包括：通过图像训练样本集对所述初始分数预测模型进行训练的步骤，

其中，所述图像训练样本集中的每一者包括：第一图像及按照第二预设规则预裁切的所述第一图像的多个第一样本子图的初始美感分数，其中，所述多个第一样本子图至少覆盖所述第一图像，以及所述第二预设规则包括所述多个第一样本子图的位置为多个第二预设位置。

4.根据权利要求3所述的图像处理方法，其特征在于，所述通过图像训练样本集对所述初始分数预测模型进行训练包括：

通过从所述图像训练样本集中随机选取的图像训练样本组对所述初始分数预测模型进行训练，以获取所选取的图像训练样本组中的每一者的多个第一子图的初始美感分数，其中，所述图像训练样本组包括预设数目的图像训练样本，所述多个第一子图为按照与所述多个第一样本子图的位置、长度与宽度一一对应的规则对所述图像训练样本组中的每一者进行预裁切获取的；

根据所述多个第一子图的初始美感分数与所述多个第一样本子图的初始美感分数，对所述初始分数预测模型中的参数进行优化；以及

通过从所述图像训练样本集中随机选取的图像训练样本组对优化后的初始分数预测模型进行迭代训练和优化，直至训练过程满足预设停止条件为止。

5.根据权利要求4所述的图像处理方法，其特征在于，对所述初始分数预测模型进行训练还包括：

通过图像验证样本集对多个预设轮次训练对应的优化后的初始分数预测模型进行验证，以获取所述图像验证样本集中的每一者的多个第二子图及所述多个第二子图的初始美感分数，其中，所述图像验证样本集中的每一者包括：第二图像及按照第三预设规则预裁切的所述第二图像的多个第二样本子图的初始美感分数，所述多个第二样本子图至少覆盖所述第二图像，所述第三预设规则包括所述多个第二样本子图的位置信息为多个第三预设位置，以及所述多个第二子图为按照与多个第二样本子图的位置、长度与宽度一一对应的规则对所述图像验证样本组中的每一者进行预裁切获取的；以及

根据所述多个第二子图的初始美感分数与所述多个第二样本子图的初始美感分数，确定所述多个预设轮次训练相对应的优化后的初始分数预测模型的准确度，

相应地，所述图像处理方法还包括：从迭代训练和优化过程中得到的多个优化后的初始分数预测模型中，筛选出准确度最高的初始分数预测模型为训练完成的初始分数预测模型。

6.根据权利要求5所述的图像处理方法，其特征在于，在执行所述通过图像训练样本集对所述初始分数预测模型进行训练的步骤之前，所述图像处理方法还包括：

采用基于网格锚点的方法获取所述多个第一样本子图与所述多个第二样本子图；

根据所述多个第一样本子图中的每个第一样本子图的信息丰富度与构图信息，确定所述每个第一样本子图的初始美感分数；以及

根据所述多个第二样本子图中的每个第二样本子图的信息丰富度与构图信息，确定所述每个第二样本子图的初始美感分数。

7.根据权利要求3所述的图像处理方法，其特征在于，所述预测多个候选子图的目标美感分数包括：

根据所述待裁切图像的深度信息、所述多个子特征图的位置信息及所述映射关系，确定所述多个候选子图的深度信息；

根据所述多个候选子图的深度信息，确定所述多个候选子图的深度因子；以及

根据所述多个候选子图的深度因子及所述多个候选子图的初始美感分数，确定所述多个候选子图的目标美感分数。

8.根据权利要求7所述的图像处理方法，其特征在于，所述确定所述多个候选子图的深度因子包括：

针对所述多个候选子图中的候选子图i，根据所述候选子图i的最大深度值