CN104134217A

CN104134217A - 一种基于超体素图割的视频显著物体分割方法

Info

Publication number: CN104134217A
Application number: CN201410366737.5A
Authority: CN
Inventors: 吴怀宇; 潘春洪; 郑荟
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-07-29
Filing date: 2014-07-29
Publication date: 2014-11-05
Anticipated expiration: 2034-07-29
Also published as: CN104134217B

Abstract

本发明公开了一种视频中显著物体的分割方法，包括：步骤1，利用超像素计算视频序列中每一帧的静态显著性得到静态显著图；步骤2，利用超像素计算视频序列中每前后两帧的光流计算每一帧的动态显著性得到动态显著图；步骤3，对静态显著图和动态显著性进行融合处理得到动静态显著图；步骤4，计算视频序列中每一帧的“类物体性”图；步骤5，计算视频序列的时空“过分割”，并将静态显著值、动态显著值和“类物体性”值分别映射到视频的时空“过分割”上；步骤6，建立关于显著性、“类物体性”以及持续性的分割能量函数，在时空“过分割”即超体素级别对每一视频帧采用迭代的“图割”来优化该能量函数对每一帧进行二元分割，得到显著的前景物体。

Description

一种基于超体素图割的视频显著物体分割方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于超体素图割的视频显著物体分割方法，该方法是基于动静态显著、类物体性以及持续性的视频显著物体分割方法。

背景技术

视频序列中显著物体的分割作为视频处理的基础，在计算机视觉的多个领域有着广泛的应用，如视频摘要，人体行为识别，视频检索，视频中物体识别，视频活动分析等。对视频序列中物体的分割的普遍性难题包括摄像机的运动，背景的运动和变化，以及前景显著物体自身的运动和形变。视频序列中显著物体的分割主要可分为非自动分割和自动分割两大类。

非自动分割：该方法需要用户的参与，用户被要求手动标注出视频首帧或是一些关键帧中的显著物体作为初始化数据，后用使用区域跟踪或是传播的方式得到视频序列每一帧的显著物体分割。该方法的缺点是手动标注繁琐而耗时，故不适于数据量较大的实际应用。

自动分割：该方法有多种实现方式：1)基于背景减除的方法：主要是对背景建模及更新，将帧与背景图像举行差分得到中差异较大的像素区域。这种方法比较不适合背景运动剧烈变化强的情况。2)基于背景减除的方法：主要是对背景建模及更新，将帧与背景图像举行差分得到中差异较大的像素区域。这种方法比较不适合背景运动剧烈变化强的情况。3)基于聚类的方法：如采用运动聚类，轨迹聚类，时空信息聚类等，但此方法不太适合物体自身运动复杂的情况，如有物体自身内部会发生运动的情况。4)基于物体提案的方法，该方法一般先把视频帧分为很多可能包含有物体的聚类，再在这些可能包含物体的聚类上处理分割，此方法的复杂度会比较高。

虽然分割已经是一个研究多年的课题，但由于视频数据的急剧增加，对视频物体自动分割的需求也随之增大。而且视频物体分割不可避免会面对背景运动和变化以及前景物体自身复杂运动和形变的不确定性及困难。因此有必要提供一种适用于普通用户使用的成本低而且便捷并具有准确性和实用性的分割视频显著物体的方法。

发明内容

为了解决现有技术的问题，本发明的目的是提供一种基于“图割(Graph cut)”的视频显著物体分割方法。

为了达成所述目的，本发明利用了物体的外观，运动，类物体性以及持续性信息的信息构造能量方程，减少了运动背景的干扰，并利用图像过分割——超像素和视频时空过分割——超体素来降低算法的复杂度。

根据本发明提出的超体素图割的视频显著物体分割方法，包括步骤：

步骤1，对视频序列中第一帧中的显著物体进行分割，该步骤进一步包括：步骤101，对该帧进行过分割得到超像素；步骤102，通过颜色特征的对比和分布来计算静态显著性图；步骤1033，通过光流的量级的对比和连续来计算动态显著性图；步骤104：融合静态显著图和动态显著图，得到动静态显著图；步骤105：计算第一帧的类物体性，计算出潜在的各个物体的ROI候选区域；步骤106，将动静态显著图和物体ROI进行融合，滤过不必要的ROI区域；步骤107，以ROI区域以及动静态显著性为弱约束，构造能量方程，用迭代的“图割”进行分割得到显著物体的估计；步骤2，对视频序列除第一帧之外的每一帧的显著物体进行分割，该步骤进一步包括：步骤201：将前一帧的估计区域作为先验传播到下一帧；步骤202：对该帧使用步骤101，102，103，105计算得到各种所需的中层特征值；步骤203：计算视频的时空过分割，构造关于外观，运动，类物体性以及持续性的能量方程，用“图割”最小化该能量方程得到显著物体分割。

本发明的有益效果：本发明用基于图像过分割——超像素利用颜色和光流的对比以及连贯性分别得到静态和动态显著图，超像素的使用降低了算法的复杂度，而不仅考虑特征对比也考虑分布的方法也降低了背景中一些与前景颜色相近的物体的干扰。类物体性的计算又进一步增加了分割的依据，提升了准确性。并且基于视频时空过分割——超体素为单位来使用“图割”方法也进一步降低了时空复杂度，加之“图割”本身是线性的复杂度，这样的运用使得算法的计算成本降低，比较实用无需专业的昂贵的设备。与传统的非自动的视频物体分割方法的不同点在于，本发明无需专业人员的手动标注，同时能实现较高质量的视频序列中显著物体分割。

附图说明

图1为本发明基于超体素图割的视频显著物体分割方法的流程图；

图2A为视频帧单帧的原始图像；

图2B为视频帧单帧的过分割，即超像素的示意图；

图3为视频帧的静态显著性的示意图；

图4为视频帧的动态显著性的示意图；

图5为视频帧的类物体性的示意图；

图6为视频帧的像素级类物体性的示意图；

图7为视频帧的融合的动静态显著性的示意图；

图8为视频显著超体素结果示意图；

图9为视频显著物体分割的结果示意图；

图10为动、静态显著图融合的结果示意图，从左到右依次为视频帧原图、动态显著性图、静态显著性图、融合得到的动静态显著图：

图11为分割结果图，最左边线条圈出的是分割区域，然后从左向右分别是动静态显著性融合图，动态显著图，静态显著图，类物体性图。

具体实施方式

下面将对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明是基于动静态显著性、类物体性以及持续性利用“图割”对视频序列中显著物体进行分割的方法。该方法分为两个阶段，对首帧的处理阶段和对每一帧的分割处理。第一阶段是对视频首帧的预处理得到首帧的显著物体区域估计，因为由于首帧时序上的局限性以及其在传播上的重要性，故对首帧进行了预处理以期望达到更为准确的结果；第二阶段是对视频帧逐一处理得到每一帧的显著物体分割，这一步骤是核心步骤，其中能量方程的设计围绕物体的外观，运动，类物体性和持续性旨在降低背景变化和物体自身形变及运动等干扰的影响。

根据本发明的方法，首先通过预处理得到首帧的显著物体区域估计，然后利用超像素计算视频序列中每一帧的静态显著性，得到静态显著图；利用超像素计算视频序列中每前后两帧的光流，计算每一帧的动态显著性，得到动态显著图；对静态显著图和动态显著性进行融合处理得到动静态显著图；计算视频序列中每一帧的类物体性图；计算视频序列的时空过分割——超体素，并将像素级别的静态显著值、动态显著值和类物体性值分别映射到视频的时空过分割上；建立关于显著性，类物体性以及持续性的分割能量函数，在时空过分割级别对每一视频帧采用“图割”来优化该能量函数对每一帧进行二元分割，得到显著的前景物体。

图1为本发明的基于超体素图割的视频显著物体分割方法。

根据本发明的视频显著物体分割方法，包含以下步骤：

步骤1，首先，对视频序列中的每一帧图像使用K-MEANS算法进行过分割得到超像素。超像素示意图如图2所示。

在该步骤，基于每一帧图像的lab颜色和位置坐标x，y的5维信息，对具有相似颜色的且较为邻近的像素进行聚类，得到单帧图像的过分割，其中lab值指lab颜色空间的3个维度，x，y为像素的横纵坐标；得到的颜色相似和空间近似的过分割。图2是过分割的示意图。由于过分割区域大多保留了进一步进行图像分割的有效信息，且一般不会破坏图像中物体的边界信息，可以直接在超像素上来对图像进行处理降低了计算成本。

步骤2，计算视频帧的静态显著图和动态显著图。

在该步骤，所述静态显著图和动态显著图都需要先计算中心周围对比的显著性图以及分布紧凑的显著性图。静态显著图首先计算的是颜色对比的显著性图和颜色一致性分布的显著性图，而最终静态显著图是两者的融合；动态显著性图也同理是由计算光流量值的对比显著性图和光流量值的运动连贯性的显著图融合得到的。

静态的颜色对比是按以下公式计算得到的：

{Cs}_{j} = Σ_{k = 1}^{N} w (p_{j}, p_{k}) \times {| | c_{j} - c_{k} | |}^{2} - - - (1)

其中，N为视频帧过分割的总数目；Cs_j为第j个超像素的静态颜色对比，j的取值范围为1到N；c_j为第j个超像素的Lab颜色平均值，c_k为第k个超像素的Lab颜色平均值，k从1取到N；p_j为第j个超像素中的所有像素的位置平均值，j的取值范围为1到N，p_k为第k个超像素的的所有像素的位置平均值，k从1取到N；w(p_j，p_k)为关于位置关系的系数，既可以设置为常数1也可以设置为随超像素之间位置关系(距离)而变化的权重，此处设置该系数为高斯权重||c_j-c_k||为c_j与c_k的差值，其差值越大Cs_j静态颜色对比就越大，对比越大就意味该超像素在颜色方面越独特。

动态的运动量级的对比公式如下：

{Cm}_{j} = Σ_{k = 1}^{N} w (p_{j}, p_{k}) \times {(1 - e^{- D (H f_{j}, H f_{k})})}^{2} - - - (2)

其中，Cm_j为第j个超像素的动态运动对比；p_j同样为第j个超像素中的所有像素的位置平均值，j的取值范围为1到N，N为视频帧过分割的总数目，p_k为第k个超像素的的所有像素的位置平均值，k从1取到N；w(p_j，p_k)为系数既可以设置为常数1也可以设置为随分割位置关系(距离)而变化的权重，此处该系数同样被设置为高斯权重；Hf_j为第j个超像素的光流量级直方图，j的取值范围为1到N，Hf_k为第k个超像素的光流量级直方图，k从1取到N，本文算法所涉及的光流量级直方图深度均为2，即第一层是横坐标方向的光流量级直方图，第二层是纵坐标方向的光流量级直方图，这样的直方图设置不仅考虑了光流量级即运动大小的分布，同时也在一定程度上考虑了运动方向；D(Hf_j，Hf_k)为光流量级直方图Hf_j与Hf_k的卡方距离，由于卡方距离的取值范围为0到正无穷，在此故利用了负指数函数将0到正无穷的卡方距离映射0到1，以便于计算，这样就，光流量级直方图Hf_j与Hf_k的卡方距离越大，Cm_j动态运动对比也越大，对比越大就意味着该超像素在运动强度方面越独特。

静态的分布紧凑变化度的计算公式如下：

D s_{j} = Σ_{k = 1}^{N} w (c_{j}, c_{k}) \times {| | p_{k} - μ c_{j} | |}^{2} - - - (3)

其中，Ds_j为第j个超像素的静态分布紧凑变化度，第j个超像素在空间上的变化越低，Ds_j值则越低即该超像素在空间上更紧凑；w(c_j，c_k)为关于超像素间颜色相似性的系数，既可以设置其为常数1，也可以设置其为随超像素颜色相似性变化的权重，此处设置该系数为高斯权重p_k为第k个超像素的所有像素位置的平均值；N为视频帧过分割的总数目；而μc_j表示与第j个超像素具有相似颜色的超像素的位置平均值。

动态的运动连续变化度的计算公式如下：

D m_{j} = Σ_{k = 1}^{N} w ({Hf}_{j}, {Hf}_{k}) \times {| | p_{k} - μ m_{j} | |}^{2} - - - (4)

其中，Dm_j为第j个超像素的动态运动连续变化度；w(Hf_j，Hf_k)为关于超像素间运动量级直方图相似性的系数， Hf_j为第j个超像素的光流量级直方图，Hf_k为第k个超像素的光流量级直方图，D(Hf_j，Hf_k)为光流量级直方图Hf_j与Hf_k之间的卡方距离，光流量级直方图Hf_j与Hf_k越不相似，w(Hf_j，Hf_k)的值就越大；而

μ m_{j} = Σ_{k = 1}^{N} w (H f_{j}, H f_{k}) \times p_{k},

μm_j表示具有与Hf_j相似光流量级直方图的过分割的位置的平均值，其中p_k为第k个超像素的所有像素位置的平均值。

静态显著图Ss由静态的颜色对比Cs和静态的分布紧凑度Ds融合，融合公式为：

{Ss}_{j} = {Cs}_{j} \times e^{- {Ds}_{j}} - - - (5)

其中，Ss_j为第j个超像素的静态显著性，Cs_j为第j个超像素的静态颜色对比，Ds_j为第j个超像素的静态分布紧凑变化度；Cs_j越大且Ds_j越小，则Ss_j值越大。

动态显著图Sm由动态的运动对比Cm和动态的运动连续度Dm融合，融合公式为：

{Sm}_{j} = {Cm}_{j} \times e^{- {Dm}_{j}} - - - (6)

其中，Sm_j为第j个超像素的动态显著性，Cm_j为第j个超像素的动态运动对比，Dm_j为第j个超像素的动态运动连续变化度；Cm_j越大且Dm_j越小，则Sm_j值越大。

视频帧的静态显著性的示意图如图3所示，而是视频帧的动态显著性的示意图如图4所示。

步骤3，执行静态显著图与动态显著图的融合。

在该步骤采取的策略是，静态显著性图Ss与动态显著性图Sm互为补充，由于人类注意力更容易被运动所吸引，故具有很高的运动显著性的区域保留，而没有很高的运动显著性的区域很可能是光流算法或是背景运动带来的噪音，它们需要与静态显著图结合来考量，融合公式如下：

{Sal}_{j} = \{\begin{matrix} {Sm}_{j}, {Sm}_{j} &GreaterEqual; Ts \\ {Sm}_{j} \times {Ss}_{j}, 0.5 \leq {Sm}_{j} > Ts \\ {Sm}_{j}^{2} \times {Ss}_{j}, {Sm}_{j} < 0.5 \end{matrix} - - - (7)

其中，Sal_j为第j个超像素的动、静态显著性融合所得到的动静态显著值，Ss_j为第j个超像素的静态显著性值，Sm_j为第j个超像素的动态显著性值。而Ts为设置得很高的阈值，之所以本文对Ts进行了很高的阈值的设置，此处Ts设置为0.8，首先是考虑了运动优先的原则，保留那些具有极高运动显著性的区域；其次，是为了使那些具有模棱两可的运动显著性值的区域能够得到静态显著性的修正，减少光流噪声和摄像机镜头运动所带来的影响；最后，在运动显著性很小的情况下增加运动显著性的影响使得其抑制背景中的显著物体的对前景显著物体的干扰。

图7为视频帧的动态显著图的静态显著性融合得到的动静态示意图。

步骤4，计算视频帧的类物体性。

在该步骤，首帧类物体性的计算结果会略有不同，除了每一帧都要计算的得到的像素级的类物体性图，视频序列还希望的到类似物体候选的ROI区域，在这里的输入除了包括此前得到颜色对比和超像素还输入使用Canny算子检测得到的边界信息。这三个输入都与物体息息相关，其中颜色对比代表着前景物体颜色与背景的对比；而超像素的每一个过分割都代表着保留着边界信息的色彩同治区域，因此一个过分割属于同一物体的可能性极大；另外，边界也同样是物体的重要属性。而后使用基于贝叶斯模型的类物体检测器来得到最终的可能包括物体的候选ROI区域Ro及其类物体值O，而中间结果得到的概率则输出像素级的类物体性图。

图5为视频帧的类物体性的ROI示意图，而图6为视频帧的像素级别的类物体性的示意图。

步骤5，类物体性候选ROI区域的筛选。

在该步骤，首先，要对动静态显著图进行处理，以0.5为阈值，大于等于0.5的区域保留，其它的舍弃，得到显著性大于0.5的显著图R_h，为了方便之后的操作，需要将得到的阈值显著图二值化。本发明采用的是利用漫水填充算法来将图像连接域填充为1，后将余下区域设置为0。得到二值化的阈值显著图后，在对其进行形态学的开操作，即先腐蚀、后膨胀处理，以去除面积较小的明亮区域，减少噪音的干扰。

其后，对于联通区域R_S，拟合覆盖它们的ROI区域：通过横向和纵向的扫描，找到连通区域R_S的最左点，最右点，最高点以及最低点，((x_l，y_l)，(x_r，y_r)，(x_u，y_u)，(x_d，y_d))，其中x_l，y_l为最左端点的横纵坐标，x_r，y_r为最右端点的横纵坐标，x_u，y_u为最上端的点的横纵坐标，x_d，y_d为最下端的点的横纵坐标。而拟合的覆盖其的ROI区域R_S的4个顶点坐标(逆时针方向)为((x_l-0.05(x_r-x_l)，y_u)，(x_l-0.05(x_r-x_l)，y_d)，(x_r+0.05(x_r-x_l)，y_d)，(x_r+0.05(x_r-x_l)，y_u))，在这里在左右都拓宽了5％，上下也增长了5％，其中x_l-0.05(x_r-x_l)，y_u为拟合的ROI矩形区域左上端点的横纵坐标，x_l-0.05(x_r-x_l)，y_d为矩形左下端点的横纵坐标，x_r+0.05(x_r-x_l)，y_d为矩形右下端点的横纵坐标，x_r+0.05(x_r-x_l)，y_d为右上端点的横纵坐标，。

之后做得就是对包括物体的候选ROI区域Ro的初步筛选，首先对计算每一个可能包括物体的候选ROI区域Ro与Rs相交的区域面积，并计算其与自身面积的对比，该比例应大于阈值To；除了考虑Ro_j对显著值的候选区域和显著区域交集，还有一个筛选标准就是，希望其能尽可能包围显著区域，而这里要求计算候选Ro_j与Rs相交的区域面积与Rs的面积比大于阈值Ts，如下式所示：

R＝{Ro_j|area(Ro_j∩Rs)÷area(Ro_j)＞To∧area(Ro_j∩Rs)÷area(Rs)＞Ts} (8)

其中，R为上式所筛选出的Ro_i区域的集合，Ro_i表示第i个候选ROI区域area(Ro_i∩Rs)表示候选ROI区域Ro_i与显著区域Rs相交的区域的面积大小，area(Ro_i)表示候选ROI区域Ro_i的面积大小，area(Rs)表示候选显著区域Rs的面积大小，To和Ta皆为阈值；这一步的筛选主要是为了排除一些明显不符合标准的候选区，以减少下一步更加精细的筛选的计算量。

最后，对筛选后的R中每一个候选ROI区域，计算完成在其区域内的超像素集合In的显著值分布直方图Hin，并计算围绕着In的在其区域外或一部分在其区域外的超像素集合Su的显著值Sal分布直方图Hsu，并计算与Su集合相邻的处于In集合的最外圈的超像素集合Bu的显著值Sal分布直方图Hbu；后计算Hin和Hsu的对比，以及Hsu与Hbu的对比，由于ROI内超像素与围绕超像素的显著性值分布差别越大说明物体在其区域内的可能性越大，而内圈与围绕超像素的显著值性分布差别越大说明其区域与物体边界契合得越好。最后，本算法将选择具有最大差别值Diff所对应的ROI区域为最终的候选ROI区域，Diff值的计算公式如下式所示：

Diff_j＝(1-e^{-D(Hsu，Hin)})+α(1-e^{-D(Hsu，Hbu)})² (9)

其中，Diff_i表示第i个候选ROI区域的差别值；Hin_i表示第i个候选ROI区域内的超像素集合In的显著性值分布直方图；Hsu_i表示围绕着第i个候选ROI区域内的超像素集合In的超像素集合Su的显著性值分布直方图，这些超像素在第i个候选ROI区域外或一部分在区域外；Hbu_i表示第i个候选ROI区域内与Su集合直接相邻的，即处于In集合的“最外圈”的超像素集合Bu的显著性值分布直方图。由于卡方距离的范围为0到正无穷，而1-e^{-D(Hsu，Hin)}和1-e^{-D(Hsu，Hbu)}的范围都在0到1，由于物体形状并非规则的矩形，因此边界契合的重要性比较低，所以对第二项对比进行了平方处理并且乘以小于1的系数α。选取R中具有最大的Diff值的ROI候选区域为最终估计的ROI区域。

步骤6，首帧的显著物体分割工作。

为了分割得到首帧的显著物体，下面要做的是构建能量方程：

E(X)＝A(X)+O(X)+AC(X)+OC(X) (10)其中，E(X)为以超像素为单位的能量方程，X为超像素集合，A(X)为物体外观(appearance)一元项，O(X)为类物体性(objectness)一元项，AC(X)为颜色二元项，OC(X)为类物体性二元项。

A(X)是关于物体外观(appearance)的一元项，首先对首帧要聚类两个RGB颜色高斯混合模型(GMM)，其中一个GMM是上一步得到的融合的动静态显著性大于0.5的区域R_h求其高斯混合模型FG，一个GMM是针对余下区域的背景模型BG。由于GMM可根据数据来推算概率密度，即可以做密度估计(density estimation)，因此这里GMM的作用是推算出给定超像素成为一个前景或背景的概率的大小。若一个过分割和前景很匹配，却被标记为背景(标记背景为0，前景为1)即0的话，其惩罚值就会很大：

其中，A(X)为物体外观一元项，为对超像素x_i的标注(标注0为背景，1为前景)，为势能函数(potential functions)，p(x_i∈FG)，p(x_i∈BG)分别为超像素x_i属于前景FG的概率，及其属于背景BG的概率。

而O(X)是关于类物体性(objectness)的一元项，视上一步最终得到的ROI外的视为背景，而ROI内为可能的物体，同理，为其计算objectness的GMM模型，该类物体性(objectness)一元项设计与外观(appearance)一元项类似：

O (X) = Σ_{x_{i} &Element; X} ω_{x_{i}} (l_{x_{i}}) - - - (14)

ω_{x_{i}} (l_{x_{i}} = 0) = - \log (p (x_{i} &Element; OBJ)) - - - (15)

ω_{x_{i}} (l_{x_{i}} = 1) = - \log (p (x_{i} &Element; OBG)) - - - (16)

其中，O(X)为物体外观一元项，为对超像素x_i的标注(标注0为背景，1为前景)，为势能函数(potential functions)，p(x_i∈OBJ)，p(x_i∈OBG)分别为超像素xi属于可能的物体OBJ的概率，及其属于物体外的背景OBG的概率。

而二元项的设置则是关注过分割与过分割的关系，是对邻域过分割之间互相不连续的代价和惩罚，如果两邻域过分割差别很小，那么它属于同一个目标或者同一背景的可能性就很大，如果他们的差别很大，那说明这两个过分割很有可能处于目标和背景的边缘部分，则被分割开的可能性比较大，所以当两邻域过分割差别越大，能量越小。

首先是关注外观颜色不连续惩罚的二元项AC(X)，且其距离越大这种不连续差异带来的影响会削弱，其公式如下：

AC (X) = δ (l_{x_{i}} &NotEqual; l_{x_{j}}) K_{ij} - - - (17)

K_{ij} = γ \frac{1}{dist (x_{i}, x_{j})} \exp (- βdcor {(x_{i}, x_{j})}^{2}) - - - (18)

其中，AC(X)为颜色二元项，为K_ij的系数，为1，为0，dist为两个超像素中点之间的欧几里德距离，dcor为过分割的颜色平均值的差值，γ和β为系数。

同理，关注类物体性的不连续惩罚的二元项OC(X)与颜色二元项类似，这里首先需要用到第4步所计算的像素级类物体性图，而后将像素级的类物体性值按照位置一一映射到过分割上；二元项OC(X)公式如下：

OC (X) = δ (l_{x_{i}} &NotEqual; l_{x_{j}}) K_{ij} - - - (19)

K_{ij} = γ \frac{1}{dist (x_{i}, x_{j})} \exp (- βdobj {(x_{i}, x_{j})}^{2}) - - - (20)

其中，OC(X)为类物体性二元项，为K_ij的系数，为1，为0，dist为两个超像素中点之间的欧几里德距离，dobj为过分割的类物体值的差值，γ和β为系数。

在建立了该能量方程之后，t-link(结点与终端节点的连接)和n-link(结点之间的连接)都确立了，便有了“图割”所需的图，可以使用“图割”最小化能量方程来进行分割了。在这里使用类似于Grab cut的迭代的思想，每次迭代过程都使得对目标和背景建模的GMM的参数更优，使得图像分割更优。从而，最终可得到首帧的显著物体分割。

步骤7，将每一帧的静态显著性、动态显著性和类物体性映射到视频的时空过分割：

这一步首先采用supervoxel方法对视频进行视频的时空过分割，得到supervoxel，即超体素；而后将经第1步和第2步得到静态显著性，动态显著性，以以及像素级的类物体性按照位置一一映射到supervoxel过分割，并分别计算每个supervoxel的所包括的所有像素的静态显著性，动态显著性和类物体性的平均值作为这个supervoxel的静态显著性值，动态显著性和类物体性值。

图8为视频的显著超体素过分割结果示意图。

步骤8，每一帧的显著物体分割。

为了分割得到首帧后的每一帧的显著的物体，下面我们要做的依然是构建能量方程，不过这里的能量方程和首帧的能量方程略有不同，其方程如下：

EF(V)＝AF(V)+ACF(V)+OCF(V)+PCF(V) (21)其中，EF(V)为以supervoxel为单位的能量方程，V为supervoxel集合(即超体素集合)，AF(V)为物体外观(appearance)一元项，ACF(V)为颜色二元项，OCF(V)为类物体性二元项，PCF(V)为持续性二元项。

其中AF(V)依然是关于物体外观(appearance)的一元项，其定义与式(10)中A(X)定义相似。首先假设两帧之间的显著物体的运动是流畅而平缓的，这里利用在计算动态显著性时得到的光流，将前一帧分割的得到的显著物体利用光流的方向和速度来计算显著物体区域内每一个像素的位移，并计算其在下一帧的位置。为了加快算法的速度，图的节点的单位是视频的时空聚类——超体素(supervoxel)而非在像素级操作，这里就把所有包括了上一帧所传播的像素的时空过分割——超体素的集合作为可能的前景显著物体，余下区域为背景。对这两个区域分别聚类两个RGB颜色高斯混合模型(GMM)，建立前景模型FG和背景模型BG。其公式如下：

其中，AF(X)为物体外观一元项，为对时空过分割——超体素v_i的标注(标注0为背景，1为前景)，为势能函数，p(v_i∈FG)，p(v_i∈BG)分别为v_i属于前景FG的概率及其属于背景BG的概率。

而二元项ACF(V)的设置与式(10)中AC(X)设置几乎一致，不同是只是图的节点不再是超像素(superpixel)而是超体素(supervoxel)，其中dcor表示时空过分割——超体素的所有像素的颜色平均值的差值，其公式如下：

ACF (V) = δ (l_{v_{i}} &NotEqual; l_{v_{j}}) K_{ij} - - - (25)

K_{ij} = γ \frac{1}{dist (v_{i}, v_{j})} \exp (- βdcor {(v_{i}, v_{j})}^{2}) - - - (26)

其中，ACF(V)外观颜色二元项，为K_ij的系数，为1，为0，dist为时空过分割即超体素中点之间的欧几里德距离，dcor为两个时空过分割超体素的颜色平均值的差值，γ和β为系数。

同理，二元项OCF(V)的设置与式(10)中OC(X)设置几乎一致，这里首先需要用到第4步所计算的像素级类物体性图，而后将像素级的类物体性值按照位置一一映射到过分割上，其中dobj为领域超体素的平均类物体值的差值，其公式如下：

OCF (V) = α (l_{v_{i}} &NotEqual; l_{v_{j}}) K_{ij} - - - (27)

K_{ij} = γ \frac{1}{dist (v_{i}, v_{j})} \exp (- βdobj {(v_{i}, v_{j})}^{2}) - - - (28)

其中，OCF(V)为类物体性二元项，为K_ij的系数，为1，为0，dist为时空过分割中点之间的欧几里德距离，dobj为超体素的类物体值的差值，γ和β为系数。

由于假设视频中的显著物体在帧间的运动流畅而平缓，即其具有持续性(Persistence)，故设计了关于持续性的二元项PCF(V)，关注于时序的帧间的过分割的连续性。若把将与上一帧连续性很高且外观很相似的超体素与其对应上一帧的过分割标注不同，其受到的惩罚较大；反之，若前后两帧间连续性很高且外观很相似的超体素得到了相同的标注，则其受到的惩罚较小。两个超体素的连续程度由前帧某超体素中像素按光流计算位移到下一帧某超体素中的像素数目的总数除以该超体素(前者)的像素总数得到的比例表示，该比列由pers表示。其公式如下：

PCF (V) = δ (l_{v_{i}} &NotEqual; l_{v_{j}^{'}}) K_{ij} - - - (29)

K_{ij} = γpers (v_{i}, v_{j}^{'}) \exp (- βdcor {(v_{i}, v_{j}^{'})}^{2}) - - - (30)

其中，PCF(V)为持续性二元项，且下式中v表示当前帧的超体素，v’表示当前帧的前一帧中的超体素，为K_ij的系数，为1，为0，dcor为两个超体素的颜色平均值的差值，γ和β为系数，pers(v_i，v′_j)计算前后帧的两个超体素的连续程度，由前帧的时空过分割v′_j中像素按光流计算位移到下一帧过分割v_i中的像素总数除以v′_j中的像素总数得到的比例表示。

在建立了该能量方程之后，t-link(结点与终端节点的连接)和n-link(结点之间的连接)都确立了，便有了“图割”所需的图，可以使用“图割”最小化能量方程来进行分割了。在这里使用类似于Grab cut的迭代的思想，每次迭代过程都使得对目标和背景建模的GMM的参数更优，使得图像分割更优。从而，可得到每一帧的显著物体分割。图9为视频帧中的显著物体的图割结果示意图。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种超体素图割的视频显著物体分割方法，该方法包括以下步骤：

步骤1，对视频序列中第一帧中的显著物体进行分割，该步骤进一步包括：

步骤101，对该帧进行过分割得到超像素；步骤102，通过颜色特征的对比和分布来计算静态显著性图；步骤103，通过光流的量级的对比和连续来计算动态显著性图；步骤104，融合静态显著图和动态显著图，得到动静态显著图；步骤105，计算第一帧的类物体性，计算出潜在的各个物体的ROI候选区域；步骤106，将动静态显著图和物体ROI进行融合，滤过不必要的ROI区域；步骤107，以ROI区域以及动静态显著性为弱约束，构造能量方程，用迭代的“图割”进行分割得到显著物体的估计；

步骤2，对视频序列除第一帧之外的每一帧的显著物体进行分割，该步骤进一步包括：

步骤201，将前一帧的估计区域作为先验传播到下一帧；步骤202：对该帧使用步骤101，102，103，104，105计算得到各种所需的中层特征值；步骤203，计算视频的时空过分割，构造关于外观、运动、类物体性以及持续性的能量方程，用“图割”最小化该能量方程得到显著物体分割。

2.如权利要求1所述的方法，其特征在于，所述步骤101进一步包括：基于每一帧图像的lab颜色和位置x，y的信息对具有相似颜色的且较为邻近的像素进行聚类，得到单帧图像的过分割，即超像素，其中lab值指lab颜色空间的3个维度，x，y为像素的横纵坐标。

3.如权利要求1所述的方法，其特征在于，步骤102，103进一步包括：所述静态显著图和动态显著图都需先计算中心周围对比的显著性图以及分布紧凑的显著性图，静态显著图首先计算的是颜色对比的显著性图和颜色一致性分布的显著性图，而最终静态显著图是两者的融合；动态显著性图也是由计算光流量值的对比显著性图和光流量值的运动连贯性的显著图融合得到的。

4.如权利要求1所述的方法，其特征在于，步骤104进一步包括：分析动态显著图和静态显著图各自的优点和不足，采用阈值控制以分段函数来融合静态显著图和动态显著图，得到动静态显著图。

5.如权利要求1所述的方法，其特征在于，步骤105进一步包括：使用类物体性检测器检测该帧是否是物体的ROI区域。

6.如权利要求1所述的方法，其特征在于，步骤106进一步包括：利用ROI区域对动静态显著区域的覆盖程度来过滤掉一些类物体ROI候选，筛选可能包含显著物体的ROI区域。

7.如权利要求1所述的方法，其特征在于，步骤107中，建立关于ROI区域以及动静态显著图的能量方程，使用迭代的“图割”优化使该能量方程最小，最小化分割代价。

8.如权利要求1所述的方法，其特征在于，步骤201中，前一帧得到的显著物体分割区域将以光流的运动方向和量级为基础估计位移，传播到下一帧。

9.如权利要求1所述的方法，其特征在于，步骤202中，基于显著性，颜色对比，边缘检测信息，计算像素级别的类物体性图。

10.如权利要求1所述的方法，其特征在于，步骤203中，构造能量方程进一步包括基于步骤202传播的前一帧的先验估计构造持续性二元项，基于动静态显著性图构造物体外观一元项，基于外观颜色构造关于颜色连续性的二元项，基于类物体性构造关于物体的二元项；最后依然使用迭代的“图割”优化使该能量方程最小，最小化分割惩罚，从而得到二元分割。