Nothing Special   »   [go: up one dir, main page]

CN102799646A - 一种面向多视点视频的语义对象分割方法 - Google Patents

一种面向多视点视频的语义对象分割方法 Download PDF

Info

Publication number
CN102799646A
CN102799646A CN201210222728XA CN201210222728A CN102799646A CN 102799646 A CN102799646 A CN 102799646A CN 201210222728X A CN201210222728X A CN 201210222728XA CN 201210222728 A CN201210222728 A CN 201210222728A CN 102799646 A CN102799646 A CN 102799646A
Authority
CN
China
Prior art keywords
mrow
msub
msubsup
sigma
mfrac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210222728XA
Other languages
English (en)
Other versions
CN102799646B (zh
Inventor
朱仲杰
王玉儿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Wanli College
Original Assignee
Zhejiang Wanli College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Wanli College filed Critical Zhejiang Wanli College
Priority to CN201210222728.XA priority Critical patent/CN102799646B/zh
Publication of CN102799646A publication Critical patent/CN102799646A/zh
Application granted granted Critical
Publication of CN102799646B publication Critical patent/CN102799646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种面向多视点视频的语义对象分割方法,特点是包括了视觉特征提取、统计建模、参数估计、标记与区域合并四个步骤;优点是专门针对多视点视频,充分利用了多视点视频中颜色、对比度、空间频率运动等综合视觉特征,采用基于统计建模的方法对多视点视频进行语义对象分割,可以获得比较准确的分割结果,能有效降低过分割或欠分割现象,有效提高分割结果的主观视觉感知匹配性。

Description

一种面向多视点视频的语义对象分割方法
技术领域
本发明涉及一种多视点视频的处理技术,尤其是涉及一种面向多视点视频的语义对象分割方法。
背景技术
多视点视频(MVV)是一种能够提供多个视点视频信息和能够实现立体感知的新型视频。不同于传统的单目视频,多视点视频是使用多个摄像机从不同位置拍摄同一场景,记录同一时刻多个视点的视频信号,可以提供真实三维世界景物的深度信息。在显示时可以根据观看者的位置提供不同视点或者同时提供多个视点的视频信息,并根据需要可以实现立体感知。多视点视频在未来自由视点电视、立体电视、虚拟现实、机器视觉、远程医疗等领域将有着广泛的应用前景,被认为是未来视频技术的一个重要发展方向。语义对象分割是指按照一定的标准将视频内容分割成具有一定意义的语义对象。语义对象分割是对象基视频编码、基于内容的视频检索等多媒体应用领域中的关键技术,也是当前国内外图像视频处理领域的研究前沿。虽然国内外有很多学者从事图像与视频目标分割算法的研究,相关的图像与视频目标分割算法也很多,但目前面向多视点视频的语义对象分割方法还很少,通常是采用现有的图像与视频目标分割方法,如基于Graphcut的方法[1]、基于JSEG的方法[2]和基于C-V活动轮廓模型的方法[3]等(参考文献:[1]Y.Deng,B.S.Manjunath,“Unsupervised segmentation of color-texture regions in images andvideo”,IEEE trans.on PAMI,vol.23,no.8,pp.800-810,May 2001;[2]J.Shi,J.Malik,“Normalized Cuts and image segmentation”,IEEE Trans.on PAMI,vol.22,no.8,pp.888-905,Aug.2000;[3]G.P.Zhu,and Q.S.Zeng,“Image Segmentation based on ActiveContour Model,”Harbin Institute of Technology.October 2007),将这些方法直接应用到多视点视频中,但这些方法分割结果不够准确、分割效果不理想,容易造成过分割或欠分割现象,主观视觉感知匹配性较差。
发明内容
本发明所要解决的技术问题是提供一种可获得更准确的分割结果,能有效降低过分割或欠分割现象,能有效提高分割结果的主观视觉感知匹配性的面向多视点视频的语义对象分割方法。
本发明解决上述技术问题所采用的技术方案为:一种面向多视点视频的语义对象分割方法,包括以下步骤:
(1)、视觉特征提取:对图像中的每个像素分别提取像素灰度值、8-邻域灰度均值、对比度敏感度、空间频率、二维空间坐标的特征分量,即映射后的每个像素可以用一个六维的特征矢量来表示,图像中所有像素映射后的矢量全体构成一个六维的特征空间I,表示为I={Pl},Pl表示第l个像素的六维特征矢量,表示为
Figure BDA00001814577800021
l=0,1,..,N,其中N表示图像中像素的总个数,xl,yl表示第l个像素的位置坐标,gl表示第l个像素的灰度值,
Figure BDA00001814577800022
表示第l个像素的8-邻域灰度均值,fl表示第l个像素空间频率,
Figure BDA00001814577800023
表示第l个像素的对比度敏感度,
Figure BDA00001814577800024
的计算方法为 c f l = 2.6 ( 0.192 + 0.114 f l ) e [ - ( 0.114 f l ) 1.1 ] ;
(2)、统计建模:将特征空间I用有限混合模型表示为Θ={K,ω,θ}表示模型的参数,其中K表示混合成分的数量,ω={ωi|i=1,…,K}表示K个混合成分的混合系数,θ={θi|i=1,…,K}表示K个混合成分的模型参数,X表示像素的特征矢量分布的随机矢量,Si表示第i个混合成分,θi表示第i个混合成分的模型参数,ωi表示第i个混合成分的混合系数,P(X|Sii)表示具有相似视觉特征的第i类像素所对应的混合成分的概率密度函数,将有限混合模型的各类像素所对应的混合成分均视为服从高斯分布,则P(X|Sii)可以表示为 P ( X | S i , θ i ) = 1 ( 2 π ) d / 2 det ( Σ i ) 1 / 2 exp ( - 1 2 ( X - μ i ) T Σ i - 1 ( X - μ i ) ) , μi和∑i分别表示X的均值和X的方差矩阵,det(∑i)表示∑i的行列式,d表示X的维数,此时模型的参数为Θ={K,ωii,∑i|i=1,…,K};
(3)、参数估计:采用极大似然估计法估计模型的参数,
Figure BDA00001814577800031
其中,L(I,Θ)=-∑logP(X |I,Θ)表示目标函数,参数估计的具体步骤如下:
a、提取深度图,对深度图采用分水岭算法进行预分割,统计分割区域数量,作为初始K值;
b、采用EM算法进行模型的参数估计,迭代进行E步和M步,直到满足收敛条件,在E步,计算第l个像素Xl来自第i个混合成分Si的后验概率:
P ( S i , μ i ( k ) , Σ i ( k ) | X l ) = ω i ( k ) P ( X l | S i , μ i ( k ) , Σ i ( k ) ) Σ m = 1 K ω m ( k ) P ( X l | S m , μ m ( k ) , Σ m ( k ) ) ( i = 1 , . . . , K ; l = 1 , . . . . , N )
其中,Xl表示第l个像素的特征矢量,k表示迭代次数,
Figure BDA00001814577800033
分别表示第k次迭代计算得到的μi、ωi和∑i
在M步,基于E步得到的后验概率,更新模型的参数:
ω i ( k + 1 ) = 1 N Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
μ i ( k + 1 ) = Σ j = 1 N X l P ( S i , μ i ( k ) , Σ i ( k ) | X l ) Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
Σ i ( k + 1 ) = Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l ) ( X l - μ i ( k + 1 ) ) ( X l - μ i ( k + 1 ) ) T Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
其中,
Figure BDA00001814577800037
分别表示第k+1次迭代计算得到的μi、ωi和∑i
c、当EM算法收敛后,执行合并操作,具体步骤如下:
对任意两个混合成分Si和Sj,计算二者的相似度Mij,计算公式为Mij=τDkl(I,Sij)+(1-τ)Dkl(Si,Sj),1≤i≤K,1≤j≤K,其中τ表示加权系数,设置为τ=0.5,Sij表示Si与Sj的和,表示将混合成分Si与混合成分Sj所各自对应的图像像素进行合并,合并后的像素全体属于同一个混合成分,记为Sij,将上述公式中的Dkl(I,Sij)表示为Dkl(I,Si),Dkl(I,Si)表示第i个混合成分Si与图像的局部概率密度函数P(X|I,θi)之间的Kullback-Leibler距离,用来衡量第i个混合成分Si与有限混合模型全体数据之间的匹配性,Dkl(Si,Sj)表示第i个混合成分Si与第j个混合成分Sj之间的Kullback-Leibler距离,用来衡量两个混合成分Si与Sj所对应的概率分布之间的的差异,其中Dkl(I,Si)与Dkl(Si,Sj)的定义如下:
D kl ( I , S i ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | I , θ i )
D kl ( S i , S j ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | S j , θ j )
其中,P(X|I,θi)表示与P(XSii)相对应的图像局部的采样密度,其计算方式如下:
P ( X | I , θ i ) = Σ l = 1 N δ ( X - X l ) P ( S i , θ i | X l ) Σ l = 1 N P ( S i , θ i | X l )
其中,δ(X-Xl)表示单位脉冲函数,当X-Xl=0时,δ(X-Xl)=1,否则δ(X-Xl)=0;P(Sii|X)表示P(X|Sii)的后验概率,其计算方法如下:
P ( S i , θ i | X ) = ω i P ( X | S i , θ i ) Σ i = 1 K ω i P ( X | S i , θ i )
而P(Sii|Xl)则表示第l个像素属于第i个混合成分Si的后验概率;
根据Mij计算阈值Tm,Tm的计算方法如下:
Figure BDA00001814577800045
将计算出的每一个Mij分别与Tm进行比较,如果Mij大于阈值Tm,则将Si与Sj进行合并,认为Si与Sj的数据属于同一个混合成分,此时将混合成分的数量K的值减1,当所有的Mij与Tm进行比较完成后,K值就表示合并后的混合成分的最终数量;
(4)、标记与区域合并:模型的参数估计结束后,计算各个像素属于各混合成分类的后验概率,基于后验概率对图像进行标记,即对第l个像素Xl,如果
Figure BDA00001814577800051
1≤P≤K,l=0,1,...,N,则将像素Xl标记为第i类,其中p是表示混合成分的数量的一个变量,
Figure BDA00001814577800052
表示使ωpP(Spp|Xl)取最大值时p的值,基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域,对上述分割结果基于运动信息进行进一步的区域合并,具体步骤如下:首先利用帧差法提取二值运动掩模图像,用OB(x,y)表示,OB(x,y)=1表示运动区域,OB(x,y)=0表示静止区域,设Os(s=0,1,…,Q)表示基于统计建模的分割结果,Q表示区域数量,令Ns表示区域Os的大小,定义其运动活动性αsB如下:(s=0,1,…,Q),比较每个区域与其临域的运动活动性,选取运动活动性之差最小的两个区域进行合并,然后计算合并后的新的区域的运动活动性,然后再次进行领域搜索与合并,直到最后所有领域的运动活动性之差大于实际给定的阈值αT,阈值αT设置为0.5,最后对合并后的对象进行形态后处理运算,即得到最终的语义分割结果。
与现有技术相比,本发明的优点在于专门针对多视点视频,充分利用了多视点视频中颜色、对比度、空间频率运动等综合视觉特征,采用基于统计建模的方法对多视点视频进行语义对象分割,可以获得比较准确的分割结果,能有效降低过分割或欠分割现象,有效提高分割结果的主观视觉感知匹配性。
附图说明
图1为标准测试序列原图像;
图2为基于JSEG方法的分割结果;
图3为基于Graph cut方法的分割结果;
图4为基于C-V活动轮廓模型的分割结果;
图5为本发明的分割结果。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
一种面向多视点视频的语义对象分割方法,包括以下步骤:
(1)、视觉特征提取:对图像中的每个像素分别提取像素灰度值、8-邻域灰度均值、对比度敏感度、空间频率、二维空间坐标的特征分量,即映射后的每个像素可以用一个六维的特征矢量来表示,图像中所有像素映射后的矢量全体构成一个六维的特征空间I,表示为I={Pl},Pl表示第l个像素的六维特征矢量,表示为
Figure BDA00001814577800061
l=0,1,..,N,其中N表示图像中像素的总个数,xl,yl表示第l个像素的位置坐标,gl表示第l个像素的灰度值,
Figure BDA00001814577800062
表示第l个像素的8-邻域灰度均值,fl表示第l个像素空间频率,
Figure BDA00001814577800063
表示第l个像素的对比度敏感度,
Figure BDA00001814577800064
的计算方法为 c f l = 2.6 ( 0.192 + 0.114 f l ) e [ - ( 0.114 f l ) 1.1 ] ;
(2)、统计建模:将特征空间I用有限混合模型表示为
Figure BDA00001814577800066
Θ={K,ω,θ}表示模型的参数,其中K表示混合成分的数量,ω={ωi|i=1,…,K}表示K个混合成分的混合系数,θ={θi|i=1,…,K}表示K个混合成分的模型参数,X表示像素的特征矢量分布的随机矢量,Si表示第i个混合成分,θi表示第i个混合成分的模型参数,ωi表示第i个混合成分的混合系数,P(X|Sii)表示具有相似视觉特征的第i类像素所对应的混合成分的概率密度函数,将有限混合模型的各类像素所对应的混合成分均视为服从高斯分布,则P(X|Sii)可以表示为 P ( X | S i , θ i ) = 1 ( 2 π ) d / 2 det ( Σ i ) 1 / 2 exp ( - 1 2 ( X - μ i ) T Σ i - 1 ( X - μ i ) ) , μi和∑i分别表示X的均值和X的方差矩阵,det(∑i)表示∑i的行列式,d表示X的维数,此时模型的参数为Θ={K,ωii,∑i|i=1,…,K};
(3)、参数估计:采用极大似然估计法估计模型的参数,
Figure BDA00001814577800068
其中,L(I,Θ)=-∑logP(X |I,Θ)表示目标函数,参数估计的具体步骤如下:
a、提取深度图,对深度图采用分水岭算法进行预分割,统计分割区域数量,作为初始K值;
b、采用EM算法进行模型的参数估计,迭代进行E步和M步,直到满足收敛条件,在E步,计算第l个像素Xl来自第i个混合成分Si的后验概率:
P ( S i , μ i ( k ) , Σ i ( k ) | X l ) = ω i ( k ) P ( X l | S i , μ i ( k ) , Σ i ( k ) ) Σ m = 1 K ω m ( k ) P ( X l | S m , μ m ( k ) , Σ m ( k ) ) ( i = 1 , . . . , K ; l = 1 , . . . . , N )
其中,Xl表示第l个像素的特征矢量,k表示迭代次数,
Figure BDA00001814577800072
分别表示第k次迭代计算得到的μi、ωi和∑i
在M步,基于E步得到的后验概率,更新模型的参数:
ω i ( k + 1 ) = 1 N Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
μ i ( k + 1 ) = Σ j = 1 N X l P ( S i , μ i ( k ) , Σ i ( k ) | X l ) Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
Σ i ( k + 1 ) = Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l ) ( X l - μ i ( k + 1 ) ) ( X l - μ i ( k + 1 ) ) T Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
其中,
Figure BDA00001814577800076
分别表示第k+1次迭代计算得到的μi、ωi和∑i
c、当EM算法收敛后,执行合并操作,具体步骤如下:
对任意两个混合成分Si和Sj,计算二者的相似度Mij,计算公式为Mij=τDkl(I,Sij)+(1-τ)Dkl(Si,Sj),1≤i≤K,1≤j≤K,其中τ表示加权系数,设置为τ=0.5,Sij表示Si与Sj的和,表示将混合成分Si与混合成分Sj所各自对应的图像像素进行合并,合并后的像素全体属于同一个混合成分,记为Sij,将上述公式中的Dkl(I,Sij)表示为Dkl(I,Si),Dkl(I,Si)表示第i个混合成分Si与图像的局部概率密度函数P(X|I,θi)之间的Kullback-Leibler距离,用来衡量第i个混合成分Si与有限混合模型全体数据之间的匹配性,Dkl(Si,Sj)表示第i个混合成分Si与第j个混合成分Sj之间的Kullback-Leibler距离,用来衡量两个混合成分Si与Sj所对应的概率分布之间的的差异,其中Dkl(I,Si)与Dkl(Si,Sj)的定义如下:
D kl ( I , S i ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | I , θ i )
D kl ( S i , S j ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | S j , θ j )
其中,P(X|I,θi)表示与P(XSii)相对应的图像局部的采样密度,其计算方式如下:
P ( X | I , θ i ) = Σ l = 1 N δ ( X - X l ) P ( S i , θ i | X l ) Σ l = 1 N P ( S i , θ i | X l )
其中,δ(X-Xl)表示单位脉冲函数,当X-Xl=0时,δ(X-Xl)=1,否则δ(X-Xl)=0;P(Sii|X)表示P(X|Sii)的后验概率,其计算方法如下:
P ( S i , θ i | X ) = ω i P ( X | S i , θ i ) Σ i = 1 K ω i P ( X | S i , θ i )
而P(Sii|Xl)则表示第l个像素属于第i个混合成分Si的后验概率;
根据Mij计算阈值Tm,Tm的计算方法如下:
Figure BDA00001814577800085
将计算出的每一个Mij分别与Tm进行比较,如果Mij大于阈值Tm,则将Si与Sj进行合并,认为Si与Sj的数据属于同一个混合成分,此时将混合成分的数量K的值减1,当所有的Mij与Tm进行比较完成后,K值就表示合并后的混合成分的最终数量;
(4)、标记与区域合并:模型的参数估计结束后,计算各个像素属于各混合成分类的后验概率,基于后验概率对图像进行标记,即对第l个像素Xl,如果
Figure BDA00001814577800091
1≤P≤K,l=0,1,...,N,则将像素Xl标记为第i类,其中p是表示混合成分的数量的一个变量,
Figure BDA00001814577800092
表示使ωpP(Sp,θp|Xl)取最大值时p的值,基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域,对上述分割结果基于运动信息进行进一步的区域合并,具体步骤如下:首先利用帧差法提取二值运动掩模图像,用OB(x,y)表示,OB(x,y)=1表示运动区域,OB(x,y)=0表示静止区域,设Os(s=0,1,…,Q)表示基于统计建模的分割结果,Q表示区域数量,令Ns表示区域Os的大小,定义其运动活动性αsB如下:
Figure BDA00001814577800093
(s=0,1,…,Q),比较每个区域与其临域的运动活动性,选取运动活动性之差最小的两个区域进行合并,然后计算合并后的新的区域的运动活动性,然后再次进行领域搜索与合并,直到最后所有领域的运动活动性之差大于实际给定的阈值αT,阈值αT设置为0.5,最后对合并后的对象进行形态后处理运算,即得到最终的语义分割结果。
为了验证本发明分割算法的准确性和跟踪算法的有效性,基于VC6.0的软件平台,进行实验仿真,图1为分割前的原图,图5给出了本发明分割方法的分割结果,从图中可以看出本发明的分割算法是有效的。

Claims (1)

1.一种面向多视点视频的语义对象分割方法,其特征在于包括以下步骤:
(1)、视觉特征提取:对图像中的每个像素分别提取像素灰度值、8-邻域灰度均值、对比度敏感度、空间频率、二维空间坐标的特征分量,即映射后的每个像素可以用一个六维的特征矢量来表示,图像中所有像素映射后的矢量全体构成一个六维的特征空间I,表示为I={Pl},Pl表示第l个像素的六维特征矢量,表示为
Figure FDA00001814577700011
l=0,1,..,N,其中N表示图像中像素的总个数,xl,yl表示第l个像素的位置坐标,gl表示第l个像素的灰度值,
Figure FDA00001814577700012
表示第l个像素的8-邻域灰度均值,fl表示第l个像素空间频率,
Figure FDA00001814577700013
表示第l个像素的对比度敏感度,
Figure FDA00001814577700014
的计算方法为 c f l = 2.6 ( 0.192 + 0.114 f l ) e [ - ( 0.114 f l ) 1.1 ] ;
(2)、统计建模:将特征空间I用有限混合模型表示为Θ={K,ω,θ}表示模型的参数,其中K表示混合成分的数量,ω={ωi|i=1,…,K}表示K个混合成分的混合系数,θ={θi|i=1,…,K}表示K个混合成分的模型参数,X表示像素的特征矢量分布的随机矢量,Si表示第i个混合成分,θi表示第i个混合成分的模型参数,ωi表示第i个混合成分的混合系数,P(X|Sii)表示具有相似视觉特征的第i类像素所对应的混合成分的概率密度函数,将有限混合模型的各类像素所对应的混合成分均视为服从高斯分布,则P(X|Sii)可以表示为 P ( X | S i , θ i ) = 1 ( 2 π ) d / 2 det ( Σ i ) 1 / 2 exp ( - 1 2 ( X - μ i ) T Σ i - 1 ( X - μ i ) ) , μi和∑i分别表示X的均值和X的方差矩阵,det(∑i)表示∑i的行列式,d表示X的维数,此时模型的参数为Θ={K,ωii,∑i|i=1,…,K};
(3)、参数估计:采用极大似然估计法估计模型的参数,
Figure FDA00001814577700018
其中,L(I,Θ)=-∑logP(X |I,Θ)表示目标函数,参数估计的具体步骤如下:
a、提取深度图,对深度图采用分水岭算法进行预分割,统计分割区域数量,作为初始K值;
b、采用EM算法进行模型的参数估计,迭代进行E步和M步,直到满足收敛条件,在E步,计算第l个像素Xl来自第i个混合成分Si的后验概率:
P ( S i , μ i ( k ) , Σ i ( k ) | X l ) = ω i ( k ) P ( X l | S i , μ i ( k ) , Σ i ( k ) ) Σ m = 1 K ω m ( k ) P ( X l | S m , μ m ( k ) , Σ m ( k ) ) ( i = 1 , . . . , K ; l = 1 , . . . . , N )
其中,Xl表示第l个像素的特征矢量,k表示迭代次数,分别表示第k次迭代计算得到的μi、ωi和∑i
在M步,基于E步得到的后验概率,更新模型的参数:
ω i ( k + 1 ) = 1 N Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
μ i ( k + 1 ) = Σ j = 1 N X l P ( S i , μ i ( k ) , Σ i ( k ) | X l ) Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
Σ i ( k + 1 ) = Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l ) ( X l - μ i ( k + 1 ) ) ( X l - μ i ( k + 1 ) ) T Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l )
其中,
Figure FDA00001814577700026
分别表示第k+1次迭代计算得到的μi、ωi和∑i
c、当EM算法收敛后,执行合并操作,具体步骤如下:
对任意两个混合成分Si和Sj,计算二者的相似度Mij,计算公式为Mij=τDkl(I,Sij)+(1-τ)Dkl(Si,Sj),1≤i≤K,1≤j≤K,其中τ表示加权系数,设置为τ=0.5,Sij表示Si与Sj的和,表示将混合成分Si与混合成分Sj所各自对应的图像像素进行合并,合并后的像素全体属于同一个混合成分,记为Sij,将上述公式中的Dkl(I,Sij)表示为Dkl(I,Si),Dkl(I,Si)表示第i个混合成分Si与图像的局部概率密度函数P(X|I,θi)之间的Kullback-Leibler距离,用来衡量第i个混合成分Si与有限混合模型全体数据之间的匹配性,Dkl(Si,Sj)表示第i个混合成分Si与第j个混合成分Sj之间的Kullback-Leibler距离,用来衡量两个混合成分Si与Sj所对应的概率分布之间的的差异,其中Dkl(I,Si)与Dkl(Si,Sj)的定义如下:
D kl ( I , S i ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | I , θ i )
D kl ( S i , S j ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | S j , θ j )
其中,P(X|I,θi)表示与P(XSii)相对应的图像局部的采样密度,其计算方式如下:
P ( X | I , θ i ) = Σ l = 1 N δ ( X - X l ) P ( S i , θ i | X l ) Σ l = 1 N P ( S i , θ i | X l )
其中,δ(X-Xl)表示单位脉冲函数,当X-Xl=0时,δ(X-Xl)=1,否则δ(X-Xl)=0;P(Sii|X)表示P(X|Sii)的后验概率,其计算方法如下:
P ( S i , θ i | X ) = ω i P ( X | S i , θ i ) Σ i = 1 K ω i P ( X | S i , θ i )
而P(Sii|Xl)则表示第l个像素属于第i个混合成分Si的后验概率;
根据Mij计算阈值Tm,Tm的计算方法如下:
Figure FDA00001814577700035
将计算出的每一个Mij分别与Tm进行比较,如果Mij大于阈值Tm,则将Si与Sj进行合并,认为Si与Sj的数据属于同一个混合成分,此时将混合成分的数量K的值减1,当所有的Mij与Tm进行比较完成后,K值就表示合并后的混合成分的最终数量;
(4)、标记与区域合并:模型的参数估计结束后,计算各个像素属于各混合成分类的后验概率,基于后验概率对图像进行标记,即对第l个像素Xl,如果
Figure FDA00001814577700041
1≤P≤K,l=0,1,...,N,则将像素Xl标记为第i类,其中p是表示混合成分的数量的一个变量,
Figure FDA00001814577700042
表示使ωpP(Spp|Xl)取最大值时p的值,基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域,对上述分割结果基于运动信息进行进一步的区域合并,具体步骤如下:首先利用帧差法提取二值运动掩模图像,用OB(x,y)表示,OB(x,y)=1表示运动区域,OB(x,y)=0表示静止区域,设Os(s=0,1,…,Q)表示基于统计建模的分割结果,Q表示区域数量,令Ns表示区域Os的大小,定义其运动活动性αsB如下:(s=0,1,…,Q),比较每个区域与其临域的运动活动性,选取运动活动性之差最小的两个区域进行合并,然后计算合并后的新的区域的运动活动性,然后再次进行领域搜索与合并,直到最后所有领域的运动活动性之差大于实际给定的阈值αT,阈值αT设置为0.5,最后对合并后的对象进行形态后处理运算,即得到最终的语义分割结果。
CN201210222728.XA 2012-06-27 2012-06-27 一种面向多视点视频的语义对象分割方法 Active CN102799646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210222728.XA CN102799646B (zh) 2012-06-27 2012-06-27 一种面向多视点视频的语义对象分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210222728.XA CN102799646B (zh) 2012-06-27 2012-06-27 一种面向多视点视频的语义对象分割方法

Publications (2)

Publication Number Publication Date
CN102799646A true CN102799646A (zh) 2012-11-28
CN102799646B CN102799646B (zh) 2015-09-30

Family

ID=47198756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210222728.XA Active CN102799646B (zh) 2012-06-27 2012-06-27 一种面向多视点视频的语义对象分割方法

Country Status (1)

Country Link
CN (1) CN102799646B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957078A (zh) * 2016-04-27 2016-09-21 浙江万里学院 一种基于图割的多视点视频分割方法
CN106327469A (zh) * 2015-06-29 2017-01-11 北京航空航天大学 一种语义标签引导的视频对象分割方法
CN106846323A (zh) * 2017-01-04 2017-06-13 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
CN110363777A (zh) * 2019-07-03 2019-10-22 上海大学 一种基于可简化的空间约束混合模型的海面图像语义分割方法
CN110823235A (zh) * 2018-08-07 2020-02-21 通用汽车环球科技运作有限责任公司 用于导出路段限速的智能车辆导航系统、方法以及控制逻辑
CN115019038A (zh) * 2022-05-23 2022-09-06 杭州缦图摄影有限公司 一种相似图像像素级语义匹配方法
CN116363362A (zh) * 2023-03-08 2023-06-30 阿里巴巴(中国)有限公司 图像语义分割方法、对象识别方法及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1851710A (zh) * 2006-05-25 2006-10-25 浙江大学 嵌入式多媒体基于关键帧的视频检索的实现方法
CN101242532A (zh) * 2007-12-12 2008-08-13 浙江万里学院 一种面向多视点视频的码率控制方法
CN101976258A (zh) * 2010-11-03 2011-02-16 上海交通大学 基于对象分割和特征加权融合的视频语义提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1851710A (zh) * 2006-05-25 2006-10-25 浙江大学 嵌入式多媒体基于关键帧的视频检索的实现方法
CN101242532A (zh) * 2007-12-12 2008-08-13 浙江万里学院 一种面向多视点视频的码率控制方法
CN101976258A (zh) * 2010-11-03 2011-02-16 上海交通大学 基于对象分割和特征加权融合的视频语义提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱仲杰 等: "基于FMM的图像建模与语义对象分割", 《电路与系统学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327469B (zh) * 2015-06-29 2019-06-18 北京航空航天大学 一种语义标签引导的视频对象分割方法
CN106327469A (zh) * 2015-06-29 2017-01-11 北京航空航天大学 一种语义标签引导的视频对象分割方法
CN105957078A (zh) * 2016-04-27 2016-09-21 浙江万里学院 一种基于图割的多视点视频分割方法
CN106846323A (zh) * 2017-01-04 2017-06-13 努比亚技术有限公司 一种实现交互式图像分割的方法、装置及终端
CN109191515B (zh) * 2018-07-25 2021-06-01 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
WO2020020160A1 (zh) * 2018-07-25 2020-01-30 北京市商汤科技开发有限公司 图像视差估计
CN109191515A (zh) * 2018-07-25 2019-01-11 北京市商汤科技开发有限公司 一种图像视差估计方法及装置、存储介质
JP2021531582A (ja) * 2018-07-25 2021-11-18 北京市商▲湯▼科技▲開▼▲發▼有限公司Beijing Sensetime Technology Development Co., Ltd. 画像視差推定
JP7108125B2 (ja) 2018-07-25 2022-07-27 北京市商▲湯▼科技▲開▼▲發▼有限公司 画像視差推定
CN110823235A (zh) * 2018-08-07 2020-02-21 通用汽车环球科技运作有限责任公司 用于导出路段限速的智能车辆导航系统、方法以及控制逻辑
CN110823235B (zh) * 2018-08-07 2024-01-02 通用汽车环球科技运作有限责任公司 用于导出路段限速的智能车辆导航系统、方法以及控制逻辑
CN110363777A (zh) * 2019-07-03 2019-10-22 上海大学 一种基于可简化的空间约束混合模型的海面图像语义分割方法
CN115019038A (zh) * 2022-05-23 2022-09-06 杭州缦图摄影有限公司 一种相似图像像素级语义匹配方法
CN115019038B (zh) * 2022-05-23 2024-04-30 杭州海马体摄影有限公司 一种相似图像像素级语义匹配方法
CN116363362A (zh) * 2023-03-08 2023-06-30 阿里巴巴(中国)有限公司 图像语义分割方法、对象识别方法及计算设备
CN116363362B (zh) * 2023-03-08 2024-01-09 阿里巴巴(中国)有限公司 图像语义分割方法、对象识别方法及计算设备

Also Published As

Publication number Publication date
CN102799646B (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
CN102799646B (zh) 一种面向多视点视频的语义对象分割方法
Zhang et al. Semantic segmentation of urban scenes using dense depth maps
CN105869173B (zh) 一种立体视觉显著性检测方法
CN102903110B (zh) 对具有深度图像信息的图像的分割方法
CN107424171B (zh) 一种基于分块的抗遮挡目标跟踪方法
CN108537239B (zh) 一种图像显著性目标检测的方法
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
CN105740945B (zh) 一种基于视频分析的人群计数方法
CN101477690B (zh) 一种视频帧序列中物体轮廓跟踪的方法和装置
CN106462771A (zh) 一种3d图像的显著性检测方法
Bongsoo Choy et al. Enriching object detection with 2d-3d registration and continuous viewpoint estimation
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN109255357B (zh) 一种rgbd图像协同显著性检测方法
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
CN102982544B (zh) 多前景目标图像交互式分割方法
CN104392233B (zh) 一种基于区域的图像显著图提取方法
CN104504734A (zh) 一种基于语义的图像颜色传输方法
CN103886619A (zh) 一种融合多尺度超像素的目标跟踪方法
CN103093470A (zh) 一种具有尺度无关特性的快速多模态图像协同分割方法
CN104732551A (zh) 基于超像素和图割优化的水平集图像分割方法
CN104751111A (zh) 识别视频中人体行为的方法和系统
CN107609571A (zh) 一种基于lark特征的自适应目标跟踪方法
CN106778767B (zh) 基于orb和主动视觉的视觉图像特征提取及匹配方法
Li et al. Optimized automatic seeded region growing algorithm with application to ROI extraction
CN108388901B (zh) 基于空间-语义通道的协同显著目标检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant