CN105389593A

CN105389593A - 基于surf特征的图像物体识别方法

Info

Publication number: CN105389593A
Application number: CN201510785408.9A
Authority: CN
Inventors: 蒋兴浩; 孙锬锋; 许可; 姜华; 郑辉
Original assignee: DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd; Shanghai Jiaotong University
Current assignee: DIGITAL CHINA (SHANGHAI) HOLDINGS Ltd; Shanghai Jiaotong University
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2016-03-09
Anticipated expiration: 2035-11-16
Also published as: CN105389593B

Abstract

本发明提供了一种基于SURF特征的图像物体识别方法，首先对图像进行预处理，然后对图像提取SURF角点和SURF描述子描述图像特征，再通过PCA数据白化、降维对特征进行处理，处理后的特征通过Kmeans聚类建立词袋模型，利用词袋模型构建图像的视觉词汇直方图，最后利用非线性的支持向量机(SVM)分类方法进行训练，并完成对图像不同类别的划分。在训练阶段不同图像的分类模型建模完成以后，在测试阶段对测试集中的图像进行检测，实现了对不同图像物体识别的功能。本发明在识别率和速度上都具有优异性能，使之更为客观准确地反映出图像的内容，此外还对SVM分类器的分类结果进行优化，降低了分类器判断的错误率和训练样本类别的局限性。

Description

基于SURF特征的图像物体识别方法

技术领域

本发明涉及图像物体识别领域，具体地，涉及一种基于SURF(SpeedUpRobustFeature)特征和词袋模型的图像物体识别方法。

背景技术

图像识别和分类技术是计算机视觉和模式识别领域的一个重要的应用，在机械工业、物流运输、零售等行业，精确的图像物体识别技术可以将人们从繁重的劳动中解放出来，降低生产成本，提高工作效率。在日常生活中，人们可以快速准确的抓住物体的特征并识别物体，但对于计算机来说，自动识别物体却有着不小的困难。其原因在于图像中的物体受到拍摄角度、旋转变化、光照变化、尺度变化、拍摄质量等因素的影响。

现有的针对这些困难的解决方法是结合使用局部特征点、词袋模型以及分类器的方法。这种方法在一定程度上解决了物体识别的问题，但是其中带来的特征维数高，计算量大，不能满足实时性、且词袋模型效果不好。

经过检索发现，专利申请号：CN201210196526.2，名称为“基于SURF高效匹配核的人体检测方法”中提出：在不同图像尺度下提取SURF描述子特征点，随机采样提取特征点构成视觉词汇的初始向量基，对初始向量基使用带约束的奇异值分解获得最大核函数特征，对不同图像尺度下的最大核函数特征进行加权获得所有图像尺度下的特征，对得到的特征利用SVM(SupportVectorMachine支持向量机)分类器进行分类训练，最后得到检测分类器。该专利文献中计算多尺度的SURF特征，计算量大，且直接使用奇异值分解分解构建词典，对特征没有进一步的处理。

由刘鹏、叶志鹏、赵巍等在自动化学报2015，41(5)：960-969发表的“一种多层次抽象语义决策图像分类方法”一文中提到了使用视觉词包(Bag-of-visual-words,BoVW词袋模型)模型生成视觉词典的建模方法。由袁安富、曹金燕、余莉在计算机应用与软件2015，32：186-189发表的“一种基于SURF特征的零件识别算法”一文中使用了SURF(SpeedUpRobustFeature)特征和ANN(ApproximateNearestNeighbor)近似最近邻算法识别零件的方法。本发明结合了以上两种方法的优势，并采取了神经网络领域的白化降维方法，对SURF特征与词袋模型的结合进行了改进与创新。

本发明中的方法没有采用多尺度训练，直接对图像进行去噪、尺寸归一化和中心裁剪预处理，利用PCA(PrincipalComponentsAnalysis)白化和降维对数据进行处理后使用Kmeans构建词袋模型，提高了训练和分类的速度，使视觉词汇之间稀疏性更强，得到了更好的分类效果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于SURF特征的图像物体识别方法。

根据本发明提供的基于SURF特征的图像物体识别方法，包括如下步骤：

步骤a：对图像进行预处理，提取预处理后图像的局部兴趣点特征，将局部兴趣点特征进行聚类，根据聚类中心的结果建立词袋模型，通过词袋模型建立视觉词汇直方图得到图像的视觉词汇直方图特征；

步骤1：对每个训练样本进行类标签的标记，通过对带有类标签的所述训练样本执行步骤a的操作后得到所述训练样本的视觉词汇直方图特征，利用所述训练样本的视觉词汇直方图特征训练支持向量机SVM分类器，通过核函数将词汇直方图特征映射到特征空间，并在该核函数映射的特征空间中得到最优分类超平面；

步骤2：对待测样本执行步骤a的操作后得到所述待测样本的视觉词汇直方图特征，利用核函数将视觉词汇直方图特征映射到特征空间，在该特征空间中判断该待测样本的视觉词汇直方图特征位于训练完成的SVM分类器的最优分类超平面的哪一侧，统计待测样本属于某个类别的概率，确定所述待测样本所属的类别；

步骤3：对SVM分类器的分类结果进行矫正。

优选地，所述步骤a包括：

步骤a1：对图像进行预处理，即使用3*3的高斯卷积模板对图像进行高斯滤波，将图像尺寸归一化为512*512，并将图像做中心裁剪裁掉边缘的12*12像素；

步骤a2：使用OpenCV开源库函数中的类SurfFeatureDetector中的detect方法检测图像中的SURF快速鲁棒特征兴趣点，和类SurfDescriptorExtractor中的compute方法计算每个兴趣点的SURF描述特征矢量；

步骤a3：对特征矢量进行PCA主成分分析及白化处理，消除特征矢量之间的相关性，并对白化后的特征矢量进行降维处理；

步骤a4：使用Kmeans聚类方法对降维过的兴趣点特征进行聚类，设置K个聚类中心，聚类后使用这K个聚类中心作为视觉词汇建立词袋模型BOVW，即所述词袋模型BOVW中包含了K个视觉词汇；计算图像中的每个兴趣点与词袋模型中词汇的欧氏距离，确定兴趣点属于哪一类视觉词汇，并统计图像中每类视觉词汇出现的次数，建立图像的视觉词汇直方图作为整幅图像的内容表征。

优选地，所述步骤1包括：

步骤1.1：将需要分类的n种训练样本类别按照两两组合分成个分类器；

步骤1.2：每个训练样本进行步骤a的处理后得到对应训练样本的视觉词汇直方图特征，将训练样本的视觉词汇直方图特征和所述训练样本的类标签进行关联；

步骤1.3：选择高斯核函数进行非线性可分特征的映射分类，调整支持向量机SVM分类器和核函数的参数，利用所述训练样本的视觉词汇直方图特征训练支持向量机SVM分类器，通过高斯核函数将词汇直方图特征映射到特征空间，并在该高斯核函数映射的特征空间中得到最优分类超平面，该最优分类超平面将不同类标签的训练样本区分开来；其中，选择的高斯核函数如下：

K (x, y) = \exp (- \frac{x - y^{2}}{2 σ^{2}});

式中：K(x,y)表示内积函数，x表示高维空间中的一个向量，y表示高维空间中的另一个向量，σ表示尺度参数。

优选地，所述步骤2包括：

步骤2.1：对待测样本执行步骤a的操作后得到所述待测样本的视觉词汇直方图特征，利用核函数将视觉词汇直方图特征映射到特征空间；

步骤2.2：在所述特征空间中判断该待测样本特征位于训练完成的SVM分类器的最优分类超平面的哪一侧；i类、j类训练样本构成的分类器记为SVM_i,j，其中i,j∈(1,n)，i、j分别表示两种不同类别的训练样本，n表示训练样本的种类数；若分类器的分类结果为i，则测试样本属于i类，i类投票加1；若分类器的分类结果为j，则测试样本属于j类，j类投票加1；

步骤2.3：统计待测样本属于某个类别的概率，确定所述待测样本所属的类别。

优选地，所述步骤3包括：当待测样本属于各个类别的概率均不超过0.5时，将该待测样本定义为无法判别的类别，用于对SVM分类器的分类结果进行矫正。

优选地，所述步骤2.2中的在特征空间中判断该待测样本特征位于训练完成的SVM分类器的最优分类超平面的哪一侧的判定公式如下：

\begin{matrix} S (F_{j}) = sgn (Σ_{i = 1}^{N} α_{i} K (F_{i}, F_{j}) - b) \\ = \{\begin{matrix} 1, & S (F_{j}) &GreaterEqual; 0 \\ - 1, & S (F_{j}) < 0 \end{matrix} \end{matrix};

式中：S(F_j)表示第j个待测样本的判定结果，sgn(·)表示符号函数运算(如果数字大于0，则Sgn返回1，数字等于0，则返回0，数字小于0，则返回-1)，α_i表示第i个训练样本的拉格朗日乘子，b为最优分类超平面的参数，K(F_i,F_j)表示高斯核函数，F_i表示样本空间中第i个训练样本的直方图特征，F_j表示第j个待测样本的直方图特征，N为样本空间中的样本总数；S(F_j)为+1时，表示第j个待测样本属于正样本类，S(F_j)为-1时，则表示第j个待测样本属于负样本类。

与现有技术相比，本发明具有如下的有益效果：

1、本发明首先对图像进行去噪、尺寸归一化、中心修剪的预处理，然后对图像提取SURF角点和SURF描述子描述图像特征，再通过PCA数据白化、降维对特征进行处理，处理后的特征通过Kmeans聚类建立词袋模型，利用词袋模型构建图像的视觉词汇直方图，最后利用非线性的支持向量机(SVM)分类方法进行训练，并完成对图像不同类别的划分，在训练阶段不同图像的分类模型建模完成以后，在测试阶段对测试集中的图像进行检测，实现了对不同图像物体识别的功能。

2、本发明中的基于SURF特征和词袋模型的分类框架在识别率和速度上都具有优异性能，使之更为客观准确地反映出图像的内容。

3、本发明还对SVM分类器的分类结果进行优化，认为分类后属于每类的概率都不超过0.5的图像属于无法判断类别，降低了分类器判断的错误率和训练样本类别的局限性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于SURF特征的图像物体识别方法的处理流程图；

图2为本发明中对特征数据的白化与降维处理的流程图；

图3为本发明的词袋模型构建和词汇直方图构建的流程图；

图4为本发明的多类SVM组织结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明提供了一种基于SURF特征的图像物体识别方法，首先对图像进行去噪、尺寸归一化、中心修剪的预处理，然后对图像提取SURF角点和SURF描述子描述图像特征，再通过PCA数据白化、降维对特征进行处理，处理后的特征通过Kmeans聚类建立词袋模型，最后利用非线性的支持向量机(SVM)分类方法进行训练，并完成对图像不同类别的划分，在训练阶段不同图像的分类模型建模完成以后，在测试阶段对测试集中的图像进行检测，实现了对不同图像物体识别的功能

具体地，根据本发明提供的基于SURF特征的图像物体识别方法，包括如下步骤：

步骤3：对SVM分类器的分类结果进行矫正。

所述步骤a包括：

所述步骤1包括：

K (x, y) = \exp (- \frac{x - y^{2}}{2 σ^{2}});

所述步骤2包括：

所述步骤3包括：当待测样本属于各个类别的概率均不超过0.5时，将该待测样本定义为无法判别的类别，用于对SVM分类器的分类结果进行矫正。

所述步骤2.2中的在特征空间中判断该待测样本特征位于训练完成的SVM分类器的最优分类超平面的哪一侧的判定公式如下：

\begin{matrix} S (F_{j}) = sgn (Σ_{i = 1}^{N} α_{i} K (F_{i}, F_{j}) - b) \\ = \{\begin{matrix} 1, & S (F_{j}) &GreaterEqual; 0 \\ - 1, & S (F_{j}) < 0 \end{matrix} \end{matrix};

更为具体地，如图1所示，本发明中的方法可分为图像预处理、特征提取、数据处理、构建词袋模型及视觉词汇直方图、组织SVM训练结构几个步骤。

一、图像预处理

图像预处理阶段，使用3*3的高斯卷积模板对图像进行高斯滤波，然后将图像尺寸归一化为512*512大小，最后将图像做中心裁剪，即裁掉边缘的12*12像素，这是由于拍摄者拍摄时主要角点在图像的中心部分，但边缘部分可能拍摄到一些干扰的物品，预处理后识别率明显提升。

二、特征提取

在特征提取阶段，使用OpenCV开源库函数中的类SurfFeatureDetector中的detect方法检测图像中的SURF角点，和类SurfDescriptorExtractor中的compute方法计算每个角点的特征。其原理是利用Hessian矩阵行列式的极大值检测角点，其中Hessian矩阵H(x,σ)定义如下：

H (x, σ) = [\begin{matrix} L_{x x} (X, σ) & L_{x y} (X, σ) \\ L_{x y} (X, σ) & L_{y y} (X, σ) \end{matrix}];

式中：L_xx(X,σ)表示高斯二阶微分与图像I的卷积；L_yy(X,σ)表示高斯二阶微分与图像I的卷积；L_xy(X,σ)表示高斯二阶微分与图像I的卷积。利用高斯二阶微分与图像I的卷积结果(结果依次记为：D_xx，D_xy，D_yy)的近似二阶微分，计算得到Hessian矩阵行列式，计算公式如下：

Det(H)＝D_xxD_yy-(0.9D_xy)²；

即图像I上的每个点(x,y)的响应值计算公式为：

Det(H(x,y))＝D_xx(x,y)D_yy(x,y)-(0.9D_xy(x,y))²；

计算特征时在一个矩形区域来计算Haar小波响应，以特征点为中心，以20s为边长的矩形窗口为特征描述子计算使用的窗口，统计∑dx、∑|dx|、∑dy、∑|dy|形成的特征矢量。

三、数据处理

在数据处理阶段，首先对特征向量进行PCA白化处理，消除数据之间的相关性，这样就消除了建立词袋模型时训练出的视觉词汇之间的相关性。然后对白化后的特征向量进行降维，本发明中由64维降到32维，提高了训练和分类的速度，并且在识别准确率和误检率上与降维前几乎没有变化。

其原理是通过计算协方差矩阵，计算公式如下：

cov (X, Y) = \frac{Σ_{i = 1}^{n} (X_{i} - \overset{&OverBar;}{X}) (Y_{i} - \overset{&OverBar;}{Y})}{n - 1};

再通过奇异值分解计算协方差矩阵的特征值，由大到小排列，再选择前n个特征值对应的特征矢量构成一个变换矩阵，最后，对于之前每一个n维的特征矢量x可以转换为n’维的新特征矢量z。

白化是指将数据x经过PCA降维为z后，可以看出z中每一维是独立的，满足白化条件，只需要将z中的每一维都除以标准差就可以。计算公式如下：

Z_{P C A, i} = \frac{z_{r o t, i}}{\sqrt{λ_{i}}}

式中：Z_PCA,i表示白化后的第i个特征向量，z_rot,i表示原始第i个特征向量，σ表示标准差。

四、构建词袋模型及视觉词汇直方图

在构建词袋模型及视觉词汇直方图阶段，首先使用Kmeans聚类算法对样本特征进行聚类，构建视觉词汇，本发明中聚类中心数量为200，然后利用视觉词汇构建每张图片的视觉直方图，构成200维的训练样本。

五、组织SVM训练结构

将所要分类的n种样本类别按照两两组合分成个分类器，根据训练阶段训练完成的最优分类超平面进行样本特征类标签的判定，若分类器SVM_i,j其中i,j∈(1,n)的分类结果为i，则图像属于i类投票加一，若分类结果为j，则图像属于j类投票加一。这样统计所有分类器的投票结果，根据结果计算测试图像属于某类的概率。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于SURF特征的图像物体识别方法，其特征在于，包括如下步骤：

步骤3：对SVM分类器的分类结果进行矫正。

2.根据权利要求1所述的基于SURF特征的图像物体识别方法，其特征在于，所述步骤a包括：

3.根据权利要求1所述的基于SURF特征的图像物体识别方法，其特征在于，所述步骤1包括：

K (x, y) = \exp (- \frac{x - y^{2}}{2 σ^{2}});

4.根据权利要求1所述的基于SURF特征的图像物体识别方法，其特征在于，所述步骤2包括：

5.根据权利要求1所述的基于SURF特征的图像物体识别方法，其特征在于，所述步骤3包括：当待测样本属于各个类别的概率均不超过0.5时，将该待测样本定义为无法判别的类别，用于对SVM分类器的分类结果进行矫正。

6.根据权利要求4所述的基于SURF特征的图像物体识别方法，其特征在于，所述步骤2.2中的在特征空间中判断该待测样本特征位于训练完成的SVM分类器的最优分类超平面的哪一侧的判定公式如下：

\begin{matrix} S (F_{j}) = sgn (Σ_{i = 1}^{N} α_{i} K (F_{i}, F_{j}) - b) \\ = \{\begin{matrix} 1, & S (F_{j}) &GreaterEqual; 0 \\ - 1, & S (F_{j}) < 0 \end{matrix} \end{matrix};

式中：S(F_j)表示第j个待测样本的判定结果，sgn(·)表示符号函数运算，α_i表示第i个训练样本的拉格朗日乘子，b为最优分类超平面的参数，K(F_i,F_j)表示高斯核函数，F_i表示样本空间中第i个训练样本的直方图特征，F_j表示第j个待测样本的直方图特征，N为样本空间中的样本总数；S(F_j)为+1时，表示第j个待测样本属于正样本类，S(F_j)为-1时，则表示第j个待测样本属于负样本类。