CN107578070A - 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 - Google Patents
基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 Download PDFInfo
- Publication number
- CN107578070A CN107578070A CN201710849046.4A CN201710849046A CN107578070A CN 107578070 A CN107578070 A CN 107578070A CN 201710849046 A CN201710849046 A CN 201710849046A CN 107578070 A CN107578070 A CN 107578070A
- Authority
- CN
- China
- Prior art keywords
- clustering
- distance
- matrix
- calculating
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于邻域信息和平均差异度的K‑means初始聚类中心优选方法,包括S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},确定聚类数K,初始化当前确定的初始聚类中心个数k=0;S2、形成距离矩阵D;S3、确定邻域半径值δ;S4、计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;S5、将N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,k=k+1,将N中相应Ni置0;S6、寻找N中δ邻域内样本数量最大Nj对应的样本点Xj,计算其与聚类中心{C1,C2,…,Ck}的距离,将N中相应Nj置0;S7、若Xj与聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回S6;S8、若当前聚类中心个数k等于聚类类别数K,输出K个初始聚类中心,否则返回S6;S9、运用K‑均值聚类算法对整个样本集进行聚类,输出聚类结果。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法。
背景技术
聚类算法是一种无监督的分类算法,是指按照某种相似性将一组没有类别标识的对象分为若干类别,使得类间对象距离尽可能大,而类内对象距离尽量小,是系统建模和数据挖掘的基本方法之一,已经广泛应用于各种领域,如文本分类、图像识别等领域。
而K-均值聚类算法(K-means)是一种基于划分的动态聚类算法,由于其方法简单,已经成为当前最流行的聚类方法之一。传统的K-均值聚类算法的缺陷在于:一是,算法的聚类结果易受初始聚类中心影响,当初始聚类中心选择不合理时会出现一致性聚类和无法收敛的情况。二是,不能克服离群点对聚类结果带来的不利影响,从而导致聚类结果不稳定且正确率较低。
发明内容
本发明的目的在于提供一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,以提高K-均值聚类算法的正确率。
为实现以上目的,本发明采用的技术方案为:提供一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,包括:
S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},Xi为m维向量,确定聚类类数K,初始化当前确定的初始聚类中心个数k=0;
S2、计算样本集中对象两两之间的距离,并形成距离矩阵D;
S3、计算样本集总体平均差异度M,确定邻域半径值δ,
S4、基于距离矩阵D,计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;
S5、将N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,令k=k+1,并在矩阵N中将最大Ni置0;
S6、继续查找矩阵N中δ邻域内样本数量最大Nj对应的样本点Xj,,计算其与已有聚类中心{C1,C2,…,Ck}的距离,并在矩阵N中将最大Nj置0;
S7、若Xj与{C1,C2,…,Ck}中聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回步骤S6;
S8、若当前聚类中心个数k等于聚类类别数K,则输出K个初始聚类中心C={C1,C2,…,CK},否则返回步骤S6;
S9、运用K-均值聚类算法对整个样本集进行聚类,输出聚类结果。
其中,所述的步骤S2中,样本集中对象两两之间的距离的计算过程具体为:
假设样本集中两对象分别为Xi、Xj,其中Xi={Xi1,Xi2,…,Xim},Xj={Xj1,Xj2,…,Xjm},则Xi与Xj的距离dij为:
其中,所述的步骤S3中,计算样本集总体平均差异度M的过程具体为:
计算样本Xi的平均差异度为:
计算样本集的总体平均差异度为:
与现有技术相比,本发明存在以下技术效果:本发明全面考虑了数据集的空间分布,得到的聚类中心更加合理和符合实际情况。本发明不仅有效克服了K-均值算法初始聚类中心选取的盲目性和随机性,明显提高了聚类结果的正确率和稳定性,迭代次数少,而且在一定程度上克服了离群点敏感性问题。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是本发明中一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法的流程示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,包括如下步骤:
S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},Xi为m维向量,确定聚类类数K,初始化当前确定的初始聚类中心个数k=0;
S2、计算样本集中对象两两之间的距离,并形成距离矩阵D;
S3、计算样本集总体平均差异度M,确定邻域半径值δ,
S4、基于距离矩阵D,计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;
S5、将N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,令k=k+1,并在矩阵N中将最大Ni置0;
S6、继续查找矩阵N中δ邻域内样本数量最大Nj对应的样本点Xj,计算其与已有聚类中心{C1,C2,…,Ck}的距离,并在矩阵N中将最大Nj置0;
S7、若Xj与{C1,C2,…,Ck}中聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回步骤S6;
S8、若当前聚类中心个数k等于聚类类别数K,则输出K个初始聚类中心C={C1,C2,…,CK},否则返回步骤S6;
S9、运用K-均值聚类算法对整个样本集进行聚类,输出聚类结果。
进一步地,步骤S2中,样本集中对象两两之间的距离的计算过程具体为:
假设样本集中两对象分别为Xi、Xj,其中Xi={Xi1,Xi2,…,Xim},Xj={Xj1,Xj2,…,Xjm},则Xi与Xj的距离dij为:
进一步地,步骤S3中,计算样本集总体平均差异度M的过程具体为:
计算样本Xi的平均差异度为:
计算样本集的总体平均差异度为:
进一步地,在步骤S4中,邻域半径值δ的计算过程为:δ=M/4。
进一步地,在步骤S3中,邻域定义为:
设<U,Δ>为一非空度量空间,其中U为对象的非空有限集,以X∈U为中心、以δ为半径的闭球,称为X中每个样本数据的δ邻域,定义为:
n(X)={y∈U|Δ(X,y)≤δ};
其中:δ≥0,Δ为距离函数,采用欧式距离。
进一步地,距离矩阵D具体为:其中dij为Xi与Xj的距离。
进一步地,矩阵N具体为:其中Ni为样本点Xi的δ邻域内样本数量。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,其特征在于,包括:
S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},Xi为m维向量,确定聚类类数K,初始化当前确定的初始聚类中心个数k=0;
S2、计算样本集中对象两两之间的距离,并形成距离矩阵D;
S3、计算样本集总体平均差异度M,确定邻域半径值δ,
S4、基于距离矩阵D,计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;
S5、将矩阵N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,令k=k+1,并在矩阵N中将最大Ni置0;
S6、继续查找矩阵N中δ邻域内样本数量最大Nj对应的样本点Xj,计算其与已有聚类中心{C1,C2,…,Ck}的距离,并在矩阵N中将最大Nj置0;
S7、若Xj与{C1,C2,…,Ck}中聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回步骤S6;
S8、若当前聚类中心个数k等于聚类类别数K,则输出K个初始聚类中心C={C1,C2,…,CK},否则返回步骤S6;
S9、运用K-均值聚类算法对整个样本集进行聚类,输出聚类结果。
2.如权利要求1所述的方法,其特征在于,所述的步骤S2中,样本集中对象两两之间的距离的计算过程具体为:
假设样本集中两对象分别为Xi、Xj,其中Xi={xi1,xi2,…,xim},Xj={xj1,xj2,…,xjm},则Xi与Xj的距离dij为:
<mrow>
<msub>
<mi>d</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<msqrt>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>j</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<mn>...</mn>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>j</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mrow>
3.如权利要求2所述的方法,其特征在于,所述的步骤S3中,计算样本集总体平均差异度M的过程具体为:
计算样本Xi的平均差异度为:
<mrow>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>d</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>/</mo>
<mi>n</mi>
<mo>;</mo>
</mrow>
计算样本集的总体平均差异度为:
<mrow>
<mi>M</mi>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>/</mo>
<mi>n</mi>
<mo>.</mo>
</mrow>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710849046.4A CN107578070A (zh) | 2017-09-19 | 2017-09-19 | 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710849046.4A CN107578070A (zh) | 2017-09-19 | 2017-09-19 | 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107578070A true CN107578070A (zh) | 2018-01-12 |
Family
ID=61032940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710849046.4A Pending CN107578070A (zh) | 2017-09-19 | 2017-09-19 | 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107578070A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805174A (zh) * | 2018-05-18 | 2018-11-13 | 广东惠禾科技发展有限公司 | 聚类方法及装置 |
CN109063781A (zh) * | 2018-08-14 | 2018-12-21 | 浙江理工大学 | 一种仿自然色彩功能和形式的模糊意象织物设计方法 |
CN111860700A (zh) * | 2020-09-22 | 2020-10-30 | 深圳须弥云图空间科技有限公司 | 一种能耗分类方法、装置、存储介质及设备 |
-
2017
- 2017-09-19 CN CN201710849046.4A patent/CN107578070A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805174A (zh) * | 2018-05-18 | 2018-11-13 | 广东惠禾科技发展有限公司 | 聚类方法及装置 |
CN109063781A (zh) * | 2018-08-14 | 2018-12-21 | 浙江理工大学 | 一种仿自然色彩功能和形式的模糊意象织物设计方法 |
CN111860700A (zh) * | 2020-09-22 | 2020-10-30 | 深圳须弥云图空间科技有限公司 | 一种能耗分类方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814584B (zh) | 基于多中心度量损失的多视角环境下车辆重识别方法 | |
US20200160124A1 (en) | Fine-grained image recognition | |
CN103258210B (zh) | 一种基于字典学习的高清图像分类方法 | |
CN109273054B (zh) | 基于关系图谱的蛋白质亚细胞区间预测方法 | |
CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
TWI464604B (zh) | 資料分群方法與裝置、資料處理裝置及影像處理裝置 | |
CN106845528A (zh) | 一种基于K‑means与深度学习的图像分类算法 | |
CN110942091A (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN105631416A (zh) | 采用新型密度聚类进行人脸识别的方法 | |
CN109241816B (zh) | 一种基于标签优化的图像再识别系统及损失函数确定方法 | |
CN110516533B (zh) | 一种基于深度度量的行人再辨识方法 | |
CN107194351B (zh) | 基于韦伯局部对称图结构的人脸识别特征提取方法 | |
CN110705648A (zh) | 大规模多视图数据自降维K-means算法及系统 | |
CN107578070A (zh) | 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 | |
CN107358172B (zh) | 一种基于人脸朝向分类的人脸特征点初始化方法 | |
CN102663681B (zh) | 基于排序k-均值算法的灰度图像分割方法 | |
CN110378272B (zh) | 基于矩阵分块Isomap算法的高光谱遥感影像特征提取方法 | |
CN112115806A (zh) | 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法 | |
CN114299362A (zh) | 一种基于k-means聚类的小样本图像分类方法 | |
WO2020114109A1 (zh) | 嵌入结果的解释方法和装置 | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
CN109948662B (zh) | 一种基于K-means和MMD的人脸图像深度聚类方法 | |
CN103577825B (zh) | 合成孔径声纳图像的目标自动识别方法以及自动识别系统 | |
CN115344693A (zh) | 一种基于传统算法和神经网络算法融合的聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180112 |
|
RJ01 | Rejection of invention patent application after publication |