Nothing Special   »   [go: up one dir, main page]

CN107578070A - 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 - Google Patents

基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 Download PDF

Info

Publication number
CN107578070A
CN107578070A CN201710849046.4A CN201710849046A CN107578070A CN 107578070 A CN107578070 A CN 107578070A CN 201710849046 A CN201710849046 A CN 201710849046A CN 107578070 A CN107578070 A CN 107578070A
Authority
CN
China
Prior art keywords
clustering
distance
matrix
calculating
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710849046.4A
Other languages
English (en)
Inventor
吴仲城
吴紫恒
李芳�
张俊
罗健飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Kemei Network Information Technology Co Ltd
Original Assignee
Anhui Kemei Network Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Kemei Network Information Technology Co Ltd filed Critical Anhui Kemei Network Information Technology Co Ltd
Priority to CN201710849046.4A priority Critical patent/CN107578070A/zh
Publication of CN107578070A publication Critical patent/CN107578070A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于邻域信息和平均差异度的K‑means初始聚类中心优选方法,包括S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},确定聚类数K,初始化当前确定的初始聚类中心个数k=0;S2、形成距离矩阵D;S3、确定邻域半径值δ;S4、计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;S5、将N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,k=k+1,将N中相应Ni置0;S6、寻找N中δ邻域内样本数量最大Nj对应的样本点Xj,计算其与聚类中心{C1,C2,…,Ck}的距离,将N中相应Nj置0;S7、若Xj与聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回S6;S8、若当前聚类中心个数k等于聚类类别数K,输出K个初始聚类中心,否则返回S6;S9、运用K‑均值聚类算法对整个样本集进行聚类,输出聚类结果。

Description

基于邻域信息和平均差异度的K-means初始聚类中心优选 方法
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法。
背景技术
聚类算法是一种无监督的分类算法,是指按照某种相似性将一组没有类别标识的对象分为若干类别,使得类间对象距离尽可能大,而类内对象距离尽量小,是系统建模和数据挖掘的基本方法之一,已经广泛应用于各种领域,如文本分类、图像识别等领域。
而K-均值聚类算法(K-means)是一种基于划分的动态聚类算法,由于其方法简单,已经成为当前最流行的聚类方法之一。传统的K-均值聚类算法的缺陷在于:一是,算法的聚类结果易受初始聚类中心影响,当初始聚类中心选择不合理时会出现一致性聚类和无法收敛的情况。二是,不能克服离群点对聚类结果带来的不利影响,从而导致聚类结果不稳定且正确率较低。
发明内容
本发明的目的在于提供一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,以提高K-均值聚类算法的正确率。
为实现以上目的,本发明采用的技术方案为:提供一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,包括:
S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},Xi为m维向量,确定聚类类数K,初始化当前确定的初始聚类中心个数k=0;
S2、计算样本集中对象两两之间的距离,并形成距离矩阵D;
S3、计算样本集总体平均差异度M,确定邻域半径值δ,
S4、基于距离矩阵D,计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;
S5、将N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,令k=k+1,并在矩阵N中将最大Ni置0;
S6、继续查找矩阵N中δ邻域内样本数量最大Nj对应的样本点Xj,,计算其与已有聚类中心{C1,C2,…,Ck}的距离,并在矩阵N中将最大Nj置0;
S7、若Xj与{C1,C2,…,Ck}中聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回步骤S6;
S8、若当前聚类中心个数k等于聚类类别数K,则输出K个初始聚类中心C={C1,C2,…,CK},否则返回步骤S6;
S9、运用K-均值聚类算法对整个样本集进行聚类,输出聚类结果。
其中,所述的步骤S2中,样本集中对象两两之间的距离的计算过程具体为:
假设样本集中两对象分别为Xi、Xj,其中Xi={Xi1,Xi2,…,Xim},Xj={Xj1,Xj2,…,Xjm},则Xi与Xj的距离dij为:
其中,所述的步骤S3中,计算样本集总体平均差异度M的过程具体为:
计算样本Xi的平均差异度为:
计算样本集的总体平均差异度为:
与现有技术相比,本发明存在以下技术效果:本发明全面考虑了数据集的空间分布,得到的聚类中心更加合理和符合实际情况。本发明不仅有效克服了K-均值算法初始聚类中心选取的盲目性和随机性,明显提高了聚类结果的正确率和稳定性,迭代次数少,而且在一定程度上克服了离群点敏感性问题。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是本发明中一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法的流程示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,包括如下步骤:
S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},Xi为m维向量,确定聚类类数K,初始化当前确定的初始聚类中心个数k=0;
S2、计算样本集中对象两两之间的距离,并形成距离矩阵D;
S3、计算样本集总体平均差异度M,确定邻域半径值δ,
S4、基于距离矩阵D,计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;
S5、将N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,令k=k+1,并在矩阵N中将最大Ni置0;
S6、继续查找矩阵N中δ邻域内样本数量最大Nj对应的样本点Xj,计算其与已有聚类中心{C1,C2,…,Ck}的距离,并在矩阵N中将最大Nj置0;
S7、若Xj与{C1,C2,…,Ck}中聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回步骤S6;
S8、若当前聚类中心个数k等于聚类类别数K,则输出K个初始聚类中心C={C1,C2,…,CK},否则返回步骤S6;
S9、运用K-均值聚类算法对整个样本集进行聚类,输出聚类结果。
进一步地,步骤S2中,样本集中对象两两之间的距离的计算过程具体为:
假设样本集中两对象分别为Xi、Xj,其中Xi={Xi1,Xi2,…,Xim},Xj={Xj1,Xj2,…,Xjm},则Xi与Xj的距离dij为:
进一步地,步骤S3中,计算样本集总体平均差异度M的过程具体为:
计算样本Xi的平均差异度为:
计算样本集的总体平均差异度为:
进一步地,在步骤S4中,邻域半径值δ的计算过程为:δ=M/4。
进一步地,在步骤S3中,邻域定义为:
设<U,Δ>为一非空度量空间,其中U为对象的非空有限集,以X∈U为中心、以δ为半径的闭球,称为X中每个样本数据的δ邻域,定义为:
n(X)={y∈U|Δ(X,y)≤δ};
其中:δ≥0,Δ为距离函数,采用欧式距离。
进一步地,距离矩阵D具体为:其中dij为Xi与Xj的距离。
进一步地,矩阵N具体为:其中Ni为样本点Xi的δ邻域内样本数量。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于邻域信息和平均差异度的K-means初始聚类中心优选方法,其特征在于,包括:
S1、输入n个对象的样本集X={X1,X2,…,Xi,…,Xn},Xi为m维向量,确定聚类类数K,初始化当前确定的初始聚类中心个数k=0;
S2、计算样本集中对象两两之间的距离,并形成距离矩阵D;
S3、计算样本集总体平均差异度M,确定邻域半径值δ,
S4、基于距离矩阵D,计算每个样本点Xi的δ邻域内样本数量Ni,形成矩阵N;
S5、将矩阵N中δ邻域内样本数量最大Ni对应的样本点Xi作为第1个聚类中心C1,令k=k+1,并在矩阵N中将最大Ni置0;
S6、继续查找矩阵N中δ邻域内样本数量最大Nj对应的样本点Xj,计算其与已有聚类中心{C1,C2,…,Ck}的距离,并在矩阵N中将最大Nj置0;
S7、若Xj与{C1,C2,…,Ck}中聚类中心的距离均不小于平均差异度M,则k=k+1,Ck+1=Xj,否则返回步骤S6;
S8、若当前聚类中心个数k等于聚类类别数K,则输出K个初始聚类中心C={C1,C2,…,CK},否则返回步骤S6;
S9、运用K-均值聚类算法对整个样本集进行聚类,输出聚类结果。
2.如权利要求1所述的方法,其特征在于,所述的步骤S2中,样本集中对象两两之间的距离的计算过程具体为:
假设样本集中两对象分别为Xi、Xj,其中Xi={xi1,xi2,…,xim},Xj={xj1,xj2,…,xjm},则Xi与Xj的距离dij为:
<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <mn>...</mn> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>m</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>m</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
3.如权利要求2所述的方法,其特征在于,所述的步骤S3中,计算样本集总体平均差异度M的过程具体为:
计算样本Xi的平均差异度为:
<mrow> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mi>n</mi> <mo>;</mo> </mrow>
计算样本集的总体平均差异度为:
<mrow> <mi>M</mi> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>d</mi> <mi>i</mi> </msub> <mo>/</mo> <mi>n</mi> <mo>.</mo> </mrow>
CN201710849046.4A 2017-09-19 2017-09-19 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法 Pending CN107578070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710849046.4A CN107578070A (zh) 2017-09-19 2017-09-19 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710849046.4A CN107578070A (zh) 2017-09-19 2017-09-19 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法

Publications (1)

Publication Number Publication Date
CN107578070A true CN107578070A (zh) 2018-01-12

Family

ID=61032940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710849046.4A Pending CN107578070A (zh) 2017-09-19 2017-09-19 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法

Country Status (1)

Country Link
CN (1) CN107578070A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN109063781A (zh) * 2018-08-14 2018-12-21 浙江理工大学 一种仿自然色彩功能和形式的模糊意象织物设计方法
CN111860700A (zh) * 2020-09-22 2020-10-30 深圳须弥云图空间科技有限公司 一种能耗分类方法、装置、存储介质及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN109063781A (zh) * 2018-08-14 2018-12-21 浙江理工大学 一种仿自然色彩功能和形式的模糊意象织物设计方法
CN111860700A (zh) * 2020-09-22 2020-10-30 深圳须弥云图空间科技有限公司 一种能耗分类方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN111814584B (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
US20200160124A1 (en) Fine-grained image recognition
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN109273054B (zh) 基于关系图谱的蛋白质亚细胞区间预测方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
TWI464604B (zh) 資料分群方法與裝置、資料處理裝置及影像處理裝置
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN105631416A (zh) 采用新型密度聚类进行人脸识别的方法
CN109241816B (zh) 一种基于标签优化的图像再识别系统及损失函数确定方法
CN110516533B (zh) 一种基于深度度量的行人再辨识方法
CN107194351B (zh) 基于韦伯局部对称图结构的人脸识别特征提取方法
CN110705648A (zh) 大规模多视图数据自降维K-means算法及系统
CN107578070A (zh) 基于邻域信息和平均差异度的K‑means初始聚类中心优选方法
CN107358172B (zh) 一种基于人脸朝向分类的人脸特征点初始化方法
CN102663681B (zh) 基于排序k-均值算法的灰度图像分割方法
CN110378272B (zh) 基于矩阵分块Isomap算法的高光谱遥感影像特征提取方法
CN112115806A (zh) 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
WO2020114109A1 (zh) 嵌入结果的解释方法和装置
CN110188864B (zh) 基于分布表示和分布度量的小样本学习方法
CN109948662B (zh) 一种基于K-means和MMD的人脸图像深度聚类方法
CN103577825B (zh) 合成孔径声纳图像的目标自动识别方法以及自动识别系统
CN115344693A (zh) 一种基于传统算法和神经网络算法融合的聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180112

RJ01 Rejection of invention patent application after publication