CN107704872A - 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 - Google Patents
一种基于相对最离散维分割的K‑means聚类初始中心选取方法 Download PDFInfo
- Publication number
- CN107704872A CN107704872A CN201710844898.4A CN201710844898A CN107704872A CN 107704872 A CN107704872 A CN 107704872A CN 201710844898 A CN201710844898 A CN 201710844898A CN 107704872 A CN107704872 A CN 107704872A
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- relatively
- discrete
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于相对最离散维分割的K‑means聚类初始中心点选取的方法。该方法思路为:给定一个D维的数据集,s1.对数据集进行降维处理;s2.评估降维后的数据集每个维度的离散程度;s3.选择相对最离散维进行分割,依照该维均值点将所有数据分为两类;s4.选取进行分割后的类别中数据点最多的一类,按照s2和s3选取相对最离散维,将其继续按照最离散维均值点处进行分割,依照上述步骤直到分割为所需的类别数为止;s5.对每个分割好的类别中数据求均值;s6.将每个类别的均值进行升维操作,并作为K‑means聚类的初始中心点。本发明的有益效果是:降维后的数据能减少运算量,加快运算速度,使得K‑means聚类能够以更少的迭代次数达到更高的聚类准确率。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于相对最离散维分割的K-means聚类初始中心选取方法。
背景技术
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
聚类就是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间距离尽可能小,而不同类别个体间的距离尽可能大。每个类别称为簇,簇内对象的相似性较高,而簇间对象的相似性较低。根据这种特点,聚类可分为基于划分,密度,层次和网格的聚类算法等。
K-means是一种基于划分的经典聚类算法,因其简单有效的特点被广泛应用于数据挖掘,机器学习,模式识别等任务上。
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。
K-means基本原理如下:
设待聚类的数据集合:X={xi|xi∈RD,i=1,2,3,…,N};
聚类类别数为K,且K个聚类中心分别为C1,C2,…,CK;
从N个数据对象中随机选择K个初始中心;
计算每个对象与簇中心(均值点)对象的距离,并根据最近距离将对象分配给相应的簇;
对象间距离定义为欧氏距离,任意两数据点间(设为xi,xj)欧氏距离为
重新计算各个簇的均值;
重复[0010]~[0012],直到目标函数不再变化为止。
数据集中各对象与该对象所在簇的簇中心的欧氏距离之和称为目标函数,一般用字母J表示;
上述是传统的K-means算法,传统的K-means算法很容易受初始中心点的影响,如果初始中心点选的不好,可能使迭代次数增多导致计算量增大,甚至会使聚类陷入局部最优解,并不能达到想要的效果。
发明内容
本发明实施方法提出一种K-means初始中心点选取方法,可以减少K-means算法的迭代次数。
本发明实施方法提出一种K-means初始中心点选取方法,应用此方法可以使得K-means聚类结果准确率更高,不会陷入局部最优。
传统K-means算法中,初始聚类中心都是随机指定的,这样会使得K-means聚类过程中迭代次数增加,以及陷入局部最优,因此,在本发明中,设计一种初始中心点选取方法如下:
给定一个任意待聚类数据集U(包含N个D维数据点),以及聚类数K;
首先对数据集进行降维得到数据集X(包含N个d维数据点,d<=D),因为在原始数据集中,可能存在线性相关的维,通过将线性相关的维变换为线性无关的的表示,从而提取数据的主要特征分量。
在数据集Y中评估每一维的离散程度,也即计算每一维数据的方差,设xij表示第第i个数据的第j维的值,并定义Xj表示第j维的所有数据的值;
计算离散程度方法如下:
上述公式中var()表示求方差,对Y中的每一维数据求方差后,取方差值最大的那一维作为最离散维。
记最离散维数据为S(S为N×1的向量)。
计算向量S的均值Ms=mean(S)。
将S中大于Ms的值所对应的数据点划分到第一个box,S中小于Ms的值对应的数据点划分到第二个box中。
计算每个box中的数据点个数,并选择包含最多数据点的box作为下一次待操作的数据集,记为box_max。
根据[0020]-[0026],将box_max继续划分为两个box,并重复上述步骤,直到box的数量与聚类数K一致为止。
计算每个box中数据的均值Mb=[Mb1,Mb2,...,MbK]T,Mb为K×d的矩阵。
根据[0019]中的降维方法,将Mb进行升维到原始数据的维度得到Cb=[Cb1,Cb2,...,CbK]T,Cb为K×D的矩阵。
此时的Cb即为K-means聚类初始中心。
附图说明
图1为本发明实施例中基于相对最离散维分割的K-means聚类初始中心选取方法的流程图。
图2为某二维数据集的可视图。
图3为本发明实施例中使用本发明的初始中心选取方法选出的初始中心点与聚类后的中心点对比图,红色小圆圈表示本发明方法选取的初始中心点,黑色小方框表示聚类后的各类别中心。
图4为在本发明方法选择的初始中心上的聚类结果。
具体实施方式
为使本发明的目的,技术方案和优点更加清晰,下面结合附图对本发明作进一步的详细描述。
具体实施方式及流程如下:
为了数据可视化,只使用二维数据点作为实施例子,给定数据集U(420个二维数据点),聚类数为4。
因为数据集U为二维数据,故不再降维,此举并不影响对高维数据降维后的有效性。
评估二维数据的相对最离散维,根据该维将数据集一分为二。
选取两个数据集中数据点较多的那个数据集,对该数据集评估相对最离散维,再对其进行分割操作,此时,形成了3个数据集。
继续上述步骤,将选取三个数据集中数据点较多的一个数据集,评估其相对最离散维后进行分割操作,将其分为两个数据集,此时,形成四个数据集,与聚类数目一致。
对这四个数据集计算均值,因为一开始未对该数据集U进行降维操作,此处不需要对U进行升维操作,这四个数据集的均值即为K-means聚类初始中心。经过本发明方法选取的初始中心见图3。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种K-means聚类中心点初始化方法,其特征在于,该方法包括:
对任意给定的D维含N个数据的数据集,将该数据集变换为一组各维之间线性无关的表示,可用于提取该数据集的主要特征分量,即对该数据集进行降维。然后对于该数据集选取相对最离散维根据均值点进行分割,分割后得到所需的聚类类别数后,再对每个分割出的类别求均值,并进行升维操作后的数据点作为K-means聚类的初始中心点。
2.根据权利要求1的K-means聚类中心点初始化方法,其特征在于,所述的根据相对最离散维分割的方法包括:
对每一维数据的离散程度进行评估,对于相对最离散的那个维度,以该维的均值作为阈值点,数据集依据该维被分割为两个类,这两个类的数据点分别被放入两个box,再在这两个box中选取拥有更多的数据点的box作为下一个准备操作的数据集,记为box_max;对于box_max,继续计算每一维的方差,按照上述方法选取最离散的那一维,根据该维对box_max进行分割,将box_max又分割为两个box,重复上述做法,直到box的数量与聚类数K一致为止。
3.根据权利要求2中相对最离散分割方法,其特征在于,所述的相对最离散方法包括:
在进行数据分割之前,对每一维数据进行归一化(因为每一维数据可能并不是处于同一数量级),归一化后计算每一维的方差,选择方差最大的那个维作为相对最离散维。
4.根据权利要求1中K-means聚类中心点初始化方法,其特征在于,所述的降维升维方法包括:
在原始数据集中,可能存在线性相关的维,通过将线性相关的维变换为线性无关的的表示,从而提取数据的主要特征分量,在降维中用到的变换矩阵可被后面的升维操作使用以将降维后的初始聚类中心点还原为初始的维数D。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710844898.4A CN107704872A (zh) | 2017-09-19 | 2017-09-19 | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710844898.4A CN107704872A (zh) | 2017-09-19 | 2017-09-19 | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107704872A true CN107704872A (zh) | 2018-02-16 |
Family
ID=61172890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710844898.4A Pending CN107704872A (zh) | 2017-09-19 | 2017-09-19 | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704872A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717465A (zh) * | 2018-06-04 | 2018-10-30 | 哈尔滨工程大学 | 基于用户行为分析的子群发现方法 |
CN109271555A (zh) * | 2018-09-19 | 2019-01-25 | 上海哔哩哔哩科技有限公司 | 信息聚类方法、系统、服务器及计算机可读存储介质 |
CN111737469A (zh) * | 2020-06-23 | 2020-10-02 | 中山大学 | 数据挖掘方法、装置、终端设备和可读存储介质 |
CN113780404A (zh) * | 2020-01-14 | 2021-12-10 | 支付宝(杭州)信息技术有限公司 | 资源数据的处理方法及装置 |
-
2017
- 2017-09-19 CN CN201710844898.4A patent/CN107704872A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717465A (zh) * | 2018-06-04 | 2018-10-30 | 哈尔滨工程大学 | 基于用户行为分析的子群发现方法 |
CN109271555A (zh) * | 2018-09-19 | 2019-01-25 | 上海哔哩哔哩科技有限公司 | 信息聚类方法、系统、服务器及计算机可读存储介质 |
CN113780404A (zh) * | 2020-01-14 | 2021-12-10 | 支付宝(杭州)信息技术有限公司 | 资源数据的处理方法及装置 |
CN111737469A (zh) * | 2020-06-23 | 2020-10-02 | 中山大学 | 数据挖掘方法、装置、终端设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN110674407B (zh) | 基于图卷积神经网络的混合推荐方法 | |
Kadhim et al. | Text document preprocessing and dimension reduction techniques for text document clustering | |
CN109871860A (zh) | 一种基于核主成分分析的日负荷曲线降维聚类方法 | |
CN102663100A (zh) | 一种两阶段混合粒子群优化聚类方法 | |
CN106096066A (zh) | 基于随机近邻嵌入的文本聚类方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN107704872A (zh) | 一种基于相对最离散维分割的K‑means聚类初始中心选取方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN107316053A (zh) | 一种布料图像快速匹配检索方法 | |
CN106156374A (zh) | 一种基于视觉词典优化和查询扩展的图像检索方法 | |
CN104346459A (zh) | 一种基于术语频率和卡方统计的文本分类特征选择方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Tidake et al. | Multi-label classification: a survey | |
CN105868352A (zh) | 一种基于维度相关性分析的高维数据维度排序方法 | |
Mandal et al. | Unsupervised non-redundant feature selection: a graph-theoretic approach | |
Pardeshi et al. | Improved k-medoids clustering based on cluster validity index and object density | |
CN107391594A (zh) | 一种基于迭代视觉排序的图像检索方法 | |
Mohammed et al. | Weight-based firefly algorithm for document clustering | |
Kadhim et al. | Combined chi-square with k-means for document clustering | |
CN111080351A (zh) | 一种多维数据集的聚类方法及系统 | |
Vijay et al. | Hamming distance based clustering algorithm | |
Jiang et al. | A hybrid clustering algorithm | |
Devi et al. | A proficient method for text clustering using harmony search method | |
Hu et al. | A Novel clustering scheme based on density peaks and spectral analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180216 |
|
WD01 | Invention patent application deemed withdrawn after publication |