CN103838863A

CN103838863A - 一种基于云计算平台的大数据聚类算法

Info

Publication number: CN103838863A
Application number: CN201410104227.0A
Authority: CN
Inventors: 孟海东; 任敬佩; 宋宇辰
Original assignee: Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia University of Science and Technology
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2014-06-04
Anticipated expiration: 2034-03-14
Also published as: CN103838863B

Abstract

本发明公开了一种基于云计算平台的大数据聚类算法，对原始数据进行预处理；将数据分割为M个子数据，并分配给M个Map函数；对子数据进行局部聚类；对相同key的类进行合并；如果实际聚类个数R小于聚类个数k，则调整代表点个数c与收缩因子a，重新进行聚类，直到达到结束条件为止。如果有新的数据集产生，则依据判断条件：如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数，进行局部聚类。该方法利用云计算的高性能集群系统的并行计算能力来解决聚类面临的海量数据处理问题，以便能够快速，有效的挖掘出数据的关系。

Description

一种基于云计算平台的大数据聚类算法

技术领域

本发明属于数据挖掘技术领域，涉及一种基于云计算平台的大数据聚类算法。

背景技术

聚类分析作为统计学、机器学习和数据挖掘等领域的交叉学科，吸引了众多研究者投身其中，使之成为数据挖掘研究领域的一个非常活跃的研究课题。迄今为止国内外的研究者们提出了很多聚类算法，主要的聚类方法可以分为：基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。

在2012年8月21日举办的“第六届移动互联网国际研讨会”上，美国卡内基梅隆计算机机器人专业博士邓侃表示，发现大数据中的价值，要依靠数据挖掘的算法，并且要有数据挖掘的算法加上云计算的并行计算。分布式的云存储平台则提供更加廉洁的成本和高处理性能，加上高效的数据挖掘算法，成为了解决大数据问题的良药。

英国南安普顿大学《云计算下的海量数据挖掘研究》中提到云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。介绍基于云计算Hadoop集群框架和数据挖掘技术中的SPRINT(Scalable Parallelizable Induction of Decision of Trees，一种具有可伸缩性的决策树分类算法)分类算法的基础上，详细描述SPRINT并行算法在Hadoop(一种分布式编程框架)中的MapReduce(一个数据处理模型)编程模型上的执行流程，并利用分析出的决策树模型对输入数据进行分类。

目前，基于云计算平台的数据挖掘工作已取得众多成果。Apache Mahout(ApacheSoftWare Foudation旗下的一个开源项目)项目开发出多种面向商业角度的并行数据挖掘算法；中国科学院计算技术研究所推出的并行分布式数据挖掘平台(PDMiner，ParallelDistributed Miner)已可实现TB级别的海量数据处理；中国移动通信的并行数据挖掘工具(BC-PDM，Blue Carrier based Parallel Data Mining)更是提供了基于Web的服务模式。这些标志性成果，大力推动了该领域的发展。在云计算编程模型MapReduce的基础上，已有多种数据挖掘算法被实现。2007年CHU等学者提出了基于MapReduce的朴素贝叶斯分类算法。该算法采用分布处理的思想，通过采用对样本进行分散统计与集中整合的方式来构造分类器，但它能处理离散型数据，不能对连续型数据提供有效的支持。另外，数据挖掘工作中常用聚类算法的MapReduce实现，就我们所知道的范围内，尚未见到相关权威报道。

当前，国内外在对聚类方法的研究上还多停留在串行法的优化上。串行聚类算法在统计和数据库领域得到了大量的研究和应用，如K-Means(K平均方法)算法、面向大规模数据库系统的综合层次聚类(BIRCH，Balanced Reducing and Clustering Using Hierarchies)算法、处理空间数据的统计信息网格(STING，Statistical Information Grid)算法等。面对日益增长的海量数据库和高维数据类型，为了获得更好的计算能力，研究并行模型下的聚类算法，利用集群的高速计算能力来解决大数据的聚类运算，具有非常重要的意义。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。因此，各大IT厂商均在大力投资云计算的研究，推广各自的云计算服务和产品的谷歌、亚马逊、IBM、微软和雅虎(Google、Amazon、IBM、Microsoft和Yahoo！)等大公司是云计算的先行者。

Google当数最大的云计算的使用者。目前，Google已经允许第三方在Google的云计算中通过GoogleApp Engine(谷歌应用搜索引擎)运行大型并行应用程序。MapReduce是由Google在2004年最先提出的分布式计算编程框架，它可以支持大数据量的分布式处理。

Hadoop是Apache开源组织的一个分布式计算开源架构，在很多大型网站上都已得到了应用，Hadoop框架中最核心的设计是MapReduce和Hadoop分布式文件系统(HDFS，Hadoop Distributed File System)。Amazon使用弹性计算云(EC2，Elastic Compute Cloud)和简单存储服务(S3，Simple Storage Service)为企业提供计算和存储服务。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台，为客户带来即买即用的云计算平台。微软紧跟云计算步伐，于2008年10月推出Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后，微软的又一次颠覆性转型，通过在互联网架构上打造新云计算平台，让Windows真正由PC延伸到“蓝天”。

在我国，云计算发展也非常迅猛。2008年IBM先后在中国无锡和北京建立了两个云计算中心；世纪互联推出了CloudEx(云快线弹性云计算平台)产品线，提供互联网主机服务、在线存储虚拟化服务等；中国移动研究院已经建立起1024个CPU的云计算实验中心；解放军理工大学研制了云存储系统MassCloud(海量云存储平台)，并以它支撑基于3G的大规模视频监控应用和数字地球系统。

基于数据挖掘聚类研究的现状，现有的对于大数据聚类的挖掘，采用的方法多是采用对数据的抽样，选取具有代表性的数据，实现以点代面的聚类分析。在面对大数据处理时，一般采用的是基于样本抽取概率的方法实现，但抽样方法没有考虑数据点之间或区间之间全局的相对距离以及数据分布不均匀，出现划分区间过硬的问题。虽然后来，又引入聚类、模糊概念以及云模型等对区间划分过硬问题进行了改善，也取得了很好的效果，但这些方法均没有考虑大数据数据点对知识发现任务的不同作用。因此，为使挖掘得到的聚类规则更有效，更快速，必须从充分考虑数据点的不同作用入手，对聚类分析进行更深入的研究。而云计算正是基于现实中的大数据数据点之间的处理而提出的，这为挖掘更有效聚类规则提供了强大的理论基础。

发明内容

本发明的目的在于克服上述技术存在的缺陷，提供一种基于云计算平台的大数据聚类算法，该方法利用云计算的高性能集群系统的并行计算能力来解决聚类面临的大数据处理问题，以便能够快速，有效的挖掘出数据的关系。其具体技术方案为：

一种基于云计算平台的大数据聚类算法，包括以下步骤：

(1)对原始数据进行预处理；

其基本思想为：首先，扫描整个数据源，查看是否存在空值，补充遗漏值；遗漏值的选取根据空值所在的那一维的平均值进行补充；其次，对数据集进行向量化并进行分割，分割后将数据块分布到节点上，各个节点把数据块分配给M个Map函数，在函数中设置一个阈值T(点与点之间的距离)、M(簇内所允许最少的个数)，选取c个距离相距最远的点作为代表点进行聚类，将符合T要求的点聚为一类，放到一个簇中，如此循环直到没有符合的点为止，然后把剩余的点划分为一类，形成一个簇，并且在每个簇用(N(簇内所有点的数目)，SUM(所有点每维向量之和)，SUMSQ(所有点在每一维的分量平方和))表示一个簇的中心；最后，查看最终形成的簇中点的个数，如果簇内个数少于M，则把该簇内所有点删除，否则形成一个数据集合U，得到一个聚类个数K。具体步骤如下：

1：扫描整个数据集查看在各维中是否存有空值，补充遗漏值；

2：对数据集进行向量化；

3：将数据集分割为M个子数据，分配到各个子节点；

4：将M个子数据分配给M个Map函数，每一个Map任务处理一个数据分片；

5：在Map阶段，对子数据进行局部聚类，选取c个间距为最远距离的代表点；

6：如果点与点之间的间距小于T，则聚为一类；否则，将剩下的点划分为一个簇；

7：计算各个簇内点的个数，如果簇内点的个数小于M，那么把该簇删除；

8：在Reduce阶段，把所有簇形成一个新的数据集U，计算簇的个数K，并且每个簇的中心点用(N，SUM，SUMSQ)表示。

(2)将数据集U分割为M个子数据，并分配M个Map函数；

(3)在Map阶段，对子数据进行局部聚类，选取c个间距为最远距离的代表点；

(4)计算各个簇的中心点(N，SUM，SUMSQ)；

(5)在Reduce阶段，对相同key的类进行合并；形成的簇中心为(N1+N2---+Ni，SUM1+SUM2----+SUMi，SUMSQ1+SUMSQ2----+SUMSQi)；

(6)如果实际聚类个数R小于聚类个数K，则调整代表点个数c与收缩因子a，重新进行聚类，直到达到结束条件为止。

(7)由于大数据不仅具有高维与海量数据的特征，而且还具有数据产生和数据更新快的特点；因此，基于此特点本算法采用以下方法进行解决；

其基本思想为：首先，将新数据源进行预处理(同上)，获得新数据源的数据集U和聚类的中心点的个数K以及所有数据点数N；其次，如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数，那么，把新数据源与没更新的数据源重新进行数据集分割；反之，没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割；然后把子集分配到各个子节点上，分配给若干个Map函数，进行局部聚类；如果是第一种情况，那么K选取为[(K_新+K_旧)/2]，反之，K选取为没有更新前K的值；然后重复3、4、5、6阶段(预处理阶段)；具体步骤如下：

1：对新数据源进行预处理(同上)；

2：向量化数据集；

3：判断新数据源点数N与中心点个数K和没有更新前数据源点数N与中心点个数K的大小；

4：如果N_新＞N_旧||K_新＞K_旧，那么两个数据集重新进行分割，K＝[(K_新+K_旧)/2]；反之，没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割，K＝K_旧；

5：将数据集U分割为M个子数据，并分配M个Map函数；

6：在Map阶段，对子数据进行局部聚类，选取c个间距为最远距离的代表点；

7：计算各个簇的中心点(N，SUM，SUMSQ)；

8：在Reduce阶段，对相同key的类进行合并；形成的簇中心为(N1+N2---+Ni，SUM1+SUM2----+SUMi，SUMSQ1+SUMSQ2----+SUMSQi)；

9：如果实际聚类个数R小于聚类个数K，则调整代表点个数c与收缩因子a，重新进行聚类，直到达到结束条件为止。

与现有技术相比，本发明的有益效果为：本发明利用云计算的高性能集群系统的并行计算能力来解决聚类面临的大数据处理问题；以并行聚类为目标，提出了新的聚类思路和改进方法；企业的数据处理成本大大的降低，同时也不再依存于高性能的机器；基于云计算的大数据挖掘开发方便，屏蔽了底层。在并行化条件下，云计算能够利用原有设备提高对大规模数据的处理能力和速度，既保证了容错性，也增加结点；实现了云计算对数据挖掘中聚类分析的作用，实现一个新的抽象模型，而将并行化、容错、数据分布、负载均衡的等杂乱细节进行屏蔽，就能够快速的对数据进行处理，从而挖掘出数据之间的关联性，得到大数据对于现代生活巨大影响性，解决数据挖掘面对大数据的处理问题。

附图说明

图1为本发明基于云计算平台的大数据聚类算法中大数据的预处理流程图；

图2为本发明在云计算平台的大数据聚类算法中大数据聚类算法流程图；

图3为本发明基于云计算平台的大数据更新后聚类算法流程图。

具体实施方式

下面结合具体实施例对本发明的技术方案作进一步详细地说明。

参照图1、2、3，图1中，T：点与点之间的距离；M：簇内包括点的个数；N：簇内点的个数；SUM：所有点每一维向量和；SUMSQ：所有点每一维分量平方和。图3中，N1：初始数据源的点的数目；N2：新数据源的数目；K1：初始聚类数目；K2：新预处理的聚类数目；Pi：初始簇的中心点；K＝[(K1+K2)/2]。

一种基于云计算平台的大数据聚类算法，包括以下步骤：

(1)对原始数据进行预处理；

2：对数据集进行向量化；

3：将数据集分割为M个子数据，分配到各个子节点；

(2)将数据集U分割为M个子数据，并分配M个Map函数；

(4)计算各个簇的中心点(N，SUM，SUMSQ)；

1：对新数据源进行预处理(同上)；

2：向量化数据集；

5：将数据集U分割为M个子数据，并分配M个Map函数；

7：计算各个簇的中心点(N，SUM，SUMSQ)；

确定算法的有效性与时效性

为了验证基于Hadoop平台下大数据聚类算法的有效性和时效性，本算法采用几组测试数据集进行验证。利用经典UCI数据集以及Public Data Sets(亚马逊从2008年开始为开发者提供几十TB的开发数据集)，测试基于云计算平台下的大数据聚类结果的有效性和时效性。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims

1.一种基于云计算平台的大数据聚类算法，其特征在于，包括以下步骤：

1)对原始数据集进行预处理；

2)将数据U分割为M个子数据，并分配给M个Map函数；

3)在Map阶段，对子数据进行局部聚类；

4)在Reduce阶段，对相同key的类进行合并；

5)如果实际聚类个数R小于聚类个数k，则调整代表点个数c与收缩因子，重新进行聚类，直到达到结束条件为止；

6)如果N_新＞N_旧||K_新＞K_旧，那么两个数据集重新进行分割，K＝[(K_新+K_旧)/2]；反之，没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割，K＝K_旧；

7)重复3)、4)、5)阶段直结束条件为止。