CN103838863A - 一种基于云计算平台的大数据聚类算法 - Google Patents
一种基于云计算平台的大数据聚类算法 Download PDFInfo
- Publication number
- CN103838863A CN103838863A CN201410104227.0A CN201410104227A CN103838863A CN 103838863 A CN103838863 A CN 103838863A CN 201410104227 A CN201410104227 A CN 201410104227A CN 103838863 A CN103838863 A CN 103838863A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- cloud computing
- carried out
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于云计算平台的大数据聚类算法,对原始数据进行预处理;将数据分割为M个子数据,并分配给M个Map函数;对子数据进行局部聚类;对相同key的类进行合并;如果实际聚类个数R小于聚类个数k,则调整代表点个数c与收缩因子a,重新进行聚类,直到达到结束条件为止。如果有新的数据集产生,则依据判断条件:如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数,进行局部聚类。该方法利用云计算的高性能集群系统的并行计算能力来解决聚类面临的海量数据处理问题,以便能够快速,有效的挖掘出数据的关系。
Description
技术领域
本发明属于数据挖掘技术领域,涉及一种基于云计算平台的大数据聚类算法。
背景技术
聚类分析作为统计学、机器学习和数据挖掘等领域的交叉学科,吸引了众多研究者投身其中,使之成为数据挖掘研究领域的一个非常活跃的研究课题。迄今为止国内外的研究者们提出了很多聚类算法,主要的聚类方法可以分为:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。
在2012年8月21日举办的“第六届移动互联网国际研讨会”上,美国卡内基梅隆计算机机器人专业博士邓侃表示,发现大数据中的价值,要依靠数据挖掘的算法,并且要有数据挖掘的算法加上云计算的并行计算。分布式的云存储平台则提供更加廉洁的成本和高处理性能,加上高效的数据挖掘算法,成为了解决大数据问题的良药。
英国南安普顿大学《云计算下的海量数据挖掘研究》中提到云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。介绍基于云计算Hadoop集群框架和数据挖掘技术中的SPRINT(Scalable Parallelizable Induction of Decision of Trees,一种具有可伸缩性的决策树分类算法)分类算法的基础上,详细描述SPRINT并行算法在Hadoop(一种分布式编程框架)中的MapReduce(一个数据处理模型)编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。
目前,基于云计算平台的数据挖掘工作已取得众多成果。Apache Mahout(ApacheSoftWare Foudation旗下的一个开源项目)项目开发出多种面向商业角度的并行数据挖掘算法;中国科学院计算技术研究所推出的并行分布式数据挖掘平台(PDMiner,ParallelDistributed Miner)已可实现TB级别的海量数据处理;中国移动通信的并行数据挖掘工具(BC-PDM,Blue Carrier based Parallel Data Mining)更是提供了基于Web的服务模式。这些标志性成果,大力推动了该领域的发展。在云计算编程模型MapReduce的基础上,已有多种数据挖掘算法被实现。2007年CHU等学者提出了基于MapReduce的朴素贝叶斯分类算法。该算法采用分布处理的思想,通过采用对样本进行分散统计与集中整合的方式来构造分类器,但它能处理离散型数据,不能对连续型数据提供有效的支持。另外,数据挖掘工作中常用聚类算法的MapReduce实现,就我们所知道的范围内,尚未见到相关权威报道。
当前,国内外在对聚类方法的研究上还多停留在串行法的优化上。串行聚类算法在统计和数据库领域得到了大量的研究和应用,如K-Means(K平均方法)算法、面向大规模数据库系统的综合层次聚类(BIRCH,Balanced Reducing and Clustering Using Hierarchies)算法、处理空间数据的统计信息网格(STING,Statistical Information Grid)算法等。面对日益增长的海量数据库和高维数据类型,为了获得更好的计算能力,研究并行模型下的聚类算法,利用集群的高速计算能力来解决大数据的聚类运算,具有非常重要的意义。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。因此,各大IT厂商均在大力投资云计算的研究,推广各自的云计算服务和产品的谷歌、亚马逊、IBM、微软和雅虎(Google、Amazon、IBM、Microsoft和Yahoo!)等大公司是云计算的先行者。
Google当数最大的云计算的使用者。目前,Google已经允许第三方在Google的云计算中通过GoogleApp Engine(谷歌应用搜索引擎)运行大型并行应用程序。MapReduce是由Google在2004年最先提出的分布式计算编程框架,它可以支持大数据量的分布式处理。
Hadoop是Apache开源组织的一个分布式计算开源架构,在很多大型网站上都已得到了应用,Hadoop框架中最核心的设计是MapReduce和Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)。Amazon使用弹性计算云(EC2,Elastic Compute Cloud)和简单存储服务(S3,Simple Storage Service)为企业提供计算和存储服务。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。微软紧跟云计算步伐,于2008年10月推出Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型,通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”。
在我国,云计算发展也非常迅猛。2008年IBM先后在中国无锡和北京建立了两个云计算中心;世纪互联推出了CloudEx(云快线弹性云计算平台)产品线,提供互联网主机服务、在线存储虚拟化服务等;中国移动研究院已经建立起1024个CPU的云计算实验中心;解放军理工大学研制了云存储系统MassCloud(海量云存储平台),并以它支撑基于3G的大规模视频监控应用和数字地球系统。
基于数据挖掘聚类研究的现状,现有的对于大数据聚类的挖掘,采用的方法多是采用对数据的抽样,选取具有代表性的数据,实现以点代面的聚类分析。在面对大数据处理时,一般采用的是基于样本抽取概率的方法实现,但抽样方法没有考虑数据点之间或区间之间全局的相对距离以及数据分布不均匀,出现划分区间过硬的问题。虽然后来,又引入聚类、模糊概念以及云模型等对区间划分过硬问题进行了改善,也取得了很好的效果,但这些方法均没有考虑大数据数据点对知识发现任务的不同作用。因此,为使挖掘得到的聚类规则更有效,更快速,必须从充分考虑数据点的不同作用入手,对聚类分析进行更深入的研究。而云计算正是基于现实中的大数据数据点之间的处理而提出的,这为挖掘更有效聚类规则提供了强大的理论基础。
发明内容
本发明的目的在于克服上述技术存在的缺陷,提供一种基于云计算平台的大数据聚类算法,该方法利用云计算的高性能集群系统的并行计算能力来解决聚类面临的大数据处理问题,以便能够快速,有效的挖掘出数据的关系。其具体技术方案为:
一种基于云计算平台的大数据聚类算法,包括以下步骤:
(1)对原始数据进行预处理;
其基本思想为:首先,扫描整个数据源,查看是否存在空值,补充遗漏值;遗漏值的选取根据空值所在的那一维的平均值进行补充;其次,对数据集进行向量化并进行分割,分割后将数据块分布到节点上,各个节点把数据块分配给M个Map函数,在函数中设置一个阈值T(点与点之间的距离)、M(簇内所允许最少的个数),选取c个距离相距最远的点作为代表点进行聚类,将符合T要求的点聚为一类,放到一个簇中,如此循环直到没有符合的点为止,然后把剩余的点划分为一类,形成一个簇,并且在每个簇用(N(簇内所有点的数目),SUM(所有点每维向量之和),SUMSQ(所有点在每一维的分量平方和))表示一个簇的中心;最后,查看最终形成的簇中点的个数,如果簇内个数少于M,则把该簇内所有点删除,否则形成一个数据集合U,得到一个聚类个数K。具体步骤如下:
1:扫描整个数据集查看在各维中是否存有空值,补充遗漏值;
2:对数据集进行向量化;
3:将数据集分割为M个子数据,分配到各个子节点;
4:将M个子数据分配给M个Map函数,每一个Map任务处理一个数据分片;
5:在Map阶段,对子数据进行局部聚类,选取c个间距为最远距离的代表点;
6:如果点与点之间的间距小于T,则聚为一类;否则,将剩下的点划分为一个簇;
7:计算各个簇内点的个数,如果簇内点的个数小于M,那么把该簇删除;
8:在Reduce阶段,把所有簇形成一个新的数据集U,计算簇的个数K,并且每个簇的中心点用(N,SUM,SUMSQ)表示。
(2)将数据集U分割为M个子数据,并分配M个Map函数;
(3)在Map阶段,对子数据进行局部聚类,选取c个间距为最远距离的代表点;
(4)计算各个簇的中心点(N,SUM,SUMSQ);
(5)在Reduce阶段,对相同key的类进行合并;形成的簇中心为(N1+N2---+Ni,SUM1+SUM2----+SUMi,SUMSQ1+SUMSQ2----+SUMSQi);
(6)如果实际聚类个数R小于聚类个数K,则调整代表点个数c与收缩因子a,重新进行聚类,直到达到结束条件为止。
(7)由于大数据不仅具有高维与海量数据的特征,而且还具有数据产生和数据更新快的特点;因此,基于此特点本算法采用以下方法进行解决;
其基本思想为:首先,将新数据源进行预处理(同上),获得新数据源的数据集U和聚类的中心点的个数K以及所有数据点数N;其次,如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数,那么,把新数据源与没更新的数据源重新进行数据集分割;反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割;然后把子集分配到各个子节点上,分配给若干个Map函数,进行局部聚类;如果是第一种情况,那么K选取为[(K新+K旧)/2],反之,K选取为没有更新前K的值;然后重复3、4、5、6阶段(预处理阶段);具体步骤如下:
1:对新数据源进行预处理(同上);
2:向量化数据集;
3:判断新数据源点数N与中心点个数K和没有更新前数据源点数N与中心点个数K的大小;
4:如果N新>N旧||K新>K旧,那么两个数据集重新进行分割,K=[(K新+K旧)/2];反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割,K=K旧;
5:将数据集U分割为M个子数据,并分配M个Map函数;
6:在Map阶段,对子数据进行局部聚类,选取c个间距为最远距离的代表点;
7:计算各个簇的中心点(N,SUM,SUMSQ);
8:在Reduce阶段,对相同key的类进行合并;形成的簇中心为(N1+N2---+Ni,SUM1+SUM2----+SUMi,SUMSQ1+SUMSQ2----+SUMSQi);
9:如果实际聚类个数R小于聚类个数K,则调整代表点个数c与收缩因子a,重新进行聚类,直到达到结束条件为止。
与现有技术相比,本发明的有益效果为:本发明利用云计算的高性能集群系统的并行计算能力来解决聚类面临的大数据处理问题;以并行聚类为目标,提出了新的聚类思路和改进方法;企业的数据处理成本大大的降低,同时也不再依存于高性能的机器;基于云计算的大数据挖掘开发方便,屏蔽了底层。在并行化条件下,云计算能够利用原有设备提高对大规模数据的处理能力和速度,既保证了容错性,也增加结点;实现了云计算对数据挖掘中聚类分析的作用,实现一个新的抽象模型,而将并行化、容错、数据分布、负载均衡的等杂乱细节进行屏蔽,就能够快速的对数据进行处理,从而挖掘出数据之间的关联性,得到大数据对于现代生活巨大影响性,解决数据挖掘面对大数据的处理问题。
附图说明
图1为本发明基于云计算平台的大数据聚类算法中大数据的预处理流程图;
图2为本发明在云计算平台的大数据聚类算法中大数据聚类算法流程图;
图3为本发明基于云计算平台的大数据更新后聚类算法流程图。
具体实施方式
下面结合具体实施例对本发明的技术方案作进一步详细地说明。
参照图1、2、3,图1中,T:点与点之间的距离;M:簇内包括点的个数;N:簇内点的个数;SUM:所有点每一维向量和;SUMSQ:所有点每一维分量平方和。图3中,N1:初始数据源的点的数目;N2:新数据源的数目;K1:初始聚类数目;K2:新预处理的聚类数目;Pi:初始簇的中心点;K=[(K1+K2)/2]。
一种基于云计算平台的大数据聚类算法,包括以下步骤:
(1)对原始数据进行预处理;
其基本思想为:首先,扫描整个数据源,查看是否存在空值,补充遗漏值;遗漏值的选取根据空值所在的那一维的平均值进行补充;其次,对数据集进行向量化并进行分割,分割后将数据块分布到节点上,各个节点把数据块分配给M个Map函数,在函数中设置一个阈值T(点与点之间的距离)、M(簇内所允许最少的个数),选取c个距离相距最远的点作为代表点进行聚类,将符合T要求的点聚为一类,放到一个簇中,如此循环直到没有符合的点为止,然后把剩余的点划分为一类,形成一个簇,并且在每个簇用(N(簇内所有点的数目),SUM(所有点每维向量之和),SUMSQ(所有点在每一维的分量平方和))表示一个簇的中心;最后,查看最终形成的簇中点的个数,如果簇内个数少于M,则把该簇内所有点删除,否则形成一个数据集合U,得到一个聚类个数K。具体步骤如下:
1:扫描整个数据集查看在各维中是否存有空值,补充遗漏值;
2:对数据集进行向量化;
3:将数据集分割为M个子数据,分配到各个子节点;
4:将M个子数据分配给M个Map函数,每一个Map任务处理一个数据分片;
5:在Map阶段,对子数据进行局部聚类,选取c个间距为最远距离的代表点;
6:如果点与点之间的间距小于T,则聚为一类;否则,将剩下的点划分为一个簇;
7:计算各个簇内点的个数,如果簇内点的个数小于M,那么把该簇删除;
8:在Reduce阶段,把所有簇形成一个新的数据集U,计算簇的个数K,并且每个簇的中心点用(N,SUM,SUMSQ)表示。
(2)将数据集U分割为M个子数据,并分配M个Map函数;
(3)在Map阶段,对子数据进行局部聚类,选取c个间距为最远距离的代表点;
(4)计算各个簇的中心点(N,SUM,SUMSQ);
(5)在Reduce阶段,对相同key的类进行合并;形成的簇中心为(N1+N2---+Ni,SUM1+SUM2----+SUMi,SUMSQ1+SUMSQ2----+SUMSQi);
(6)如果实际聚类个数R小于聚类个数K,则调整代表点个数c与收缩因子a,重新进行聚类,直到达到结束条件为止。
(7)由于大数据不仅具有高维与海量数据的特征,而且还具有数据产生和数据更新快的特点;因此,基于此特点本算法采用以下方法进行解决;
其基本思想为:首先,将新数据源进行预处理(同上),获得新数据源的数据集U和聚类的中心点的个数K以及所有数据点数N;其次,如果新数据源中心个数K大于没有更新前获得的聚类数K或者新数据源的点数大于更新前数据源的点数,那么,把新数据源与没更新的数据源重新进行数据集分割;反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割;然后把子集分配到各个子节点上,分配给若干个Map函数,进行局部聚类;如果是第一种情况,那么K选取为[(K新+K旧)/2],反之,K选取为没有更新前K的值;然后重复3、4、5、6阶段(预处理阶段);具体步骤如下:
1:对新数据源进行预处理(同上);
2:向量化数据集;
3:判断新数据源点数N与中心点个数K和没有更新前数据源点数N与中心点个数K的大小;
4:如果N新>N旧||K新>K旧,那么两个数据集重新进行分割,K=[(K新+K旧)/2];反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割,K=K旧;
5:将数据集U分割为M个子数据,并分配M个Map函数;
6:在Map阶段,对子数据进行局部聚类,选取c个间距为最远距离的代表点;
7:计算各个簇的中心点(N,SUM,SUMSQ);
8:在Reduce阶段,对相同key的类进行合并;形成的簇中心为(N1+N2---+Ni,SUM1+SUM2----+SUMi,SUMSQ1+SUMSQ2----+SUMSQi);
9:如果实际聚类个数R小于聚类个数K,则调整代表点个数c与收缩因子a,重新进行聚类,直到达到结束条件为止。
确定算法的有效性与时效性
为了验证基于Hadoop平台下大数据聚类算法的有效性和时效性,本算法采用几组测试数据集进行验证。利用经典UCI数据集以及Public Data Sets(亚马逊从2008年开始为开发者提供几十TB的开发数据集),测试基于云计算平台下的大数据聚类结果的有效性和时效性。
以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。
Claims (1)
1.一种基于云计算平台的大数据聚类算法,其特征在于,包括以下步骤:
1)对原始数据集进行预处理;
2)将数据U分割为M个子数据,并分配给M个Map函数;
3)在Map阶段,对子数据进行局部聚类;
4)在Reduce阶段,对相同key的类进行合并;
5)如果实际聚类个数R小于聚类个数k,则调整代表点个数c与收缩因子,重新进行聚类,直到达到结束条件为止;
6)如果N新>N旧||K新>K旧,那么两个数据集重新进行分割,K=[(K新+K旧)/2];反之,没更新的数据集得到的K个簇的中心点作为K个点与新数据源组成新的数据集进行分割,K=K旧;
7)重复3)、4)、5)阶段直结束条件为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410104227.0A CN103838863B (zh) | 2014-03-14 | 2014-03-14 | 一种基于云计算平台的大数据聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410104227.0A CN103838863B (zh) | 2014-03-14 | 2014-03-14 | 一种基于云计算平台的大数据聚类算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103838863A true CN103838863A (zh) | 2014-06-04 |
CN103838863B CN103838863B (zh) | 2017-07-18 |
Family
ID=50802359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410104227.0A Expired - Fee Related CN103838863B (zh) | 2014-03-14 | 2014-03-14 | 一种基于云计算平台的大数据聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838863B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156463A (zh) * | 2014-08-21 | 2014-11-19 | 南京信息工程大学 | 一种基于MapReduce的大数据聚类集成方法 |
CN104461551A (zh) * | 2014-12-16 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 基于数据并行处理的大数据处理系统 |
CN104503820A (zh) * | 2014-12-10 | 2015-04-08 | 华南师范大学 | 一种基于异步启动的Hadoop优化方法 |
CN104699772A (zh) * | 2015-03-05 | 2015-06-10 | 孟海东 | 一种基于云计算的大数据文本分类方法 |
CN104933089A (zh) * | 2015-05-15 | 2015-09-23 | 江苏博智软件科技有限公司 | 一种基于加速迭代的大数据集谱聚类的方法 |
CN105095455A (zh) * | 2015-07-27 | 2015-11-25 | 中国联合网络通信集团有限公司 | 一种数据连接优化方法和数据运算系统 |
CN105468698A (zh) * | 2015-11-18 | 2016-04-06 | 上海电机学院 | 一种海量订单实时处理方法 |
CN106446255A (zh) * | 2016-10-18 | 2017-02-22 | 安徽天达网络科技有限公司 | 一种基于云服务器的数据处理方法 |
CN106547890A (zh) * | 2016-11-04 | 2017-03-29 | 深圳云天励飞技术有限公司 | 海量图像特征向量中的快速聚类预处理方法 |
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN109143017A (zh) * | 2018-07-31 | 2019-01-04 | 成都天衡智造科技有限公司 | 一种半导体行业生产测试数据处理方法 |
CN110781815A (zh) * | 2019-10-25 | 2020-02-11 | 四川东方网力科技有限公司 | 视频数据处理方法及系统 |
CN111460046A (zh) * | 2020-03-06 | 2020-07-28 | 合肥海策科技信息服务有限公司 | 一种基于大数据的科技信息聚类方法 |
CN112200206A (zh) * | 2019-07-08 | 2021-01-08 | 浙江宇视科技有限公司 | 基于分布式平台的birch算法改进方法、装置及设备 |
CN112286989A (zh) * | 2020-10-28 | 2021-01-29 | 上海电机学院 | 一种大数据聚类挖掘方法、平台 |
CN116595102A (zh) * | 2023-07-17 | 2023-08-15 | 法诺信息产业有限公司 | 一种改进聚类算法的大数据管理方法及系统 |
CN116882850A (zh) * | 2023-09-08 | 2023-10-13 | 山东科技大学 | 一种基于大数据的园林数据智能管理方法以及系统 |
CN117194020A (zh) * | 2023-09-04 | 2023-12-08 | 北京宝联之星科技股份有限公司 | 一种云计算的原始大数据处理方法、系统和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110072006A1 (en) * | 2009-09-18 | 2011-03-24 | Microsoft Corporation | Management of data and computation in data centers |
CN103064991A (zh) * | 2013-02-05 | 2013-04-24 | 杭州易和网络有限公司 | 一种海量数据聚类方法 |
-
2014
- 2014-03-14 CN CN201410104227.0A patent/CN103838863B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110072006A1 (en) * | 2009-09-18 | 2011-03-24 | Microsoft Corporation | Management of data and computation in data centers |
CN103064991A (zh) * | 2013-02-05 | 2013-04-24 | 杭州易和网络有限公司 | 一种海量数据聚类方法 |
Non-Patent Citations (4)
Title |
---|
JUN ZHAO .ETC: ""Parallelized Incremental Support Vector Machines Based on MapRaduce and Bagging Technique"", 《2012 IEEE INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND TECHNOLOGY》 * |
KIRAN M .ETC: ""Verification and Validation of Parallel Support Vector Machine Algorithm based on MapReduce Program Model on Hadoop Cluster"", 《ADVANCED COMPUTING AND COMMUNICATION SYSTEM (ICACCS),2013 INTERNATIONAL CONFERENCE ON》 * |
MIRKO KAMPF .ETC: ""Hadoop.TS: Large-Scale Time-Series Processing"", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 * |
顾瑞春,等: ""一种基于MapReduce的并行聚类模型"", 《计算机与现代化》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156463A (zh) * | 2014-08-21 | 2014-11-19 | 南京信息工程大学 | 一种基于MapReduce的大数据聚类集成方法 |
CN104503820B (zh) * | 2014-12-10 | 2018-07-24 | 华南师范大学 | 一种基于异步启动的Hadoop优化方法 |
CN104503820A (zh) * | 2014-12-10 | 2015-04-08 | 华南师范大学 | 一种基于异步启动的Hadoop优化方法 |
CN104461551A (zh) * | 2014-12-16 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 基于数据并行处理的大数据处理系统 |
CN104699772A (zh) * | 2015-03-05 | 2015-06-10 | 孟海东 | 一种基于云计算的大数据文本分类方法 |
CN104933089A (zh) * | 2015-05-15 | 2015-09-23 | 江苏博智软件科技有限公司 | 一种基于加速迭代的大数据集谱聚类的方法 |
CN105095455A (zh) * | 2015-07-27 | 2015-11-25 | 中国联合网络通信集团有限公司 | 一种数据连接优化方法和数据运算系统 |
CN105095455B (zh) * | 2015-07-27 | 2018-10-19 | 中国联合网络通信集团有限公司 | 一种数据连接优化方法和数据运算系统 |
CN105468698A (zh) * | 2015-11-18 | 2016-04-06 | 上海电机学院 | 一种海量订单实时处理方法 |
CN106446255A (zh) * | 2016-10-18 | 2017-02-22 | 安徽天达网络科技有限公司 | 一种基于云服务器的数据处理方法 |
CN106547890B (zh) * | 2016-11-04 | 2018-04-03 | 深圳云天励飞技术有限公司 | 海量图像特征向量中的快速聚类预处理方法 |
CN106547890A (zh) * | 2016-11-04 | 2017-03-29 | 深圳云天励飞技术有限公司 | 海量图像特征向量中的快速聚类预处理方法 |
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
WO2018219163A1 (zh) * | 2017-06-02 | 2018-12-06 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN107291847B (zh) * | 2017-06-02 | 2019-06-25 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN109143017A (zh) * | 2018-07-31 | 2019-01-04 | 成都天衡智造科技有限公司 | 一种半导体行业生产测试数据处理方法 |
CN112200206A (zh) * | 2019-07-08 | 2021-01-08 | 浙江宇视科技有限公司 | 基于分布式平台的birch算法改进方法、装置及设备 |
CN112200206B (zh) * | 2019-07-08 | 2024-02-27 | 浙江宇视科技有限公司 | 基于分布式平台的birch算法改进方法、装置及设备 |
CN110781815A (zh) * | 2019-10-25 | 2020-02-11 | 四川东方网力科技有限公司 | 视频数据处理方法及系统 |
CN110781815B (zh) * | 2019-10-25 | 2022-09-27 | 四川东方网力科技有限公司 | 视频数据处理方法及系统 |
CN111460046A (zh) * | 2020-03-06 | 2020-07-28 | 合肥海策科技信息服务有限公司 | 一种基于大数据的科技信息聚类方法 |
CN112286989A (zh) * | 2020-10-28 | 2021-01-29 | 上海电机学院 | 一种大数据聚类挖掘方法、平台 |
CN116595102A (zh) * | 2023-07-17 | 2023-08-15 | 法诺信息产业有限公司 | 一种改进聚类算法的大数据管理方法及系统 |
CN116595102B (zh) * | 2023-07-17 | 2023-10-17 | 法诺信息产业有限公司 | 一种改进聚类算法的大数据管理方法及系统 |
CN117194020A (zh) * | 2023-09-04 | 2023-12-08 | 北京宝联之星科技股份有限公司 | 一种云计算的原始大数据处理方法、系统和存储介质 |
CN117194020B (zh) * | 2023-09-04 | 2024-04-05 | 北京宝联之星科技股份有限公司 | 一种云计算的原始大数据处理方法、系统和存储介质 |
CN116882850A (zh) * | 2023-09-08 | 2023-10-13 | 山东科技大学 | 一种基于大数据的园林数据智能管理方法以及系统 |
CN116882850B (zh) * | 2023-09-08 | 2023-12-12 | 山东科技大学 | 一种基于大数据的园林数据智能管理方法以及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103838863B (zh) | 2017-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838863A (zh) | 一种基于云计算平台的大数据聚类算法 | |
CN102799486B (zh) | 一种MapReduce系统中的数据采样和划分方法 | |
Luo et al. | A parallel dbscan algorithm based on spark | |
CN106547882A (zh) | 一种智能电网中营销大数据的实时处理方法及系统 | |
CN102222092A (zh) | 一种MapReduce平台上的海量高维数据聚类方法 | |
Hao et al. | Research of Cloud Computing based on the Hadoop platform | |
Wei et al. | Incremental FP-Growth mining strategy for dynamic threshold value and database based on MapReduce | |
Moutafis et al. | Efficient processing of all-k-nearest-neighbor queries in the MapReduce programming framework | |
Ayall et al. | Graph computing systems and partitioning techniques: A survey | |
Gunarathne et al. | Portable parallel programming on cloud and hpc: Scientific applications of twister4azure | |
Mao et al. | An optimal distributed K-Means clustering algorithm based on cloudstack | |
Fu et al. | Research and application of DBSCAN algorithm based on Hadoop platform | |
Wang et al. | A BSP-based parallel iterative processing system with multiple partition strategies for big graphs | |
Shen et al. | Massive power device condition monitoring data feature extraction and clustering analysis using MapReduce and graph model | |
Xu et al. | Evaluation and trade-offs of graph processing for cloud services | |
Duan et al. | Research and Practice of Distributed Parallel Search Algorithm on Hadoop_MapReduce | |
Yu | Data processing and development of big data system: a survey | |
Sharma et al. | Parallelization of association rule mining: survey | |
Wang et al. | Spark load balancing strategy optimization based on internet of things | |
CN105183875A (zh) | 基于共享路径的FP-Growth数据挖掘方法 | |
Gao et al. | On the power of combiner optimizations in mapreduce over MPI workflows | |
Song et al. | Big data mining method of thermal power based on spark and optimization guidance | |
Lina | Application Analysis and Development Strategy of Cloud Computing Technology in Computer Data Processing | |
Cheng et al. | Stream-based particle swarm optimization for data migration decision | |
Thein et al. | Optimization of region distribution using binary partition-based matching algorithm for data distribution management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice |
Addressee: Patent director of Inner Mongolia University of science and technology Document name: Notice of termination of patent |
|
DD01 | Delivery of document by public notice | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170718 Termination date: 20200314 |
|
CF01 | Termination of patent right due to non-payment of annual fee |