CN104933089A

CN104933089A - 一种基于加速迭代的大数据集谱聚类的方法

Info

Publication number: CN104933089A
Application number: CN201510249161.9A
Authority: CN
Inventors: 傅涛; 朱平; 蒋霞
Original assignee: JIANGSU BOZHI SOFTWARE TECHNOLOGY Co Ltd
Current assignee: JIANGSU BOZHI SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-09-23

Abstract

一种基于加速迭代的大数据集谱聚类的方法，它涉及大数据集处理技术领域，它的方法为：步骤一：将目标大数据表示成特征向量的形式，形成可供进行分析的数据库；步骤二：将分析模型的空间从特征方面进行分解，形成若干子空间；步骤三：利用分解得到的子空间进行并行求解；步骤四：利用迭代算法进行分析；步骤五：算法特征向量分析；它根据矩阵的特点重新构造新的矩阵，利用加速迭代法解决大数据集的谱聚类特征提取问题，使得在大数据集条件下，谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。

Description

一种基于加速迭代的大数据集谱聚类的方法

技术领域：

本发明涉及大数据集处理技术领域，具体涉及一种基于加速迭代的大数据集谱聚类的方法。

背景技术：

大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘，但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临，大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为，大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

传统谱聚类算法的诸多优点只适合小数据集，在运行大数据集时存在速度慢，反应迟钝。

发明内容：

本发明的目的是提供一种基于加速迭代的大数据集谱聚类的方法，它根据矩阵的特点重新构造新的矩阵，利用加速迭代法解决大数据集的谱聚类特征提取问题，使得在大数据集条件下，谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。

为了解决背景技术所存在的问题，本发明是采用如下技术方案：它的方法为：

步骤一：将目标大数据表示成特征向量的形式，形成可供进行分析的数据库；

步骤二：将分析模型的空间从特征方面进行分解，形成若干子空间；

步骤三：利用分解得到的子空间进行并行求解；

步骤四：利用迭代算法进行分析：利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA；

步骤五：算法特征向量分析。

本发明具有如下有益效果：根据矩阵的特点重新构造新的矩阵，利用加速迭代法解决大数据集的谱聚类特征提取问题，使得在大数据集条件下，谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。

具体实施方式：

本具体实施方式采用如下技术方案：它的方法为：

步骤三：利用分解得到的子空间进行并行求解；

步骤五：算法特征向量分析。

本具体实施方式根据矩阵的特点重新构造新的矩阵，利用加速迭代法解决大数据集的谱聚类特征提取问题，使得在大数据集条件下，谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于加速迭代的大数据集谱聚类的方法，其特征在于它的方法为：

步骤三：利用分解得到的子空间进行并行求解；

步骤五：算法特征向量分析。