Nothing Special   »   [go: up one dir, main page]

CN104933089A - 一种基于加速迭代的大数据集谱聚类的方法 - Google Patents

一种基于加速迭代的大数据集谱聚类的方法 Download PDF

Info

Publication number
CN104933089A
CN104933089A CN201510249161.9A CN201510249161A CN104933089A CN 104933089 A CN104933089 A CN 104933089A CN 201510249161 A CN201510249161 A CN 201510249161A CN 104933089 A CN104933089 A CN 104933089A
Authority
CN
China
Prior art keywords
big data
data set
iteration
accelerating
spectrum clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510249161.9A
Other languages
English (en)
Inventor
傅涛
朱平
蒋霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU BOZHI SOFTWARE TECHNOLOGY Co Ltd
Original Assignee
JIANGSU BOZHI SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU BOZHI SOFTWARE TECHNOLOGY Co Ltd filed Critical JIANGSU BOZHI SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201510249161.9A priority Critical patent/CN104933089A/zh
Publication of CN104933089A publication Critical patent/CN104933089A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于加速迭代的大数据集谱聚类的方法,它涉及大数据集处理技术领域,它的方法为:步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;步骤三:利用分解得到的子空间进行并行求解;步骤四:利用迭代算法进行分析;步骤五:算法特征向量分析;它根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。

Description

一种基于加速迭代的大数据集谱聚类的方法
技术领域:
本发明涉及大数据集处理技术领域,具体涉及一种基于加速迭代的大数据集谱聚类的方法。
背景技术:
大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
传统谱聚类算法的诸多优点只适合小数据集,在运行大数据集时存在速度慢,反应迟钝。
发明内容:
本发明的目的是提供一种基于加速迭代的大数据集谱聚类的方法,它根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
为了解决背景技术所存在的问题,本发明是采用如下技术方案:它的方法为:
步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
步骤三:利用分解得到的子空间进行并行求解;
步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA;
步骤五:算法特征向量分析。
本发明具有如下有益效果:根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
具体实施方式:
本具体实施方式采用如下技术方案:它的方法为:
步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
步骤三:利用分解得到的子空间进行并行求解;
步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA;
步骤五:算法特征向量分析。
本具体实施方式根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于加速迭代的大数据集谱聚类的方法,其特征在于它的方法为:
步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
步骤三:利用分解得到的子空间进行并行求解;
步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA;
步骤五:算法特征向量分析。
CN201510249161.9A 2015-05-15 2015-05-15 一种基于加速迭代的大数据集谱聚类的方法 Pending CN104933089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510249161.9A CN104933089A (zh) 2015-05-15 2015-05-15 一种基于加速迭代的大数据集谱聚类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510249161.9A CN104933089A (zh) 2015-05-15 2015-05-15 一种基于加速迭代的大数据集谱聚类的方法

Publications (1)

Publication Number Publication Date
CN104933089A true CN104933089A (zh) 2015-09-23

Family

ID=54120257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510249161.9A Pending CN104933089A (zh) 2015-05-15 2015-05-15 一种基于加速迭代的大数据集谱聚类的方法

Country Status (1)

Country Link
CN (1) CN104933089A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200738A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 数据特征提取的方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈丽敏 等: "一种基于加速迭代的大数据集谱聚类的方法", 《计算机科学》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200738A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 数据特征提取的方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Ma et al. From the connectivity index to various Randić-type descriptors
Zhang et al. ABCluster: the artificial bee colony algorithm for cluster global optimization
Gajawada et al. Missing value imputation method based on clustering and nearest neighbours
Kiran The analysis of peculiar control parameters of artificial bee colony algorithm on the numerical optimization problems
Rao Machine learning the many-body localization transition in random spin systems
Ren et al. Immune genetic algorithm for multi-objective flexible job-shop scheduling problem
Dell’Aquila et al. Modeling heavy-ion fusion cross section data via a novel artificial intelligence approach
CN104933089A (zh) 一种基于加速迭代的大数据集谱聚类的方法
Sokolov et al. Predicting Malware Attacks using Machine Learning and AutoAI.
Nahar et al. Foundations, Themes, And Research Clusters In Artificial Intelligence And Machine Learning In Finance: A Bibliometric Analysis
Gupta et al. A classification method to classify high dimensional data
Gallas et al. Utility of collecting metadata to manage a large scale conditions database in ATLAS
Tsompanas et al. Utilizing differential evolution into optimizing targeted cancer treatments
Ravie et al. Enhancing the Simulation of Membrane System on the GPU for the N‐Queens Problem
CN107256203A (zh) 一种矩阵向量乘法的实现方法和装置
Li et al. AINet-SL: artificial immune network with social learning and its application in FIR filter designing
Tanaś Evolution of quantum correlations in a two-atom system
Guan et al. Energy spectrum of a harmonically trapped two-atom system with spin–orbit coupling
Zhang et al. High performance of a GPU-accelerated variant calling tool in genome data analysis
NEAGA et al. Towards Big Data Mining and Discovery
Gligorov et al. Performance and upgrade plans of the LHCb trigger system
Mao et al. Mapping Whole DNA Sequence on Variant Maps
CN105630896A (zh) 一种快速导入海量数据的方法
Li et al. Special section on big data and service computing
Merlo et al. Computing structural types of clone syntactic blocks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150923

WD01 Invention patent application deemed withdrawn after publication