CN104933089A - 一种基于加速迭代的大数据集谱聚类的方法 - Google Patents
一种基于加速迭代的大数据集谱聚类的方法 Download PDFInfo
- Publication number
- CN104933089A CN104933089A CN201510249161.9A CN201510249161A CN104933089A CN 104933089 A CN104933089 A CN 104933089A CN 201510249161 A CN201510249161 A CN 201510249161A CN 104933089 A CN104933089 A CN 104933089A
- Authority
- CN
- China
- Prior art keywords
- big data
- data set
- iteration
- accelerating
- spectrum clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于加速迭代的大数据集谱聚类的方法,它涉及大数据集处理技术领域,它的方法为:步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;步骤三:利用分解得到的子空间进行并行求解;步骤四:利用迭代算法进行分析;步骤五:算法特征向量分析;它根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
Description
技术领域:
本发明涉及大数据集处理技术领域,具体涉及一种基于加速迭代的大数据集谱聚类的方法。
背景技术:
大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
传统谱聚类算法的诸多优点只适合小数据集,在运行大数据集时存在速度慢,反应迟钝。
发明内容:
本发明的目的是提供一种基于加速迭代的大数据集谱聚类的方法,它根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
为了解决背景技术所存在的问题,本发明是采用如下技术方案:它的方法为:
步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
步骤三:利用分解得到的子空间进行并行求解;
步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA;
步骤五:算法特征向量分析。
本发明具有如下有益效果:根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
具体实施方式:
本具体实施方式采用如下技术方案:它的方法为:
步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
步骤三:利用分解得到的子空间进行并行求解;
步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA;
步骤五:算法特征向量分析。
本具体实施方式根据矩阵的特点重新构造新的矩阵,利用加速迭代法解决大数据集的谱聚类特征提取问题,使得在大数据集条件下,谱聚类算法只需要很小的空间复杂度就可达到非常快的计算速度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于加速迭代的大数据集谱聚类的方法,其特征在于它的方法为:
步骤一:将目标大数据表示成特征向量的形式,形成可供进行分析的数据库;
步骤二:将分析模型的空间从特征方面进行分解,形成若干子空间;
步骤三:利用分解得到的子空间进行并行求解;
步骤四:利用迭代算法进行分析:利用统计学上的效能估计概念提出了一种增量的协方差无关的方法CCIPCA;
步骤五:算法特征向量分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510249161.9A CN104933089A (zh) | 2015-05-15 | 2015-05-15 | 一种基于加速迭代的大数据集谱聚类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510249161.9A CN104933089A (zh) | 2015-05-15 | 2015-05-15 | 一种基于加速迭代的大数据集谱聚类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104933089A true CN104933089A (zh) | 2015-09-23 |
Family
ID=54120257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510249161.9A Pending CN104933089A (zh) | 2015-05-15 | 2015-05-15 | 一种基于加速迭代的大数据集谱聚类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933089A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019200738A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 数据特征提取的方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838863A (zh) * | 2014-03-14 | 2014-06-04 | 内蒙古科技大学 | 一种基于云计算平台的大数据聚类算法 |
-
2015
- 2015-05-15 CN CN201510249161.9A patent/CN104933089A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103838863A (zh) * | 2014-03-14 | 2014-06-04 | 内蒙古科技大学 | 一种基于云计算平台的大数据聚类算法 |
Non-Patent Citations (1)
Title |
---|
陈丽敏 等: "一种基于加速迭代的大数据集谱聚类的方法", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019200738A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 数据特征提取的方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | From the connectivity index to various Randić-type descriptors | |
Zhang et al. | ABCluster: the artificial bee colony algorithm for cluster global optimization | |
Gajawada et al. | Missing value imputation method based on clustering and nearest neighbours | |
Kiran | The analysis of peculiar control parameters of artificial bee colony algorithm on the numerical optimization problems | |
Rao | Machine learning the many-body localization transition in random spin systems | |
Ren et al. | Immune genetic algorithm for multi-objective flexible job-shop scheduling problem | |
Dell’Aquila et al. | Modeling heavy-ion fusion cross section data via a novel artificial intelligence approach | |
CN104933089A (zh) | 一种基于加速迭代的大数据集谱聚类的方法 | |
Sokolov et al. | Predicting Malware Attacks using Machine Learning and AutoAI. | |
Nahar et al. | Foundations, Themes, And Research Clusters In Artificial Intelligence And Machine Learning In Finance: A Bibliometric Analysis | |
Gupta et al. | A classification method to classify high dimensional data | |
Gallas et al. | Utility of collecting metadata to manage a large scale conditions database in ATLAS | |
Tsompanas et al. | Utilizing differential evolution into optimizing targeted cancer treatments | |
Ravie et al. | Enhancing the Simulation of Membrane System on the GPU for the N‐Queens Problem | |
CN107256203A (zh) | 一种矩阵向量乘法的实现方法和装置 | |
Li et al. | AINet-SL: artificial immune network with social learning and its application in FIR filter designing | |
Tanaś | Evolution of quantum correlations in a two-atom system | |
Guan et al. | Energy spectrum of a harmonically trapped two-atom system with spin–orbit coupling | |
Zhang et al. | High performance of a GPU-accelerated variant calling tool in genome data analysis | |
NEAGA et al. | Towards Big Data Mining and Discovery | |
Gligorov et al. | Performance and upgrade plans of the LHCb trigger system | |
Mao et al. | Mapping Whole DNA Sequence on Variant Maps | |
CN105630896A (zh) | 一种快速导入海量数据的方法 | |
Li et al. | Special section on big data and service computing | |
Merlo et al. | Computing structural types of clone syntactic blocks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150923 |
|
WD01 | Invention patent application deemed withdrawn after publication |