Nothing Special   »   [go: up one dir, main page]

CN112286989A - 一种大数据聚类挖掘方法、平台 - Google Patents

一种大数据聚类挖掘方法、平台 Download PDF

Info

Publication number
CN112286989A
CN112286989A CN202011169745.2A CN202011169745A CN112286989A CN 112286989 A CN112286989 A CN 112286989A CN 202011169745 A CN202011169745 A CN 202011169745A CN 112286989 A CN112286989 A CN 112286989A
Authority
CN
China
Prior art keywords
data
clustering center
clustering
center
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011169745.2A
Other languages
English (en)
Inventor
陈宝
计春雷
李建敦
郝元峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dianji University
Original Assignee
Shanghai Dianji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dianji University filed Critical Shanghai Dianji University
Priority to CN202011169745.2A priority Critical patent/CN112286989A/zh
Publication of CN112286989A publication Critical patent/CN112286989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种大数据聚类挖掘方法,包括以下步骤,获得数据集,采用蚁群算法初始化聚类中心,选取初始聚类中心;计算数据到初始聚类中心的距离,将数据按照最大最小距离法进行分类;查看聚类中心是否变化,如果聚类中心变化则更新聚类中心,并再一次执行所述计算数据到聚类中心的距离的步骤。采用所述的大数据聚类挖掘方法进一步搭建智能大数据聚类挖掘平台。

Description

一种大数据聚类挖掘方法、平台
技术领域
本发明属于大数据技术领域,特别涉及一种聚类分析方法中的大数据聚类挖掘方法。
背景技术
目前使用的聚类挖掘算法,多数情况下仍然基于K均值和模糊均值算法。但是这些算法随着迭代次数的增加,并行效率越来越差,当结合实际条件时,不能够保证海量数据的挖掘质量。这是由于,
第一,K均值算法很难确定K的取值,对噪音和异常点敏感,容易导致局部最优,从而导致聚类不准确;模糊C均值算法聚类类别数难以确定,对初始值敏感,收敛速度慢,容易导致局部最优,从而导致聚类不准确;
第二,由于K均值算法和模糊C均值算法随着迭代次数的增加,其并行执行的效率会越来越差,复杂度高,耗费计算机资源,同时难以保证数据挖掘质量。
发明内容
本发明实施例之一,一种大数据聚类挖掘方法,包括以下步骤,获得数据集,
采用蚁群算法初始化聚类中心,选取初始聚类中心;
计算数据到初始聚类中心的距离,将数据按照最大最小距离法进行分类;
查看聚类中心是否变化,如果聚类中心变化则更新聚类中心,并再一次执行所述计算数据到聚类中心的距离的步骤。
本发明提出一种改进的聚类挖掘方法,采用蚁群算法初始化聚类中心和基于密度的最大最小距离法更新聚类中心,提升了聚类精度与计算效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1根据本发明实施例之一的大数据聚类挖掘方法中聚类中心更新流程图。
具体实施方式
根据一个或者多个实施例,一种大数据聚类挖掘方法,使用蚁群算法实现大数据聚类挖掘技术,并与最大最小距离法相结合,以此来弥补在实际应用条件下,蚁群算法的数据分配不均,通过搭建智能大数据聚类挖掘平台,以此来弥补在实际应用条件下,聚类效率的不足。具体步骤大致分为三步,先是初始化聚类中心,包括选取聚类中心;第二步开始更新聚类中心,通过与最大最小距离法相结合的方法,使得聚类中心能够继续优化,达到聚类准确的效果;第三步,主要是搭建智能大数据聚类挖掘平台,提高聚类挖掘效率。
根据一个或者多个实施例,一种大数据聚类挖掘方法,为了避免随机选取初始聚类中心出现聚类结果波动的情况,本实施例采用了添加蚁群算法的方法,即在初始化聚类中心时,将整个数据集视为寻找食物的蚂蚁,将聚类过程看作是蚂蚁寻找食物来源的过程,使得聚类中心更加准确,设有一个数据集Q={Q|qi1,qi2,…,qin},i=1,2,…,m,其中,n,m表示常数,具体计算公式如下:
Figure BDA0002746916880000031
Figure BDA0002746916880000032
式(1)中A,B——正常数;
κ——信息素残留强度;
t——时刻;
λij(t)——t时刻的数据i和数据j之间信息素的大小;
式(2)中Cj——合并后的数据集;
N——数据集中数据的个数;
而为了解决蚁群算法初始化聚类中心可能出现数据分配不均的情况,本算法采用最大最小距离法更新聚类中心。计算任意两个数据之间的距离,并记录在矩阵中,得出两个数据之间的I-,再根据Density(qi)原则,将孤立数据从集合Cj中排除,得到更新后的聚类中心,公式如下:
Figure BDA0002746916880000041
式中
Figure BDA0002746916880000042
Density(qi)——qi的密度;
完成聚类中心的更新后,对于集合Cj中其他的数据样本,计算出其他的数据中心到新的聚类样本中心的距离,具体过程(见图1)。为了提高聚类的计算效率,使用Hadoop搭建智能大数据挖掘平台,Map事务负责计算各个数据到聚类中心的距离,Reduce事务负责每一次聚类中心的更新。
如图1为蚁群算法与距离最大最小算法结合的流程图,根据流程图,首先利用蚁群算法初始化聚类中心,选取初始聚类中心,计算数据到初始聚类中心的距离,将数据按照距离进行分类,开始查看聚类中心是否变化,如果聚类中心变化则更新聚类中心,并参与到下一轮的计算数据到聚类中心的距离阶段,如果没有则结束。
本发明所采用的改进算法采用最大最小距离法更新聚类中心,在初始数据集中选取蚁群算法计算初始聚类中心,在初始聚类中心的基础上计算任意两个数据之间的距离,并与基于密度的最大最小距离法结合以更新聚类中心,使得聚类得以实现以及孤立样本得以排除,从而达到数据聚类;并且通过搭建智能大数据聚类挖掘平台,提高聚类的计算效率。这种改进的聚类挖掘技术,很好地改善了在聚类过程中所出现的初始聚类中心选取过于随机和算法运行效率低下的情况。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (7)

1.一种大数据聚类挖掘方法,其特征在于,包括以下步骤,获得数据集,
采用蚁群算法初始化聚类中心,选取初始聚类中心;
计算数据到初始聚类中心的距离,将数据按照最大最小距离法进行分类;
查看聚类中心是否变化,如果聚类中心变化则更新聚类中心,并再一次执行所述计算数据到聚类中心的距离的步骤。
2.根据权利要求1所述的大数据聚类挖掘方法,其特征在于,采用所述的大数据聚类挖掘方法进一步搭建智能大数据聚类挖掘平台。
3.根据权利要求1所述的大数据聚类挖掘方法,其特征在于,在初始化聚类中心时,将整个数据集视为寻找食物的蚂蚁,将聚类过程看作是蚂蚁寻找食物来源的过程,使得聚类中心更加准确,设有一个数据集Q={Q|qi1,qi2,…,qin},i=1,2,…,m,其中,n,m表示常数,具体计算公式如下:
Figure FDA0002746916870000011
Figure FDA0002746916870000012
式(1)中A,B——正常数;
κ——信息素残留强度;
t——时刻;
λij(t)——t时刻的数据i和数据j之间信息素的大小;
式(2)中Cj——合并后的数据集;
N——数据集中数据的个数。
4.根据权利要求3所述的大数据聚类挖掘方法,其特征在于,所述的采用最大最小距离法更新聚类中心,包括,
计算任意两个数据之间的距离,并记录在矩阵中,得出两个数据之间的I-,再根据Density(qi)原则,将孤立数据从集合Cj中排除,得到更新后的聚类中心,公式如下:
Figure FDA0002746916870000021
式中
Figure FDA0002746916870000022
Density(qi)——qi的密度;
完成聚类中心的更新后,对于集合Cj中其他的数据样本,计算出其他的数据中心到新的聚类样本中心的距离。
5.根据权利要求2所述的大数据聚类挖掘方法,其特征在于,使用Hadoop搭建智能大数据挖掘平台,Map事务负责计算各个数据到聚类中心的距离,Reduce事务负责每一次聚类中心的更新。
6.一种大数据聚类挖掘平台,其特征在于,所述平台包括服务器,服务器具有存储器;以及
耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下操作:
获得数据集,
采用蚁群算法初始化聚类中心,选取初始聚类中心;
计算数据到初始聚类中心的距离,将数据按照最大最小距离法进行分类;
查看聚类中心是否变化,如果聚类中心变化则更新聚类中心,并再一次执行所述计算数据到聚类中心的距离的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现如权利要求1至5中任一所述的方法。
CN202011169745.2A 2020-10-28 2020-10-28 一种大数据聚类挖掘方法、平台 Pending CN112286989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011169745.2A CN112286989A (zh) 2020-10-28 2020-10-28 一种大数据聚类挖掘方法、平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011169745.2A CN112286989A (zh) 2020-10-28 2020-10-28 一种大数据聚类挖掘方法、平台

Publications (1)

Publication Number Publication Date
CN112286989A true CN112286989A (zh) 2021-01-29

Family

ID=74373595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011169745.2A Pending CN112286989A (zh) 2020-10-28 2020-10-28 一种大数据聚类挖掘方法、平台

Country Status (1)

Country Link
CN (1) CN112286989A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
CN109509196A (zh) * 2018-12-24 2019-03-22 广东工业大学 一种基于改进的蚁群算法的模糊聚类的舌诊图像分割方法
CN110909792A (zh) * 2019-11-21 2020-03-24 安徽大学 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
CN109509196A (zh) * 2018-12-24 2019-03-22 广东工业大学 一种基于改进的蚁群算法的模糊聚类的舌诊图像分割方法
CN110909792A (zh) * 2019-11-21 2020-03-24 安徽大学 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法

Similar Documents

Publication Publication Date Title
Kim et al. AA-DBSCAN: an approximate adaptive DBSCAN for finding clusters with varying densities
Ramírez‐Gallego et al. Fast‐mRMR: Fast minimum redundancy maximum relevance algorithm for high‐dimensional big data
US11354282B2 (en) Classifying an unmanaged dataset
JP7392668B2 (ja) データ処理方法および電子機器
US11232085B2 (en) Outlier detection for streaming data
US7805443B2 (en) Database configuration analysis
CN108932301B (zh) 数据填充方法及装置
US20180121535A1 (en) Multiple record linkage algorithm selector
CN108897842A (zh) 计算机可读存储介质及计算机系统
CN104424360A (zh) 用于访问源数据库中的一组数据表格的方法和系统
US11687540B2 (en) Fast, approximate conditional distribution sampling
US11971892B2 (en) Methods for stratified sampling-based query execution
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN115115265A (zh) 一种基于rfm模型的消费者评估方法、装置及介质
WO2015180340A1 (zh) 一种数据挖掘方法及装置
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN114880482A (zh) 一种基于图嵌入的关系图谱关键人员分析方法及系统
CN116830097A (zh) 数据库区域地图的自动线性聚类推荐
CN115510981A (zh) 一种决策树模型特征重要性计算方法、装置及存储介质
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
KR20140130014A (ko) 그래프 분류를 위한 빈발 부분그래프의 생성 방법
CN112286989A (zh) 一种大数据聚类挖掘方法、平台
US11921756B2 (en) Automated database operation classification using artificial intelligence techniques
CN113205124B (zh) 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质
KR20210007735A (ko) 변수 간 상관관계를 바탕으로 기계학습을 수행하는 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210129