CN112286989A

CN112286989A - 一种大数据聚类挖掘方法、平台

Info

Publication number: CN112286989A
Application number: CN202011169745.2A
Authority: CN
Inventors: 陈宝; 计春雷; 李建敦; 郝元峰
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-29

Abstract

一种大数据聚类挖掘方法，包括以下步骤，获得数据集，采用蚁群算法初始化聚类中心，选取初始聚类中心；计算数据到初始聚类中心的距离，将数据按照最大最小距离法进行分类；查看聚类中心是否变化，如果聚类中心变化则更新聚类中心，并再一次执行所述计算数据到聚类中心的距离的步骤。采用所述的大数据聚类挖掘方法进一步搭建智能大数据聚类挖掘平台。

Description

一种大数据聚类挖掘方法、平台

技术领域

本发明属于大数据技术领域，特别涉及一种聚类分析方法中的大数据聚类挖掘方法。

背景技术

目前使用的聚类挖掘算法，多数情况下仍然基于K均值和模糊均值算法。但是这些算法随着迭代次数的增加，并行效率越来越差，当结合实际条件时，不能够保证海量数据的挖掘质量。这是由于，

第一，K均值算法很难确定K的取值，对噪音和异常点敏感，容易导致局部最优，从而导致聚类不准确；模糊C均值算法聚类类别数难以确定，对初始值敏感，收敛速度慢，容易导致局部最优，从而导致聚类不准确；

第二，由于K均值算法和模糊C均值算法随着迭代次数的增加，其并行执行的效率会越来越差，复杂度高，耗费计算机资源，同时难以保证数据挖掘质量。

发明内容

本发明实施例之一，一种大数据聚类挖掘方法，包括以下步骤，获得数据集，

采用蚁群算法初始化聚类中心，选取初始聚类中心；

计算数据到初始聚类中心的距离，将数据按照最大最小距离法进行分类；

查看聚类中心是否变化，如果聚类中心变化则更新聚类中心，并再一次执行所述计算数据到聚类中心的距离的步骤。

本发明提出一种改进的聚类挖掘方法，采用蚁群算法初始化聚类中心和基于密度的最大最小距离法更新聚类中心，提升了聚类精度与计算效率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1根据本发明实施例之一的大数据聚类挖掘方法中聚类中心更新流程图。

具体实施方式

根据一个或者多个实施例，一种大数据聚类挖掘方法，使用蚁群算法实现大数据聚类挖掘技术，并与最大最小距离法相结合，以此来弥补在实际应用条件下，蚁群算法的数据分配不均，通过搭建智能大数据聚类挖掘平台，以此来弥补在实际应用条件下，聚类效率的不足。具体步骤大致分为三步，先是初始化聚类中心，包括选取聚类中心；第二步开始更新聚类中心，通过与最大最小距离法相结合的方法，使得聚类中心能够继续优化，达到聚类准确的效果；第三步，主要是搭建智能大数据聚类挖掘平台，提高聚类挖掘效率。

根据一个或者多个实施例，一种大数据聚类挖掘方法，为了避免随机选取初始聚类中心出现聚类结果波动的情况，本实施例采用了添加蚁群算法的方法，即在初始化聚类中心时，将整个数据集视为寻找食物的蚂蚁，将聚类过程看作是蚂蚁寻找食物来源的过程，使得聚类中心更加准确，设有一个数据集Q＝{Q|q_i1,q_i2,…,q_in},i＝1,2,…,m，其中，n,m表示常数，具体计算公式如下：

式(1)中A,B——正常数；

κ——信息素残留强度；

t——时刻；

λ_ij(t)——t时刻的数据i和数据j之间信息素的大小；

式(2)中C_j——合并后的数据集；

N——数据集中数据的个数；

而为了解决蚁群算法初始化聚类中心可能出现数据分配不均的情况，本算法采用最大最小距离法更新聚类中心。计算任意两个数据之间的距离，并记录在矩阵中，得出两个数据之间的I^-，再根据Density(q_i)原则，将孤立数据从集合C_j中排除，得到更新后的聚类中心，公式如下：

式中

Density(q_i)——q_i的密度；

完成聚类中心的更新后，对于集合C_j中其他的数据样本，计算出其他的数据中心到新的聚类样本中心的距离，具体过程(见图1)。为了提高聚类的计算效率，使用Hadoop搭建智能大数据挖掘平台，Map事务负责计算各个数据到聚类中心的距离，Reduce事务负责每一次聚类中心的更新。

如图1为蚁群算法与距离最大最小算法结合的流程图，根据流程图，首先利用蚁群算法初始化聚类中心，选取初始聚类中心，计算数据到初始聚类中心的距离，将数据按照距离进行分类，开始查看聚类中心是否变化，如果聚类中心变化则更新聚类中心，并参与到下一轮的计算数据到聚类中心的距离阶段，如果没有则结束。

本发明所采用的改进算法采用最大最小距离法更新聚类中心，在初始数据集中选取蚁群算法计算初始聚类中心，在初始聚类中心的基础上计算任意两个数据之间的距离，并与基于密度的最大最小距离法结合以更新聚类中心，使得聚类得以实现以及孤立样本得以排除，从而达到数据聚类；并且通过搭建智能大数据聚类挖掘平台，提高聚类的计算效率。这种改进的聚类挖掘技术，很好地改善了在聚类过程中所出现的初始聚类中心选取过于随机和算法运行效率低下的情况。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种大数据聚类挖掘方法，其特征在于，包括以下步骤，获得数据集，

采用蚁群算法初始化聚类中心，选取初始聚类中心；

2.根据权利要求1所述的大数据聚类挖掘方法，其特征在于，采用所述的大数据聚类挖掘方法进一步搭建智能大数据聚类挖掘平台。

3.根据权利要求1所述的大数据聚类挖掘方法，其特征在于，在初始化聚类中心时，将整个数据集视为寻找食物的蚂蚁，将聚类过程看作是蚂蚁寻找食物来源的过程，使得聚类中心更加准确，设有一个数据集Q＝{Q|q_i1,q_i2,…,q_in},i＝1,2,…,m，其中，n,m表示常数，具体计算公式如下：

式(1)中A,B——正常数；

κ——信息素残留强度；

t——时刻；

λ_ij(t)——t时刻的数据i和数据j之间信息素的大小；

式(2)中C_j——合并后的数据集；

N——数据集中数据的个数。

4.根据权利要求3所述的大数据聚类挖掘方法，其特征在于，所述的采用最大最小距离法更新聚类中心，包括，

计算任意两个数据之间的距离，并记录在矩阵中，得出两个数据之间的I^-，再根据Density(q_i)原则，将孤立数据从集合C_j中排除，得到更新后的聚类中心，公式如下：

式中

Density(q_i)——q_i的密度；

完成聚类中心的更新后，对于集合C_j中其他的数据样本，计算出其他的数据中心到新的聚类样本中心的距离。

5.根据权利要求2所述的大数据聚类挖掘方法，其特征在于，使用Hadoop搭建智能大数据挖掘平台，Map事务负责计算各个数据到聚类中心的距离，Reduce事务负责每一次聚类中心的更新。

6.一种大数据聚类挖掘平台，其特征在于，所述平台包括服务器，服务器具有存储器；以及

耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

获得数据集，

采用蚁群算法初始化聚类中心，选取初始聚类中心；

7.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1至5中任一所述的方法。