CN116595102A

CN116595102A - 一种改进聚类算法的大数据管理方法及系统

Info

Publication number: CN116595102A
Application number: CN202310868599.XA
Authority: CN
Inventors: 汤智林; 宋昊; 刘滨; 亓茂富; 王盛顺
Original assignee: Fano Information Industry Co ltd
Current assignee: Jinan Jubang Information Technology Co.,Ltd.
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-08-15
Anticipated expiration: 2043-07-17
Also published as: CN116595102B

Abstract

本发明涉及数据处理技术领域，具体地说，涉及一种改进聚类算法的大数据管理方法及系统。包括如下步骤：S1、采集市场数据，将数据进行分类节点储存，并对采集的数据进行节点分类；本发明通过并行计算、负载均衡和增量更新，提高了聚类算法的效率和实时性，在分布式数据库中并行计算，加速了聚类过程，负载均衡能够根据数据的特征和分布情况动态调整节点的负载，确保计算能力的均衡利用，提高系统整体性能，增量更新通过仅重新计算受影响的聚类结果，避免了对全部数据的重复计算，提升了算法的效率和可扩展性，通过将聚类结果和评估结果以直观的图表和图形形式展示给用户，提高用户理解数据和做出决策。

Description

一种改进聚类算法的大数据管理方法及系统

技术领域

本发明涉及数据处理技术领域，具体地说，涉及一种改进聚类算法的大数据管理方法及系统。

背景技术

随着大数据时代的到来，处理和管理海量数据成为一项关键任务。聚类算法是一种常用的数据分析方法，可以将数据集划分为具有相似特征的群组，从而发现数据中的隐藏模式和结构，然而，传统的聚类算法在处理大数据时，由于计算量大和模型复杂度限制，面临着效率低下、计算复杂度高和可扩展性差的挑战，同时节点对数据处理的速度不同，导致出现有的节点停滞分析，因此，提出一种改进聚类算法的大数据管理方法及系统。

发明内容

本发明的目的在于提供一种改进聚类算法的大数据管理方法及系统，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供改进聚类算法的大数据管理方法，包括如下步骤：

S1、采集市场数据，将数据进行分类节点储存，并对采集的数据进行节点分类；

S2、基于S1节点储存的数据进行预处理，并将其进行格式转换；

S3、基于S2转换的数据进行评估，根据评估结果将数据重新分配，并监测节点的运行状态进行评估，根据评估结果对储存的数据进行调整；

S4、将S3的结果进行可视化显示，供用户进行评估。

作为本技术方案的进一步改进，所述S1对根据分类结果将数据进行分类节点储存的步骤如下：

S1.1、采集用户上传的时长数据，并根据采集的数据大小建立多个运行节点；

S1.2、将采集的市场数据使用分布式数据库均匀储存在多个运行节点。

作为本技术方案的进一步改进，所述S2将其进行格式转换的步骤如下：

S2.1、对S1.2运行节点内的数据进行数据清洗和数据变换处理；

S2.2、基于S2.1处理完毕的数据进行特征提取，并将数据格式进行统一转换。

作为本技术方案的进一步改进，所述S2.2将数据格式进行统一转换的步骤如下：

假设数据集中共有m条数据，每条数据有n个特征，该方法可以表示为：

进行特征提取：从原始数据中提取出k个重要特征，转换为一个mtimesk的矩阵X；

进行数据标准化：将矩阵X按行进行数据标准化，得到标准化矩阵X'；

将数据转换为适合聚类算法输入的形式：将标准化矩阵X'转换为m个n维向量的形式，表示为(x1,x2,...,xm)，其中xi表示第i条数据的n个特征。

作为本技术方案的进一步改进，所述S3根据评估结果对储存的数据进行调整的步骤如下：

S3.1、根据S2.2转换后的数据进行评估，根据评估结果将数据进行类别标签，并根据标签将数据重新分配至运行节点进行聚类分析；

S3.2、采集S3.1每个运行节点的负载数据并进行综合评估，根据评估结果对运行节点内的数据进行动态调整；

S3.3、采集用户后续上传的数据，并对运行节点的数据进行筛选，根据筛选结果采用增量更新方式进行聚类。

作为本技术方案的进一步改进，所述S3.1根据标签将数据重新分配至运行节点进行聚类分析的表达式如下：

假设数据集中共有m条数据，每条数据有n个特征，可以表示为：

对转换后的数据进行评估：采取轮廓系数评估指标，计算评估分数；

对评估结果进行分类：选择K-Means聚类，对数据进行属性分类，根据轮廓系数和肘部法则得到最优K值，并使用该K值进行聚类分析，

分配数据至运行节点进行聚类分析：采用MapReduce算法将数据分配至各个运行节点进行并行计算，提高聚类分析效率，伪代码如下：

；

计算第i个数据点属于哪个类别；表示循环从/>到/>，其中/>表示数据集中的数据总数；

；

其中，是聚类算法所得到的聚类个数，把第i个类别中的所有数据挑选出来，/>是一个符号，表示第i个数据点所属的类别，分配给对应的节点进行聚类计算/>聚类计算结束后，通过汇总各个节点的计算结果，得到最终的聚类结果。

作为本技术方案的进一步改进，所述S3.2根据评估结果对运行节点内的数据进行动态调整的步骤如下：

假设有n个运行节点，可以表示为：

采集各个节点的负载数据：通过监控系统，运行节点上的监控代理程序每隔一定时间采集节点的负载数据，CPU使用率、内存利用率、网络带宽数据，将其记录在监控日志中；

进行综合评估：对采集到的负载数据进行预处理和计算，得出该节点的负载状况评分，包括CPU使用率分数、内存使用率分数、网络带宽分数；通过综合考虑这些评分，得出该节点的综合负载评分，将所有节点的综合负载评分记录在一个负载表中以便后续的负载均衡调整；

动态调整各节点的负载：周期性地读取负载表中的运行节点负载评分，当运行节点的负载评分超过设定的阈值时，将该运行节点上的数据重新分配到空闲运行节点中，以实现负载均衡。

作为本技术方案的进一步改进，所述S3.3根据筛选结果采用增量更新方式进行聚类的表达式为：

；

其中，为数据集，/>为聚类结果，/>为新增的数据集，/>为相应的聚类结果，/>表示聚类算法，/>表示评估聚类结果的指标函数，/>表示受影响的数据子集，/>表示整个数据集中不属于/>的子集。

本发明的目的之二在于，提供了改进聚类算法的大数据管理系统，包括上述中任意一项所述的改进聚类算法的大数据管理方法，包括采集储存单元、数据处理单元、分析分配单元以及数据显示单元；

所述采集储存单元用于对采集市场数据，将数据进行分类节点储存，并对采集的数据进行节点分类；

所述数据处理单元用于将采集的数据进行预处理，并将其进行格式转换；

所述分析分配单元用于对转换的数据进行评估，根据评估结果将数据重新分配，并监测节点的运行状态进行评估，根据评估结果对储存的数据进行调整；

所述数据显示单元用于将结果进行可视化显示，供用户进行评估。

与现有技术相比，本发明的有益效果：通过并行计算、负载均衡和增量更新，提高了聚类算法的效率和实时性，在分布式数据库中并行计算，加速了聚类过程，负载均衡能够根据数据的特征和分布情况动态调整节点的负载，确保计算能力的均衡利用，提高系统整体性能，增量更新通过仅重新计算受影响的聚类结果，避免了对全部数据的重复计算，提升了算法的效率和可扩展性，通过将聚类结果和评估结果以直观的图表和图形形式展示给用户，提高用户理解数据和做出决策。

附图说明

图1为本发明的整体流程框图；

图2为本发明的对采集的数据进行节点分类的流程框图；

图3为本发明的进行格式转换的流程框图；

图4为本发明的对储存的数据进行调的流程框图；

图5为本发明的分类储存单元的流程框图。

图中各个标号意义为：

10、采集储存单元；20、数据处理单元；30、分析分配单元；40、数据显示单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：如图1-图5所示，本发明的目的之一在于，提供了改进聚类算法的大数据管理方法，包括如下步骤：

S1对根据分类结果将数据进行分类节点储存的步骤如下：

S1.1、采集用户上传的时长数据，并根据采集的数据大小建立多个运行节点，表达式如下：

假设将时长数据集划分为k个子数据集，每个子数据集由Di表示。对于每个子数据集，可以使用一个运行节点Si进行并行处理。则该方法可以表示为：

采集用户上传的时长数据：根据实际需求，设置采集参数，将时长数据存储到数据库中。

根据采集数据量进行节点划分：选择合适的数据划分方法，将时长数据集分割成k个大小相似的子数据集Di。

配置分布式计算框架：选择适当的分布式计算框架，例如Hadoop或Spark，搭建分布式计算集群。

并行处理子数据集：在每个运行节点Si上，使用相应的算法进行时长数据的处理和分析。得到k个时长统计结果Ri。

合并子数据集的处理结果：将各个运行节点的处理结果Ri进行合并，得到完整的时长统计结果R；

S1.2、将采集的市场数据使用分布式数据库均匀储存在多个运行节点。使用分布式数据库，将用户数据存储在多个节点上，确保数据的高可用性和扩展性，保证数据的安全性和可靠性；假设有 n 条市场数据，要将其均匀存储在 k 个运行节点上。可以使用哈希函数将每个市场数据分配到一个编号为 i=1,2,...,k 的分区上，计算方式如下：

；

其中，表示每个市场数据的键或其他可唯一标识该数据的信息，/> 表示哈希函数，/> 表示运行节点的数量，/>表示%。

S2将其进行格式转换的步骤如下：

S2.1、对S1.2运行节点内的数据进行数据清洗和数据变换处理；对原始市场数据进行数据清洗、数据变换预处理操作，去除噪声和冗余信息；步骤如下：

数据清理：首先需要对原始市场数据进行一些简单的数据清理处理，例如去除重复数据以及不完整的信息。可以使用数据清洗工具对数据进行清理。

数据变换：将原始市场数据进行变换以使其更适合后续分析处理。例如，可以进行数据观测点的处理，用数据平滑或插值技术对数据进行基于时间的变换，或者进行数据规范化，统一不同单位的度量。

去除异常值：使用统计分析方法去除部分数据中的噪声和异常值。可以使用箱型图可视化工具来检测和去除异常值，或者使用正态分布分析或其他统计方法来检测噪声数据。

数据降维：使用主成分分析(PCA)数据降维方法将高维度数据简化为较低的维度空间。可以使用聚类分析方法对数据进行分类，以减少数据处理的复杂度，优化分析效果。

S2.2将数据格式进行统一转换的步骤如下：

S3根据评估结果对储存的数据进行调整的步骤如下：

S3.1根据标签将数据重新分配至运行节点进行聚类分析的表达式如下：

；

S3.2根据评估结果对运行节点内的数据进行动态调整的步骤如下：

假设有n个运行节点，可以表示为：

S3.3根据筛选结果采用增量更新方式进行聚类的表达方式为：

；

其中，为数据集，/>为聚类结果，/>为新增的数据集，/>为相应的聚类结果，表示聚类算法，/>表示评估聚类结果的指标函数，/>表示受影响的数据子集，表示整个数据集中不属于/>的子集。

S4、将S3的结果进行可视化显示，供用户进行评估。步骤如下：

根据聚类算法对样本进行分类，给每个聚类分配一个标签；

选取两个最具代表性的特征作为横轴和纵轴；

将聚类后的数据集里不同类别的数据点分别绘制在散点图中，使用不同的颜色或标记表示每个类别；

本发明的目的之二在于，提供了改进聚类算法的大数据管理系统，包括上述中任意一项的改进聚类算法的大数据管理方法，包括采集储存单元10、数据处理单元20、分析分配单元30以及数据显示单元40；

采集储存单元10用于对采集市场数据，将数据进行分类节点储存，并对采集的数据进行节点分类；

数据处理单元20用于将采集的数据进行预处理，并将其进行格式转换；

分析分配单元30用于对转换的数据进行评估，根据评估结果将数据重新分配，并监测节点的运行状态进行评估，根据评估结果对储存的数据进行调整；

数据显示单元40用于将结果进行可视化显示，供用户进行评估。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

Claims

1.一种改进聚类算法的大数据管理方法，其特征在于：包括如下步骤：

S4、将S3的结果进行可视化显示，供用户进行评估。

2.根据权利要求1所述的改进聚类算法的大数据管理方法，其特征在于：所述S1对根据分类结果将数据进行分类节点储存的步骤如下：

3.根据权利要求2所述的改进聚类算法的大数据管理方法，其特征在于：所述S2将其进行格式转换的步骤如下：

4.根据权利要求3所述的改进聚类算法的大数据管理方法，其特征在于：所述S2.2将数据格式进行统一转换的步骤如下：

5.根据权利要求3所述的改进聚类算法的大数据管理方法，其特征在于：所述S3根据评估结果对储存的数据进行调整的步骤如下：

6.根据权利要求5所述的改进聚类算法的大数据管理方法，其特征在于：所述S3.1根据标签将数据重新分配至运行节点进行聚类分析的表达式如下：

；

7.根据权利要求5所述的改进聚类算法的大数据管理方法，其特征在于：所述S3.2根据评估结果对运行节点内的数据进行动态调整的步骤如下：

假设有n个运行节点，可以表示为：

8.根据权利要求5所述的改进聚类算法的大数据管理方法，其特征在于：所述S3.3根据筛选结果采用增量更新方式进行聚类的表达式为：

；

9.用于实现改进聚类算法的大数据管理系统，包括权利要求1-8中任意一项所述的改进聚类算法的大数据管理方法，其特征在于：包括采集储存单元（10）、数据处理单元（20）、分析分配单元（30）以及数据显示单元（40）；

所述采集储存单元（10）用于对采集市场数据，将数据进行分类节点储存，并对采集的数据进行节点分类；

所述数据处理单元（20）用于将采集的数据进行预处理，并将其进行格式转换；

所述分析分配单元（30）用于对转换的数据进行评估，根据评估结果将数据重新分配，并监测节点的运行状态进行评估，根据评估结果对储存的数据进行调整；

所述数据显示单元（40）用于将结果进行可视化显示，供用户进行评估。