CN111737469A

CN111737469A - 数据挖掘方法、装置、终端设备和可读存储介质

Info

Publication number: CN111737469A
Application number: CN202010584569.2A
Authority: CN
Inventors: 衣杨; 佘滢; 宋嘉伦; 赵福利; 林倩青; 周晓聪
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-02

Abstract

本发明实施例公开了数据挖掘方法、装置、终端设备和可读存储介质，该方法包括：对待分析数据进行处理以获取标准数据集；当以所述标准数据集作为待分类的目标集时，在目标集中选取一个数据样本作为聚类中心；以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作；根据预设的误差平方和公式分别计算各个类别的紧凑度；以紧凑度最小的类别作为新的目标集，重复执行所述分类操作，直至分类数目达到预设数目。本技术方案误差平方和公式分别计算各个类别的紧凑度，以紧凑度最小的类别作为新的目标集继续执行分类操作，避免分类过程陷入局部最优解的情况，提高数据处理的准确性。

Description

数据挖掘方法、装置、终端设备和可读存储介质

技术领域

本发明涉及数据挖掘领域，尤其涉及一种数据挖掘方法、装置、终端设备和可读存储介质。

背景技术

随着网络技术的发展和应用，信息资源爆炸式增长，文本挖掘、信息过滤和信息搜索的研究出现了前所未有的前景。因此，聚类技术正成为文本信息挖掘技术的核心。文本聚类是文本挖掘中用来发现数据分布及其隐含数据模式的一项重要技术。目前，在数据挖掘领域，一些简单的聚类算法由于原理简单，易于实现，收敛速度快等优点而得到广泛应用，然而这种算法对不同的初始值会导致不同的聚类结果，容易陷入局部最小值，使得聚类结果并不理想，不利于对大量的数据信息进行有效准确的信息挖掘和客观分析。

发明内容

鉴于上述问题，本发明提出一种数据挖掘方法、装置、终端设备和可读存储介质。

本发明的一个实施例提出一种数据挖掘方法，该方法包括：

对待分析数据进行处理以获取标准数据集；

当以所述标准数据集作为待分类的目标集时，在目标集中选取一个数据样本作为聚类中心；

以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作；

根据预设的误差平方和公式分别计算各个类别的紧凑度；

以紧凑度最小的类别作为新的目标集，重复执行所述分类操作，直至分类数目达到预设数目。

上述实施例所述的数据挖掘方法，以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作，包括：

根据距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间的第一距离，以及所述目标集中各个数据样本与所述距离所述目标集的聚类中心最远的数据样本之间的第二距离；

将所述第一距离小于所述第二距离的数据样本作为一类；

将所述第一距离大于等于所述第二距离的数据样本作为另一类。

上述实施例所述的数据挖掘方法，通过以下方式确定距离所述目标集的聚类中心最远的数据样本：

通过距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间的距离；

选取距离最大的数据样本作为距离所述目标集的聚类中心最远的数据样本。

上述实施例所述的数据挖掘方法，所述距离度量公式如下：

dis代表两个数据样本之间的距离，A_i代表一个数据样本的权值向量的第i个坐标点，B_i代表另一个数据样本的权值向量的第i个坐标点，n代表权值向量中坐标点数目。

上述实施例所述的数据挖掘方法，所述误差平方和公式如下：

ASSE代表所述误差平方和，用于反映以c_l作为聚类中心的类别的紧凑度，c_k代表另一个聚类中心，m代表以c_l作为聚类中心的类别中的数据样本数目，x_j代表以c_l作为聚类中心的类别中的第j个数据样本，r代表正则化常数。

上述实施例所述的数据挖掘方法，所述对待分析数据进行处理以获取标准数据集，包括：

对待分析数据进行文本分词，并构建词袋模型向量；

利用词频-逆向文件频率方法统计所述词袋模型向量中的常见词汇和重要词汇，以获取文本-词汇矩阵；

对所述文本-词汇矩阵进行降维处理以获取标准数据集。

本发明的另一个实施例提供一种数据挖掘装置，该装置包括：

数据预处理模块，用于对待分析数据进行处理以获取标准数据集；

初始聚类中心选取模块，用于当以所述标准数据集作为待分类的目标集时，在目标集中选取一个数据样本作为聚类中心；

分类操作执行模块，用于以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作；

紧凑度计算模块，用于根据预设的误差平方和公式分别计算各个类别的紧凑度；

新目标集确定模块，用于以紧凑度最小的类别作为新的目标集，重复执行所述分类操作，直至分类数目达到预设数目。

上述实施例所述的数据挖掘装置，通过以下方式确定距离所述目标集的聚类中心最远的数据样本：

通过距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间距离；

上述实施例涉及一种终端设备，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述终端设备能执行上述实施例所述的数据挖掘方法。

上述实施例涉及一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行上述实施例所述的数据挖掘方法。

本发明所公开的数据挖掘方法对待分析数据进行处理以获取标准数据集；当以所述标准数据集作为待分类的目标集时，在目标集中选取一个数据样本作为聚类中心；以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作；根据预设的误差平方和公式分别计算各个类别的紧凑度；以紧凑度最小的类别作为新的目标集，重复执行所述分类操作，直至分类数目达到预设数目。本发明的技术方案可以对海量的网络数据进行收集整理，并挖掘数据中所涉及的主要信息，数据挖掘过程更为客观，避免人工操作的主观性，提高数据处理的效率。另外，利用本方法对海量数据进行处理，获取的信息更为准确可靠。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本发明实施例提供的一种数据挖掘方法的流程示意图；

图2示出了本发明实施例提供的数据挖掘方法中涉及的数据处理过程的流程示意图；

图3示出了本发明实施例提供的数据挖掘方法中涉及的分类操作的流程示意图；

图4示出了本发明实施例提供的一种数据挖掘装置的结构示意图。

主要元件符号：

1-数据挖掘装置；100-数据预处理模块；200-初始聚类中心选取模块；300-分类操作执行模块；400-紧凑度计算模块；500-新目标集确定模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

本实施例，参见图1，示出的一种数据挖掘方法包括以下步骤：

步骤S100：对待分析数据进行处理以获取标准数据集。

当下，各类搜索引擎被广泛应用，用户习惯于从搜索引擎中查找资源信息并获取相应的资源信息。互联网中存储着海量的资源信息，搜索引擎可以根据用户的搜索关键词，可以检索到大量数据，用户也可以利用网络爬虫从互联网中爬取到大量数据，对于获取到的大量数据，需要进行分析处理，以使用户获取到具有利用价值的有效数据。

首先，需要对获取的待分析数据进行处理以获取标准数据集。参见图2，对待分析数据的处理包括以下步骤：

步骤S101：对待分析数据进行文本分词，并构建词袋模型向量。

对待分析数据进行文本分词，可以利用python中文分词组件“jieba”将长文本进行精准合理的切分以获取相应的词汇集合。去除词汇集合中的重复词汇得到新的词汇集合T，采用词袋模型表示各个评价指标中包含的词汇。可以理解，对每个评价指标都构建一个向量，向量的维度与词汇集合T中包含的词汇数量相同，向量的值是词汇集合T中每个词汇在该评价文本中出现的次数频率，向量中每个位置的元素顺序与词典中词汇出现次序一致。

示范性的，对大量的论文数据进行挖掘分析时，对应的评价指标可能包含科学、社会、人文和天文等，每一评价指标种包含多个词汇，即可利用每一评价指标下的词汇集合构建一个向量，向量的维度与词汇数量相同，向量中的向量值可以用每个词汇出现的频率标识。

步骤S102：利用词频-逆向文件频率方法统计所述词袋模型向量中的常见词汇和重要词汇，以获取文本-词汇矩阵。

将构建的词袋模型向量转换为文本-词汇矩阵，可以利用词频-逆向文件频率(term frequency-inverse document frequency，TF-IDF)词袋模型向量转换为文本-词汇矩阵。本步骤旨在找出在某一文本中高频率出现而在其他文本中低频率出现的词汇，实现常见词汇的过滤和重要词汇的保留，以获取文本-词汇矩阵。

步骤S103：对所述文本-词汇矩阵进行降维处理以获取标准数据集。

文本-词汇矩阵是一个稀疏向量组成的矩阵，每一行代表一个文本，每一列包括该文本所涉及的词汇，由于文本数目远远小于词汇数目，需要进行主成分分析(PrincipalComponent Analysis，PCA)降维处理，通过线性变换对文本-词汇矩阵进行转换，从而提取数据的主要的特征分量，以获取标准数据集。

步骤S200：当以所述标准数据集作为待分类的目标集时，在目标集中选取一个数据样本作为聚类中心。

标准数据集包括多个数据样本，可以随机选取一个数据样本，以该数据样本点作为初始的聚类中心。

步骤S300：以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作。

可以利用以下距离度量公式计算目标集中各个数据样本与目标集的聚类中心之间距离。考虑到欧氏距离度量倾向于体现数值上的差异性，余弦相似度度量则更注重两个向量在方向维度上的差异性，因此，余弦相似度更适合进行文本相似性度量，相应的，距离度量公式如下：

两个数据样本之间的距离可以表示两个数据样本之间的相似度，即两个数据样本之间的距离越大，两个数据样本之间的相似性越小；两个数据样本之间的距离越小，两个数据样本之间的相似性越大。

通过距离度量公式计算目标集中任意两点之间的距离，以确定距离目标集的初始设定的聚类中心最远的数据样本，本实施例中，将初始设定的聚类中心称为第一聚类中心，通过聚类公式确定的距离目标集的初始设定的聚类中心最远的数据样本称为第二聚类中心。

根据第一聚类中心和第二聚类中心执行分类操作，以将目标集分为两类。

分类操作可以参考图3，分类操作包括以下步骤：

步骤S301：根据距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间的第一距离，以及所述目标集中各个数据样本与所述距离所述目标集的聚类中心最远的数据样本之间的第二距离。

示范性的，根据距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间的第一距离，

dis1代表第k个数据样本到第一聚类中心之间的距离C₁，A_k，i代表第k个数据样本的权值向量的第i个坐标点，C_1，i代表第一聚类中心的权值向量的第i个坐标点，n代表权值向量中坐标点数目。

示范性的，根据距离度量公式计算所述目标集中各个数据样本与所述目标集的聚类中心之间的第二距离，

dis2代表第k个数据样本到第二聚类中心C₂之间的距离，A_k，i代表第k个数据样本的权值向量的第i个坐标点，C_2，i代表第二聚类中心的权值向量的第i个坐标点，n代表权值向量中坐标点数目。

步骤S302：将所述第一距离小于所述第二距离的数据样本作为一类。

比较第一距离和第二距离，将第一距离小于第二距离的数据样本作为一类，即该类的聚类中心是第一聚类中心。

步骤S303：将所述第一距离大于等于所述第二距离的数据样本作为另一类。

比较第一距离和第二距离，将第一距离大于第二距离的数据样本作为一类，即该类的聚类中心是第二聚类中心。

步骤S400：根据预设的误差平方和公式分别计算各个类别的紧凑度。

分别计算第一聚类的紧凑度和第二聚类的紧凑度，本是实施例利用误差平方和公式

计算紧凑度，其中，ASSE代表所述误差平方和，用于反映以c_l作为聚类中心的类别的紧凑度，c_k代表另一个聚类中心，m代表以c_l作为聚类中心的类别中的数据样本数目，x_j代表以c_l作为聚类中心的类别中的第j个数据样本，r代表正则化常数，在本实施例中r＝1。

示范性的，在计算以c₁作为聚类中心的第一聚类的紧凑度时，c₁作为c_l，c₂作为c_k，x_j代表以c₁作为聚类中心的类别中的第j个数据样本，则以c₁作为聚类中心的第一聚类的误差平方和ASSE可以反应第一聚类的紧凑度。

示范性的，在计算以c₂作为聚类中心的第二聚类的紧凑度时，c₂作为c_l，c₁作为c_k，x_j代表以c₂作为聚类中心的类别中的第j个数据样本，则以c₂作为聚类中心的第二聚类的误差平方和ASSE可以反应第二聚类的紧凑度。

应当理解，误差平方和公式

的分子部分可以反应某一聚类中的各个数据样本的紧凑度，分子部分越小，代表该聚类中的各个数据样本点与聚类中心的距离越小，代表该聚类的紧凑度越强；误差平方和公式

的分母部分可以反应某一聚类中的各个数据样本点与另一个聚类的紧凑度，分母部分越大，代表该聚类中的各个数据样本点与另一个聚类中心距离越大，代表该聚类与另一个聚类的紧凑度越小，分离程度越大，即可以反应该聚类的紧凑度越强。可以理解，聚类的误差平方和越小，聚类的紧凑度越大。

步骤S500：以紧凑度最小的类别作为新的目标集，重复执行所述分类操作，直至分类数目达到预设数目。

比较第一聚类的紧凑度和第二聚类的紧凑度，以紧凑度最小的类别作为新的目标集，即选取误差平方和最大的类别作为新的目标集，重复执行上述步骤S300、步骤S400和步骤S500直至分类数目达到预设数目。

预设的分类数目可以根据实际情况进行相应的设置。示范性的，在对四大权威大学排行榜所涉及的评价指标数据进行数据挖掘时，对所有评价指标数据进行聚类分析生成新的评价体系，可以将分类数目设置为4，以将所有的评价指标合理的分为四大类。避免人为分类的主观性，使得数据挖掘和处理过程更为客观，并且提高数据挖掘的速度。

示范性的，对于论文推荐系统，可以利用上述技术方案对用户已经检索的论文数据进行数据挖掘，例如，对于人工智能领域的论文数据，可以将论文数据按照十大机器学习算法进行分类，以将论文数据分为10类，可以根据论文数据的挖掘结果获取用户习惯，对用户进行画像，以在后续可以为用户推荐相关的学术论文，提高用户体验。

示范性的，对于搜索引擎，可以上述技术方案对用户已经检索的信息数据进行数据挖掘，例如，可以将信息数据分为社会、科学、人文、历史和天文等多个类别，以挖掘用户习惯，对用户进行画像，以在后续可以为用户准确的推荐相关的信息。

本实施例所公开的数据挖掘方法对待分析数据进行处理以获取标准数据集；当以所述标准数据集作为待分类的目标集时，在目标集中选取一个数据样本作为聚类中心；以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作；根据预设的误差平方和公式分别计算各个类别的紧凑度；以紧凑度最小的类别作为新的目标集，重复执行所述分类操作，直至分类数目达到预设数目。本实施例的技术方案可以对海量的网络数据进行收集整理，并挖掘数据中所涉及的主要信息，数据挖掘过程更为客观，避免人工操作的主观性，提高数据处理的效率。另外，利用本方法对海量数据进行处理，获取的信息更为准确可靠。

实施例2

本实施例，参见图4，示出了一种数据挖掘装置1包括：数据预处理模块100、初始聚类中心选取模块200、分类操作执行模块300、紧凑度计算模块400和新目标集确定模块500。

数据预处理模块100，用于对待分析数据进行处理以获取标准数据集；初始聚类中心选取模块200，用于当以所述标准数据集作为待分类的目标集时，在目标集中选取一个数据样本作为聚类中心；分类操作执行模块300，用于以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作；紧凑度计算模块400，用于根据预设的误差平方和公式分别计算各个类别的紧凑度；新目标集确定模块500，用于以紧凑度最小的类别作为新的目标集，重复执行所述分类操作，直至分类数目达到预设数目。

本实施例一种数据挖掘装置1通过数据预处理模块100、初始聚类中心选取模块200、分类操作执行模块300、紧凑度计算模块400和新目标集确定模块500的配合使用，用于执行上述实施例所述的数据挖掘方法，上述实施例所涉及的实施方案以及有益效果在本实施例中同样适用，在此不再赘述。

应当理解，本实施例涉及一种终端设备，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述终端设备能执行上述实施例所述的数据挖掘方法。

应当理解，本实施例涉及一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行上述实施例所述的数据挖掘方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据挖掘方法，其特征在于，该方法包括：

对待分析数据进行处理以获取标准数据集；

根据预设的误差平方和公式分别计算各个类别的紧凑度；

2.根据权利要求1所述的数据挖掘方法，其特征在于，以目标集的聚类中心和距离所述目标集的聚类中心最远的数据样本为中心执行分类操作，包括：

将所述第一距离小于所述第二距离的数据样本作为一类；

3.根据权利要求1所述的数据挖掘方法，其特征在于，通过以下方式确定距离所述目标集的聚类中心最远的数据样本：

4.根据权利要求2或3所述的数据挖掘方法，其特征在于，所述距离度量公式如下：

5.根据权利要求1所述的数据挖掘方法，其特征在于，所述误差平方和公式如下：

6.根据权利要求1所述的数据挖掘方法，其特征在于，所述对待分析数据进行处理以获取标准数据集，包括：

对待分析数据进行文本分词，并构建词袋模型向量；

对所述文本-词汇矩阵进行降维处理以获取标准数据集。

7.一种数据挖掘装置，其特征在于，该装置包括：

8.根据权利要求7所述的数据挖掘装置，其特征在于，通过以下方式确定距离所述目标集的聚类中心最远的数据样本：

9.一种终端设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述终端设备能执行权利要求1至6任一项所述的数据挖掘方法。

10.一种可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至6任一项所述的数据挖掘方法。