CN110502552B

CN110502552B - 一种基于微调条件概率的分类数据转换方法

Info

Publication number: CN110502552B
Application number: CN201910770010.6A
Authority: CN
Inventors: 熊庆宇; 李秋德; 吉胜芬; 高旻; 余洋; 王凯歌; 吉皇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2022-10-28
Anticipated expiration: 2039-08-20
Also published as: CN110502552A

Abstract

本发明涉及数据预处理的数据挖掘或机器学习领域，本发明提出的一种基于微调条件概率的分类数据转换方法，包括：S1、分类数据的数据采集；S2、数据预处理，清洗分类数据中的缺失数据，噪音数据，以及无效数据；S3、条件概率计算，将清洗以后的分类数据转换为数值向量；S4、微调条件概率，对步骤S3中转换后的数值向量进行数值微调；S5、分类数据的数值嵌入，对步骤S4中进行数值微调以后的数值向量，采用原始的分类数据嵌入或映射为数值数据。本发明可将分类数据集中的分类值转换为高质量的数值向量，转换后的数值数据能保持原始数据的真实分布，保证了数据挖掘任务的可靠性。

Description

一种基于微调条件概率的分类数据转换方法

技术领域

本发明涉及数据预处理的数据挖掘或机器学习领域，具体涉及一种基于微调条件概率的分类数据转换方法。

背景技术

在一个数据挖掘或机器学习任务中，采集的数据通常会包含数值型和分类型两类数据。然而大部分机器学习算法(如神经网络、支持向量机、逻辑回归等)只能直接处理数值数据，仅有少数地如决策树、贝叶斯等算法可直接处理分类数据；此外，直接处理数值数据的算法通常比直接处理分类数据的算法具有更高效的性能。为了能广泛地使用数值输入的机器学习算法，分类数据需要转换为数值数据。目前，国内外已经提出了多种分类数据转换方法，然而，这些方法多数存在的一个缺陷是将分类数据转换为低质量的数值数据，从而偏离了原始数据的真实分布，以至于降低了下一阶段机器学习算法的性能和可靠性。因此，研究一种高效合理的分类数据转换方法极为重要。

在分类数据转换为数值数据的众多方法之中，最常用的方法是独热编码(One-hotEncoding)，它将分类属性内的每个分类值转换为一个高维的0-1向量；当分类属性的分类值基数很大时，这个方法极易出现维度灾难问题，从而增加数据存储的开销和后序机器学习算法的时间开销。为此，专利CN109740680A公开了一种混合值属性审批数据的分类方法及系统，通过独热编码转换为高维的数值数据后，再用神经网络进行深度编码以降低属性维度，但是需要花费大量的时间去寻找一个好的神经网络结构；专利US20190164083A1公开了一种自然语言处理领域下用于机器学习的分类数据转换和聚类方法，该方法首先也是使用独热编码转换，随后使用聚类算法去降低属性维度。除了独热编码及其改进方法外，专利CN109255373A公开了一种分类数据数字化的数据处理方法，但该方法仅应用于土地利用和土壤类型等环境领域问题，不具普适性。授权专利US9619757B2公开了一种使用结果可能性的标称属性转换方法，它将每个分类值转换为该分类值在数据集中出现的可能性(或概率)，这种方法没有考虑类标签信息，因此可能会损失部分信息。

Kasif等人考虑了类标签信息后提出了一种基于记忆推理的转换方法，将分类属性内的每个分类值转换为一个条件概率向量。然而他们并没有将转换的条件概率向量应用于数值输入的机器学习算法，而只是用于计算分类值之间的距离。Hernández-Pereira等人将上述转换方法的条件概率应用于数值输入的神经网络算法，并在入侵检测问题中取得了很好的实验效果。基于记忆推理的转换方法因考虑了类标签信息而获得了较高质量的数值数据，然而，我们通过深入分析这种转换方法后发现：它依赖属性独立假设，假设数据集内的属性之间是相互独立的。当属性之间存在某种依赖关系时便违反了这个假设(注：属性之间通常是相互依赖的)，从而转换后的条件概率也不太可靠，稍许的偏离了原始数据的真实分布。

发明内容

本发明的目的是提供一种基于微调条件概率的分类数据转换方法，可将分类数据集中的分类值转换为高质量的数值向量，使得转换后的数值数据依然能保持原始数据的真实分布，从而提高了下一阶段机器学习算法的分类性能，并保证了数据挖掘任务的可靠性。

本发明提出的一种基于微调条件概率的分类数据转换方法，包括：

S1、分类数据的数据采集；

S2、数据预处理，清洗分类数据中的缺失数据，噪音数据，以及无效数据；

S3、条件概率计算，将清洗以后的分类数据转换为数值向量；

S4、微调条件概率，对步骤S3中转换后的数值向量进行数值微调；

S5、分类数据的数值嵌入，对步骤S4中进行数值微调以后的数值向量，采用原始的分类数据嵌入或映射为数值数据。

本发明一种基于微调条件概率的分类数据转换方法的有益效果：可靠性：可将分类数据集中的分类值转换为高质量的数值向量，转换后的数值数据能保持原始数据的真实分布，保证了数据挖掘任务的可靠性；

高性能：转换的数据应用于下一阶段机器学习算法后，能取得高性能指标(高的准确率，召回率，F得分等)；

高效性：转换的数据维度远低于独热编码方法，且比独热编码及其改进方法具有更少的运行时间；

便捷性：预设的参数个数少，减少用户设置参数带来的麻烦，更有利于实际的应用场景；

普适性：它是一种基于数据驱动的转换方法，能自适应的应用于各种分类数据集。

附图说明

图1为本发明实施例的一种基于微调条件概率的分类数据转换方法的算法流程图；

图2为本发明实施例的一种基于微调条件概率的分类数据转换方法实际运用环境图；

图3为本发明实施例的一种基于微调条件概率的分类数据转换方法分类数据矩阵的样例图；

图4为本发明实施例的一种基于微调条件概率的分类数据转换方法应用系统架构图；

图5为本发明实施例的一种基于微调条件概率的分类数据转换方法实现分类数据转换的一个示例；

其中：101、数据采集，102、网络，103、数据库，104、服务系统，105、用户设备，200、分类数据样例，301、数据转换模块，302、分类器模块，303、分析报告，401、条件概率计算，402、估计有效范围，403、微调条件概率，404、微调后验证，405、条件判断，501、分类数据集，502、分类属性，505、数值数据集。

具体实施方式

下面结合附图和具体实施例对本发明的一种基于微调条件概率的分类数据转换方法作进一步的说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明是一种基于微调条件概率的分类数据转换方法，包括：

S1、分类数据的数据采集101；

S3、条件概率计算401，将清洗以后的分类数据转换为数值向量；

本发明一种基于微调条件概率的分类数据转换方法的有益效果：可靠性：可将分类数据集501中的分类值转换为高质量的数值向量，转换后的数值数据集505能保持原始数据的真实分布，保证了数据挖掘任务的可靠性；

普适性：它是一种基于数据驱动的转换方法，能自适应的应用于各种分类数据集501。

设X是一个包含N个样本的分类数据集501，每个样本由一个m维的向量[a₁(x),…,a_m(x)]表示，其中a_i(x)是样本x的第i属性的分类值，此外，X的类标签为

在算法的流程图中，条件概率计算401首先提取每个分类属性502A_i和类标签C中的数据，然后计算属性A_i内每个分类值a_i(x)的条件概率，并生成如下的l维数值向量：

a_i(x)→[P(c₁|a_i(x)),…,P(c_j|a_i(x)),…,P(c_l|a_i(x))] (1)

其中式(1)中的条件概率项P(c_j|a_i(x))是由拉普拉斯平滑(Laplace Smoothing)的贝叶斯估计(Bayesian Estimation)进行计算，即为：

其中式(2)中的I(x,y)是一个指标函数，即当x＝y时I(x,y)＝1，否则I(x,y)＝0；λ(≥0)是一个拉普拉斯平滑因子。

估计有效范围402，利用有效范围算法(ValidRanges Algorithm)的计算属性A_i内每个分类值a_i(x)的有效范围[P_min(c_j|a_i),P_max(c_j|a_i)]，其中0≤P_min(c_j|a_i)≤P_max(c_j|a_i)≤1。

S01、如果条件概率项P(c_j|a_i(x))用于正确分类的样本数大于错误分类的样本数时，即Neg_ratio(a_i,c_j)＞pos_ratio(a_i,c_j)时，微调这个概率项P(c_j|a_i(x))，否则退出微调过程；

S02、计算分类值a_i(x)的平均有效范围

与条件概率

的绝对值，

其中

S03、把条件概率

用

进行更新，即

S04、归一化更新的条件概率

即

微调后验证404，使用机器学习分类器验证微调后的条件概率的性能是否得到提高，即验证微调算法是否能更加真实的拟合原始数据的分布。

条件判断405，判断微调后验证404中条件概率的性能是否提高，如果得到提高，说明本次微调是有效的，转到微调条件概率403，继续微调；否则终止微调过程，退出程序；此外，为防止微调过程进入死循环，微调次数限制在预设的1000次以内。

计算环境图包括由通信网络102耦合的数据采集101、存储数据库103、数据挖掘服务系统104和用户设备105四个功能块。数据采集101终端可能由台式机电脑、笔记本电脑或移动设备自动的在线收集有用的分类数据(如电商网页数据，医疗监测数据等)，也可能是人工收集后再录入系统的分类数据集501(如市场访问数据，人口普查数据等)。数据采集101终端将收集的分类数据集501通过网络102发送到数据库103中进行存储，存储分类数据集501的数据库可能是本地工作站或远程服务器，或是云端数据服务器。用户通过用户设备105向服务系统104发送请求，要求分析某个数据挖掘任务(如信用卡欺诈检测的任务)。服务系统104收到请求后，从数据库103中调用相应的分类数据集501，通过数据挖掘分析后将分析报告303传回给用户设备105，以供用户查看和决策。

数据采集101将收集的分类数据集501存储在数据库103中，这些分类数据集501的一个示例如图3所示。分类数据样例200是一个信用卡欺诈检测的数据矩阵集，该矩阵的每行代表一个信用贷款客户，每列描述客户的基本信息(或属性，如性别，婚烟状况，收入，信用记录)。这些属性是分类数据(如性别的值为“男”，“女”)，而非数值数据(如0.12，1.85等)。

用户设备105请求服务系统104分析某个数据挖掘任务时，应用于用户的一个服务系统104如图4所示。服务系统104首先从数据库103中调用相应的分类数据集501，然后再在本系统中运行数据转换模块301和分类器模型302，并汇总分析报告303。本发明的数据转换模块301能将数据库103中的分类数据转换为高质量的数值数据，它包括具有数据清洗功能的数据预处理子模块(如清洗缺失数据，噪音数据等)、条件概率计算子模块、微调条件概率子模块和嵌入数值子模块(数据嵌入或数据映射)。转换后的数值数据送入到分类器模块302中，分类器模块302选择适合的机器学习模型(如神经网络、支持向量机、逻辑回归等学习模型)和损失函数(平方损失、0-1损失、交叉熵损失、对数损失等)训练一个分类器。然后，分类器模块302中的分类器对数据转换模块301中的转换数据进行评估，并形成分析报告303。分析报告303中主要包括预测样本的标签，以及分类器性能和效率的评价等内容。

数据转换模块301的一个实施例：

采用数据转换模块301可以将数据集中的分类数据转换为数值数据，下面以信用卡欺诈检测的数据集为例说明。该信用卡欺诈检测数据集来源于某市某银行的信用卡部门，在2013年共收集了284，807条数据记录，每条记录含28个分类属性502。该数据集的示例如分类数据矩阵样例200所示。

操作步骤如下：

Step1:数据转换模块301中的数据预处理子模块对原始数据通过清洗缺失数据，噪音数据等操作后得到处理后的分类数据集501；

Step2:从分类数据集501中提取每N个分类属性502和类标签；

Step3:通过公式(1)、(2)计算条件概率401，例如：分类值“结婚”对应的条件概率是[0.15，0.51，...]，分类值“单身”对应的条件概率是[0.33，0.12，...]等等；

Step4:微调条件概率403是按照本发明的说明书附图图5进行，例如分类值“结婚”对应的条件概率为[0.15，0.51，...]通过微调后，它对应的微调条件概率403为[0.13，0.47，...]；

Step5:分类数据集501的分类数据用微调条件概率403进行转换，并将转换后的数值数据保存到数值数据集505中。