CN110502552B - 一种基于微调条件概率的分类数据转换方法 - Google Patents
一种基于微调条件概率的分类数据转换方法 Download PDFInfo
- Publication number
- CN110502552B CN110502552B CN201910770010.6A CN201910770010A CN110502552B CN 110502552 B CN110502552 B CN 110502552B CN 201910770010 A CN201910770010 A CN 201910770010A CN 110502552 B CN110502552 B CN 110502552B
- Authority
- CN
- China
- Prior art keywords
- data
- fine
- classification
- conditional probability
- numerical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据预处理的数据挖掘或机器学习领域,本发明提出的一种基于微调条件概率的分类数据转换方法,包括:S1、分类数据的数据采集;S2、数据预处理,清洗分类数据中的缺失数据,噪音数据,以及无效数据;S3、条件概率计算,将清洗以后的分类数据转换为数值向量;S4、微调条件概率,对步骤S3中转换后的数值向量进行数值微调;S5、分类数据的数值嵌入,对步骤S4中进行数值微调以后的数值向量,采用原始的分类数据嵌入或映射为数值数据。本发明可将分类数据集中的分类值转换为高质量的数值向量,转换后的数值数据能保持原始数据的真实分布,保证了数据挖掘任务的可靠性。
Description
技术领域
本发明涉及数据预处理的数据挖掘或机器学习领域,具体涉及一种基于微调条件概率的分类数据转换方法。
背景技术
在一个数据挖掘或机器学习任务中,采集的数据通常会包含数值型和分类型两类数据。然而大部分机器学习算法(如神经网络、支持向量机、逻辑回归等)只能直接处理数值数据,仅有少数地如决策树、贝叶斯等算法可直接处理分类数据;此外,直接处理数值数据的算法通常比直接处理分类数据的算法具有更高效的性能。为了能广泛地使用数值输入的机器学习算法,分类数据需要转换为数值数据。目前,国内外已经提出了多种分类数据转换方法,然而,这些方法多数存在的一个缺陷是将分类数据转换为低质量的数值数据,从而偏离了原始数据的真实分布,以至于降低了下一阶段机器学习算法的性能和可靠性。因此,研究一种高效合理的分类数据转换方法极为重要。
在分类数据转换为数值数据的众多方法之中,最常用的方法是独热编码(One-hotEncoding),它将分类属性内的每个分类值转换为一个高维的0-1向量;当分类属性的分类值基数很大时,这个方法极易出现维度灾难问题,从而增加数据存储的开销和后序机器学习算法的时间开销。为此,专利CN109740680A公开了一种混合值属性审批数据的分类方法及系统,通过独热编码转换为高维的数值数据后,再用神经网络进行深度编码以降低属性维度,但是需要花费大量的时间去寻找一个好的神经网络结构;专利US20190164083A1公开了一种自然语言处理领域下用于机器学习的分类数据转换和聚类方法,该方法首先也是使用独热编码转换,随后使用聚类算法去降低属性维度。除了独热编码及其改进方法外,专利CN109255373A公开了一种分类数据数字化的数据处理方法,但该方法仅应用于土地利用和土壤类型等环境领域问题,不具普适性。授权专利US9619757B2公开了一种使用结果可能性的标称属性转换方法,它将每个分类值转换为该分类值在数据集中出现的可能性(或概率),这种方法没有考虑类标签信息,因此可能会损失部分信息。
Kasif等人考虑了类标签信息后提出了一种基于记忆推理的转换方法,将分类属性内的每个分类值转换为一个条件概率向量。然而他们并没有将转换的条件概率向量应用于数值输入的机器学习算法,而只是用于计算分类值之间的距离。Hernández-Pereira等人将上述转换方法的条件概率应用于数值输入的神经网络算法,并在入侵检测问题中取得了很好的实验效果。基于记忆推理的转换方法因考虑了类标签信息而获得了较高质量的数值数据,然而,我们通过深入分析这种转换方法后发现:它依赖属性独立假设,假设数据集内的属性之间是相互独立的。当属性之间存在某种依赖关系时便违反了这个假设(注:属性之间通常是相互依赖的),从而转换后的条件概率也不太可靠,稍许的偏离了原始数据的真实分布。
发明内容
本发明的目的是提供一种基于微调条件概率的分类数据转换方法,可将分类数据集中的分类值转换为高质量的数值向量,使得转换后的数值数据依然能保持原始数据的真实分布,从而提高了下一阶段机器学习算法的分类性能,并保证了数据挖掘任务的可靠性。
本发明提出的一种基于微调条件概率的分类数据转换方法,包括:
S1、分类数据的数据采集;
S2、数据预处理,清洗分类数据中的缺失数据,噪音数据,以及无效数据;
S3、条件概率计算,将清洗以后的分类数据转换为数值向量;
S4、微调条件概率,对步骤S3中转换后的数值向量进行数值微调;
S5、分类数据的数值嵌入,对步骤S4中进行数值微调以后的数值向量,采用原始的分类数据嵌入或映射为数值数据。
本发明一种基于微调条件概率的分类数据转换方法的有益效果:可靠性:可将分类数据集中的分类值转换为高质量的数值向量,转换后的数值数据能保持原始数据的真实分布,保证了数据挖掘任务的可靠性;
高性能:转换的数据应用于下一阶段机器学习算法后,能取得高性能指标(高的准确率,召回率,F得分等);
高效性:转换的数据维度远低于独热编码方法,且比独热编码及其改进方法具有更少的运行时间;
便捷性:预设的参数个数少,减少用户设置参数带来的麻烦,更有利于实际的应用场景;
普适性:它是一种基于数据驱动的转换方法,能自适应的应用于各种分类数据集。
附图说明
图1为本发明实施例的一种基于微调条件概率的分类数据转换方法的算法流程图;
图2为本发明实施例的一种基于微调条件概率的分类数据转换方法实际运用环境图;
图3为本发明实施例的一种基于微调条件概率的分类数据转换方法分类数据矩阵的样例图;
图4为本发明实施例的一种基于微调条件概率的分类数据转换方法应用系统架构图;
图5为本发明实施例的一种基于微调条件概率的分类数据转换方法实现分类数据转换的一个示例;
其中:101、数据采集,102、网络,103、数据库,104、服务系统,105、用户设备,200、分类数据样例,301、数据转换模块,302、分类器模块,303、分析报告,401、条件概率计算,402、估计有效范围,403、微调条件概率,404、微调后验证,405、条件判断,501、分类数据集,502、分类属性,505、数值数据集。
具体实施方式
下面结合附图和具体实施例对本发明的一种基于微调条件概率的分类数据转换方法作进一步的说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明是一种基于微调条件概率的分类数据转换方法,包括:
S1、分类数据的数据采集101;
S2、数据预处理,清洗分类数据中的缺失数据,噪音数据,以及无效数据;
S3、条件概率计算401,将清洗以后的分类数据转换为数值向量;
S4、微调条件概率,对步骤S3中转换后的数值向量进行数值微调;
S5、分类数据的数值嵌入,对步骤S4中进行数值微调以后的数值向量,采用原始的分类数据嵌入或映射为数值数据。
本发明一种基于微调条件概率的分类数据转换方法的有益效果:可靠性:可将分类数据集501中的分类值转换为高质量的数值向量,转换后的数值数据集505能保持原始数据的真实分布,保证了数据挖掘任务的可靠性;
高性能:转换的数据应用于下一阶段机器学习算法后,能取得高性能指标(高的准确率,召回率,F得分等);
高效性:转换的数据维度远低于独热编码方法,且比独热编码及其改进方法具有更少的运行时间;
便捷性:预设的参数个数少,减少用户设置参数带来的麻烦,更有利于实际的应用场景;
普适性:它是一种基于数据驱动的转换方法,能自适应的应用于各种分类数据集501。
设X是一个包含N个样本的分类数据集501,每个样本由一个m维的向量[a1(x),…,am(x)]表示,其中ai(x)是样本x的第i属性的分类值,此外,X的类标签为在算法的流程图中,条件概率计算401首先提取每个分类属性502Ai和类标签C中的数据,然后计算属性Ai内每个分类值ai(x)的条件概率,并生成如下的l维数值向量:
ai(x)→[P(c1|ai(x)),…,P(cj|ai(x)),…,P(cl|ai(x))] (1)
其中式(1)中的条件概率项P(cj|ai(x))是由拉普拉斯平滑(Laplace Smoothing)的贝叶斯估计(Bayesian Estimation)进行计算,即为:
其中式(2)中的I(x,y)是一个指标函数,即当x=y时I(x,y)=1,否则I(x,y)=0;λ(≥0)是一个拉普拉斯平滑因子。
估计有效范围402,利用有效范围算法(ValidRanges Algorithm)的计算属性Ai内每个分类值ai(x)的有效范围[Pmin(cj|ai),Pmax(cj|ai)],其中0≤Pmin(cj|ai)≤Pmax(cj|ai)≤1。
S01、如果条件概率项P(cj|ai(x))用于正确分类的样本数大于错误分类的样本数时,即Neg_ratio(ai,cj)>pos_ratio(ai,cj)时,微调这个概率项P(cj|ai(x)),否则退出微调过程;
微调后验证404,使用机器学习分类器验证微调后的条件概率的性能是否得到提高,即验证微调算法是否能更加真实的拟合原始数据的分布。
条件判断405,判断微调后验证404中条件概率的性能是否提高,如果得到提高,说明本次微调是有效的,转到微调条件概率403,继续微调;否则终止微调过程,退出程序;此外,为防止微调过程进入死循环,微调次数限制在预设的1000次以内。
计算环境图包括由通信网络102耦合的数据采集101、存储数据库103、数据挖掘服务系统104和用户设备105四个功能块。数据采集101终端可能由台式机电脑、笔记本电脑或移动设备自动的在线收集有用的分类数据(如电商网页数据,医疗监测数据等),也可能是人工收集后再录入系统的分类数据集501(如市场访问数据,人口普查数据等)。数据采集101终端将收集的分类数据集501通过网络102发送到数据库103中进行存储,存储分类数据集501的数据库可能是本地工作站或远程服务器,或是云端数据服务器。用户通过用户设备105向服务系统104发送请求,要求分析某个数据挖掘任务(如信用卡欺诈检测的任务)。服务系统104收到请求后,从数据库103中调用相应的分类数据集501,通过数据挖掘分析后将分析报告303传回给用户设备105,以供用户查看和决策。
数据采集101将收集的分类数据集501存储在数据库103中,这些分类数据集501的一个示例如图3所示。分类数据样例200是一个信用卡欺诈检测的数据矩阵集,该矩阵的每行代表一个信用贷款客户,每列描述客户的基本信息(或属性,如性别,婚烟状况,收入,信用记录)。这些属性是分类数据(如性别的值为“男”,“女”),而非数值数据(如0.12,1.85等)。
用户设备105请求服务系统104分析某个数据挖掘任务时,应用于用户的一个服务系统104如图4所示。服务系统104首先从数据库103中调用相应的分类数据集501,然后再在本系统中运行数据转换模块301和分类器模型302,并汇总分析报告303。本发明的数据转换模块301能将数据库103中的分类数据转换为高质量的数值数据,它包括具有数据清洗功能的数据预处理子模块(如清洗缺失数据,噪音数据等)、条件概率计算子模块、微调条件概率子模块和嵌入数值子模块(数据嵌入或数据映射)。转换后的数值数据送入到分类器模块302中,分类器模块302选择适合的机器学习模型(如神经网络、支持向量机、逻辑回归等学习模型)和损失函数(平方损失、0-1损失、交叉熵损失、对数损失等)训练一个分类器。然后,分类器模块302中的分类器对数据转换模块301中的转换数据进行评估,并形成分析报告303。分析报告303中主要包括预测样本的标签,以及分类器性能和效率的评价等内容。
数据转换模块301的一个实施例:
采用数据转换模块301可以将数据集中的分类数据转换为数值数据,下面以信用卡欺诈检测的数据集为例说明。该信用卡欺诈检测数据集来源于某市某银行的信用卡部门,在2013年共收集了284,807条数据记录,每条记录含28个分类属性502。该数据集的示例如分类数据矩阵样例200所示。
操作步骤如下:
Step1:数据转换模块301中的数据预处理子模块对原始数据通过清洗缺失数据,噪音数据等操作后得到处理后的分类数据集501;
Step2:从分类数据集501中提取每N个分类属性502和类标签;
Step3:通过公式(1)、(2)计算条件概率401,例如:分类值“结婚”对应的条件概率是[0.15,0.51,...],分类值“单身”对应的条件概率是[0.33,0.12,...]等等;
Step4:微调条件概率403是按照本发明的说明书附图图5进行,例如分类值“结婚”对应的条件概率为[0.15,0.51,...]通过微调后,它对应的微调条件概率403为[0.13,0.47,...];
Step5:分类数据集501的分类数据用微调条件概率403进行转换,并将转换后的数值数据保存到数值数据集505中。
Claims (2)
1.一种基于微调条件概率的分类数据转换方法,其特征在于,包括:
S1、分类数据的数据采集;
S2、数据预处理,清洗分类数据中的缺失数据,噪音数据,以及无效数据;
S3、条件概率计算,将清洗以后的分类数据转换为数值向量;
S4、微调条件概率,对步骤S3中转换后的数值向量进行数值微调;
S5、分类数据的数值嵌入,对步骤S4中进行数值微调以后的数值向量,采用原始的分类数据嵌入或映射为数值数据;
其中步骤S2和S3具体包括:
X是一个包含N个样本的分类数据集,每个样本由一个m维的向量[a1(x),…,am(x)]表示,其中ai(x)是样本x的第i属性的分类值,此外,X的类标签为条件概率计算首先提取每个分类属性Ai和类标签C中的数据,然后计算属性Ai内每个分类值ai(x)的条件概率,并生成如下的l维数值向量:
ai(x)→[P(c1|ai(x)),…,P(cj|ai(x)),…,P(cl|ai(x))] (1)
其中式(1)中的条件概率项P(cj|ai(x))是由拉普拉斯平滑(Laplace Smoothing)的贝叶斯估计(Bayesian Estimation)进行计算,即为:
其中式(2)中的I(x,y)是一个指标函数,即当x=y时I(x,y)=1,否则I(x,y)=0;λ≥0是一个拉普拉斯平滑因子;
其中步骤S3还包括:
估计有效范围,利用有效范围算法(Valid Ranges Algorithm)的计算属性Ai内每个分类值ai(x)的有效范围[Pmin(cj|ai),Pmax(cj|ai)],其中0≤Pmin(cj|ai)≤Pmax(cj|ai)≤1;
其中步骤S4包括:
S01、如果条件概率项P(cj|ai(x))用于正确分类的样本数大于错误分类的样本数时,即Neg_ratio(ai,cj)>pos_ratio(ai,cj)时,微调这个概率项P(cj|ai(x)),否则退出微调过程;
其中步骤S4还包括:
微调后验证,使用机器学习分类器验证微调后的条件概率的性能是否得到提高,即验证微调算法是否能更加真实的拟合原始数据的分布;
其中步骤S5包括,
条件判断,判断微调后验证中条件概率的性能是否提高,如果得到提高,说明本次微调是有效的,转到微调条件概率,继续微调;否则终止微调过程,退出程序。
2.如权利要求1所述的一种基于微调条件概率的分类数据转换方法,其特征在于,微调次数限制在预设的1000次以内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770010.6A CN110502552B (zh) | 2019-08-20 | 2019-08-20 | 一种基于微调条件概率的分类数据转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770010.6A CN110502552B (zh) | 2019-08-20 | 2019-08-20 | 一种基于微调条件概率的分类数据转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502552A CN110502552A (zh) | 2019-11-26 |
CN110502552B true CN110502552B (zh) | 2022-10-28 |
Family
ID=68588872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910770010.6A Active CN110502552B (zh) | 2019-08-20 | 2019-08-20 | 一种基于微调条件概率的分类数据转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502552B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444400A (zh) * | 2020-04-07 | 2020-07-24 | 中国汽车工程研究院股份有限公司 | 力与流场数据管理方法 |
CN114549178A (zh) * | 2022-02-23 | 2022-05-27 | 中国工商银行股份有限公司 | 信用度评价方法、装置、电子设备和介质 |
CN115264048B (zh) * | 2022-07-26 | 2023-05-23 | 重庆大学 | 基于数据挖掘的自动变速器智能挡位决策设计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294828A (zh) * | 2013-06-25 | 2013-09-11 | 厦门市美亚柏科信息股份有限公司 | 数据挖掘模型维度的验证方法和验证装置 |
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7020593B2 (en) * | 2002-12-04 | 2006-03-28 | International Business Machines Corporation | Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model) |
US10558766B2 (en) * | 2015-12-31 | 2020-02-11 | Palo Alto Research Center Incorporated | Method for Modelica-based system fault analysis at the design stage |
-
2019
- 2019-08-20 CN CN201910770010.6A patent/CN110502552B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294828A (zh) * | 2013-06-25 | 2013-09-11 | 厦门市美亚柏科信息股份有限公司 | 数据挖掘模型维度的验证方法和验证装置 |
CN104391860A (zh) * | 2014-10-22 | 2015-03-04 | 安一恒通(北京)科技有限公司 | 内容类别检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
A probabilistic framework for memory-based reasoning;Simon Kasif et al.;《Artificial Intelligence》;19980930;第1-2卷(第104期);第287-311页 * |
Handling nominal features in anomaly intrusion detection problems;Mei-Ling Shyu et al.;《15th International Workshop on Research Issues in Data Engineering: Stream Data Mining and Applications》;20050906;第55-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110502552A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652710B (zh) | 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法 | |
CN110704730B (zh) | 基于大数据的产品数据推送方法、系统及计算机设备 | |
CN110502552B (zh) | 一种基于微调条件概率的分类数据转换方法 | |
CN112800876B (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN112329874B (zh) | 数据业务的决策方法、装置、电子设备和存储介质 | |
CN109934301B (zh) | 一种电力负荷聚类分析方法、装置和设备 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN113469730A (zh) | 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置 | |
CN112418476A (zh) | 一种超短期电力负荷预测方法 | |
CN116861331A (zh) | 一种融合专家模型决策的数据识别方法及系统 | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
CN112785441A (zh) | 数据处理方法、装置、终端设备及存储介质 | |
CN111833175A (zh) | 基于knn算法的互联网金融平台申请欺诈行为检测方法 | |
CN114090401B (zh) | 处理用户行为序列的方法及装置 | |
CN118468061B (zh) | 一种算法自动匹配及参数优化方法及系统 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112115443A (zh) | 一种终端用户鉴权方法及系统 | |
CN114707420A (zh) | 一种信贷欺诈行为识别方法、装置、设备及存储介质 | |
CN114722941A (zh) | 信贷违约识别方法、装置、设备和介质 | |
CN118468207B (zh) | 基于大数据的企业异常行为监测系统及方法 | |
CN118569983B (zh) | 用于企业信用风险管理的资产数据处理系统及方法 | |
US12143402B2 (en) | Systems and methods for accelerating a disposition of digital dispute events in a machine learning-based digital threat mitigation platform | |
US20240154975A1 (en) | Systems and methods for accelerating a disposition of digital dispute events in a machine learning-based digital threat mitigation platform | |
Passalis et al. | Leveraging quadratic spherical mutual information hashing for fast image retrieval | |
CN117132402A (zh) | 信息化资源的状态检测方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |