CN112070125A - 一种基于孤立森林学习的不平衡数据集的预测方法 - Google Patents
一种基于孤立森林学习的不平衡数据集的预测方法 Download PDFInfo
- Publication number
- CN112070125A CN112070125A CN202010837636.7A CN202010837636A CN112070125A CN 112070125 A CN112070125 A CN 112070125A CN 202010837636 A CN202010837636 A CN 202010837636A CN 112070125 A CN112070125 A CN 112070125A
- Authority
- CN
- China
- Prior art keywords
- data set
- sample
- samples
- formula
- minority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012706 support-vector machine Methods 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000002068 genetic effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 210000000349 chromosome Anatomy 0.000 claims description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000035772 mutation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 238000010187 selection method Methods 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000007621 cluster analysis Methods 0.000 claims description 2
- 230000002301 combined effect Effects 0.000 claims description 2
- 238000010353 genetic engineering Methods 0.000 claims description 2
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 230000002040 relaxant effect Effects 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开的一种基于孤立森林学习的不平衡数据集的预测方法,包括以下步骤:接收预测请求;采集数据,明确数据集中的特征与标签及少数类样本和多数类样本的数量;将数据集中的非数值特征列以及标签列转变为分类数值;用多数类加权的少数类过采样技术合成少数类样本,形成平衡数据集;用孤立森林算法对平衡数据集进行异常点的识别和去除;之后进行数据标准化,划分训练集和测试集;构建并用训练集训练支持向量机分类器模型;通过遗传算法调整支持向量机分类器模型的超参数,训练完成后得到预测模型;将测试集输入预测模型得到预测结果。本发明一种基于孤立森林学习的不平衡数据集的预测方法,具有预测结果稳定、预测精度高的特点。
Description
技术领域
本发明属于类别不平衡数据集的预测方法技术领域,具体涉及一种基于孤立森林学习的不平衡数据集的预测方法。
背景技术
随着传感器技术、计算机技术、通信技术、数据存储等技术的高速发展,互联网、过程工业等领域产生并存储了大量数据。机器学习是一种主流的智能数据处理技术,而分类算法作为机器学习的关键技术之一,它能够利用大数据构建一个具有较强泛化能力的分类模型,提取数据中的有用信息而受到广泛关注。传统的分类方法通常假设数据集中各类别所包含的样本数相同且误分代价相等。然而现实世界中的数据往往具有不平衡特性,即数据集中某一类的样本数量要小于其他类别样本数量,并且具有少数样本的那类数据相比其他类更加重要,错分代价更高。目前,不平衡数据分类问题广泛存在于各个领域,在金融领域:如贷款违约预测;信息安全领域:如软件缺陷检测;工业系统领域:如故障诊断;生物医学领域:如ICU死亡预测等。由于不平衡数据集对机器学习分类器的分类精度影响较大,尽管分类算法对平衡数据集可以有效地处理,但对于不平衡数据集,通常会产生次优的结果,可能会产生偏向多数类且在少数类上导致分类精度低的结果,因此对不平衡数据集的研究具有重要意义。
传统方法中有过采样方法和欠采样方法以及对两种方法的改进处理不平衡数据集,如SMOTE、单边选择法(one-side select,OSS)等方法。但在处理不平衡数据集的过程中,欠采样可能会删去带重要信息的样本,过采样方法中在生成少数类样本时没有考虑样本分布问题,会出现样本重叠现象。另外,用过采样方法生成少数类样本中可能会有一些异常点,这些异常点会影响模型的预测精度。
发明内容
本发明的目的在于提供一种基于孤立森林学习的不平衡数据集的预测方法,解决了现有方法在生成少数类样本时出现样本重叠现象以及出现异常点使预测结果不稳定、准确度低的问题。
本发明所采用的技术方案是:一种基于孤立森林学习的不平衡数据集的预测方法,包括以下步骤:
步骤1、接收预测请求;
步骤2、采集数据(不平衡数据集),明确数据集中的特征与标签,及少数类样本和多数类样本的数量;
步骤3、将数据集中的非数值特征列以及标签列转变为分类数值;
步骤4、用多数类加权的少数类过采样技术合成少数类样本,形成平衡数据集;
步骤5、用孤立森林算法对平衡数据集进行异常点的识别和去除;
步骤6、将去除异常点后的平衡数据集进行数据标准化,划分训练数据集和测试数据集;
步骤7、构建并用训练数据集训练支持向量机(Support Vector Machine, SVM)分类器模型;
步骤8、通过遗传算法调整支持向量机分类器模型的超参数,训练完成后,得到训练好的预测模型;
步骤9,将测试数据集输入训练完成的预测模型得到预测结果。
本发明的有益效果是:本发明一种基于孤立森林学习的不平衡数据集的预测方法,通过多数类加权的少数类过采样解决合成少数类样本时出现的重叠问题;通过孤立森林(Isolation Forest)识别并删除异常点,提供更有质量的训练样本,进一步提高模型的预测精度,具有预测结果稳定、预测精度高的特点。
附图说明
图1是本发明一种基于孤立森林学习的不平衡数据集的预测方法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明进行详细说明。
本发明提供了一种基于孤立森林学习的不平衡数据集的预测方法,如图 1所示,具体步骤如下:
步骤1,接收预测请求。
步骤2,明确数据集中的特征与标签及少数类样本和多数类样本的数量。
步骤3,将数据集中的非数值特征列以及标签列转变为分类数值。
步骤4,用多数类加权的少数类过采样合成少数类样本,形成平衡数据集。多数类加权的少数类过采样(Majority Weighted Minority Oversampling Technique,MWMOTE)的基本思想是:首先识别难以学习的信息量大的少数类样本,并根据它们与最近的多数类样本之间的欧式距离给它们赋值;然后使用聚类方法从加权信息量大的少数类样本中合成少数类样本,使所有新合成的少数类样本都在某一个类簇中。其算法计算过程如下:
输入:多数类样本集Smaj,少数类样本集Smin,预计的合成样本数N,用来测噪声样本的少数类样本邻居样本数k1,用于构造包含大量少数类特征信息的少数类样本集的多数类邻居数k2,用于构造包含大量少数类特征信息的少数类样本集的少数类邻居数k3
输出:平衡后的数据集X
Begin
1.对少数类样本集中的每个元素,通过将它与其他所有样本根据式(1) 进行邻居欧氏距离计算,
式(1)中,m为特征空间的维数,xi表示样本点x的第i维坐标,yi表示样本点y的第i维坐标;本发明实施例所用的数据集中一条记录有16 个特征,将数据集中不是数字特征列数值化后输入,一个特征值对应为该样本点一维的坐标值,共有16个特征即m=16。
删除不符合要求的少数类样本元素,得到剩余的少数类样本集记Ssinf。其计算如下:
对每个少数类样本xi∈Smin,Smin为原始数据少数类样本集,通过将 xi与其他所有样本根据式(1)进行邻居欧氏距离计算,按欧氏距离由小到大取前到k1个邻居样本元素。若这k1个邻居没有少数类样本,该样本为噪声样本直接删掉,否则予以保留。重复上述操作,最后得到剩余少数类样本集Sminf。
2.对于去噪声后的少数类样本集Sminf中每个元素,通过将它与多数类样本根据式(1)进行邻居欧氏距离计算,得到多数类邻居样本集,将每一个元素得到的多数类邻居样本集做并集得到多数类边界数据集Sbmaj。其计算如下:
对每个少数类样本xi∈Sminf,通过将xi与多数类样本根据式(1)进行邻居欧氏距离计算,按欧氏距离由小到大取前到k2个邻居样本元素得到多数类邻居样本集记为Nmaj(xi),将每一个元素得到的多数类邻居样本集做并集得到多数类边界数据集Sbmaj。
3.对于多数类边界数据集Sbmaj中每个元素,通过将它与去噪声后的少数类样本根据式(1)进行邻居欧氏距离计算,得到少数类邻居样本集,将每一个元素得到的少数类邻居样本集做并集得到少数类边界数据集Simin。其计算如下:
对每个多数类样本yi∈Sbmaj,通过将yi与Sminf中的每一个样本根据式 (1)进行邻居欧氏距离计算,按欧氏距离由小到大取前到k3个邻居样本元素得到多数类邻居样本集记为Nmin(yi),将每一个元素得到的少数类邻居样本集做并集得到少数类边界数据集Simin。
4.采用聚类方法从加权信息量大的少数类样本中合成新样本。
对所有样本yi∈Sbmaj,xi∈Simin,需要计算信息权重Iw(yi,xi)、选择权重Sw(xi)以及选择概率Sp(xi)。其计算如下:
信息权重Iw(yi,xi)为贴近度因子Cf(yi,xi)与密度因子Df(yi,xi)的乘积:
Iw(yi,xi)=Cf(yi,xi)*Df(yi,xi) (4)
计算归一化的欧几里得距离值dn(yi,xi):
dn(yi,xi)=dist(yi,xi)/l (5)
式中l为特征空间的维数。按照下述方式计算Cf(yi,xi):
式中:Ck是平滑系数,Cmax是重新缩放系数,它们是对加权少数类样本执行不同缩放因子的平滑和重新缩放处理,在本申请中,Ck=9、Cmax=2。f 为截止函数,其计算如下:
密度因子Df(yi,xi)的计算如下:
根据式(4)计算少数类边界数据集中每个样本的选择权重Sw(xi):
少数类边界数据集中每个样本的选择概率Sp(xi)的为该样本的选择权重与所有样本选择权重之和的比值,计算公式如下:
5.对Sminf进行聚类分析,得到M个类簇L1,L2,...,LM;
本申请中使用平均链接聚集聚类,它是一个层次聚类过程。聚集聚类不需要先验地确定聚类的数量。它以自下而上的方式生成集群。计算如下:
以Sminf中的数据样本作为输入:
1)将每个样本分配到一个单独的类簇,每个类簇的大小为1。
2)根据欧氏距离,找到两个最接近的簇(欧氏距离最小),即Li和Lj。欧式距离计算公式如式(1)。
3)将类簇Li和Lj合并为一个类簇Lm。这样会将类簇数减少一个。
4)更新新计算的类簇和所有先前类簇之间的距离度量。根据计算类簇的质心坐标,n为类簇内的样本个数。当i=1 时得到质心的第1维坐标,i=2时得到质心的第2维坐标,...,i=m时得到质心的第m维坐标;然后根据公式(1)计算质心与其它类簇的欧氏距离。
5)重复步骤2-4,直到所有数据样本合并到一个大小与Sminf中样本数相等的单个类簇中。
在上述3)中提前停止合并过程得到M个类簇。为此,我们使用阈值 Th,在最接近的一对对之间的距离超过Th时停止合并过程,最后得到M个类簇L1,L2,...,LM。Th的计算过程如下:
对于Sminf的每个成员,找到到同一集合中任何其他成员的最小欧式距离。然后计算所有这些最小距离的平均值以找到davg:
通过将davg与参数Cp相乘来计算Th:
Th=davg*cp (12)
式中参数Cp用于调整聚类算法的输出。较大的Cp会增加类簇M的大小,但会减少类簇的大小。反之,较小的Cp会出现相反的情况。本发明中Cp=3。
6.通过计算得到合成数据少数类样本集Somin,,其计算如下:
1)初始化:Somin=Smin;
2)对每个样本(合成的样本数为N),执行以下操作:
3)根据公式(10)选择概率Sp(xi),从Simin中选取xi将其划分到Lk类簇中,1≤k≤M;
4)随机从Lk中选取样本z;
5)合成新样本s;
s=x+α×(z-x),式中系数α是一个随机数,其取值范围为[0,1]
6)将样本s加入到集合Somin,即Somin=Somin∪{s}。
7)将合成数据少数类样本集(Somin)与原始多数类样本集Smaj合并形成平衡数据集X,即
X=Somin∪Smaj
End
步骤5,用孤立森林(IsolationForest)算法对平衡数据集X进行异常点的识别和去除。该算法的基本思想是:将异常定义为容易被孤立的离群点,即分布稀疏且离密度高的群体较远的样本点。对于一个数据样本空间,随机选定一个样本属性进行空间分割,得到两个子样本空间。之后再继续随机选定一个样本属性,对每个子样本空间切分直至每个子样本空间所有的样本点都是孤立的。IsolationForest的核心问题是分离数据方法,计算如下:
1)随机选择一个属性Attr;
2)随机选择该属性的一个值Value;
3)根据Attr对每条记录进行分类,把Attr小于Value的记录放在左子节点,把大于等于Value的记录放在右子节点;
4)然后递归的构造左子节点和右子节点,直到满足以下条件:传入的数据集只有一条记录或者多条一样的记录或者树的高度达到了限定高度,得到的树记为iTree;
5)重复以上步骤,得到多棵iTree树;
6)根据异常分值的公式判断并删除异常点;
IsolationForestt异常分值的公式:
式中,ψ表示单棵iTree的训练样本的样本数,E(h(x))表示数据x在多棵iTree的路径长度的均值,c(ψ)表示用ψ条数据构建的二叉树的平均路径长度。
从异常分值的公式看,如果数据x在多棵iTree中的平均路径长度越短,它的分值越接近1,表明数据x越趋向异常;如果数据x在多棵iTree中的平均路径长度越长,它的分值越接近0,表示数据x越趋向正常;如果数据x 在多棵iTree中的平均路径长度接近整体均值,则对应的分值为0.5左右。本申请中给定异常点分值阈值sg,如果计算的s大于sg,则认为该点是异常点,并删除异常点;重复上述过程,最后得到删除异常点之后的数据集data。
步骤6,将去除异常点后的平衡数据集data进行数据标准化,划分训练集和测试集。数据标准化(normalization)是将数据按比例缩放,使之落入 [0,1]内。将处理后的数据集按7:3比例进行划分。其中70%为训练集,30%为测试集。
步骤7,用已分好的训练集训练SVM模型。SVM是一种监督学习算法,它是基于结构风险最小化原理提出来的。SVM模型的本质是用于解决两分类问题的模型。假设我们有训练样本集为{(x1,y1),(x2,y2)…(xn,yn)},其中 xi∈Rn表示输入的变量,yi∈Rn为与输入变量相对应的类标签,n为样本总数。则在假设线性可分情况下的数学模型为:
s.t.y(i)(wTx(i)+b)≥1,i=1,2...n (15)
式中,wTx+b=0为所求超平面,w和b为所求变量。当数据在低维空间线性不可分时,考虑将数据通过非线性映射Φ:x∈Rn→F将样本映射到高维的特征空间F。为了确保在不可分的情况下找出分隔超平面,此处加入松弛变量,调整后的数学模型为:
s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,2...,n (17)
ξi≥0,i=1,2,...,n (18)
式中,ξi为非负松弛变量,用于放松限制条件,允许某些样本点(离群点)的函数间隔小于1,从而提高了SVM的泛化能力;C是惩罚系数(离群点的权重),用于实现对错分样本惩罚程度的控制。经过拉格朗日对偶法处理得到的数学模型如下:
s.t.0≤αi≤C,i=1,2,...,n (20)
式中:αi是对偶问题解,K(xi,xj)=Φ(xi)Φ(xj)T是核函数,本申请采用的是径向基核函数(RBF):
式中σ为核参数,C为惩罚系数。
步骤8,核参数σ以及惩罚系数C在SVM训练算法中都是很重要的参数,其中核函数代表了输入样本从输入空间到特征空间的非线性映射,训练误差和决策模型复杂度由惩罚系数C来平衡,它们的取值直接影响SVM输出的性能,为了获得SVM更好的泛化能力,对这些参数的优化选取是非常必要的。遗传算法(genetic algorithm,GA)是一种模拟自然选择和遗传机制的进化算法,该算法已成功应用于优化、搜索和机器学习等领域,其包括 3个基本遗传算子:选择(selection)、交叉(crossover)和变异(mutation) 算子。采用GA可以搜索SVM的核参数σ和惩罚系数C的最优组合使最后的预测结果更佳。
遗传算法的设计过程如下:对核参数σ以及惩罚系数C分别采用二进制串编码作为染色体,它包含两条基因串,每条基因串对应一个变量,一条基因串的长度为10位二进制表示。其中核参数σ对应十进制数的范围为[0,1], 惩罚系数C对应十进制数的范围为[0,10]。在种群个体选择操作中按个体适应度函数值用轮盘赌方式选择出优良的个体进入下一代,个体适应度函数值的计算过程如下:
1)首先调用Python环境机器学习工具(scikit-learn)的SVM模块进行训练,染色体的前十位对应的十进制位数作为惩罚系数C的值,染色体的后十位对应的十进制位数作为SVM的核参数σ的值训练出clf模型;用clf模型对测试集进行测试得到预测结果集result;
2)调用scikit-learn中混淆矩阵(Confusion Matrix,CM)模块,根据测试集的真实标签集Ytest和预测结果集result得到混淆矩阵,计算出召回率(Recall) 和特异度(Specifity);
3)根据召回率(Recall)和特异度(Specifity)来计算适应度函数值F(C,σ),它的计算公式如下:
轮盘赌选择法的基本思想:各个个体被选中的概率与其适应度大小成正比,具体操作如下:
(1)计算出群体中每个个体的适应度f(i=1,2,…,N),N为群体大小;
(2)计算出每个个体被遗传到下一代群体中的概率;
(3)计算出每个个体的累积概率;
(4)在[0,1]区间内产生一个均匀分布的随机数r;
(5)查看r满足的累积概率区间:如果q[i-1]<r≤q[i](1≤i≤N)成立,则选择种群中第i个个体参与遗传操作。
对轮盘赌选择法选择出来的个体进行交叉算子操作:对选择的2个染色体进行交叉操作,考虑二进制编码方式,采取的策略为单点交叉。即在个体编码串中随机产生一个交叉点,将2个父个体基因串在交叉点位置进行交换,重组产生2个子个体。
对交叉操作之后的每个子个体进行变异操作:对选择的个体每一位基因采用均匀变异操作。对染色体每一位随机产生一个[0,1]之间的随机数rmi,若 rmi小于给定变异概率pm,则执行相应位的变异操作,即1变为0,0变为1,以此得到一个新的个体;然后按精英保留策略形成新一代种群个体。重复上述操作,不断生成新的种群。按以上过程进行迭代,直到达到给定的迭代次数。找出种群中适应度值最高的个体(对应核参数σ和惩罚系数C的最优组合)作为解返回。
在遗传算法中的适应度函数用于反馈搜索到的核参数σ和惩罚系数C组合的效果,使SVM模型以更高的效率进行预测和学习。训练完成后,得到训练好的基于孤立森林的GA-SVM模型。
步骤9,将测试数据集输入训练完成的预测模型得到预测结果。
通过上述方式,本发明一种基于孤立森林学习的不平衡数据集的预测方法,通过多数类加权的少数类过采样解决合成少数类样本时出现的重叠问题;通过孤立森林(Isolation Forest)识别并删除异常点,提供更有质量的训练样本,进一步提高模型的预测精度,具有预测结果稳定、预测精度高的特点。
实施例
为测试本申请所提方法在处理不平衡数据集的效果,本申请以银行电话营销数据集作为不平衡数据进行测试。
本申请所提出方法的测试主要过程是:用MWMOTE与孤立森林对原始数据集(不平衡数据集)处理后得到平衡数据集,然后以划分的数据集训练 GA-SVM模型,最后采用训练好的GA-SVM模型预测银行电话营销活动的效果。特别地,本申请给出所提方法在考虑孤立森林和不考虑孤立森林的 GA-SVM的应用效果进行对比,说明本申请所提方法的有效性和可行性。测试步骤如下:
1,接收银行电话营销预测请求,其中,银行电话营销预测请求,根据银行电话营销数据预测客户是否将预订定期存款;
2,采集数据。实验数据来源于UCI机器学习网站,是葡萄牙一家银行从2008年5月到2010年11月的电话营销记录。它包含两个数据集:1)具有所有数据记录的bank-full.csv。2)bank.csv10%的数据记录(4521条记录)。本申请选择第2个数据集进行实验。考虑小数据集记录包含的数据特征的不完整性,以它测试机器学习算法(例如本专利所提方法),具有更好的实用性。本数据测试的分类目标是预测客户是否将预订定期存款。所选用数据集共4521个样本,有4000个不会预定定期存款,521个将预定定期存款,共有16个特征:年龄(age)、工作类型(job type),婚姻状况(marital status)、教育程度(educationlevel)、违约记录(default record)、年平均存款(average annual deposit)、住房贷款(housing loan)、个人贷款(personal loan)、联系人通讯类型(contact communicationtype)、该月最后一次联系日(last_day)、一年中最后一次联系月份(last_month)、最后一次联系持续时长(duration)、活动系列期间为此客户电话联系次数(times)、从上一次推荐营销活动最后一次联系客户之后经过的天数(past days)、此次营销活动之前和为此客户执行的联系次数(previous times)、上次营销活动的结果(poutcome)、客户是否定期存款(deposit),它是一个典型的不平衡数据集。
3,将数据集中的非数值特征列以及标签列(客户是否定期存款)转变为分类数值。
本申请中,数据集中标签列为客户是否定期存款的分类数值转变为0和 1,1表示会定期存款,0表示不会定期存款。然后将非数值特征列转换为以 0开始自增1的分类数值。其中违约记录(default record)特征列中0表示违约,1表示未违约;住房贷款(housingloan)特征列中0表示有住房贷款, 1表示没有住房贷款;个人贷款(personal loan)特征列中0表示没有个人贷款,1表示有个人贷款;工作类型(job type)特征列中0表示医生,1表示未知,2表示无业,3表示老师,4表示司机,5表示企业家,6表示学生,7 表示其他;婚姻状况(marital status)特征列中0表示已婚,1表示离婚,2 表示单身;教育程度(educationlevel)特征列中0表示小学,1表示中学, 2表示大学,3表示硕士或博士,4表示其他;联系人通讯类型(Contact communication type)特征列中0表示电话,1表示面谈,2表示其他;一年中最后一次联系月份(last_month)特征列中分类数值加1表示月份,0表示 1月份,1表示2月份,以此类推,11表示12月份;上次营销活动的结果(poutcome)特征列中0表示成功,1表示失败,2表示未知。应注意,上述列出的为未非数值特征列对应的数值,数字特征列不作变换,它们按实际输入值处理和计算,依据上述给定特征列数值按公式(1)计算数据之间的欧式距离。
4,传统的分类学习方法中,一般采用分类精度accuracy(正确分类的样本个数占总样本个数的比例)作为评价指标,但是如果仅用分类精度来评价不平衡数据集,是不合理的。本申请使用公认的不平衡数据集分类器的评价指标准确率accuracy、召回率Recall、特异度Specifity及G-mean。其中这些都建立在混淆矩阵基础上,二分类的混淆矩阵如表1:
表1二分类问题的混淆矩阵
其中TP和TN表示正确分类的正类和负类的样本数量;FN和FP分别表示错误分类的正类和负类的样本数量。
为对算法效果进行评价和对比分析,引入以下几个指标。
1)准确率Accuracy=(TP+TN)/(TP+FP+FN+TN),表示正确预测的样本个数占总样本个数的比例。
2)召回率Recall=TP/(TP+FN)又被称为敏感度(sensitivity);查全率,表示所有真实为正例的样本中,被预测正确的样本所占的比例。
3)特异度Specifity=TN/(FP+TN),Specifificity表示所有真实为反例的样本中,被正确预测为反例的样本所占的比例。
4)G-mean=sqrt(specifity*recall),式中sqrt()是一个求平方根的函数。 G-mean是一种综合考虑召回率和特异度的分类评价指标。
5,实例中主要评价指标为准确率Accuracy、召回率Recall、特异度 Specifity及G-mean,值越大表示预测用户是否定期存款越准确。
本申请所提方法实验过程:首先用MWMOTE合成少数类样本,将原始数据划分的训练集和测试集的比为7:3,共进行50次实验验证。关于 MWMOTE的参数取值为:用来测噪声样本的少数类样本邻居样本数k1=8,用于构造包含大量少数类特征信息的少数类样本集的多数类邻居数k2=4,用于构造包含大量少数类特征信息的少数类样本集的少数类邻居数k3=1,平滑系数Ck=9,重新缩放系数Cmax=2,通过MWMOTE在原始数据集(4521 个样本,其中有4000个多数类样本集Smaj,521个少数类的基础上,根据步骤4合成3500个少数类样本,与原始数据集中的521个少数类合并,得到有4021个少数类样本集合Somin,再与原始数据集中的4000个多数类样本集 Smaj合并形成一个8021个样本的平衡数据集X,然后对平衡数据集X用孤立森林(IsolationForest)处理异常样本,孤立森林处理异常样本是调用sklearn.ensemble中的IsolationForest模块实现,其参数:对每棵树,样本个数max_samples=”auto”,样本中异常点占总样本的比例contamination=0.02,经处理后共删除了161个异常点,剩余7860个样本的数据集data,对data 进行标准化,按7:3将数据集分为训练集和测试集,训练出来的模型称为 Iso-GA-SVM模型,GA用于搜索SVM的核参数σ和惩罚系数C的最优组合,本申请中GA的参数:种群数population_size=200,染色体的二进制基因串长度chromosome_length=20,最大迭代次数iter_num=100,交叉概率阈值pc=0.6,变异概率阈值pm=0.01。在Iso-GA-SVM模型中得到适应度函数值F(C,σ)=0.955898,搜索到的SVM核参数σ=0.4808948602186224,惩罚系数C=9.437755944785545。
实验结果如下:准确率Accuracy=0.955895,召回率Recall=0.956186,特异度Specifity=0.955611,G_mean=0.955898。
与上述测试相对应,通过MWMOTE对原始数据集的处理形成的平衡数据集X进行标准化,按7:3将数据集分为训练集和测试集,训练出来的模型称为GA-SVM模型,在不考虑孤立森林的GA-SVM模型中得到适应度函数值F(C,σ)=0.944807,搜索到的SVM核参数σ=0.4858826244604536,惩罚系数C=1.8002014179364962。实验结果如下:准确率Accuracy=0.944744,召回率Recall=0.949324,特异度Specifity=0.940311,G_mean=0.944807。
表2为考虑孤立森林和不考虑孤立森林时GA-SVM模型的预测对比数据。
表2 GA-SVM模型(带孤立森林和不带孤立森林)预测数据对比
由表2测试数据可知,Iso-GA-SVM模型的各项评价指标都高于 GA-SVM模型。由于用孤立森林检测并删除了异常点,能更好的学习样本特征,训练出更精确的模型,因此通过该模型预测得到的各项指标均有所提高。准确率Accuracy指标表明在所有客户中,所提模型正确预测客户(定期存款或者不定期存款)的比例,该指标在平衡数据集中具有较大的参考价值,在不平衡数据集中由于每条数据表示的客户定期存款的概率是一个较小值,这个指标不能准确表示所有不平衡数据集的某些特定客户的定期存款行为特征。召回率Recall的提升表明在所有要定期存款的客户中,模型能正确预测为定期存款客户所占比的提升。特异度Specifity的提升表明在所有不定期存款的客户中,模型正确预测为不定期存款客户所占比的提升。G_mean是综合召回率和特异度的指标,它考虑在所有要定期存款的客户中,模型能正确预测为定期存款客户所占比,也考虑在所有不定期存款的客户中,模型正确预测为不定期存款客户所占比,因此这个指标具有更高的参考价值和实际意义。
由上述分析可知,在MWMOTE处理原始数据的基础上再用孤立森林去掉可能存在的异常点后训练模型,使预测精度会进一步提升,说明所提方法的有效性和可行性。
Claims (6)
1.一种基于孤立森林学习的不平衡数据集的预测方法,其特征在于,包括以下步骤:
步骤1、接收预测请求;
步骤2、采集数据,明确数据集中的特征与标签,及少数类样本和多数类样本的数量;
步骤3、将数据集中的非数值特征列以及标签列转变为分类数值;
步骤4、用多数类加权的少数类过采样技术合成少数类样本,形成平衡数据集;
步骤5、用孤立森林算法对平衡数据集进行异常点的识别和去除;
步骤6、将去除异常点后的平衡数据集进行数据标准化,划分训练数据集和测试数据集;
步骤7、构建并用训练数据集训练支持向量机分类器模型;
步骤8、通过遗传算法调整支持向量机分类器模型的超参数,训练完成后,得到训练好的预测模型;
步骤9,将测试数据集输入训练完成的预测模型得到预测结果。
2.如权利要求1所述的一种基于孤立森林学习的不平衡数据集的预测方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1、对每个少数类样本xi∈Smin,通过将xi与其他所有样本根据公式(1)进行邻居欧氏距离计算,按欧氏距离由小到大取前到k1个邻居样本元素;若这k1个邻居没有少数类样本,该样本为噪声样本直接删掉,否则予以保留,重复上述操作,最后得到剩余少数类样本集Sminf;其中,Smin为原始数据少数类样本集,k1为用来测噪声样本的少数类样本邻居样本数;
式(1)中,m=16,为特征空间的维数,xi表示样本点x的第i维坐标,yi表示样本点y的第i维坐标;
步骤4.2、对每个少数类样本xi∈Sminf,通过将xi与多数类样本根据公式(1)进行邻居欧氏距离计算,按欧氏距离由小到大取前到k2个邻居样本元素得到多数类邻居样本集记为Nmaj(xi),将每一个元素得到的多数类邻居样本集做并集得到多数类边界数据集Sbmaj;
其中,k2为用于构造包含大量少数类特征信息的少数类样本集的多数类邻居数;
步骤4.3、对每个多数类样本yi∈Sbmaj,通过将yi与Sminf中的每一个样本根据公式(1)进行邻居欧氏距离计算,按欧氏距离由小到大取前到k3个邻居样本元素得到多数类邻居样本集记为Nmin(yi),将每一个元素得到的少数类邻居样本集做并集得到少数类边界数据集Simin;
其中,k3为用于构造包含大量少数类特征信息的少数类样本集的少数类邻居数;
步骤4.4、计算所有样本yi∈Sbmaj,xi∈Simin的信息权重Iw(yi,xi)、选择权重Sw(xi)以及选择概率Sp(xi)如下:
信息权重Iw(yi,xi)为贴近度因子Cf(yi,xi)与密度因子Df(yi,xi)的乘积:
Iw(yi,xi)=Cf(yi,xi)*Df(yi,xi) (4)
计算归一化的欧几里得距离值dn(yi,xi):
dn(yi,xi)=dist(yi,xi)/l (5)
式(5)中l为特征空间的维数,按照下述方式计算Cf(yi,xi):
式(6)中,Ck是平滑系数,Ck=9;Cmax是重新缩放系数,Cmax=2;f为截止函数,其计算如下:
密度因子Df(yi,xi)的计算如下:
根据式(4)计算少数类边界数据集中每个样本的选择权重Sw(xi):
少数类边界数据集中每个样本的选择概率Sp(xi)为该样本的选择权重与所有样本选择权重之和的比值,计算公式如下:
步骤4.5、采用平均链接聚集聚类对Sminf进行聚类分析,得到M个类簇L1,L2,...,LM,具体为:
以Sminf中的数据样本作为输入:
步骤4.5.1、将每个样本分配到一个单独的类簇,每个类簇的大小为1;
步骤4.5.2、根据欧氏距离,找到两个最接近的簇,即Li和Lj,欧式距离计算如公式(1);
步骤4.5.3、将类簇Li和Lj合并为一个类簇Lm;
步骤4.5.4、更新新计算的类簇和所有先前类簇之间的距离度量,根据计算类簇的质心坐标,n为类簇内的样本个数,当i=1时得到质心的第1维坐标,i=2时得到质心的第2维坐标,...,i=m时得到质心的第m维坐标;然后根据公式(1)计算质心与其它类簇的欧氏距离;
步骤4.5.5、重复步骤4.5.2至步骤4.5.4,直到所有数据样本合并到一个大小与Sminf中样本数相等的单个类簇中;
上述步骤4.5.3中在最接近的一对对之间的距离超过阈值Th时停止合并过程,最后得到M个类簇L1,L2,...,LM,其中Th的计算过程如下:
对于Sminf的每个成员,找到到同一集合中任何其他成员的最小欧式距离,然后计算所有这些最小距离的平均值以找到davg:
通过将davg与参数Cp相乘来计算Th:
Th=davg*cp (12)
式(12)中参数Cp用于调整聚类算法的输出,Cp=3;
步骤4.6、计算合成数据少数类样本集Somin,具体为:
步骤4.6.1、初始化:Somin=Smin;
步骤4.6.2、对每个样本(合成的样本数为N),执行以下操作:
步骤4.6.3、根据公式(10)选择概率Sp(xi),从Simin中选取xi将其划分到Lk类簇中,1≤k≤M;
步骤4.6.4、随机从Lk中选取样本z;
步骤4.6.5、合成新样本s,s=x+α×(z-x),式中系数α是一个随机数,其取值范围为[0,1];
步骤4.6.6、将样本s加入到集合Somin,即Somin=Somin∪{s};
步骤4.7、将合成数据少数类样本集Somin与原始多数类样本集Smaj合并形成平衡数据集X,X=Somin∪Smaj。
3.如权利要求2所述的一种基于孤立森林学习的不平衡数据集的预测方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1、随机选择一个属性Attr;
步骤5.2、随机选择该属性的一个值Value;
步骤5.3、根据Attr对每条记录进行分类,把Attr小于Value的记录放在左子节点,把大于等于Value的记录放在右子节点;
步骤5.4、然后递归的构造左子节点和右子节点,直到满足以下条件:传入的数据集只有一条记录或者多条一样的记录或者树的高度达到了限定高度,得到的树记为iTree;
步骤5.5、重复以上步骤,得到多棵iTree树;
步骤5.6、根据异常分值的公式判断并删除异常点;孤立森林异常分值的公式:
式(13)中,ψ表示单棵iTree的训练样本的样本数,E(h(x))表示数据x在多棵iTree的路径长度的均值,c(ψ)表示用ψ条数据构建的二叉树的平均路径长度;
给定异常点分值阈值sg,,如果计算的s大于sg,则认为该点是异常点,并删除异常点;重复上述过程,最后得到删除异常点之后的数据集data。
4.如权利要求3所述的一种基于孤立森林学习的不平衡数据集的预测方法,其特征在于,所述步骤6中将去除异常点后的平衡数据集进行数据标准化是将数据按比例缩放,使之落入[0,1]内;之后将处理后的数据集按7:3比例进行划分,其中70%为训练数据集,30%为测试数据集。
5.如权利要求1所述的一种基于孤立森林学习的不平衡数据集的预测方法,其特征在于,所述步骤7具体包括以下步骤:
假设训练数据集为{(x1,y1),(x2,y2)…(xn,yn)},其中xi∈Rn表示输入的变量,yi∈Rn为与输入变量相对应的类标签,n为样本总数,则在假设线性可分情况下的支持向量机分类器模型为:
s.t.y(i)(wTx(i)+b)≥1,i=1,2...n (15)
式(15)中,wTx+b=0为所求超平面,w和b为所求变量,当数据在低维空间线性不可分时,考虑将数据通过非线性映射Φ:x∈Rn→F将样本映射到高维的特征空间F,则加入松弛变量,调整后的支持向量机分类器模型为:
s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,2...,n (17)
ξi≥0,i=1,2,...,n (18)
式(16)中,ξi为非负松弛变量,用于放松限制条件,允许某些离群点的函数间隔小于1;C是惩罚系数,即离群点的权重,经过拉格朗日对偶法处理得到的支持向量机分类器模型如下:
s.t.0≤αi≤C,i=1,2,...,n (20)
式(19)中:αi是对偶问题解,K(xi,xj)=Φ(xi)Φ(xj)T是核函数,其中,径向基核函数:
式(22)中σ为核参数,C为惩罚系数。
6.如权利要求5所述的一种基于孤立森林学习的不平衡数据集的预测方法,其特征在于,所述步骤8具体包括以下步骤:
对核参数σ以及惩罚系数C分别采用二进制串编码作为染色体,它包含两条基因串,每条基因串对应一个变量,一条基因串的长度为10位二进制表示;其中核参数σ对应十进制数的范围为[0,1],惩罚系数C对应十进制数的范围为[0,10],在种群个体选择操作中按个体适应度函数值用轮盘赌方式选择出优良的个体进入下一代,个体适应度函数值的计算过程依次如下:
1)首先调用Python环境机器学习工具的支持向量机分类器模块进行训练,染色体的前十位对应的十进制位数作为惩罚系数C的值,染色体的后十位对应的十进制位数作为支持向量机分类器的核参数σ的值训练出clf模型,用clf模型对测试数据集进行测试得到预测结果集result;
2)调用环境机器学习工具中混淆矩阵模块,根据测试数据集的真实标签集Ytest和预测结果集result得到混淆矩阵,计算出召回率和特异度;
3)根据召回率和特异度来计算适应度函数值F(C,σ),计算公式如下:
轮盘赌选择法具体操作依次如下:
1)计算出群体中每个个体的适应度f(i=1,2,…,N),N为群体大小;
2)计算出每个个体被遗传到下一代群体中的概率;
3)计算出每个个体的累积概率;
4)在[0,1]区间内产生一个均匀分布的随机数r;
5)查看r满足的累积概率区间:如果q[i-1]<r≤q[i](1≤i≤N)成立,则选择种群中第i个个体参与遗传操作;
对轮盘赌选择法选择出来的个体进行交叉算子操作:对选择的2个染色体进行交叉操作,考虑二进制编码方式,采取的策略为单点交叉,即在个体编码串中随机产生一个交叉点,将2个父个体基因串在交叉点位置进行交换,重组产生2个子个体;
对交叉操作之后的每个子个体进行变异操作:对选择的个体每一位基因采用均匀变异操作,对染色体每一位随机产生一个[0,1]之间的随机数rmi,若rmi小于给定变异概率pm,则执行相应位的变异操作,即1变为0,0变为1,以此得到一个新的个体;然后按精英保留策略形成新一代种群个体,重复上述操作,不断生成新的种群;
按以上过程进行迭代,直到达到给定的迭代次数,找出种群中适应度值最高的个体,即对应核参数σ和惩罚系数C的最优组合作为解返回;
在遗传算法中的适应度函数用于反馈搜索到的核参数σ和惩罚系数C组合的效果;训练完成后,得到训练好的基于孤立森林预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010837636.7A CN112070125A (zh) | 2020-08-19 | 2020-08-19 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010837636.7A CN112070125A (zh) | 2020-08-19 | 2020-08-19 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112070125A true CN112070125A (zh) | 2020-12-11 |
Family
ID=73661401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010837636.7A Pending CN112070125A (zh) | 2020-08-19 | 2020-08-19 | 一种基于孤立森林学习的不平衡数据集的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070125A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579711A (zh) * | 2020-12-28 | 2021-03-30 | 广东电网有限责任公司广州供电局 | 不平衡数据的分类方法、装置、存储介质及设备 |
CN112800917A (zh) * | 2021-01-21 | 2021-05-14 | 华北电力大学(保定) | 一种断路器不平衡监测数据集过采样方法 |
CN112816195A (zh) * | 2021-01-04 | 2021-05-18 | 安徽容知日新科技股份有限公司 | 往复式机械设备故障诊断方法及装置 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN112906501A (zh) * | 2021-01-29 | 2021-06-04 | 上海伽易信息技术有限公司 | 一种基于自适应过采样的非均衡地铁列车定位信标异常检测方法 |
CN113255792A (zh) * | 2021-06-01 | 2021-08-13 | 广东粤港澳大湾区硬科技创新研究院 | 一种数据异常点检测方法、装置、系统、以及存储介质 |
CN113255235A (zh) * | 2021-06-28 | 2021-08-13 | 中国人民解放军国防科技大学 | 飞行器复杂结构近似建模方法、装置、设备和介质 |
CN113298230A (zh) * | 2021-05-14 | 2021-08-24 | 西安理工大学 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
CN113361758A (zh) * | 2021-05-31 | 2021-09-07 | 浙江工业大学 | 基于高斯混合模型聚类的自适应双权重航空旅客付费选座预测方法 |
CN113408707A (zh) * | 2021-07-05 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度学习的网络加密流量识别方法 |
CN113435477A (zh) * | 2021-06-02 | 2021-09-24 | 北京理工大学 | 一种提高计算机辅助预测应力性骨折系统预测性能的方法 |
CN113539471A (zh) * | 2021-03-26 | 2021-10-22 | 内蒙古卫数数据科技有限公司 | 一种基于常规检验数据的乳腺增生辅助诊断方法及系统 |
CN113571134A (zh) * | 2021-07-28 | 2021-10-29 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于骨干粒子群算法的基因数据特征选择方法及装置 |
CN113688861A (zh) * | 2021-07-06 | 2021-11-23 | 清华大学 | 基于机器学习的低维特征小样本多分类方法和装置 |
CN113705699A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于机器学习的样本异常检测方法、装置、设备及介质 |
CN113744083A (zh) * | 2021-08-27 | 2021-12-03 | 暨南大学 | 一种基于环境不平衡数据的水质预测方法 |
CN114118588A (zh) * | 2021-11-30 | 2022-03-01 | 广东电网有限责任公司广州供电局 | 聚类欠采样下基于博弈特征提取的迎峰度夏停电预测方法 |
CN114386537A (zh) * | 2022-03-23 | 2022-04-22 | 中国华能集团清洁能源技术研究院有限公司 | 基于CatBoost的锂电池故障诊断方法、装置及电子设备 |
CN114511399A (zh) * | 2022-02-15 | 2022-05-17 | 电子科技大学 | 用于互联网金融风控的异常数据筛选方法 |
CN114579631A (zh) * | 2022-01-26 | 2022-06-03 | 苏州大学 | 基于概率加权过采样的社区矫正率预测系统及方法 |
CN114596030A (zh) * | 2022-03-10 | 2022-06-07 | 南京邮电大学 | 基于数据挖掘的快递网点运营预测模型 |
CN114707571A (zh) * | 2022-02-24 | 2022-07-05 | 南京审计大学 | 基于增强隔离森林的信用数据异常检测方法 |
CN114742177A (zh) * | 2022-06-08 | 2022-07-12 | 南京信息工程大学 | 基于AGA-XGBoost和GWO-SVM的气象数据分类方法 |
CN115048988A (zh) * | 2022-05-25 | 2022-09-13 | 河海大学 | 基于高斯混合模型的不平衡数据集分类融合方法 |
CN115061219A (zh) * | 2022-08-17 | 2022-09-16 | 北京派特杰奥科技有限公司 | 基于石油天然气探测的裂缝型储层预测识别方法及系统 |
WO2022227240A1 (zh) * | 2021-04-28 | 2022-11-03 | 枣庄学院 | 一种基于空间域转换独立树的可控中高压光机异常检测方法 |
CN115965245A (zh) * | 2023-03-13 | 2023-04-14 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
CN116028815A (zh) * | 2023-01-05 | 2023-04-28 | 江苏科技大学 | 一种针对工业时序不平衡数据的时间序列数据增强方法 |
CN116051288A (zh) * | 2023-03-30 | 2023-05-02 | 华南理工大学 | 一种基于重采样的金融信用评分数据增强方法 |
CN118398233A (zh) * | 2024-06-24 | 2024-07-26 | 湘江实验室 | 一种面向不平衡医疗数据集的分析处理方法 |
-
2020
- 2020-08-19 CN CN202010837636.7A patent/CN112070125A/zh active Pending
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579711A (zh) * | 2020-12-28 | 2021-03-30 | 广东电网有限责任公司广州供电局 | 不平衡数据的分类方法、装置、存储介质及设备 |
CN112816195A (zh) * | 2021-01-04 | 2021-05-18 | 安徽容知日新科技股份有限公司 | 往复式机械设备故障诊断方法及装置 |
CN112800917A (zh) * | 2021-01-21 | 2021-05-14 | 华北电力大学(保定) | 一种断路器不平衡监测数据集过采样方法 |
CN112800917B (zh) * | 2021-01-21 | 2022-07-19 | 华北电力大学(保定) | 一种断路器不平衡监测数据集过采样方法 |
CN112836735A (zh) * | 2021-01-27 | 2021-05-25 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN112836735B (zh) * | 2021-01-27 | 2023-09-01 | 中山大学 | 一种优化的随机森林处理不平衡数据集的方法 |
CN112906501A (zh) * | 2021-01-29 | 2021-06-04 | 上海伽易信息技术有限公司 | 一种基于自适应过采样的非均衡地铁列车定位信标异常检测方法 |
CN112906501B (zh) * | 2021-01-29 | 2023-04-07 | 上海伽易信息技术有限公司 | 一种基于自适应过采样的非均衡地铁列车定位信标异常检测方法 |
CN113539471A (zh) * | 2021-03-26 | 2021-10-22 | 内蒙古卫数数据科技有限公司 | 一种基于常规检验数据的乳腺增生辅助诊断方法及系统 |
WO2022227240A1 (zh) * | 2021-04-28 | 2022-11-03 | 枣庄学院 | 一种基于空间域转换独立树的可控中高压光机异常检测方法 |
CN113298230A (zh) * | 2021-05-14 | 2021-08-24 | 西安理工大学 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
CN113298230B (zh) * | 2021-05-14 | 2024-04-09 | 武汉嫦娥医学抗衰机器人股份有限公司 | 一种基于生成对抗网络的不平衡数据集的预测方法 |
CN113361758A (zh) * | 2021-05-31 | 2021-09-07 | 浙江工业大学 | 基于高斯混合模型聚类的自适应双权重航空旅客付费选座预测方法 |
CN113255792B (zh) * | 2021-06-01 | 2021-12-17 | 广东粤港澳大湾区硬科技创新研究院 | 一种数据异常点检测方法、装置、系统、以及存储介质 |
CN113255792A (zh) * | 2021-06-01 | 2021-08-13 | 广东粤港澳大湾区硬科技创新研究院 | 一种数据异常点检测方法、装置、系统、以及存储介质 |
CN113435477A (zh) * | 2021-06-02 | 2021-09-24 | 北京理工大学 | 一种提高计算机辅助预测应力性骨折系统预测性能的方法 |
CN113255235B (zh) * | 2021-06-28 | 2021-09-24 | 中国人民解放军国防科技大学 | 飞行器复杂结构近似建模方法、装置、设备和介质 |
CN113255235A (zh) * | 2021-06-28 | 2021-08-13 | 中国人民解放军国防科技大学 | 飞行器复杂结构近似建模方法、装置、设备和介质 |
CN113408707A (zh) * | 2021-07-05 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度学习的网络加密流量识别方法 |
CN113688861A (zh) * | 2021-07-06 | 2021-11-23 | 清华大学 | 基于机器学习的低维特征小样本多分类方法和装置 |
CN113571134A (zh) * | 2021-07-28 | 2021-10-29 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于骨干粒子群算法的基因数据特征选择方法及装置 |
CN113744083B (zh) * | 2021-08-27 | 2024-04-23 | 暨南大学 | 一种基于环境不平衡数据的水质预测方法 |
CN113744083A (zh) * | 2021-08-27 | 2021-12-03 | 暨南大学 | 一种基于环境不平衡数据的水质预测方法 |
CN113705699A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于机器学习的样本异常检测方法、装置、设备及介质 |
CN114118588B (zh) * | 2021-11-30 | 2024-08-02 | 广东电网有限责任公司广州供电局 | 聚类欠采样下基于博弈特征提取的迎峰度夏停电预测方法 |
CN114118588A (zh) * | 2021-11-30 | 2022-03-01 | 广东电网有限责任公司广州供电局 | 聚类欠采样下基于博弈特征提取的迎峰度夏停电预测方法 |
CN114579631A (zh) * | 2022-01-26 | 2022-06-03 | 苏州大学 | 基于概率加权过采样的社区矫正率预测系统及方法 |
CN114511399A (zh) * | 2022-02-15 | 2022-05-17 | 电子科技大学 | 用于互联网金融风控的异常数据筛选方法 |
CN114511399B (zh) * | 2022-02-15 | 2023-12-15 | 电子科技大学 | 异常数据的识别剔除方法 |
CN114707571A (zh) * | 2022-02-24 | 2022-07-05 | 南京审计大学 | 基于增强隔离森林的信用数据异常检测方法 |
CN114707571B (zh) * | 2022-02-24 | 2024-05-07 | 南京审计大学 | 基于增强隔离森林的信用数据异常检测方法 |
CN114596030A (zh) * | 2022-03-10 | 2022-06-07 | 南京邮电大学 | 基于数据挖掘的快递网点运营预测模型 |
CN114386537B (zh) * | 2022-03-23 | 2023-02-07 | 中国华能集团清洁能源技术研究院有限公司 | 基于CatBoost的锂电池故障诊断方法、装置及电子设备 |
CN114386537A (zh) * | 2022-03-23 | 2022-04-22 | 中国华能集团清洁能源技术研究院有限公司 | 基于CatBoost的锂电池故障诊断方法、装置及电子设备 |
CN115048988B (zh) * | 2022-05-25 | 2024-06-18 | 河海大学 | 基于高斯混合模型的不平衡数据集分类融合方法 |
CN115048988A (zh) * | 2022-05-25 | 2022-09-13 | 河海大学 | 基于高斯混合模型的不平衡数据集分类融合方法 |
CN114742177A (zh) * | 2022-06-08 | 2022-07-12 | 南京信息工程大学 | 基于AGA-XGBoost和GWO-SVM的气象数据分类方法 |
CN114742177B (zh) * | 2022-06-08 | 2022-09-02 | 南京信息工程大学 | 基于AGA-XGBoost和GWO-SVM的气象数据分类方法 |
CN115061219A (zh) * | 2022-08-17 | 2022-09-16 | 北京派特杰奥科技有限公司 | 基于石油天然气探测的裂缝型储层预测识别方法及系统 |
CN115061219B (zh) * | 2022-08-17 | 2022-11-08 | 北京派特杰奥科技有限公司 | 基于石油天然气探测的裂缝型储层预测识别方法及系统 |
CN116028815A (zh) * | 2023-01-05 | 2023-04-28 | 江苏科技大学 | 一种针对工业时序不平衡数据的时间序列数据增强方法 |
CN116028815B (zh) * | 2023-01-05 | 2024-08-23 | 江苏科技大学 | 一种针对工业时序不平衡数据的时间序列数据增强方法 |
CN115965245B (zh) * | 2023-03-13 | 2023-05-30 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
CN115965245A (zh) * | 2023-03-13 | 2023-04-14 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
CN116051288A (zh) * | 2023-03-30 | 2023-05-02 | 华南理工大学 | 一种基于重采样的金融信用评分数据增强方法 |
CN118398233A (zh) * | 2024-06-24 | 2024-07-26 | 湘江实验室 | 一种面向不平衡医疗数据集的分析处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112070125A (zh) | 一种基于孤立森林学习的不平衡数据集的预测方法 | |
Elmousalami | Comparison of artificial intelligence techniques for project conceptual cost prediction: A case study and comparative analysis | |
Chen et al. | A hybrid approach for portfolio selection with higher-order moments: Empirical evidence from Shanghai Stock Exchange | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
Ko et al. | Prediction of corporate financial distress: An application of the composite rule induction system | |
Ruyu et al. | A comparison of credit rating classification models based on spark-evidence from lending-club | |
CN112418987B (zh) | 交通运输单位信用评级方法、系统、电子设备及存储介质 | |
Yotsawat et al. | Improved credit scoring model using XGBoost with Bayesian hyper-parameter optimization | |
CN116468536A (zh) | 一种自动化风险控制规则生成的方法 | |
Tsai et al. | Data pre-processing by genetic algorithms for bankruptcy prediction | |
Lim et al. | Hybrid GA–DeepAutoencoder–KNN Model for Employee Turnover Prediction | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
Farouk et al. | Bitcoin_ML: An Efficient Framework for Bitcoin Price Prediction Using Machine Learning | |
Liu et al. | Inventory Management of Automobile After-sales Parts Based on Data Mining | |
Islam et al. | Investigating bankruptcy prediction models in the presence of extreme class imbalance and multiple stages of economy | |
Kadam et al. | Data mining in finance | |
WO1992017853A2 (en) | Direct data base analysis, forecasting and diagnosis method | |
Dzelihodzic et al. | Data Mining Techniques for Credit Risk Assessment Task | |
Elmousalami | Comparison of Artificial Intelligence Techniques for Project Conceptual Cost Prediction | |
Zimal et al. | Customer churn prediction using machine learning | |
Siregar et al. | Classification data for direct marketing using deep learning | |
CN112884028A (zh) | 一种系统资源调整方法、装置及设备 | |
Sen et al. | Evaluating Machine Learning and Deep Learning Analytics for Predicting Bankruptcy of Companies | |
Liu et al. | A comparison of machine learning algorithms for prediction of past due service in commercial credit | |
Vanamala | Implementation of Chrun Rate Prediction System using Machine Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201211 |
|
RJ01 | Rejection of invention patent application after publication |