CN114706751A - 一种基于改进smote的软件缺陷预测方法 - Google Patents
一种基于改进smote的软件缺陷预测方法 Download PDFInfo
- Publication number
- CN114706751A CN114706751A CN202210221548.3A CN202210221548A CN114706751A CN 114706751 A CN114706751 A CN 114706751A CN 202210221548 A CN202210221548 A CN 202210221548A CN 114706751 A CN114706751 A CN 114706751A
- Authority
- CN
- China
- Prior art keywords
- samples
- sample
- smote
- weight
- calculate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007547 defect Effects 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 230000002950 deficient Effects 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013522 software testing Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Prevention of errors by analysis, debugging or testing of software
- G06F11/3668—Testing of software
- G06F11/3672—Test management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进SMOTE的软件缺陷预测方法,包括:将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集;采用K‑means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量;基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集;利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测;本发明充分考虑到不平衡数据集中少数类样本关键特征和与簇心距离的特性,对经典SMOTE算法进行了改进,能更加准确地合成少数类样本,提高软件缺陷预测的准确性,降低了软件测试的成本。
Description
技术领域
本发明涉及软件缺陷预测的技术领域,尤其涉及一种基于改进SMOTE的软件缺陷预测方法。
背景技术
软件缺陷预测根据软件开发过程中的历史度量元数据,利用机器学习的方法构造分类器,预测新开发的软件模块是否存在缺陷,并合理有效地分配测试资源,是软件工程领域的研究热点之一。但是,正类样本数量远小于负类样本,也即缺陷预测数据中存在类不平衡问题。在缺陷预测过程中,一般将存在缺陷的样本称为正类样本或者多数类样本,无缺陷样本称为负类样本或者少数类样本。类不平衡问题严重影响了分类器的性能,由于少数类样本的稀少,分类器无法获得足够的规则,难以保证少数类样本的分类正确性。
解决缺陷预测过程中的不平衡问题,已有研究方法大致分为两类:基于数据层面和基于算法层面。SMOTE是从数据层面解决类不平衡问题的过抽样算法,随机选取少数类样本的近邻样本合成新样本,并且每一个少数类样本合成数量相同,因此,筛选样本时存在一定的盲目性,可能会产生冗余数据。K-means聚类可以将训练集样本划分为多个簇,使得簇中样本相似度较高,簇间样本相似度较低。对聚类后训练集样本,在簇中合成新样本,可以使得新样本位置位于簇中,同时新样本与少数类样本尽量类似。基于聚类的思想可以解决SMOTE算法合成的新样本会位于边界的问题,但是没有解决每个少数类样本在合成样本时权重相同,合成数量相同的问题。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于改进SMOTE的软件缺陷预测方法,在合成新样本时考虑每个样本的关键特征和与簇心的距离,有效地解决了传统过抽样技术中每个少数类样本合成样本数量相同的问题,进而使数据平衡,提高预测模型的性能。
为解决上述技术问题,本发明提供如下技术方案,包括:将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集;采用K-means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量;基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集;利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测;其中,针对训练集中的样本,将有缺陷样本归为少数类样本,无缺陷样本归为多数类样本。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:包括:关键特征集的索引集合为indexes。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:计算关键特征权重,包括:根据簇内样本数量计算该簇的合成样本数量Ni:
计算样本xj的每一个关键特征占簇内全部少数类样本的关键特征的比值之和sum_Wf:
根据所述比值之和sum_Wf计算关键特征权重Wf:
其中,j=1,2,...|Ci|,Num为少数类样本合成总数目,其值为多数类样本与少数类样本的差值,|Ci|为第i个簇中的样本数目,|Smin|为少数类样本的总数目;xjk为样本xj的关键特征k对应值。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:距离权重,包括:通过样本xj与簇心Ci的欧式距离Dji计算样本xj的距离权重Wd:
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:包括:计算样本xj的权重W:
W=αWf+βWd
其中,α+β=1,α,β分别为关键特征权重系数和距离权重系数。
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:平衡数据集,包括:步骤1:计算样本xj到簇中其他样本的欧式距离,得到其K个近邻样本;步骤2:从其K个近邻样本中随机选取样本xi,利用下式生成新样本xnew:
xnew=xj+rand(0,1)*(xi-xj)
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:构建分类器,包括:
假设训练样本集为S={(x1,y1),(x2,y2),...,(xm,ym)},yn∈{-1,+1},迭代次数为T,基分类器为h;
步骤1:初始化训练样本集权重:D1(n)=1/m,其中n=1,2,...m,m为训练集中样本的数目;
步骤2:选择CART决策树作为弱分类器ht,利用具有权重Dt的样本集训练弱分类器ht,其中t=1,2,...T,T为迭代次数;
作为本发明所述的基于改进SMOTE的软件缺陷预测方法的一种优选方案,其中:包括:利用十折交叉验证法将原始数据集分为训练集和测试集。
本发明的有益效果:本发明充分考虑到不平衡数据集中少数类样本关键特征和与簇心距离的特性,对经典SMOTE算法进行了改进,能更加准确地合成少数类样本,提高软件缺陷预测的准确性,降低了软件测试的成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的基于改进SMOTE的软件缺陷预测方法的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的第一个实施例,该实施例提供了一种基于改进SMOTE的软件缺陷预测方法,包括:
S1:将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集。
利用十折交叉验证法将原始数据集分为训练集和测试集,进一步的,对训练集采用基于聚类分析的特征选择算法FECAR选取关键特征集,其索引集合为indexes。
S2:采用K-means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量。
其中需要说明的是,针对训练集中的样本,将有缺陷样本归为少数类样本,无缺陷样本归为多数类样本。
(1)计算关键特征权重的步骤如下:
根据簇内样本数量计算该簇的合成样本数量Ni:
计算样本xj的每一个关键特征占簇内全部少数类样本的关键特征的比值之和sum_Wf:
根据比值之和sum_Wf计算样本关键特征权重Wf:
其中,j=1,2,...|Ci|,Num为少数类样本合成总数目,其值为多数类样本与少数类样本的差值,|Ci|为第i个簇中的样本数目,|Smin|为少数类样本的总数目;xjk为样本xj的关键特征k对应值。
(2)计算距离权重:
通过样本xj与簇心Ci的欧式距离Dji计算样本xj的距离权重Wd:
(3)计算合成样本数量:
计算样本xj的权重W:
W=αWf+βWd
其中,α+β=1,α,β分别为关键特征权重系数和距离权重系数。
S3:基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集。
步骤1:计算样本xj到簇中其他样本的欧式距离,得到其K个近邻样本;
步骤2:从其K个近邻样本中随机选取样本xi,利用下式生成新样本xnew:
xnew=xj+rand(0,1)*(xi-xj)
优选的,每个样本的生成样本数量取决于其关键特征和与簇心的距离,关键特征值越高,与簇心距离越近,则样本越具有代表性,其权重越高,生成数量也越多。
S4:利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测。
假设训练样本集为S={(x1,y1),(x2,y2),...,(xm,ym)},yn∈{-1,+1},迭代次数为T,基分类器为h;其中,(xm,ym)为第m个样本。
步骤1:初始化训练样本集权重:D1(n)=1/m,其中n=1,2,...m,m为训练集中样本的数目;
步骤2:选择CART决策树作为弱分类器ht,利用具有权重Dt的样本集训练弱分类器ht,其中t=1,2,...T,T为迭代次数;
实施例2
为了对本方法中采用的技术效果加以验证说明,本实施例选择不同方法(SMOTE、K-means SMOTE、ADASYN、Borderline-SMOTE)和采用本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
对于本方法,需要说明的是,每次取9份作为训练集,1份作为测试集,针对训练集完成数据平衡,并构建分类器对测试集进行预测;此过程重复10次,最后取10次测试平均值作为分类器最终结果;关键特征权重系数α和距离权重系数β设为0.5。
选择NASA公开数据集进行实验验证,并与传统过抽样算法(SMOTE、K-meansSMOTE、ADASYN、Borderline-SMOTE)进行对比;分别使用本技术与4种算法实现数据集平衡,然后采用AdaBoost算法进行训练,构建分类器,并分别对测试集测试;选取数据集信息如表1所示;本实施例采用F1作为评价指标,指标的计算基于混淆矩阵,如表2所示;获得的实验结果如表3所示。
表1:数据集信息表。
数据集 | 样本数 | 少数类样本数 | 属性个数 | 不平衡率 |
JM1 | 7720 | 1612 | 21 | 3.79 |
KC3 | 194 | 36 | 39 | 4.39 |
MC1 | 1952 | 36 | 38 | 53.22 |
MW1 | 250 | 25 | 37 | 9.00 |
PC1 | 679 | 55 | 37 | 11.35 |
PC4 | 1270 | 176 | 37 | 6.22 |
表2:分类结果混淆矩阵。
类别 | 预测正类 | 预测负类 |
实际正类 | TP | FN |
实际负类 | FP | TN |
表3:5种算法F1实验结果对比。
通过表3数据可以看出本方法的F1指标均优于其他过抽样算法,平均F1最高提高了2.45%,具有更好的分类效果,在软件缺陷预测中更有优势。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于改进SMOTE的软件缺陷预测方法,其特征在于,包括:
将原始数据集分为训练集和测试集,利用特征选择算法从训练集中选取关键特征集;
采用K-means算法将少数类样本聚类为N个簇,并对簇内每个样本的关键特征权重和距离权重进行计算,得到合成样本数量;
基于SMOTE算法合成少数类样本,直至满足设定条件,将合成结果与多数类样本合并,得到平衡数据集;
利用AdaBoost算法对平衡数据集进行训练,构建分类器,通过分类器对测试集进行预测;
其中,针对训练集中的样本,将有缺陷样本归为少数类样本,无缺陷样本归为多数类样本。
2.如权利要求1所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,包括:
关键特征集的索引集合为indexes。
7.如权利要求6所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,构建分类器,包括:
假设训练样本集为S={(x1,y1),(x2,y2),...,(xm,ym)},yn∈{-1,+1},迭代次数为T,基分类器为h;
步骤1:初始化训练样本集权重:D1(n)=1/m,其中n=1,2,...m,m为训练集中样本的数目;
步骤2:选择CART决策树作为弱分类器ht,利用具有权重Dt的样本集训练弱分类器ht,其中t=1,2,...T,T为迭代次数;
8.如权利要求7所述的基于改进SMOTE的软件缺陷预测方法,其特征在于,包括:
利用十折交叉验证法将原始数据集分为训练集和测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221548.3A CN114706751B (zh) | 2022-03-09 | 2022-03-09 | 一种基于改进smote的软件缺陷预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210221548.3A CN114706751B (zh) | 2022-03-09 | 2022-03-09 | 一种基于改进smote的软件缺陷预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114706751A true CN114706751A (zh) | 2022-07-05 |
CN114706751B CN114706751B (zh) | 2023-09-15 |
Family
ID=82169642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210221548.3A Active CN114706751B (zh) | 2022-03-09 | 2022-03-09 | 一种基于改进smote的软件缺陷预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114706751B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952326A (zh) * | 2024-03-27 | 2024-04-30 | 葛洲坝集团生态环保有限公司 | 基于人工智能的污水处理监管方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN110674846A (zh) * | 2019-08-29 | 2020-01-10 | 南京理工大学 | 基于遗传算法和k-means聚类的不平衡数据集过采样方法 |
CN111488903A (zh) * | 2020-02-22 | 2020-08-04 | 西安理工大学 | 基于特征权重的决策树特征选择方法 |
CN111626336A (zh) * | 2020-04-29 | 2020-09-04 | 南京理工大学 | 一种基于不平衡数据集的地铁故障数据分类方法 |
US20210034645A1 (en) * | 2019-07-29 | 2021-02-04 | HCL, Technologies Limited | System and method for generating synthetic data for minority classes in a large dataset |
CN113360392A (zh) * | 2021-06-24 | 2021-09-07 | 北京邮电大学 | 一种跨项目软件缺陷预测方法及装置 |
-
2022
- 2022-03-09 CN CN202210221548.3A patent/CN114706751B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
US20210034645A1 (en) * | 2019-07-29 | 2021-02-04 | HCL, Technologies Limited | System and method for generating synthetic data for minority classes in a large dataset |
CN110674846A (zh) * | 2019-08-29 | 2020-01-10 | 南京理工大学 | 基于遗传算法和k-means聚类的不平衡数据集过采样方法 |
CN111488903A (zh) * | 2020-02-22 | 2020-08-04 | 西安理工大学 | 基于特征权重的决策树特征选择方法 |
CN111626336A (zh) * | 2020-04-29 | 2020-09-04 | 南京理工大学 | 一种基于不平衡数据集的地铁故障数据分类方法 |
CN113360392A (zh) * | 2021-06-24 | 2021-09-07 | 北京邮电大学 | 一种跨项目软件缺陷预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
刘望舒: "软件缺陷预测中基于聚类分析的特征选择方法", vol. 46, no. 9, pages 1298 - 1320 * |
陆子豪等: "基于改进SMOTE的半监督极限学习机缺陷预测", 《计算机技术与发展》, vol. 31, no. 12, pages 21 - 25 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117952326A (zh) * | 2024-03-27 | 2024-04-30 | 葛洲坝集团生态环保有限公司 | 基于人工智能的污水处理监管方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114706751B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11556690B2 (en) | Generating integrated circuit placements using neural networks | |
CN106570873B (zh) | 一种医学图像分割方法 | |
CN113393911B (zh) | 一种基于深度学习的配体化合物快速预筛选方法 | |
WO2023217290A1 (zh) | 基于图神经网络的基因表型预测 | |
CN103294601B (zh) | 一种基于选择性动态权重神经网络集成的软件可靠性预测方法 | |
CN103699678B (zh) | 一种基于多阶段分层采样的层次聚类方法和系统 | |
CN111582350A (zh) | 一种基于距离加权LSSVM的过滤因子优化AdaBoost方法及系统 | |
CN111259964B (zh) | 一种不平衡数据集的过采样方法 | |
CN112861459B (zh) | 全灵敏度对抗重要性抽样产量优化方法和装置 | |
Yu et al. | Predicting protein complex in protein interaction network-a supervised learning based method | |
CN109193756A (zh) | 一种风电接入系统的场景解耦动态经济调度模型求解方法 | |
CN111861781A (zh) | 一种居民用电行为聚类中的特征优选方法及系统 | |
CN110705606A (zh) | 一种基于Spark分布式内存计算的空间K均值聚类方法 | |
CN114706751B (zh) | 一种基于改进smote的软件缺陷预测方法 | |
CN104239975B (zh) | 基于改进离散粒子群算法的船舶引航排班方法 | |
CN115242659A (zh) | 一种基于高阶集体影响力的超网络节点分析方法 | |
WO2024039414A1 (en) | Alignment cost for integrated circuit placement | |
CN108717444A (zh) | 一种基于分布式结构的大数据聚类方法和装置 | |
CN110263906B (zh) | 非对称负相关搜索方法 | |
CN109447131B (zh) | 相似高维目标信息识别方法及系统 | |
CN117972924B (zh) | 基于双模型策略构造高精度电机性能数据库的方法 | |
CN113723043B (zh) | 一种门级电路图划分方法 | |
EP4411602A1 (en) | Prediction model creation method, prediction method, prediction model creation device, prediction device, prediction model creation program, and prediction program | |
JP7224263B2 (ja) | モデル生成方法、モデル生成装置及びプログラム | |
CN110942149B (zh) | 一种基于信息变化率及条件互信息的特征变量选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240402 Address after: Building B4, 8F, No.118 Software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province, 210012 Patentee after: Nanjing Kexun Ciyuan Information Technology Co.,Ltd. Country or region after: China Address before: 210023 No.89 Wenlan Road, Qixia District, Nanjing City, Jiangsu Province Patentee before: NANJING UNIVERSITY OF SCIENCE & TECHNOLOGY ZIJIN College Country or region before: China |