CN111292182A - 一种信贷欺诈检测方法及系统 - Google Patents
一种信贷欺诈检测方法及系统 Download PDFInfo
- Publication number
- CN111292182A CN111292182A CN202010227315.5A CN202010227315A CN111292182A CN 111292182 A CN111292182 A CN 111292182A CN 202010227315 A CN202010227315 A CN 202010227315A CN 111292182 A CN111292182 A CN 111292182A
- Authority
- CN
- China
- Prior art keywords
- credit
- data
- fraud detection
- logistic regression
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开一种信贷欺诈检测方法及系统,涉及信贷领域。该方法包括:获取信贷样本数据;将信贷样本数据分为训练集和测试集;利用训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型;利用测试集对信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型;获取待测信贷数据;将待测信贷数据输入信贷欺诈检测模型,得到逻辑回归分类结果;对逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。本发明的信贷欺诈检测方法及系统将特征扫描和逻辑回归相结合,对待测信贷数据进行特征扫描和逻辑回归,最后再进行决策融合,提高了信贷欺诈检测的准确率,信贷欺诈检测模型结构简单,提升了训练速度和分类速度。
Description
技术领域
本发明涉及信贷领域,特别是涉及一种信贷欺诈检测方法及系统。
背景技术
目前信贷欺诈检测主要有两种方式:基于规则引擎的反欺诈方法和基于机器学习的反欺诈方法。但是规则引擎严重依赖于专家经验和教训,不同决策人员制定的规则系统效果也往往存在较大差异,所以规则引擎存在很大的局限性。机器学习在反欺诈领域有着广泛的应用,逻辑回归、支持向量机以及随机森林等分类算法最为常见;此外,频繁项集挖掘和神经网络等算法也在反欺诈领域有着较好的效果。然而,像线性回归、逻辑回归这类结构简单的模型,模型的准确率不够高,很难去拟合数据的真实分布;神经网络这一类模型结构过于复杂,训练参数过于庞大导致训练时间长,训练速度慢。因此,现有信贷欺诈检测方法存在准确率与训练速度不兼容的问题。
发明内容
本发明的目的是提供一种信贷欺诈检测方法及系统,解决了现有信贷欺诈检测方法准确率与训练速度不兼容的问题。
为实现上述目的,本发明提供了如下方案:
一种信贷欺诈检测方法,包括:
获取信贷样本数据;所述信贷样本数据包括:欺诈数据和非欺诈数据;
将所述信贷样本数据分为训练集和测试集;
利用所述训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型;
利用所述测试集对所述信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型;
获取待测信贷数据;
将所述待测信贷数据输入所述信贷欺诈检测模型,得到逻辑回归分类结果;
对所述逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。
可选的,所述将所述信贷样本数据分为训练集和测试集,具体包括:
对所述信贷样本数据进行降维处理,得到降维信贷样本数据;
对所述降维信贷样本数据进行标准化处理,得到标准化信贷样本数据;
将所述标准化信贷样本数据分为训练初始集和测试集;
采用合成少数类过采样技术对所述训练初始集进行平衡处理,得到训练集。
可选的,所述利用所述训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型,具体包括:
利用所述训练集对特征数据窗口进行训练,得到训练好的特征数据窗口和训练好的特征数据窗口扫描的特征数据;
利用所述特征数据对逻辑回归模型进行训练,得到训练好的逻辑回归模型;所述训练好的特征数据窗口和所述训练好的逻辑回归模型组成信贷欺诈检测初始模型。
可选的,所述获取待测信贷数据,具体包括:
获取待测初始信贷数据;
对所述待测初始信贷数据进行降维处理,得到待测信贷数据。
可选的,所述将所述待测信贷数据输入所述信贷欺诈检测模型,得到逻辑回归分类结果,具体包括:
将所述待测信贷数据输入所述信贷欺诈检测模型中的特征数据窗口,得到待测特征数据;
将所述待测特征数据输入所述信贷欺诈检测模型中的逻辑回归模型,得到逻辑回归分类结果。
一种信贷欺诈检测系统,包括:
样本数据获取模块,用于获取信贷样本数据;所述信贷样本数据包括:欺诈数据和非欺诈数据;
样本数据分集模块,用于将所述信贷样本数据分为训练集和测试集;
训练初始模型模块,用于利用所述训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型;
调试模块,用于利用所述测试集对所述信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型;
待测数据获取模块,用于获取待测信贷数据;
待测数据检测模块,用于将所述待测信贷数据输入所述信贷欺诈检测模型,得到逻辑回归分类结果;
决策融合模块,用于对所述逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。
可选的,所述样本数据分集模块,具体包括:
降维处理单元,用于对所述信贷样本数据进行降维处理,得到降维信贷样本数据;
标准化处理单元,用于对所述降维信贷样本数据进行标准化处理,得到标准化信贷样本数据;
样本数据分集单元,用于将所述标准化信贷样本数据分为训练初始集和测试集;
平衡处理单元,用于采用合成少数类过采样技术对所述训练初始集进行平衡处理,得到训练集。
可选的,所述训练初始模型模块,具体包括:
特征数据窗口训练单元,用于利用所述训练集对特征数据窗口进行训练,得到训练好的特征数据窗口和训练好的特征数据窗口扫描的特征数据;
逻辑回归模型训练单元,用于利用所述特征数据对逻辑回归模型进行训练,得到训练好的逻辑回归模型;所述训练好的特征数据窗口和所述训练好的逻辑回归模型组成信贷欺诈检测初始模型。
可选的,所述待测数据获取模块,具体包括:
待测初始数据获取单元,用于获取待测初始信贷数据;
初始数据降维单元,用于对所述待测初始信贷数据进行降维处理,得到待测信贷数据。
可选的,所述待测数据检测模块,具体包括:
待测数据扫描单元,用于将所述待测信贷数据输入所述信贷欺诈检测模型中的特征数据窗口,得到待测特征数据;
待测特征数据分类单元,用于将所述待测特征数据输入所述信贷欺诈检测模型中的逻辑回归模型,得到逻辑回归分类结果。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种信贷欺诈检测方法及系统。该方法包括:获取信贷样本数据;信贷样本数据包括:欺诈数据和非欺诈数据;将信贷样本数据分为训练集和测试集;利用训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型;利用测试集对信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型;获取待测信贷数据;将待测信贷数据输入信贷欺诈检测模型,得到逻辑回归分类结果;对逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。本发明的信贷欺诈检测方法及系统将特征扫描和逻辑回归相结合,对待测信贷数据进行特征扫描和逻辑回归,最后再进行决策融合,提高了信贷欺诈检测的准确率,满足了对信贷欺诈检测模型检测准确率的要求;信贷欺诈检测模型结构非常的简单,没有深度学习中的各种神经网络的复杂的结构,所以需要训练的参数也是非常的少,大大节约了计算资源,提升了信贷欺诈检测模型的训练速度和分类速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的信贷欺诈检测方法的流程图;
图2为本发明实施例所提供的特征数据窗口扫描示意图;
图3为本发明实施例所提供的信贷欺诈检测系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种信贷欺诈检测方法及系统,解决了现有信贷欺诈检测方法准确率与训练速度不兼容的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本实施例提供一种信贷欺诈检测方法,图1为本发明实施例所提供的信贷欺诈检测方法的流程图。参见图1,信贷欺诈检测方法包括:
步骤101,获取信贷样本数据;信贷样本数据包括:欺诈数据和非欺诈数据。
步骤102,将信贷样本数据分为训练集和测试集。
步骤102具体包括:
对信贷样本数据进行降维处理,得到降维信贷样本数据,采用主成分分析(principal components analysis,PCA)变换对信贷样本数据进行降维处理,缓解维度灾难问题。
对降维信贷样本数据进行标准化处理,得到标准化信贷样本数据,采用下式对降维信贷样本数据进行标准化处理:
xnew=(x-MinValue)/(MaxValue-MinValue)
其中xnew为标准化信贷样本数据,x为降维信贷样本数据,MinValue为降维信贷样本数据的最小值,MaxValue为降维信贷样本数据的最大值。
将标准化信贷样本数据分为训练初始集和测试集。
采用合成少数类过采样技术对训练初始集进行平衡处理,得到训练集,具体为采用SMOTE算法对训练初始集进行平衡处理,使训练初始集中的欺诈数据数量和非欺诈数据数量相同,得到训练集。
步骤103,利用训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型。
步骤103具体包括:
利用训练集对特征数据窗口进行训练,得到训练好的特征数据窗口和训练好的特征数据窗口扫描的特征数据,具体包括:利用训练集对特征数据窗口进行训练,得到训练好的特征数据窗口,采用训练好的特征数据窗口对训练集中的每条数据进行特征扫描,得到每条数据的特征数据。
利用特征数据对逻辑回归模型进行训练,得到训练好的逻辑回归模型;训练好的特征数据窗口和训练好的逻辑回归模型组成信贷欺诈检测初始模型,利用特征数据对逻辑回归模型进行训练具体包括:逻辑回归模型采用逻辑回归算法(Logistics Regression)对每条数据的特征数据进行逻辑回归分类。
步骤104,利用测试集对信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型。
步骤104,具体包括:
将测试集输入信贷欺诈检测初始模型,得到逻辑回归测试分类结果,具体包括:采用训练好的特征数据窗口对测试集中的每条数据进行特征扫描,得到测试特征数据集,测试特征数据集包括每条数据的测试特征数据;采用训练好的逻辑回归模型对测试特征数据集中的测试特征数据进行逻辑回归分类,得到逻辑回归测试分类结果。
对逻辑回归测试分类结果进行决策融合,得到测试集中每条数据的分类结果,即每条数据的检测结果。
根据测试集中每条数据的分类结果对训练好的特征数据窗口的大小和训练好的逻辑回归模型的参数进行修改调试,得到最优特征数据窗口和最优逻辑回归模型,通过测试集对信贷欺诈检测初始模型进行不断的迭代和调试,得到信贷欺诈检测模型,最优特征数据窗口和最优逻辑回归模型组成信贷欺诈检测模型。
步骤105,获取待测信贷数据。
步骤105,具体包括:
获取待测初始信贷数据。
对待测初始信贷数据进行降维处理,得到待测信贷数据。采用PCA变换对待测初始信贷数据进行降维处理,得到待测信贷数据。
步骤106,将待测信贷数据输入信贷欺诈检测模型,得到逻辑回归分类结果。
步骤106具体包括:
将待测信贷数据输入信贷欺诈检测模型中的特征数据窗口,得到待测特征数据,即将待测信贷数据输入最优特征数据窗口,得到待测特征数据。
将待测特征数据输入信贷欺诈检测模型中的逻辑回归模型,得到逻辑回归分类结果,即将待测特征数据输入最优逻辑回归模型,得到逻辑回归分类结果。
步骤107,对逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。信贷欺诈检测结果包括:待测信贷数据为欺诈数据,待测信贷数据为非欺诈数据。
本发明的信贷欺诈检测方法采用了合成少数类过采样技术(Synthetic MinorityOversampling Technique,SMOTE)算法、特征扫描(Features Scanning,FS)、逻辑回归算法(Logistics Regression,LR)和决策融合,下面对SMOTE算法、特征扫描、逻辑回归算法和决策融合进行介绍:
SMOTE算法:
SMOTE是合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General)。SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。SMOTE算法流程如下:
1.对于少数类中每一个样本x1,以欧氏距离为标准计算样本x1到少数类样本集中所有样本的欧氏距离,得到样本x1的k近邻样本,k近邻样本为少数类样本与样本x1之间的欧氏距离最近的k个样本。
2.根据少数类样本和其他类样本的样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x1,从样本x1的k近邻样本中随机选择若干个近邻样本,假设选择的近邻样本为x1p,p表示近邻样本的个数。
3.将每一个随机选出的近邻样本x1p,以及少数类中的每个样本分别按照下式构建新的样本:
特征扫描,即特征数据窗口扫描:
利用给定j维的特征数据窗口对n维不含标签的特征数据进行随机或按扫描方向扫描生成n-j+1个通道的特征数据。每一次特征数据窗口扫描所得到的特征数据都会与含标签的特征数据连接成为j+1维的数据,j+1维的数据用于输入到逻辑回归模型中进行二分类。特征数据窗口扫描的流程如图2所示。
逻辑回归算法:
逻辑回归由于存在易于实现、解释性好以及容易扩展等优点,被广泛应用于点击率预估(CTR)、计算广告(CA)以及推荐系统(RS)等任务中。逻辑回归是一种有监督分类学习方法。假设输入为x2,逻辑回归的预测函数公式如下:
上式中,hθ(x2)表示在参数为θ的前提条件下输入值为x2的分类结果为1或0的概率;g(z)表示Sigmod函数;z=θTx2;θTx2=θ1x21+θ2x22+…+θjx2j,x21,x22,...,x2j表示输入值,θ表示输入值的权重,θ1,θ2,...,θj分别表示与输入值x21,x22,...,x2j对应的权重;j表示输入值x2的属性个数,大小与特征数据窗口的大小相等。逻辑回归的成本函数如下:
上式中,J()表示成本函数;m为输入逻辑回归的样本的数目;y(i)为每一个样本的标签,即0或1;i为样本序号,i=1,2,...,m;x2 (i)表示第i个样本包括的所有输入值,也就相当于x21 (i),x22 (i),...,x2j (i)。
通过梯队下降算法最小化成本函数得到权重θ,将θ代入公式(1)得到逻辑回归模型,将待分类的数据输入到逻辑回归模型中得到hθ(x2),当hθ(x2)大于或等于0.5时,逻辑回归模型的分类结果y=1,当hθ(x2)小于0.5时,分类结果y=0。
决策融合:
决策融合是融合逻辑回归模型的分类结果以获得最终分类结果。通过使用逻辑回归模型的分类结果作为输入来获得最终分类结果。假设分类结果为[y1,y2,...,yS],决策融合公式如下:
其中,y’表示决策融合结果,即最终分类结果,即信贷欺诈检测结果;s表示逻辑回归模型的分类结果的序号,S表示逻辑回归模型的分类结果的总数量,s=1,2,...,S。
本实施例提供一种具体实施方式:
获取信贷样本数据,信贷样本数据为2013年9月欧洲信用卡持有者所发生的交易数据,信贷样本数据源自位于比利时布鲁塞尔自由大学(UniversitéLibre de Bruxelles,ULB)的研究小组(Worldline and the Machine Learning Group)。
采用PCA变换对信贷样本数据进行降维处理,得到降维信贷样本数据,降维信贷样本数据包含284807条交易记录,每条交易记录包含31个字段,具体信息参见表1,每一行记录字段中的一个特征:
表1一条交易记录的具体信息
表1中,No.表示号码,Time表示时间,Float表示数据类型为浮点型,V1-V28表示属性名,Amount表示金额,Class表示类别。
根据下式对降维信贷样本数据进行数据标准化处理,得到标准化信贷样本数据:
xnew=(x-MinValue)/(MaxValue-MinValue)
其中xnew为标准化信贷样本数据,x为降维信贷样本数据,MinValue为降维信贷样本数据的最小值,MaxValue为降维信贷样本数据的最大值。
将标准化信贷样本数据按照预设比例分为初始训练集和测试集。采用SMOTE算法对初始训练集中的标准化信贷样本数据进行平衡处理,得到训练集,SMOTE算法使得初始训练集中的欺诈数据和非欺诈数据数量相同,可以降低欺诈数据和非欺诈数据数量不平衡的问题。
利用特征数据窗口对训练集中的数据进行特征扫描得到每条数据的特征数据。
训练集有m条数据,每条数据有n个特征和一个类别标签特征,训练集的大小就为[m,n+1]。特征数据窗口的大小为j,且j<n,经过特征数据窗口的特征扫描后就会得到n-j+1组大小为[m,n-j+1]的特征数据。
将特征数据窗口扫描的特征数据输入逻辑回归模型,采用逻辑回归算法对每条数据的特征数据进行逻辑回归分类,得到m组长度为n-j+1的逻辑回归样本分类结果,逻辑回归样本分类结果的大小为[m,n-j+1]。
对每一条数据的m,n-j+1个分类结果进行决策融合得到该条数据的分类结果,最终得到长度为m的分类结果,即信贷样本数据中每一条数据的检测结果。
利用测试集对信贷欺诈检测初始模型进行测试,通过不断的迭代训练对特征数据窗口的大小j和逻辑回归模型中的权重θ进行修改和调试,得到最优的特征数据窗口和最优的逻辑回归模型,最优的特征数据窗口和最优的逻辑回归模型组成信贷欺诈检测模型。
本实施例提供一种信贷欺诈检测系统,图3为本发明实施例所提供的信贷欺诈检测系统的结构图。参见图3,信贷欺诈检测系统包括:
样本数据获取模块201,用于获取信贷样本数据;信贷样本数据包括:欺诈数据和非欺诈数据。
样本数据分集模块202,用于将信贷样本数据分为训练集和测试集。
样本数据分集模块202具体包括:
降维处理单元,用于对信贷样本数据进行降维处理,得到降维信贷样本数据,采用主成分分析(principal components analysis,PCA)变换对信贷样本数据进行降维处理,缓解维度灾难问题。
标准化处理单元,用于对降维信贷样本数据进行标准化处理,得到标准化信贷样本数据。
样本数据分集单元,用于将标准化信贷样本数据分为训练初始集和测试集。
平衡处理单元,用于采用合成少数类过采样技术对训练初始集进行平衡处理,得到训练集,具体为采用SMOTE算法对训练初始集进行平衡处理,使训练初始集中的欺诈数据数量和非欺诈数据数量相同,得到训练集。
训练初始模型模块203,用于利用训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型。
训练初始模型模块203具体包括:
特征数据窗口训练单元,用于利用训练集对特征数据窗口进行训练,得到训练好的特征数据窗口和训练好的特征数据窗口扫描的特征数据。
逻辑回归模型训练单元,用于利用特征数据对逻辑回归模型进行训练,得到训练好的逻辑回归模型;训练好的特征数据窗口和训练好的逻辑回归模型组成信贷欺诈检测初始模型。
调试模块204,用于利用测试集对信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型。
调试模块204,具体包括:
逻辑回归测试分类结果获取单元,用于将测试集输入信贷欺诈检测初始模型,得到逻辑回归测试分类结果。
决策融合单元,用于对逻辑回归测试分类结果进行决策融合,得到测试集中每条数据的分类结果,即每条数据的检测结果。
调试单元,用于根据测试集中每条数据的分类结果对训练好的特征数据窗口的大小和训练好的逻辑回归模型的参数进行修改调试,得到最优特征数据窗口和最优逻辑回归模型,通过测试集对信贷欺诈检测初始模型进行不断的迭代和调试,得到信贷欺诈检测模型,最优特征数据窗口和最优逻辑回归模型组成信贷欺诈检测模型。
待测数据获取模块205,用于获取待测信贷数据。
待测数据获取模块205具体包括:
待测初始数据获取单元,用于获取待测初始信贷数据。
初始数据降维单元,用于对待测初始信贷数据进行降维处理,得到待测信贷数据。采用PCA变换对待测初始信贷数据进行降维处理,得到待测信贷数据。
待测数据检测模块206,用于将待测信贷数据输入信贷欺诈检测模型,得到逻辑回归分类结果。
待测数据检测模块206具体包括:
待测数据扫描单元,用于将待测信贷数据输入信贷欺诈检测模型中的特征数据窗口,得到待测特征数据,即将待测信贷数据输入最优特征数据窗口,得到待测特征数据。
待测特征数据分类单元,用于将待测特征数据输入信贷欺诈检测模型中的逻辑回归模型,得到逻辑回归分类结果,即将待测特征数据输入最优逻辑回归模型,得到逻辑回归分类结果。
决策融合模块207,用于对逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。信贷欺诈检测结果包括:待测信贷数据为欺诈数据,待测信贷数据为非欺诈数据。
本发明提出了一种基于特征扫描和逻辑回归的信贷欺诈检测方法及系统,将卷积神经网络中的窗口扫描概念和逻辑回归相结合,对待测信贷数据进行窗口扫描分割生成多个通道特征,然后利用简单的逻辑回归对每个通道特征进行欺诈判断,最后对逻辑回归分类结果进行最优的决策融合,在一定程度上提高了信贷欺诈检测的准确性,满足了对信贷欺诈检测模型检测准确率的要求;本发明的信贷欺诈检测模型结构也是非常的简单,没有深度学习中的各种神经网络的复杂结构,所以需要训练的参数也是非常的少,大大节约了计算资源和提升了信贷欺诈检测模型的训练速度和分类速度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种信贷欺诈检测方法,其特征在于,包括:
获取信贷样本数据;所述信贷样本数据包括:欺诈数据和非欺诈数据;
将所述信贷样本数据分为训练集和测试集;
利用所述训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型;
利用所述测试集对所述信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型;
获取待测信贷数据;
将所述待测信贷数据输入所述信贷欺诈检测模型,得到逻辑回归分类结果;
对所述逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。
2.根据权利要求1所述的信贷欺诈检测方法,其特征在于,所述将所述信贷样本数据分为训练集和测试集,具体包括:
对所述信贷样本数据进行降维处理,得到降维信贷样本数据;
对所述降维信贷样本数据进行标准化处理,得到标准化信贷样本数据;
将所述标准化信贷样本数据分为训练初始集和测试集;
采用合成少数类过采样技术对所述训练初始集进行平衡处理,得到训练集。
3.根据权利要求2所述的信贷欺诈检测方法,其特征在于,所述利用所述训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型,具体包括:
利用所述训练集对特征数据窗口进行训练,得到训练好的特征数据窗口和训练好的特征数据窗口扫描的特征数据;
利用所述特征数据对逻辑回归模型进行训练,得到训练好的逻辑回归模型;所述训练好的特征数据窗口和所述训练好的逻辑回归模型组成信贷欺诈检测初始模型。
4.根据权利要求3所述的信贷欺诈检测方法,其特征在于,所述获取待测信贷数据,具体包括:
获取待测初始信贷数据;
对所述待测初始信贷数据进行降维处理,得到待测信贷数据。
5.根据权利要求4所述的信贷欺诈检测方法,其特征在于,所述将所述待测信贷数据输入所述信贷欺诈检测模型,得到逻辑回归分类结果,具体包括:
将所述待测信贷数据输入所述信贷欺诈检测模型中的特征数据窗口,得到待测特征数据;
将所述待测特征数据输入所述信贷欺诈检测模型中的逻辑回归模型,得到逻辑回归分类结果。
6.一种信贷欺诈检测系统,其特征在于,包括:
样本数据获取模块,用于获取信贷样本数据;所述信贷样本数据包括:欺诈数据和非欺诈数据;
样本数据分集模块,用于将所述信贷样本数据分为训练集和测试集;
训练初始模型模块,用于利用所述训练集对特征数据窗口和逻辑回归模型进行训练,得到信贷欺诈检测初始模型;
调试模块,用于利用所述测试集对所述信贷欺诈检测初始模型进行调试,得到信贷欺诈检测模型;
待测数据获取模块,用于获取待测信贷数据;
待测数据检测模块,用于将所述待测信贷数据输入所述信贷欺诈检测模型,得到逻辑回归分类结果;
决策融合模块,用于对所述逻辑回归分类结果进行决策融合,得到信贷欺诈检测结果。
7.根据权利要求6所述的信贷欺诈检测系统,其特征在于,所述样本数据分集模块,具体包括:
降维处理单元,用于对所述信贷样本数据进行降维处理,得到降维信贷样本数据;
标准化处理单元,用于对所述降维信贷样本数据进行标准化处理,得到标准化信贷样本数据;
样本数据分集单元,用于将所述标准化信贷样本数据分为训练初始集和测试集;
平衡处理单元,用于采用合成少数类过采样技术对所述训练初始集进行平衡处理,得到训练集。
8.根据权利要求7所述的信贷欺诈检测系统,其特征在于,所述训练初始模型模块,具体包括:
特征数据窗口训练单元,用于利用所述训练集对特征数据窗口进行训练,得到训练好的特征数据窗口和训练好的特征数据窗口扫描的特征数据;
逻辑回归模型训练单元,用于利用所述特征数据对逻辑回归模型进行训练,得到训练好的逻辑回归模型;所述训练好的特征数据窗口和所述训练好的逻辑回归模型组成信贷欺诈检测初始模型。
9.根据权利要求8所述的信贷欺诈检测系统,其特征在于,所述待测数据获取模块,具体包括:
待测初始数据获取单元,用于获取待测初始信贷数据;
初始数据降维单元,用于对所述待测初始信贷数据进行降维处理,得到待测信贷数据。
10.根据权利要求9所述的信贷欺诈检测系统,其特征在于,所述待测数据检测模块,具体包括:
待测数据扫描单元,用于将所述待测信贷数据输入所述信贷欺诈检测模型中的特征数据窗口,得到待测特征数据;
待测特征数据分类单元,用于将所述待测特征数据输入所述信贷欺诈检测模型中的逻辑回归模型,得到逻辑回归分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227315.5A CN111292182A (zh) | 2020-03-27 | 2020-03-27 | 一种信贷欺诈检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227315.5A CN111292182A (zh) | 2020-03-27 | 2020-03-27 | 一种信贷欺诈检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111292182A true CN111292182A (zh) | 2020-06-16 |
Family
ID=71025039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010227315.5A Pending CN111292182A (zh) | 2020-03-27 | 2020-03-27 | 一种信贷欺诈检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292182A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967993A (zh) * | 2020-09-25 | 2020-11-20 | 北京信息科技大学 | 一种在线交易反欺诈方法及系统 |
CN113706285A (zh) * | 2021-07-08 | 2021-11-26 | 长江大学 | 一种信用卡欺诈检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287914A (zh) * | 2018-02-09 | 2018-07-17 | 辽宁工程技术大学 | 一种基于卷积神经网络的果树病害识别与防治方法 |
CN108898479A (zh) * | 2018-06-28 | 2018-11-27 | 中国农业银行股份有限公司 | 信用评价模型的构建方法及装置 |
CN109035003A (zh) * | 2018-07-04 | 2018-12-18 | 北京玖富普惠信息技术有限公司 | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 |
CN110020868A (zh) * | 2019-03-11 | 2019-07-16 | 同济大学 | 基于线上交易特征的反欺诈模块决策融合方法 |
CN110378364A (zh) * | 2019-05-29 | 2019-10-25 | 上海欣方智能系统有限公司 | 话单诈骗模型识别方法和系统 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
-
2020
- 2020-03-27 CN CN202010227315.5A patent/CN111292182A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108287914A (zh) * | 2018-02-09 | 2018-07-17 | 辽宁工程技术大学 | 一种基于卷积神经网络的果树病害识别与防治方法 |
CN108898479A (zh) * | 2018-06-28 | 2018-11-27 | 中国农业银行股份有限公司 | 信用评价模型的构建方法及装置 |
CN109035003A (zh) * | 2018-07-04 | 2018-12-18 | 北京玖富普惠信息技术有限公司 | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 |
CN110020868A (zh) * | 2019-03-11 | 2019-07-16 | 同济大学 | 基于线上交易特征的反欺诈模块决策融合方法 |
CN110378364A (zh) * | 2019-05-29 | 2019-10-25 | 上海欣方智能系统有限公司 | 话单诈骗模型识别方法和系统 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967993A (zh) * | 2020-09-25 | 2020-11-20 | 北京信息科技大学 | 一种在线交易反欺诈方法及系统 |
CN113706285A (zh) * | 2021-07-08 | 2021-11-26 | 长江大学 | 一种信用卡欺诈检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852856B (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN110414780B (zh) | 一种基于生成对抗网络的金融交易数据的欺诈检测方法 | |
CN110111113B (zh) | 一种异常交易节点的检测方法及装置 | |
CN108520357A (zh) | 一种线损异常原因的判别方法、装置及服务器 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
CN110111198A (zh) | 用户金融风险预估方法、装置、电子设备及可读介质 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN107273387A (zh) | 面向高维和不平衡数据分类的集成 | |
CN111191720B (zh) | 一种业务场景的识别方法、装置及电子设备 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
CN109829721B (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
CN114707571A (zh) | 基于增强隔离森林的信用数据异常检测方法 | |
CN106874943A (zh) | 业务对象分类方法和系统 | |
CN111639882A (zh) | 一种基于深度学习的用电风险的判定方法 | |
CN111563187A (zh) | 关系确定方法、装置、系统和电子设备 | |
CN111292182A (zh) | 一种信贷欺诈检测方法及系统 | |
CN113837481B (zh) | 一种基于区块链的金融大数据管理系统 | |
CN110059126A (zh) | 基于lkj异常值数据的复杂关联网络分析方法及系统 | |
Nie et al. | Weighted-graph-based change point detection | |
CN116821688A (zh) | 基于聚类下采样技术处理信用卡欺诈交易中数据集的方法 | |
CN113792141A (zh) | 基于协方差度量因子的特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |