CN117764713A - 授信额度的确定方法及装置、存储介质、电子设备 - Google Patents
授信额度的确定方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN117764713A CN117764713A CN202311793150.8A CN202311793150A CN117764713A CN 117764713 A CN117764713 A CN 117764713A CN 202311793150 A CN202311793150 A CN 202311793150A CN 117764713 A CN117764713 A CN 117764713A
- Authority
- CN
- China
- Prior art keywords
- sample
- target
- credit
- client
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000003066 decision tree Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims description 50
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000000465 moulding Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请实施例提供了一种授信额度的确定方法及装置、存储介质、电子设备,该方法包括:将目标客户的特征数据输入至预先训练好的目标模型中,得到目标模型输出的目标客户的目标授信标识,目标模型输出目标客户的目标授信标识包括:从特征数据中提取目标客户的多个属性特征,将多个属性特征转化为多个特征变量,调整多个特征变量的权重值以生成多个决策树,确定每个决策树的授信标识,加权处理多个授信标识以输出目标授信标识,特征数据包括目标客户的客户属性特征和经营属性特征;根据目标授信标识确定目标客户的授信额度区间;从授信额度区间中确定目标客户对应的目标授信额度。通过本申请,解决了相关技术中预测授信额度无法实现精确匹配的问题。
Description
技术领域
本申请实施例涉及计算机技术领域,具体而言,涉及一种授信额度的确定方法及装置、存储介质、电子设备。
背景技术
额度预测模型是当今金融企业对企业客户授信的一个重要方法,因企业授信场景依赖性很强,现有的额度预测模型采用简单的规则模型或线性模型时,分类颗粒度粗,有效入模的变量少,额度预测的准确率较低,造成客群间额度区分度不高,存在客户额度“扎堆”,授信额度“个性化”不足等问题。
发明内容
本申请实施例提供了一种授信额度的确定方法及装置、存储介质、电子设备,以至少解决相关技术中预测授信额度无法实现精确匹配的问题。
根据本申请的一个实施例,提供了一种授信额度的确定方法,包括:将目标客户的特征数据输入至预先训练好的目标模型中,得到上述目标模型输出的上述目标客户的目标授信标识,其中,上述目标模型输出上述目标客户的目标授信标识包括:从上述特征数据中提取上述目标客户的多个属性特征,将多个上述属性特征转化为多个特征变量,调整多个上述特征变量的权重值以生成多个决策树,确定每个上述决策树的授信标识,加权处理多个上述授信标识以输出上述目标授信标识,上述特征数据包括上述目标客户的客户属性特征和经营属性特征;根据上述目标授信标识确定上述目标客户的授信额度区间;从上述授信额度区间中确定上述目标客户对应的目标授信额度。
在一个示例性实施例中,确定样本特征数据集,包括:获取每个上述样本授信额度区间对应的样本数、上述样本数的占比以及样本授信标识;获取每个上述样本客户的以下信息至少之一,得到每个上述样本客户的样本客户属性和样本经营属性:客户属性,经营性质,员工信息,纳税信息。
在一个示例性实施例中,确定样本特征数据集之后,上述方法还包括:将上述样本客户属性和上述样本经营属性中的非数值类数据转化为数值类特征数据,得到上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量;从上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量中筛选出缺失率小于第一参数、单值率小于第二参数且分布稳定指数小于第三参数的样本特征变量。
在一个示例性实施例中,利用上述样本特征数据集训练得到上述目标模型之前,上述方法还包括:利用贝叶斯搜索确定上述目标模型的目标参数,其中,上述目标参数包括以下至少之一:上述目标模型生成决策树的最大深度,上述目标模型的学习率,训练上述目标模型的特征采样比例。
在一个示例性实施例中,利用上述样本特征数据集训练得到上述目标模型,包括:确定上述样本入模特征数据的样本初始权重,其中,上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量的样本初始权重均相同;利用上述样本标识特征数据、上述样本入模特征数据以及上述样本初始权重训练原始模型,得到上述原始模型输出的初始决策树、初始样本授信标识以及初始标识占比;在上述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整上述样本初始权重;根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比,其中,上述样本决策树对应于上述目标样本授信标识和上述目标标识占比。
在一个示例性实施例中,在上述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整上述样本初始权重,包括:在上述初始样本授信标识与上述预设样本授信标识相同的情况下,将上述样本入模特征数据的初始权重调整为第一权重,其中,上述第一权重小于上述样本入模特征数据的初始权重;在上述初始样本授信标识与上述预设样本授信标识不同的情况下,将上述样本入模特征数据的初始权重调整为第二权重,其中,上述第二权重大于上述样本入模特征数据的初始权重。
在一个示例性实施例中,根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比之后,上述方法还包括:基于上述初始标识占比和上述目标标识占比,加权上述初始样本授信标识和上述目标样本授信标识,得到训练分群标志;根据上述训练分群标志和上述样本授信标识划分得到混淆矩阵,其中,上述混淆矩阵中包括以下至少之一:真正例,假正例,真反例,假反例;基于上述混淆矩阵确定性能度量,并利用上述性能度量检测上述目标模型,其中,上述性能度量包括以下至少之一:曲线面积,相邻类覆盖率,上述曲线面积用于检测上述目标模型的预测能力,上述相邻类覆盖率用于检测上述样本特征数据集。
根据本申请的另一个实施例,提供了一种授信额度的确定装置,包括:第一输入模块,用于将目标客户的特征数据输入至预先训练好的目标模型中,得到上述目标模型输出的上述目标客户的目标授信标识,其中,上述目标模型输出上述目标客户的目标授信标识包括:从上述特征数据中提取上述目标客户的多个属性特征,将多个上述属性特征转化为多个特征变量,调整多个上述特征变量的权重值以生成多个决策树,确定每个上述决策树的授信标识,加权处理多个上述授信标识以输出上述目标授信标识,上述特征数据包括上述目标客户的客户属性特征和经营属性特征;第一确定模块,用于根据上述目标授信标识确定上述目标客户的授信额度区间;第二确定模块,用于从上述授信额度区间中确定上述目标客户对应的目标授信额度。
在一个示例性实施例中,上述装置还包括,第三确定模块,用于将目标客户的特征数据输入至预先训练好的目标模型中,得到上述目标模型输出的上述目标客户的目标授信标识之前,确定样本特征数据集,其中,上述样本特征数据集包括样本标识特征数据和样本入模特征数据,上述样本标识特征数据用于标识样本授信额度区间,上述样本入模特征数据中包括多个样本客户的样本客户属性的样本特征变量和样本经营属性的样本特征变量;第一训练模块,用于利用上述样本特征数据集训练得到上述目标模型。
在一个示例性实施例中,上述第三确定模块,包括:第一获取子模块,用于获取每个上述样本授信额度区间对应的样本数、上述样本数的占比以及样本授信标识;第二获取子模块,用于获取每个上述样本客户的以下信息至少之一,得到每个上述样本客户的样本客户属性和样本经营属性:客户属性,经营性质,员工信息,纳税信息。
在一个示例性实施例中,上述装置还包括:第一转化模块,用于确定样本特征数据集之后,将上述样本客户属性和上述样本经营属性中的非数值类数据转化为数值类特征数据,得到上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量;第一筛选模块,从上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量中筛选出缺失率小于第一参数、单值率小于第二参数且分布稳定指数小于第三参数的样本特征变量。
在一个示例性实施例中,上述装置还包括:第四确定模块,用于利用上述样本特征数据集训练得到上述目标模型之前,利用贝叶斯搜索确定上述目标模型的目标参数,其中,上述目标参数包括以下至少之一:上述目标模型生成决策树的最大深度,上述目标模型的学习率,训练上述目标模型的特征采样比例。
在一个示例性实施例中,上述第一训练模块,包括:第一确定子模块,用于确定上述样本入模特征数据的样本初始权重,其中,上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量的样本初始权重均相同;第一训练子模块,用于利用上述样本标识特征数据、上述样本入模特征数据以及上述样本初始权重训练原始模型,得到上述原始模型输出的初始决策树、初始样本授信标识以及初始标识占比;第一调整子模块,用于在上述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整上述样本初始权重;第一生成子模块,用于根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比,其中,上述样本决策树对应于上述目标样本授信标识和上述目标标识占比。
在一个示例性实施例中,上述第一调整子模块,包括:第一调整单元,用于在上述初始样本授信标识与上述预设样本授信标识相同的情况下,将上述样本入模特征数据的初始权重调整为第一权重,其中,上述第一权重小于上述样本入模特征数据的初始权重;第二调整单元,用于在上述初始样本授信标识与上述预设样本授信标识不同的情况下,将上述样本入模特征数据的初始权重调整为第二权重,其中,上述第二权重大于上述样本入模特征数据的初始权重。
在一个示例性实施例中,上述第一训练模块还包括:第一加权子模块,用于根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比之后,基于上述初始标识占比和上述目标标识占比,加权上述初始样本授信标识和上述目标样本授信标识,得到训练分群标志;第一划分子模块,用于根据上述训练分群标志和上述样本授信标识划分得到混淆矩阵,其中,上述混淆矩阵中包括以下至少之一:真正例,假正例,真反例,假反例;第一检测子模块,用于基于上述混淆矩阵确定性能度量,并利用上述性能度量检测上述目标模型,其中,上述性能度量包括以下至少之一:曲线面积,相邻类覆盖率,上述曲线面积用于检测上述目标模型的预测能力,上述相邻类覆盖率用于检测上述样本特征数据集。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,其中,上述计算机程序被设置为处理器执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器被设置为执行上述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请,通过目标模型从特征数据中提取目标客户的多个属性特征,将多个属性特征转化为多个特征变量,并动态调整多个特征变量的权重值以生成多个决策树,根据多个决策树输出的授信标识,加权处理得到目标授信标识,最后根据目标授信标识确定目标客户的授信额度区间。可以针对不同的客户准确的匹配出对应的授信额度。因此,可以解决相关技术中预测授信额度无法实现精确匹配的问题,达到提高分类预测授信额度准确性的效果。
附图说明
图1是本申请实施例的一种授信额度的确定方法的移动终端的硬件结构框图;
图2是根据本申请实施例的一种授信额度的确定方法的流程图;
图3是根据本具体实施例的授信额度的确定方法的ROC曲线图;
图4是根据本具体实施例的授信额度的确定方法的具体流程图;
图5是根据本申请实施例一种授信额度的确定装置。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的一种授信额度的确定方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的一种授信额度的确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种授信额度的确定方法,图2是根据本申请实施例的一种授信额度的确定方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将目标客户的特征数据输入至预先训练好的目标模型中,得到上述目标模型输出的上述目标客户的目标授信标识,其中,上述目标模型输出上述目标客户的目标授信标识包括:从上述特征数据中提取上述目标客户的多个属性特征,将多个上述属性特征转化为多个特征变量,调整多个上述特征变量的权重值以生成多个决策树,确定每个上述决策树的授信标识,加权处理多个上述授信标识以输出上述目标授信标识,上述特征数据包括上述目标客户的客户属性特征和经营属性特征;
步骤S204,根据上述目标授信标识确定上述目标客户的授信额度区间;
步骤S206,从上述授信额度区间中确定上述目标客户对应的目标授信额度。
本实施例中的一种授信额度的确定方法的应用场景包括但不限于个人贷款申请、企业融资、信用卡申请、房屋贷款申请、供应链融资等。
其中,上述步骤的执行主体可以为终端、服务器、终端或服务器中设置的具体处理器,或者与终端或者服务器相对独立设置的处理器或者处理设备,但不限于此。
可选地,本实施例中特征数据包括但不限于客户属性、经营性质、员工信息、纳税信息、所属行业、财务状况等。将特征数据中的非数值数据转化为数值数据得到属性特征的特征变量。属性特征中会存在噪声特征、缺失特征等情况,因此在计算特征变量之前需要对属性特征进行数据的清洗、集成、转换等处理。
可选地,本实施例中的目标授信标识与授信额度区间具有一一对应的关系,用于唯一标识授信额度区间。目标授信标识包括但不限于数字、字母等元素。
通过上述步骤,通过目标模型从特征数据中提取目标客户的多个属性特征,将多个属性特征转化为多个特征变量,并动态调整多个特征变量的权重值以生成多个决策树,根据多个决策树输出的授信标识,加权处理得到目标授信标识,最后根据目标授信标识确定目标客户的授信额度区间。可以针对不同的客户准确的匹配出对应的授信额度。因此,可以解决相关技术中预测授信额度无法实现精确匹配的问题,达到提高分类预测授信额度准确性的效果。
在一个示例性实施例中,将目标客户的特征数据输入至预先训练好的目标模型中,得到上述目标模型输出的上述目标客户的目标授信标识之前,上述方法还包括:确定样本特征数据集,其中,上述样本特征数据集包括样本标识特征数据和样本入模特征数据,上述样本标识特征数据用于标识样本授信额度区间,上述样本入模特征数据中包括多个样本客户的样本客户属性的样本特征变量和样本经营属性的样本特征变量;利用上述样本特征数据集训练得到上述目标模型。
可选地,在本实施例中,样本标识特征数据用于标识样本授信额度区间,根据客户授信额度按照大小排序后,按照具体的业务所需粒度进行区间分区,并利用数字、字母等标识确定授信额度区间。例如,0对应(0,10000]、1对应(10000,20000]。本实施例通过采用分类区间的样本特征数据集训练目标模型,实现了消除极值影响目标模型预测效果的目的。
在一个示例性实施例中,确定样本特征数据集,包括:获取每个上述样本授信额度区间对应的样本数、上述样本数的占比以及样本授信标识;获取每个上述样本客户的以下信息至少之一,得到每个上述样本客户的样本客户属性和样本经营属性:客户属性,经营性质,员工信息,纳税信息。
可选地,在本实施例中,样本客户属性包括但不限于客户的基本信息、员工信息、从事的行业类型等。样本经营属性包括但不限于纳税信息、财务信息、结算信息等。本实施例通过获取样本客户属性和样本经营属性两大类客户数据,实现了提升目标模型预测效果的目的。
在一个示例性实施例中,确定样本特征数据集之后,上述方法还包括:将上述样本客户属性和上述样本经营属性中的非数值类数据转化为数值类特征数据,得到上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量;从上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量中筛选出缺失率小于第一参数、单值率小于第二参数且分布稳定指数小于第三参数的样本特征变量。
可选地,在本实施例中,通过同比、环比、日期差等方式,将样本客户属性和样本经营属性中的非数值类数据转化为数值类特征数据。例如,同比方式包括:将某一月份的销售额与上一年同一月份的销售额进行比较,得出同比增长率作为数值类特征数据;环比方式包括:将某一月份的销售额与上一个月份的销售额进行比较,得出环比增长率作为数值类特征数据;日期差方式包括:将日期转化为距离某一固定日期的天数差,或者计算两个日期之间的天数差作为数值类特征数据。缺失率是指在数据集中某个变量的取值缺失的比例,通常用百分比表示,缺失率高的变量可能会影响数据分析的结果和模型的准确性。单值率是指在样本特征数据集中某个样本特征变量只有一个取值的比例,通常用百分比表示,因为这些样本特征变量对于区分不同样本特征数据集的能力较弱,可能对目标模型的训练和预测产生负面影响,因此需要进行筛选。分布稳定指数是用于监控目标模型在不同时间段或不同样本特征数据集上的稳定性,分布稳定指数越接近于0表示稳定性越好。例如,可以筛选出缺失率小于5%、单值率小于10%且分布稳定指数小于0.9的样本特征变量。本实施例通过对样本特征变量进行筛选,实现了便于后续分析和处理,确保目标模型训练和预测的准确性和可靠性的目的。
在一个示例性实施例中,利用上述样本特征数据集训练得到上述目标模型之前,上述方法还包括:利用贝叶斯搜索确定上述目标模型的目标参数,其中,上述目标参数包括以下至少之一:上述目标模型生成决策树的最大深度,上述目标模型的学习率,训练上述目标模型的特征采样比例。
可选地,在本实施例中,贝叶斯搜索是一种用于超参数优化的方法,可以用来获取目标模型的最佳参数。贝叶斯搜索的主要思想是通过不断地试验来找到最佳的超参数组合,而不是通过穷举搜索来寻找最佳的超参数。定义参数空间包括:首先需要定义目标模型的超参数空间,包括学习率、决策树的最大深度、特征采样比例等超参数;定义目标函数包括:定义一个评价指标作为目标函数,例如准确率等。贝叶斯搜索的目标是最大化或最小化目标函数;初始化贝叶斯优化器包括:选择一个贝叶斯优化器,在超参数空间中寻找最佳的参数组合;迭代搜索包括:在每一轮迭代中,贝叶斯优化器会根据已有的参数组合和目标函数的结果,选择下一个要试验的参数组合,并更新模型的参数;结果分析包括:在搜索结束后,分析得到的最佳参数组合,并用这些参数来训练目标模型。本实施例通过确定目标模型的目标参数,实现了训练获得最佳目标模型性能的目的。
在一个示例性实施例中,利用上述样本特征数据集训练得到上述目标模型,包括:确定上述样本入模特征数据的样本初始权重,其中,上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量的样本初始权重均相同;利用上述样本标识特征数据、上述样本入模特征数据以及上述样本初始权重训练原始模型,得到上述原始模型输出的初始决策树、初始样本授信标识以及初始标识占比;在上述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整上述样本初始权重;根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比,其中,上述样本决策树对应于上述目标样本授信标识和上述目标标识占比。
可选地,本实施例中通过迭代生成多个样本决策树,实现了使决策树分类错误的样本特征变量在迭代过程中得到更多关注的目的。
在一个示例性实施例中,在上述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整上述样本初始权重,包括:在上述初始样本授信标识与上述预设样本授信标识相同的情况下,将上述样本入模特征数据的初始权重调整为第一权重,其中,上述第一权重小于上述样本入模特征数据的初始权重;在上述初始样本授信标识与上述预设样本授信标识不同的情况下,将上述样本入模特征数据的初始权重调整为第二权重,其中,上述第二权重大于上述样本入模特征数据的初始权重。
可选地,在本实施例中,例如,目标差异率为5%,样本入模特征数据的初始权重2%,在初始样本授信标识和预设样本授信标识的差异率为10%的情况下,如果决策树得到的样本入模特征数据A的样本授信标识与预设样本授信标识不同,那么将样本入模特征数据A调整为3%;如果决策树得到的样本入模特征数据B的样本授信标识与预设样本授信标识相同,那么将样本入模特征数据B调整为1%。本实施例通过调整样本入模特征数据的权重,实现了帮助目标模型更好地处理不平衡样本入模特征数据的目的。
在一个示例性实施例中,根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比之后,上述方法还包括:基于上述初始标识占比和上述目标标识占比,加权上述初始样本授信标识和上述目标样本授信标识,得到训练分群标志;根据上述训练分群标志和上述样本授信标识划分得到混淆矩阵,其中,上述混淆矩阵中包括以下至少之一:真正例,假正例,真反例,假反例;基于上述混淆矩阵确定性能度量,并利用上述性能度量检测上述目标模型,其中,上述性能度量包括以下至少之一:曲线面积,相邻类覆盖率,上述曲线面积用于检测上述目标模型的预测能力,上述相邻类覆盖率用于检测上述样本特征数据集。
可选地,在本实施例中,真正例为正确地预测为正例的样本数,将正例预测为正例的样本数;假正例为错误地预测为正例的样本数,将反例预测为正例的样本数;真反例为正确地预测为反例的样本数,将反例预测为反例的样本数;假反例为错误地预测为反例的样本数,将正例预测为反例的样本数。图3是根据本具体实施例的授信额度的确定方法的ROC曲线图,如图3所示,ROC曲线(Receiver Operating Characteristic),受试者工作特征曲线,ROC曲线横坐标为假正例,纵坐标为真正例,ROC曲线下的面积被称为AUC(Area UnderCurve)曲线面积。ROC曲线越靠左上角,意味着真正例大于假正例,目标模型的整体表现也就越好。相邻类覆盖率描述的是被正确分类和被错误分类到正确分类的邻近类的样本占全部样本的比率。本实施例通过性能度量检测目标模型,实现了验证目标模型效果的目的。
下面结合具体实施例对本发明进行说明:
图4是根据本具体实施例的授信额度的确定方法的具体流程图,如图4所示,包括以下步骤:
S402,建模样本采集:例如,本实施例训练目标模型的数据为2021年6月至2022年10月某产品的授信客户51883户。根据客户授信额度按照大小排序后按照业务所需粒度进行额度区间分区,为避免类别不平衡导致目标效果大打折扣。本实施例中兼顾样本平衡和业务分群合理,在两者平衡中取最优。对待预测的客户额度做了如下10个分群,并对各个分群从0-9予以标注,如表1所示;
表1:
S404,模型变量采集:训练目标模型所需的样本特征变量分为企业基本属性和经营数据两大类。一类为企业在申请信贷产品时的基本情况,例如:企业性质、员工情况、行业背景等。另一类为企业申贷前的经营情况,例如,纳税情况、财务情况、结算情况等,如表2所示;
表2:
S406,特征工程:在所采集样本特征变量基础上,通过同比、环比、日期差等方法衍生特征变量,剔除单一指的变量及缺失率在95%以上、单值率>90%、PSI>0.1的变量,最终得到样本入模特征数据;
S408,模型设计与构建:采用LightGBM(Light Gradient Boosting Machine)多分类算法进行训练和预测目标模型,LightGBM是一款基于决策树算法的分布式梯度提升框架。具有更快的训练效率、低内存使用、更高的准确率、支持并行化学习、可处理大规模数据等优势;
S410,模型训练与调优:使用样本标识特征数据、样本入模特征数据以及样本初始权重训练出初始决策树、初始样本授信标识以及初始标识占比,根据初始决策树的表现对样本初始权重进行调整,使初始决策树分类错误的样本在迭代过程中得到更多关注;基于调整后的样本入模特征数据分布训练下一个决策树;进行N次的权重调整,直至在初始样本授信标识和预设样本授信标识的差异率大于目标差异率。
此外,与传统集成树算法相比,LightGBM在工程上进行了深度优化,支持海量数据训练。另外与其他基于决策树的boosting算法以层生长树的方式不同,LightGBM以叶子节点的方式生长树,提高了模型的精确度。
机器学习建模方法针对以上问题提供的解决方案优势具体在于:一是采用机器学习建模方法,更好的模拟非线性的多维经营数据之间的协同关系,更好的还原经营场景;二是模型受数据缺失值影响较小,兼容部分指标数据缺失客户,根据指标数据的完整程度进行差别分类;三是模型迭代快捷,可以通过不断投喂新场景数据的方式,快速拓展新客群。
目标模型采用Python环境开发,使用贝叶斯搜索获取模型最佳参数,目标模型部分主要参数如下:
S412,模型评价与验证:LightGBM分类算法的性能度量是指对LightGBM的泛化性能评估,是衡量目标模型泛化能力的评价标准,泛化性能评价指标可以定量的评价泛化性能优劣。常用的一些指标有准确率(Accuracy)、查准率(Precision)、召回率(Recall)等;
S414,模型训验收与部署:本实施例可将样例根据其真实类别与目标模型预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(truenagative)、假反例(false negative)四种情形,令TP、FP、TN、FN分别表示其对应的样例数,分类结果的“混淆矩阵”如表3所示:
表3:
TP(true positive):正确的预测为正例的样本数,正例预测为正例的样本数;FN(false negative):错误的预测为反例的样本数,正例预测为反例的样本数;FP(falsepositive):错误的预测为正例的样本数,反例预测为正例的样本数;TN(true negative):正确的预测为反例的样本数,反例预测为反例的样本数;准确率(Accuracy)、查准率(Precision)和召回率(Recall)分别定义为:
准确率(Accuracy):表示预测正确的样本占总样本的比例;
查准率(Precision):表示所有预测为正例的样本中实际是正例的样本所占的比例;
召回率(Recall):表示所有实际正例的样本中预测为正例的样本所占的比例;
根据计算方法的不同,可将LightGBM分类算法的度量方式分为macro宏观方式、micro微观方式、weighted加权方式。macro方式是先在各混淆矩阵上分别计算出查准率和召回率,记为(P1,R1),(P2,R2),……,(Pn,Rn),再计算平均值,这样就得到“宏查准率”(Pmacro)、“宏召回率”(Rmacro),以及相应的“宏F1”(F1macro):
micro方式是先将各混淆矩阵的对应元素进行平均,得到TP、FP、TN、FN的平均值,分别记为再基于这些平均值计算出“微查准率”(Pmicro)、“微召回率”(Rmicro),以及相应的“微F1”(F1micro):
ROC(Receiver Operating Characteristic)曲线,又称受试者工作特征曲线,用于评价目标模型的预测能力。ROC曲线横坐标为假正例(false positive),纵坐标为真正例(true positive),如图3所示。ROC曲线越靠左上角,意味着真正例大于假正例,目标模型的整体表现也就越好。
相邻类覆盖率描述的是被正确分类和被错误分类到正确分类的邻近类的样本占全部样本的比率,
S414,模型训验收与部署。
图5是根据本申请实施例一种授信额度的确定装置,如图5所示,该装置包括:
第一输入模块52,用于将目标客户的特征数据输入至预先训练好的目标模型中,得到上述目标模型输出的上述目标客户的目标授信标识,其中,上述目标模型输出上述目标客户的目标授信标识包括:从上述特征数据中提取上述目标客户的多个属性特征,将多个上述属性特征转化为多个特征变量,调整多个上述特征变量的权重值以生成多个决策树,确定每个上述决策树的授信标识,加权处理多个上述授信标识以输出上述目标授信标识,上述特征数据包括上述目标客户的客户属性特征和经营属性特征;
第一确定模块54,用于根据上述目标授信标识确定上述目标客户的授信额度区间;
第二确定模块56,用于从上述授信额度区间中确定上述目标客户对应的目标授信额度。
在一个示例性实施例中,上述装置还包括,第三确定模块,用于将目标客户的特征数据输入至预先训练好的目标模型中,得到上述目标模型输出的上述目标客户的目标授信标识之前,确定样本特征数据集,其中,上述样本特征数据集包括样本标识特征数据和样本入模特征数据,上述样本标识特征数据用于标识样本授信额度区间,上述样本入模特征数据中包括多个样本客户的样本客户属性的样本特征变量和样本经营属性的样本特征变量;第一训练模块,用于利用上述样本特征数据集训练得到上述目标模型。
在一个示例性实施例中,上述第三确定模块,包括:第一获取子模块,用于获取每个上述样本授信额度区间对应的样本数、上述样本数的占比以及样本授信标识;第二获取子模块,用于获取每个上述样本客户的以下信息至少之一,得到每个上述样本客户的样本客户属性和样本经营属性:客户属性,经营性质,员工信息,纳税信息。
在一个示例性实施例中,上述装置还包括:第一转化模块,用于确定样本特征数据集之后,将上述样本客户属性和上述样本经营属性中的非数值类数据转化为数值类特征数据,得到上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量;第一筛选模块,从上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量中筛选出缺失率小于第一参数、单值率小于第二参数且分布稳定指数小于第三参数的样本特征变量。
在一个示例性实施例中,上述装置还包括:第四确定模块,用于利用上述样本特征数据集训练得到上述目标模型之前,利用贝叶斯搜索确定上述目标模型的目标参数,其中,上述目标参数包括以下至少之一:上述目标模型生成决策树的最大深度,上述目标模型的学习率,训练上述目标模型的特征采样比例。
在一个示例性实施例中,上述第一训练模块,包括:第一确定子模块,用于确定上述样本入模特征数据的样本初始权重,其中,上述样本客户属性的样本特征变量和上述样本经营属性的样本特征变量的样本初始权重均相同;第一训练子模块,用于利用上述样本标识特征数据、上述样本入模特征数据以及上述样本初始权重训练原始模型,得到上述原始模型输出的初始决策树、初始样本授信标识以及初始标识占比;第一调整子模块,用于在上述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整上述样本初始权重;第一生成子模块,用于根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比,其中,上述样本决策树对应于上述目标样本授信标识和上述目标标识占比。
在一个示例性实施例中,上述第一调整子模块,包括:第一调整单元,用于在上述初始样本授信标识与上述预设样本授信标识相同的情况下,将上述样本入模特征数据的初始权重调整为第一权重,其中,上述第一权重小于上述样本入模特征数据的初始权重;第二调整单元,用于在上述初始样本授信标识与上述预设样本授信标识不同的情况下,将上述样本入模特征数据的初始权重调整为第二权重,其中,上述第二权重大于上述样本入模特征数据的初始权重。
在一个示例性实施例中,上述第一训练模块还包括:第一加权子模块,用于根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比之后,基于上述初始标识占比和上述目标标识占比,加权上述初始样本授信标识和上述目标样本授信标识,得到训练分群标志;第一划分子模块,用于根据上述训练分群标志和上述样本授信标识划分得到混淆矩阵,其中,上述混淆矩阵中包括以下至少之一:真正例,假正例,真反例,假反例;第一检测子模块,用于基于上述混淆矩阵确定性能度量,并利用上述性能度量检测上述目标模型,其中,上述性能度量包括以下至少之一:曲线面积,相邻类覆盖率,上述曲线面积用于检测上述目标模型的预测能力,上述相邻类覆盖率用于检测上述样本特征数据集。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。
Claims (11)
1.一种授信额度的确定方法,其特征在于,包括:
将目标客户的特征数据输入至预先训练好的目标模型中,得到所述目标模型输出的所述目标客户的目标授信标识,其中,所述目标模型输出所述目标客户的目标授信标识包括:从所述特征数据中提取所述目标客户的多个属性特征,将多个所述属性特征转化为多个特征变量,调整多个所述特征变量的权重值以生成多个决策树,确定每个所述决策树的授信标识,加权处理多个所述授信标识以输出所述目标授信标识,所述特征数据包括所述目标客户的客户属性特征和经营属性特征;
根据所述目标授信标识确定所述目标客户的授信额度区间;
从所述授信额度区间中确定所述目标客户对应的目标授信额度。
2.根据权利要求1所述的方法,其特征在于,将目标客户的特征数据输入至预先训练好的目标模型中,得到所述目标模型输出的所述目标客户的目标授信标识之前,所述方法还包括:
确定样本特征数据集,其中,所述样本特征数据集包括样本标识特征数据和样本入模特征数据,所述样本标识特征数据用于标识样本授信额度区间,所述样本入模特征数据中包括多个样本客户的样本客户属性的样本特征变量和样本经营属性的样本特征变量;
利用所述样本特征数据集训练得到所述目标模型。
3.根据权利要求2所述的方法,其特征在于,确定样本特征数据集,包括:
获取每个所述样本授信额度区间对应的样本数、所述样本数的占比以及样本授信标识;
获取每个所述样本客户的以下信息至少之一,得到每个所述样本客户的样本客户属性和样本经营属性:
客户属性,经营性质,员工信息,纳税信息。
4.根据权利要求2或3所述的方法,其特征在于,确定样本特征数据集之后,所述方法还包括:
将所述样本客户属性和所述样本经营属性中的非数值类数据转化为数值类特征数据,得到所述样本客户属性的样本特征变量和所述样本经营属性的样本特征变量;
从所述样本客户属性的样本特征变量和所述样本经营属性的样本特征变量中筛选出缺失率小于第一参数、单值率小于第二参数且分布稳定指数小于第三参数的样本特征变量。
5.根据权利要求2所述的方法,其特征在于,利用所述样本特征数据集训练得到所述目标模型之前,所述方法还包括:
利用贝叶斯搜索确定所述目标模型的目标参数,其中,所述目标参数包括以下至少之一:所述目标模型生成决策树的最大深度,所述目标模型的学习率,训练所述目标模型的特征采样比例。
6.根据权利要求2所述的方法,其特征在于,利用所述样本特征数据集训练得到所述目标模型,包括:
确定所述样本入模特征数据的样本初始权重,其中,所述样本客户属性的样本特征变量和所述样本经营属性的样本特征变量的样本初始权重均相同;
利用所述样本标识特征数据、所述样本入模特征数据以及所述样本初始权重训练原始模型,得到所述原始模型输出的初始决策树、初始样本授信标识以及初始标识占比;
在所述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整所述样本初始权重;
根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比,其中,所述样本决策树对应于所述目标样本授信标识和所述目标标识占比。
7.根据权利要求6所述的方法,其特征在于,在所述初始样本授信标识和预设样本授信标识的差异率大于目标差异率的情况下,调整所述样本初始权重,包括:
在所述初始样本授信标识与所述预设样本授信标识相同的情况下,将所述样本入模特征数据的初始权重调整为第一权重,其中,所述第一权重小于所述样本入模特征数据的初始权重;
在所述初始样本授信标识与所述预设样本授信标识不同的情况下,将所述样本入模特征数据的初始权重调整为第二权重,其中,所述第二权重大于所述样本入模特征数据的初始权重。
8.根据权利要求6所述的方法,其特征在于,根据调整后的样本初始权重的样本特征变量,迭代生成样本决策树,并输出目标样本授信标识和目标标识占比之后,所述方法还包括:
基于所述初始标识占比和所述目标标识占比,加权所述初始样本授信标识和所述目标样本授信标识,得到训练分群标志;
根据所述训练分群标志和所述样本授信标识划分得到混淆矩阵,其中,所述混淆矩阵中包括以下至少之一:真正例,假正例,真反例,假反例;
基于所述混淆矩阵确定性能度量,并利用所述性能度量检测所述目标模型,其中,所述性能度量包括以下至少之一:曲线面积,相邻类覆盖率,所述曲线面积用于检测所述目标模型的预测能力,所述相邻类覆盖率用于检测所述样本特征数据集。
9.一种授信额度的确定装置,其特征在于,包括:
第一输入模块,用于将目标客户的特征数据输入至预先训练好的目标模型中,得到所述目标模型输出的所述目标客户的目标授信标识,其中,所述目标模型输出所述目标客户的目标授信标识包括:从所述特征数据中提取所述目标客户的多个属性特征,将多个所述属性特征转化为多个特征变量,调整多个所述特征变量的权重值以生成多个决策树,确定每个所述决策树的授信标识,加权处理多个所述授信标识以输出所述目标授信标识,所述特征数据包括所述目标客户的客户属性特征和经营属性特征;
第一确定模块,用于根据所述目标授信标识确定所述目标客户的授信额度区间;
第二确定模块,用于从所述授信额度区间中确定所述目标客户对应的目标授信额度。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至8任一项中所述的方法的步骤。
11.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至8任一项中所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311793150.8A CN117764713A (zh) | 2023-12-22 | 2023-12-22 | 授信额度的确定方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311793150.8A CN117764713A (zh) | 2023-12-22 | 2023-12-22 | 授信额度的确定方法及装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117764713A true CN117764713A (zh) | 2024-03-26 |
Family
ID=90312086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311793150.8A Pending CN117764713A (zh) | 2023-12-22 | 2023-12-22 | 授信额度的确定方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117764713A (zh) |
-
2023
- 2023-12-22 CN CN202311793150.8A patent/CN117764713A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
CN110659207B (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
CN110866819A (zh) | 一种基于元学习的自动化信贷评分卡生成方法 | |
CN108364106A (zh) | 一种报销单风险预测方法、装置、终端设备及存储介质 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
CN107016068A (zh) | 知识图谱构建方法及装置 | |
CN115641162A (zh) | 一种基于建筑工程造价的预测数据分析系统和方法 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
CN116861331A (zh) | 一种融合专家模型决策的数据识别方法及系统 | |
CN112396428B (zh) | 一种基于用户画像数据的客群分类管理方法及装置 | |
CN111105041A (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN115794803B (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN113177643A (zh) | 一种基于大数据的自动建模系统 | |
CN116628584A (zh) | 电力敏感数据处理方法、装置、电子设备及存储介质 | |
CN115063224A (zh) | 基于用户画像的业务审核方法、装置、设备及存储介质 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN113177642A (zh) | 一种针对数据不平衡的自动建模系统 | |
CN112258235A (zh) | 一种电力营销稽核新业务发现方法及系统 | |
CN117763316A (zh) | 一种基于机器学习的高维数据降维方法及降维系统 | |
CN113705920B (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
CN117764713A (zh) | 授信额度的确定方法及装置、存储介质、电子设备 | |
Mishra et al. | Improving the efficacy of clustering by using far enhanced clustering algorithm | |
CN111026661B (zh) | 一种软件易用性全面测试方法及系统 | |
Wålinder | Evaluation of logistic regression and random forest classification based on prediction accuracy and metadata analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |