CN116993484A

CN116993484A - 一种信用模型生成方法、装置、电子设备及存储介质

Info

Publication number: CN116993484A
Application number: CN202310951443.8A
Authority: CN
Inventors: 王舒倩
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-03

Abstract

本申请公开了一种信用模型生成方法、装置、电子设备及存储介质，可用于人工智能领域、大数据领域或金融领域。该方法包括：获取初始数据集，初始数据集包括多个信用样本；对初始数据集进行数据清洗，获得中间数据集；基于Filter过滤法对中间数据集进行特征选择，获得目标数据集；将目标数据集输入多层感知器训练，生成信用模型，信用模型用于预测信用风险结果，信用风险结果包括守约或违约。如此，对初始数据集进行数据清洗、特征选择，获得能够合理评价客户信用风险的目标数据集，再将目标数据集输入多层感知器进行模型训练从而获得信用模型，将客户行为数据输入该信用模型，能获得该客户对应的信用风险结果，实现了对信用风险的客观预测。

Description

一种信用模型生成方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种信用模型生成方法、装置、电子设备及存储介质。

背景技术

随着互联网金融的快速发展，银行信贷业务量也大幅上升。在客户申请信贷业务后，银行会根据客户的信息整体评估决定放款额度。在此过程中，银行经营的主要风险为客户的信用风险，信用风险是指因为债务人未能按合同执行义务给债权人带来损失的可能性。

目前，大部分银行主要依靠信贷审批人员个人经验来决定是否通过审批下放贷款，一方面，客户信用风险涉及多方面复杂因素，不是简单的根据直观数据就能评判出客户的信用风险，根据审批人员的个人经验进行预测并不合理，另一方面，在风险预测过程中难免会掺杂审批人员的个人因素，使得预测结果可靠性低，即，无法客观评价客户的信用风险。

发明内容

本申请提供了一种信用模型生成方法、装置、电子设备及存储介质，能够合理、客观地预测客户的信用风险。

第一方面，本申请提供了一种信用模型生成方法，所述方法包括：

获取初始数据集，所述初始数据集包括多个信用样本，所述信用样本与信用标签对应，所述信用标签用于表征所述信用样本守约或违约；

对所述初始数据集进行数据清洗，获得中间数据集；

基于Filter过滤法对所述中间数据集进行特征选择，获得目标数据集；

将所述目标数据集输入多层感知器训练，生成信用模型，所述信用模型用于预测信用风险结果，所述信用风险结果包括守约或违约。

可选地，所述将所述目标数据集输入多层感知器训练，生成信用模型，包括：

基于随机取样法划分所述目标数据集，获得训练集和测试集，所述训练集和所述测试集的信用样本的数量比值符合第一阈值，所述训练集用于生成所述信用模型，所述测试集用于对所述信用模型进行泛化评价；

将所述训练集输入所述多层感知器训练，生成所述信用模型。

可选地，所述数据清洗包括脱敏类特征处理、文本型数据处理和缺失值处理中至少一种处理。

可选地，所述对所述初始数据集进行数据清洗，获得中间数据集，包括：

对所述初始数据集进行归一化处理，获得第一数据集；

对所述第一数据集进行数据清洗，获得所述中间数据集。

可选地，所述中间数据集对应第一特征集合，所述基于Filter过滤法对所述中间数据集进行特征选择，获得目标数据集，包括：

对所述第一特征集合进行特征选择，获得第二特征集合，所述第二特征集合中特征的方差不小于第二阈值；

对所述第二特征集合进行皮尔森相关性分析，筛选获得第三特征集合，所述第三特征集合中特征的相关系数不大于第三阈值；

基于所述第三特征集合中特征筛选所述中间数据集，获得所述目标数据集。

可选地，所述基于所述第三特征集合中特征筛选所述中间数据集，获得所述目标数据集，包括：

对所述第三特征集合进行特征组合，获得第四特征集合；

基于所述第四特征集合中特征筛选所述中间数据集，获得所述目标数据集。

可选地，多个所述信用样本包括正样本和负样本，所述正样本用于表征信用标签为违约的信用样本，所述负样本用于表征信用标签为守约的信用样本，所述正样本和所述负样本的数量比值符合第四阈值。

第二方面，本申请还提供了一种信用模型生成装置，所述装置包括：

获取单元，用于获取初始数据集，所述初始数据集包括多个信用样本，所述信用样本与信用标签对应，所述信用标签用于表征所述信用样本守约或违约；

清洗单元，用于对所述初始数据集进行数据清洗，获得中间数据集；

选择单元，用于基于Filter过滤法对所述中间数据集进行特征选择，获得目标数据集；

训练单元，用于将所述目标数据集输入多层感知器训练，生成信用模型，所述信用模型用于预测信用风险结果，所述信用风险结果包括守约或违约。

可选地，所述训练单元，具体用于：

可选地，所述清洗单元，具体用于：

对所述初始数据集进行归一化处理，获得第一数据集；

对所述第一数据集进行数据清洗，获得所述中间数据集。

可选地，所述中间数据集对应第一特征集合，所述选择单元，具体用于：

对所述第三特征集合进行特征组合，获得第四特征集合；

第三方面，本申请还提供了一种电子设备，所述电子设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行上述第一方面提供的所述信用模型生成方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面提供的所述信用模型生成方法。

由此可见，本申请具有如下有益效果：

本申请提供了一种信用模型生成方法、装置、电子设备及存储介质，该方法包括：获取初始数据集，初始数据集包括多个信用样本，信用样本与信用标签对应，信用标签用于表征信用样本守约或违约；对初始数据集进行数据清洗，获得中间数据集；基于Filter过滤法对中间数据集进行特征选择，获得目标数据集；将目标数据集输入多层感知器训练，生成信用模型，信用模型用于预测信用风险结果，信用风险结果包括守约或违约。如此，对包括多个客户信用样本的初始数据集进行数据清洗、特征选择，获得能够合理评价客户信用风险的目标数据集，再将目标数据集输入多层感知器进行模型训练从而获得信用模型，这样，仅需将客户行为数据输入该信用模型，就能够获得该客户对应的信用风险结果，实现了对信用风险的客观预测。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种信用模型生成方法的流程示意图；

图2为本申请实施例中一种信用模型生成方法的一实施例的流程示意图；

图3为本申请实施例提供的一种信用模型生成装置300的结构示意图；

图4为本申请实施例提供的一种电子设备400的结构示意图。

具体实施方式

本申请实施例涉及的多个，是指大于或等于两个。需要说明的是，在本申请实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

需要说明的是，本申请的一种信用模型生成方法、装置、电子设备及存储介质可用于人工智能领域、大数据领域或金融领域。也可用于除可用于人工智能领域、大数据领域、金融领域之外的任意领域，上述仅为示例，并不对本申请的一种信用模型生成方法、装置、电子设备及存储介质的应用领域进行限定。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，并非对本申请的限定。另外，还需要说明的是，为便于描述，附图中仅示出了与本申请相关的部分，并非全部结构。

目前，大部分银行在接收到客户的贷款申请后，获取该客户的行为信息(例如个人征信信息)，然后依靠信贷审批人员个人经验来决定是否通过审批下放贷款，一方面，客户信用风险涉及多方面复杂因素，不是简单的根据该客户的直观数据(例如学历、年收入、资产等)就能评判出信用风险，仅根据审批人员的个人经验进行预测具备不合理性，另一方面，在风险预测过程中难免会掺杂审批人员的个人因素，使得预测结果可靠性低，即，现有技术无法客观评价某一客户的信用风险，从而会给银行带来直接或间接的经济损耗。

基于此，本申请实施例提供了一种信用模型生成方法、装置、电子设备及存储介质，该方法包括：获取初始数据集，初始数据集包括多个信用样本，信用样本与信用标签对应，信用标签用于表征信用样本守约或违约；对初始数据集进行数据清洗，获得中间数据集；基于Filter过滤法对中间数据集进行特征选择，获得目标数据集；将目标数据集输入多层感知器，即(Multilayer Perceptron，MLP)，训练，生成信用模型，信用模型用于预测信用风险结果，信用风险结果包括守约或违约。

如此，对包括多个客户信用样本的初始数据集进行数据清洗、特征选择，获得能够合理评价客户信用风险的目标数据集，再将目标数据集输入多层感知器进行模型训练从而获得信用模型，这样，仅需将客户行为数据输入该信用模型，就能够获得该客户对应的信用风险结果，实现了对该客户的信用风险的客观预测，基于该客户的行为信息判断是否会违约，从而对银行的是否下放贷款进行指导，一定程度上使银行利润达到最大化，减少银行损失。

为便于理解本申请实施例提供的信用模型生成方法的具体实现，下面将结合附图进行说明。

需要说明的是，实现该信用模型生成方法的主体可以为本申请实施例提供的信用模型生成装置，也可以承载于电子设备或电子设备的功能模块中。本申请实施例中的电子设备，可以是任意的能够实施本申请实施例中的信用模型生成方法的设备，例如可以是物联网(Internet ofThings，IoT)设备。

请参见图1，图1为本申请实施例提供的一种信用模型生成方法的流程示意图，该方法可应用于信用模型生成装置，该信用模型生成装置例如可以是图3所示的信用模型生成装置300，或者，该信用模型生成装置也可以是集成于图4所示的电子设备400的功能模块。

参见图1，本申请实施例中，例如可以包括如下步骤：

S101，获取初始数据集，初始数据集包括多个信用样本，信用样本与信用标签对应，信用标签用于表征信用样本守约或违约。

需要说明的是，一个信用样本表征一个客户的行为信息，每个应用样本对应一个信用标签，即，表征该客户是否违约，从是否违约的角度来看，多个信用样本可以划分为正样本和负样本，正样本用于表征信用标签为违约的信用样本，负样本用于表征信用标签为守约的信用样本。

信用样本包括人口属性、特征人群、基于位置服务(Location Based Services，LBS)属性、客户行为、业务标签、学历信息、贷款记录；其中，人口属性表征客户固有属性(例如性别、年龄)，特征人群是具有特定意义的人群划分，例如旅游达人，白领；LBS属性是指与客户位置相关的各种属性，例如常驻城市、所在商圈；客户行为例如为客户浏览，交易、登录等行为；业务标签是指与业务应用直接耦合的标签，直接刻画客户在细分业务上的特性；学历信息例如高中、本科、硕士等；若客户有贷款记录，则应显示对应贷款业务和贷款额度、还款时间和对应的还款额度。

在一些实现方式中，为了使得生成的信用模型更加精准，正样本和负样本的数量比值符合第四阈值，例如，正样本的数量：负样本的数量＝1：1；正样本和负样本的数量不小于第五阈值，例如，选取的正样本和负样本的数量都不少于15000个。

S102，对初始数据集进行数据清洗，获得中间数据集。

在一些实现方式中，本申请实施例提供的对初始数据集进行数据清洗，获得中间数据集，可以包括：对初始数据集进行归一化处理，获得第一数据集；对第一数据集进行数据清洗，获得中间数据集。

需要说明的是，数据清洗属于预处理的一种，除此之外，为了使得初始数据集中的特征具有相同的度量尺度，使得后续更加容易训练生成信用模型，还需要对初始数据集进行归一化处理；数据清洗包括脱敏类特征处理、文本型数据处理和缺失值处理中至少一种处理。在一些实现方式中，还可以进行其它预处理的常规操作，均不影响本申请实施例的实现。

其中，脱敏类特征处理是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在保证原有数据特征、业务规则和数据关联性的前提下，对真实数据(例如身份证号、手机号、银行卡号、客户号等个人信息)进行数据脱敏例如可以包括，用设置的固定虚构值替换真值；通过对数据值的截断、加密或隐藏使敏感数据脱敏或采用随机数据替代真值等。文本型数据处理可以包括对文本格式或类型的转换。缺失值处理一定程度复原真实数据，使生成的信用模型效果得到提升，缺失值处理例如可以包括删除含有缺失值的个案、可能值插补缺失值等。

此外，对于进行数据清洗后的中间数据集，按照各个样本的缺失值个数从小到大进行排序，去掉个别分布不一致的样本。

S103，基于Filter过滤法对中间数据集进行特征选择，获得目标数据集。

在一些实现方式中，中间数据集对应第一特征集合，为了增强后续生成的信用模型的泛化能力，需要从原有的第一特征集合中筛选出拟合效果较佳的特征，那么本申请实施例提供的基于Filter过滤法对中间数据集进行特征选择，获得目标数据集，可以包括：对第一特征集合进行特征选择，获得第二特征集合，第二特征集合中特征的方差不小于第二阈值；对第二特征集合进行皮尔森相关性分析，筛选获得第三特征集合，第三特征集合中特征的相关系数不大于第三阈值；基于第三特征集合中特征筛选中间数据集，获得目标数据集。

具体地，Filter过滤法分为方差选择和相关系数分析两部分，作为一个示例，首先计算第一特征集合中各特征的方差，对于方差小于二阈值的特征，剔除，从而获得第二特征集合；然后对第二特征集合中的特征进行相关系数分析，获得特征间的相关系数r，需要说明的是，|r|<0.2表示极低相关，0.2<|r|<0.4低度相关，0.4<|r|<0.7中度相关，0.7<|r|<0.9高度相关，0.9<|r|<1极高相关，为了降低特征的维度，剔除0.9<|r|<1的特征，获得第三特征集合；那么基于第三特征集合中的特征，筛选获得目标数据集。

此外，还可以对获取的特征进行特征衍生(特征组合)，特征衍生，指的是通过既有数据集合进行新特征的创建。例如把年收入和学历信息两列相加，创建新的一列；通常，特征衍生是深入的数据背景和业务背景分析后进行字段合成，这种方法创建的字段往往具有较强的业务背景与可解释性，同时也会更加精准、有效的提升待生成信用模型的预测效果。那么，本申请实施例提供的基于第三特征集合中特征筛选中间数据集，获得目标数据集，可以包括：对第三特征集合进行特征组合，获得第四特征集合；基于第四特征集合中特征筛选中间数据集，获得目标数据集。

S104，将目标数据集输入多层感知器训练，生成信用模型，信用模型用于预测信用风险结果，信用风险结果包括守约或违约。

在一些实现方式中，本申请实施例提供的将目标数据集输入多层感知器训练，生成信用模型，可以包括：基于随机取样法划分目标数据集，获得训练集和测试集，训练集和测试集的信用样本的数量比值符合第一阈值，例如训练集：测试集＝9：1，训练集用于生成信用模型，测试集用于对信用模型进行泛化评价；将训练集输入多层感知器训练，生成信用模型。

在另一些实现方式中，可以基于测试集对生成的信用模型进行评价，并获取对信用模型特征重要性排序后的结果，那么本申请实施例提供的方法还可以包括：将测试集中的信用样本输入受试者工作特征曲线(Receiver Operating Characteristic，ROC)，得到信用模型的评价指标例如曲线下面积(Area Under the Curve，AUC)，根据评价指标(例如AUC值)确定该信用模型的准确度。AUC的值越大表示获取的信用模型准确度越高，其中，AUC值的范围为[0，1]，数值越接近1越达理想状态，表明该信用模型的精准性越高，评价标准如下，AUC值低于0.7为较差、[0.7，0.8]为可接受、[0.8，0.9]为良好、[0.9，1.0]为优秀。

在其他实现方式中，对目标数据集的划分可以是训练集：测试集：验证集＝8:1:1，多层感知器会,基于接收的验证集不断进行参数调优，具体地，调参过程中要观察训练集的损失函数、验证集的损失函数和准确率。作为一个示例，当训练集的损失函数降到第一区间且不再降低时，则可能是因为学习率过大导致的震荡，可以降低学习率。作为另一个示例，当训练集的损失函数较小(例如在第二区间)，但是验证集损失函数较大(例如在第三区间)，则可能该信用模型可能是过拟合，应该停止迭代。

在获得风险预测效果较好的信用模型后，可以接收第一客户的行为数据，对该第一客户的行为数据进行预处理，输入信用模型，预测该第一客户是否违约，以指导银行判断是否通过该第一客户的贷款审批。

如此，通过本申请实施例提供的方法，能够获得该客户对应的信用风险结果，实现了对该客户的信用风险的客观预测，基于该客户的行为信息判断是否会违约，从而对银行的是否下放贷款进行指导，一定程度上减少银行损失。

为了使得本申请实施例提供的方法更加清楚且易于理解，下面结合具体的信用模型生成场景，对该方法以具体实现方式进行说明，如图2所示，本申请实施例例如可以包括：

S201，获取初始数据集，初始数据集包括多个信用样本，信用样本与信用标签对应，信用标签用于表征信用样本守约或违约。

S202，对初始数据集进行归一化处理，获得第一数据集。

S203，对第一数据集进行脱敏类特征处理、文本型数据处理和缺失值处理，获得中间数据集。

S204，对中间数据集对应的第一特征集合进行特征选择，获得第二特征集合，第二特征集合中特征的方差不为0。

S205，对第二特征集合进行皮尔森相关性分析，筛选获得第三特征集合，第三特征集合中特征的相关系数不大于0.9。

S206，基于第三特征集合中特征筛选中间数据集，获得目标数据集。

S207，基于随机取样法划分目标数据集，获得训练集和测试集。

需要说明的是，训练集和测试集的信用样本的数量比值为1:1，训练集用于生成信用模型，测试集用于对信用模型进行泛化评价。

S208，将训练集输入多层感知器训练，生成信用模型。

S209，获取第一客户的行为信息。

S210，将行为信息输入信用模型，获得该第一用户的风险预测结果。

参见图3，本申请实施例还提供了一种信用模型生成装置300，所述装置300包括：

获取单元301，用于获取初始数据集，所述初始数据集包括多个信用样本，所述信用样本与信用标签对应，所述信用标签用于表征所述信用样本守约或违约；

清洗单元302，用于对所述初始数据集进行数据清洗，获得中间数据集；

选择单元303，用于基于Filter过滤法对所述中间数据集进行特征选择，获得目标数据集；

训练单元304，用于将所述目标数据集输入多层感知器训练，生成信用模型，所述信用模型用于预测信用风险结果，所述信用风险结果包括守约或违约。

可选地，所述训练单元304，具体用于：

可选地，所述清洗单元302，具体用于：

对所述初始数据集进行归一化处理，获得第一数据集；

对所述第一数据集进行数据清洗，获得所述中间数据集。

可选地，所述中间数据集对应第一特征集合，所述选择单元303，具体用于：

对所述第三特征集合进行特征组合，获得第四特征集合；

需要说明的是，该装置300的具体实现方式以及达到的技术效果，均可参见图1或图2所示的方法中的相关描述。

此外，本申请实施例还提供了一种电子设备400，如图4所示，所述电子设备400包括处理器401以及存储器402：

所述存储器402用于存储计算机程序；

所述处理器401用于根据所述计算机程序执行以上图1或图2提供的方法。

此外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行以上图1或图2提供的方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目标。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的优选实施方式，并非用于限定本申请的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种信用模型生成方法，其特征在于，所述方法包括：

对所述初始数据集进行数据清洗，获得中间数据集；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标数据集输入多层感知器训练，生成信用模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述数据清洗包括脱敏类特征处理、文本型数据处理和缺失值处理中至少一种处理。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述初始数据集进行数据清洗，获得中间数据集，包括：

对所述初始数据集进行归一化处理，获得第一数据集；

对所述第一数据集进行数据清洗，获得所述中间数据集。

5.根据权利要求4所述的方法，其特征在于，所述中间数据集对应第一特征集合，所述基于Filter过滤法对所述中间数据集进行特征选择，获得目标数据集，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第三特征集合中特征筛选所述中间数据集，获得所述目标数据集，包括：

对所述第三特征集合进行特征组合，获得第四特征集合；

7.根据权利要求1所述的方法，其特征在于，多个所述信用样本包括正样本和负样本，所述正样本用于表征信用标签为违约的信用样本，所述负样本用于表征信用标签为守约的信用样本，所述正样本和所述负样本的数量比值符合第四阈值。

8.一种信用模型生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7任一项所述的方法。