CN111199469A

CN111199469A - 用户还款模型生成方法、装置及电子设备

Info

Publication number: CN111199469A
Application number: CN201911271328.6A
Authority: CN
Inventors: 郑彦; 石婷; 唐小云; 方炆
Original assignee: Beijing Qiyu Information Technology Co Ltd
Current assignee: Beijing Qiyu Information Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-26

Abstract

本公开涉及一种用户还款模型生成方法、装置、电子设备及计算机可读介质。该方法包括：对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，用户金融数据包括：用户借款数据、用户特征数据、用户基础数据；通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及在所述验证结果满足预设策略时，生成用户还款模型。本公开的一种用户还款模型生成方法、装置、电子设备及计算机可读介质，能够建立准确高效的用户还款模型，还可以基于用户还款模型对用户的行为进行评估，减少金融服务企业的人力资源浪费。

Description

用户还款模型生成方法、装置及电子设备

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种用户还款模型生成方法、装置、电子设备及计算机可读介质。

背景技术

对于提供金融类服务的公司，其面临的最大的风险为用户因各种原因未能及时、足额偿还债务或银行贷款而违约。在现有技术中，在用户由金融类服务公司进行借款后，金融公司会对用户的还款情况进行跟踪，在用户超期还款第一时间阈值之内(用户处于M2阶段)，通过评估用户的还款情况，启动各种策略，督促用户进行还款。

目前欠款的用户在M2期间还款率约为12％-14％，大部分用户会将欠款逾期到更高账龄。目前对于处于M2时间的用户会进行人工贷后管理，比如人工电话的方式对欠款进行催收，贷后管理工作一直会持续至用户欠款时间达到第二时间阈值(用户处于M3阶段)时，如果该用户仍旧没有还款，再将此用户进行委外处理，通过第三方公司进行还款的贷后管理工作。

由于用户欠款主要是需要通过人工进行贷后管理，对于管理人员而言，需要花费大量的时间进行沟通协调工作，一旦沟通协调减少就会影响欠款的回收，而进行大量的沟通协调工作的话目前的用户欠款贷后管理方式就需要占用大量的人力资源进行处理，给金融服务类公司增加了大量的运营成本。如何在不影响欠款回收的前提下，尽量节约人力和其他资源成本是目前亟待解决的问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种用户还款模型生成方法、装置、电子设备及计算机可读介质，能够建立准确高效的用户还款模型，还可以基于用户还款模型对用户的行为进行评估，减少金融服务企业的人力资源浪费。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种用户还款模型生成方法，该方法包括：对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，用户金融数据包括：用户借款数据、用户特征数据、用户基础数据；通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及在所述验证结果满足预设策略时，生成用户还款模型。

可选地，对多个用户金融数据进行预处理，包括：获取多个用户的用户数据；以及将所述用户数据进行筛选处理和特征处理生成所述用户金融数据。

可选地，通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型，包括：通过所述训练数据集对极端梯度提升模型进行训练，生成训练参数；以及在所述训练参数满足预设条件时生成初始用户还款模型。

可选地，通过所述训练数据集对极端梯度提升模型进行训练，生成训练参数，包括：将所述训练数据集输入所述极端梯度提升模型中，生成初始训练参数；基于网络搜索调参方式对所述初始训练参数进行参数调节；以及基于所述参数调节的最优解生成所述训练参数。

可选地，基于所述参数调节的最优解生成所述训练参数，包括：基于所述参数调节的最优解重新对所述极端梯度提升模型进行拟合，生成所述训练参数。

可选地，通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果，包括：通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果。

可选地，通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果，包括：通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行多次K折交叉验证，生成接受者操作特性曲线；以及在所述接受者操作特性曲线的参数稳态时，生成所述验证结果。

可选地，在所述验证结果满足预设策略时，生成用户还款模型，包括：计算所述验证结果中接受者操作特性曲线与坐标轴围城的面积；以及在所述面积满足阈值时，生成所述用户还款模型。

可选地，还包括：将处于预定状态的用户金融数据输入所述用户还款模型；以及所述用户还款对预定状态的用户金融数据进行计算生成用户还款概率，所述用户还款概率用于表征用户在特定时间还款的概率。

可选地，还包括：将所述用户还款概率与阈值范围进行比较，以将所述用户还款概率对应的用户进行分组；以及基于分组结果确定贷后管理策略。

根据本公开的一方面，提出一种用户还款模型生成装置，该装置包括：数据处理模块，用于对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，用户金融数据包括：用户借款数据、用户特征数据、用户基础数据；数据训练模块，用于通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；模型验证模块，用于通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及模型建立模块，用于在所述验证结果满足预设策略时，生成用户还款模型。

可选地，所述数据处理模块，包括：数据单元，用于获取多个用户的用户数据；以及处理单元，用于将所述用户数据进行筛选处理和特征处理生成所述用户金融数据。

可选地，是数据训练模块，包括：训练单元，用于通过所述训练数据集对极端梯度提升模型进行训练，生成训练参数；以及初始单元，用于在所述训练参数满足预设条件时生成初始用户还款模型。

可选地，所述训练单元，包括：输入子单元，用于将所述训练数据集输入所述极端梯度提升模型中，生成初始训练参数；搜索子单元，用于基于网络搜索调参方式对所述初始训练参数进行参数调节；以及调节子单元，用于基于所述参数调节的最优解生成所述训练参数。

可选地，所述调节子单元，还用于基于所述参数调节的最优解重新对所述极端梯度提升模型进行拟合，生成所述训练参数。

可选地，所述模型验证模块，还用于通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果。

可选地，所述模型验证模块，包括：验证单元，用于通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行多次K折交叉验证，生成接受者操作特性曲线；以及稳态单元，用于在所述接受者操作特性曲线的参数稳态时，生成所述验证结果。

可选地，所述模型建立模块，包括：计算单元，用于计算所述验证结果中接受者操作特性曲线与坐标轴围城的面积；以及阈值单元，用于在所述面积满足阈值时，生成所述用户还款模型。

可选地，还包括：输入模块，用于将处于预定状态的用户金融数据输入所述用户还款模型；以及概率模块，用于所述用户还款对预定状态的用户金融数据进行计算生成用户还款概率，所述用户还款概率用于表征用户在特定时间还款的概率。

可选地，还包括：比较模块，用于将所述用户还款概率与阈值范围进行比较，以将所述用户还款概率对应的用户进行分组；以及策略模块，用于基于分组结果确定贷后管理策略。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的用户还款模型生成方法、装置、电子设备及计算机可读介质，对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集；通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及在所述验证结果满足预设策略时，生成用户还款模型的方式，能够建立准确高效的用户还款模型，还可以基于用户还款模型对用户的行为进行评估，减少金融服务企业的人力资源浪费。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种用户还款模型生成方法的流程图。

图2是根据另一示例性实施例示出的一种用户还款模型生成方法的流程图。

图3是根据另一示例性实施例示出的一种用户还款模型生成方法的流程图。

图4是根据一示例性实施例示出的一种用户还款模型生成装置的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

图6是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

图1是根据一示例性实施例示出的一种用户还款模型生成方法的流程图。用户还款模型生成方法10至少包括步骤S102至S108。

如图1所示，在S102中，对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，其中，用户金融数据可包括：用户借款数据、用户特征数据、用户基础数据。

在一个实施例中，对多个用户金融数据进行预处理，包括：获取多个用户的用户数据；以及将所述用户数据进行筛选处理和特征处理生成所述用户金融数据。用户数据可例如包括用户的基础信息，用户的职业信息、年龄、工作状态，还可包括用户的常用联络人信息等。

在一个实施例中，可通过关键字对用户数据进行筛选，更具体的可将用户欠款相关的数据作为关键字，基于关键字由用户数据中提取和欠款相关的特征。

在一个实施例中，还可将用户特征进行特征处理以生成用户金融数据。特征处理可例如包括，将用户的特征进行归一化处理，归一化是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系。简化计算，缩小量值的有效办法，通过归一化处理能够使得用户的金融数据计算更加高效。

在S104中，通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型。

在一个实施例中，通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型，包括：通过所述训练数据集对极端梯度提升(XGBoost)模型进行训练，生成训练参数；以及在所述训练参数满足预设条件时生成初始用户还款模型。

其中，XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它可在Gradient Boosting框架下实现机器学习算法。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。而XGBoost是一种提升树模型，所以它可将许多树模型集成在一起，形成一个更加强大的分类器。

XGBoost算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当训练完成得到k棵树，要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

“通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型”的详细内容将在图2对应的实施例中进行描述。

在S106中，通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果。可例如，通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果。

其中，交叉验证(Cross Validation)，有的时候也称作循环估计(RotationEstimation)，是一种统计学上将数据样本切割成较小子集的实用方法。交叉验证主要用于建模应用中，例如PCR、PLS回归建模中。在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。

K折交叉验证，主要做法是：将初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，其中，10折交叉验证是最常用的。

在一个实施例中，通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果，包括：通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行多次K折交叉验证，生成接受者操作特性曲线；以及在所述接受者操作特性曲线的参数稳态时，生成所述验证结果。

具体可例如，利用GridSearchCV逐步确定模型主要参数的最优参数，并最终用最优参数组合重新拟合模型，并对测试集和验证集分别作出预测，对比预测结果，直到相对稳定。

其中，GridSearchCV是一种带交叉验证的网络搜索调参方式。

在S108中，在所述验证结果满足预设策略时，生成用户还款模型。可例如，计算所述验证结果中接受者操作特性曲线与坐标轴围城的面积；以及在所述面积满足阈值时，生成所述用户还款模型。

其中，接受者操作特性曲线(ROC)：指在特定刺激条件下，以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标，以击中概率P(y/SN)为纵坐标，画得的各点的连线。

ROC是一个用于度量分类中的非均衡性的工具，ROC曲线及AUC常被用来评价一个二值分类器的优劣。在实际的数据集中经常会出现类别不平衡现象，即负样本比正样本多很多(或者相反)，而且测试数据中的正负样本的分布也可能随着时间而变化。而在这种情况下，ROC曲线能够保持不变。

ROC曲线下与坐标轴围城的面积被称为AUC(Area Under Curve)，在一个实施例中，可在AUC满足阈值时，生成所述用户还款模型。因为ROC曲线一般都处于y＝x这条直线的上方，所以取值范围在0.5和1之间，使用AUC作为评价指标是因为ROC曲线在很多时候并不能清晰地说明哪个分类器的效果更好，而AUC作为一个数值，其值越大代表分类器效果更好。

根据本公开的用户还款模型生成方法，对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集；通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及在所述验证结果满足预设策略时，生成用户还款模型的方式，能够建立准确高效的用户还款模型，还可以基于用户还款模型对用户的行为进行评估，减少金融服务企业的人力资源浪费。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图2是根据另一示例性实施例示出的一种用户还款模型生成方法的流程图。图2所示的流程是对图1所示的流程中S104“通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型”的详细描述。

如图2所示，在S202中，将所述训练数据集输入所述极端梯度提升模型中，生成初始训练参数。

在一个实施例中，XGBboost可以看成改进版本的梯度提升算法，XGBboost限定了机器学习的过程中一定要是CART回归树，并且机器学习的输出为一个分数而不是类别，这样有助于XGBboost整合所有的基CART回归树的输出结果(简单相加)，XGBboost引入了并行化，所以其速度更快，同时XGBboost还引入了损失函数的二阶偏导，一般情况下计算效果也更好。XGBboost的学习是串行的，即当要学习第k个学习器时，学习的目标是前k-1个学习器与目标输出的残差。

在一个实施例中，将所述训练数据集输入所述极端梯度提升模型中，所述训练数据依次经由k个学习器学习器进行训练学习，在极端梯度提升模型的k个学习器的目标输出残差满足函数条件时，通过当前的极端梯度提升模型的参数生成初始用户还款模型。

在S204中，基于网络搜索调参方式对所述初始训练参数进行参数调节。网格搜索调参是一种利用穷举搜索进行调参的手段。在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。

更具体的，在本公开的用户还款模型中，可包含5个模型参数，参数a,b,c,d,e，其中，参数a有3种可能，参数b有4种可能，参数c有2种可能，参数d有3种可能，参数e有2中可能。网格搜索调参是把所有可能性列出来，可以表示成一个3*4*2*3*3的多维矩阵数据，其中每个cell就是一个网格，网格搜索调参在多维矩阵数据中进行循环搜索，计算当前参数对应的初始用户还款模型的性能。

在S206中，基于所述参数调节的最优解生成所述训练参数。可基于网格搜索调参的最优解生成所述训练参数。

在S208中，在所述训练参数满足预设条件时生成初始用户还款模型。可例如子啊训练初期为所述初始用户还款模型确定目标函数，目标函数可为最小化训练数据的损失函数，在所述损失函数满足阈值条件时，生成初始用户还款模型。

根据本公开的用户还款模型生成方法，通过极端梯度提升模型生成用户还款模型的方式，对数据预处理要求较低，还能够自动学习缺失值的分裂方向，并且能够自动防止模型过拟合。

图3是根据另一示例性实施例示出的一种用户还款模型生成方法的流程图。图3所示的流程是对图1所示的流程中的补充描述。

如图3所示，在S302中，将处于预定状态的用户金融数据输入所述用户还款模型。可例如，将处于M2状态的用户的金融数据输入用户还款模型中，其中，M2状态对应的欠款时间可由管理员进行制定。更具体的，可将欠款超期的一天的用户定义为M2状态客户。

在S304中，所述用户还款模型对预定状态的用户金融数据进行计算生成用户还款概率，所述用户还款概率用于表征用户在特定时间还款的概率。

用户还款模型对M2状态的用户金融数据进行计算，生成用户还款概率，用户还款概率可为表征用户在M3状态之前还款的概率。更具体的，可将欠款超过一个月的用户定义为M3状态用户。用户还款概率即表征了用户在欠款一个月之内还款的概率。

在S306中，将所述用户还款概率与阈值范围进行比较，以将所述用户还款概率对应的用户进行分组。

在一个实施例中，将所述用户还款概率与阈值范围进行比较，可将低于阈值的用户筛选出来，生成委外用户分组。

在一个实施例中，将所述用户按照用户还款概率进行排序，将排序靠后的预定比例的用户筛选出来，将这些用户的还款概率与阈值范围进行比较，可将低于阈值的用户筛选出来，生成委外用户分组。

在S308中，基于分组结果确定贷后管理策略。可将委外用户分组中的用户进行委外处理，通过第三方公司进行这部分用户的欠款贷后管理。

根据本公开的用户还款模型生成方法，能够解决M2策略优化问题，将还款概率低的客户提前委外，进而解决部分人力问题，释放人力资源；管理员员还能够基于用户的还款概率选择优先案件进行处理。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是根据一示例性实施例示出的一种用户还款模型生成装置的框图。如图4所示，用户还款模型生成装置40包括：数据处理模块402，数据训练模块404，模型验证模块406，以及模型建立模块408。

数据处理模块402用于对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，用户金融数据包括：用户借款数据、用户特征数据、用户基础数据；

其中，所述数据处理模块402包括：数据单元，用于获取多个用户的用户数据；以及处理单元，用于将所述用户数据进行筛选处理和特征处理生成所述用户金融数据。

数据训练模块404用于通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；其中，所述数据训练模块404包括：训练单元，用于通过所述训练数据集对极端梯度提升模型进行训练，生成训练参数；以及初始单元，用于在所述训练参数满足预设条件时生成初始用户还款模型。

其中，数据训练模块404中的所述训练单元，包括：输入子单元，用于将所述训练数据集输入所述极端梯度提升模型中，生成初始训练参数；搜索子单元，用于基于网络搜索调参方式对所述初始训练参数进行参数调节；以及调节子单元，用于基于所述参数调节的最优解生成所述训练参数。所述调节子单元，还用于基于所述参数调节的最优解重新对所述极端梯度提升模型进行拟合，生成所述训练参数。

模型验证模块406用于通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；所述模型验证模块406还用于通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果。

所述模型验证模块406包括：验证单元，用于通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行多次K折交叉验证，生成接受者操作特性曲线；以及稳态单元，用于在所述接受者操作特性曲线的参数稳态时，生成所述验证结果。

模型建立模块408用于在所述验证结果满足预设策略时，生成用户还款模型。所述模型建立模块408包括：计算单元，用于计算所述验证结果中接受者操作特性曲线与坐标轴围城的面积；以及阈值单元，用于在所述面积满足阈值时，生成所述用户还款模型。

更进一步，用户还款模型生成装置40还可包括：输入模块，用于将处于预定状态的用户金融数据输入所述用户还款模型；以及概率模块，用于所述用户还款对预定状态的用户金融数据进行计算生成用户还款概率，所述用户还款概率用于表征用户在特定时间还款的概率。比较模块，用于将所述用户还款概率与阈值范围进行比较，以将所述用户还款概率对应的用户进行分组；以及策略模块，用于基于分组结果确定贷后管理策略。

根据本公开的用户还款模型生成装置，对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集；通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及在所述验证结果满足预设策略时，生成用户还款模型的方式，能够建立准确高效的用户还款模型，还可以基于用户还款模型对用户的行为进行评估，减少金融服务企业的人力资源浪费。

图5是根据一示例性实施例示出的一种电子设备的框图。

下面参照图5来描述根据本公开的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元510可以执行如图1，图2，图3中所示的步骤。

所述存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元(ROM)5203。

所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备500’(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且，电子设备500还可以通过网络适配器550与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器550可以通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图6所示，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，用户金融数据包括：用户借款数据、用户特征数据、用户基础数据；通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及在所述验证结果满足预设策略时，生成用户还款模型。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种用户还款模型生成方法，其特征在于，包括：

对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，用户金融数据包括：用户借款数据、用户特征数据、用户基础数据；

通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；

通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及

在所述验证结果满足预设策略时，生成用户还款模型。

2.如权利要求1所述的方法，其特征在于，对多个用户金融数据进行预处理，包括：

获取多个用户的用户数据；以及

将所述用户数据进行筛选处理和特征处理生成所述用户金融数据。

3.如权利要求1-2所述的方法，其特征在于，通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型，包括：

通过所述训练数据集对极端梯度提升模型进行训练，生成训练参数；以及

在所述训练参数满足预设条件时生成初始用户还款模型。

4.如权利要求1-3所述的方法，其特征在于，通过所述训练数据集对极端梯度提升模型进行训练，生成训练参数，包括：

将所述训练数据集输入所述极端梯度提升模型中，生成初始训练参数；

基于网络搜索调参方式对所述初始训练参数进行参数调节；以及

基于所述参数调节的最优解生成所述训练参数。

5.如权利要求1-4所述的方法，其特征在于，基于所述参数调节的最优解生成所述训练参数，包括：

基于所述参数调节的最优解重新对所述极端梯度提升模型进行拟合，生成所述训练参数。

6.如权利要求1-5所述的方法，其特征在于，通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果，包括：

通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果。

7.如权利要求1-6所述的方法，其特征在于，通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行K折交叉验证，生成验证结果，包括：

通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行多次K折交叉验证，生成接受者操作特性曲线；以及

在所述接受者操作特性曲线的参数稳态时，生成所述验证结果。

8.一种用户还款模型生成装置，其特征在于，包括：

数据处理模块，用于对多个用户金融数据进行预处理，生成训练数据集、测试数据集、和验证数据集，用户金融数据包括：用户借款数据、用户特征数据、用户基础数据；

数据训练模块，用于通过所述训练数据集对机器学习模型进行训练，生成初始用户还款模型；

模型验证模块，用于通过所述测试数据集和所述验证数据集对所述初始用户还款模型进行交叉验证，生成验证结果；以及

模型建立模块，用于在所述验证结果满足预设策略时，生成用户还款模型。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。