CN111738819A

CN111738819A - 表征数据筛选方法、装置和设备

Info

Publication number: CN111738819A
Application number: CN202010540728.9A
Authority: CN
Inventors: 加鸣; 郑玉函; 陈芷君; 袁韵; 程琬芸
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-02

Abstract

本申请提供了一种表征数据筛选方法、装置和设备，其中，该方法包括：获取初始变量集；其中，所述初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；对所述初始变量集中的初始变量进行数据处理得到衍生变量集；对所述衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；利用随机森林算法对所述筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，所述特征变量为衍生变量中用于表征用户是否为正样本用户的变量。在本申请实施例中，利用单变量分析和随机森林算法可以高效、便捷地从高维数据中筛选到可以有效表征正样本用户的变量，进而可以提高对用户评估的精确度。

Description

表征数据筛选方法、装置和设备

技术领域

本申请涉及数据处理技术领域，特别涉及一种表征数据筛选方法、装置和设备。

背景技术

存量用户是银行重要的用户资源，科学管理存量用户，并在把控风险前提下，为存量优质用户提供有针对性的个性化服务显得尤为重要。

现有技术中，银行系统对于存量优质用户的筛选仅提供流程上的功能性服务，需要业务人员根据其主观经验对用户变量与是否为存量优质用户之间的强因果关系进行判断，从而筛选出评定用户的变量，业务人员根据筛选得到的变量综合评定用户以确定是否需要向其提供有针对性的个性化服务。其中，依靠业务人员根据其主观经验进行变量筛选，主观随意性较强，容易受人为主观因素的不确定性影响从而使得筛选结果的准确性不高。进一步的，采用现有技术中的表征数据筛选方法分析的效率较低，只能分析和选取出少数的变量，并且选取的变量中可能会存在冗余或无关的变量，从而使得评估准确率较低。由此可见，采用现有技术中的技术方案无法高效、准确地从高维的数据中筛选出可以有效表征用户的变量。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种表征数据筛选方法、装置和设备，以解决现有技术中无法高效、准确地从高维的数据中筛选出有效变量的问题。

本申请实施例提供了一种表征数据筛选方法，包括：获取初始变量集；其中，所述初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；对所述初始变量集中的初始变量进行数据处理，得到衍生变量集；其中，所述衍生变量集为根据初始变量衍生得到的新变量的集合；对所述衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，所述单变量分析用于确定单个变量的表征能力；利用随机森林算法对所述筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，所述特征变量为衍生变量中用于表征用户是否为正样本用户的变量。

在一个实施例中，获取初始变量集，包括：获取在预设时间段的第一样本数据集；其中，所述第一样本数据集中包括多个正样本用户和多个负样本用户在所述预设时间段内的数据；对所述样本数据集进行数据清洗，得到第二样本数据集；提取所述第二样本数据集中各个正样本用户和负样本用户对应的多个初始变量的值；根据所述各个正样本用户和负样本用户对应的多个初始变量的值生成所述初始变量集。

在一个实施例中，对所述初始变量集中的初始变量进行数据处理包括：对所述初始变量集中各个用户的初始变量的值进行计数、求和、求均值和日期压缩。

在一个实施例中，利用随机森林算法对所述筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，包括：利用所述随机森林算法确定所述筛选后的衍生变量集中的各个衍生变量的重要性值；对所述各个衍生变量的重要性值进行降序排列，得到降序排列结果；按照降序排列结果，对所述各个衍生变量的重要性值进行降序累加；将累加得到的重要性值在预设范围内对应的衍生变量作为特征变量。

在一个实施例中，对所述衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集，包括：利用群体稳定度指标按照预设时间频率分析确定所述衍生变量集中各个衍生变量的稳定度；将稳定度小于第一预设阈值的衍生变量从所述衍生变量集中移除，得到第一变量集；计算所述第一变量集中的各个变量的信息值；将信息值小于第二预设阈值的变量从所述第一变量集中移除，得到第二变量集；利用相关系数确定所述第二变量集中各个变量之间的相关性；将相关性大于等于第三预设阈值的两个变量中信息值较低的变量从所述第二变量集中移除，得到第三变量集；将所述第三变量集作为所述筛选后的衍生变量集。

在一个实施例中，在得到至少一个特征变量之后，还包括：对所述至少一个特征变量进行分箱操作，得到每个特征变量的分箱结构，其中，所述分箱结构用于表征特征变量的评价标准；根据所述每个特征变量的分箱结构，对每个特征变量进行分值分配，得到目标评分模型，其中，所述目标评分模型用于根据输入的目标用户的数据对所述目标用户进行评分。

在一个实施例中，所述初始变量集中的初始变量包括以下至少之一：用户基本信息、用户地址、用户评分、用户等级、贷款合约、贷款账户、贷款账户交易流水、贷款放款流水、借记卡合约、借记卡账户、借记卡账户流水、资产管理规模；所述衍生变量集中的衍生变量包括以下至少之一：用户资历数据、投资理财类产品持有种类、金额、数量、持有时长、历史贷款行为、授信变化趋势、贷款使用情况、贷款逾期数据、历史贷款签约机构所在省市经济发达程度。

本申请实施例还提供了一种表征数据筛选装置，包括：获取模块，用于获取初始变量集；其中，所述初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；数据处理模块，用于对所述初始变量集中的初始变量进行数据处理，得到衍生变量集；其中，所述衍生变量集为根据初始变量衍生得到的新变量的集合；单变量分析模块，用于对所述衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，所述单变量分析用于确定单个变量的表征能力；变量筛选模块，用于利用随机森林算法对所述筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，所述特征变量为衍生变量中用于表征用户是否为正样本用户的变量。

本申请实施例还提供了一种表征数据筛选设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述表征数据筛选方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述表征数据筛选方法的步骤。

本申请实施例提供了一种表征数据筛选方法，可以通过获取初始变量集；其中，初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值。可以对初始变量集中的初始变量进行数据处理，得到衍生变量集。进一步的，可以对衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集。并利用随机森林算法对筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，特征变量为衍生变量中用于表征用户是否为正样本用户的变量。利用单变量分析和随机森林算法可以高效、便捷地从高维数据中提取用于表征用户是否为正样本用户的有效特征变量，进而可以提高对用户评估的精确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，并不构成对本申请的限定。在附图中：

图1是根据本申请实施例提供的表征数据筛选方法的步骤示意图；

图2是根据本申请具体实施例提供的K贷申请审批流程的示意图；

图3是根据本申请实施例提供的表征数据筛选装置的结构示意图；

图4是根据本申请实施例提供的表征数据筛选设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域的技术人员知道，本申请的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此，本申请公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

虽然下文描述流程包括以特定顺序出现的多个操作，但是应该清楚了解，这些过程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

请参阅图1，本实施方式可以提供一种表征数据筛选方法。该表征数据筛选方法可以用于从高维的数据中筛选出可以用于表征用户的有效变量。上述表征数据筛选方法可以包括以下步骤。

S101：获取初始变量集；其中，初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值。

在本实施方式中，可以预先获取初始变量集。上述初始变量集中可以包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值，其中，上述正样本用户和负样本用户可以根据实际需要挖掘的用户对样本数据进行标记。例如：如果想筛选出用于判断用户是否为高信誉度的用户的变量，可以将银行数据库中的没有违约行为的高信誉度用户标记为正样本用户，并将银行数据库中历史有过违约行为的用户标记为负样本用户。可以理解的是，在其它场景下也可以按照上述思路标记正样本用户和负样本用户，具体的可以根据实际情况确定，本申请对此不作限定。

在本实施方式中，上述正样本用户的数量和负样本用户的数量可以成一定的比例，例如：正样本用户的数量与负样本用户的数量的比值为1:5，当然还可以采用其它比例值，例如1:5.5或者1:3等，具体的可以根据实际情况确定，本申请对此不作限定。

在本实施方式中，上述初始变量可以为银行数据库中可以直接获取的与用户相关的数据，可以包括用户基本信息和行为信息等，例如：用户身份证号码、用户性别、用户年龄、用户存款金额、用户的代发工资数据等。在一些实施例中，上述初始变量可以包括：用户基本信息(性别、身份证号码、年龄、预留电话号码、工作单位、银行账户信息、银行账户开户日期、房屋信息等)、用户地址、用户评分、用户等级、贷款合约、贷款账户、贷款账户交易流水、贷款放款流水、借记卡合约、借记卡账户、借记卡账户流水、AUM(资产管理规模，AssetUnder Management)等。当然可以理解的是，在其它场景下上述初始变量还可以包括其它变量，例如：用户工龄、毕业学校、专业、毕业时间等，具体的可以根据实际情况确定，本申请对此不作限定。

其中，上述AUM中一般除了存款，还包括理财、基金，贵金属，以及用户在银行的贷款等信息。可以用AUM来衡量用户价值，用户(个人用户或对公用户)的AUM越高，一般对银行的贡献度越高，AUM是衡量高净值用户的一个指标。

在本实施方式中，获取初始变量集的方式可以包括：接收银行相关业务人员向筛选系统中输入的初始变量集，或者，可以按照预设路径查询得到。当然可以理解的是，还可以采用其它可能的方式获取上述初始变量集，例如，在网页或者数据库中按照一定的查找条件搜索初始变量集，具体的可以根据实际情况确定，本申请对此不作限定。

S102：对初始变量集中的初始变量进行数据处理，得到衍生变量集；其中，衍生变量集为根据初始变量衍生得到的新变量的集合。

由于可以从数据库或者业务系统中直接获取的变量都是根据业务的需要考虑设计的，这些初始变量往往不能达到取得良好数据挖掘结果的目的。因此，在本实施方式中，可以对初始变量集中的初始变量进行数据处理从而得到衍生变量集，即从初始变量中构建新的变量，从而开拓分析的维度。

在本实施方式中，上述衍生变量集可以为根据初始变量衍生得到的新变量的集合，上述衍生变量可以为根据初始变量的变化而变化的变量。上述衍生变量集中可以包括：多个正样本用户和多个负样本用户对应的衍生变量的值。

在本实施方式中，对初始变量集中的初始变量进行数据处理的方式可以包括但不限于以下至少之一：变量扩展，基于一个变量使用变量值打平(扩展)的方式衍生多个标注类型的变量，也可以理解为离散化；变量组合，将两个或多个变量通过数学运算的方式进行组合，变量的组合可以视为逻辑连接；合成变量，将单独的变量进行组合(相乘或求笛卡尔积)而形成的合成变量，是一种让线性模型学习到非线性变量的方式。

在一个实施方式中，对初始变量集中的多个初始变量进行数据处理包括：对初始变量集中各个用户的初始变量的值进行计数、求和、求均值和日期压缩等。可以理解的是，在一些实施例中还可以采用其它的数据处理方式，例如：对多个变量进行交叉组合，或者，做交、并、补、笛卡尔集等运算。

在一个实施方式中，可以使用Python(计算机程序设计语言)和SQL(结构化查询语言，Structured Query Language)这两种程序设计语言来根据初始变量集计算出衍生变量集。在一个实施例中，在进行变量衍生之前可以先进行变量清洗，从而解决数初始变量集中的数据质量问题，并让清洗后的数据更适合做挖掘。

在一个实施方式中，根据上述初始变量集得到的衍生变量集中可以包括：用户行龄、电子渠道签约时长等用户资历数据；投资理财类产品持有种类、金额、数量、持有时长等用户偏好数据；历史贷款申请次数、申请频率、签约次数、签约频率、支用次数、还款次数等历史贷款行为数据；历史贷款授信金额变化情况、授信方式变化情况、用户身份变化情况等授信变化趋势；历史贷款利息收入、额度使用率、额度使用时长等贷款使用情况；历史贷款逾期金额、逾期次数、逾期时长等贷款逾期数据；历史贷款签约机构所在省市经济发达程度等。可以理解的是，在一些其它场景下还可以包括其它数据，例如：用户的转账频率等，具体的可以根据实际情况确定，本申请对此不作限定。

S103：对衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，单变量分析用于确定单个变量的表征能力。

在本实施方式中，为保证各个衍生变量对目标事件(需要应用的筛选场景，例如：判断目标用户是否为正样本用户)的预测能力以及衍生变量集中衍生变量的单一性，可以对衍生变量集中的各个衍生变量进行单变量分析，从而可以对衍生变量集中的衍生变量进行筛选，得到筛选后的衍生变量。

在本实施方式中，上述单变量分析主要集中在单变量的描述和统计推断两个方面，在于用最简单的概括形式反映出大量样本资料所容纳的基本信息，描述样本数据中的集中或离散抓趋势。其中，单变量分析用于确定单个变量的表征能力，利用单变量分析可以筛查出预测能力较小的变量以及重复的变量(相关性较高)，从而使得筛选后的衍生变量集中的衍生变量更适于进行数据挖掘。

在一个实施方式中，上述单变量分析可以包括：利用PSI(群体稳定度指标，Population Stability Index)计算各个变量的稳定度，计算单个变量的IV(信息值，Information Value)，以及计算每两个变量之间的相关性(Correlation Coefficient)。当然还可采用其它指标进行单变量分析，具体的可以根据实际情况确定，本申请对此不作限定。

其中，上述PSI(群体稳定度指标，Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标，是一种模型稳定度评估指标，PSI表示的就是按分数分档后，针对不同时间的样本，Population分布是否有变化，就是看各个分数区间内人数占总人数的占比是否有显著变化。进行稳定度评估时可以按照预设时间频率对样本进行分析，例如，可以将衍生变量集中各个变量按月进行分析，或者以每星期、年的时间频率进行分析，具体的可以根据实际情况确定，本申请对此不作限定。上述预设时间频率可以为：每月、每年或者每星期等，具体的可以根据实际情况确定，本申请对此不作限定。

上述IV(信息值，Information Value)，可以用于衡量自变量的预测能力。变量筛选过程需要考虑的因素很多，例如：变量的预测能力、变量之间的相关性、变量的简单性(容易生成和使用)、变量的强壮性(不容易被绕过)、变量在业务上的可解释性(被挑战时可以解释的通)等等，但是其中最主要的衡量标准是变量的预测能力。因此，在本实施方式中，可以通过IV去衡量变量的预测能力：假设在一个分类问题中，目标变量的类别有两类：Y₁，Y₂。对于一个待预测的个体A，要判断A属于Y₁还是Y₂需要一定的信息，假设这个信息总量是I，而这些所需要的信息，就蕴含在所有的自变量C₁、C₂、C₃、……、C_n中，那么，对于其中的一个变量C_i来说，其蕴含的信息越多，那么它对于判断A属于Y₁还是Y₂的贡献就越大，C_i的信息价值就越大，C_i的IV就越大，它就越应该进入到最终的变量集中。

上述相关性(Correlation Coefficient)可以用于表征两个变量之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究变量之间的相关关系的一种统计方法。如果两个变量之间的相关性较高，则说明两个变量对于预测目标事件具有近似的作用，可以择一保留。

在一个实施例中，对衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集，可以包括利用群体稳定度指标按照预设时间频率分析确定衍生变量集中各个衍生变量的稳定度，并将稳定度小于第一预设阈值的衍生变量从衍生变量集中移除，得到第一变量集。进一步的，可以计算第一变量集中的各个变量的信息值，并将信息值小于第二预设阈值的变量从第一变量集中移除，得到第二变量集。进一步的，可以利用相关系数确定第二变量集中各个变量之间的相关性，将相关性大于等于第三预设阈值的两个变量中信息值较低的变量从第二变量集中移除，得到第三变量集，并将第三变量集作为筛选后的衍生变量集。

在本实施方式中，上述第一预设阈值可以为大于0的数值，优选的可以为：0.1、0.12等，具体的可以根据实际需求设定，本申请对此不作限定。上述第二预设阈值可以为大于0的数值，优选的可以为：0.05、0.06等，具体的可以根据实际需求设定，本申请对此不作限定。第三设阈值可以为大于0的数值，优选的可以为：0.7、0.72等，具体的可以根据实际需求设定，本申请对此不作限定。

S104：利用随机森林算法对筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，特征变量为衍生变量中用于表征用户是否为正样本用户的变量。

为了在保证准确性的前提下去除无效变量，尽可能以较少的特征变量反映预测目标事件所需的主要特征，在本实施方式中，可以利用随机森林算法对筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量。其中，上述特征变量为最终筛选得到的变量，可以为用于表征用户是否为正样本用户的最精简的变量。

在本实施方式中，在机器学习中，上述随机森林(Random Forest)一个包含多个决策树的分类器，其利用随机重采样技术和节点随机分裂技术构建多颗决策树，通过投票得到最终分类结果。随机森林具有分析复杂相互作用分类特征的能力，对于噪声数据和存在缺失值的数据具有很好的鲁棒性，并且具有较快的学习速度，其变量重要性度量可以作为高维数据的特征选择工具。利用随机森林算法可以确定每个变量在随机森林中的每棵树上做了多大的贡献，然后取平均值，最后比较不同变量之间的贡献大小。

在一个实施例中，可以将上述筛选后的衍生变量集作为训练集，利用随机森林算法进行训练。可以从训练集中，应用Bootstrap方法(是基于大量计算的一种模拟抽样统计推断方法)有放回地随机抽取一个自助样本集，生成一个Bootstrap数据采样，进一步的，可以运用上述生成的Bootstrap数据，构造一颗未修建的树。生成树的过程中，随机从筛选后的衍生变量集中选择多个参与划分的变量，通过计算每个变量蕴含的信息量(可用基尼系数、增益率或者信息增益判别)，在多个参与划分的变量中选择一个最具有分类能力的变量进行节点分裂，从而可以构建多颗决策树，通过投票可以得到筛选后的衍生变量集中的各个变量的重要性值。

在本实施方式中，可以对各个衍生变量的重要性值进行降序排列，得到降序排列结果。进一步的，可以按照降序排列结果，对各个衍生变量的重要性值进行降序累加，并将累加得到的重要性值在预设范围内对应的衍生变量作为特征变量。例如：筛选后的衍生变量集中共有20个衍生变量，将这些衍生变量按重要性值降序排列输出后，在前12个衍生变量的重要性值之和已大于0.96的情况下，可以将这前12个特征作为特征变量，而将剩余的8个衍生变量移除。虽然去掉部分特征会对最终的准确度造成一定程度的损失，但相比预测目标事件的简洁性来说，这个小于4％的损失是可以接受的。

在本实施方式中，由于上述筛选后的衍生变量集中的各个衍生变量的重要性值总和为1，因此，上述预设范围的两个端值为大于0小于等于1的正数，优选的上述预设范围可以为(0.96,1]，或者[0.97,1]等，具体的可以根据实际情况设置，本申请对此不作限定。在本实施方式中，一旦对各个衍生变量的重要性值进行降序累加得到的值落入上述预设范围就停止累加，以避免加入不必要的变量。

从以上的描述中，可以看出，本申请实施例实现了如下技术效果：可以通过获取初始变量集；其中，初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值。可以对初始变量集中的初始变量进行数据处理，得到衍生变量集。进一步的，可以对衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集。并利用随机森林算法对筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，特征变量为衍生变量中用于表征用户是否为正样本用户的变量。利用单变量分析和随机森林算法可以高效、便捷地从高维数据中筛选到可以有效表征正样本用户的变量，进而可以提高对用户评估的精确度。

在一个实施方式中，可以按照以下方式获取上述初始变量集：可以获取在预设时间段的第一样本数据集，其中，上述第一样本数据集中可以包括多个正样本用户和多个负样本用户在预设时间段内的数据。由于样本数据集中可能包含异常数据、重复数据等情况，为保证数据的质量，可以先对上述样本数据集进行数据清洗，从而得到第二样本数据集。进一步的，可以提取第二样本数据集中各个正样本用户和负样本用户对应的多个初始变量的值，并根据各个正样本用户和负样本用户对应的多个初始变量的值生成初始变量集。

在本实施方式中，为了使上述第一样本数据集中的数据可以具有代表性和准确性，可以获取在预设时间段的第一样本数据集，上述预设时间段可以历史时间中的某一段时间，可以为去年一年的数据，例如：2019年1月1日-2019年12月21日，当然还可以按照其它方式选取，例如：选取2018年6月1日至2018年11月30日的数据，具体的可以根据实际情况确定，本申请对此不作限定。

在本实施方式中，还可以根据上述预设时间段选取测试数据集，例如可以将上述预设时间段的截止日期作为测试数据集的起始时间点，从而获取测试数据集。采用该种方式获取得到的测试数据集能够较好地验证训练集训练结果的好坏，对应的测试数据集中也包含正样本用户数据和负样本用户数据。

在本实施方式中，由于第一样本数据集是从历史数据中获取的，因此，可以准确地对获取的第一样本数据集中的数据进行标记，即将第一样本数据集中的数据标记为正样本用户数据和负样本用户数据。其中，上述正样本用户即为期望预测的用户，负样本用户则与之相反。例如：期望预测目标用户是否为高信誉度用户，则正样本用户则为高信誉度的用户，负样本用户则为非高信誉度的用户。

在一个实施方式中，在得到至少一个特征变量之后，还可以对上述至少一个特征变量进行分箱操作，得到每个特征变量的分箱结构，其中，分箱结构用于表征特征变量的评价标准。进一步的，可以根据每个特征变量的分箱结构，对每个特征变量进行分值分配，得到目标评分模型，其中，目标评分模型用于根据输入的目标用户的数据对目标用户进行评分，进而根据评分结果可以确定上述目标用户是否为正样本用户。

其中，上述分箱操作就是将连续型的数据离散化，例如：年龄这个变量是连续型变量，可以分箱为0-18，18-30，30-45，45-60。分箱的效果主要可以包括：分箱后的变量对异常数据有更强的鲁棒性，比如年龄中有一个异常值为300，分箱之后就可能划到>80这一箱中；能有效地捕捉数据中的非线性关系，能够提升模型表达能力，加大拟合；能够捕捉数据中的非单调性关系；能够将变量值进行标准化；能够有效地将类别型变量包含到模型中；能够有效地提高模型地“抗震荡性”，通过分箱操作，消除了各种噪音，消除了或大大削弱了极端值地影响，并且保证了每个区间的样本量的充分性，模型不会因为数据的细小波动受到冲击；能有效提高模型的可解释性。

在本实施方式中，在进行分箱之前可以先确定变量的类型，变量的类型可以包括：连续变量，比如收入、年龄；有序分类变量，比如学历、职位；无序分类变量，比如省份。对无序分类型变量可以基于Bad Rate(坏样本率)进行排序转化，对有序分类变量可以进行合理顺序转化，直至将所有变量数据均处理为连续数据的情况下，可以进行分箱操作。

在本实施方式中，可以使用WOE(证据权重，Weight of Evidence)对初始分箱后的每组数据进行计算分析，然后根据IV(信息值，Information Value)值对每个变量的分箱结构进行调整，直至达到最好的分箱效果(坏用户占比在分箱后是单调的)。

在本实施方式中，上述WOE是对原始自变量的一种编码形式，WOE其实描述了变量当前这个分组，对判断个体是否会响应或者说属于哪个类所起到影响方向和大小，当WOE为正时，变量当前取值对判断个体是否会响应起到的正向的影响，当WOE为负时，起到了负向影响。而WOE值的大小，则是这个影响的大小的体现。IV的计算依赖WOE，IV是一个衡量自变量对目标变量影响程度的指标。

在本实施方式中，上述每个特征变量的分箱结构可以用于表征各个特征变量的评价标准。可以利用每个特征变量的分箱结构进行分值分配，从而得到目标评分模型。以年龄为例，进行分值分配的结果可以为，0-18岁为20分、19-35岁为40分、36-50岁为30分、大于50岁为10分。

在本实施方式中，上述目标评分模型可以用于根据输入的目标用户的数据对目标用户进行评分，例如，目标用户的数据为：年龄为27岁、性别为男、婚姻状况为已婚、学历为本科、月收入为10000，输入上述目标评分模型得到的评分为264分。进一步的，可以根据得到的评分结果确定上述目标用户是否为正样本用户。

在本实施方式中，可以根据特征变量的分享结构计算每个评分区间的累计正样本用户数占总正样本用户数比率(good％)和累计负样本用户数占总负样本用户比率(bad％)，从而可以根据每个评分区间的计算结果对各个评分区间进行分值分配。

在一个场景示例中，由于行内适用的个人K贷(线上消费信贷)申请审批流程基本分为2个阶段，预授信阶段和申请阶段。在预授信阶段，用户通过手机银行，网银，线下柜机等渠道点击查看K贷额度，然后进入信贷准入环节，如果准入通过，则可以得到预授信额度的输出，进入申请阶段；在申请阶段，用户点击申请K贷，中间要通过一系列规则的筛选，如果通过，可以得到申请额度的输出，用户进入到签约开户环节，整个申请审批流程结束。而整个申请审批流程对所有用户都是无差异化的，无论是行业的存量用户还是新用户，从而无法在存量用户中筛选出优质用户，科学提高额度以对优质用户提供个性化服务。

在本场景示例中，可以对现有的K贷申请审批流程进行优化，在预授信阶段和申请阶段之间加入存量优质用户提额模块，对存量用户加入判断是否为优质用户的环节，对用户进行筛选识别。若存量用户被判断为优质用户，在预授信阶段有额度的前提下，对该优质用户进行适当的提额；若预授信阶段无额度，则给予该优质用户一定的额度，从而达到提高用户满意度及提升用户粘性的目的。

在一个具体的实施例中，K贷申请审批流程可以如图2中所示，提额模块可以包括存量用户基本准入、存量优质用户评分模型、存量优质用户提额模型。存量优质用户提额模块可以根据用户有无初始预授信额度，分别对这两类用户进行准入、评分、提额。

在本实施例中，存量用户基本准入是整个存量优质用户提额业务的必要非充分条件，需要对将要提额的用户进行基本的信贷风险准入条件的判断，符合基本准入规则才能进行后续的提额流程处理。上述基本准入规则可以包括但不限于一下至少之一：用户当前的信贷情况是否属于存量结清再授信提额的用户范围、用户当前已有的行内用户评分等是否满足最低进入标准、用户历史已结清的所有K贷贷款期内是否有过逾期等。

在本实施例中，存量优质用户评分模型的建立以用户有无初始预授信额度为例，可以包括筛选20180601至20181130期间做过K贷结清操作且进行预授信计算无授信来源的用户形成原始样本用户集，由业务部门根据以往业务经验从中筛选出一批用户(5000个)作为K贷产品的存量优质用户，形成目标样本白名单。按照目标样本与非目标样本1：5的比例，从原始样本用户集中随机抽取25000个非业务认定的存量优质用户，形成用户样本数据集(30000个)。针对这3万个用户，以20181130作为建模基准日，将这些用户截至20181130的数据作为评分模型的训练样本数据；以20191130作为测试基准日，将这些用户截至20191130的数据作为评分模型的测试样本数据。

在本实施例中，针对用户样本数据集中的用户，获取各个用户行内的各类原始数据，包括：用户基本信息、地址信息、行内用户评分信息、用户等级信息、贷款合约信息、贷款账户信息、贷款账户交易流水信息、贷款放款流水信息、K贷交易操作信息、借记卡合约信息、借记卡账户信息、借记卡账户流水、AUM信息等多维度数据。经过数据清洗后，生成初始变量集。

在本实施例中，可以使用Python和SQL这两种程序设计语言对初始变量进行数据分析计算出衍生变量。生成的衍生变量可以包括用户行龄、电子渠道签约时长等用户资历数据，投资理财类产品持有种类、金额、数量、持有时长等偏好数据，历史贷款申请次数、申请频率、签约次数、签约频率、支用次数、还款次数等K贷行为数据，历史贷款授信金额变化情况、授信方式变化情况、用户身份变化情况等授信变化趋势数据，历史K贷利息收入、额度使用率、额度使用时长等K贷使用情况数据，历史贷款逾期金额、逾期次数、逾期时长等贷款逾期数据，历史K贷签约机构所在省市经济发达程度等。

在本实施例中，在进行特征变量筛选的过程中，使用单变量分析与随机森林的机器学习算法相结合的方式，以达到更好的特征筛选效果。首先针对变量进行单变量分析，具体可以包括：使用群体稳定度指标按月分析观察变量的稳定程度，剔除稳定度低(按PSI>0.1来衡量)的变量；使用信息值分析特征变量对目标事件的单一预测能力高低，剔除预测能力低(按IV<0.05来衡量)的变量；使用相关系数(分析变量间的相关性，对于相关性高(大于0.7)的两个变量，保留IV值较高的变量。在完成上述变量分析筛选后，使用随机森林对测试数据集进行进一步的特征筛选。

在本实施例中，可以对筛选出的最终的特征变量进行分箱操作，使用WOE对分箱后的每组数据进行计算分析，然后根据IV对每个变量的分箱结构进行调整，直至达到最好的分箱效果(坏用户占比在分箱后是单调的)，最后由对每个变量进行分值分配，得出存量优质用户提额的准入评分模型。

在本实施例中，由于存量优质用户评分卡模型适用的贷款业务的贷款期限为1年，可以利用上述20181101至20191031的测试样本数据，使用本模型按月对用户进行评分，观察各个分数区间内人数占总人数的占比是否有显著变化，以此计算模型的稳定度指标，如果计算得到的稳定度指标<10％，则认为该存量优质用户评分模型是比较稳定的。

在本实施例中，对于存量结清再授信无额度的用户可以基于近期某一时间段内授信数据(用户近n个月最后一笔成功的K贷授信金额)给予提额决策，对于存量结清再授信有额度的用户给予基于信贷规模因素+评分结果结合考量确定提额比例的提额决策，从而可以实现精准化营销和差别化定价。

在本实施例中，可以记录下模型的预测值，通过信贷系统每日更新的数据进行监测分析，将模型得到的预测值和用户的实际表现进行对比，能够持续对入模的变量和相关参数进行变更，不断迭代优化模型。

在本实施例中，采用上述基于随机森林算法的优质用户提额模型一方面能降低行内的决策沟通成本，逐渐减少过去依赖业务经验判断的审核模式，降低人为主观判断的失误，提高科学决策率。另一方面随机森林算法能深度挖掘现有数据，在把控风险的前提下，精确筛选出优质用户，为优质用户尽可能的提高额度，提高用户对我行K贷业务的满意度，从而提高用户粘性和K贷业务的竞争力。然而，值得注意的是，上述具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

基于同一发明构思，本申请实施例中还提供了一种表征数据筛选装置，如下面的实施例。由于表征数据筛选装置解决问题的原理与表征数据筛选方法相似，因此表征数据筛选装置的实施可以参见表征数据筛选方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图3是本申请实施例的表征数据筛选装置的一种结构框图，如图3所示，可以包括：获取模块301、数据处理模块302、单变量分析模块303和变量筛选模块304，下面对该结构进行说明。

获取模块301，可以用于获取初始变量集；其中，初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；

数据处理模块302，可以用于对初始变量集中的初始变量进行数据处理得到衍生变量集；其中，衍生变量集为根据初始变量衍生得到的新变量的集合；

单变量分析模块303，可以用于对衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，单变量分析用于确定单个变量的表征能力；

变量筛选模块304，可以用于利用随机森林算法对筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，特征变量为衍生变量中用于表征用户是否为正样本用户的变量。

本申请实施方式还提供了一种电子设备，具体可以参阅图4所示的基于本申请实施例提供的表征数据筛选方法的电子设备组成结构示意图，电子设备具体可以包括输入设备41、处理器42、存储器43。其中，输入设备41具体可以用于输入初始变量集。处理器42具体可以用于获取初始变量集；其中，初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；对初始变量集中的初始变量进行数据处理得到衍生变量集；其中，衍生变量集为根据初始变量衍生得到的新变量的集合；对衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，单变量分析用于确定单个变量的表征能力；利用随机森林算法对筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，特征变量为衍生变量中用于表征用户是否为正样本用户的变量。存储器43具体可以用于存储衍生变量集、特征变量等参数。

在本实施方式中，输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。输入设备还可以获取接收其他模块、单元、设备传输过来的数据。处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。存储器具体可以是现代信息技术中用于保存信息的记忆设备。存储器可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该电子设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本申请实施方式中还提供了一种基于表征数据筛选方法的计算机存储介质，计算机存储介质存储有计算机程序指令，在计算机程序指令被执行时可以实现：获取初始变量集；其中，初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；对初始变量集中的初始变量进行数据处理得到衍生变量集；其中，衍生变量集为根据初始变量衍生得到的新变量的集合；对衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，单变量分析用于确定单个变量的表征能力；利用随机森林算法对筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，特征变量为衍生变量中用于表征用户是否为正样本用户的变量。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

虽然本申请提供了如上述实施例或流程图的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述，在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此，本申请的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种表征数据筛选方法，其特征在于，包括：

获取初始变量集；其中，所述初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；

对所述初始变量集中的初始变量进行数据处理，得到衍生变量集；其中，所述衍生变量集为根据初始变量衍生得到的新变量的集合；

对所述衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，所述单变量分析用于确定单个变量的表征能力；

利用随机森林算法对所述筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，所述特征变量为衍生变量中用于表征用户是否为正样本用户的变量。

2.根据权利要求1所述的方法，其特征在于，获取初始变量集，包括：

获取在预设时间段的第一样本数据集；其中，所述第一样本数据集中包括多个正样本用户和多个负样本用户在所述预设时间段内的数据；

对所述样本数据集进行数据清洗，得到第二样本数据集；

提取所述第二样本数据集中各个正样本用户和负样本用户对应的多个初始变量的值；

根据所述各个正样本用户和负样本用户对应的多个初始变量的值生成所述初始变量集。

3.根据权利要求1所述的方法，其特征在于，对所述初始变量集中的初始变量进行数据处理包括：对所述初始变量集中各个用户的初始变量的值进行计数、求和、求均值和日期压缩。

4.根据权利要求1所述的方法，其特征在于，利用随机森林算法对所述筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，包括：

利用所述随机森林算法确定所述筛选后的衍生变量集中的各个衍生变量的重要性值；

对所述各个衍生变量的重要性值进行降序排列，得到降序排列结果；

按照降序排列结果，对所述各个衍生变量的重要性值进行降序累加；

将累加得到的重要性值在预设范围内对应的衍生变量作为特征变量。

5.根据权利要求1所述的方法，其特征在于，对所述衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集，包括：

利用群体稳定度指标按照预设时间频率分析确定所述衍生变量集中各个衍生变量的稳定度；

将稳定度小于第一预设阈值的衍生变量从所述衍生变量集中移除，得到第一变量集；

计算所述第一变量集中的各个变量的信息值；

将信息值小于第二预设阈值的变量从所述第一变量集中移除，得到第二变量集；

利用相关系数确定所述第二变量集中各个变量之间的相关性；

将相关性大于等于第三预设阈值的两个变量中信息值较低的变量从所述第二变量集中移除，得到第三变量集；

将所述第三变量集作为所述筛选后的衍生变量集。

6.根据权利要求1所述的方法，其特征在于，在得到至少一个特征变量之后，还包括：

对所述至少一个特征变量进行分箱操作，得到每个特征变量的分箱结构，其中，所述分箱结构用于表征特征变量的评价标准；

根据所述每个特征变量的分箱结构，对每个特征变量进行分值分配，得到目标评分模型，其中，所述目标评分模型用于根据输入的目标用户的数据对所述目标用户进行评分。

7.根据权利要求1所述的方法，其特征在于，所述初始变量集中的初始变量包括以下至少之一：用户基本信息、用户地址、用户评分、用户等级、贷款合约、贷款账户、贷款账户交易流水、贷款放款流水、借记卡合约、借记卡账户、借记卡账户流水、资产管理规模；

所述衍生变量集中的衍生变量包括以下至少之一：用户资历数据、投资理财类产品持有种类、金额、数量、持有时长、历史贷款行为、授信变化趋势、贷款使用情况、贷款逾期数据、历史贷款签约机构所在省市经济发达程度。

8.一种表征数据筛选装置，其特征在于，包括：

获取模块，用于获取初始变量集；其中，所述初始变量集中包括多个正样本用户对应的初始变量的值和多个负样本用户对应的初始变量的值；

数据处理模块，用于对所述初始变量集中的初始变量进行数据处理，得到衍生变量集；其中，所述衍生变量集为根据初始变量衍生得到的新变量的集合；

单变量分析模块，用于对所述衍生变量集中的各个衍生变量进行单变量分析，得到筛选后的衍生变量集；其中，所述单变量分析用于确定单个变量的表征能力；

变量筛选模块，用于利用随机森林算法对所述筛选后的衍生变量集中的衍生变量进行筛选，得到至少一个特征变量，其中，所述特征变量为衍生变量中用于表征用户是否为正样本用户的变量。

9.一种表征数据筛选设备，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至7中任一项所述方法的步骤。