CN111461863A

CN111461863A - 数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111461863A
Application number: CN202010238056.6A
Authority: CN
Inventors: 杨情; 李京昊; 刘扬; 陈鹏程
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28

Abstract

本申请关于一种数据处理方法、装置、计算机设备及存储介质，涉及金融服务技术领域。所述方法包括：获取在线网络业务的用户数据；将用户数据输入信用评分卡模型，获得用户数据的初步数据处理结果；响应于初步数据处理结果指示用户数据对应的用户为候选用户，将用户数据输入至数据处理规则模型中得到用户数据的数据处理结果。使得服务器能够在信用评分卡模型判断的基础上，进一步通过数据处理规则模型对用户数据进行进一步判断，以减少对局部非目标用户的误判率。

Description

数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及金融服务技术领域，特别涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

基于互联网提供的网络服务中存在一定的安全风险。比如对于金融借贷类的网络服务中，需要对用户的信用进行评估。

相关技术中采用信用评分卡模型对在线网络业务的用户数据的进行信用评估。

在上述相关技术中，信用评分卡模型在城市区域，用户渠道等用户差异化处理上，表现能力不够，即确定非目标用户的能力有限，容易产生对局部非目标用户产生误判的情况。

发明内容

本申请关于一种数据处理方法、装置、计算机设备及存储介质，该技术方案如下：

一方面，提供了一种数据处理方法，所述方法包括：

获取在线网络业务的用户数据；

将所述用户数据输入信用评分卡模型，获得所述用户数据的初步数据处理结果；

响应于所述初步数据处理结果指示所述用户数据对应的用户为候选用户，将所述用户数据输入至数据处理规则模型中得到所述用户数据的数据处理结果，所述数据处理结果用以指示所述用户数据对应的用户是否为目标用户，所述数据处理规则模型是根据第一训练集训练得到的，所述第一训练集包括白样本和黑样本，所述白样本是指已确定为目标用户的用户数据，所述黑样本是指已确定为非目标用户的用户数据，所述目标用户是所述在线网络业务可服务的对象，所述非目标用户是所述在线网络业务不可服务的对象。

在一种可能的实现方式中，所述方法还包括基于所述第一训练集生成所述数据处理规则模型，所述数据处理规则模型的训练过程包括：

在第1次迭代过程中，基于所述第一训练集生成第一规则，所述第一规则是指从所述第一训练集中筛选出所述黑样本时，黑样本率最高的规则；

剔除所述第一训练集中命中所述第一规则的样本，生成第二训练集；

在第n次迭代过程中，基于第n训练集生成第n规则，所述第n规则是指从所述第n训练集中筛选出所述黑样本时，所述黑样本率最高的规则，n为正整数；

剔除所述第n训练集中命中所述第n规则的样本，生成第n+1训练集；

响应于所述第n+1训练集满足指定条件，停止迭代；

将所述第一规则至所述第n规则进行组合，生成所述数据处理规则模型。

在一种可能的实现方式中，所述在第n次迭代过程中，基于所述第n训练集生成第n规则，包括：

基于所述第n训练集构建m个决策树模型，其中，构建m个所述决策树模型所使用的N个特征组中，每个所述特征组中均存在至少一个特征与其他所述特征组不相同，m，N为正整数；

获取m个所述决策树模型的各个叶子节点中的所述黑样本率和黑样本召回率，所述黑样本召回率是指，通过所述叶子节点筛选出的黑样本数量占所述叶子节点中黑样本总数的比例；

根据各个所述决策树模型中各个所述叶子节点的所述黑样本率和所述黑样本召回率确定规则路径集；

确定所述规则路径集中所述黑样本率最高的所述规则路径所对应的子特征组为所述第n规则。

在一种可能的实现方式中，所述在第n次迭代过程中，基于所述第n训练集生成第n规则之前，还包括：

获取所述第n训练集的所述黑样本总数和所述黑样本率；

所述根据各个所述决策树中各个所述叶子节点的所述黑样本率和所述黑样本召回率确定规则路径集包括：

响应于各个所述决策树中各个所述叶子节点的所述黑样本率满足与对应的所述第n训练集的黑样本率之间的倍数关系，所述黑样本召回率达到第一阈值，确定所述叶子节点对应的规则路径为所述规则路径集的子集。

在一种可能的实现方式中，所述方法还包括：

所述规则路径集的子集所对应的所述叶子节点的所述黑样本率大于所述叶子节点的所述黑样本召回率。

在一种可能的实现方式中，所述决策树模型的深度满足第二阈值，所述构建m个决策树模型还包括：

根据所述决策树模型的深度确定所述m个决策树模型所使用的N个所述特征组中，每个所述特征组所包含的特征个数；

其中，所述特征组中的特征在所述决策树模型中的分布是根据所述特征在所述决策树模型中的对应节点的所述黑样本误判率确定的。

在一种可能的实现方式中，所述特征在所述决策树模型中的对应节点的所述黑样本误判率是通过计算所述特征对对应节点的样本集计算损失函数进行确定的，所述损失函数中，所述黑样本的误判率的计算权重高于所述白样本的误判率的计算权重。

在一种可能的实现方式中，所述数据处理规则模型中包含至少两条数据处理规则；

所述响应于所述初步数据处理结果指示所述用户数据对应的用户为候选用户，将所述用户数据输入至数据处理规则模型中得到所述用户数据的数据处理结果，包括：

响应于所述用户数据满足所述数据处理规则模型中的所有所述数据处理规则，确认所述用户数据的所对应的用户为目标用户；

响应于所述用户数据不满足所述数据处理规则模型中的至少一条所述数据处理规则，确认所述用户数据对应的用户为非目标用户。

在一种可能的实现方式中，所述指定条件包括：

所述第n+1训练集对应的所述决策树模型的所述叶子节点的所述黑样本率均小于第n+1训练集的所述黑样本率；

或者，

所述第n+1训练集对应的所述决策树模型的所述叶子节点的所述黑样本率均不满足与所述第n+1训练集的所述黑样本率之间的倍数关系；

或者，

所述第n+1训练集中的所述黑样本总数为零。

另一方面，提供了一种数据处理装置，所述装置包括：

获取模块，用于获取在线网络业务的用户数据；

初步数据处理模块，用于将所述用户数据输入信用评分卡模型，获得所述用户数据的初步数据处理结果；

数据处理模块，用于响应于所述初步数据处理结果指示所述用户数据对应的用户为候选用户，将所述用户数据输入至数据处理规则模型中得到所述用户数据的数据处理结果，所述数据处理结果用以指示所述用户数据对应的用户是否为目标用户，所述数据处理规则模型是根据第一训练集训练得到的，所述第一训练集包括白样本和黑样本，所述白样本是指已确定为目标用户的用户数据，所述黑样本是指已确定为非目标用户的用户数据，所述目标用户是所述在线网络业务可服务的对象，所述非目标用户是所述在线网络业务不可服务的对象。

在一种可能的实现方式中，所述装置还包括数据处理规则模型训练模块，用于基于所述第一训练集生成所述数据处理规则模型；所述数据处理规则训练模快包括：

第一生成子模块，用于在第1次迭代过程中，基于所述第一训练集生成第一规则，所述第一规则是指从所述第一训练集中筛选出所述黑样本时，黑样本率最高的规则；

第一剔除子模块，用于剔除所述第一训练集中命中所述第一规则的样本，生成第二训练集；

第n生成子模块，用于在第n次迭代过程中，基于第n训练集生成第n规则，所述第n规则是指从所述第n训练集中筛选出所述黑样本时，所述黑样本率最高的规则，n为正整数；

第n剔除子模块，用于剔除所述第n训练集中命中所述第n规则的样本，生成第n+1训练集；

停止迭代子模块，用于响应于所述第n+1训练集满足指定条件，停止迭代；

组合子模块，用于将所述第一规则至所述第n规则进行组合，生成所述数据处理规则模型。

在一种可能的实现方式中，所述第n生成子模块，包括：

模型构建子单元，用于基于所述第n训练集构建m个决策树模型，其中，构建m个所述决策树模型所使用的N个特征组中，每个所述特征组中均存在至少一个特征与其他所述特征组不相同，m，N为正整数；

获取子单元，用于获取m个所述决策树模型的各个叶子节点中的所述黑样本率和黑样本召回率，所述黑样本召回率是指，通过所述叶子节点筛选出的黑样本数量占所述叶子节点中黑样本总数的比例；

第一确定子单元，用于根据各个所述决策树模型中各个所述叶子节点的所述黑样本率和所述黑样本召回率确定规则路径集；

第二确定子单元，用于确定所述规则路径集中所述黑样本率最高的所述规则路径所对应的子特征组为所述第n规则。

在一种可能的实现方式中，所述数据处理规则模型训练模块，还包括：

获取子模块，用于获取所述第n训练集的所述黑样本总数和所述黑样本率；

所述第一确定子单元，用于响应于各个所述决策树中各个所述叶子节点的所述黑样本率满足与对应的所述第n训练集的黑样本率之间的倍数关系，所述黑样本召回率达到第一阈值，确定所述叶子节点对应的规则路径为所述规则路径集的子集。

在一种可能的实现方式中，所述规则路径集的子集所对应的所述叶子节点的所述黑样本率大于所述叶子节点的所述黑样本召回率。

在一种可能的实现方式中，所述决策树模型的深度满足第二阈值，所述模型构建子单元，用于根据所述决策树模型的深度确定所述m个决策树模型所使用的N个所述特征组中，每个所述特征组所包含的特征个数；

所述数据处理模块用于，响应于所述用户数据满足所述数据处理规则模型中的所有所述数据处理规则，确认所述用户数据的所对应的用户为目标用户；

在一种可能的实现方式中，所述指定条件包括：

或者，

所述第n+1训练集中的所述黑样本总数为零。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一条程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的数据处理方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述本申请实施例中提供的数据处理方法。

本申请提供的技术方案带来的有益效果至少包括：

本申请所示的方法通过获取在线网络业务的用户数据；将用户数据输入信用评分卡模型，获得用户数据的初步数据处理结果；响应于初步数据处理结果指示用户数据对应的用户为候选用户，将用户数据输入至数据处理规则模型中得到用户数据的数据处理结果。使得服务器能够在信用评分卡模型判断的基础上，进一步通过数据处理规则模型对用户数据进行进一步判断，以减少对局部非目标用户的误判率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一示例性实施例示出的树的结构示意图；

图2示出了本申请一示例性实施例示出的A卡确定非目标用户的示意图；

图3示出了本申请一示例性实施例示出的计算机系统的结构示意图；

图4示出了本申请一示例性实施例提供的信用数据处理方法的流程图；

图5示出了本申请一示例性实施例提供的数据处理规则模型的建立方法的流程图；

图6示出了本申请一示例性实施例提供的决策树模型结构示意图；

图7示出了本申请一个示例性实施例提供的数据处理装置的结构框图；

图8是根据一示例性实施例示出的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单的介绍：

1)信用评分

信用评分是指根据客户的各种历史信用资料，利用一定的信用评分模型，得到不同等级的信用分数，根据客户的信用分数，授信者可以通过分析客户按时还款的可能性，据此决定是否给予授信以及授信的额度和利率。

信用评分代表了个人的信用水平，一般分数越高，信用越好，具体来说，分数体现了个人违约的可能性，也就是违约的概率，不同的分数代表客户的违约可能性不同，理论上讲，每个分数都代表了一种违约可能。

2)信用评分卡模型

信用评分卡模型是一种信用评分模型，其运用现代的数理统计模型技术，通过对借款人信用历史记录和业务活动记录的深度数据挖掘、分析和提炼，发现蕴藏在纷繁复杂数据中、反映消费者风险特征和预期信贷表现的知识和规律，并通过评分的方式总结出来，作为管理决策的科学依据。

ABC卡系是如今在银行，P2P(peer to peer lending，点对点网络借款)等各种贷款业务机构，普遍使用的信用评分卡系，是对客户实行打分制，以期对客户有一个优质与否的评判。

其中，A卡(Application score card，申请评分卡)，又称申请者评级模型，侧重贷前，主要应用于相关融资类业务中新用户的主体评级，一般可做贷款0至1年的信用分析；

B卡(Behavior score card，行为评分卡)，又称行为评级模型，侧重贷中，主要应用于相关融资类业务中存量客户在续存期内的管理，申请人有了一定行为后，有了较大数据进行的分析，一般为3至5年；

C卡(Collection score card，催收评分卡)，又称催收评级模型，侧重贷后，主要应用于相关融资类业务中新客户可能存在的欺诈行为的预测管理，对数据要求更大，需加入催收后客户反应等属性数据。

3)授信

授信是指商业银行向非金融机构客户直接提供的资金，或者对客户在有关经济活动中可能产生的赔偿、支付责任做出的保证，包括贷款、贸易融资、票据融资、融资租赁、透支、各项垫款等表内业务，以及票据承兑、开出信用证、保函、备用信用证、信用证保兑、债券发行担保、借款担保、有追索权的资产销售、未使用的不可撤销的贷款承诺等表外业务。简单来说，授信是指银行向客户直接提供资金支持，或对客户在有关经济活动中的信用向第三方作出保证的行为。

4)好用户

在金融行业，好用户是指信用好的客户，表现为用户首次借款后前3个账单日表现，每个账单最大逾期天数为零的用户，在本申请实施例中，好用户表示为目标用户。

5)坏用户

在金融行业，坏用户是指信用差的客户，表现为用户首次借款后前3个账单日表现中，有过最大逾期天数大于30天的用户，在本申请实施例中，坏用户表示为非目标用户。

6)账单日

信用卡账单日是指发卡银行每月会定期对客户的信用卡账户当期发生的各项交易，费用等进行汇总结算，并结计利息，计算当期总欠款金额和最小还款额，并邮寄对账单，此日期即为信用卡的账单日。

7)决策树(Decision Tree)

在机器学习中，决策树是一个预测模型，代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。

8)叶子节点

叶子结点是是指一棵树中没有子结点的结点，简称“叶子”，又称为终端结点。

请参考图1，其示出了本申请一示例性实施例示出的树的结构示意图，如图1所示，在图1所示的树中，节点A没有父节点，即初始分裂节点，因此节点A被称为根节点，其包含样本全集，节点B和节点C为节点A的子节点，同时节点B又是节点D和节点E的父节点，节点C又是节点F和节点G的父节点，因此节点B和节点C被称为非终端节点，也叫内部节点，而节点D、E、F、G没有子节点，因此节点D、E、F、G被称为叶子节点。

在本申请实施例中，主要侧重于贷前的信用分析，即对新用户的信用分析，在A卡的作用下，通常可以在授信时排除掉大部分的非目标用户，而A卡在城市区域，用户渠道来源等用户差异化处理上，通常表现能力不够，即确定非目标用户的能力有限，比如，请参考图2，其示出了本申请一示例性实施例示出的A卡确定非目标用户的示意图。如图2所示，A卡通常以一个固定或者动态阈值的方式被使用，也就是说通过A卡对获得的用户数据进行信用评分处理，信用评分高于固定或者动态阈值的用户被确定为目标用户，信用评分低于固定或者动态阈值的用户被确定为非目标用户，比如，信用评分可以表现为芝麻信用分等，可以从身份特质、信用历史、履约能力、行为偏好以及人脉关系等方面对用户进行信用评分。在图2中，处于区域210的用户在A卡的作用下被确定为目标用户，处于区域220的用户在A卡的作用下被确定为非目标用户。然而，在已确定的目标用户中，仍存在由于城市区域，用户渠道来源等用户差异化所造成的局部非目标用户230，比如对于用户1而言，其身份特质表现良好，但其信用历史中存在拉低信用评分的因素，反映到整体的信用评分中可能整体信用评分大于固定或者动态阈值，即用户1被确定为目标用户，但是该拉低信用评分的因素会影响到授信，则用户1为局部非目标用户。因此，需要在A卡的基础上，结合参数评分规则对A卡确定的目标用户进行筛选，以从中过滤掉局部非目标用户，从而实现不同用户之间的差异化，来解决局部区域用户的差异化，同时保证可解释性。

为实现上述目的，本申请提供了一种数据处理方法，能够在可解释的规则将局部非目标用户筛选出来的基础上，减少系统的冗余，提高系统效率，保证数据处理规则的覆盖率和准确率。请参考图3，其示出了本申请一示例性实施例示出的计算机系统的结构示意图，该计算机系统包括终端310和服务器320。

终端310与服务器320之间通过有线或者无线网络相互连接。

可选地，终端310可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。

终端310包括第一存储器和第一处理器。第一存储器中存储有第一程序；上述第一程序被第一处理器调用执行以对样本进行收集。第一存储器可以包括但不限于以下几种：随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、以及电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)。

第一处理器可以由一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(Central Processing Unit，CPU)或者网络处理器(NetworkProcessor，NP)。

可选地，终端310中包括显示器；显示器用于显示样本特征，例如，样本借贷状态、样本是否逾期未还款、样本信誉度等。

服务器320包括第二存储器和第二处理器。第二存储器中存储有第二程序，上述第二程序被第二处理器调用来实现本申请提供的风险识别方法。示例性的，第二存储器中存储有数据处理规则模型321，上述数据处理规则模型321被第二处理器调用以实现数据处理方法中服务器执行的步骤。可选地，第二存储器可以包括但不限于以下几种：RAM(RandomAccessMemory，随机存取存储器)、ROM(Read Only Memory，只读存储器)、PROM(ProgrammableRead Only Memory，可编程只读存储器)、EPROM(Erasable ProgrammableRead OnlyMemory，可擦除可编程只读存储器)、EEPROM(Electrically ErasableProgrammable ReadOnly Memory，带电可擦除可编程只读存储器)。

可选地，第二处理器通过调用第二存储器中存储的数据处理规则模型321，以实现上述数据处理方法。可选地，第二处理器可以是通用处理器，比如，CPU(CentralProcessingUnit，中央处理器)或者NP(Network Processor，网络处理器)。

示意性的，本申请提供的数据处理方法可以应用于贷款软件、信用软件、支付软件等金融产品(终端)中。

请参考图4，其示出了本申请一示例性实施例提供的信用数据处理方法的流程图，该数据处理方法可以由服务器执行，该服务器可以是图3所示的服务器，该方法包括：

步骤410，获取在线网络业务的用户数据。

可选的，在线网络业务是利用网络进行数据传输的一种解决用户需求的业务，网络可以包括局域网、广域网中的至少一种。在线网络业务可以包括金融相关的网络业务、信誉相关的网络业务，以及其他需要对用户的信用参数进行评估的网络业务。

其中，金融相关的网络业务包括：借款业务、贷款业务、信用卡业务等；信誉相关的网络业务包括：先试后买业务、物品借用业务、信誉统计业务等；其他需要对用户信用参数进行评估的网络业务包括：需要评估识别用户违规/违约概率的业务，需要评估识别用户消费能力的业务、需要评估识别用户恶意行为的业务等。

用户数据是指存储在存储介质中的在线网络业务的相关数据。其中，用户数据可以包括用户ID(IDentity，身份标识号)、用户昵称(姓名)、借款日、借款数额、还款期限、是否还款、用户借用物品数量、用户借用物品价值、用户违规行为等于数据。

步骤420，将用户数据输入信用评分卡模型，获得用户数据的初步数据处理结果。

其中，该信用评分卡模型可以是A卡，即申请评分卡，其可以在授信时排除掉大部分的非目标用户，即初步判断该用户数据所对应的用户是否为目标用户，由于信用评分卡模型可能漏判一部分的局部非目标用户，因此将用户数据的初步数据处理结果所指示的目标用户获取为候选用户，信用评分卡模型的判断过程可以参考图2所示的判断方式，此处不再赘述。

步骤430，响应于初步数据处理结果指示用户数据对应的用户为候选用户，将用户数据输入至数据处理规则模型中得到用户数据的数据处理结果。

其中，该数据处理结果用以指示用户数据对应的用户是否为目标用户，该数据处理规则模型是根据第一训练集训练得到的，该第一训练集包括白样本和黑样本，白样本是指已确定为目标用户的用户数据，黑样本是指已确定为非目标用户的用户数据，目标用户是在线网络业务可服务的对象，非目标用户是在线网络业务不可服务的对象。

该数据处理规则模型输出的评估结果可以是通过该用户数据判断对应用户是目标用户、是非目标用户、是目标用户的概率、是非目标用户的概率中的至少一种。

数据处理规则模型可以根据第一训练集训练获得，第一训练集可以是由白样本集和黑样本集组成样本集，其中白样本集中包含至少两个白样本，黑样本集中包含至少两个黑样本。数据处理规则模型是具有分类能力的机器模型，用来将用户数据按照数据处理规则分类得出识别结果。

可选的，数据处理规则模型中包含至少两条数据处理规则；数据处理规则模型的判断过程可以实现为：

数据处理规则模型基于数据处理规则模型中的至少两条数据处理规则对用户数据进行判断；

响应于用户数据满足数据处理规则模型中的所有数据处理规则，确认用户数据的所对应的用户为目标用户；

响应于用户数据不满足数据处理规则模型中的至少一条数据处理规则，确认用户数据对应的用户为非目标用户。

综上所述，本申请实施例中提供的数据处理方法，由服务器通过获取在线网络业务的用户数据；将用户数据输入信用评分卡模型，获得用户数据的初步数据处理结果；响应于初步数据处理结果指示用户数据对应的用户为候选用户，将用户数据输入至数据处理规则模型中得到用户数据的数据处理结果，使得服务器能够在信用评分卡模型判断的基础上，进一步通过数据处理规则模型对用户数据进行进一步判断，以减少对局部非目标用户的误判率。

为实现数据处理规则模型中的数据处理规则的可解释性，在本申请实施例中，采用决策树模型作为基础模型建立数据处理规则模型，本申请实施例提供一种数据处理规则模型的建立方法，请参考图5，其示出了本申请一示例性实施例提供的数据处理规则模型的建立方法的流程图，该数据处理规则模型的建立方法可以由服务器执行，其中，该服务器可以实现为图3所示的服务器。如图5所示，数据处理规则模型的建立步骤可以包括：

步骤510，在第1次迭代过程中，基于第一训练集生成第一规则，该第一规则是指从第一训练集中筛选出黑样本时，黑样本率最高的规则。

步骤520，剔除第一训练集中命中第一规则的样本，生成第二训练集。

步骤530，在第n次迭代过程中，基于第n训练集生成第n规则，该第n规则是指从第n训练集中筛选出黑样本时，黑样本率最高的规则，n为正整数。

其中，上述生成第n规则的过程可以实现为：

步骤531，基于第n训练集构建m个决策树模型，其中，构建m个决策树模型所使用的N个特征组中，每个特征组中均存在至少一个特征与其他特征组不相同，m，N为正整数。

可选的，决策树模型的深度满足第二阈值，根据决策树模型的深度确定m个决策树模型所使用的N个特征组中，每个特征组所包含的特征个数；

其中，特征组中的特征在决策树模型中的分布是根据特征在决策树模型中的对应节点的黑样本误判率确定的。

可选的，在本申请实施例中，决策树模型是二叉树模型，即对于决策树模型中的每一个节点都包含两个子节点。

可选的，在m个决策树模型的构建过程中，构建每个决策树模型所使用的特征都是从候选特征中随机抽样获取的，在一种可能的情况下，每个决策树模型对应从候选特征中随机抽样获取x个特征，x的数值可以大于或者等于由决策树模型的深度确定的特征组中包含的特征的个数，比如，候选特征有100个，预先设定决策树模型的深度为3，且该决策树为二叉树，那么即使是在满树(不对决策树模型进行剪枝，即对已生成的决策树模型进行简化)的情况下，该决策树模型所能用到的特征的数目最多为2^a-1个，其中，a表示决策树模型的深度，因此对于决策树模型的深度为3的情况下，决策树模型所能用到的特征最多为7个。每个决策树模型对应从候选的100个特征中随机抽样获取x个特征，假设x的数值为20，那么对于每个决策树模型而言都可以从候选特征中随机获取20个特征作为子候选特征，由于每个决策树所能用到的特征最多为7个，所以在决策树模型建立的过程中，需要从20个子候选特征中选出1个对应于某一节点的特征，且该特征对于该节点的黑样本误判率最低，重复上述过程，以确定该决策树模型的各个节点所使用的特征。

可选的，特征在决策树模型中的对应节点的黑样本误判率是通过计算特征对对应节点的样本集计算损失函数进行确定的，且损失函数中，黑样本的误判率的计算权重高于白样本的误判率的计算权重。

在特征的选择过程中，为保证选出的特征能够对尽可能准确的筛选出样本集中的黑样本，需要选择针对每个节点的样本集黑样本误判率最低的特征作为该节点对应的特征，因此，在计算损失函数时，需要使得黑样本误判率的权重大于白样本误判率的权重。比如，在计算优化方程时，可以使用如下公式:

其中，θ表示输入特征参数，f_i(θ)表示目标函数。N表示样本集中样本个数，i表示第i个样本，ω_i表示对应于该样本的样本权重，包括黑样本误判率权重和白样本误判率权重。

步骤532，获取m个决策树模型的各个叶子节点中的黑样本率和黑样本召回率，黑样本召回率是指，通过叶子节点筛选出的黑样本数量占叶子节点中黑样本总数的比例。

对于深度为a的决策树模型，在不存在剪枝的情况下，其对应有2^a个叶子节点。以决策树模型的深度为3，且不存在剪枝的情况，那么对于每一个决策树模型都对应有8个叶子节点，对于每个叶子节点分别计算黑样本率和黑样本召回率，请参考图6，其示出了本申请一示例性实施例提供的决策树模型结构示意图，如图6所示，该决策树模型的深度为3，在对应有8个叶子节点610，在建树过程中使用了7个特征，假设该决策树模型所对应的训练集中总的黑样本个数为500个，对于叶子节点611而言，其包含了100个目标用户和50个非目标用户，也就是说，该叶子节点所对应的规则路径命中了100个目标用户和50个非目标用户，那么对于该叶子节点而言，其黑样本率为50/(100+50)*100％＝33.33％，黑样本召回率为50/500*100％＝10％。

步骤533，根据各个决策树中各个叶子节点的黑样本率和黑样本召回率确定规则路径集。

可选的，在第n次迭代过程中，基于第n训练集生成第n规则之前，获取第n训练集的黑样本总数和黑样本率。

响应于各个决策树中各个叶子节点的黑样本率满足与对应的第n训练集的黑样本率之间的倍数关系，黑样本召回率达到第一阈值，确定叶子节点对应的规则路径为规则路径集的子集。

可选的，该规则路径集的子集所对应的叶子节点的黑样本率大于叶子节点的黑样本召回率。

例如，基于第一训练集生成第一规则的过程中，首先会获取第一训练集中的黑样本总数和黑样本率，即第一训练集中的黑样本的数量占据第一训练集中所有样本数量的比例，然后基于第一训练集构建m个决策树模型，每个决策树模型对应有2^a个叶子节点，a为决策树模型的深度，计算每个叶子节点的黑样本率和黑样本召回率，预设叶子节点的黑样本率是第一训练集的黑样本率的3倍，且叶子节点的黑样本召回率大于或者等于第一阈值r％，则获取该叶子节点对应的规则路径为第一规则对应的规则路径集的子集，即符合上述条件的规则路径被视为可以有效筛选出候选用户中的非目标用户。

可选的，每个决策树可以对应有多条规则路径为规则路径集的子集，或者，可以选取每个决策树中黑样本率最高的规则路径为规则路径集的子集。

由于本申请所提供的数据处理规则模型的主要目的是筛选出非目标用户，因此，可以将规则路径的筛选条件中，叶子节点的黑样本率的数值设置为大于黑样本召回率。

步骤534，确定规则路径集中黑样本率最高的规则路径所对应的子特征组为第n规则。

以图6所示的决策树模型为例，假设叶子节点611的黑样本率是对应于该训练集的所有叶子节点中黑样本率最高的，即叶子节点611对应的规则路径是该训练集对应的规则路径集中黑样本率最高的，那么获取叶子节点对应的规则路径的子特征组为第n规则，即特征1、特征2和特征5组成第n规则。

步骤540，剔除第n训练集中命中第n规则的样本，生成第n+1训练集。

步骤550，响应于第n+1训练集满足指定条件，停止迭代。

在数据处理规则模型的建立过程中，为保证数据处理规则模型中的规则尽可能不交叉覆盖，可以通过循环树的方式生成数据处理规则模型中的规则。实现为，在基于第一训练集确定了第一规则后，将第一规则命中的样本从第一训练集中剔除，形成第二训练样本，其中，第一规则命中的样本即为通过第一规则后已确定为黑样本的样本，再对该部分样本进行判断会对系统资源造成浪费，并且容易造成规则之间的交叉覆盖，因此生成后续的规则之前将已确定为黑样本的样本从第一训练集中剔除，以减少对系统资源的浪费，同时减少生成的规则之间的交叉覆盖。

以图6所示决策树模型为例，若图6所示决策树模型中的训练集为第一训练集，那么在确定第一规则为由特征1、特征2、特征5组成的规则后，叶子节点611中的样本即为第一规则命中的样本，将叶子节点611中的样本从第一训练集中剔除掉后，第一训练集中剩下的样本的集合即为第二训练集；依照确定第二规则，生成第二样本集的方式生成第n规则以及第n+1样本集，直至第n+1样本集满足指定条件，则停止迭代。

可选的，该指定条件可以是：

第n+1训练集对应的决策树模型的叶子节点的黑样本率均小于第n+1训练集的黑样本率；

或者，

第n+1训练集对应的决策树模型的叶子节点的黑样本率均不满足与第n+1训练集的黑样本率之间的倍数关系；

或者，

第n+1训练集中的黑样本总数为零。

步骤560，将第一规则至第n规则进行组合，生成数据处理规则模型。

由第一规则至第n规则组合生成的数据处理规则模型，可以在要求强解释性的在线网络业务场景中，在信用评分卡模型的对用户数据判断的基础上，对用户数据进行进一步判断，以减少对局部非目标用户的误判率。

请参考图7，其示出了本申请一个示例性实施例提供的数据处理装置的结构框图，该装置用于服务器中，该服务器可以是图3所示的服务器，如图7所示，该装置包括：

获取模块710，用于获取在线网络业务的用户数据；

初步数据处理模块720，用于将用户数据输入信用评分卡模型，获得用户数据的初步数据处理结果；

数据处理模块730，用于响应于初步数据处理结果指示用户数据对应的用户为候选用户，将用户数据输入至数据处理规则模型中得到用户数据的数据处理结果，该数据处理结果用以指示用户数据对应的用户是否为目标用户，该数据处理规则模型是根据第一训练集训练得到的，该第一训练集包括白样本和黑样本，白样本是指已确定为目标用户的用户数据，黑样本是指已确定为非目标用户的用户数据，目标用户是在线网络业务可服务的对象，非目标用户是在线网络业务不可服务的对象。

在一种可能的实现方式中，该装置还包括数据处理规则模型训练模块，用于基于第一训练集生成数据处理规则模型；该数据处理规则训练模快包括：

第一生成子模块，用于在第1次迭代过程中，基于第一训练集生成第一规则，该第一规则是指从第一训练集中筛选出黑样本时，黑样本率最高的规则；

第一剔除子模块，用于剔除第一训练集中命中第一规则的样本，生成第二训练集；

第n生成子模块，用于在第n次迭代过程中，基于第n训练集生成第n规则，第n规则是指从第n训练集中筛选出黑样本时，黑样本率最高的规则，n为正整数；

第n剔除子模块，用于剔除第n训练集中命中第n规则的样本，生成第n+1训练集；

停止迭代子模块，用于响应于第n+1训练集满足指定条件，停止迭代；

组合子模块，用于将第一规则至第n规则进行组合，生成数据处理规则模型。

在一种可能的实现方式中，该第n生成子模块，包括：

模型构建子单元，用于基于第n训练集构建m个决策树模型，其中，构建m个决策树模型所使用的N个特征组中，每个特征组中均存在至少一个特征与其他特征组不相同，m，N为正整数；

获取子单元，用于获取m个决策树模型的各个叶子节点中的黑样本率和黑样本召回率，该黑样本召回率是指，通过叶子节点筛选出的黑样本数量占叶子节点中黑样本总数的比例；

第一确定子单元，用于根据各个决策树模型中各个叶子节点的黑样本率和黑样本召回率确定规则路径集；

第二确定子单元，用于确定规则路径集中黑样本率最高的规则路径所对应的子特征组为第n规则。

在一种可能的实现方式中，该数据处理规则模型训练模块，还包括：

获取子模块，用于获取第n训练集的黑样本总数和黑样本率；

该第一确定子单元，用于响应于各个决策树中各个叶子节点的黑样本率满足与对应的第n训练集的黑样本率之间的倍数关系，黑样本召回率达到第一阈值，确定叶子节点对应的规则路径为规则路径集的子集。

在一种可能的实现方式中，该规则路径集的子集所对应的叶子节点的黑样本率大于叶子节点的黑样本召回率。

在一种可能的实现方式中，该决策树模型的深度满足第二阈值，该模型构建子单元，用于根据决策树模型的深度确定m个决策树模型所使用的N个特征组中，每个特征组所包含的特征个数；

在一种可能的实现方式中，特征在决策树模型中的对应节点的黑样本误判率是通过计算特征对对应节点的样本集计算损失函数进行确定的，该损失函数中，黑样本的误判率的计算权重高于白样本的误判率的计算权重。

在一种可能的实现方式中，该数据处理规则模型中包含至少两条数据处理规则；

该数据处理模块730用于，响应于用户数据满足数据处理规则模型中的所有数据处理规则，确认用户数据的所对应的用户为目标用户；

在一种可能的实现方式中，指定条件包括：

或者，

第n+1训练集中的黑样本总数为零。

综上所述，本申请实施例中提供的数据处理装置，应用在服务器中，通过获取在线网络业务的用户数据；将用户数据输入信用评分卡模型，获得用户数据的初步数据处理结果；响应于初步数据处理结果指示用户数据对应的用户为候选用户，将用户数据输入至数据处理规则模型中得到用户数据的数据处理结果，使得服务器能够在信用评分卡模型判断的基础上，进一步通过数据处理规则模型对用户数据进行进一步判断，以减少对局部非目标用户的误判率。

图8是根据一示例性实施例示出的计算机设备800的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备800包括中央处理单元(CentralProcessing Unit，CPU)801、包括随机存取存储器(Random Access Memory，RAM)802和只读存储器(Read-Only Memory，ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备808。

所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备808通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备808及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，所述大容量存储设备808可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digitalversatile disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备808可以统称为存储器。

根据本申请的各种实施例，所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器801通过执行该一个或一个以上程序来实现图2或图3所示的方法的全部或者部分步骤。

本领域技术人员可以理解，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本申请实施例还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述数据处理方法。例如，该计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取在线网络业务的用户数据；

响应于所述初步数据处理结果指示所述用户数据对应的用户为候选用户，将所述用户数据输入至数据处理规则模型中得到所述用户数据的数据处理结果，所述数据处理结果用以指示所述用户数据对应的用户是否为目标用户，所述数据处理规则模型是根据第一训练集训练得到的，所述第一训练集包括白样本和黑样本。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括基于所述第一训练集建立所述数据处理规则模型，所述数据处理规则模型的建立过程包括：

响应于所述第n+1训练集满足指定条件，停止迭代；

3.根据权利要求2所述的方法，其特征在于，所述在第n次迭代过程中，基于所述第n训练集生成第n规则，包括：

4.根据权利要求3所述的方法，其特征在于，所述在第n次迭代过程中，基于所述第n训练集生成第n规则之前，还包括：

获取所述第n训练集的所述黑样本总数和所述黑样本率；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求3所述的方法，其特征在于，所述决策树模型的深度满足第二阈值，所述构建m个决策树模型还包括：

7.根据权利要求6所述的方法，其特征在于，所述特征在所述决策树模型中的对应节点的所述黑样本误判率是通过计算所述特征对对应节点的样本集计算损失函数进行确定的，所述损失函数中，所述黑样本的误判率的计算权重高于所述白样本的误判率的计算权重。

8.根据权利要求1所述的方法，其特征在于，所述数据处理规则模型中包含至少两条数据处理规则；

9.根据权利要求3所述的方法，其特征在于，所述指定条件包括：

或者，

所述第n+1训练集中的所述黑样本总数为零。

10.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取在线网络业务的用户数据；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一条程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的数据处理方法。

12.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的数据处理方法。