CN116630030A

CN116630030A - 一种运营商与互联网行业信用评估方法与系统

Info

Publication number: CN116630030A
Application number: CN202310729885.8A
Authority: CN
Inventors: 张海; 王伟
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-08-22

Abstract

本发明涉及大数据分析技术领域，具体为一种运营商与互联网行业信用评估方法与系统，包括以下步骤：在本地搭建的miniconda包上传至大数据集群客户端，为建模提供相应的工具库支撑；取样本数据；数据预处理；在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡；模型部署；有益效果为：本发明提出的运营商与互联网行业信用评估方法与系统，提供用户信用评分模型指标体系管理，后台提供指标的维护、指标更新规则、指标生命周期、指标权重调整等功能，实现用户信用的全程跟踪管理。指标管理可根据不同客户需求，实现基于用户信用指标，结合行业客户特征，实现多指标的选取、多维度的选取、指标权重调整、维度权重调整等。

Description

一种运营商与互联网行业信用评估方法与系统

技术领域

本发明涉及大数据分析技术领域，具体为一种运营商与互联网行业信用评估方法与系统。

背景技术

在运营商内部业务运用中，涉及消费品信贷或新业务(如：零首付购机、延迟停机、授信话费、新业务试用、商家合作活动优先等)应用时，需要评估用户的信用风险。

现有技术中，互联网的“虚拟性”也使得信用风险信息的不对称问题日益凸出，阻碍互联网行业的良性发展。互联网金融、网络购物平台、互联网旅游公司推出越来越多的信用消费产品，产生大量的用户信用评估需求；logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，logistic回归已广泛应用在大数据分析领域。

但是，由于Logistic回归对变量有特殊的要求，当分类自变量多于两个类别时，就需要建立一组虚拟变量代表类型的归属性质。最终选取的特征变量中有个是属性变量，其中有个不是二分类变量还不能直接用于建模。

发明内容

本发明的目的在于提供一种运营商与互联网行业信用评估方法与系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种运营商与互联网行业信用评估方法，所述方法包括以下步骤：

在本地搭建的miniconda包上传至大数据集群客户端，为建模提供相应的工具库支撑；

取样本数据；

数据预处理；

在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡；

模型部署。

优选的，取样本数据具体操作如下：

在大数据平台客户端，根据评估需要取正负样本进行数据分析，以根据运营商数据构建的通用型评分卡为例，在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本，再取等量正常用户数据做正样本，构建训练和测试数据集。

优选的，数据预处理具体操作如下：

在客户端根据客户的样本数据质量，以IV值和相关性系数等指标分析各个指标数据的可用性，剔除有效信息较低的数据指标，并保留指定的代表性较强的数据指标，对样本数据进行异常值剔除、缺失值填充，归一化特征工程。

优选的，模型部署的具体操作如下：

在客户端将评分卡数据写入hive数据表，通过dataos平台读取全量用户的数据，并依据评分卡生成全量用户的信用评分，依据前台需求将评分结果写入redis或者mysql。

一种运营商与互联网行业信用评估方法系统，所述系统由搭建模块、采样模块、数据处理模块、训练模块以及部署模块构成；

搭建模块，在本地搭建的miniconda包上传至大数据集群客户端，为建模提供相应的工具库支撑；

采样模块，用于取样本数据；

数据处理模块，用于数据预处理；

训练模块，用于在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡；

部署模块，用于模型部署

优选的，所述采样模块中，在大数据平台客户端，根据评估需要取正负样本进行数据分析，以根据运营商数据构建的通用型评分卡为例，在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本，再取等量正常用户数据做正样本，构建训练和测试数据集。

优选的，所述数据处理模块中，在客户端根据客户的样本数据质量，以IV值和相关性系数等指标分析各个指标数据的可用性，剔除有效信息较低的数据指标，并保留指定的代表性较强的数据指标，对样本数据进行异常值剔除、缺失值填充，归一化特征工程。

优选的，所述部署模块中，在客户端将评分卡数据写入hive数据表，通过dataos平台读取全量用户的数据，并依据评分卡生成全量用户的信用评分，依据前台需求将评分结果写入redis或者mysql。

与现有技术相比，本发明的有益效果是：

本发明提出的运营商与互联网行业信用评估方法与系统，提供用户信用评分模型指标体系管理，后台提供指标的维护、指标更新规则、指标生命周期、指标权重调整等功能，实现用户信用的全程跟踪管理。指标管理可根据不同客户需求，实现基于用户信用指标，结合行业客户特征，实现多指标的选取、多维度的选取、指标权重调整、维度权重调整等，快速满足运营商和互联网行业客户信用评估需求。

具体实施方式

为了使本发明的目的、技术方案进行清楚、完整地描述，及优点更加清楚明白。应当理解，此处所描述的具体实施例是本发明一部分实施例，而不是全部的实施例，仅仅用以解释本发明实施例，并不用于限定本发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明提供一种技术方案：一种运营商与互联网行业信用评估方法，所述方法包括以下步骤：

取样本数据，具体操作如下：在大数据平台客户端，根据评估需要取正负样本进行数据分析，以根据运营商数据构建的通用型评分卡为例，在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本，再取等量正常用户数据做正样本，构建训练和测试数据集；

数据预处理；具体操作如下：在客户端根据客户的样本数据质量，以IV值和相关性系数等指标分析各个指标数据的可用性，剔除有效信息较低的数据指标，并保留指定的代表性较强的数据指标，对样本数据进行异常值剔除、缺失值填充，归一化特征工程；

模型部署，具体操作如下：在客户端将评分卡数据写入hive数据表，通过dataos平台读取全量用户的数据，并依据评分卡生成全量用户的信用评分，依据前台需求将评分结果写入redis或者mysql。

实施例二

采样模块，用于取样本数据；在大数据平台客户端，根据评估需要取正负样本进行数据分析，以根据运营商数据构建的通用型评分卡为例，在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本，再取等量正常用户数据做正样本，构建训练和测试数据集；

数据处理模块，用于数据预处理；在客户端根据客户的样本数据质量，以IV值和相关性系数等指标分析各个指标数据的可用性，剔除有效信息较低的数据指标，并保留指定的代表性较强的数据指标，对样本数据进行异常值剔除、缺失值填充，归一化特征工程；

部署模块，用于模型部署，在客户端将评分卡数据写入hive数据表，通过dataos平台读取全量用户的数据，并依据评分卡生成全量用户的信用评分，依据前台需求将评分结果写入redis或者mysql。

实施例三

在实施例一和二的基础上，提出了一种基于通信大数据和Logistic回归算法的运营商与互联网行业信用评估方法与系统。针对运营商内部和互联网行业的信用评估需要考察用户消费、行为、履约等多维特征的需求，根据国际成熟的“5C”评估模型、通信大数据和Logistic回归算法制定信用评估维度。主要包括身份特征、消费能力、行为特征、社交关系、履约历史5个维度，可以从多个维度综合评估信用。身份特征主要包括年龄、职业、家庭、性别、学历等信息；行为特征主要是消费场景、消费层次、消费习惯、是否乐于分享等；履约能力主要是考察各方面资产的信息，如动产、不动产、社保公积金缴纳等；社交关系主要是人脉圈信用度、活跃度、粉丝数、影响力等；信用历史主要是以往的贷款还款情况、违约情况、失信记录等。利用通信大数据的身份信息、消费数据、通信数据、行为数据、履约数据等，进行身份特征、消费能力、行为特征、社交关系、履约历史5个维度的评估，具体指标权重通过机器学习再结合行业专家的经验联合制定。根据指标体系可以制定不同的信用评估维度，建立不同行业用户信用评分模型，以及信用等级的评定。

实施例四

在实施例三的基础上，提出了一种基于通信大数据和Logistic回归算法的运营商与互联网行业信用评估方法与系统，具体为：

指标数据量纲处理(数据标准化)

由于Logistic回归对变量有特殊的要求，当分类自变量多于两个类别时，就需要建立一组虚拟变量代表类型的归属性质。可以看到，表中最终选取的特征变量中有个是属性变量，其中有个不是二分类变量还不能直接用于建模。在计量经济学中通常引入虚拟变量来代替属性变量，此处也采用了这一方法。根据上表中对特征变量重新分组的结果，由各特征变量产生的虚拟变量可以表示如下：

(1)数值型指标

数值型指标即取值用数值大小衡量的指标，例如在网时长、本地长途主叫次数、本地长途被叫次数、主叫次数、被叫次数、上网时间分布、联系人数量、关机次数、挂机次数、近期主动联系人个数、近期被动联系人个数、近期欠费次数、近期停机时长、近3个月平均消费、终端价格、近3个月平均充值金额等指标。采用如下公式进行标准化，

均值标准差模式：新数据＝(原数据-均值)/标准差

(2)字符型指标

①对于取值只有“是和否”2种情况的指标，例如：是否实名制、是否4/5G客户、号码更换、违约情况、是否关注促销活动、合约情况等指标，“是”的取值记为1，“否”的取值记为0。

②对于取值有多种情况的指标，例如：客户级别、缴费方式等指标，

客户级别：

缴费方式：

指标筛选

在进行模型训练前，为提升模型训练的效率，需要进行数据的预处理，包括数据质量的验证以及属性简约过程。

数据质量检验：利用值分析方法去掉一些取值不正常、数值间无差异的指标。

属性简约：属性简约可以帮助减少条件指标集中指标的数量，但仍然可以保持原数据的完整性。基于互信息的属性简约算法，通过计算指标的重要度来筛选重要指标。

信息熵：假设和/>个等价关系在U上导出的划分分别为X和Y2个等价类集合，X＝{X₁,X₂ΛX_n}Y＝{Y₁,Y₂ΛY_n}。P的信息熵为：

Q相对于P的条件熵的定义为：

对于任意属性a∈C在A的条件下的重要度SGF(a,A,D)定义为：

SGF(a,A,D)＝H(D|A)-H(D|A∪{a})

SGF(a,A,D)的值越大，说明在已知A的条件下，属性a对于预测D越重要。对在指标值中属性重要度比较小的指标直接剔除，得到用于最终评估模型的条件指标集。

模型建立

考虑具有p个指标变量构成的向量x'＝(x₁,x₂Λx_p)，假设用Y表示客户信用状况这一事件，则Y＝1表示客户目前信用良好；Y＝0表示信用情况恶劣。设条件概率P(Y＝1x)＝p为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为

其中g(x)＝β₀+β₁x₁+Λ+β_px_p。

定义不发生事件的条件概率为

那么，事件发生与事件不发生的概率之比为

这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数，即得到线性函数，

β₁,β₂Λβ_p为待估参数

利用最大似然估计来测算偏回归系数β₀,β₁Λβ_p。其基本思想是先建立似然函数与对数似然函数，求使对数似然函数最大时的参数值，其估计值即为最大似然估计值。

模型训练

通过实验样本数据进行模型训练。

采用R²指标来评价模型的拟合优度。当自变量x与因变量y完全无关时，类R²值趋近于0；而当回归模型能够全部准确预测时，类R²趋近于1。

信用分计算

各指标的信用评估分数通过Logistic回归系数加权计算，将各指标的信用评估得分加和，即得用户的信用评估总得分，然后根据分数并结合数据分布特征划分信用等级。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种运营商与互联网行业信用评估方法，其特征在于：所述方法包括以下步骤：

取样本数据；

数据预处理；

模型部署。

2.根据权利要求1所述的一种运营商与互联网行业信用评估方法，其特征在于：取样本数据具体操作如下：

3.根据权利要求2所述的一种运营商与互联网行业信用评估方法，其特征在于：数据预处理具体操作如下：

4.根据权利要求1所述的一种运营商与互联网行业信用评估方法，其特征在于：模型部署的具体操作如下：

5.一种如上述权利要求1-4任意一项所述的运营商与互联网行业信用评估方法用的运营商与互联网行业信用评估方法系统，其特征在于：所述系统由搭建模块、采样模块、数据处理模块、训练模块以及部署模块构成；

采样模块，用于取样本数据；

数据处理模块，用于数据预处理；

部署模块，用于模型部署。

6.根据权利要求5所述的一种运营商与互联网行业信用评估系统，其特征在于：所述采样模块中，在大数据平台客户端，根据评估需要取正负样本进行数据分析，以根据运营商数据构建的通用型评分卡为例，在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本，再取等量正常用户数据做正样本，构建训练和测试数据集。

7.根据权利要求6所述的一种运营商与互联网行业信用评估系统，其特征在于：所述数据处理模块中，在客户端根据客户的样本数据质量，以IV值和相关性系数等指标分析各个指标数据的可用性，剔除有效信息较低的数据指标，并保留指定的代表性较强的数据指标，对样本数据进行异常值剔除、缺失值填充，归一化特征工程。

8.根据权利要求7所述的一种运营商与互联网行业信用评估系统，其特征在于：所述部署模块中，在客户端将评分卡数据写入hive数据表，通过dataos平台读取全量用户的数据，并依据评分卡生成全量用户的信用评分，依据前台需求将评分结果写入redis或者mysql。