Nothing Special   »   [go: up one dir, main page]

CN116630030A - 一种运营商与互联网行业信用评估方法与系统 - Google Patents

一种运营商与互联网行业信用评估方法与系统 Download PDF

Info

Publication number
CN116630030A
CN116630030A CN202310729885.8A CN202310729885A CN116630030A CN 116630030 A CN116630030 A CN 116630030A CN 202310729885 A CN202310729885 A CN 202310729885A CN 116630030 A CN116630030 A CN 116630030A
Authority
CN
China
Prior art keywords
data
client
index
credit
operator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310729885.8A
Other languages
English (en)
Inventor
张海
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Communication Information System Co Ltd filed Critical Inspur Communication Information System Co Ltd
Priority to CN202310729885.8A priority Critical patent/CN116630030A/zh
Publication of CN116630030A publication Critical patent/CN116630030A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及大数据分析技术领域,具体为一种运营商与互联网行业信用评估方法与系统,包括以下步骤:在本地搭建的miniconda包上传至大数据集群客户端,为建模提供相应的工具库支撑;取样本数据;数据预处理;在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡;模型部署;有益效果为:本发明提出的运营商与互联网行业信用评估方法与系统,提供用户信用评分模型指标体系管理,后台提供指标的维护、指标更新规则、指标生命周期、指标权重调整等功能,实现用户信用的全程跟踪管理。指标管理可根据不同客户需求,实现基于用户信用指标,结合行业客户特征,实现多指标的选取、多维度的选取、指标权重调整、维度权重调整等。

Description

一种运营商与互联网行业信用评估方法与系统
技术领域
本发明涉及大数据分析技术领域,具体为一种运营商与互联网行业信用评估方法与系统。
背景技术
在运营商内部业务运用中,涉及消费品信贷或新业务(如:零首付购机、延迟停机、授信话费、新业务试用、商家合作活动优先等)应用时,需要评估用户的信用风险。
现有技术中,互联网的“虚拟性”也使得信用风险信息的不对称问题日益凸出,阻碍互联网行业的良性发展。互联网金融、网络购物平台、互联网旅游公司推出越来越多的信用消费产品,产生大量的用户信用评估需求;logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,logistic回归已广泛应用在大数据分析领域。
但是,由于Logistic回归对变量有特殊的要求,当分类自变量多于两个类别时,就需要建立一组虚拟变量代表类型的归属性质。最终选取的特征变量中有个是属性变量,其中有个不是二分类变量还不能直接用于建模。
发明内容
本发明的目的在于提供一种运营商与互联网行业信用评估方法与系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种运营商与互联网行业信用评估方法,所述方法包括以下步骤:
在本地搭建的miniconda包上传至大数据集群客户端,为建模提供相应的工具库支撑;
取样本数据;
数据预处理;
在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡;
模型部署。
优选的,取样本数据具体操作如下:
在大数据平台客户端,根据评估需要取正负样本进行数据分析,以根据运营商数据构建的通用型评分卡为例,在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本,再取等量正常用户数据做正样本,构建训练和测试数据集。
优选的,数据预处理具体操作如下:
在客户端根据客户的样本数据质量,以IV值和相关性系数等指标分析各个指标数据的可用性,剔除有效信息较低的数据指标,并保留指定的代表性较强的数据指标,对样本数据进行异常值剔除、缺失值填充,归一化特征工程。
优选的,模型部署的具体操作如下:
在客户端将评分卡数据写入hive数据表,通过dataos平台读取全量用户的数据,并依据评分卡生成全量用户的信用评分,依据前台需求将评分结果写入redis或者mysql。
一种运营商与互联网行业信用评估方法系统,所述系统由搭建模块、采样模块、数据处理模块、训练模块以及部署模块构成;
搭建模块,在本地搭建的miniconda包上传至大数据集群客户端,为建模提供相应的工具库支撑;
采样模块,用于取样本数据;
数据处理模块,用于数据预处理;
训练模块,用于在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡;
部署模块,用于模型部署
优选的,所述采样模块中,在大数据平台客户端,根据评估需要取正负样本进行数据分析,以根据运营商数据构建的通用型评分卡为例,在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本,再取等量正常用户数据做正样本,构建训练和测试数据集。
优选的,所述数据处理模块中,在客户端根据客户的样本数据质量,以IV值和相关性系数等指标分析各个指标数据的可用性,剔除有效信息较低的数据指标,并保留指定的代表性较强的数据指标,对样本数据进行异常值剔除、缺失值填充,归一化特征工程。
优选的,所述部署模块中,在客户端将评分卡数据写入hive数据表,通过dataos平台读取全量用户的数据,并依据评分卡生成全量用户的信用评分,依据前台需求将评分结果写入redis或者mysql。
与现有技术相比,本发明的有益效果是:
本发明提出的运营商与互联网行业信用评估方法与系统,提供用户信用评分模型指标体系管理,后台提供指标的维护、指标更新规则、指标生命周期、指标权重调整等功能,实现用户信用的全程跟踪管理。指标管理可根据不同客户需求,实现基于用户信用指标,结合行业客户特征,实现多指标的选取、多维度的选取、指标权重调整、维度权重调整等,快速满足运营商和互联网行业客户信用评估需求。
具体实施方式
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明提供一种技术方案:一种运营商与互联网行业信用评估方法,所述方法包括以下步骤:
在本地搭建的miniconda包上传至大数据集群客户端,为建模提供相应的工具库支撑;
取样本数据,具体操作如下:在大数据平台客户端,根据评估需要取正负样本进行数据分析,以根据运营商数据构建的通用型评分卡为例,在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本,再取等量正常用户数据做正样本,构建训练和测试数据集;
数据预处理;具体操作如下:在客户端根据客户的样本数据质量,以IV值和相关性系数等指标分析各个指标数据的可用性,剔除有效信息较低的数据指标,并保留指定的代表性较强的数据指标,对样本数据进行异常值剔除、缺失值填充,归一化特征工程;
在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡;
模型部署,具体操作如下:在客户端将评分卡数据写入hive数据表,通过dataos平台读取全量用户的数据,并依据评分卡生成全量用户的信用评分,依据前台需求将评分结果写入redis或者mysql。
实施例二
一种运营商与互联网行业信用评估方法系统,所述系统由搭建模块、采样模块、数据处理模块、训练模块以及部署模块构成;
搭建模块,在本地搭建的miniconda包上传至大数据集群客户端,为建模提供相应的工具库支撑;
采样模块,用于取样本数据;在大数据平台客户端,根据评估需要取正负样本进行数据分析,以根据运营商数据构建的通用型评分卡为例,在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本,再取等量正常用户数据做正样本,构建训练和测试数据集;
数据处理模块,用于数据预处理;在客户端根据客户的样本数据质量,以IV值和相关性系数等指标分析各个指标数据的可用性,剔除有效信息较低的数据指标,并保留指定的代表性较强的数据指标,对样本数据进行异常值剔除、缺失值填充,归一化特征工程;
训练模块,用于在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡;
部署模块,用于模型部署,在客户端将评分卡数据写入hive数据表,通过dataos平台读取全量用户的数据,并依据评分卡生成全量用户的信用评分,依据前台需求将评分结果写入redis或者mysql。
实施例三
在实施例一和二的基础上,提出了一种基于通信大数据和Logistic回归算法的运营商与互联网行业信用评估方法与系统。针对运营商内部和互联网行业的信用评估需要考察用户消费、行为、履约等多维特征的需求,根据国际成熟的“5C”评估模型、通信大数据和Logistic回归算法制定信用评估维度。主要包括身份特征、消费能力、行为特征、社交关系、履约历史5个维度,可以从多个维度综合评估信用。身份特征主要包括年龄、职业、家庭、性别、学历等信息;行为特征主要是消费场景、消费层次、消费习惯、是否乐于分享等;履约能力主要是考察各方面资产的信息,如动产、不动产、社保公积金缴纳等;社交关系主要是人脉圈信用度、活跃度、粉丝数、影响力等;信用历史主要是以往的贷款还款情况、违约情况、失信记录等。利用通信大数据的身份信息、消费数据、通信数据、行为数据、履约数据等,进行身份特征、消费能力、行为特征、社交关系、履约历史5个维度的评估,具体指标权重通过机器学习再结合行业专家的经验联合制定。根据指标体系可以制定不同的信用评估维度,建立不同行业用户信用评分模型,以及信用等级的评定。
实施例四
在实施例三的基础上,提出了一种基于通信大数据和Logistic回归算法的运营商与互联网行业信用评估方法与系统,具体为:
指标数据量纲处理(数据标准化)
由于Logistic回归对变量有特殊的要求,当分类自变量多于两个类别时,就需要建立一组虚拟变量代表类型的归属性质。可以看到,表中最终选取的特征变量中有个是属性变量,其中有个不是二分类变量还不能直接用于建模。在计量经济学中通常引入虚拟变量来代替属性变量,此处也采用了这一方法。根据上表中对特征变量重新分组的结果,由各特征变量产生的虚拟变量可以表示如下:
(1)数值型指标
数值型指标即取值用数值大小衡量的指标,例如在网时长、本地长途主叫次数、本地长途被叫次数、主叫次数、被叫次数、上网时间分布、联系人数量、关机次数、挂机次数、近期主动联系人个数、近期被动联系人个数、近期欠费次数、近期停机时长、近3个月平均消费、终端价格、近3个月平均充值金额等指标。采用如下公式进行标准化,
均值标准差模式:新数据=(原数据-均值)/标准差
(2)字符型指标
①对于取值只有“是和否”2种情况的指标,例如:是否实名制、是否4/5G客户、号码更换、违约情况、是否关注促销活动、合约情况等指标,“是”的取值记为1,“否”的取值记为0。
②对于取值有多种情况的指标,例如:客户级别、缴费方式等指标,
客户级别:
缴费方式:
指标筛选
在进行模型训练前,为提升模型训练的效率,需要进行数据的预处理,包括数据质量的验证以及属性简约过程。
数据质量检验:利用值分析方法去掉一些取值不正常、数值间无差异的指标。
属性简约:属性简约可以帮助减少条件指标集中指标的数量,但仍然可以保持原数据的完整性。基于互信息的属性简约算法,通过计算指标的重要度来筛选重要指标。
信息熵:假设和/>个等价关系在U上导出的划分分别为X和Y2个等价类集合,X={X1,X2ΛXn}Y={Y1,Y2ΛYn}。P的信息熵为:
Q相对于P的条件熵的定义为:
对于任意属性a∈C在A的条件下的重要度SGF(a,A,D)定义为:
SGF(a,A,D)=H(D|A)-H(D|A∪{a})
SGF(a,A,D)的值越大,说明在已知A的条件下,属性a对于预测D越重要。对在指标值中属性重要度比较小的指标直接剔除,得到用于最终评估模型的条件指标集。
模型建立
考虑具有p个指标变量构成的向量x'=(x1,x2Λxp),假设用Y表示客户信用状况这一事件,则Y=1表示客户目前信用良好;Y=0表示信用情况恶劣。设条件概率P(Y=1x)=p为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为
其中g(x)=β01x1+Λ+βpxp
定义不发生事件的条件概率为
那么,事件发生与事件不发生的概率之比为
这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数,
β12Λβp为待估参数
利用最大似然估计来测算偏回归系数β01Λβp。其基本思想是先建立似然函数与对数似然函数,求使对数似然函数最大时的参数值,其估计值即为最大似然估计值。
模型训练
通过实验样本数据进行模型训练。
采用R2指标来评价模型的拟合优度。当自变量x与因变量y完全无关时,类R2值趋近于0;而当回归模型能够全部准确预测时,类R2趋近于1。
信用分计算
各指标的信用评估分数通过Logistic回归系数加权计算,将各指标的信用评估得分加和,即得用户的信用评估总得分,然后根据分数并结合数据分布特征划分信用等级。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种运营商与互联网行业信用评估方法,其特征在于:所述方法包括以下步骤:
在本地搭建的miniconda包上传至大数据集群客户端,为建模提供相应的工具库支撑;
取样本数据;
数据预处理;
在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡;
模型部署。
2.根据权利要求1所述的一种运营商与互联网行业信用评估方法,其特征在于:取样本数据具体操作如下:
在大数据平台客户端,根据评估需要取正负样本进行数据分析,以根据运营商数据构建的通用型评分卡为例,在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本,再取等量正常用户数据做正样本,构建训练和测试数据集。
3.根据权利要求2所述的一种运营商与互联网行业信用评估方法,其特征在于:数据预处理具体操作如下:
在客户端根据客户的样本数据质量,以IV值和相关性系数等指标分析各个指标数据的可用性,剔除有效信息较低的数据指标,并保留指定的代表性较强的数据指标,对样本数据进行异常值剔除、缺失值填充,归一化特征工程。
4.根据权利要求1所述的一种运营商与互联网行业信用评估方法,其特征在于:模型部署的具体操作如下:
在客户端将评分卡数据写入hive数据表,通过dataos平台读取全量用户的数据,并依据评分卡生成全量用户的信用评分,依据前台需求将评分结果写入redis或者mysql。
5.一种如上述权利要求1-4任意一项所述的运营商与互联网行业信用评估方法用的运营商与互联网行业信用评估方法系统,其特征在于:所述系统由搭建模块、采样模块、数据处理模块、训练模块以及部署模块构成;
搭建模块,在本地搭建的miniconda包上传至大数据集群客户端,为建模提供相应的工具库支撑;
采样模块,用于取样本数据;
数据处理模块,用于数据预处理;
训练模块,用于在客户端使用处理过的样本数据训练逻辑回归模型并生成评分卡;
部署模块,用于模型部署。
6.根据权利要求5所述的一种运营商与互联网行业信用评估系统,其特征在于:所述采样模块中,在大数据平台客户端,根据评估需要取正负样本进行数据分析,以根据运营商数据构建的通用型评分卡为例,在大数据集群客户端先依据运营商黑名单取出5w条用户数据做负样本,再取等量正常用户数据做正样本,构建训练和测试数据集。
7.根据权利要求6所述的一种运营商与互联网行业信用评估系统,其特征在于:所述数据处理模块中,在客户端根据客户的样本数据质量,以IV值和相关性系数等指标分析各个指标数据的可用性,剔除有效信息较低的数据指标,并保留指定的代表性较强的数据指标,对样本数据进行异常值剔除、缺失值填充,归一化特征工程。
8.根据权利要求7所述的一种运营商与互联网行业信用评估系统,其特征在于:所述部署模块中,在客户端将评分卡数据写入hive数据表,通过dataos平台读取全量用户的数据,并依据评分卡生成全量用户的信用评分,依据前台需求将评分结果写入redis或者mysql。
CN202310729885.8A 2023-06-20 2023-06-20 一种运营商与互联网行业信用评估方法与系统 Pending CN116630030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310729885.8A CN116630030A (zh) 2023-06-20 2023-06-20 一种运营商与互联网行业信用评估方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310729885.8A CN116630030A (zh) 2023-06-20 2023-06-20 一种运营商与互联网行业信用评估方法与系统

Publications (1)

Publication Number Publication Date
CN116630030A true CN116630030A (zh) 2023-08-22

Family

ID=87602577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310729885.8A Pending CN116630030A (zh) 2023-06-20 2023-06-20 一种运营商与互联网行业信用评估方法与系统

Country Status (1)

Country Link
CN (1) CN116630030A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575783A (zh) * 2024-01-16 2024-02-20 中国电信股份有限公司深圳分公司 多维度用户信用评估方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575783A (zh) * 2024-01-16 2024-02-20 中国电信股份有限公司深圳分公司 多维度用户信用评估方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111324862A (zh) 贷中行为监控的方法及系统
JP7017149B2 (ja) ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム
CN111401600A (zh) 基于关联关系的企业信用风险评价方法和系统
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN115577152A (zh) 基于数据分析的在线图书借阅管理系统
CN114781937A (zh) 一种预付卡企业风险预警方法和装置以及存储介质
CN116630030A (zh) 一种运营商与互联网行业信用评估方法与系统
CN116468536A (zh) 一种自动化风险控制规则生成的方法
CN114219611A (zh) 贷款额度计算方法、装置、计算机设备和存储介质
CN112712270A (zh) 信息处理方法、装置、设备及存储介质
CN114741592B (zh) 一种基于多模型融合的产品推荐方法、设备及介质
CN116385151A (zh) 基于大数据进行风险评级预测的方法及计算设备
CN116805245A (zh) 基于图神经网络与解耦表示学习的欺诈检测方法及系统
CN117217902A (zh) 信贷风险识别方法、装置、设备及存储介质
Chen et al. Customer Churn Prediction based on Stacking Model
CN118411239A (zh) 一种基于运营商大数据的银行、保险、证券行业信用评估方法与系统
Tran et al. Key economic sectors and their transitions: analysis of world input-output network
Zhang et al. [Retracted] Analysis of Bank Customer Default Risk Based on Embedded Microprocessor Wireless Communication
Addabbo et al. Children capabilities and family characteristics in Italy
Kenrick et al. Prediction Calculation of PT. Indofood Sukses Makmur Tbk. Stock using R Studio with Autoregressive Integrated Moving Average (ARIMA) Method
Latif et al. A smart technique to forecast karachi stock market share-values using ARIMA model
Rodin Growing small businesses using software system for intellectual analysis of financial performance
CN116384750A (zh) 生成标记样本及训练风险评级预测模型的方法及计算设备
CN116384751A (zh) 对风险指标进行标准化和风险评级预测的方法及计算设备
Li A Study on the Economic Model of Volume in the Age of Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination