CN114549178A - 信用度评价方法、装置、电子设备和介质 - Google Patents
信用度评价方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN114549178A CN114549178A CN202210168809.XA CN202210168809A CN114549178A CN 114549178 A CN114549178 A CN 114549178A CN 202210168809 A CN202210168809 A CN 202210168809A CN 114549178 A CN114549178 A CN 114549178A
- Authority
- CN
- China
- Prior art keywords
- indexes
- evaluation
- data
- original
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 239
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000009467 reduction Effects 0.000 claims abstract description 22
- 238000003860 storage Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 20
- 238000011835 investigation Methods 0.000 claims description 12
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000010970 precious metal Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开提供了一种信用度的评价方法,可以应用于金融领域或其他领域。该信用度的评价方法包括:获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值;对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据;以及基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。本公开还提供了一种信用度的评价装置、设备、存储介质和程序产品。
Description
技术领域
本公开涉及金融领域,具体涉及风险管理领域,更具体地涉及一种信用度的评价方法、装置、设备、介质和程序产品。
背景技术
风险管理是银行保证资金安全的主要任务,个人信用风险评估是银行进行贷款审批的关键流程。
在实现本公开构思的过程中,发明人发现,目前客户评价流程中提取出来的客户数据指标数量较多且指标相互间有所关联,存在指标信息冗余、计算过程复杂和准确性低的问题,不利于客观反映客户的评分情况。
发明内容
鉴于上述问题,本公开提供了一种信用度的评价方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种信用度的评价方法,包括:获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值;对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据;以及基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。
根据本公开的实施例,所述对所述原始指标和原始指标的数据进行降维处理的步骤包括:将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标,其中,M≥1,N≥1;在所述原始指标的数据中,确定所述M个候选关联类评价指标对应的M个候选关联类评价指标的数据,确定所述N个非关联类评价指标对应的N个非关联类评价指标的数据;对所述M个候选关联类评价指标和M个候选关联类评价指标的数据进行主成分分析,得到K个关联类评价指标和K个关联类评价指标的数据,其中,K<M;基于所述K个关联类评价指标和所述N个非关联类评价指标,得到总评价指标;以及基于所述K个关联类评价指标的数据和所述N个非关联类评价指标的数据,得到总评价指标的数据。
根据本公开的实施例,所述将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标的步骤之前,还包括:计算所述原始指标的各指标之间的关联信息系数;所述将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标的步骤包括:基于所述关联信息系数,将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标。
根据本公开的实施例,所述基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数的步骤包括:
将所述总评价指标和总评价指标的数据中的每一个评价指标的权重和分值相乘,得到所述每一个评价指标的贡献分数;和将所述每一个评价指标的贡献分数相加,确定用于评价所述待评价目标的信用度的评价分数。
根据本公开的实施例,所述计算所述原始指标的各指标之间的关联信息系数的步骤之前,还包括:对所述原始指标进行预处理,其中,所述预处理包括使用拉普拉斯平滑将所述原始指标的属性转化为数值型。
根据本公开的实施例,所述获取待评价目标的原始指标和原始指标的数据的步骤包括:利用纵向联邦学习法得到外部评价指标和外部评价指标的数据,所述外部评价指标包括征信类评价指标、社交类评价指标和互联网类评价指标中的至少一种。
本公开的第二方面提供了一种信用度的评价装置,包括:第一获取模块,用于获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值;降维模块,用于对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据;以及评价模块,用于基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法。
上述一个或多个实施例具有如下优点或有益效果:通过将总评价指标分为关联类评价指标和非关联类评价指标,能够大大减少评价指标的冗余度,降低计算过程复杂度,提高信用度评价的准确度,有利于客观反映客户的信用度的评分情况。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的信用度的评价方法、装置、设备、介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的信用度的评价方法的流程图;
图3示意性示出了根据本公开实施例的降维处理的流程图;
图4示意性示出了根据本公开实施例的信用度的评价装置的结构框图;以及
图5示意性示出了根据本公开实施例的适于实现信用度的评价方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
风险管理是银行保证资金安全的主要任务,个人信用风险评估是银行进行贷款审批的关键流程。目前银行对客户的评价方法主要是:通过客户业务申请单采集数据,将数据进行汇总并提取计算出各项模型指标,对指标进行赋权重加权计算出客户评分,依据评分对客户等级做出判断。
目前客户评价流程中采集到的数据主要是申请单信息及银行内业务交易时产生的金融数据,局限性较大,无法多维度构建完整的客户画像,导致最终客户评价的准确性较低。客户数据提取出来的指标数量较多且指标相互间有所关联,简单的加权计算会导致信息使用冗余,准确性低,不利于客观反映客户的评分情况。
鉴于上述问题,本公开的实施例提供了一种信用度的评价方法,包括:获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值;对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据;以及基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。
相应的,本公开的实施例还提供了一种对所述原始指标和原始指标的数据进行降维处理的方法,包括:将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标,其中,M≥1,N≥1;在所述原始指标的数据中,确定所述M个候选关联类评价指标对应的M个候选关联类评价指标的数据,确定所述N个非关联类评价指标对应的N个非关联类评价指标的数据;对所述M个候选关联类评价指标和M个候选关联类评价指标的数据进行主成分分析,得到K个关联类评价指标和K个关联类评价指标的数据,其中,K<M;基于所述K个关联类评价指标和所述N个非关联类评价指标,得到总评价指标;以及基于所述K个关联类评价指标的数据和所述N个非关联类评价指标的数据,得到总评价指标的数据。
相应的,本公开的实施例还提供了信用度的评价装置、设备、存储介质和程序产品。
需要说明的是,本公开确定的信用度的评价方法和装置可用于金融领域,也可用于除金融领域之外的任意领域的信用度的评价,本公开信用度的评价方法和装置的应用领域不做限定。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示意性示出了根据本公开实施例的信用度的评价方法、装置、设备、介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的信用度的评价方法一般可以由服务器105执行。相应地,本公开实施例所提供的信用度的评价装置一般可以设置于服务器105中。本公开实施例所提供的信用度的评价方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的信用度的评价装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2对公开实施例的信用度的评价方法进行详细描述。
图2示意性示出了根据本公开实施例的信用度的评价方法的流程图。
如图2所示,该实施例的信用度的评价方法包括操作S201~操作S203。
在操作S201,获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值。
在一个实施例中,获取待评价目标的原始指标包括银行的内部指标集合,具体包括金融类指标。其中,在用户同意或授权可以获取用户信息的情况下,获取的用户的金融类信息指标,主要包括以下4类金融类指标:
1.客户基础信息:姓名、性别、证件类型、证件号码、职业类型、单位性质、学历、年龄等;
2.客户资产信息:定期存款余额、活期存款余额、理财持有数量、基金持有个数、国债信息、保险配置、实物贵金属购买情况、第三方存管信息、账户外汇情况、年收入水平等;
3.转账交易信息:转账金额、转账对象、转账频率、转账渠道等;
4.信用卡及借记卡信息:持卡数量、信用卡额度、信用卡使用额度、担保类总额度、客户总额度、最长账龄等。
在操作S202,对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据。
其中,由于指标集合中的各原始指标之间可能存在互相关联的情况,例如贷款金额与贷款期限相关联,而相关联的指标会造成后续计算过程复杂,因此,为了进一步减少冗余指标数量,方便后续计算,提高计算的准确度,以客观反应客户的信用度评分情况,可以通过降维处理,将关联度高的指标进行提取,而将一些关联度低且为客户基础信息的指标(例如年龄、性别、婚姻状况等)进行保留,尽可能完整的保留客户的特征数据,其中降维处理可以为主成分分析法,其他可以降维的方法都可以使用,本公开的实施例对此不做限定。
在操作S203,基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。
图3示意性示出了根据本公开实施例的降维处理的流程图。
如图3所示,该实施例的降维处理包括操作S301~操作S305。
在操作S301,将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标,其中,M≥1,N≥1。
在操作S302,在所述原始指标的数据中,确定所述M个候选关联类评价指标对应的M个候选关联类评价指标的数据,确定所述N个非关联类评价指标对应的N个非关联类评价指标的数据。
在操作S303,对所述M个候选关联类评价指标和M个候选关联类评价指标的数据进行主成分分析,得到K个关联类评价指标和K个关联类评价指标的数据,其中,K<M。
在操作S304,基于所述K个关联类评价指标和所述N个非关联类评价指标,得到总评价指标。
在操作S305,基于所述K个关联类评价指标的数据和所述N个非关联类评价指标的数据,得到总评价指标的数据。
由于K<M,因此总评价指标的数量小于原始指标的数量,相应的,总评价指标的数据的数量小于原始指标的数据的数量,由此可以减少冗余指标数量,方便后续计算,提高计算的准确度。
根据本公开的实施例,所述将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标的步骤之前,还包括:计算所述原始指标的各指标之间的关联信息系数;所述将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标的步骤包括:基于所述关联信息系数,将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标。
应用信息熵理论计算各指标间的关联信息系数,与K-MEANS聚类算法相比,该方法具有无需事先给出要生成的簇数目,且对初始值不敏感的特点。通过信息熵理论提取出关联度高的指标作为主成分分析初始指标,同时保留关联度低且为客户基础信息的指标。
根据本公开的实施例,应用信息熵理论计算各指标间的关联信息系数的具体实现步骤如下:
1.获取待选变量X的取值范围和对应的概率分布,其中,待选变量X的取值范围为{x1,x2,...,xn},对应的概率分布为{p(x1),p(x2),...,p(xn)),基于所述待选变量X的取值范围和对应的概率分布,计算得到信息熵H(X)为:
2.计算在所述待选变量X和目标变量Y之间,当事件Y=yj出现时,由yj得到的关于xj的信息量I(xi:yj)为:
3.基于yj关于xj的信息量I(xi:yj),得到X和Y之间的平均互信息I(X:Y)为:
式中,p(xi|yj)代表条件概率,p(xi,yj)代表联合概率。
4.由于所述的平均互信息表示了两个随机变量之间共有的信息量,因此,基于X和Y之间的平均互信息I(X:Y),可得到待选变量X和目标变量Y之间的关联信息系数为:
根据关联信息系数的定义可知:0≤IR≤1,且X与Y关联程度越大,IR越大。
设定关联信息系数阈值为It,若计算的待选变量X和目标变量Y之间的关联信息系数IR≥It,则将该待选变量作为主成分分析初始变量。
运用主成分分析法能将各变量之间相互关联的复杂关系进行简化分析,在力求数据信息丢失最少的原则下,对高维的变量空间降维,使构成的综合指标尽可能多地保留原来指标变异方面的信息。
对基于关联信息系数提取的关联度高的指标进行主成分分析,提炼出主成分指标,并计算出对应的权重,主成分分析具体实现步骤如下:
1.将原矩阵各列分别减去列均值,生成标准化矩阵Zb;
2.计算标准化矩阵Zb的协方差矩阵Zc;
3.计算协方差矩阵Zc的特征值及相应特征向量,其中i=1,2,…,n,n为矩阵Zc特征值的个数;
4.将特征值按由大到小顺序排列,并按照如下公式计算前m个主元的累计贡献率:
式中m=1,2,…,n-1。
5.取前k个较大特征值对应的特征向量构成变换矩阵T,要求η(k)>85%,其中k<=m,T=(u1,u2,…,uk)。
6.通过Zk=Z*T计算得到前k个主成分,达到减少指标个数的目的,Zk为提取到的待选变量主元,则Zk对应的权重为:
ωkj=ωj*T
根据本公开的实施例,所述基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数的步骤包括:将所述总评价指标和总评价指标的数据中的每一个评价指标的权重和分值相乘,得到所述每一个评价指标的贡献分数;和将所述每一个评价指标的贡献分数相加,确定用于评价所述待评价目标的信用度的评价分数。
根据本公开的实施例,所述计算所述原始指标的各指标之间的关联信息系数的步骤之前,还包括:对所述原始指标进行预处理,其中,所述预处理包括使用拉普拉斯平滑将所述原始指标的属性转化为数值型。即分类型变量处理,此外,所述预处理还包括:缺失值处理、异常值剔除和数字型变量处理。
示例性的,具体的预处理步骤如下:
1.首先,对原始指标的数据的缺失值进行处理,例如,对缺失值位置处用“-999”填充。
2.然后,对缺失值填充后的数据进行异常值剔除,包括对每个特征数值排序后,去除前后两端过大和过小的数据。
3.其次,对剔除异常值后的数据进行对数字型变量处理:使用数据缩放、数据离散化进行转换。数据缩放可以消除不同字段的单位和尺度差异,适用于存款、贷款、理财、基金等金额类字段;数据离散化可以解决数据缺失及失真问题,常见的离散化方式有等宽、等频、等距、聚类特征。
4.最后,进行分类型变量处理,即对所述原始指标进行处理:由于原始指标的属性为文字型属性,可使用拉普拉斯平滑技术将原始指标数据转化为量值属性,例如性别、所在单位性质等字段。
根据本公开的实施例,所述获取待评价目标的原始指标和原始指标的数据的步骤中,所述原始指标包括内部评价指标,所述内部评价指标包括金融类评价指标。相应的,所述原始指标的数据包括所述待评价目标的内部数据,所述内部数据包括金融类数据。
根据本公开的实施例,所述待评价目标的原始指标还包括外部评价指标,所述外部评价指标包括征信类评价指标、社交类评价指标和互联网类评价指标中的至少一种。相应的,所述原始指标的数据还包括所述待评价目标的外部数据,所述外部数据包括征信类数据、社交类数据和互联网类数据中的至少一种。通过引入外部数据,解决了评价数据的单一性的问题,可以多维度地进行客户评价,提高了评价的准确性
根据本公开的实施例,所述获取待评价目标的原始指标和原始指标的数据的步骤包括:利用纵向联邦学习法得到外部评价指标和外部评价指标的数据,所述外部评价指标包括征信类评价指标、社交类评价指标和互联网类评价指标中的至少一种。基于纵向联邦学习法,可以在满足数据安全的条件下,获取外部评价指标信息。
示例性的,可以与人民银行征信系统、社交媒体、电商平台、互联网金融企业联合进行纵向联邦学习,在用户同意或授权可以获取用户信息的情况下,获取到客户的征信类评价指标、社交类评价指标和互联网类评价指标以及对应的征信类、社交类、消费类等数据。具体纵向联邦学习法的步骤如下:
1.加密样本对齐。
采用RSA加密算法,在数据加密的前提下找到双方的共有样本。各参与方对各自拥有的样本ID进行哈希处理,得到样本ID的哈希值,通过RSA加密算法发送给其余参与方,参与方可依据哈希值确定样本ID的交集,确定出共有样本ID。
2.加密模型训练。
确定共有样本ID后,各参与方分别在本地基于自己的数据进行子模型训练,然后将子模型的梯度值、损失值等中间计算结果进行同态加密传到云端,云端将结果进行聚合计算,得到联合模型的中间参数。将更新后的模型参数返回给参与方,反复迭代直至收敛完成模型训练,并将最终的中间结果作为客户评价的总分数,该分数已包含了客户的征信、社交、金融、消费等数据,依据该分数对客户进行综合评价。
根据本公开的实施例,所述评价指标的权重是利用熵值法计算得到的。熵值法可以客观的赋予权重,避免了层次分析法的主观性,与灰色关联度分析法相比无需提前准备参考数据列。
示例性的,熵值法的具体实现步骤如下:
假设有m个待评价样本,n项评价指标,形成原始指标数据矩阵:
其中Xij表示第i个样本第j项评价指标的数值。
为消除因量纲不同对评价结果的影响,需要对各项指标进行归一化处理。
若所用指标的值越大越好(正向指标),则:
若所用指标的值越小越好(负向指标),则:
其中Xj为第j项指标值,Xmax为第j项指标的最大值,Xmin为第j项指标的最小值。
计算第j个指标中,第i个样本标志值的比重:
式中,0≤pij≤1。
由此,可以建立数据的比重矩阵:
计算第j个指标的熵值:
所以第j个指标的熵值为:
第j个指标的差异程度为dj=1-ej,从而得出各个指标相应的权重为:
本公开实施例的信用度的评价方法通过将总评价指标分为关联类评价指标和非关联类评价指标,能够大大减少评价指标的冗余度,降低计算过程复杂度,提高信用度评价的准确度,有利于客观反映客户的信用度的评分情况。
下面将结合实施例,对本公开的信用度的评价方法进行详细说明。
实施例1
1.在用户同意或授权可以获取用户信息的情况下,获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值,如表1所示。
表1
2.应用信息熵理论计算表1中各指标数据间的关联信息系数,得到候选关联类评价指标有:Z1、Z2、Z4、Z5、Z6、Z8、Z9、Z10、Z11、Z12、Z14、Z15;非关联类评价指标:Z3、Z7。
对候选关联类评价指标和候选关联类评价指标的数据进行主成分分析,得到关联类评价指标为Z17,对应的关联类评价指标Z17的数据为:权重为0.176,指标分值为80,具体如表2所示。
表2
3.利用纵向联邦学习法得到外部评价指标和外部评价指标的数据,其中,外部评价指标包括征信类评价指标、社交类评价指标和互联网类评价指标,相应的,外部数据包括征信类数据、社交类数据和互联网类数据的权重和分值,具体如表3所示:
表3
4.将表3中每一个评价指标的权重和分值相乘,得到所述每一个评价指标的贡献分数;然后将所述每一个评价指标的贡献分数相加,确定用于评价所述待评价目标的信用度的评价分数为:
Score=0.02*80+0.04*60+0.176*80+0.22*75+0.18*25+0.05*30+0.13*45+0.06*55+0.03*10=50.03
通过本公开实施例的信用度的评价方法,减少了信息的冗余度,提高了信用度评价的准确度,此外,还可以将征信类、社交类、消费类等数据纳入客户评价模型中,解决了信用度评价数据的单一性的问题,提高了信用度评价的准确性。
基于上述信用度的评价方法,本公开还提供了一种信用度的评价装置。以下将结合图4对该信用度的评价装置进行详细描述。
图4示意性示出了根据本公开实施例的信用度的评价装置的结构框图。
如图4所示,该实施例的评价装置400包括第一获取模块410、降维模块420、评价模块430。
第一获取模块410,用于获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值,第一获取模块410可以用于执行前文描述的操作S201,在此不再赘述。
降维模块420,用于对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据。在一实施例中,第二获取模块420可以用于执行前文描述的操作S202,在此不再赘述。
评价模块430,用于基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。在一实施例中,评价模块430可以用于执行前文描述的操作S203,在此不再赘述。
根据本公开的实施例,第一获取模块410、降维模块420、评价模块430中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块410、降维模块420、评价模块430中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块410、降维模块420、评价模块430中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图5示意性示出了根据本公开实施例的适于实现信用度的评价方法的电子设备的方框图。
如图5所示,根据本公开实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例的方法。
在该计算机程序被处理器501执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种信用度的评价方法,其特征在于,包括:
获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值;
对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据;以及
基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始指标和原始指标的数据进行降维处理的步骤包括:
将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标,其中,M≥1,N≥1;
在所述原始指标的数据中,确定所述M个候选关联类评价指标对应的M个候选关联类评价指标的数据,确定所述N个非关联类评价指标对应的N个非关联类评价指标的数据;
对所述M个候选关联类评价指标和M个候选关联类评价指标的数据进行主成分分析,得到K个关联类评价指标和K个关联类评价指标的数据,其中,K<M;
基于所述K个关联类评价指标和所述N个非关联类评价指标,得到总评价指标;以及
基于所述K个关联类评价指标的数据和所述N个非关联类评价指标的数据,得到总评价指标的数据。
3.根据权利要求2所述的方法,其特征在于,所述将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标的步骤之前,还包括:
计算所述原始指标的各指标之间的关联信息系数;
所述将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标的步骤包括:基于所述关联信息系数,将所述原始指标分为N个非关联类评价指标和M个候选关联类评价指标。
4.根据权利要求2所述的方法,其特征在于,所述基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数的步骤包括:
将所述总评价指标和总评价指标的数据中的每一个评价指标的权重和分值相乘,得到所述每一个评价指标的贡献分数;和
将所述每一个评价指标的贡献分数相加,确定用于评价所述待评价目标的信用度的评价分数。
5.根据权利要求3所述的方法,其特征在于,所述计算所述原始指标的各指标之间的关联信息系数的步骤之前,还包括:
对所述原始指标进行预处理,其中,所述预处理包括使用拉普拉斯平滑将所述原始指标的属性转化为数值型。
6.根据权利要求1所述的方法,其特征在于,所述获取待评价目标的原始指标和原始指标的数据的步骤包括:
利用纵向联邦学习法得到外部评价指标和外部评价指标的数据,所述外部评价指标包括征信类评价指标、社交类评价指标和互联网类评价指标中的至少一种。
7.一种信用度的评价装置,包括:
第一获取模块,用于获取待评价目标的原始指标和原始指标的数据,所述原始指标的数据包括每一个原始指标的权重和分值;
降维模块,用于对所述原始指标和原始指标的数据进行降维处理,得到总评价指标和总评价指标的数据;以及
评价模块,用于基于所述总评价指标和总评价指标的数据,确定用于评价所述待评价目标的信用度的评价分数。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210168809.XA CN114549178A (zh) | 2022-02-23 | 2022-02-23 | 信用度评价方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210168809.XA CN114549178A (zh) | 2022-02-23 | 2022-02-23 | 信用度评价方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114549178A true CN114549178A (zh) | 2022-05-27 |
Family
ID=81678084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210168809.XA Pending CN114549178A (zh) | 2022-02-23 | 2022-02-23 | 信用度评价方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114549178A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993414A (zh) * | 2019-03-06 | 2019-07-09 | 南方电网科学研究院有限责任公司 | 一种电力企业创新发展的评估方法、装置及存储介质 |
CN110502552A (zh) * | 2019-08-20 | 2019-11-26 | 重庆大学 | 一种基于微调条件概率的分类数据转换方法 |
CN112270597A (zh) * | 2020-11-10 | 2021-01-26 | 恒安嘉新(北京)科技股份公司 | 业务处理、信用评价模型训练方法、装置、设备及介质 |
CN112907035A (zh) * | 2021-01-27 | 2021-06-04 | 厦门卫星定位应用股份有限公司 | 基于K-means的交通运输主体信用评级方法及装置 |
CN113553377A (zh) * | 2021-07-21 | 2021-10-26 | 湖南天河国云科技有限公司 | 基于区块链和联邦学习的数据共享方法及装置 |
-
2022
- 2022-02-23 CN CN202210168809.XA patent/CN114549178A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993414A (zh) * | 2019-03-06 | 2019-07-09 | 南方电网科学研究院有限责任公司 | 一种电力企业创新发展的评估方法、装置及存储介质 |
CN110502552A (zh) * | 2019-08-20 | 2019-11-26 | 重庆大学 | 一种基于微调条件概率的分类数据转换方法 |
CN112270597A (zh) * | 2020-11-10 | 2021-01-26 | 恒安嘉新(北京)科技股份公司 | 业务处理、信用评价模型训练方法、装置、设备及介质 |
CN112907035A (zh) * | 2021-01-27 | 2021-06-04 | 厦门卫星定位应用股份有限公司 | 基于K-means的交通运输主体信用评级方法及装置 |
CN113553377A (zh) * | 2021-07-21 | 2021-10-26 | 湖南天河国云科技有限公司 | 基于区块链和联邦学习的数据共享方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891161B2 (en) | Method and device for virtual resource allocation, modeling, and data prediction | |
WO2019196546A1 (zh) | 确定业务请求事件的风险概率的方法及装置 | |
CN111340616B (zh) | 线上贷款的审批方法、装置、设备及介质 | |
US20190333140A1 (en) | System and Method for Aggregating and Analyzing Financial Data | |
US11270375B1 (en) | Method and system for aggregating personal financial data to predict consumer financial health | |
US20230023630A1 (en) | Creating predictor variables for prediction models from unstructured data using natural language processing | |
US12061671B2 (en) | Data compression techniques for machine learning models | |
CN111708883A (zh) | 一种基于机器学习和设备指纹的授信额度确定方法及装置 | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN117934154A (zh) | 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品 | |
CN116681519A (zh) | 违约预测方法、装置、电子设备、介质和程序产品 | |
CN116993484A (zh) | 一种信用模型生成方法、装置、电子设备及存储介质 | |
CN117033431A (zh) | 工单处理方法、装置、电子设备和介质 | |
Li et al. | Research on Efficiency in Credit Risk Prediction Using Logistic‐SBM Model | |
CN116664306A (zh) | 风控规则的智能推荐方法、装置、电子设备及介质 | |
CN115482094A (zh) | 一种业务处理方法、装置、电子设备及计算机可读介质 | |
CN114549178A (zh) | 信用度评价方法、装置、电子设备和介质 | |
CN116308615A (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
CN113487408A (zh) | 信息处理方法和装置 | |
CN113052512A (zh) | 风险预测方法、装置和电子设备 | |
Zou et al. | A STUDY OF NON-PERFORMING LOAN BEHAVIOUR IN P2P LENDING UNDER ASYMMETRIC INFORMATION. | |
Melnyk et al. | Improving the quality of credit activity by using scoring model | |
US20240378666A1 (en) | System and methods for automated loan origination data validation and loan risk bias prediction | |
CN114742144A (zh) | 对象流失概率的确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |