CN110895758B - 存在作弊交易的信用卡账户的筛选方法、装置及系统 - Google Patents
存在作弊交易的信用卡账户的筛选方法、装置及系统 Download PDFInfo
- Publication number
- CN110895758B CN110895758B CN201911211648.2A CN201911211648A CN110895758B CN 110895758 B CN110895758 B CN 110895758B CN 201911211648 A CN201911211648 A CN 201911211648A CN 110895758 B CN110895758 B CN 110895758B
- Authority
- CN
- China
- Prior art keywords
- clustering
- credit card
- card account
- category
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012216 screening Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims description 30
- 230000006399 behavior Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000003064 k means clustering Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 241000270722 Crocodylidae Species 0.000 claims description 4
- 230000006870 function Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000012550 audit Methods 0.000 description 10
- 238000007621 cluster analysis Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 238000011002 quantification Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Computer Security & Cryptography (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本说明书实施例公开了一种存在作弊交易的信用卡账户的筛选方法、装置及系统,所述方法获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别;根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间;根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离以及所述信用卡账户所在的聚类类别的可疑度评分区间,确定所述信用卡账户的可疑度评分;根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。利用本说明书的各个实施例,可以更加准确高效的筛选出存在套现等作弊交易行为的信用卡账户。
Description
技术领域
本说明书涉及计算机数据处理技术领域,特别地,涉及一种存在作弊交易的信用卡账户的筛选方法、装置及系统。
背景技术
随着信用卡账户市场的不断发展,发卡银行面临的业务风险也日益显现。信用卡账户套现行为开始泛滥,手段花样百出,严重侵害了金融管理秩序。而面对日益增长的用户数据,现有的金融机构监管系统都是通过提供针对信用卡信息的浏览展示等功能,需要人工查阅挑选可能存在作弊的账户,审计结果受主观因素影响较大,并且需要耗费大量的人力物力。
发明内容
本说明书实施例的目的在于提供一种存在作弊交易的信用卡账户的筛选方法、装置及系统,可以更加准确高效的筛选出存在套现等作弊交易行为的信用卡账户,保障金融管理秩序的正常运行。
本说明书提供一种存在作弊交易的信用卡账户的筛选方法、装置及系统是包括如下方式实现的:
一种存在作弊交易的信用卡账户的筛选方法,包括:
获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;
对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户;
根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值;
根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离以及所述信用卡账户所在的聚类类别的可疑度评分区间,确定所述信用卡账户的可疑度评分;
根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
本说明书所述的方法的另一个实施例中,所述方法还包括:
根据所述信用卡账户所在的聚类类别中各信用卡账户与所述信用卡账户所在的聚类类别的聚类中心的距离,筛选出所述信用卡账户所在的聚类类别所对应的最大距离值以及最小距离值;
获取所述信用卡账户所在的聚类类别的可疑度评分区间的边界值;
所述确定所述信用卡账户的可疑度评分,包括:根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离,以及所述信用卡账户所在的聚类类别所对应的最大距离值、最小距离值以及可疑度评分区间的边界值,确定所述信用卡账户的可疑度评分。
本说明书所述的方法的另一个实施例中,所述根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,包括:
判断所述聚类类别是否属于大众类或不活跃类,所述大众类包括卡数占比最大的聚类类别,所述不活跃类包括消费行为不活跃的聚类类别;
当所述聚类类别不属于大众类或不活跃类时,根据所述聚类类别的卡数占比确定所述聚类类别的可疑度评分区间。
本说明书所述的方法的另一个实施例中,所述当所述聚类类别不属于大众类或不活跃类时,根据所述聚类类别的卡数占比确定所述聚类类别的可疑度评分区间,包括:
其中,Si max、Si min分别表示聚类类别i的可疑度评分区间对应的最大边界值、最小边界值,Si-1 max表示聚类类别i-1的可疑度评分区间对应的最大边界值,A表示所述大众类的可疑度评分区间对应的最大边界值,B为预设边界值,B大于A,Rk表示聚类类别k的卡数占比,Ri表示聚类类别i的卡数占比,N表示排除所述大众类以及不活跃类之后的聚类数。
本说明书所述的方法的另一个实施例中,所述确定所述信用卡账户的可疑度评分,包括:
其中,表示信用卡账户j的可疑度评分,Si max、Si min分别表示聚类类别i的可疑度评分区间的最大边界值、最小边界值,Di j所述信用卡账户j距离所述聚类类别i的聚类中心的距离,Di max、Di min表示所述聚类类别i的各信用卡账户与聚类类别i的聚类中心的距离中的最大距离值、最小距离值。
本说明书所述的方法的另一个实施例中,所述对所述信用卡账户的业务特征数据进行聚类处理,包括:
利用K-MEANS聚类算法对所述信用卡账户的业务特征数据进行聚类处理,所述K-MEANS聚类算法的输入参数根据轮廓系数以及Jacarrd相似系数确定,所述轮廓系数包括聚类的凝聚度以及分离度,所述Jacarrd相似系数包括预设类型的信用卡账户在不同的聚类数下获得的各聚类结果的交集与并集的比值。
另一方面,本说明书实施例还提供一种存在作弊交易的信用卡账户的筛选装置,包括:
数据获取模块,用于获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;
聚类处理模块,用于对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户;
评分区间确定模块,用于根据所述聚类类别的业务特征及卡数占比确定相应的所述聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值;
可疑度确定模块,用于根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离以及所述信用卡账户所在的聚类类别的可疑度评分区间,确定所述信用卡账户的可疑度评分;
账户筛选模块,用于根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
本说明书所述的装置的另一个实施例中,所述装置还包括:
距离筛选模块,用于根据所述信用卡账户所在的聚类类别中各信用卡账户与所述信用卡账户所在的聚类类别的聚类中心的距离,筛选出所述信用卡账户所在的聚类类别所对应的最大距离值以及最小距离值;
边界值获取模块,用于获取所述信用卡账户所在的聚类类别的可疑度评分区间的边界值;
所述可疑度确定模块还用于根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离,以及所述信用卡账户所在的聚类类别所对应的最大距离值、最小距离值以及可疑度评分区间的边界值,确定所述信用卡账户的可疑度评分。
本说明书所述的装置的另一个实施例中,所述评分区间确定模块包括:
判断单元,用于判断所述聚类类别是否属于大众类或不活跃类,所述大众类包括卡数占比最大的聚类类别,所述不活跃类包括消费行为不活跃的聚类类别;
评分区间确定单元,用于当所述聚类类别不属于大众类或不活跃类时,根据所述聚类类别的卡数占比确定所述聚类类别的可疑度评分区间。
本说明书所述的装置的另一个实施例中,所述评分区间确定单元还用于根据下述计算公式确定所述聚类类别的可疑度评分区间:
其中,Si max、Si min分别表示聚类类别i的可疑度评分区间对应的最大边界值、最小边界值,Si-1 max表示聚类类别i-1的可疑度评分区间对应的最大边界值,A表示所述大众类的可疑度评分区间对应的最大边界值,B为预设边界值,B大于A,Rk表示聚类类别k的卡数占比,Ri表示聚类类别i的卡数占比,N表示排除所述大众类以及不活跃类之后的聚类数。
本说明书所述的装置的另一个实施例中,所述可疑度确定模块还用于根据下述计算公式确定所述信用卡账户的可疑度评分:
其中,表示信用卡账户j的可疑度评分,Si max、Si min分别表示聚类类别i的可疑度评分区间的最大边界值、最小边界值,Di j所述信用卡账户j距离所述聚类类别i的聚类中心的距离,Di max、Di min表示所述聚类类别i的各信用卡账户与聚类类别i的聚类中心的距离中的最大距离值、最小距离值。
本说明书所述的装置的另一个实施例中,所述聚类处理模块还用于利用K-MEANS聚类算法对所述信用卡账户的业务特征数据进行聚类处理,所述K-MEANS聚类算法的输入参数根据轮廓系数以及Jacarrd相似系数确定,所述轮廓系数包括聚类的凝聚度以及分离度,所述Jacarrd相似系数包括预设类型的信用卡账户在不同的聚类数下获得的各聚类结果的交集与并集的比值。
另一方面,本说明书实施例还提供一种存在作弊交易的信用卡账户的筛选设备,所述设备包括处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;
对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户;
根据所述聚类类别的业务特征及卡数占比确定相应的所述聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值;
根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离以及所述信用卡账户所在的聚类类别的可疑度评分区间,确定所述信用卡账户的可疑度评分;
根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
另一方面,本说明书实施例还提供一种存在作弊交易的信用卡账户的筛选系统,所述系统包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个实施例所述方法的步骤。
本说明书一个或多个实施例提供的存在作弊交易的信用卡账户的筛选方法、装置及系统,可以通过对信用卡账户集进行聚类分析,获得多个聚类类别,再根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,然后,可以根据信用卡账户距离其所属的聚类类别的聚类中心的距离以及其所属的聚类类别的可疑度评分区间定量确定该信用卡账户的可疑度评分,实现对聚类结果的量化。通过对信用卡账户进行聚类分析,可以高效准确的确定出存在套现等作弊交易行为的信用卡账户的业务特征,有利于业务人员对此类账户进行准确的审计分析。同时,对聚类结果进行进一步量化,定量确定各信用卡账户存在套现情况的可疑度,可以更加准确的筛选出存在套现等作弊交易行为的信用卡账户,以及减少业务人员的筛选工作量。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的一种存在作弊交易的信用卡账户的筛选方法实施例的流程示意图;
图2为本说明书提供的一个实施例中的筛选结果对比示意图;
图3为本说明书提供的一种存在作弊交易的信用卡账户的筛选装置实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
所述作弊交易可以是指用户通过非正常合法手续所进行的交易,如信用卡套现交易等。所述信用卡套现交易是指持卡人不是通过正常合法手续(ATM或柜台)提取现金,而通过其他手段将卡中信用额度内的资金以现金的方式套取,同时又不支付银行提现费用的交易行为。所述信用卡可以是指由金融机构发行的具有消费支付、信用贷款、转账结算、存取现金等全部功能或者部分功能的电子支付卡。
本说明书实施例提供的一个场景示例中,用户可以通过终端设备发起对其信用卡账户的交易请求,金融机构的交易系统可以根据交易请求进行数据处理,形成信用卡账户所对应的交易数据。信用卡账户筛选系统可以从金融机构的交易系统获取信用卡账户所对应的用户信息、账户信息、交易数据等,形成各信用卡账户所对应的业务数据。筛选系统可以进一步对信用卡账户的业务数据进行分析处理,筛选出存在作弊交易的信用卡账户。
图1是本说明书提供的所述存在作弊交易的信用卡账户的筛选方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
具体的一个实施例如图1所示,本说明书提供的存在作弊交易的信用卡账户的筛选方法的一个实施例中,所述方法可以应用于所述信用卡账户筛选系统的服务器,所述方法可以包括以下步骤:
S20:获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据。
所述信用卡账户集可以包括多个信用卡账户的业务特征数据。所述信用卡账户可以是指由金融机构发行的具有消费支付、信用贷款、转账结算、存取现金等全部功能或者部分功能的电子支付卡所对应的账户。所述业务特征数据可以包括对信用卡账户的业务数据进行特征提取后获得的特征数据。所述信用卡账户的业务数据如可以包括交易数据、账户信息、用户信息等。
服务器可以从金融机构的各交易系统中获取本批次待分析的各信用卡账户的业务数据。服务器可以根据目前的信用卡账户套现交易场景及规律,确定信用卡账户套现的主要途径和主要特征,在此基础上确定需要获取的信用卡账户的业务数据。通过结合业务场景进行业务数据的获取,可以准确提取需要的业务数据,减少冗余数据的提取,提高数据获取的效率以及后续数据分析的准确性。
然后,服务器可以对获取的业务数据进行梳理及预处理。例如,可以对业务数据进行关键字段选择、空缺值的填充、默认值的设置等。还可以进行缺失值处理:对于分类变量,按当前类型比例随机化填充缺失信息;对于连续性变量,如余额、消费金额等字段,缺失时都默认赋为0。可以对离群值和极值处理:将离群值和极值替换为不会被视为极值的最接近值,例如,如果将离群值定义为高于或低于三个标准差的任何值,可以将所有离群值替换为此范围中的最高值或最低值。
服务器可以基于信用卡账户套现的业务场景分析以及特征之间的相关性分析,进一步筛选特征变量,然后,对提取的特征变量进行加工处理,获得信用卡账户的业务特征数据。特征变量的选择可以根据实际业务场景以及识别结果进行动态调整,以提高最终识别结果的准确性。加工处理的方式如可以对于呈现强偏态分布的变量,通过取自然对数得到近正态分布,再对其进行zscore标准化处理等方式,以使得提取的特征数据更符合后续分析所采用的算法,提高数据处理的效率以及准确性。
一些实施例中,如可以根据信用卡账户的消费金额、账户状态、商户集中度以及消费日期等中的一种或者多种确定。所述消费金额可以包括信用卡账户的一段时间内的消费金额数据。所述账户状态可以包括正常使用状态、逾期未还款、非正常状态等,其中,非正常状态可以包括已出现过套现、盗刷信用卡账户等行为,被金融机构进行非正常状态标记的信用卡账户。所述商户集中度可以包括用户消费金额较大或者消费频率比较高的时间段,如电商年度促销时间段。例如,可以根据上述业务数据提取大额消费月份占比特征,该特征参数表征了信用卡账户在多个账单月内大额消费的特征,正常卡偶尔会有大额消费月份,但如果多个月内均有大额消费,则该卡存在套现行为的可疑性将明显增大。
S22:对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户。
服务器可以对信用卡账户的业务特征数据进行聚类处理,将当前待分析的多个信用卡账户划分为不同的几个聚类。可以利用K-MEANS、K-MEDOIDS、CLARANS等聚类算法对信用卡账户的业务特征数据进行聚类处理。
一些实施例中,可以采用K-MEANS聚类算法(k-means clustering algorithm,k均值聚类算法)进行聚类分析。K-MEANS聚类算法可以通过随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算,不断重复直到满足预设终止条件。终止条件可以是没有或最小数目对象被重新分配给不同的聚类,没有或最小数目聚类中心再发生变化,误差平方和局部最小等。
获取信用卡账户的业务特征数据,作为K-MEANS聚类算法的聚类对象。然后,可以利用K-MEANS聚类算法对各信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,从而可以确定出各信用卡账户所对应的聚类类别。
在聚类处理过程中,可以对聚类结果的准确性以及稳定性进行评估,进而调整聚类分析的输入参数,以提高套现信用卡账户识别的准确性。所述输入参数如可以包括聚类数、迭代次数等。一些实施例中,所述K-MEANS聚类算法的输入参数可以根据轮廓系数以及Jacarrd相似系数确定,所述轮廓系数可以包括聚类的凝聚度以及分离度,所述Jacarrd相似系数可以包括预设类型的信用卡账户在不同的聚类数下获得的各聚类结果的交集与并集的比值。所述凝聚度可以包括信用卡账户与该信用卡账户所属的聚类类别中其他各信用卡账户的平均距离。所述分离度可以包括信用卡账户与不包含该信用卡账户的最近聚类类别中其他各信用卡账户的平均距离。所述距离可以包括欧式距离、曼哈顿距离等。
一些实施方式中,可以利用轮廓系数对聚类结果的准确性进行评估,利用Jacarrd相似系数对聚类结果的稳定性进行评估。例如,对于第i个信用卡账户,可以计算信用卡账户i到信用卡账户i所属聚类类别中所有其他信用卡账户的平均距离,记为a(i),用于量化各聚类类别内的凝聚度。对于第i个信用卡账户,可以计算信用卡账户i到不包含信用卡账户i的最近聚类类别中所有其他信用卡账户的平均距离,记为b(i),用于量化簇之间的分离度。信用卡账户i的轮廓系数K(i)可以表示为:
根据上述公式计算所有信用卡账户的轮廓系数,求出平均值作为当前聚类结果的整体轮廓系数。同一聚类类别内各信用卡账户的距离越近,各聚类类别之间的信用卡账户的距离越远,则轮廓系数越大,聚类效果越好。可以通过分析不同聚类数以及迭代次数下获得的聚类模型的轮廓系数,利用该轮廓系数优选出聚类效果较好的聚类数以及迭代次数。
一些实施方式中,可以设置预设类型的信用卡账户为最不可疑卡及最可疑卡,分析不同聚类数下最不可疑卡及最可疑卡的聚类稳定度。所述最不可疑卡及最可疑卡的具体划定界限可以根据实际业务场景自行设置。例如,可以设置聚类数分别为4、5、6对最不可疑卡进行分析,可以获取在不同聚类数下获得的聚类结果,如当聚类数为4时,聚类处理后获得的信用卡账户集合为W1,当聚类数为5时,聚类处理后获得的信用卡账户集合为W2,当聚类数为6时,聚类处理后获得的信用卡账户集合为W3,则相应的Jacarrd相似系数为J(W1,W2,W3):
Jacarrd相似系数越大,则不同聚类数下获得的聚类结果的相似度越高,则不同的聚类数及迭代次数对结果的影响越小,聚类模型的稳定性和普适性越好,聚类结果也越准确。
通过对聚类结果的准确度以及稳定度进行评估,实时调整聚类数以及迭代次数等输入参数,从而可以大幅度提高最终聚类结果的准确性。
S24:根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值。
服务器可以根据聚类类别中各信用卡账户的业务特征数据确定相应聚类类别的业务特征。对信用卡账户的业务特征数据进行聚类处理后,具有相应业务特征的信用卡账户被聚类到同一聚类类别中,业务特征具有一定差异的信用卡账户被聚类到不同的聚类类别中。可以通过对每个聚类类别中各信用卡账户的业务特征数据进行分析,如可以将聚类类别中各信用卡账户的业务特征数据的均值作为该聚类类别的业务特征,或者,也可以将聚类类别的聚类中心的数据作为该聚类类别的业务特征。
服务器可以计算各聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值,作为相应聚类类别的卡数占比。
然后,服务器可以根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间。通过综合各聚类类别的业务特征及卡数占比确定聚类类别的可疑度评分区间,可以大幅度提高各聚类类别整体可疑度程度确定的准确性。
一些实施例中,可以通过综合对各聚类类别的业务特征及卡数占比进行分析,从聚类结果中预先提取出大众类以及不活跃类。通常卡数占比最多的一类为大众类,该类信用卡账户基本通过正常手段使用信用卡,存在套现行为的可疑度较低;消费行为极为不活跃的聚类类别存在套现行为的可疑度也较低,也可以根据业务特征数据提取出消费行为极为不活跃的聚类类别。相应的,一些实施方式中,服务器可以判断所述聚类类别是否属于大众类或不活跃类,所述大众类包括卡数占比最大的聚类类别,所述不活跃类包括消费行为不活跃的聚类类别;当所述聚类类别不属于大众类或不活跃类时,根据所述聚类类别的卡数占比确定所述聚类类别的可疑度评分区间。通过先提取出该两类信用卡账户,再对其他聚类类别进行可疑度定量分析,可以大幅度提高套现信用卡账户可疑度定量确定的准确性。
一些实施例中,可以根据卡数占比的三次方根的倒数确定所述聚类类别的可疑度评分区间的边界值。可以采用下述方式确定各聚类类别的可疑度评分区间的边界值:
其中,Si max、Si min分别表示聚类类别i的可疑度评分区间的最大边界值、最小边界值,Si-1 max表示聚类类别i-1的可疑度评分区间的最大边界值,A表示所述大众类的可疑度评分区间的最大边界值,B为预设边界值,B大于A,Rk表示聚类类别k的卡数占比,Ri表示聚类类别i的卡数占比,N表示排除所述大众类以及不活跃类之后的聚类数。
例如,可以基于聚类类别所包含的卡数多少与可疑度高低成反比的原理,将包含卡数最多的一类设置为大众类,将此聚类类别的可疑度评分标准化为10到60。可以基于业务含义考虑,将消费行为极为不活跃的聚类类别设置为不活跃类,其可疑度评分可以标准化为0到10。其余聚类类别可以以相应聚类类别的卡数占比的三次方根的倒数作为参考值,将其余各聚类类别的参考值按从小到大排序,将各参考值标准化为60到100;然后,可以将标准化后的参考值作为相应聚类类别的可疑度评分区间的最大边界值,并作为该聚类类别的下一聚类类别的可疑度评分区间的最小边界值。相应的,各聚类类别的可疑度评分区间的边界值可以表示为:
S26:根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离以及所述信用卡账户所在的聚类类别的可疑度评分区间,确定所述信用卡账户的可疑度评分。
服务器可以计算信用卡账户的业务特征数据距离其所属的聚类类别的聚类中心的距离。例如,可以计算信用卡账户对应的业务特征数据与聚类中心的欧式距离、曼哈顿距离等。然后,可以根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离以及所述信用卡账户所在的聚类类别的可疑度评分区间,确定所述信用卡账户的可疑度评分。通常单个信用卡账户与其所属的聚类中心的距离越小,则其与其它类别的区分度越高,即若该聚类类别的平均可疑度越高,则越靠近聚类中心的信用卡账户可疑度也越高。因此,通过结合信用卡账户距离所述聚类类别的聚类中心的距离以及相应聚类类别的可疑度评分区间,可以更加准确定量的确定信用卡账户的可疑度评分。
通过可疑度评分将聚类结果进行进一步量化,可以实现对信用卡账户存在套现行为的可疑性进行定量评估。审计人员可以根据可疑度评分对可能存在套现行为的信用卡账户进行人工审计和核实,从而可以提高审计效率,减少不必要的工作量;同时通过聚类分析,还可以获得套现信用卡账户的特征数据,审计人员可以基于该特征数据更好地分析信用卡账户业务的主要风险因素,提高审计人员对信用卡账户业务当前风险状况的认知和把握。
一些实施例中,服务器还可以根据所述信用卡账户所在的聚类类别中各信用卡账户与所述信用卡账户所在的聚类类别的聚类中心的距离,筛选出所述信用卡账户所在的聚类类别所对应的最大距离值以及最小距离值;以及,获取所述信用卡账户所在的聚类类别的可疑度评分区间的边界值;根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离,以及所述信用卡账户所在的聚类类别所对应的最大距离值、最小距离值以及可疑度评分区间的边界值,确定所述信用卡账户的可疑度评分。
服务器可以统计每一聚类类别中每张信用卡账户距离聚类中心的最大值,距离聚类中心的最小值,然后,将距离的最大值、最小值映射到每一聚类类别对应的可疑度评分的最大值、最小值中。同时,可以进一步考虑距离大小与其所属类别的区分度,定量确定各信用卡账户的可疑度评分。一些实施例中,可以根据下述公式确定第i聚类类别中第j张信用卡账户的可疑度评分:
其中,表示信用卡账户j的可疑度评分,Si max、Si min分别表示聚类类别i的可疑度评分区间对应的最大边界值、最小边界值,Di j所述信用卡账户j距离所述聚类类别i的聚类中心的距离,Di max、Di min表示所述聚类类别i的各信用卡账户与聚类类别i的聚类中心的距离中的最大距离值、最小距离值。
通过上述实施例提供的方案,可以在聚类后进一步定量确定各信用卡账户的可疑度评分,进而利用可疑度评分定量化的表征各信用卡账户为套现类信用卡账户的可疑程度,提高信用卡账户筛选的准确性。
另一些实施例中,还可以先根据各聚类类别的可疑度评分区间,筛选出可疑度评分区间值较大的聚类类别,例如,可以根据可疑度评分区间值从大到小的顺序对聚类类别进行排序,仅对排序靠前的一个或者两个聚类类别的信用卡账户进行可疑度评分的计算。其余聚类类别因整体可疑度评分较低,可以不再计算,以提高筛选效率。
S28:根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
可以根据所述可疑度评分筛选所述信用卡账户集中存在套现等作弊交易的信用卡账户。例如,可以采用设置阈值等方式,筛选出可疑度评分大于预设阈值的信用卡账户,作为存在套现等作弊交易的信用卡账户。审计人员可以根据可疑度评分对可疑的信用卡账户进行人工审计和核实,从而可以提高审计效率,减少不必要的工作量;同时通过聚类分析,还可以获得套现信用卡账户的特征数据,审计人员可以基于该特征数据更好地分析信用卡账户业务的主要风险因素,提高审计人员对信用卡账户业务当前风险状况的认知和把握。
本说明书提供的一个场景示例中,利用上述实施例的方案,初步确定某聚类-2内的可疑度评分区间值较高,图2表示该聚类-2的大额商户消费占比、近限额消费月份占比与大额消费月份占比的示意图,所有值均已做标准化处理,结果越大,套现可能性越大。由图2可知,聚类-2所表示的套现卡的三种占比特征的取值均在1附近,明显偏离总体的分布,因此聚类-2套现的嫌疑最大。因此,通过对比分析可知,利用本说明书上述实施例的方案,可以准确的筛选出存在套现等作弊交易的信用卡账户。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述,在此不做一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书一个或多个实施例提供的存在作弊交易的信用卡账户的筛选方法,可以通过对信用卡账户集进行聚类分析,获得多个聚类类别,再根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,然后,可以根据信用卡账户距离其所属的聚类类别的聚类中心的距离以及其所属的聚类类别的可疑度评分区间定量确定该信用卡账户的可疑度评分,实现对聚类结果的量化。通过对信用卡账户进行聚类分析,可以高效准确的确定出存在套现等作弊交易行为的信用卡账户的业务特征,有利于业务人员对此类账户进行准确的审计分析。同时,对聚类结果进行进一步量化,定量确定各信用卡账户存在套现情况的可疑度,可以更加准确的筛选出存在套现等作弊交易行为的信用卡账户,以及减少业务人员的筛选工作量。
基于上述所述的存在作弊交易的信用卡账户的筛选方法,本说明书一个或多个实施例还提供一种存在作弊交易的信用卡账户的筛选装置。所述的装置可以包括使用了本说明书实施例所述方法的系统、软件(应用)、模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。具体的,图3表示说明书提供的一种存在作弊交易的信用卡账户的筛选装置实施例的模块结构示意图,如图3所示,所述装置可以包括:
数据获取模块102,可以用于获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;
聚类处理模块104,可以用于对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户;
评分区间确定模块106,可以用于根据所述聚类类别的业务特征及卡数占比确定相应的所述聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值;
可疑度确定模块108,可以用于根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离以及所述信用卡账户所在的聚类类别的可疑度评分区间,确定所述信用卡账户的可疑度评分;
账户筛选模块110,可以用于根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
本说明书另一些实施例中,所述装置还可以包括:
距离筛选模块,可以用于根据所述信用卡账户所在的聚类类别中各信用卡账户与所述信用卡账户所在的聚类类别的聚类中心的距离,筛选出所述信用卡账户所在的聚类类别所对应的最大距离值以及最小距离值;
边界值获取模块,可以用于获取所述信用卡账户所在的聚类类别的可疑度评分区间的边界值;
所述可疑度确定模块108还可以用于根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离,以及所述信用卡账户所在的聚类类别所对应的最大距离值、最小距离值以及可疑度评分区间的边界值,确定所述信用卡账户的可疑度评分。
本说明书另一些实施例中,所述评分区间确定模块106可以包括:
判断单元,可以用于判断所述聚类类别是否属于大众类或不活跃类,所述大众类包括卡数占比最大的聚类类别,所述不活跃类包括消费行为不活跃的聚类类别;
评分区间确定单元,可以用于当所述聚类类别不属于大众类或不活跃类时,根据所述聚类类别的卡数占比确定所述聚类类别的可疑度评分区间。
本说明书另一些实施例中,所述评分区间确定单元还用于根据下述计算公式确定所述聚类类别的可疑度评分区间:
其中,Si max、Si min分别表示聚类类别i的可疑度评分区间对应的最大边界值、最小边界值,Si-1 max表示聚类类别i-1的可疑度评分区间对应的最大边界值,A表示所述大众类的可疑度评分区间对应的最大边界值,B为预设边界值,B大于A,Rk表示聚类类别k的卡数占比,Ri表示聚类类别i的卡数占比,N表示排除所述大众类以及不活跃类之后的聚类数。
本说明书另一些实施例中,所述可疑度确定模块还用于根据下述计算公式确定所述信用卡账户的可疑度评分:
其中,表示信用卡账户j的可疑度评分,Si max、Si min分别表示聚类类别i的可疑度评分区间的最大边界值、最小边界值,Di j所述信用卡账户j距离所述聚类类别i的聚类中心的距离,Di max、Di min表示所述聚类类别i的各信用卡账户与聚类类别i的聚类中心的距离中的最大距离值、最小距离值。
本说明书另一些实施例中,所述聚类处理模块104还可以用于利用K-MEANS聚类算法对所述信用卡账户的业务特征数据进行聚类处理,所述K-MEANS聚类算法的输入参数根据轮廓系数以及Jacarrd相似系数确定,所述轮廓系数包括聚类的凝聚度以及分离度,所述Jacarrd相似系数包括预设类型的信用卡账户在不同的聚类数下获得的各聚类结果的交集与并集的比值。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书一个或多个实施例提供的存在作弊交易的信用卡账户的筛选装置,可以通过对信用卡账户集进行聚类分析,获得多个聚类类别,再根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,然后,可以根据信用卡账户距离其所属的聚类类别的聚类中心的距离以及其所属的聚类类别的可疑度评分区间定量确定该信用卡账户的可疑度评分,实现对聚类结果的量化。通过对信用卡账户进行聚类分析,可以高效准确的确定出存在套现等作弊交易行为的信用卡账户的业务特征,有利于业务人员对此类账户进行准确的审计分析。同时,对聚类结果进行进一步量化,定量确定各信用卡账户存在套现情况的可疑度,可以更加准确的筛选出存在套现等作弊交易行为的信用卡账户,以及减少业务人员的筛选工作量。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。因此,本说明书还提供一种存在作弊交易的信用卡账户的筛选设备,包括处理器及存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括上述任意一个实施例所述方法的步骤。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的,上述所述的设备根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
上述实施例所述的存在作弊交易的信用卡账户的筛选设备,可以通过对信用卡账户集进行聚类分析,获得多个聚类类别,再根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,然后,可以根据信用卡账户距离其所属的聚类类别的聚类中心的距离以及其所属的聚类类别的可疑度评分区间定量确定该信用卡账户的可疑度评分,实现对聚类结果的量化。通过对信用卡账户进行聚类分析,可以高效准确的确定出存在套现等作弊交易行为的信用卡账户的业务特征,有利于业务人员对此类账户进行准确的审计分析。同时,对聚类结果进行进一步量化,定量确定各信用卡账户存在套现情况的可疑度,可以更加准确的筛选出存在套现等作弊交易行为的信用卡账户,以及减少业务人员的筛选工作量。
本说明书还提供一种存在作弊交易的信用卡账户的筛选系统,所述系统可以为单独的存在作弊交易的信用卡账户的筛选系统,也可以应用在多种计算机数据处理系统中。所述的系统可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述存在作弊交易的信用卡账户的筛选系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
需要说明的,上述所述的系统根据方法或者装置实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
上述实施例所述的存在作弊交易的信用卡账户的筛选系统,可以通过对信用卡账户集进行聚类分析,获得多个聚类类别,再根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,然后,可以根据信用卡账户距离其所属的聚类类别的聚类中心的距离以及其所属的聚类类别的可疑度评分区间定量确定该信用卡账户的可疑度评分,实现对聚类结果的量化。通过对信用卡账户进行聚类分析,可以高效准确的确定出存在套现等作弊交易行为的信用卡账户的业务特征,有利于业务人员对此类账户进行准确的审计分析。同时,对聚类结果进行进一步量化,定量确定各信用卡账户存在套现情况的可疑度,可以更加准确的筛选出存在套现等作弊交易行为的信用卡账户,以及减少业务人员的筛选工作量。
本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书的可选实施方案范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种存在作弊交易的信用卡账户的筛选方法,其特征在于,包括:
获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;
对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户;
根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值;
根据所述信用卡账户所在的聚类类别中各信用卡账户与所述信用卡账户所在的聚类类别的聚类中心的距离,筛选出所述信用卡账户所在的聚类类别所对应的最大距离值以及最小距离值;
获取所述信用卡账户所在的聚类类别的可疑度评分区间的边界值;
根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离,以及所述信用卡账户所在的聚类类别所对应的最大距离值、最小距离值以及可疑度评分区间的边界值,确定所述信用卡账户的可疑度评分;其中,可疑度评分按照如下算式获得:
其中,表示信用卡账户j的可疑度评分,Si max、Si min分别表示聚类类别i的可疑度评分区间的最大边界值、最小边界值,Di j所述信用卡账户j距离所述聚类类别i的聚类中心的距离,Di max、Di min表示所述聚类类别i的各信用卡账户与聚类类别i的聚类中心的距离中的最大距离值、最小距离值;
根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
2.根据权利要求1所述的方法,其特征在于,所述根据各聚类类别的业务特征及卡数占比确定各聚类类别的可疑度评分区间,包括:
判断所述聚类类别是否属于大众类或不活跃类,所述大众类包括卡数占比最大的聚类类别,所述不活跃类包括消费行为不活跃的聚类类别;
当所述聚类类别不属于大众类或不活跃类时,根据所述聚类类别的卡数占比确定所述聚类类别的可疑度评分区间。
4.根据权利要求1所述的方法,其特征在于,所述对所述信用卡账户的业务特征数据进行聚类处理,包括:
利用K-MEANS聚类算法对所述信用卡账户的业务特征数据进行聚类处理,所述K-MEANS聚类算法的输入参数根据轮廓系数以及Jacarrd相似系数确定,所述轮廓系数包括聚类的凝聚度以及分离度,所述Jacarrd相似系数包括预设类型的信用卡账户在不同的聚类数下获得的各聚类结果的交集与并集的比值。
5.一种存在作弊交易的信用卡账户的筛选装置,其特征在于,包括:
数据获取模块,用于获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;
聚类处理模块,用于对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户;
评分区间确定模块,用于根据所述聚类类别的业务特征及卡数占比确定相应的所述聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值;
可疑度确定模块,用于根据所述信用卡账户所在的聚类类别中各信用卡账户与所述信用卡账户所在的聚类类别的聚类中心的距离,筛选出所述信用卡账户所在的聚类类别所对应的最大距离值以及最小距离值;获取所述信用卡账户所在的聚类类别的可疑度评分区间的边界值;根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离,以及所述信用卡账户所在的聚类类别所对应的最大距离值、最小距离值以及可疑度评分区间的边界值,确定所述信用卡账户的可疑度评分;其中,可疑度评分按照如下算式获得:
其中,表示信用卡账户j的可疑度评分,Si max、Si min分别表示聚类类别i的可疑度评分区间的最大边界值、最小边界值,Di j所述信用卡账户j距离所述聚类类别i的聚类中心的距离,Di max、Di min表示所述聚类类别i的各信用卡账户与聚类类别i的聚类中心的距离中的最大距离值、最小距离值;
账户筛选模块,用于根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
6.根据权利要求5所述的装置,其特征在于,所述评分区间确定模块包括:
判断单元,用于判断所述聚类类别是否属于大众类或不活跃类,所述大众类包括卡数占比最大的聚类类别,所述不活跃类包括消费行为不活跃的聚类类别;
评分区间确定单元,用于当所述聚类类别不属于大众类或不活跃类时,根据所述聚类类别的卡数占比确定所述聚类类别的可疑度评分区间。
8.根据权利要求5所述的装置,其特征在于,所述聚类处理模块还用于利用K-MEANS聚类算法对所述信用卡账户的业务特征数据进行聚类处理,所述K-MEANS聚类算法的输入参数根据轮廓系数以及Jacarrd相似系数确定,所述轮廓系数包括聚类的凝聚度以及分离度,所述Jacarrd相似系数包括预设类型的信用卡账户在不同的聚类数下获得的各聚类结果的交集与并集的比值。
9.一种存在作弊交易的信用卡账户的筛选设备,其特征在于,所述设备包括处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
获取信用卡账户集,所述信用卡账户集包括多个信用卡账户的业务特征数据;
对所述多个信用卡账户的业务特征数据进行聚类处理,获得多个聚类类别,其中,每个所述聚类类别包括至少一个信用卡账户;
根据所述聚类类别的业务特征及卡数占比确定相应的所述聚类类别的可疑度评分区间,所述聚类类别的业务特征根据相应的所述聚类类别中各信用卡账户的业务特征数据确定,所述聚类类别的卡数占比包括相应的所述聚类类别中信用卡账户的数量与所述信用卡账户集中信用卡账户的数量的比值;
根据所述信用卡账户所在的聚类类别中各信用卡账户与所述信用卡账户所在的聚类类别的聚类中心的距离,筛选出所述信用卡账户所在的聚类类别所对应的最大距离值以及最小距离值;
获取所述信用卡账户所在的聚类类别的可疑度评分区间的边界值;
根据所述信用卡账户的业务特征数据与所述信用卡账户所在的聚类类别的聚类中心的距离,以及所述信用卡账户所在的聚类类别所对应的最大距离值、最小距离值以及可疑度评分区间的边界值,确定所述信用卡账户的可疑度评分;其中,可疑度评分按照如下算式获得:
其中,表示信用卡账户j的可疑度评分,Si max、Si min分别表示聚类类别i的可疑度评分区间的最大边界值、最小边界值,Di j所述信用卡账户j距离所述聚类类别i的聚类中心的距离,Di max、Di min表示所述聚类类别i的各信用卡账户与聚类类别i的聚类中心的距离中的最大距离值、最小距离值;
根据所述可疑度评分筛选所述信用卡账户集中存在作弊交易的信用卡账户。
10.一种存在作弊交易的信用卡账户的筛选系统,其特征在于,所述系统包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现所述权利要求1-4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211648.2A CN110895758B (zh) | 2019-12-02 | 2019-12-02 | 存在作弊交易的信用卡账户的筛选方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911211648.2A CN110895758B (zh) | 2019-12-02 | 2019-12-02 | 存在作弊交易的信用卡账户的筛选方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110895758A CN110895758A (zh) | 2020-03-20 |
CN110895758B true CN110895758B (zh) | 2023-05-02 |
Family
ID=69788161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911211648.2A Active CN110895758B (zh) | 2019-12-02 | 2019-12-02 | 存在作弊交易的信用卡账户的筛选方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110895758B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461865B (zh) * | 2020-03-31 | 2024-02-02 | 中国银行股份有限公司 | 一种数据分析方法及装置 |
CN113837780A (zh) * | 2020-06-23 | 2021-12-24 | 上海莉莉丝科技股份有限公司 | 信息投放方法、系统、设备和介质 |
CN111861486B (zh) * | 2020-06-29 | 2024-03-22 | 中国银联股份有限公司 | 异常账户识别方法、装置、设备及介质 |
CN111754337B (zh) * | 2020-06-30 | 2024-02-23 | 上海观安信息技术股份有限公司 | 一种信用卡养卡套现团体识别的方法及系统 |
CN111899100B (zh) * | 2020-07-24 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 业务控制方法、装置和设备及计算机存储介质 |
CN112085585B (zh) * | 2020-08-03 | 2024-07-19 | 北京贝壳时代网络科技有限公司 | 一种信用风险等级评估方法及系统 |
CN112200655A (zh) * | 2020-09-17 | 2021-01-08 | 中国建设银行股份有限公司 | 一种申请审核方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105791255B (zh) * | 2014-12-23 | 2020-03-13 | 阿里巴巴集团控股有限公司 | 基于账户聚类的计算机风险识别方法及其系统 |
US9953160B2 (en) * | 2015-10-13 | 2018-04-24 | Paypal, Inc. | Applying multi-level clustering at scale to unlabeled data for anomaly detection and security |
CN110458376A (zh) * | 2018-05-07 | 2019-11-15 | 上海诺悦智能科技有限公司 | 一种可疑风险交易筛查方法与相应系统 |
CN113793071B (zh) * | 2018-07-03 | 2024-09-06 | 创新先进技术有限公司 | 一种可疑群组识别方法和装置 |
CN109872232A (zh) * | 2019-01-04 | 2019-06-11 | 平安科技(深圳)有限公司 | 涉及非法所得合法化行为的账户分类方法、装置、计算机设备及存储介质 |
CN110084619A (zh) * | 2019-04-03 | 2019-08-02 | 中国联合网络通信集团有限公司 | 养卡行为的识别方法、装置及计算机可读存储介质 |
-
2019
- 2019-12-02 CN CN201911211648.2A patent/CN110895758B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110895758A (zh) | 2020-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110895758B (zh) | 存在作弊交易的信用卡账户的筛选方法、装置及系统 | |
CN111967779B (zh) | 一种风险评估方法、装置及设备 | |
CN112598294A (zh) | 在线建立评分卡模型的方法、装置、机器可读介质及设备 | |
CN106327032A (zh) | 一种用于客户流失预警的数据分析方法和装置 | |
CN108711047A (zh) | 一种自动还款方法、系统及终端设备 | |
CN111046184A (zh) | 文本的风险识别方法、装置、服务器和存储介质 | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
CN109102396A (zh) | 一种用户信用评级方法、计算机设备及可读介质 | |
JP6251383B2 (ja) | 債務不履行となる企業の蓋然性の計算 | |
CN112634048A (zh) | 一种反洗钱模型的训练方法及装置 | |
CN112116401A (zh) | 压力测试方法、装置、设备和存储介质 | |
CN112884480A (zh) | 异常交易识别模型的构造方法、装置、计算机设备和介质 | |
CN112037013A (zh) | 人行征信变量衍生方法及装置 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN110991650A (zh) | 训练养卡识别模型、识别养卡行为的方法及装置 | |
CN107679862B (zh) | 一种欺诈交易模型的特征值确定方法及装置 | |
CN118134652A (zh) | 一种资产配置方案生成方法、装置、电子设备及介质 | |
CN111932368A (zh) | 一种信用卡发卡系统及其构建方法、装置 | |
CN113421154B (zh) | 基于控制图的信贷风险评估方法及系统 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN113822751A (zh) | 一种线上贷款的风险预测方法 | |
CN112508702A (zh) | 资金流向分析方法、装置、电子设备及介质 | |
CN118071483A (zh) | 构建零售信用风险预测模型的方法和个人信贷业务Scorepsi模型 | |
KR102334923B1 (ko) | 인공지능을 이용한 대출 확대 가설 검정 시스템 및 이를 이용한 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |