CN116523301A

CN116523301A - 基于电商大数据进行风险评级预测的系统

Info

Publication number: CN116523301A
Application number: CN202310391649.XA
Authority: CN
Inventors: 李洪世; 徐博
Original assignee: Shenzhen Zhige Digital Technology Co ltd
Current assignee: Shenzhen Zhige Digital Technology Co ltd
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-08-01

Abstract

本申请提供一种基于电商大数据进行风险评级预测的系统，包括：数据获取子系统，用于向电商平台请求电商数据；数据处理子系统，用于对所述电商数据进行处理并得到包括多个风险指标的风险样本和标签化样本；存储子系统，用于存储所述电商数据和所述风险样本和标签化样本；训练子系统，用于根据所述标签化样本训练风险评级预测模型；执行子系统，用于根据目标客户的风险样本利用所述风险评级预测模型同时得到总体风险预测和风险画像。根据本申请的系统通过获取来自电商平台的大数据并转化为风险指标体系，再转化为风险评级模型，可以为提供企业风险评级预测。

Description

基于电商大数据进行风险评级预测的系统

技术领域

本申请涉及机器学习及商业大数据技术领域，具体而言，涉及一种基于电商大数据进行风险评级预测的系统。

背景技术

随着网络计算技术的发展，电子商务活动中产生了大量的商业大数据。例如，与传统行业相比，电商在其生态价值链上会产生海量可获取的原始电商数据。这些数据的获取、加工、或者有效利用，可对企业经营活动提供帮助，或者对企业经营决策提供支持。

举例而言，随着跨境电商的发展，越来越多的跨境电商开始出现融资需求。金融机构开展跨境电商融资业务时，信用风险的评级依赖线下尽调，时间和人力成本相对较高。这就导致对跨境电商的纯信用融资如无根之水，抵押贷款占据主导地位，使得许多运营良好需要融资但缺乏抵押的电商的发展受到限制。

因此，考虑开发一种电商大数据的处理和利用方法,充分利用电商大数据为企业经营活动提供帮助或支持，为金融机构提供可信赖的融资依据。

在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请旨在提供一种基于电商大数据进行风险评级预测的系统，充分利用电商大数据为企业风险评级预测提供支持。

本申请的其该用户特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的一方面，提供一种基于电商大数据进行风险评级预测的系统，包括：

数据获取子系统，用于向电商平台请求电商数据；

数据处理子系统，用于对所述电商数据进行处理并得到包括多个风险指标的风险样本和标签化样本；

存储子系统，用于存储所述电商数据和所述风险样本和标签化样本；

训练子系统，用于根据所述标签化样本训练风险评级预测模型；

执行子系统，用于根据目标客户的风险样本利用所述风险评级预测模型同时得到总体风险预测和风险画像。

根据一些实施例，通过获取来自电商平台的大数据并转化为风险指标体系，再转化为风险评级模型，可以为提供企业风险评级预测。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参照附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。

图1示出本申请技术方案的一种应用场景的示意图。

图2A示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型。

图2B示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型的训练模式。

图3示出根据本申请示例实施例的随机森林模型利用商业大数据进行风险评级的方法。

图4示出根据示例实施例对风险指标进行标准化的过程。

图5示出根据本申请实施例的训练风险评级预测模型的方法流程图。

图6示出根据本申请实施例通过半监督学习进行样本标签化的方法流程图。

图7示出根据本申请示例实施例的总体风险预测和风险画像的示例。

图8示出根据本申请实施例的用于获取多家电商大数据的子系统的示意图。

图9示出根据示例实施例的用于获取多家电商大数据的子系统配置的方法流程图。

图10示出根据示例实施例的基于电商大数据进行风险评级预测的系统框图。

图11示出根据本申请示例实施例的计算设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

金融机构传统上对电商企业进行风险管理是以线下对企业的尽职调查为主。通过对公司经营状况、公司财产线索、法人财产线索(房产、车等)、银行信用状况、债务状况、法律诉讼等方面的调查，对企业进行风险评估。调查的数据来源主要包括企业财报、银行流水、纳税申报表、工商信息平台、房产局数据库、中登网数据库等。这种方式的主要问题在于，线下调查的人力成本和时间成本相对较高，数据的可信度(财报)、数据的清晰度(银行流水)均无法保证，而且数据无法批量获取。数据的获取通常依赖人工操作处理，这相对于电商平台上产生的海量数据而言是远远不能完成处理任务的。

此外，金融机构一般通过人工经验或者建立风险评分卡的方式进行风险评级预测。首先,结合样本标签对风险指标进行卡方分箱(基于逻辑回归算法)，就是将连续型的数据离散化，比如年龄这个变量可以分箱为0-18，18-30，30-45，45-60等。接着,计算不同指标不同区间的风险得分。最后,将目标用户的风险指标匹配对应区间的风险得分并加总得到总风险评分。

风险评分卡无法进行用户风险画像，例如对跨境电商而言，从不同风险维度(库存，销售)进行评分。此外，该方法的准确率并不是很高。因为形式非常的简单(非常类似线性模型)，很难去拟合数据的真实分布。

为此，本申请考虑将电商的线上运营方式产生的大量原始电商数据用于风险评级预测，为金融机构提供可信赖的融资依据。

根据本申请实施例，提出一种基于商业大数据进行风险评级预测的方法和系统，将跨境电商运营中产生的大数据转化为风险指标体系，再转化为风险评级模型。另外，由于从电商的大数据得到的风险指标空间有非常明确的维度划分(库存、销售、结算等)，因此还提供了针对不同维度的风险评分画像。这样，通过机器学习，对企业风险评级进行预测，从而为金融机构提供可信赖的融资依据。

下面参照实施例对本申请的技术方案进行详细说明。

图1示出本申请技术方案的一种应用场景的示意图。

参见图1，在电商系统中，电商价值链上产生的数据会沉淀在电商平台的数据库中。为了获取这些沉淀数据，可以通过电商授权方式，通过电商平台的API接口将数据授权给根据本申请实施例的数据处理系统使用。此外，系统还可通过与电商业务的其他主要参与者(包括第三方支付、物流商、仓储服务商)进行以接口等形式的数据对接，实时获取用户多个维度(销售，库存，流量，政策性违规，物流，结算等)的原始电商数据，并可使用分布式技术手段进行存储和计算。

根据本申请实施例的数据处理系统在接到授权后，将电商平台中相应电商的原始电商数据拉取到数据处理系统关联的存储系统。根据一些实施例，该存储系统可以是分布式存储系统。

根据本申请实施例的数据处理系统对数据进行处理，例如通过标准化处理，得到可以后续使用的数据。然后，可结合行业经验、商业模型、财务模型和/或统计模型等，通过机器学习等方式得到电商企业的风险评级结果和风险画像并提供给银行等金融机构，作为可信赖的融资依据。

图2A所示的随机森林模型可以基于商业大数据(例如，电商大数据)对企业进行风险评级预测，从而为金融机构提供融资依据。

随机森林构造了多个决策树，当需要对某个样本进行预测时，统计森林中的每棵树对该样本的预测结果，然后通过投票法从这些预测结果中选出最后的结果。随机体现在两个方面，一个是随机取特征，另一个是随机取样本，让森林中的每棵树既有相似性又有差异性。随机森林作为一种Bagging(装袋算法)集成学习算法，会对原始电商数据集进行采样，得到新的数据集。随机选取原数据集中的一个样本并添加至新数据集，多次操作，形成不同的训练集。换言之，随机森林可以从多数类中独立随机抽取出若干子集，将每个子集与少数类数据联合起来训练生成多个基分类器，再加权组成新的分类器来处理数据不平衡问题。随机森林是一类基础而且常用的非线性分类和回归方法。

参见图2A，根据示例实施例的随机森林模型包括n+i个决策树，其中n个第一组决策树获取k个风险指标，i个第二组决策树分别获取i个风险维度中特定维度的风险指标。

参见图2B，在对该模型进行训练时，该第一组决策树随机获取多个风险样本和该多个风险指标，该第二组决策树随机获取训练样本且分别获取各风险维度的风险指标。

风险指标可包括但不限于例如销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率等。风险维度包括但不限于库存、销售、退货、结算等。这些风险指标可基于商业大数据获得。

根据示例实施例的随机森林模型，将客户风险画像功能嵌入了风险评级模型之中，既节省了时间和计算成本，也使得风险画像获得了随机森林算法的加持。

图3示出根据本申请示例实施例的随机森林模型利用电商大数据进行风险评级预测的方法。

参见图3，在S301，获取目标客户的风险样本,风险样本具有多个风险指标，多个风险指标可划分为至少一个风险维度。

根据示例实施例，多个风险指标可包括基于时间片的统计指标。

例如，该多个风险指标可包括但不限于基于时间片的销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率等。

多个风险指标可划分为至少一个风险维度，例如，销售同比环比、库存周转率和回款率可分别划分至销售、库存、结算三个风险维度。

根据示例实施例，可通过后面参照图4所说明的方法获得风险样本并对样本的风险指标进行标准化处理。

在S303，将多个风险指标放入随机森林模型进行计算。

根据示例实施例，该随机森林模型包括第一组决策树和第二组决策树。该第一组决策树获取该多个风险指标，该第二组决策树分别获取各风险维度的风险指标。

在S305，获取随机森林模型的输出结果，得到总体风险预测和风险画像。

例如，可将第一组决策树和第二组决策树输出的结果(例如，平均值)作为目标用户的总体风险预测，将第二组决策树输出的各风险维度的风险预测作为风险画像，参见图7给出的总体风险预测和风险画像的示例。

根据一些实施例，第二组决策树的输出为平均逾期概率，第二组决策树的输出分别为退货风险、库存风险、基础风险、结算表现和销售表现。

根据一些实施例，该总体风险预测值作为目标用户的未来运营状况预测。根据一些实施例，该方法用于金融机构对电商进行风险评级。

根据一些实施例，根据多个样本的特定指标，对多个样本的预测值进行加权平均。例如，可根据销售额指标对预测值进行加权平均。

根据本申请的示例实施例，使用随机森林替代逻辑回归作为底层算法。在使用随机森林算法生成子决策树时，以特定数量的子树选取特定风险维度的风险指标。通过将用户风险画像功能嵌入风险评级模型之中，既节省了时间和计算成本，也使得风险画像获得了随机森林算法的加持。这样，根据示例实施例的方法获得的预测结果更加准确。此外，可同时可降低过拟合问题出现的可能性。

根据一些实施例，在获取风险指标后,可通过与以前获得的风险指标比对,获得异常变化信息,从而发出预警。例如，同比销售下降超过80％同行业竞争者，或者冗余库存比超过80％同行业竞争者，或者日销售高于近30天日销售平均值3个标准差以上时，可发出预警信息，从而可将风险控制在最小范围内。

图4示出根据示例实施例对风险指标进行标准化的过程。

在通过数据接口获得商业大数据后，可对获取的原始电商数据进行统计加工，生成标记样本和风险指标。然后，可对风险指标进行标准化处理，以用于预测或用于训练模型。通过数据标准化，可以提升模型的收敛速度和精度，并且可以去除时间、地域、品类等的影响。

根据一些实施例，首先可结合RFM模型、财务模型、电商运营指标体系等，确定风险指标。

RFM模型是衡量客户价值和客户创造利益能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。

财务模型是将企业的各种信息按照价值创造的主线进行分类、整理和链接，以完成对企业财务绩效的分析、预测和评估等功能。总体运营指标可包括流量类指标、销售转换指标、商品类指标等。

根据一些实施例，作为风险指标的退货率可定义为退货单数与总单数的比值，回款率可定义为平台打到客户账户的款项总金额与平台销售总金额的比值，售出率可定义为销售商品数量与平均库存的比值。

在S401，获取电商数据样本。

在电商系统中，电商价值链上产生的数据会沉淀在电商平台的数据库中。为了获取这些沉淀数据，可以通过电商授权方式，利用电商平台的API接口将数据拉取保存到存储系统，再处理为电商数据样本保存。然后可从存储系统获取电商数据样本。按照预定周期的滑动时间窗口从至少一个预定周期的电商数据获取至少一个时间窗口的风险样本。这样，通过时间窗口的使用，可以扩大风险样本的数量，这对于满足模型训练所需的样本数量尤其有用。

在S403，确定用于对电商数据样本进行统计计算的多个时间片。

根据示例实施例，在一个时间窗口内可设定例如0-7天、8-14天、15-21天、22-28天等时间片，以对电商数据样本进行统计，诸如统计每个样本中订单数、退货单数、回款金额等指标的时间片统计值。通过多个时间片统计，可以扩大风险指标的数量，如下面所详细描述的。

在S405，对电商数据样本根据属性维度组合的筛选结果按多个时间片进行指标统计并计算风险指标，从而得到风险样本。

例如，对电商数据样本按品类、地域和时间窗口的属性维度组合进行退货单数、总销售金额等指标的时间片统计，然后可根据各指标的时间片统计结果和风险指标定义计算风险指标，得到包括多个风险指标的风险样本。表1和表2给出示例的风险样本的统计数据和风险指标。

表1.多维度统计数据示例

表2.风险指标示例

在S407,根据属性维度组合对风险指标进行数据标准化，以消除或降低因维度不同产生偏差的可能性。

根据示例实施例，筛选属性维度组合相同的风险样本集合，计算集合中风险指标的平均值以及标准差。

根据一些实施例，可对风险指标进行z-score(zero-mean normalization)标准化处理。标准化结果x为风险指标值，/>为风险指标的平均值，s为标准差。表3为标准化后的示例结果。

表3.风险指标标准化示例

参见图5，在S501，获取标签化的训练样本。

训练样本可以通过多种标注方式来填加标签。例如，可以采用人工标注的方式对样本进行标签化来确定训练样本。也可以通过半监督学习的方式进行样本标签化过程，从而通过数据生成标签，以生成训练样本，如后面参照图6所描述的。

根据一些实施例，可通过后面参照图6描述的方法利用半监督学习进行样本标签化，并将标签化样本的至少部分作为训练样本。

在S503，选择多个风险指标。

根据示例实施例，可先对指标进行筛选，保留重要性排名较高前k个风险指标，以减轻模型的运算任务。

根据一些实施例，可以使用简单的逻辑回归模型，使用回归系数作为筛选标准。此外，也可以使用正则化L1，L2筛选。

根据一些实施例，可以对指标空间应用KS检验排序，保留重要性排名在前的k个风险指标。

KS检验(Kolmogorov-Smirnov检验)用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。在风控中，KS检验常用于评估风险指标区分度。区分度越大，说明风险指标的风险排序能力(ranking ability)越强。KS统计量是基于经验累积分布函数(Empirical Cumulative Distribution Function，ECDF)建立的。检验统计量为：

B(x)，指特定指标小于等于x的样本中，坏样本的占比。

G(x)，指特定指标小于等于x的样本中，好样本的占比。

检验过程如下：

(1)提出假设H0：B(x)＝G(x)。

(2)计算特定指标好样本累计频率与坏样本累计频率的绝对差，令最大的绝对差为D,D＝max{|B(x)-G(x)|}。

根据一些实施例，还包括对多个风险指标进行标准化处理，如参照图4所描述的。

(3)使用D作为特定指标的KS分值并排序。

通过对风险指标进行特征筛选，可以得到准确率更高的风险评级得分，并可减轻模型的运算任务。

在S505，将多个风险指标划分为至少一个风险维度。例如，可以按库存维度、销售维度、市场维度、用户维度、财务维度等对风险指标进行分组，以得到目标用户不同风险维度的评级得分。

在S507，基于训练样本和多个风险指标及至少一个风险维度，训练随机森林模型。

根据示例实施例，该随机森林模型包括第一组决策树和第二组决策树。该第一组决策树随机获取多个标记样本和该多个风险指标，该第二组决策树随机获取训练样本且分别获取各风险维度的风险指标。

所述第一组决策树和所述第二组决策树输出的结果(例如平均值)可作为总体风险预测值。

此外，可以将目标用户的样本和风险指标放入训练得到的随机森林模型，分别取所述第二组决策树输出的结果作为所述预定维度的风险预测值，例如库存维度的风险预测值。

根据一些实施例，还可将第一组决策树和第二组决策树的平均oob得分(袋外错误率，out-of-bag error)作为评测标准，对随机森林模型的参数进行优化，从而得到优化后的模型。

在对模型进行训练时，需要大量标签化训练样本。训练样本可以通过多种标注方式来填加标签。例如，可以采用人工标注的方式对样本进行标签化来确定训练样本。人工标注往往需要花费大量的人工成和时间，而且由于现实条件的限制，有时是难以完成的。也可以通过半监督学习的方式进行样本标签化过程，从而通过数据生成标签，以生成训练样本。

在对电商的银行贷款逾期进行风险评级预测时，采用迁移学习的思想进行标签化，将对用户未来贷款风险逾期概率的预测迁移为对用户未来运营状况的预测。迁移学习是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。无监督迁移学习即目标领域没有标注数据的迁移学习任务(目前企业B端数据广泛缺乏标注)。迁移学习是基于：特征空间中的部分特征是领域独享的，而另一部分特征是领域共享且可泛化的，即企业运营状况与贷款逾期概率具有大量共享特征。

根据示例实施例，用有标签数据训练一个分类器，然后用这个分类器对无标签数据进行分类。挑选分类正确置信度高的无标签样本，把选出来的无标签样本用来训练分类器。例如，无标签数据放入分类器后，输出概率>0.95标记为负样本，输出概率<0.05标记为正样本。

参见图6，在S601，对风险指标空间进行降维并对样本排序，得到初始标记样本。

根据示例实施例，可通过主要成分分析(PCA，principal components analysis)，对风险指标空间进行降维并对样本排序。

根据实施例，可通过PCA把原先的k个特征用数目更少的m个特征取代，新特征是旧特征的线性组合。这些线性组合最大化样本方差，尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。根据实施例，可将m设定为1，使每一个样本对应一个风险值(降至一维的特征空间)，并按照风险值对样本排序。表4给出示例的风险指标空间降维后的样本排序。以一定的比例将排序好的样本中的头部样本和尾部样本挑选出来分别标记为正样本和负样本，得到初始标记样本，放入样本空间。然后，可重复执行S603和S605，直至样本空间中标记样本的数量达到阈值。

表4.风险指标空间降维后的样本排序示例

在S603，利用样本空间中的标记样本训练分类模型。

将样本空间中的标记样本切割为训练集与测试集，并放入分类模型进行训练，例如放入决策树模型进行训练，得到训练后的分类模型。

在S605，通过训练后的分类模型进行样本标签化，利用得到的标记样本扩充样本空间。

将之前未标记的样本放入训练后的分类模型中，得到对未标记样本的预测标记概率并排序，并以一定的比例将得到的排序样本中的头部样本和尾部样本挑选出来分别标记为正样本和负样本，放入已有标记样本的样本空间中，扩充样本空间。

这样，通过半监督学习的方式进行样本标签化，从而通过数据生成标签，以生成训练样本，节省了人力。此外，还可以消除特征之间的共线性。

参见图8，根据示例实施例，在至少两个服务器A和服务器B上执行获取网店数据的多个线程。

如图8所示，需要获取的数据包括四类，分别为订单数据、销售数据、报告数据和文档数据。每个服务器A或服务器B上分别为每个类别的数据创建3个获取从电商平台获取网店的数据的线程。线程的数量可根据服务器和网络资源的状况以及电商平台对接口请求的限制而调整。

参见图8，对于每个线程而言，首先获取网店ID，然后从电商平台获取相应网店的数据。

根据实施例，各线程先从未执行优先队列中获取网店ID，并将获取到的网店ID放入执行中优先队列。然后，根据获取到的网店ID完成向电商平台请求相应的电商数据，并将网店ID从执行中优先队列移除。接着，再从未执行优先队列中获取另一网店ID，继续获取相应数据的过程。

如果没有从未执行优先队列获取到网店ID，但执行中优先队列不为空，则延时后返回，继续进行获取网店ID的操作。这样，可以确保在优先完成从电商平台获取优先队列中的网店的数据之后，才开始从电商平台获取常规队列中网店的数据。

如果没有从未执行优先队列获取到网店ID，且执行中优先队列为空，表明这时已无需要优先处理的网店，因此开始处理常规队列中的网店，从未执行常规队列获取网店ID。将获取到的网店ID放入执行中常规队列，并根据获取到的网店ID完成向电商平台请求相应的电商数据。然后，将网店ID从执行中常规队列移除，再试着从未执行优先队列中获取另一网店ID，继续前述获取数据的过程。

根据示例实施例，未执行常规队列和未执行优先队列为基于单线程内存存储系统的队列，单线程内存存储系统可包括Redis系统。但本申请不限于此，也可以采用其他线程安全的队列来存储网店ID，或通过其他线程安全的方式获取网店ID，以保证不会发生网店ID被重复获取的问题。

参见图9，在S901，设置用于存储网店ID的队列。根据示例实施例，队列包括未执行常规队列、执行中常规队列、未执行优先队列、执行中优先队列。

通过不同队列的设置，可以为优先获取某些网店数据提供基础。另外，通过执行中队列的设置，可以实现对数据抓取过程的网店的可视化、实时监控，并进一步确保例如新增网店数据的优先获取。

在S903，同时开启数量为N的多个第一线程。

根据示例实施例，通过多线程方式获取数据，进一步提高数据获取效率。

根据一些实施例，N个第一线程向电商平台请求数据的能力大于电商平台对电商数据的请求限制。此外，根据一些实施例，可确定N-2或N-1个第一线程向电商平台请求数据的能力小于电商平台对电商数据的请求限制。

这样，通过控制线程的数量，可以最大化利用电商平台提供的接口能力。此外，通过对线程数量的控制，尽量不会浪费计算资源和网络资源。

在S905，定时更新队列中的网店ID。

根据一些实施例，可定时查询客户授权的网店名单，例如从数据库中查询，从而获取网店ID集合。然后，从网店ID集合排除队列中的网店ID。再将保留的新增网店的网店ID加入到未执行优先队列，并将保留的非新网店的网店ID加入到未执行常规队列。

根据一些实施例，获取的网店ID集合可包括第一集合及第二集合，第一集合包含新增网店的网店ID，第二集合包含非新网店的网店ID。这样，从网店ID集合排除队列中的网店ID时，从第一集合排除未执行优先队列和执行中优先队列的网店ID，并从第二集合排除未执行常规队列和执行中常规队列的网店ID。

在S907，利用多个第一线程优先根据未执行优先队列中的网店ID分别向电商平台请求不同网店的电商数据。

在有新增网店授权访问数据接口时，由于新授权网店有大量的历史数据，需要一种优先获取新增网店的数据。

根据示例实施例，通过对未执行优先队列中的网店ID进行处理，完成向电商平台请求相应的电商数据。通过以多线程方式进行电商数据的获取，可以提高数据获取效率。

此外，根据一些实施例，通过对线程数量进行控制，可以最大化利用电商平台提供的接口能力，并尽量不会浪费计算资源和网络资源。

电商平台的接口可以包括订单数据接口、销售数据接口、报告数据接口、文档数据接口等。不同电商平台提供的接口可能有所不同。电商数据可以是从这些接口之一获取的数据，本申请对此并无限制。易于理解，电商接口在这里是泛指，意图表明本申请的技术方案可以获取任一类似接口的数据，当然也可以通过不同的线程(例如，第2、…、n线程)同时获取这些接口的数据。

根据示例实施例，首先从未执行优先队列获取网店ID。每次获取网店ID以向电商平台请求相应数据时，先从未执行优先队列中获取网店ID。这样，可以实现对某些网店的数据的优选获取，例如先获取新增网店的数据。

然后，将获取到的网店ID放入执行中优先队列。根据实施例，通过将获取到的网店ID放入执行中优先队列，可以对数据抓取过程的网店的进行可视化、实时监控。此外，可进一步确保例如新增网店数据的优先获取，参见后面的描述。

接着，在根据获取到的网店ID完成向电商平台请求相应的电商数据之后，将网店ID从执行中优先队列移除。在完成向电商平台请求与网店ID相应的数据之后，可将网店ID从执行中优先队列移除，然后重复执行上述操作。

在S909，在未执行优先队列以及执行中优先队列中均无数据时，利用多个第一线程根据未执行常规队列中的网店ID分别向电商平台请求不同网店的电商数据。

根据示例实施例，优先队列中的网店的数据获取完成之后，才开始获取常规队列中网店的数据。例如，在从电商平台获取新增网店的数据完成之后，才进行存量网店的数据的获取。这样，不仅能够保证特定数据的优选获取，还能以简单方式实现数据的高效获取，尽可能减少数据获取过程中的切换或等待处理。

根据示例实施例，首先从未执行优先队列获取网店ID。根据示例实施例，每次获取网店ID以向电商平台请求相应数据时，先从未执行优先队列中获取网店ID。这样，可以确保未执行优先队列有新增网店ID时，能够优先对其进行处理。如果没有从未执行优先队列获取到网店ID，但执行中优先队列不为空，则延时后返回。这样，可以确保在优先完成从电商平台获取优先队列中的网店的数据之后，才开始从电商平台获取常规队列中网店的数据。

如果没有从未执行优先队列获取到网店ID且执行中优先队列为空，则从未执行常规队列获取网店ID。由于这时已无需要优先处理的网店，因此开始处理常规队列中的网店，例如存量网店。将获取到的网店ID放入执行中常规队列。通过将获取到的网店ID放入执行中常规队列，可以对数据抓取过程的网店的进行可视化、实时监控。

在根据获取到的网店ID完成向电商平台请求相应的电商数据之后，将网店ID从执行中常规队列移除。在完成向电商平台请求与网店ID相应的数据之后，可将网店ID从执行中常规队列移除，然后重复执行上述操作。

参见图10，根据示例实施例的风险评级预测系统1000包括数据获取子系统1002、数据处理子系统1004、存储子系统1006、训练子系统1008以及执行子系统1010。

数据获取子系统1002用于向电商平台请求电商数据。

如前面描述的，根据一些实施例，数据获取子系统1002配置为：设置用于存储网店ID的队列，所述队列包括未执行常规队列、执行中常规队列、未执行优先队列、执行中优先队列；同时开启数量为N的多个第一线程；定时更新所述队列中的网店ID；利用所述多个第一线程优先根据所述未执行优先队列中的网店ID分别向所述电商平台请求不同网店的电商数据；在所述未执行优先队列以及所述执行中优先队列中均无数据时，利用所述多个第一线程根据所述未执行常规队列中的网店ID分别向所述电商平台请求不同网店的电商数据。

数据处理子系统1004用于对所述电商数据进行处理并得到包括多个风险指标的风险样本和标签化样本。

如前面描述的，根据一些实施例，数据处理子系统1004配置为：将所述电商数据处理为电商数据样本并保存；确定用于对所述电商数据样本进行统计计算的多个时间片；对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标；根据所述属性维度组合对所述风险指标进行数据标准化。

根据一些实施例，将电商数据处理为电商数据样本可包括缺失值删除、缺失值补全、均值插补、离群值处理、数据去重、统一单位、特征编码等常用处理，此处不再赘述。

根据一些实施例，针对根据所述属性维度对所述风险指标进行数据标准化，数据处理子系统1004还配置为：筛选属性维度组合相同的风险样本集合；计算集合中风险指标的平均值以及标准差；根据所述平均值和标准差对风险指标进行标准化，标准化结果为风险指标和平均值的差与所述标准差之比。

如前面描述的，根据一些实施例，数据处理子系统1004还配置为：对包含多个风险指标的风险指标空间进行降维并对样本排序，获得初始标记样本并放入样本空间；重复执行以下步骤,直至所述样本空间中标记样本的数量达到阈值:利用所述样本空间中的标记样本训练分类模型；通过训练后的分类模型进行样本标签化，利用得到的标记样本扩充所述样本空间。

根据一些实施例，针对通过训练后的分类模型进行样本标签化，利用得到的标记样本扩充所述样本空间，所述数据处理子系统1004配置为：将之前未标记的样本放入训练后的分类模型中，得到对未标记样本的预测标记概率并排序；以一定比例将排序好的样本中的头部样本和尾部样本分别标记为正样本和负样本，放入已有标记样本的样本空间中。

存储子系统1006用于存储所述电商数据和所述风险样本和标签化样本。

根据一些实施例，所述存储子系统1006可包括分布式文件系统和分布式数据库系统。所述分布式文件系统可包括FastDFS系统，所述分布式数据库系统可包括TiDB系统。

训练子系统1008用于根据所述标签化样本训练风险评级预测模型。

根据一些实施例，训练子系统1008配置为：获取标签化的训练样本；选择多个风险指标；将所述多个风险指标划分为至少一个风险维度；基于所述训练样本和所述多个风险指标及所述至少一个风险维度，训练随机森林模型，其中，所述随机森林模型包括第一组决策树和第二组决策树，所述第一组决策树随机获取所述多个风险样本和所述多个风险指标，所述第二组决策树随机获取所述训练样本且分别获取各风险维度的风险指标。

执行子系统1010用于根据目标客户的风险样本利用所述风险评级预测模型同时得到总体风险预测和风险画像。

根据一些实施例，执行子系统1010配置为：获取目标客户的风险样本，所述风险样本具有多个风险指标，所述多个风险指标划分为至少一个风险维度；将所述多个风险指标放入随机森林模型进行计算，其中所述随机森林模型包括第一组决策树和第二组决策树，所述第一组决策树获取所述多个风险指标，所述第二组决策树分别获取各风险维度的风险指标；获取随机森林模型的输出结果，同时得到总体风险预测和风险画像。

系统1000中的其他处理可参见前面的描述，此处不再赘述。

图11示出根据本申请示例实施例的计算设备的框图。

如图11所示，该计算设备30包括处理器12和存储器14。计算设备30还可以包括总线22、网络接口16以及I/O接口18。处理器12、存储器14、网络接口16以及I/O接口18可以通过总线22相互通信。

处理器12可以包括一个或多个通用CPU(Central ProcessingUnit，中央处理器)、微处理器、或专用集成电路等，用于执行相关程序指令。

存储器14可以包括易失性存储器形式的机器系统可读介质，例如随机存取存储器(RAM)、只读存储器(ROM)和/或高速缓存存储器。存储器14用于存储包含指令的一个或多个程序以及数据。处理器12可读取存储在存储器14中的指令以执行上述根据本申请实施例的方法。

计算设备30也可以通过网络接口16与一个或者多个网络通信。该网络接口16可以是有线网络接口或无线网络接口，也可以是虚拟网络接口。

计算设备30也可以通过输入/输出(I/O)接口18与一个或多个外部设备(例如音频输入设备、音频输出设备、摄像头、键盘、鼠标、显示器、各类传感器等)通信。

总线22可以包括地址总线、数据总线、控制总线等。总线22提供了各组件之间交换信息的通路。

需要说明的是，在具体实施过程中，计算设备30还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上对本申请实施例进行了详细描述和解释。应清楚地理解，本申请描述了如何形成和使用特定示例，但本申请不限于这些示例的任何细节。相反，基于本申请公开的内容的教导，这些原理能够应用于许多其它实施例。

通过对示例实施例的描述，本领域技术人员易于理解，根据本申请实施例的风险评级预测方法至少具有以下优点中的一个或多个。

根据一些实施例，通过控制线程的数量，可以最大化利用电商平台提供的接口能力，尽量不会浪费计算资源和网络资源。根据一些实施例，通过采用线程安全的队列来存储网店ID，可以保证不会发生网店ID被重复获取的问题。设置执行中队列，可以实现对数据抓取过程的网店的可视化、实时监控。通过设置优先队列，可以以简单的方式实现优先获取例如新增网店的数据。通过设置执行中优先队列，可进一步确保例如新增网店数据的优先获取。

根据一些实施例，每次获取网店ID以向电商平台请求相应数据时，先从未执行优先队列中获取网店ID，可以确保未执行优先队列有新增网店ID时，能够优先对其进行处理。执行中优先队列不为空时，不从常规队列获取网店ID，可以确保在优先完成从电商平台获取优先队列中的网店的数据之后，才开始从电商平台获取常规队列中网店的数据。通过不同队列的设置并结合多线程获取数据，可以实现优先获取某些网店数据，并同时提高数据获取效率。

根据一些实施例，通过将跨境电商运营中产生的大数据转化为风险指标体系，再转化为风险评级模型，可以为提供企业风险评级预测。根据一些实施例，基于从电商的大数据得到的风险指标空间的维度划分(库存、销售、结算等)，提供了针对不同维度的风险评分画像。根据一些实施例，金融机构可以在准入阶段通过以这些根据本申请技术方案得到的具有高可信度的风险指标为基础的风险运营报告来进行风险准入评级，节省了人力和时间，并且结果相对更加可靠。

根据一些实施例，基于电商大数据，通过机器学习，对企业风险评级进行预测，从而为金融机构提供可信赖的融资依据。根据一些实施例，通过训练得到的随机森林模型，将客户风险画像功能嵌入了风险评级模型之中，既节省了时间和计算成本，也使得风险画像获得了随机森林算法的加持。根据一些实施例，通过半监督学习的方式进行样本标签化，从而通过数据生成标签，以生成训练样本，节省了人力。

依据以下条款可更好地理解前述内容：

1、一种基于电商大数据进行风险评级预测的系统，其特征在于，包括：

数据获取子系统，用于向电商平台请求电商数据；

2、如条款1所述的系统，其特征在于，所述数据获取子系统配置为：

设置用于存储网店ID的队列，所述队列包括未执行常规队列、执行中常规队列、未执行优先队列、执行中优先队列；

同时开启数量为N的多个第一线程；

定时更新所述队列中的网店ID；

利用所述多个第一线程优先根据所述未执行优先队列中的网店ID分别向所述电商平台请求不同网店的电商数据；

在所述未执行优先队列以及所述执行中优先队列中均无数据时，利用所述多个第一线程根据所述未执行常规队列中的网店ID分别向所述电商平台请求不同网店的电商数据。

3、如条款1所述的系统，其特征在于，所述数据处理子系统配置为：

将所述电商数据处理为电商数据样本并保存；

确定用于对所述电商数据样本进行统计计算的多个时间片；

对所述电商数据样本根据属性维度组合的筛选结果按所述多个时间片进行指标统计并计算风险指标；

根据所述属性维度组合对所述风险指标进行数据标准化。

4、如条款3所述的系统，其特征在于，针对根据所述属性维度组合对所述风险指标进行数据标准化，所述数据处理子系统配置为：

筛选属性维度组合相同的风险样本集合；

计算集合中风险指标的平均值以及标准差；

根据所述平均值和标准差对风险指标进行标准化，标准化结果为风险指标和平均值的差与所述标准差之比。

5、如条款3所述的系统，其特征在于，所述数据处理子系统还配置为：

对包含多个风险指标的风险指标空间进行降维并对样本排序，获得初始标记样本并放入样本空间；

重复执行以下步骤,直至所述样本空间中标记样本的数量达到阈值:

利用所述样本空间中的标记样本训练分类模型；

通过训练后的分类模型进行样本标签化，利用得到的标记样本扩充所述样本空间。

6、如条款5所述的系统，其特征在于，针对通过训练后的分类模型进行样本标签化，利用得到的标记样本扩充所述样本空间，所述数据处理子系统配置为：

将之前未标记的样本放入训练后的分类模型中，得到对未标记样本的预测标记概率并排序；

以一定比例将排序好的样本中的头部样本和尾部样本分别标记为正样本和负样本，放入已有标记样本的样本空间中。

7、如条款1所述的系统，其特征在于，所述存储子系统包括分布式文件系统和分布式数据库系统。

8、如条款7所述的系统，其特征在于，所述分布式文件系统包括FastDFS系统，所述分布式数据库系统包括TiDB系统。

9、如条款1所述的系统，其特征在于，所述训练子系统配置为：

获取标签化的训练样本；

选择多个风险指标；

将所述多个风险指标划分为至少一个风险维度；

基于所述训练样本和所述多个风险指标及所述至少一个风险维度，训练随机森林模型，

其中，所述随机森林模型包括第一组决策树和第二组决策树，所述第一组决策树随机获取所述多个风险样本和所述多个风险指标，所述第二组决策树随机获取所述训练样本且分别获取各风险维度的风险指标。

10、如条款1所述的系统，其特征在于，所述执行子系统配置为：

获取目标客户的风险样本，所述风险样本具有多个风险指标，所述多个风险指标划分为至少一个风险维度；

将所述多个风险指标放入随机森林模型进行计算，其中所述随机森林模型包括第一组决策树和第二组决策树，所述第一组决策树获取所述多个风险指标，所述第二组决策树分别获取各风险维度的风险指标；

获取随机森林模型的输出结果，同时得到总体风险预测和风险画像。

11、如条款2所述的系统，其特征在于，针对利用所述多个第一线程优先根据所述未执行优先队列中的网店ID分别向所述电商平台请求不同网店的电商数据，所述数据获取子系统配置为，利用每个线程重复执行以下操作：

从所述未执行优先队列获取网店ID；

将获取到的网店ID放入所述执行中优先队列；

在根据获取到的网店ID完成向所述电商平台请求相应的电商数据之后，将所述网店ID从所述执行中优先队列移除。

12、如条款11所述的系统，其特征在于，针对在所述未执行优先队列以及所述执行中优先队列中均无数据时，利用所述多个第一线程根据所述未执行常规队列中的网店ID分别向所述电商平台请求不同网店的所述电商数据，所述数据获取子系统配置为，利用每个线程重复执行以下操作：

从所述未执行优先队列获取网店ID；

如果没有从所述未执行优先队列获取到网店ID且所述执行中优先队列不为空，则延时后返回至从所述未执行优先队列获取网店ID；

如果没有从所述未执行优先队列获取到网店ID且所述执行中优先队列为空，则从所述未执行常规队列获取网店ID；

将获取到的网店ID放入所述执行中常规队列；

在根据获取到的网店ID完成向所述电商平台请求相应的所述电商数据之后，将所述网店ID从所述执行中常规队列移除。

以上具体地示出和描述了本申请的示例性实施例。应可理解的是，本申请不限于这里描述的详细结构、设置方式或实现方法；相反，本申请意图涵盖包含在所附条款的精神和范围内的各种修改和等效设置。

Claims

1.一种基于电商大数据进行风险评级预测的系统，其特征在于，包括：

数据获取子系统，用于向电商平台请求电商数据；

2.如权利要求1所述的系统，其特征在于，所述数据获取子系统配置为：

同时开启数量为N的多个第一线程；

定时更新所述队列中的网店ID；

3.如权利要求1所述的系统，其特征在于，所述数据处理子系统配置为：

将所述电商数据处理为电商数据样本并保存；

确定用于对所述电商数据样本进行统计计算的多个时间片；

根据所述属性维度组合对所述风险指标进行数据标准化。

4.如权利要求3所述的系统，其特征在于，针对根据所述属性维度组合对所述风险指标进行数据标准化，所述数据处理子系统配置为：

筛选属性维度组合相同的风险样本集合；

计算集合中风险指标的平均值以及标准差；

5.如权利要求3所述的系统，其特征在于，所述数据处理子系统还配置为：

利用所述样本空间中的标记样本训练分类模型；

6.如权利要求5所述的系统，其特征在于，针对通过训练后的分类模型进行样本标签化，利用得到的标记样本扩充所述样本空间，所述数据处理子系统配置为：

7.如权利要求1所述的系统，其特征在于，所述存储子系统包括分布式文件系统和分布式数据库系统。

8.如权利要求7所述的系统，其特征在于，所述分布式文件系统包括FastDFS系统，所述分布式数据库系统包括TiDB系统。

9.如权利要求1所述的系统，其特征在于，所述训练子系统配置为：

获取标签化的训练样本；

选择多个风险指标；

将所述多个风险指标划分为至少一个风险维度；

10.如权利要求1所述的系统，其特征在于，所述执行子系统配置为：

11.如权利要求2所述的系统，其特征在于，针对利用所述多个第一线程优先根据所述未执行优先队列中的网店ID分别向所述电商平台请求不同网店的电商数据，所述数据获取子系统配置为，利用每个线程重复执行以下操作：

从所述未执行优先队列获取网店ID；

将获取到的网店ID放入所述执行中优先队列；

12.如权利要求11所述的系统，其特征在于，针对在所述未执行优先队列以及所述执行中优先队列中均无数据时，利用所述多个第一线程根据所述未执行常规队列中的网店ID分别向所述电商平台请求不同网店的所述电商数据，所述数据获取子系统配置为，利用每个线程重复执行以下操作：

从所述未执行优先队列获取网店ID；

将获取到的网店ID放入所述执行中常规队列；