CN112801498B

CN112801498B - 风险识别模型的训练方法、风险识别方法、装置及设备

Info

Publication number: CN112801498B
Application number: CN202110107238.4A
Authority: CN
Inventors: 刘静媛; 胡志敏; 顾费勇
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2024-07-16
Anticipated expiration: 2041-01-26
Also published as: CN112801498A

Abstract

本申请提供一种风险识别模型的训练方法、风险识别方法、装置及设备，涉及区块链技术领域。其中，该方法通过获取训练样本数据集，训练样本数据集包括多个训练样本数据，每个训练样本数据标注有风险概率值标签，且每个训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；根据训练样本数据集，训练获取风险识别模型，应用本申请实施例，由于风险识别模型是根据包括多个维度的训练样本数据训练获取的，因此，通过该风险识别模型对待识别区块链项目进行风险识别获取风险概率值时，可以提高风险识别的准确性，使得基于该风险概率值提前给投资者进行预警时，可以降低投资者的投资风险。

Description

风险识别模型的训练方法、风险识别方法、装置及设备

技术领域

本申请涉及区块链技术领域，特别涉及一种风险识别模型的训练方法、风险识别方法、装置及设备。

背景技术

区块链技术作为一个新兴的技术，具有“不可伪造”、“全程留痕”、“可以追溯”、“公开透明”、“集体维护”等特征，被广泛应用在金融领域中，比如，区块链技术可以应用在数字货币、支付清算、智能合约、金融交易、物联网金融等多个方面，但随着区块链技术的广泛应用，出现了被利用来推行一些损害公共利益的项目的现象。

现有的，对于这些损害公共利益的项目进行风险性识别时，主要依据识别者的历史经验进行识别。

但是，现有的风险识别方法容易受识别者的主观因素影响，因此，存在风险识别的准确性较低的问题。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种风险识别模型的训练方法、风险识别方法、装置及设备，可以提高风险识别的准确性，使得基于该风险概率值提前给投资者进行预警时，可以降低投资者的投资风险。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本发明实施例提供一种风险识别模型的训练方法，包括：

获取训练样本数据集，所述训练样本数据集包括多个训练样本数据，每个所述训练样本数据标注有风险概率值标签，且每个所述训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

根据所述训练样本数据集，训练获取风险识别模型，所述风险识别模型用于识别区块链项目数据的风险概率值。

在可选的实施方式中，所述风险识别模型包括：至少两个子识别模型以及分类器模型；

所述根据所述训练样本数据集，训练获取风险识别模型，包括：

根据所述训练样本数据集，提取下述至少两个维度的特征向量：交易行为特征向量、智能合约操作码特征向量、评论特征向量；

根据至少两个维度的所述特征向量，训练获取至少两个子识别模型，所述子识别模型用于识别区块链项目数据在对应数据维度上的风险概率值；

根据至少两个所述子识别模型训练获取分类器模型，所述分类器模型用于识别区块链项目数据在至少两个数据维度上的加权风险概率值。

在可选的实施方式中，所述获取训练样本数据集，包括：

获取标注有风险概率值标签的初始训练样本数据集；

根据预设方式，划分训练样本数据集和测试样本数据集，所述测试样本数据集包括多个测试样本数据，每个所述测试样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

在可选的实施方式中，所述根据至少两个所述子识别模型训练获取分类器模型，包括：

根据至少两个所述子识别模型，获取所述测试样本数据集中每个所述测试样本数据在对应数据维度上的风险概率值；

根据所述测试样本数据集中每个所述测试样本数据在对应数据维度上的风险概率值和每个所述测试样本数据标注的风险概率值标签，训练获取所述分类器模型中每个所述子识别模型对应的风险概率权重值。

第二方面，本发明实施例提供一种风险识别方法，包括：

获取待识别区块链项目数据，所述待识别区块链项目数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

将所述待识别区块链项目数据输入风险识别模型，得到所述待识别区块链项目数据的风险概率值，所述风险识别模型根据训练样本数据集训练获取，所述训练样本数据集包括多个训练样本数据，每个所述训练样本数据标注有风险概率值标签，且每个所述训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

所述将所述待识别区块链项目数据输入风险识别模型，得到所述待识别区块链项目数据的风险概率值，包括：

根据所述待识别区块链项目数据包括的数据维度，将所述待识别区块链项目数据输入至少两个子识别模型，得到所述待识别区块链项目数据在各个数据维度上的风险概率值；

将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

在可选的实施方式中，所述将所述待识别区块链项目数据输入至少两个子识别模型，包括：

对所述待识别区块链项目数据进行特征提取，得到目标特征向量；

基于所述目标特征向量所属的数据维度，分别将各数据维度下的目标特征向量输入所属数据维度的子识别模型。

在可选的实施方式中，所述将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值，包括：

将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，根据所述分类器模型中每个所述子识别模型对应的风险概率权重值和待识别区块链项目数据在各个数据维度上的风险概率值，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

在可选的实施方式中，所述将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值之后，所述方法还包括：

输出风险识别报告，所述风险识别报告包括下述至少一项：待识别区块链项目数据在至少两个数据维度上的加权风险概率值、待识别区块链项目数据包括的数据维度、待识别区块链项目数据在各个数据维度上的风险概率值、风险评估建议。

第三方面，本发明实施例提供一种风险识别模型的训练装置，包括：获取模块和训练模块；

所述获取模块，用于获取训练样本数据集，所述训练样本数据集包括多个训练样本数据，每个所述训练样本数据标注有风险概率值标签，且每个所述训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

所述训练模块，用于根据所述训练样本数据集，训练获取风险识别模型，所述风险识别模型用于识别区块链项目数据的风险概率值。

在可选的实施方式中，所述风险识别模型包括：至少两个子识别模型以及分类器模型；所述训练模块，具体用于根据所述训练样本数据集，提取下述至少两个维度的特征向量：交易行为特征向量、智能合约操作码特征向量、评论特征向量；

在可选的实施方式中，所述获取模块，具体用于获取标注有风险概率值标签的初始训练样本数据集；

在可选的实施方式中，所述获取模块，具体用于根据至少两个所述子识别模型，获取所述测试样本数据集中每个所述测试样本数据在对应数据维度上的风险概率值；

第四方面，本发明实施例提供一种风险识别装置，包括：获取模块和识别模块；

所述获取模块，用于获取待识别区块链项目数据，所述待识别区块链项目数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

所述识别模块，用于将所述待识别区块链项目数据输入风险识别模型，得到所述待识别区块链项目数据的风险概率值，所述风险识别模型根据训练样本数据集训练获取，所述训练样本数据集包括多个训练样本数据，每个所述训练样本数据标注有风险概率值标签，且每个所述训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

在可选的实施方式中，所述风险识别模型包括：至少两个子识别模型以及分类器模型；所述识别模块，具体用于根据所述待识别区块链项目数据包括的数据维度，将所述待识别区块链项目数据输入至少两个子识别模型，得到所述待识别区块链项目数据在各个数据维度上的风险概率值；

在可选的实施方式中，所述识别模块，具体用于对所述待识别区块链项目数据进行特征提取，得到目标特征向量；

在可选的实施方式中，所述识别模块，将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，根据所述分类器模型中每个所述子识别模型对应的风险概率权重值，和待识别区块链项目数据在各个数据维度上的风险概率值，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

在可选的实施方式中，所述装置还包括：输出模块，用于输出风险识别报告，所述风险识别报告包括下述至少一项：待识别区块链项目数据在至少两个数据维度上的加权风险概率值、待识别区块链项目数据包括的数据维度、待识别区块链项目数据在各个数据维度上的风险概率值、风险评估建议。

第五方面，本发明实施例提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如前述实施方式任一所述方法的步骤。

第六方面，本发明实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如前述实施方式任一所述方法的步骤。

本申请的有益效果是：

本申请实施例提供的风险识别模型的训练方法、风险识别方法、装置及设备中，通过获取训练样本数据集，所述训练样本数据集包括多个训练样本数据，每个所述训练样本数据标注有风险概率值标签，且每个所述训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；根据所述训练样本数据集，训练获取风险识别模型，所述风险识别模型用于识别区块链项目数据的风险概率值，应用本申请实施例，由于风险识别模型是根据包括多个维度的训练样本数据训练获取的，因此，通过该风险识别模型对待识别区块链项目进行风险识别时，可以提高风险识别的准确性，使得基于该风险概率值提前给投资者进行预警时，可以降低投资者的投资风险。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种风险识别系统的架构示意图；

图2为本申请实施例提供的一种风险识别模型的训练方法的流程示意图；

图3为本申请实施例提供的另一种风险识别模型的训练方法的流程示意图；

图4为本申请实施例提供的又一种风险识别模型的训练方法的流程示意图；

图5为本申请实施例提供的另一种风险识别模型的训练方法的流程示意图；

图6为本申请实施例提供的一种风险识别方法的流程示意图；

图7为本申请实施例提供的另一种风险识别方法的流程示意图；

图8为本申请实施例提供的又一种风险识别方法的流程示意图；

图9为本申请实施例提供的另一种风险识别方法的流程示意图；

图10为本申请实施例提供的一种风险识别模型的训练装置的功能模块示意图；

图11为本申请实施例提供的一种风险识别装置的功能模块示意图；

图12为本申请实施例提供的一种风险识别装置的功能模块示意图；

图13为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在介绍本申请之前，为了便于更好地理解本申请，首先对本申请中的相关名词进行解释说明：

智能合约：一种旨在以信息化方式传播、验证或执行合同的计算机协议，智能合约允许在没有第三方的情况下进行可信交易，这些交易可追踪且不可逆转。

智能合约操作码(OPCODE)：指能被以太坊虚拟机EVM识别的操作码。

集成学习(ensemble learning)：通过构建并结合多个学习器来完成学习任务，一般结构是：先产生一组“个体学习器”，再用某种策略将它们结合起来。结合策略主要有平均法、投票法和学习法等。

现有的对区块链项目进行风险性识别时，主要依据识别者的历史经验进行识别，但该识别方法容易受识别者的主观因素影响，因此，存在风险识别的准确性较低的问题。

有鉴于此，本申请实施例提供一种风险识别模型的训练获取方法，该方法可以根据多个维度的训练样本数据训练获取风险识别模型，通过该风险识别模型对待识别区块链项目进行风险识别时，可以提高风险评估的准确性，使得可以提前给投资者进行预警，降低投资者的投资风险。

图1为本申请实施例提供的一种风险识别系统的架构示意图，如图1所示，该风险识别系统可以包括以太坊全节点10、评论服务器20、风险识别模型的训练设备30，其中，该以太坊全节点10可以是某区块链分布式系统中的网络节点，该网络节点拥有完整区块链账本，能够独立校验区块链上的所有交易并实时更新数据，可以负责该区块链的交易的广播和验证，评论服务器20可以是某评论平台对应的服务器，在此不作限定，以太坊全节点10和评论服务器20可以分别通过网络15与风险识别模型的训练设备30通信连接。

图2为本申请实施例提供的一种风险识别模型的训练方法的流程示意图，该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备，比如，可以是前述的风险识别模型的训练设备30。如图2所示，该方法可以包括：

S101、获取训练样本数据集，训练样本数据集包括多个训练样本数据，每个训练样本数据标注有风险概率值标签，且每个训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

其中，风险概率值标签可以用于指示训练样本数据为欺诈类项目的风险概率，该风险概率值的取值可以是0至1之间的任意数，每个训练样本数据中各个维度的数据可以与该训练样本数据共用相同的风险概率值。可以理解的是，若某训练样本数据为已知骗局区块链项目对应的数据，则该训练样本数据标注的风险概率标签可以为1，相应地，对于该训练样本数据中每个维度的数据来说，其风险概率标签也为1。在一些实施例中，训练样本数据集可以通过对历史区块链项目进行数据挖掘获取，可选地，可以在以太坊公链上进行数据挖掘，提取历史区块链项目的数据，根据该历史区块链项目的数据获取训练样本数据集中的以太坊交易数据和智能合约操作码数据；对于评论数据，可以根据评论平台(比如，舆情监控平台、某贴吧、论坛、微博等)获取用户对该历史区块链项目的评论观点、意见、情感倾向等。可选地，如图1所示，风险识别模型的训练设备30可以通过以太坊全节点10获取某区块链项目的以太坊交易数据和智能合约操作码数据，通过评论服务器20获取该区块链项目对应的评论数据，但实际获取方式并不以此为限。可以理解的是，以太坊交易数据、智能合约操作码数据以及评论数据可以是针对同一区块链项目的数据，使得可以从多个维度基于同一区块链项目的数据进行训练。

S102、根据训练样本数据集，训练获取风险识别模型，风险识别模型用于识别区块链项目数据的风险概率值。

在获取到训练样本数据集后，根据该训练样本数据集，可以训练获取风险识别模型，该风险识别模型可以用于识别区块链项目数据的风险概率值，该风险概率值可以用于指示区块链项目为欺诈类项目的概率。可以看出，在此过程中，由于风险识别模型是根据包括多个维度的训练样本数据训练获取的，因此，通过该风险识别模型对待识别区块链项目进行风险识别时，可以提高风险识别的准确性，使得基于该风险概率值提前给投资者进行预警时，可以降低投资者的投资风险。

在一些实施例中，风险识别模型可以基于机器学习技术、集成学习技术中等实现，但不以此为限，根据实际的应用场景可以适应性选择。

综上，本申请实施例提供的一种风险识别模型的训练获取方法，通过获取训练样本数据集，训练样本数据集包括多个训练样本数据，每个训练样本数据标注有风险概率值标签，且每个训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；根据训练样本数据集，训练获取风险识别模型，风险识别模型用于识别区块链项目数据的风险概率值，应用本申请实施例，由于风险识别模型是根据包括多个维度的训练样本数据训练获取的，因此，通过该风险识别模型对待识别区块链项目进行风险识别时，可以提高风险识别的准确性，使得基于该风险概率值提前给投资者进行预警时，可以降低投资者的投资风险。

图3为本申请实施例提供的另一种风险识别模型的训练方法的流程示意图。可选地，上述风险识别模型可以包括：至少两个子识别模型以及分类器模型；在一些实施例中，如图3所示，上述根据训练样本数据集，训练获取风险识别模型，可以包括：

S201、根据训练样本数据集，提取下述至少两个维度的特征向量：交易行为特征向量、智能合约操作码特征向量、评论特征向量。

其中，进行特征向量的提取时，根据每个训练样本数据包括的数据维度，可以得到相应维度的特征向量。其中，通过对每个训练样本数据进行特征提取，可以提取到交易行为特征向量、智能合约操作码特征向量、评论特征向量中至少两个维度的特征向量。在一些实施例中，可以通过主成分分析法(PCA)、线性判别分析法(LDA)、独立成分分析(ICA)等方法进行特征向量的提取，但不以此为限。

S202、根据至少两个维度的特征向量，训练获取至少两个子识别模型，子识别模型用于识别区块链项目数据在对应数据维度上的风险概率值。

其中，根据上述提取的特征向量可以训练对应的子识别模型，该子识别模型可以在对应的数据维度上对待识别区块链项目数据进行识别，得到该待识别区块链项目数据的风险概率值。比如，根据训练样本数据集，提取到交易行为特征向量和智能合约操作码特征向量时，则可以根据交易行为特征向量训练第一子识别模型，根据智能合约操作码特征向量训练第二子识别模型，比如，对于该第一子识别模型来说，该第一子识别模型可以对待识别区块链项目数据中的以太坊交易数据进行识别，得到该待识别区块链项目在以太坊交易数据维度上的风险概率值。当然，本申请在此并不限定子识别模型的个数，根据特征向量的维度可以有所不同。

在一些实施例中，风险识别模型基于集成学习技术实现时，训练样本数据集可以包括以太坊交易数据、智能合约操作码数据以及评论数据共三个维度的数据，但不以此为限，根据实际的应用场景还可以包括更多维度的数据。可以理解的是，训练样本数据集包括三个维度的数据时，对应地，风险识别模型可以包括三个子识别模型以及分类器模型，具体训练过程可参见前述的相关内容，本申请在此不再赘述。

在一些实施例中，子识别模型可以基于监督学习模型实现，比如，可以基于朴素贝叶斯分类器、决策树模型等实现，在此不作限定。根据实际的应用场景，多个子识别模型的类型可以相同或不同，在此不作限定。

S203、根据至少两个子识别模型训练获取分类器模型，分类器模型用于识别区块链项目数据在至少两个数据维度上的加权风险概率值。

在得到至少两个子识别模型时，则可以根据该至少两个子识别模型训练获取分类器模型，使得通过该分类器模型可以获得某待识别区块链项目数据在至少两个数据维度上的加权风险概率值，实现可以从多个数据维度对区块链项目数据的风险性进行评估，从而可以提高评估的准确性。在一些实施例中，分类器模型可以基于集成学习技术实现，但不以此为限。

图4为本申请实施例提供的又一种风险识别模型的训练方法的流程示意图。可选地，如图4所示，上述获取训练样本数据集，包括：

S301、获取标注有风险概率值标签的初始训练样本数据集。

其中，初始训练样本数据集可以根据以太坊历史区块链项目获取，该历史区块链项目可以包括已知骗局的历史区块链项目和正规(非骗局的)的历史区块链项目，根据获取的来源，可以为初始训练样本数据集中的各初始训练样本数据标注对应的风险概率值标签。

在一些实施例中，正规(非骗局的)的历史区块链项目和骗局的历史区块链项目可以包括但不限于如下特点：从与目标合约地址发生交易的区块链地址数量来看，前者在推行一段时间内参与度高，随着时间的推移，参与者熟练将回落或趋于平稳，而后者具有滚雪球效应，项目推出和宣传之后，参与者数量呈指数级上升趋势；从交易金额来看，前者的交易金额有明显的范围特征或固定交易值等特征，而后者交易金额随机性更强；从资金回报率来看，前者中，参与者的资金回报率有明显的投资项目的规则特征；后者中，部分参与者(比如，前期“庄家”)回报率很高，而大部分参与者(比如，后入局的参与者)得不到任何回报。

可选地，初始训练样本数据集中的以太坊交易数据和智能合约操作码数据可以从历史区块链项目对应的以太坊全节点或以太坊浏览器上获取，但不以此为限。在一些实施例中，太坊交易数据可以包括但不限于：历史区块链项目交易过程中的交易金额、交易时间、发送方区块链地址、接收方区块链地址、交易手续费、所在区块标识等；智能合约操作码数据可以包括但不限于：历史区块链项目操作过程中所使用的有序操作码指令集合、该有序操作码指令集合包括的操作码子集、不同操作码指令序列出现的频率信息等。初始训练样本数据集中的评论数据可以根据各个主流区块链论坛、社区的舆情数据获取，在一些实施例中，可以根据预设的关键字获取以太坊历史区块链项目的评论数据，评论数据可以包括但不限于：传播主体的特征(比如，区块链论坛中针对某区块链项目进行评论的用户年龄、职业、区域等)、舆情热度趋势数据、正负面评价比例。

在一些实施例中，在得到上述初始训练样本数据集后，还可以对该初始训练样本数据集进行数据清洗操作，得到处理后的初始训练样本数据集，使得基于该处理后的初始训练样本数据集训练获取风险识别模型时，可以提高风险识别模型识别区块链项目数据的风险概率值的准确性。其中，数据清洗操作可以包括但不限于：补充数据缺失值、剔除数据偏离值、数据格式规范化等，其中，通过补充数据缺失值，可以保证初始训练样本数据的完整性；通过剔除数据偏离值，可以去除无效的初始训练样本数据，而保留有效的初始训练样本数据，从而可以提高风险识别模型识别区块链项目数据的风险概率值的准确性；通过对数据格式进行规范化处理，可以保证处理后的初始训练样本数据可以满足风险识别模型的数据要求，提高训练风险识别模型的训练效率。

S302、根据预设方式，划分训练样本数据集和测试样本数据集。

测试样本数据集包括多个测试样本数据，每个测试样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

在得到上述初始训练样本数据集后，可以根据预设方式，对该初始训练样本数据集进行划分得到训练样本数据集和测试样本数据集。需要说明的是，本申请在此并不限定该划分方式，根据实际的应用场景，训练样本数据集和测试样本数据集中样本数量之间的比值可以是4:1、3:2等，在此不作限定。其中，每个测试样本数据包括以太坊交易数据、智能合约操作码数据以及评论数据中至少两个维度的数据，使得基于该测试样本数据集，测试风险识别模型识别区块链项目数据的风险概率值的准确性时，可以从多个维度进行测试。可以理解的是，基于该测试样本数据集的测试结果，可以对风险识别模型中的相关参数进行调节，从而可以进一步提高风险识别模型识别区块链项目数据的风险概率值的准确性。

图5为本申请实施例提供的另一种风险识别模型的训练方法的流程示意图。可选地，如图5所示，上述根据至少两个子识别模型训练获取分类器模型，包括：

S401、根据至少两个子识别模型，获取测试样本数据集中每个测试样本数据在对应数据维度上的风险概率值。

S402、根据测试样本数据集中每个测试样本数据在对应数据维度上的风险概率值和每个测试样本数据标注的风险概率值标签，训练获取分类器模型中每个子识别模型对应的风险概率权重值。

其中，对于测试样本数据集来说，在获取到至少两个子识别模型后，则可以通过该子识别模型获取测试样本数据集中每个测试样本数据在对应数据维度上的风险概率值，根据该测试样本数据集中每个测试样本数据在对应数据维度上的风险概率值和每个测试样本数据标注的风险概率值标签，可以训练获取分类器模型中每个子识别模型对应的风险概率权重值，进而基于该分类器模型可以识别区块链项目数据在至少两个数据维度上的加权风险概率值，使得通过加权风险概率值评估区块链项目的风险性时，可以提高评估的准确性。

在一些实施例中，经过多轮训练优化后，也可以设置分类器模型自适应地调节每个子识别模型对应的风险概率权重值，比如，针对具有第一特征向量的区块链项目数据可以采用第一种权重分配方式，针对具有第二特征向量的区块链项目数据可以采用第二种权重分配方式，本申请在此不作限定，根据实际的训练情况和应用场景可以灵活调节。

图6为本申请实施例提供的一种风险识别方法的流程示意图，该方法的执行主体可以是能够进行数据处理的设备，比如，计算机、服务器、处理器等，本申请在此不作限定。如图6所示，该方法可以包括：

S501、获取待识别区块链项目数据，待识别区块链项目数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

S502、将待识别区块链项目数据输入风险识别模型，得到待识别区块链项目数据的风险概率值。

其中，风险识别模型根据训练样本数据集训练获取，训练样本数据集包括多个训练样本数据，每个训练样本数据标注有风险概率值标签，且每个训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

其中，待识别区块链项目数据可以是某场景下新推行的区块链项目对应的项目数据，该待识别区块链项目数据可以包括：以太坊交易数据、智能合约操作码数据以及评论数据中至少两个维度的数据，在进行风险性识别时，可以将该待识别区块链项目数据输入上述训练得到的风险识别模型，通过风险识别模型得到待识别区块链项目数据的风险概率值。应用本申请实施例可以看出，由于风险识别模型是根据多个维度的训练样本数据训练获取的，因此，通过该风险识别模型对待识别区块链项目进行风险识别时，可以提高风险识别的准确性，使得基于该风险概率值提前给投资者进行预警时，可以降低投资者的投资风险。

图7为本申请实施例提供的另一种风险识别方法的流程示意图。可选地，上述风险识别模型可以包括：至少两个子识别模型以及分类器模型；如图7所示，上述将待识别区块链项目数据输入风险识别模型，得到待识别区块链项目数据的风险概率值，包括：

S601、根据待识别区块链项目数据包括的数据维度，将待识别区块链项目数据输入至少两个子识别模型，得到待识别区块链项目数据在各个数据维度上的风险概率值。

S602、将待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

其中，根据待识别区块链项目数据包括的数据维度，可以将该待识别区块链项目数据输入对应的子识别模型，比如，该待识别区块链项目数据包括以太坊交易数据和智能合约操作码数据，则可以将该待识别区块链项目数据输入第一子识别模型和第二子识别模型，其中，第一子识别模型为根据交易行为特征向量训练的子识别模型，第二子识别模型为根据智能合约操作码特征向量训练的子识别模型，从而可以得到该待识别区块链项目数据在以太坊交易数据维度上的风险概率值，以及该待识别区块链项目数据在智能合约操作码数据维度上的风险概率值。

在得到待识别区块链项目数据在各个数据维度上的风险概率值后，可以将该待识别区块链项目数据在各个数据维度上的风险概率值输入分类器模型中，通过该分类器模型可以得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

图8为本申请实施例提供的又一种风险识别方法的流程示意图。可选地，如图8所示，上述将待识别区块链项目数据输入至少两个子识别模型，包括：

S701、对待识别区块链项目数据进行特征提取，得到目标特征向量。

S702、基于目标特征向量所属的数据维度，分别将各数据维度下的目标特征向量输入所属数据维度的子识别模型。

其中，可以采取与前述训练部分相同的特征提取方法，对该待识别区块链项目数据进行特征提取，得到目标特征向量，根据该目标特征向量所属的数据维度，将各数据维度下的目标特征向量输入对应的子识别模型中，实现可以根据数据维度对待识别区块链项目数据的风险概率值进行识别。

可选地，上述将待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值，可以包括：

将待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，根据分类器模型中每个子识别模型对应的风险概率权重值和待识别区块链项目数据在各个数据维度上的风险概率值，得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

比如，某待识别区块链项目数据包括以太坊交易数据和智能合约操作码数据共两个维度的数据，其中，以太坊交易数据对应第一子识别模型，智能合约操作码数据对应第二子识别模型，根据第一子识别模型得到该待识别区块链项目数据在以太坊交易数据维度上的风险概率值为A，根据第二子识别模型得到该待识别区块链项目数据在智能合约操作码数据维度上的风险概率值为B，而分类器模型中第一子识别模型和第二子识别模型对应的风险概率权重值分别为W1和W2，可选地，可以得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值P＝W1*A+W2*B，当然，实际计算方式并不以此为限，根据实际的应用场景可以灵活调整。

图9为本申请实施例提供的另一种风险识别方法的流程示意图。可选地，如图9所示，将待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值之后，上述方法还包括：

S801、输出风险识别报告。

其中，风险识别报告可以包括下述至少一项：待识别区块链项目数据在至少两个数据维度上的加权风险概率值、待识别区块链项目数据包括的数据维度、待识别区块链项目数据在各个数据维度上的风险概率值、风险评估建议。

其中，通过风险识别报告可以将该待识别区块链项目数据的相关风险参数进行可视化显示，该风险识别报告中待识别区块链项目数据在至少两个数据维度上的加权风险概率值、待识别区块链项目数据包括的数据维度、待识别区块链项目数据在各个数据维度上的风险概率值可以根据上述识别过程中获取；风险评估建议可以是根据加权风险概率值给出的建议，可以包括但不限于：加权风险概率值>＝80％，强烈不建议参与；加权风险概率值在40％到80％之间，不建议参与；加权风险概率值在20％到40％之间，可以参与；加权风险概率值低于20％，可放心参与，根据实际的应用场景可以有所不同。

当然，根据实际的应用场景，还可以包括其他内容，比如，待识别区块链项目数据的特征，可以包括但不限于：交易规律、交易特征、交易的周期性等，根据实际的待识别区块链项目数据的不同，可以有所不同。

图10为本申请实施例提供的一种风险识别模型的训练装置的功能模块示意图，该训练装置可以是前述的计算机、服务器、处理器等，该装置基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图10所示，该训练装置100可以包括：获取模块110和训练模块120。

获取模块110，用于获取训练样本数据集，训练样本数据集包括多个训练样本数据，每个训练样本数据标注有风险概率值标签，且每个训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

训练模块120，用于根据训练样本数据集，训练获取风险识别模型，风险识别模型用于识别区块链项目数据的风险概率值。

在可选的实施方式中，风险识别模型包括：至少两个子识别模型以及分类器模型；训练模块120，具体用于根据训练样本数据集，提取下述至少两个维度的特征向量：交易行为特征向量、智能合约操作码特征向量、评论特征向量；根据至少两个维度的特征向量，训练获取至少两个子识别模型，子识别模型用于识别区块链项目数据在对应数据维度上的风险概率值；根据至少两个子识别模型训练获取分类器模型，分类器模型用于识别区块链项目数据在至少两个数据维度上的加权风险概率值。

在可选的实施方式中，获取模块110，具体用于获取标注有风险概率值标签的初始训练样本数据集；

根据预设方式，划分训练样本数据集和测试样本数据集，测试样本数据集包括多个测试样本数据，每个测试样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

在可选的实施方式中，获取模块110，具体用于根据至少两个子识别模型，获取测试样本数据集中每个测试样本数据在对应数据维度上的风险概率值；根据测试样本数据集中每个测试样本数据在对应数据维度上的风险概率值和每个测试样本数据标注的风险概率值标签，训练获取分类器模型中每个子识别模型对应的风险概率权重值。

图11为本申请实施例提供的一种风险识别装置的功能模块示意图，该训练装置可以是前述的计算机、服务器、处理器等，该装置基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图11所示，风险识别装置200可以包括：获取模块210和识别模块220；

获取模块210，用于获取待识别区块链项目数据，待识别区块链项目数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

识别模块220，用于将待识别区块链项目数据输入风险识别模型，得到待识别区块链项目数据的风险概率值，风险识别模型根据训练样本数据集训练获取，训练样本数据集包括多个训练样本数据，每个训练样本数据标注有风险概率值标签，且每个训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据。

在可选的实施方式中，风险识别模型包括：至少两个子识别模型以及分类器模型；识别模块220，具体用于根据待识别区块链项目数据包括的数据维度，将待识别区块链项目数据输入至少两个子识别模型，得到待识别区块链项目数据在各个数据维度上的风险概率值；将待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

在可选的实施方式中，识别模块220，具体用于对待识别区块链项目数据进行特征提取，得到目标特征向量；基于目标特征向量所属的数据维度，分别将各数据维度下的目标特征向量输入所属数据维度的子识别模型。

在可选的实施方式中，识别模块220，将待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，根据分类器模型中每个子识别模型对应的风险概率权重值，和待识别区块链项目数据在各个数据维度上的风险概率值，得到待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

图12为本申请实施例提供的一种风险识别装置的功能模块示意图。在可选的实施方式中，如图12所示，风险识别装置200还包括：输出模块230，用于输出风险识别报告，风险识别报告包括下述至少一项：待识别区块链项目数据在至少两个数据维度上的加权风险概率值、待识别区块链项目数据包括的数据维度、待识别区块链项目数据在各个数据维度上的风险概率值、风险评估建议。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Signal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图13为本申请实施例提供的一种电子设备结构示意图。如图13所示，该电子设备可以包括：处理器510、存储介质520和总线530，存储介质520存储有处理器510可执行的机器可读指令，当电子设备运行时，处理器510与存储介质520之间通过总线530通信，处理器510执行机器可读指令，以执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种风险识别模型的训练方法，其特征在于，包括：

根据所述训练样本数据集，训练获取风险识别模型，所述风险识别模型用于识别区块链项目数据的风险概率值，所述风险识别模型包括：至少两个子识别模型以及分类器模型，所述子识别模型用于识别区块链项目数据在对应数据维度上的风险概率值，所述分类器模型根据至少两个所述子识别模型训练获取，所述分类器模型用于识别区块链项目数据在至少两个数据维度上的加权风险概率值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本数据集，训练获取风险识别模型，包括：

根据至少两个维度的所述特征向量，训练获取至少两个子识别模型；

根据至少两个所述子识别模型训练获取分类器模型。

3.根据权利要求2所述的方法，其特征在于，所述获取训练样本数据集，包括：

获取标注有风险概率值标签的初始训练样本数据集；

4.根据权利要求3所述的方法，其特征在于，所述根据至少两个所述子识别模型训练获取分类器模型，包括：

5.一种风险识别方法，其特征在于，包括：

将所述待识别区块链项目数据输入风险识别模型，得到所述待识别区块链项目数据的风险概率值，所述风险识别模型根据训练样本数据集训练获取，所述训练样本数据集包括多个训练样本数据，每个所述训练样本数据标注有风险概率值标签，且每个所述训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

所述风险识别模型包括：至少两个子识别模型以及分类器模型，所述子识别模型用于识别区块链项目数据在对应数据维度上的风险概率值，所述分类器模型根据至少两个所述子识别模型训练获取，所述分类器模型用于识别区块链项目数据在至少两个数据维度上的加权风险概率值。

6.根据权利要求5所述的方法，其特征在于，所述将所述待识别区块链项目数据输入风险识别模型，得到所述待识别区块链项目数据的风险概率值，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述待识别区块链项目数据输入至少两个子识别模型，包括：

8.根据权利要求6所述的方法，其特征在于，所述将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值，包括：

将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，根据所述分类器模型中每个所述子识别模型对应的风险概率权重值，和待识别区块链项目数据在各个数据维度上的风险概率值，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值。

9.根据权利要求6所述的方法，其特征在于，所述将所述待识别区块链项目数据在各个数据维度的风险概率值输入分类器模型，得到所述待识别区块链项目数据在至少两个数据维度上的加权风险概率值之后，所述方法还包括：

10.一种风险识别模型的训练装置，其特征在于，包括：获取模块和训练模块；

所述训练模块，用于根据所述训练样本数据集，训练获取风险识别模型，所述风险识别模型用于识别区块链项目数据的风险概率值，所述风险识别模型包括：至少两个子识别模型以及分类器模型，所述子识别模型用于识别区块链项目数据在对应数据维度上的风险概率值，所述分类器模型根据至少两个所述子识别模型训练获取，所述分类器模型用于识别区块链项目数据在至少两个数据维度上的加权风险概率值。

11.一种风险识别装置，其特征在于，包括：获取模块和识别模块；

所述识别模块，用于将所述待识别区块链项目数据输入风险识别模型，得到所述待识别区块链项目数据的风险概率值，所述风险识别模型根据训练样本数据集训练获取，所述训练样本数据集包括多个训练样本数据，每个所述训练样本数据标注有风险概率值标签，且每个所述训练样本数据包括下述至少两个维度的数据：以太坊交易数据、智能合约操作码数据以及评论数据；

12.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-9任一所述方法的步骤。

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-9任一所述方法的步骤。