CN111178523A

CN111178523A - 一种行为检测方法、装置、电子设备及存储介质

Info

Publication number: CN111178523A
Application number: CN201910710511.5A
Authority: CN
Inventors: 余意
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2020-05-19
Anticipated expiration: 2039-08-02
Also published as: CN111178523B

Abstract

本申请的实施例涉及一种行为检测方法、装置、电子设备及存储介质，该方法包含获取待检测对象以设定时间间隔分布的行为数据序列，通过改进的自编码器，获得第一层编码数据、第一层解码数据和第二层编码数据，其中，自编码器是根据正样本集训练获得的；确定第一层解码数据和行为数据序列的第一重建误差，以及第二层编码数据和第一层编码数据的第二重建误差；根据第一重建误差和第二重建误差，获得待检测对象的第一异常检测结果。本申请实施例基于异常行为对象和非异常行为对象的行为数据序列表现不同，误差不同，直接将行为数据序列输入到自编码器，得到异常检测结果，无需先通过复杂的特征工程进行处理，降低复杂性，提高了性能和准确性。

Description

一种行为检测方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种行为检测方法、装置、电子设备及存储介质。

背景技术

实际场景中，存在大量的流水作弊或异常行为，例如，一些产品的刷评论行为、刷赞、虚假点击量等，造成了不良的影响。

现有技术中，主要是对原始数据先通过复杂的特征工程进行特征提取和分析，再将提取和分析的特征，采用传统的自回归积分滑动平均模型(Autoregressive IntegratedMoving Average Model，ARIMA)或孤立森林算法进行训练，基于训练的模型进行异常行为检测。

但是，现有技术中，在训练模型之前，均需要对原始数据进行复杂的特征工程，复杂度较大，尤其对于大规模、高维度数据效果和性能更差，并且也容易造成一些特征的缺失，降低了准确性。

发明内容

本申请实施例提供一种行为检测方法、装置、电子设备及存储介质，以降低异常行为检测的复杂度，并提高异常行为检测的准确性。

本申请实施例提供的具体技术方案如下：

本申请一个实施例提供了一种行为检测方法，包括：

获取待检测对象以设定时间间隔分布的行为数据序列；

获得通过第一层编码器对所述行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对所述第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对所述第一层解码数据进行第二层编码的第二层编码数据，其中，自编码器的网络结构包括所述第一层编码器、所述第一层解码器和所述第二层编码器器，所述自编码器中所述第一层编码器、所述第一层解码器、所述第二层编码器分别对应的算法实现是根据正样本集训练获得的，所述正样本集中的每个正样本为非异常行为对象以设定时间间隔分布的行为数据序列；

确定所述第一层解码数据和所述行为数据序列的第一重建误差；

确定所述第二层编码数据和所述第一层编码数据的第二重建误差；

根据所述第一重建误差和所述第二重建误差，获得所述待检测对象的第一异常检测结果。

本申请另一个实施例提供了一种行为检测装置，包括：

获取模块，用于获取待检测对象以设定时间间隔分布的行为数据序列；

第一处理模块，用于获得通过第一层编码器对所述行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对所述第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对所述第一层解码数据进行第二层编码的第二层编码数据，其中，自编码器的网络结构包括所述第一层编码器、所述第一层解码器和所述第二层编码器，所述自编码器中所述第一层编码器、所述第一层解码器、所述第二层编码器分别对应的算法实现是根据正样本集训练获得的，所述正样本集中的每个正样本为非异常行为对象以设定时间间隔分布的行为数据序列；

第一确定模块，用于确定所述第一层解码数据和所述行为数据序列的第一重建误差；

第二确定模块，用于确定所述第二层编码数据和所述第一层编码数据的第二重建误差；

获得模块，用于根据所述第一重建误差和所述第二重建误差，获得所述待检测对象的第一异常检测结果。

本申请另一个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一种行为检测方法的步骤。

本申请另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种行为检测方法的步骤。

本申请实施例中，获取待检测对象以设定时间间隔分布的行为数据序列，输入到自编码器中，经过第一层编码器、第一层解码器、第二层编码器，获得第一层编码数据、第一层解码数据和第二层编码数据，确定第一层解码数据和行为数据序列的第一重建误差，第二层编码数据和第一层编码数据的第二重建误差，根据第一重建误差和第二重建误差，获得待检测对象的第一异常检测结果，这样，输入为行为数据序列，不需要先通过特征工程进行特征分析和提取等操作，由于自编码器是基于正样本集训练获得的，而异常行为对象和非异常行为对象的行为数据序列表现是不同的，得到的重建误差也是不同的，若为异常行为对象，得到的重建误差会比较大，若为非异常行为对象，得到的重建误差比较小，因此，可以基于自编码器获得的第一重建误差和第二重建误差获得异常检测结果，降低了复杂度，提高了准确性，并且不需要对输入的行为数据序列进行限制，可以适用于大规模数据量和高纬度特征，提高了异常行为检测性能。

附图说明

图1为本申请实施例中行为检测方法的应用架构示意图；

图2为本申请实施例中行为检测方法流程图；

图3为现有技术中自编码器的网络结构原理示意图；

图4为本申请实施例中自编码器的网络结构原理示意图；

图5为申请实施例中自编码器训练过程流程图；

图6为本申请实施例中行为检测方法的框架流程示意图；

图7为本申请实施例中行为检测装置结构示意图；

图8为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

广告标识符(Identifier For Advertising，IDFA)：一个跟终端设备相关的唯一标识符，可以用来打通不同应用程序(Application，APP)之间的广告。

国际移动设备识别码(International Mobile Equipment Identity，IMEI)：也可以称为“手机串号”、“手机串码”、“手机序列号”，用于在全球移动通信系统(Global Systemfor Mobile Communication，GSM)移动网络中识别每一部独立的手机，相当于手机的身份证号码。

自编码器：是神经网络的一种，经过训练后能尝试将输入复制到输出，自编码器内部有一个隐藏层h，可以产生编码表示输入，该网络可以看作由两部分组成:一个由函数h＝f(x)表示的编码器和一个生成重构的解码器r＝g(h)。本申请实施例中对传统的自编码器进行了改进，提高自编码器的可靠性和准确性。

长短期记忆网络(Long Short-Term Memory，LSTM)：是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，本申请实施例中可以使用LSTM作为自编码器中的编码器和解码器，可以有效学习行为数据序列的时间序列特征。

孤立森林：是一种适用于连续数据的无监督异常检测方法，即不需要有标记的样本来训练，但特征需要是连续的，在孤立森林中，递归地随机分割数据集，直到所有的样本点都是孤立的，在这种随机分割的策略下，异常点通常具有较短的路径，但是孤立森林并不适合高纬度的数据，并且每次切分都是随机取特征，会导致很多特征并没有被使用。

极端梯度提升(eXtreme Gradient Boosting，XGBoost)：将许多树模型集成在一起，形成一个较强的分类器，基本原理为不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差，当训练完成得到k棵树，预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

针对实际场景中存在的各种作弊或异常行为，例如，刷票、直播的刷赞、刷评论、刷点击量、广告的虚假点击作弊行为等的，造成了不良影响，影响了产品竞争，也影响了用户判断等。现有技术中，进行异常行为检测时，均需要对原始数据进行复杂的特征工程，例如，缺失值处理、特征分析组成、特征提取、降维等，然后再将处理后的特征，采用传统的自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model，ARIMA)或孤立森林方法训练，基于获得的模型进行异常行为检测，但是这种方式，复杂度较大，尤其对于大规模高维度数据效果和性能更差，例如，ARIMA方法要求时间序列数据是稳定的，至少要保证进行差分后是稳定的，并且模型比较简单，不能捕捉非线性关系，计算量大，而孤立森林方法的不适合特别高维度的数据，每次切分都是随机取特征，会导致很多特征并没有被使用。

因此，本申请实施例中提供了一种针对异常行为的行为检测方法，不需要先花费大量时间分析原始数据，降低了复杂度，并且可以适用于大规模数据量和高维特征的场景，获取待检测对象以设定时间间隔分布的行为数据序列，通过改进的自编码器，最终获得待检测对象的第一异常检测结果，提供了一种端到端模型，输入的为原始数据，即行为数据序列，输出的为异常检测结果，无需像传统方法先进行特征提取、组合等操作后再进行训练预测，降低了复杂度，并且性能和准确性也比较高。

参阅图1所示，为本申请实施例中行为检测方法的应用架构示意图，包括服务器100、终端200。

终端200可以是智能手机、平板电脑、便携式个人计算机等任何智能设备，终端200可以为用户终端，终端200上可以安装有各种APP，例如，直播APP、社交APP、购物APP等等，并不进行限制，对于不同的APP，可能会出现一些作弊或异常行为，例如一些不良用户通过模拟多个终端或账号刷点击量。

终端200与服务器100之间可以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-upLanguage，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(VirtualPrivate Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器100可以为终端200提供各种网络服务，其中，服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

本申请实施例中行为检测方法主要由服务器100侧执行，参阅图1中所示的应用架构图，用户通过终端200产生行为数据，进行异常行为检测时，服务器100可以从终端200获取待检测对象的行为数据序列，例如待检测对象为网络之间互连的协议(InternetProtocol，IP)地址，针对的为视频点击量，则服务器100可以获取IP地址以设定时间间隔分布的行为数据序列，也可以直接拉取流水日志数据，再按照时间间隔统计获得行为数据序列，例如，该IP地址每小时的视频点击行为、对应的设备个数等，输入到自编码器中，通过改进的自编码可以输出第一异常检测结果，并且还可以结合其它训练模型，例如孤立森林、XGBoost模型、黑名单等进行预测，综合预测结果，也可以提高对待检测对象的异常检测的准确性。

另外，本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案，并不构成对本申请实施例提供的技术方案的限制，对于其它的应用架构和业务应用，本申请实施例提供的技术方案对于类似的问题，同样适用。

本申请各个实施例以应用于图1所示的应用架构图为例进行示意性说明。

基于上述实施例，参阅图2所示，为本申请实施例中行为检测方法流程图，该方法包括：

步骤200：获取待检测对象以设定时间间隔分布的行为数据序列。

其中，具体地获取行为数据序列包括：按照设定时间间隔，分别统计在预设时间段中待检测对象的行为数据；将获取到的各个时间间隔中的行为数据，按照时间顺序排序，获得待检测对象的行为数据序列。

即本申请实施例中行为数据序列为一系列具有时间顺序的行为特征，获取待检测对象的行为数据序列进行异常行为检测，这是因为考虑到实际中异常行为对象和非异常行为对象的时间行为表现是不同的，例如异常行为对象的行为可能不平稳，在一段时间内具有频繁的行为操作，在其余时间段内几乎没有行为操作，而对于非异常行为对象其行为操作是基本稳定的，切换的终端设备个数或账号个数也是比较少的，因此，可以通过行为数据序列进行异常检测。

其中，行为数据序列为M*N维，其中，M表示时间维度，为预设时间段内设定时间间隔数目，N表示设定的行为数据维度，设定的行为数据维度与待检测对象相关联，也就是说，本申请实施例中数据维度可以是多维的，可以适用于高维度特征下的异常行为检测，也可以提高检测的准确性。

例如，预设时间段为最近7天，时间间隔为1小时，行为数据维度可以根据不同的待检测对象进行设置，例如待检测对象为IP地址，该待检测对象的行为数据维度可以为行为操作次数、基于IMEI或IDFA确定的终端设备个数、切换的账号个数等特征维度，并不进行限制，则可以获取该IP地址的最近一周的行为数据，并按照每小时的时间间隔，分别统计每小时的行为操作次数、终端设备个数、登录的账号个数等，假设行为数据维度为N，则针对该IP地址有7*24*N个特征，可以变换为168*N的数据格式，即该IP地址的行为数据序列可以表示为168*N维，进而输入到本申请实施例中的自编码器中。

步骤210：获得通过第一层编码器对行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对第一层解码数据进行第二层编码的第二层编码数据。

其中，自编码器的网络结构包括第一层编码器、第一层解码器和第二层编码器，自编码器中第一层编码器、第一层解码器、第二层编码器分别对应的算法实现是根据正样本集训练获得的，正样本集中的每个正样本为非异常行为对象以设定时间间隔分布的行为数据序列。

本申请实施例中，提供了一种改进的自编码器，其基本网络结构至少包括第一层编码器、第一层解码器和第二层编码器，其中，第一层编码器、第一层解码器和第二层编码器均可以采用LSTM方法，可以有效学习时间序列特征，当然还可以采用其它方法，并不进行限制。

具体地，执行步骤210包括：

1)将行为数据序列数据输入到第一层编码器，其中，行为数据序列为M*N维。

2)基于第一层编码器，将行为数据序列进行第一层编码映射到固定维度空间中，获得第一层编码器输出的K维的第一层编码数据。

其中，K为设定值，K小于M*N，K值的设定可以根据实际情况进行设置，例如，可以综合考虑降维效果、计算效率和时间等进行设置，例如K可以设为3，K是远小于M*N的，这样，通过第一层编码可以将原始数据进行降维和特征压缩，得到的第一层编码数据也可以称为第一隐向量，第一隐向量是对输入的行为数据序列的高度抽象特征提取，为低维的特征表示。

3)将第一层编码数据输入到第一层解码器。

4)基于第一层解码器，将第一层编码器进行第一层解码，获得第一层解码器输出的M*N维的第一层解码数据。

即通过第一层解码器还原数据，这时还原的第一层解码数据可能与输入的原始数据，即行为数据序列存在一定误差。

5)将第一层解码器输出的第一层解码数据输入到第二层编码器。

6)基于第二层编码器，将第一层解码数据进行第二层编码映射到固定维度空间中，获得第二层编码器输出的K维的第二层编码数据。

其中，第二层编码数据也可以称为第二隐向量，为第一层解码数据的低维表示，本申请实施例中通过增加第二层编码器，后续可以重建第一层编码数据和第二层编码数据的第二重建误差，作为异常检测结果的判断依据，可以提高准确性。

这样，由于异常行为对象和非异常行为对象的行为数据序列表现是不同的，而本申请实施例中自编码器是基于正样本集训练获得，在训练过程中通过编码可以学习非异常行为对象的时间序列的高级抽象特征，通过不断训练使得正样本第一重建误差和第二重建误差构成的最终重建误差最小化，因此，若是异常行为对象，则通过自编码器获得的第一重建误差和第二重建误差是与非异常行为对象不同的，误差会比较大，基于此，本申请实施例中可以通过自编码输出的待检测对象的第一重建误差和第二重建误差来作为异常检测结果的判断依据。

步骤220：确定第一层解码数据和行为数据序列的第一重建误差。

步骤230：确定第二层编码数据和第一层编码数据的第二重建误差。

步骤240：根据第一重建误差和第二重建误差，获得待检测对象的第一异常检测结果。

执行步骤240时，具体包括：

S1、根据第一重建误差和第二重建误差，确定最终重建误差。

具体地，分别设置第一重建误差和第二重建误差的权重值，根据各自对应的权重值，确定最终重建误差。

例如，第一重建误差为loss1，第二重建误差为loss2，则最终重建误差为：

α*loss1+β*loss2。

其中α，β为超参数，分别为第一重建误差和第二重建误差对应的权重值，α+β＝1，可以在训练时设置确定，其中的训练可以是Adam优化算法训练。

S2、根据最终重建误差，确定待检测对象的异常值。

包括：计算最终重建误差的均方值和/或平均绝对值，根据均方值和/或平均绝对值，确定待检测对象的异常值。

具体地计算均方值和平均绝对值的方式，可以采用现有技术中的计算均方值和平均绝对值的方法，本申请实施例中并不进行限制，当然，可以采用最终重建误差的其它表现值来作为异常值，对此也不进行限制。

S3、根据待检测对象的异常值，获得待检测对象的第一异常检测结果。

本申请实施例中自编码器是基于正样本集训练获得的，因此若待检测对象为非异常行为对象，则最终误差应该比较小，即异常值较小，若待检测对象为异常行为对象，则最终误差远高于非异常行为对象的最终误差，异常值较大，在具体实现时可以预先设置异常阈值，则具体地执行S3包括：

若确定待检测对象的异常值不小于确定的异常阈值，则确定待检测对象的第一异常检测结果为有异常行为。若确定待检测对象的异常值小于确定的异常阈值，则确定待检测对象的第一异常检测结果为没有异常行为。

其中，对于异常阈值的确定方式，本申请实施例中给出了两种可能的实施方式，异常阈值为根据待检测对象对应的先验异常概率分布信息确定的，或，根据最大间距(GAP)方法对多个待检测对象的异常值进行分析确定的。

具体地，例如待检测对象为发表评论信息的IP地址，检测IP地址是否有异常评论的行为，若之前有对正常IP地址和异常IP地址进行分析预测，获得正常IP地址和异常IP地址的异常值，对正常IP地址和异常IP地址的异常值进行分析，得到其先验异常概率分布信息，根据该先验异常概率分布信息可以确定正常IP地址和异常IP地址的异常值的区别，可以根据比例进行划分，确定出异常阈值，从而对待检测IP地址进行异常行为检测，判断是否有异常评论行为时，就可以将该待检测IP地址的异常值与该异常阈值进行比对，不小于该异常阈值，则确定有异常行为，小于该异常阈值，则确定没有异常行为。

又例如，若待检测对象没有先验异常概率分布信息，则可以根据最大GAP方法确定出异常阈值，例如对多个待检测对象进行异常行为检测，获得多个异常值，根据该多个异常值进行阈值划分，异常值之间间隔最大的区域可以确定为异常阈值。

进一步地，基于上述实施例，本申请实施例中还提供了以下几种进行异常行为的行为检测的方式：

第一种方式：采用孤立森林算法。

由于实际中孤立森林算法不适合高维度数据，本申请实施例中通过自编码器获得的中间结果，即第一层编码数据和第二层编码数据为原始行为数据序列的低维表现，维度较低，因此，本申请实施例中基于第一层编码数据和/或第二层编码数据，使用孤立森林算法进行无监督学习，进行异常行为检测，具体包括：

S1、获取第一层编码数据和/或第二层编码数据。

S2、根据第一层编码数据和/或第二层编码数据，通过孤立森林算法进行训练，获得待检测对象的第二异常检测结果。

这样，基于自编码器输出的中间结果，可以直接采用孤立森林预测，不需要额外的对原始数据的处理操作，操作简单。

第二种方式：采用分类模型。

本申请实施例中，为进一步提高准确性，可以再结合性能表现较好的分类模型进行异常行为检测，例如，分类模型为XGBoost模型，本申请实施例中并不进行限制，具体包括：

S1、获取第一层编码数据和/或第二层编码数据。

S2、将第一层编码数据和/或第二层编码数据输入到基于预先训练的分类模型，对待检测对象进行预测，输出待检测对象的第三异常检测结果，其中，分类模型是根据预先标注的正样本集和负样本集训练获得的。

本申请实施例中，预先标注的正样本集和负样本集可以人工进行标注获得，可以结合本申请实施例中的自编码器和孤立森林获得的第一异常检测结果和第二异常检测进行标注获得，较佳的，这里的预先标注的正样本集中每个正样本为非异常行为对象的第一层编码数据和/或第二层编码数据，负样本集中每个负样本为非异常行为对象的第一层编码数据和/或第二层编码数据，这样，以较低的维度数据进行训练或预测，可以降低复杂度，提高效率。

第三种方式：采用黑名单方式。

本申请实施例中也可以结合自编码器和孤立森林的第一异常检测结果和第二异常检测结果，再通过人工标注，获得黑名单，其中，对于不同的检测对象和应用场景，可以设置相应不同的黑名单，具体包括：

根据有异常行为的对象的黑名单，对待检测对象进行预测，获得待检测对象的第四异常检测结果，其中，黑名单是根据标注的负样本集生成的。

这样，本申请实施例中，在自编码器的异常行为检测方式基础上，又提供了基于孤立森林、分类模型和黑名单的异常行为检测方式，可以综合这几种方式输出的结果，确定待检测对象最终的异常检测结果，可以进一步提高准确性，降低误判率，具体地，本申请实施例中提供了一种可能的方式：根据第一异常检测结果、第二异常检测结果、第三异常检测结果和第四异常检测结果中任意一种或任意多种的组合，确定待检测对象的最终异常检测结果。

也就是说，本申请实施例中可以综合考虑自编码器、孤立森林、分类模型和黑名单各自输出的异常检测结果，可以考虑其中一种或多种异常检测结果，获得最终异常检测结果，具体实现时例如可以采用一个逻辑回归模型，融合多个异常检测结果，输出最终异常检测结果，又例如，可以采用取大概率方式，假设若获得的为异常行为的异常检测结果较多，则可以确定最终异常检测结果为有异常行为，又例如，设置各方法的结果权重，根据对应的结果权重，综合多个异常检测结果，确定最终异常检测结果，具体采用方式，本申请实施例中并不进行限制，可以根据需求和实际情况进行设置。

当然，本申请实施例中并不进行仅限于孤立森林、分类模型、黑名单方式，还可以采用其它模型方法，本申请实施例中并不进行限制。

这样，通过自编码器不仅可以获得第一异常检测结果，还可以获得中间低维特征数据，进而可以将中间低维特征数据，用于孤立森林和分类模型预测，效率更高，实现简单，进而可以通过自编码器和孤立森林，能够较早发现新的异常行为，提高覆盖率，使用分类模型和黑名单对异常检测进行进一步查验，可以降低误判率，综合考虑，可以提高准确性，保证异常行为检测既能高覆盖率又能低误判。

基于上述实施例中，下面对本申请实施例中的自编码器的训练过程进行简单说明，其中，训练自编码器其实就是训练自编码器中第一层编码器、第一层解码器和第二层编码器的算法实现，使得通过多次迭代训练，训练的目标函数最小化并稳定，具体可以分为以下两部分进行介绍：

第一部分：先对本申请实施例中的自编码器的网络结构原理进行说明。

参阅图3所示，为现有技术中自编码器的网络结构原理示意图，如图3所示，现有技术中自编码器仅包括一个编码器和一个解码器，通过编码器将高纬度的原始数据编码为低纬度的隐向量，再通过解码器还原数据，输出结果，还原的数据和原始数据存在一定的误差，重建两者之间的误差作为损失函数，进行训练。

本申请实施例中对传统的自编码器进行了改进，参阅图4所示，为本申请实施例中自编码器的网络结构原理示意图，如图4所示，本申请实施例中自编码器至少包括第一层编码器、第一层解码器和第二层编码器，在解码之后增加了一层编码器，重建两个编码器的重建误差，这样，由于第一层解码器输出的第一层解码结果是和原始输入的行为数据序列存在一定误差的，本申请实施例中将第一层解码结果又作为第二层编码器的输入，得到第二层编码结果，重建第一层编码结果和第二层编码结果的误差，因此可以将第一层解码器的误差也引入到自编码器模型中，在输入数据中加入噪音，可以提高自编码模型的鲁棒性和准确性。

其中，第一层编码器、第一层解码器和第二层编码器均可以使用LSTM网络，并不进行限制。

具体地如图4所示，本申请实施例中自编码器的原理为：将对象的行为数据序列，经过第一层编码器，可以自动学习行为数据序列的高级抽象特征，生成低维的第一层编码数据，即第一隐向量，第一层编码数据输入到第一层解码器中，经过第一层解码器还原数据，输出第一层解码数据，再将第一层解码数据输入到第二层编码器中，经过第二层编码器继续学习特征，生成第二层编码数据，即第二隐向量，确定第一层解码数据和行为数据序列的第一重建误差，第一层编码数据和第二层编码数据的第二重建误差，最终损失函数即最终重建误差根据第一重建误差和第二重建误差获得。

第二部分：对本申请实施例中的自编码器的训练过程进行说明。

基于上述实施例，参阅图5所示，为申请实施例中自编码器训练过程流程图，具体包括：

步骤500：获取正样本集。

其中，正样本集中的每个正样本为非异常行为对象以设定时间间隔分布的行为数据序列。

步骤510：根据正样本集中每一个正样本的行为数据序列，训练自编码器，获得通过第一层编码器对每一个正样本的行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对第一层解码数据进行第二层编码的第二层编码数据。

即将非异常行为对象的行为数据序列输入到自编码器的第一层编码器中，从而依次通过第一层编码器、第一层解码器、第二层编码器，获得第一层编码数据、第一层解码数据和第二层编码数据。

例如，以设定时间段为7天，时间间隔为每小时，行为数据维度为N，则每个非异常行为对象统计了7*24*N个特征，以168*N的数据格式输入到第一层编码器中，可以设置第一层编码器和第二层编码器的隐向量维度为K维，则可以获得K维的第一层编码数据，168*N维的第一层解码数据和K维的第二层编码数据。

步骤520：确定每一个正样本的第一层解码数据和行为数据序列的第一重建误差，并确定第二层编码数据和第一层编码数据的第二重建误差，根据第一重建误差和第二重建误差，确定最终重建误差，目标函数为最终重建误差最小化。

其中，可以采用Adam优化算法训练，不断训练调整相关参数，使得最终重建误差最小化。

例如，最终重建误差为：α*loss1+β*loss2。

其中，第一重建误差为loss1，第二重建误差为loss2，α，β为超参数，分别为第一重建误差和第二重建误差对应的权重值，α+β＝1，可以在训练时设置。

进一步地，本申请实施例中使用最终重建误差作为损失函数，使用Adam优化算法训练自编码器，还可以采用其它方式，例如，可以将本申请实施例中的自编码器应用到生成对抗网络模型中，将自编码器作为生成对抗网络中的生成器，生成对抗网络中的判别器用于判别生成器生成的和真实结果的真假，使用生成对抗思想训练生成器和判断器，训练完成后，可以基于该生成对抗网络预测异常行为，计算判别器和生成器的结果之间的重建误差，小于一定阈值可以判定为没有异常行为，不小于一定阈值则可以判定为有异常行为。

这样，本申请实施例中，获取待检测对象的行为数据序列，输入到自编码器中，获得通过第一层编码器对行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对第一层解码数据进行第二层编码的第二层编码数据，并确定第一层解码数据和行为数据序列的第一重建误差、第二层编码数据和第一层编码数据的第二重建误差，进而可以根据第一重建误差和第二重建误差，获得待检测对象的第一异常检测结果，即整个过程输入行为数据序列，输出第一异常检测结果，是端到端的模型方案，无需像传统方法先进行特征分析组合等复杂的特征工程再进行训练预测，需要足够的经验去设计特征，在数据量和特征维度较大的情况下比较困难，复杂度较高，而本申请实施例中不需要花费大量时间分析数据，直接输出结果，中间无需人工干预，降低了复杂性，并且不需要对原始数据进行特征工程分析，所有原始数据均作为输入，不会造成特征的缺失，准确性较高，也不需要限定数据维度，可以适用于大规模数据量和高纬度数据的异常行为检测，能够自动挖掘异常行为，提高了异常行为检测性能和效果。

基于上述实施例，下面采用具体应用场景对本申请实施例中行为检测方法进行说明，以分类模型为XGBoost，并融合自编码器、孤立森林、XGBoost和黑名单四个预测结果获得最终异常检测结果为例，具体参阅图6所示，为本申请实施例中行为检测方法的框架流程示意图。

如图6所示，本申请实施例中该行为检测方法的框架包含自编码器、孤立森林、XGBoost、黑名单等多个模型，通过这多个模型的合作融合，进行异常行为检测，能够自适应快速检测异常行为，复杂度较低，性能和准确性更好，具体包括：

步骤600：获取流水数据。

例如，拉取对象预设时间段内的相关行为数据。

步骤601：统计获得行为数据序列。

这里的行为数据序列仅是对原始流水数据按照时间间隔统计获得，也可以认为是原始数据，而不需要复杂的特征工程进行特征分析。

步骤602：输入到自编码器中。

即是本申请实施例中改进的自编码器，可以经过第一层编码器、第一层解码器和第二层编码器进行处理，获得第一层编码数据、第一层解码数据和第二层编码数据。

步骤603：输出第一异常检测结果。

步骤604：获得中间结果，并分别执行步骤605和步骤606。

其中，中间结果包括第一层编码数据和/或第二层编码数据，为低维数据。

步骤605：输入到孤立森林中。

本申请实施例中，可以利用自编码器获得的低维的中间结果，再采用孤立森林进行预测，获得孤立森林预测的第二异常检测结果。

步骤606：输入到XGBoost中。

这样，通过XGBoost进行预测，可以获得第三异常检测结果。

步骤607：根据黑名单进行预测。

即可以获得根据黑名单预测的第四异常检测结果。

步骤608：融合结果。

步骤609：返回最终异常检测结果。

进一步地，执行步骤608后，可以收集融合后的最终异常检测结果，进行标注等操作，获得标签库，标签库中可以包括正样本集和负样本集。

步骤610：获取流水数据。

步骤611：通过模型或人工进行标注。

例如，用于标注的模型可以为分类模型等，并不进行限制，进而可以根据得到步骤608最终融合获得的最终异常检测结果，对流水日志数据中各对象进行标注，确定为异常行为对象或非异常行为对象。

步骤612：获得标签库。

进而可以基于获得的标签库，更新XGBoost模型和黑名单，提高整个框架的可靠性。

这样，本申请实施例中提供了一种行为检测框架，自编码器不仅可以输出第一异常检测结果，还可以输出低维抽象特征，这些低维抽象特征可以应用到其它模型进行异常行为检测，在具体实现时，可以预先选取性能表现较好的模型，进而可以融合自编码器、孤立森林、XGBoost、黑名单等预测的多种异常检测结果，可以保证行为检测框架能够高覆盖率和低误判率，既可以快速准确地打击异常行为对象，又由于准确性较高，减少了误判，因此也可以减少由于误判导致的用户投诉。

基于同一发明构思，本申请实施例中还提供了一种行为检测装置，该行为检测装置例如可以是前述实施例中的服务器，该行为检测装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图7所示，本申请实施例中行为检测装置结构示意图，该装置具体包括：

获取模块70，用于获取待检测对象以设定时间间隔分布的行为数据序列；

第一处理模块71，用于获得通过第一层编码器对所述行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对所述第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对所述第一层解码数据进行第二层编码的第二层编码数据，其中，自编码器的网络结构包括所述第一层编码器、所述第一层解码器和所述第二层编码器，所述自编码器中所述第一层编码器、所述第一层解码器、所述第二层编码器分别对应的算法实现是根据正样本集训练获得的，所述正样本集中的每个正样本为非异常行为对象以设定时间间隔分布的行为数据序列；

第一确定模块72，用于确定所述第一层解码数据和所述行为数据序列的第一重建误差；

第二确定模块73，用于确定所述第二层编码数据和所述第一层编码数据的第二重建误差；

获得模块74，用于根据所述第一重建误差和所述第二重建误差，获得所述待检测对象的第一异常检测结果。

可选的，所述行为数据序列为M*N维，其中，所述M表示时间维度，为预设时间段内设定时间间隔数目，N表示设定的行为数据维度，设定的行为数据维度与待检测对象相关联；

所述第一层编码数据和所述第二层编码数据为K维向量，其中，K为设定值，K小于M*N。

可选的，根据所述第一重建误差和所述第二重建误差，获得所述待检测对象的第一异常检测结果时，获得模块74具体用于：

根据所述第一重建误差和所述第二重建误差，确定最终重建误差；

根据所述最终重建误差，确定所述待检测对象的异常值；

根据所述待检测对象的异常值，获得所述待检测对象的第一异常检测结果。

可选的，根据所述最终重建误差，确定所述待检测对象的异常值时，获得模块74具体用于：

计算所述最终重建误差的均方值和/或平均绝对值，根据所述均方值和/或平均绝对值，确定所述待检测对象的异常值。

可选的，根据所述待检测对象的异常值，获得所述待检测对象的第一异常检测结果时，获得模块74具体用于：

若确定所述待检测对象的异常值不小于确定的异常阈值，则确定所述待检测对象的第一异常检测结果为有异常行为；

若确定所述待检测对象的异常值小于确定的异常阈值，则确定所述待检测对象的第一异常检测结果为没有异常行为。

可选的，所述异常阈值为根据待检测对象对应的先验异常概率分布信息确定的，或，根据最大GAP方法对多个待检测对象的异常值进行分析确定的。

可选的，针对所述自编码器的训练方式，还包括训练模块75，用于：

获取正样本集；

根据所述正样本集中每一个正样本的行为数据序列，训练所述自编码器，获得通过第一层编码器对每一个正样本的行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对所述第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对所述第一层解码数据进行第二层编码的第二层编码数据；

确定每一个正样本的所述第一层解码数据和所述行为数据序列的第一重建误差，并确定所述第二层编码数据和所述第一层编码数据的第二重建误差，根据所述第一重建误差和所述第二重建误差，确定最终重建误差，目标函数为所述最终重建误差最小化。

可选的，进一步包括，第二处理模块76，用于：

获取所述第一层编码数据和/或所述第二层编码数据；

根据所述第一层编码数据和/或所述第二层编码数据，通过孤立森林算法进行训练，获得所述待检测对象的第二异常检测结果。

可选的，进一步包括：

第三处理模块77，用于获取所述第一层编码数据和/或所述第二层编码数据；将所述第一层编码数据和/或第二层编码数据输入到基于预先训练的分类模型，对所述待检测对象进行预测，输出所述待检测对象的第三异常检测结果，其中，所述分类模型是根据预先标注的正样本集和负样本集训练获得的；

和/或，还包括第四处理模块78，用于根据有异常行为的对象的黑名单，对所述待检测对象进行预测，获得所述待检测对象的第四异常检测结果，其中，所述黑名单是根据标注的负样本集生成的。

可选的，进一步包括：

融合模块79，用于根据所述第一异常检测结果、所述第二异常检测结果、所述第三异常检测结果和所述第四异常检测结果中任意一种或任意多种的组合，确定所述待检测对象的最终异常检测结果。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

基于上述实施例，参阅图8所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以包括处理器810(CenterProcessing Unit，CPU)、存储器820、输入设备830和输出设备840等，输入设备830可以包括键盘、鼠标、触摸屏等，输出设备840可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器820可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器810提供存储器820中存储的程序指令和数据。在本申请实施例中，存储器820可以用于存储本申请实施例中任一种行为检测方法的程序。

处理器810通过调用存储器820存储的程序指令，处理器810用于按照获得的程序指令执行本申请实施例中任一种行为检测方法。

例如，本申请实施例中该电子设备可以为上述图1中的服务器100，该电子设备的结构即为服务器100的结构。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的行为检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种行为检测方法，其特征在于，包括：

获取待检测对象以设定时间间隔分布的行为数据序列；

获得通过第一层编码器对所述行为数据序列进行第一层编码的第一层编码数据，通过第一层解码器对所述第一层编码数据进行第一层解码的第一层解码数据，以及通过第二层编码器对所述第一层解码数据进行第二层编码的第二层编码数据，其中，自编码器的网络结构包括所述第一层编码器、所述第一层解码器和所述第二层编码器，所述自编码器中所述第一层编码器、所述第一层解码器、所述第二层编码器分别对应的算法实现是根据正样本集训练获得的，所述正样本集中的每个正样本为非异常行为对象以设定时间间隔分布的行为数据序列；

2.如权利要求1所述的方法，其特征在于，所述行为数据序列为M*N维，其中，所述M表示时间维度，为预设时间段内设定时间间隔数目，N表示设定的行为数据维度，设定的行为数据维度与待检测对象相关联；

3.如权利要求1所述的方法，其特征在于，根据所述第一重建误差和所述第二重建误差，获得所述待检测对象的第一异常检测结果，具体包括：

根据所述最终重建误差，确定所述待检测对象的异常值；

4.如权利要求3所述的方法，其特征在于，根据所述最终重建误差，确定所述待检测对象的异常值，具体包括：

5.如权利要求3或4所述的方法，其特征在于，根据所述待检测对象的异常值，获得所述待检测对象的第一异常检测结果，具体包括：

6.如权利要求5所述的方法，其特征在于，所述异常阈值为根据待检测对象对应的先验异常概率分布信息确定的，或，根据最大间距方法对多个待检测对象的异常值进行分析确定的。

7.如权利要求1所述的方法，其特征在于，所述自编码器的训练方式为：

获取正样本集；

8.如权利要求1所述的方法，其特征在于，进一步包括：

获取所述第一层编码数据和/或所述第二层编码数据；

9.如权利要求1或8所述的方法，其特征在于，进一步包括：

获取所述第一层编码数据和/或所述第二层编码数据；

将所述第一层编码数据和/或第二层编码数据输入到基于预先训练的分类模型，对所述待检测对象进行预测，输出所述待检测对象的第三异常检测结果，其中，所述分类模型是根据预先标注的正样本集和负样本集训练获得的；

和/或，根据有异常行为的对象的黑名单，对所述待检测对象进行预测，获得所述待检测对象的第四异常检测结果，其中，所述黑名单是根据标注的负样本集生成的。

10.如权利要求9所述的方法，其特征在于，进一步包括：

根据所述第一异常检测结果、所述第二异常检测结果、所述第三异常检测结果和所述第四异常检测结果中任意一种或任意多种的组合，确定所述待检测对象的最终异常检测结果。

11.一种行为检测装置，其特征在于，包括：

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-10任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。