CN112131199A

CN112131199A - 一种日志处理方法、装置、设备及介质

Info

Publication number: CN112131199A
Application number: CN202011023270.6A
Authority: CN
Inventors: 张欢; 范渊; 刘博�
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-25
Anticipated expiration: 2040-09-25
Also published as: CN112131199B

Abstract

本申请公开了一种日志处理方法、装置、设备、介质，该方法包括：获取待分类日志；对所述待分类日志中的各个日志进行特征项提取，得到所述待分类日志中各个日志对应的日志特征项集合；基于所述待分类日志中各个日志对应的日志特征项集合确定所述待分类日志中各个日志对应的日志向量；利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，以对所述待分类日志进行分类。这样能够对日志进行分类，且提高了分类结果的准确性和一致性，适用性强。

Description

一种日志处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，特别涉及一种日志处理方法、装置、设备、介质。

背景技术

聚类分析是数据挖掘领域中的一个重要分支，所谓聚类就是将数据对象分组成为多个类或簇，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。现有的聚类算法主要分为四类:划分方法、层次方法、基于密度方法和基于网格方法。

发明人发现以上现有技术中可能存在以下问题，其一，上述现有技术要求用户提供一定的聚类先验信息，从而导致聚类结果对输入参数十分敏感，这在很大程度上降低了分类方法的适应性。其二，目前上述现有技术都是以启发式机制算法为基础的，此类方法求解效率高，但往往容易陷入局部最优，从而难以保证聚类结果的准确性和一致性。

发明内容

有鉴于此，本申请的目的在于提供一种日志处理方法、装置、设备、介质，能够对日志进行分类，且提高了分类结果的准确性和一致性，适用性强。其具体方案如下：

第一方面，本申请公开了一种日志处理方法，包括：

获取待分类日志；

对所述待分类日志中的各个日志进行特征项提取，得到所述待分类日志中各个日志对应的日志特征项集合；

基于所述待分类日志中各个日志对应的日志特征项集合确定所述待分类日志中各个日志对应的日志向量；

利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，以对所述待分类日志进行分类。

可选地，所述获取待分类日志之后，还包括：

获取所述待分类日志对应的日志分类参数。

可选地，所述利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，包括：

A01：从所述日志向量中确定出初始聚类中心，并确定出所述日志向量中除所述初始聚类中心之外的待分类日志向量到各个所述初始聚类中心的信息素；

A02：基于所述信息素将各个所述待分类日志向量划分到所述初始聚类中心对应的类中；

A03：确定出各个所述日志向量到除自身之外的其他日志向量的距离和；

A04：基于所述距离和对所述初始聚类中心进行更新，并对所述信息素进行更新；

重新执行步骤A02，直到更新后聚类中心和更新前聚类中心相同，或者当前迭代次数等于预设最大迭代次数，则完成对所述日志向量的分类。

可选地，所述确定出所述日志向量中除所述初始聚类中心之外的待分类日志向量到各个所述初始聚类中心的信息素，包括：

基于第一运算公式确定所述日志向量中除所述初始聚类中心之外的待分类日志向量到各个所述初始聚类中心的信息素，其中，所述第一运算公式为：

其中，τ_ij表示第i个待分类日志向量到第j个初始聚类中心的信息素，d_ij表示第i个待分类日志向量到第j个初始聚类中心的欧氏距离，r表示预设的聚类中心半径。

可选地，所述基于所述信息素将各个所述待分类日志向量划分到所述初始聚类中心对应的类中，包括：

基于所述信息素和第二运算公式确定将各个所述待分类日志向量划分到各个所述初始聚类中心对应的类中的概率；

根据所述概率将各个所述待分类日志向量划分到所述初始聚类中心对应的类中，其中，所述第二运算公式为：

其中，所述P_ij表示将第i个待分类日志向量划分到第j个初始聚类中心对应的类中的概率，α、β均为预设调节因子，S表示到第j个初始聚类中心的欧氏距离小于或等于所述预设的聚类中心半径的待分类日志向量集合。

可选地，所述确定出各个所述日志向量到除自身之外的其他日志向量的距离和，包括：

基于第三运算公式确定出各个所述日志向量到除自身之外的其他日志向量的距离和，其中，所述第三运算公式为：

其中，L_m表示第m个日志向量到除自身之外的其他日志向量的距离和，x_m表示第m个日志向量，x_mp为第m个日志向量的第p个值，N表示所述日志向量总数，c_mp为过渡向量c_m中的第p个值，||x_m-c_m||²表示日志向量x_m和过渡向量c_m模的平方。

可选地，所述基于所述距离和对所述初始聚类中心进行更新，并对所述信息素进行更新，包括：

将最小距离和对应的日志向量确定为新聚类中心，并利用所述新聚类中心更新所述初始聚类中心；

利用第四运算公式对所述信息素进行更新，其中，所述第四运算公式为：

其中，τ_ij′表示更新后第i个待分类日志向量到第j个聚类中心的信息素，τ_ij表示更新前第i个待分类日志向量到第j个聚类中心的信息素，d_ij表示第i个待分类日志向量到第j个聚类中心的欧氏距离，ρ表示信息素的挥发度，Q表示预设信息素总量。

第二方面，本申请公开了一种日志处理装置，包括：

数据获取模块，用于获取待分类日志；

特征项提取模块，用于对所述待分类日志中的各个日志进行特征项提取，得到所述待分类日志中各个日志对应的日志特征项集合；

日志向量确定模块，用于基于所述待分类日志中各个日志对应的日志特征项集合确定所述待分类日志中各个日志对应的日志向量；

日志分类模块，用于利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，以对所述待分类日志进行分类。

第三方面，本申请公开了一种电子设备，包括：

存储器和处理器；

其中，所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，以实现前述公开的日志处理方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的日志处理方法。

可见，本申请先获取待分类日志，并对所述待分类日志中的各个日志进行特征项提取，得到所述待分类日志中各个日志对应的日志特征项集合，然后再基于所述待分类日志中各个日志对应的日志特征项集合确定所述待分类日志中各个日志对应的日志向量，接着便可以利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，以对所述待分类日志进行分类。这样在获取到待分类日志之后，对获取到的待分类日志进行特征提取等处理，得到对应的日志向量，然后再利用蚁群聚类算法对各个日志向量进行分类，便可以对获取到的待分类日志进行分类，相比于现有技术需要输入先验信息来说，蚁群聚类算法无需先验信息的设置，从而减轻了用户的负担，改善了聚类结果，提高了适用性，且蚁群聚类算法的本质就是一种非常有效的随机搜索机制，而非启发式机制，从而提高了分类结果的准确性和一致性。此外，蚁群聚类算法的算法结构和操作比较简单，易于实现。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种日志处理方法流程图；

图2为本申请公开的一种具体的日志处理方法部分流程图；

图3为本申请公开的一种具体的日志处理方法流程图；

图4为本申请公开的一种日志处理装置结构示意图；

图5为本申请公开的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，本申请实施例公开了一种日志处理方法，该方法包括：

步骤S11：获取待分类日志。

在具体的实施过程中，需要先获取待分类日志，其中，所述待分类日志包括多个日志，具体的，可以从网站的访问日志库中获取所述待分类日志等，在此不限定获取待分类日志的具体途径。

在获取到所述待分类日志之后，相应的，还需要获取所述待分类日志对应的日志分类参数，其中，所述日志分类参数包括但不限于预设的聚类中心半径等。

步骤S12：对所述待分类日志中的各个日志进行特征项提取，得到所述待分类日志中各个日志对应的日志特征项集合。

在获取到所述待分类日志之后，需要对所述待分类日志进行相应的处理，以便可以得到所述待分类日志中各个日志对应的日志向量，以便相应的设备进行分类处理。

具体的，就是需要对所述待分类日志中的各个日志进行特征项提取，得到所述待分类日志中各个日志对应的日志特征项集合，其中，需要从各个日志中提取的特征项包括但不限于过多的出站流量、过多的入站流量、下班时间VPN登录、防火墙接受、防火墙拒接、从内部网络之外登录、连续多次失败登录、至少一次成功登录、单一来源探查多个目标IP、单一来源探查多个目标IP和端口。

步骤S13：基于所述待分类日志中各个日志对应的日志特征项集合确定所述待分类日志中各个日志对应的日志向量。

得到所述待分类日志中各个日志对应的日志特征项集合之后，便可以基于所述待分类日志中各个日志对应的日志特征项集合确定所述待分类日志中各个日志对应的日志向量。

具体的，就是对于任一日志对应的当前特征项，如果提取到该特征项，则该特征项对应的值表示为1，如果没有提取到该特征项，则该特征项对应的值表示为0，得到该日志对应的日志向量。

例如，对于日志A，从所述日志A中提取到了过多的出站流量、过多的入站流量、下班时间VPN登录、防火墙接受、防火墙拒接，而没有提取到从内部网络之外登录、连续多次失败登录、至少一次成功登录、单一来源探查多个目标IP、单一来源探查多个目标IP和端口。则日志A对应的日志向量表示为(1，1，1，1，1，0，0，0，0，0)。

步骤S14：利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，以对所述待分类日志进行分类。

在得到所述待分类日志中各个日志对应的日志向量之后，便可以利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，以对所述待分类日志进行分类。

蚂蚁的觅食过程可以分为搜索食物和搬运食物两个环节。每个蚂蚁在运动过程中都会在其经过的路径上释放信息素，并能够感知信息素及其强度。经过蚂蚁越多的路径其信息素越强，同时信息素自身也会随着时间的流逝而挥发。蚂蚁倾向于信息素强度高的方向移动，某一路径上走过的蚂蚁越多，后来的蚂蚁选择该路径的概率就越大，整个蚁群的行为表现出信息正反馈现象。所述蚁群聚类算法基本思想如下:将数据视为具有不同属性的蚂蚁，聚类中心是蚂蚁所要寻找的“食物源”，那么数据聚类过程就可以看作蚂蚁寻找食物源的过程。

参见图2所示，利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，具体可以包括：

具体的，利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，首先需要进行初始化，也即，从所述日志向量中确定随机确定出一定数量的初始聚类中心，然后基于第一运算公式确定所述日志向量中除所述初始聚类中心之外的待分类日志向量到各个所述初始聚类中心的信息素，其中，所述第一运算公式为：

然后基于所述信息素将各个所述待分类日志向量划分到所述初始聚类中心对应的类中，具体的，先基于所述信息素和第二运算公式确定将各个所述待分类日志向量划分到各个所述初始聚类中心对应的类中的概率，然后再根据所述概率将各个所述待分类日志向量划分到所述初始聚类中心对应的类中，其中，所述第二运算公式为：

其中，所述P_ij表示将第i个待分类日志向量划分到第j个初始聚类中心对应的类中的概率，α、β均为预设调节因子，S表示到第j个初始聚类中心的欧氏距离小于或等于所述预设的聚类中心半径的待分类日志向量集合。也即，先基于所述信息素和第二运算公式确定出将各个所述待分类日志向量划分到各个所述初始聚类中心对应的类中的概率，然后将当前待分类日志向量划分到最大概率对应的初始聚类中心对应的类中。

在实际过程中，α、β可以分别取0.9与0.01，α、β起到既防止所有蚂蚁均沿相同路径得到相同结果所产生的停滞搜索,又再现了经典的贪心算法思想。

例如，初始聚类中心包括日志向量A、日志向量B，待分类日志向量包括日志向量C，将日志向量C划分到日志向量A对应的类中的概率为0.7，将日志向量C划分到日志向量B对应的类中的概率为0.3，则将日志向量C划分到日志向量A对应的类中。

在所述待分类日志向量均划分到对应的初始聚类中心对应的类中，则完成第一轮的聚类，还需要确定出各个所述日志向量到除自身之外的其他日志向量的距离和。

具体的，就是基于第三运算公式确定出各个所述日志向量到除自身之外的其他日志向量的距离和，其中，所述第三运算公式为：

其中，L_m表示第m个日志向量到除自身之外的其他日志向量的距离和，x_m表示第m个日志向量，x_mp为第m个日志向量的第p个值，N表示所述日志向量总数，c_mp为过渡向量c_m中的第p个值，||x_m-c_m||²表示日志向量x_m和过渡向量c_m模的平方。在所述第三运算公式中c_m为一个中间的过度向量。

还需要基于所述距离和对所述初始聚类中心进行更新，并对所述信息素进行更新。具体的，就是先将最小距离和对应的日志向量确定为新聚类中心，并利用所述新聚类中心更新所述初始聚类中心；然后再利用第四运算公式对所述信息素进行更新，其中，所述第四运算公式为：

在确定出所述新聚类中心之后，可以先判断确定出的新聚类中心和确定出新聚类中心之前的聚类中心是否相同，如果相同，则表示聚类中心趋于稳定，分类完成。如果不相同，则需要判断当前的迭代次数是否不小于预设最大迭代次数阈值，如果当前的迭代次数小于预设最大迭代次数阈值，则重现执行所述步骤A02，如果当前的迭代次数不小于预设最大迭代次数阈值，则分类结束。也即，重现执行步骤A02，直到更新后聚类中心和更新前聚类中心相同，或者当前迭代次数等于预设最大迭代次数，则完成对所述日志向量的分类。

参见图3所示，为日志处理方法。首先输入待分类日志，并初始化相关的分类参数，并将预设的最大迭代次数减1，然后将待分类日志中除聚类中心之外的一个待分类日志作为一只蚂蚁，计算蚂蚁i的状态转移概率，也即，计算将蚂蚁划分到各个聚类中心对应的类中的概率，并根据此概率将蚂蚁划分到对应的聚类中心对应的类(簇)中，判断是否将每只蚂蚁都划分到了对应的簇中，如果是，则重新计算聚类中心，并更新各个蚂蚁到聚类中心的信息素，判断是否满足终止条件，如果满足，则输出最终解，如果不满足，则重现执行步骤计算蚂蚁i的状态转移概率并根据此概率将蚂蚁划分到对应的聚类中心对应的类中的步骤。

参见图4所示，本申请实施例公开了一种日志处理装置，包括：

数据获取模块11，用于获取待分类日志；

特征项提取模块12，用于对所述待分类日志中的各个日志进行特征项提取，得到所述待分类日志中各个日志对应的日志特征项集合；

日志向量确定模块13，用于基于所述待分类日志中各个日志对应的日志特征项集合确定所述待分类日志中各个日志对应的日志向量；

日志分类模块14，用于利用蚁群聚类算法对所述待分类日志中各个日志对应的日志向量进行分类，以对所述待分类日志进行分类。

具体的，所述数据获取模块11，还用于：

获取所述待分类日志对应的日志分类参数。

进一步的，所述日志分类模块14，用于：

进一步的，所述日志分类模块14，用于：

根据所述概率将将各个所述待分类日志向量划分到所述初始聚类中心对应的类中，其中，所述第二运算公式为：

进一步的，所述日志分类模块14，用于：

进一步的，所述日志分类模块14，用于：

参见图5所示，为本申请实施例提供的一种电子设备20的结构示意图，该电子设备20具体可以包括但不限于笔记本电脑、台式电脑或服务器等。

通常，本实施例中的电子设备20包括：处理器21和存储器22。

其中，处理器21可以包括一个或多个处理核心，比如四核心处理器、八核心处理器等。处理器21可以采用DSP(digital signal processing,数字信号处理)、FPGA(field-programmable gate array,现场可编程们阵列)、PLA(programmable logic array,可编程逻辑阵列)中的至少一种硬件来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(central processing unit,中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以集成有GPU(graphics processing unit，图像处理器)，GPU用于负责显示屏所需要显示的图像的渲染和绘制。一些实施例中，处理器21可以包括AI(artificialintelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器22可以包括一个或多个计算机可读存储介质，计算机可读存储介质可以是非暂态的。存储器22还可以包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器22至少用于存储以下计算机程序221，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例中公开的日志处理方法步骤。

在一些实施例中，电子设备20还可包括有显示屏23、输入输出接口24、通信接口25、传感器26、电源27以及通信总线28。

本技术领域人员可以理解，图5中示出的结构并不构成对电子设备20的限定，可以包括比图示更多或更少的组件。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述任一实施例中公开的日志处理方法。

其中，关于上述日志处理方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种日志处理方法、装置、设备、介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。