Nothing Special   »   [go: up one dir, main page]

CN118733398A - 基于自监督混合神经网络的运维数据异常检测方法与系统 - Google Patents

基于自监督混合神经网络的运维数据异常检测方法与系统 Download PDF

Info

Publication number
CN118733398A
CN118733398A CN202411228394.6A CN202411228394A CN118733398A CN 118733398 A CN118733398 A CN 118733398A CN 202411228394 A CN202411228394 A CN 202411228394A CN 118733398 A CN118733398 A CN 118733398A
Authority
CN
China
Prior art keywords
data
indicator
network
maintenance
anomaly detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411228394.6A
Other languages
English (en)
Inventor
钟斌
王镓麟
陆启羽
高致远
章浩磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiqiyin Hangzhou Technology Co ltd
China Zheshang Bank Co Ltd
Original Assignee
Yiqiyin Hangzhou Technology Co ltd
China Zheshang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yiqiyin Hangzhou Technology Co ltd, China Zheshang Bank Co Ltd filed Critical Yiqiyin Hangzhou Technology Co ltd
Priority to CN202411228394.6A priority Critical patent/CN118733398A/zh
Publication of CN118733398A publication Critical patent/CN118733398A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2131Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on a transform domain processing, e.g. wavelet transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于自监督混合神经网络的运维数据异常检测方法与系统,包括:获取运维数据并进行预处理,根据数据的历史标签划分风险等级;提取程序接口运行指标数据中的长短周期性序列的数据;将程序接口运行指标数据中长短周期性序列的数据输入到预训练的时间卷积网络中,得到周期指标权重用于异常检测网络输出的加权拼接;使用权重交叉熵损失函数对异常检测网络进行训练,使用假设检验方法捕捉机器性能数据波动辅助得到数据异常结果,通过训练好的异常检测网络进行运维数据异常检测。本发明实现了从海量运维数据中高效筛选异常数据,解决了需人工标注、小样本异常数据检测和难提取数据特征的问题。

Description

基于自监督混合神经网络的运维数据异常检测方法与系统
技术领域
本发明涉及智能运维领域,尤其涉及一种基于自监督混合神经网络的运维数据异常检测方法与系统。
背景技术
智能运维(AIOps)是人工智能和运维的结合,以大数据平台和算法平台为核心,从各个监控系统中抽取数据、面向运维人员提供服务并具有决策智能的自动化系统,可以将IT运维中日常的、大量重复性工作变更为自动化操作,从而提高工作效率和降低操作风险。其中,异常检测场景属于智能运维中的前置场景,只有在海量运维数据中高效精确地筛选出异常情况,才能进一步地实行故障分类、故障根因定位和生成故障报告等。
智能运维中的算法平台通常以机器学习为主,深度学习在智能运维领域中也有广泛应用。然而运维数据在深度学习中的应用存在数据样本分布不均衡、参数量大识别效率不高、人工标注成本高昂、小样本异常难以识别等问题。同时,当前的运维数据异常检测方案在特征工程中对于时序信息的利用较为简单,并且没有充分应用指标间的数据关系信息,导致无法有效提取数据特征。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于自监督混合神经网络的运维数据异常检测方法与系统。
基于自监督混合神经网络的运维数据异常检测本发明的目的是通过以下技术方案来实现的:一种基于自监督混合神经网络的运维数据异常检测方法与系统基于自监督混合神经网络的运维数据异常检测,该方法与系统包括:
S1、获取运维数据中的程序接口运行指标数据和机器性能指标数据;
S2、对数据进行预处理,根据数据的历史标签划分风险等级;
S3、获取输入数据:提取程序接口运行指标数据中的周期性序列的数据;
S4、将程序接口运行指标数据中的周期性序列中的数据输入到预训练的TCN网络中,将每个指标的时序特征作为一个神经元,且每个神经元连接不同风险等级的权重值中的最大值作为该指标时序的权重值,得到周期指标权重;
S5、使用权重交叉熵损失函数对异常检测网络进行训练,所述异常检测网络包括CNN-TCN网络和特征拼接层,输入为S3中的输入数据,输出为周期指标权重对CNN-TCN网络输出的不同周期特征进行加权拼接得到的分类结果;将分类结果中分类错误的数据直接划分为异常数据,然后计算分类正确数据的结果矩阵和真实分类矩阵的欧式距离,并将欧式距离大于预设阈值的数据划分为异常数据;
所述权重交叉熵损失函数中,每个样本的权重通过假设检验方法计算机器性能指标数据中的抖动数据构建;
S6、使用训练好的异常检测网络进行运维数据异常检测,并通过假设检验法得到异常结果。
进一步地,所述程序接口运行指标数据和机器性能指标数据具体为:
程序运行接口指标数据包括:接口运行次数、平均处理时间、平均响应时间、接口运行成功率、系统运行成功率、接口停顿数量和接口停顿率;
所述机器性能指标数据包括:CPU利用率、内存使用率、网络带宽、磁盘IO、TCP连接数和全量垃圾回收次数。
进一步地,所述数据预处理具体包括:对程序接口运行指标数据进行过滤、聚合、填充,以天为单位对各个指标数据分别进行均值归一化;
所述过滤为筛选出Q个数字形式的有效指标;
所述聚合为利用每分钟内单个指标的所有数据计算数据平均值,将该平均值作为该分钟的指标数据;
所述填充为在某一时刻的指标数据缺失的情况下,将前一时刻的指标数据作为当前时刻的指标数据。
进一步地,所述划分风险等级具体为:将故障和预警数据中的接口运行成功率分别构造两个正态分布图,将预警正态分布图的累计概率为0.8的点设置为x1,将两个正态分布图的相交点设置为x2;将接口运行成功率为x1至100%的数据划分为第Ⅰ类数据,x2-x1划分为第Ⅱ类数据,0-x1划分为第Ⅲ类数据;
所述第Ⅰ类数据表明系统程序运行稳定鲁棒,所述第Ⅱ类数据表明系统程序存在不稳定风险但运行基本稳定,所述第Ⅲ类数据表明系统程序运行较不稳定存在较大的安全隐患和崩溃风险。
进一步地,所述提取程序接口运行指标数据中的周期性序列中的数据具体为:利用小波变换对程序接口运行指标数据进行频率层次分解,将其中m个主要频率分量取整,以该主要频率为采样率获取数据形成时间序列;同时,获得当前时间点的前N个数据、每天当前时间点的前N个数据和每周当前时间点的前N个数据,共m+3个长短周期的时间序列,所有时间序列的数据量相同,均为N个;该m+3个时间序列作为神经网络的输入。
进一步地,所述异常检测网络包括: CNN-TCN网络、特征拼接层、两层全连接层和softmax激活函数;
所述CNN-TCN网络中CNN包括指标卷积层、TCN中包括时序卷积层,其中指标卷积层由一维卷积,平均池化,Relu激活函数和dropout参数遗弃组成;时序卷积层由膨胀因果卷积,归一化,Relu激活函数,dropout参数遗弃和1X1卷积组成。
进一步地,所述权重交叉熵损失函数具体为:
其中,N表示样本数量,C表示类别数量,表示类别j的权重,是样本i的真实标签,是样本i在类别j上的预测概率,权重计算如下所示。
其中表示损失函数中类别j的权重,是由机器性能指标的数据抖动决定的权重系数,为最高权重值限制系数,P表示该第j类数据在数据集中所占比例。
进一步地,所述假设检验包括:
其中,X表示样本值,U表示总体均值,SD表示标准差,n表示样本量,当z在置信区间[-,]内表明数据正常,反之表明数据抖动;
统计抖动数据占窗口内数据的比例为p;损失函数权重系数计算公式如下所示:
另一方面,说明书还提供了一种基于自监督混合神经网络的运维数据异常检测系统,该系统包括:数据预处理模块、周期性数据提取模块、预训练TCN网络模块、异常检测网络模块和训练模块;
所述预处理模块用于对运维数据中的程序接口运行指标数据进行预处理,根据数据的历史标签划分风险等级;
所述周期性数据提取模块用于提取预处理后程序接口运行指标数据中的周期性序列的数据;
预训练TCN网络模块输入周期性序列的数据,将每个指标的时序特征作为一个神经元,且每个神经元连接不同风险等级的权重值中的最大值作为该指标时序的权重值,得到周期指标权重;
所述异常检测网络模块包括CNN-TCN网络和特征拼接层,输入为周期性序列的数据,输出为周期指标权重对CNN-TCN网络输出的不同周期特征进行加权拼接得到的分类结果;
所述训练模块用于使用权重交叉熵损失函数对异常检测网络进行训练,在得到分类结果后,将分类结果中分类错误的数据直接划分为异常数据,然后计算分类正确数据的结果矩阵和真实分类矩阵的欧式距离,并将欧式距离大于预设阈值的数据划分为异常数据;
所述权重交叉熵损失函数中,每个样本的权重通过假设检验方法计算机器性能指标数据中的抖动数据构建。
另一方面,说明书还提供了一种基于自监督混合神经网络的运维数据异常检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于自监督混合神经网络的运维数据异常检测方法。
本发明的有益效果:本发明公开了一种基于自监督混合神经网络的运维数据异常检测方法及系统,针对运维数据特点进行数据预处理,基于数据自身属性进行自动化标注,利用卷积神经网络(CNN)拟合应用运行数据的指标间函数关系,利用时间卷积网络(TCN)提取长短周期的时间特征,通过假设检验方法捕捉机器性能数据波动,实现了从海量运维数据中高效筛选异常数据的功能,推动解决当前的异常检测方案中检测效率不高、需要人工标注数据、难以检测小样本异常数据和难以有效提取数据特征的问题。
附图说明
图1为本发明实施例提供的基于自监督混合神经网络的运维数据异常检测方法示意图;
图2为本发明实施例提供的程序接口运行指标数据风险等级分类示意图;
图3为本发明实施例提供的指标卷积层示意图;
图4为本发明实施例提供的时序卷积层示意图;
图5为本发明实施例提供的基于自监督混合神经网络的运维数据异常检测装置示意图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种基于自监督混合神经网络的运维数据异常检测方法,
S1、获取运维数据中的程序接口运行指标数据和机器性能指标数据;
在对运行在服务器上的系统程序进行运维管理时,通常会产生程序接口运行指标数据和机器性能指标数据等运维数据。本方案将程序接口运行数据作为神经网络的输入,机器性能指标数据作为辅助佐证数据。
其中,程序接口运行指标数据通常包含接口运行次数、平均处理时间、平均响应时间和接口运行成功率等指标,机器性能指标数通常包含CPU利用率、内存使用率、网络带宽、磁盘IO等指标。本方案将程序接口运行数据作为神经网络的输入,机器性能指标数据作为辅助佐证数据。本实施例中程序接口运行指标数据和机器性能指标数据包含的指标如下所示,程序运行接口指标数据包括:接口运行次数、平均处理时间、平均响应时间、接口运行成功率、系统运行成功率、接口停顿数量和接口停顿率;所述机器性能指标数据包括:CPU利用率、内存使用率、网络带宽、磁盘IO、TCP连接数和全量垃圾回收次数。
S2、对数据进行预处理,根据数据的历史标签划分风险等级;
本方案对数据进行预处理时,对程序接口运行指标数据进行过滤、聚合、填充,以天为单位对各个指标数据分别进行均值归一化。其中过滤是指筛选出Q个数字形式的有效指标,本实施例中共7个有效指标;聚合是指利用每分钟内单个指标的所有数据计算数据平均值,将该平均值作为该分钟的指标数据;填充是指在某一时刻的指标数据缺失的情况下,将前一时刻的指标数据作为当前时刻的指标数据。
本方案将常见的运维数据定义为典型的无故障数据和典型的故障数据,其中典型的故障数据指的是故障数据中符合大多数分布的数据,在实际运维场景中较容易检测出该数据。同时,异常数据是指除了常见的运维数据的剩余数据中能够表明运维状态存在问题的数据。本方案总结的数据异常的特点为程序接口运行指标数据中各个指标间数据关系存在异常和指标数据不符合既往历史的时序规律。异常数据是运维数据中的小样本数据,包含高阶的运维信息,可以用于提示程序系统在运行过程中潜在的深层风险。例如,运维数据中,90%属于常见的运维数据,即典型的无故障数据和典型的故障数据共占90%,剩余10%属于不常见的运维数据,这10%的数据中,约5%能够表明运维状态存在异常(异常的含义为:在服务器上运行的程序存在异常,有可能表现为故障,也有可能不以故障的形式表现),另外5%为毛刺抖动等噪声数据。
程序接口运行指标数据是包含多个指标的时序数据,其中接口运行成功率指标与系统程序运行状态的相关性最高,最具有信息量。如图2所示,根据运维人员对历史程序接口运行指标数据打的故障和预警标签,将故障和预警数据中的接口运行成功率分别构造两个正态分布图,将预警正态分布图的累计概率为0.8的点设置为x1,将两个正态分布图的相交点设置为x2。将接口运行成功率为x1至100%的数据划分为第Ⅰ类数据,x2-x1划分为第Ⅱ类数据,0-x1划分为第Ⅲ类数据。其中,第Ⅰ类数据表明系统程序运行稳定鲁棒,第Ⅱ类数据表明系统程序存在不稳定风险但运行基本稳定,第Ⅲ类数据表明系统程序运行较不稳定存在较大的安全隐患和崩溃风险。如图所示,黄色直方图表明预警数据的接口运行成功率的概率分布,蓝色曲线为预警数据的接口运行成功率所拟合的正态分布曲线,红色直方图表明故障数据的接口运行成功率的概率分布,黑色曲线为故障数据的接口运行成功率所拟合的正态分布曲线。
S3、获取输入数据:提取程序接口运行指标数据中的周期性序列的数据;
利用小波变换对程序接口运行指标数据进行频率层次分解,将其中m个主要频率分量取整,以该主要频率为采样率获取数据形成时间序列。同时,获得当前时间点的前N个数据、每天当前时间点的前N个数据和每周当前时间点的前N个数据,共m+3个长短周期的时间序列,所有时间序列的数据量相同,均为N个。其中,每天当前时间点的前N个数据可以理解为以天为采样率获取数据形成时间序列,例如,当前时间为12:00,该时间序列由前N天每天12:00时间点对应的数据组成。该m+3个时间序列作为神经网络的输入。程序接口运行指标数据通常具有较强的周期性,周期性可能源于业务需求周期性、数据处理周期性或用户行为周期性等,例如电商网站在节假日或特定促销活动期间订单量激增,传感器数据、日志数据等以固定的时间间隔生成、处理和分析等情况。周期性采样有助于突出数据的周期性特征,使神经网络更容易学习到数据的周期性规律,从而提高模型的泛化能力,降低过拟合风险,同时增强了时序数据的解释性,专业运维人员更容易理解和解释模型的预测结果。
S4、将m+3个周期的时间序列分别输入TCN预训练网络,对每个周期的每个指标时序分别进行全局平均池化后作为时序特征,将每个指标的时序特征作为一个神经元通过一个全连接层和一个softmax输出为1x3的矩阵。将每个神经元连接三个类别的三个权重值中的最大值设置为该指标时序的权重值,最终获得周期指标权重。
S5、使用权重交叉熵损失函数对异常检测网络进行训练,所述异常检测网络包括CNN-TCN网络和特征拼接层,输入为S3中的输入数据,输出为周期指标权重对CNN-TCN网络输出的不同周期特征进行加权拼接得到的分类结果;
具体地,将m+3个周期的时间序列作为CNN-TCN网络的输入。首先利用卷积神经网络在指标维度上进行一维卷积,建立指标间的数据关系,提取指标维度特征。其次,利用TCN网络拟合数据在时间维度上的历史规律。然后,利用预训练所得的周期指标权重将不同周期的特征进行加权拼接。最终经过两层全连接层和softmax激活函数进行输出,得到1x3的结果矩阵和分类结果。整体网络框架如下所示。
如图3和图4所示,其中指标卷积层和时序卷积层的具体结构为:指标卷积层由一维卷积,平均池化,Relu激活函数和dropout参数遗弃组成。时序卷积层由膨胀因果卷积,归一化,Relu激活函数,dropout参数遗弃和1X1卷积组成。
通常情况下系统程序处于稳定运行中,因此第Ⅱ、Ⅲ类数据的样本数量较少,设置权重交叉熵损失函数增加第Ⅱ、Ⅲ类数据的分类权重进行训练,使网络可以充分学习运维数据中常见的故障数据的样本分布【90%】。当网络的识别准确率高于95%时表明网络特征提取能力可信,网络可以很好的学习到常见运维数据的分布特征。权重交叉熵损失函数如下所示。
其中,N表示样本数量,C表示类别数量,表示类别j的权重,是样本i的真实标签,是样本i在类别j上的预测概率。权重计算如下所示。
其中表示损失函数中类别j的权重,是由机器性能指标的数据抖动决定的权重系数,用于限制最高的权重值(例如当为0.1时,最高类别权重为10),P表示该第j类数据在数据集中所占比例(例如,第三类数据占全部数据的10%,则P为10%)。
将分类结果中分类错误的数据直接划分为异常数据,然后计算分类正确数据的结果矩阵和真实分类矩阵的欧式距离,并将欧式距离大于d的数据划分为异常数据。
欧氏距离d取值范围为[0.25,0.4],利用异常数据的召回率校准d的取值。
本方案将CNN+TCN网络作为拟合函数,利用程序接口运行指标数据在时间和指标维度上的信息推导出当前接口运行成功率的分类结果。异常数据在指标维度中数据推导关系存在错误或各时间周期中存在异常抖动特征,使得网络会分类错误或推导结果与真实结果差距大于d。
选取最近三周时间的系统程序未出现崩溃和频繁出错的机器指标数据,利用该数据建立机器性能指标数据库,计算数据库的总体均值U和标准差SD,统计计算数据库中抖动数据占所有数据的比例作为α值。计算均值为U和标准差为SD的正态分布的累计概率密度为的z值作为-,划定置信区间为[-,]。
获得异常数据的时间戳,在时间戳的前五分钟和后三分钟划定时间窗口,提取在该时间窗口中的机器性能指标数据,使用统计学中的假设检验方法检测波动的机器指标。将程序接口运行指标数据和机器性能指标数据汇总成异常结果,异常结果作为运维人员进一步异常诊断的重要依据。其中,异常结果包括异常时间点和指标时序曲线,指标时序曲线分为两部分,其一为机器性能指标数据的各个指标的时序数据构成的曲线并标注出数据抖动点,其二为程序接口运行指标数据m+3个长短周期各个指标的N个数据构成的曲线并标注出异常点。假设检验方法的公式如下所示。
其中,X表示样本值,U表示总体均值,SD表示标准差,n表示样本量。当z在置信区间[-,]内表明数据正常,反之表明数据抖动。
统计抖动数据占窗口内数据的比例为p。损失函数权重系数计算公式如下所示。
当抖动数据越多,则表明需要检测的异常越多,神经网络不应当遗漏可能的异常点。因此,当抖动数据越多时则p越大,降低,第Ⅱ、Ⅲ类数据的学习权重越低,可以降低将异常错误划分为典型故障数据的风险。此系数不会显式地增加异常检测率,但是可以使异常检测更加稳定,降低将异常数据划分为常见数据的风险。
S6、使用训练好的异常检测网络进行运维数据异常检测,并通过上述的假设检验法得到异常结果。
与前述一种基于自监督混合神经网络的运维数据异常检测方法的实施例相对应,本发明还提供了一种基于自监督混合神经网络的运维数据异常检测系统的实施例。该系统包括:数据预处理模块、周期性数据提取模块、预训练TCN网络模块、异常检测网络模块和训练模块;
所述预处理模块用于对运维数据中的程序接口运行指标数据进行预处理,根据数据的历史标签划分风险等级;
所述周期性数据提取模块用于提取预处理后程序接口运行指标数据中的长短周期性序列的数据;
预训练TCN网络模块输入长短周期性序列的数据,将每个指标的时序特征作为一个神经元,且每个神经元连接不同风险等级的权重值中的最大值作为该指标时序的权重值,得到周期指标权重;
所述异常检测网络模块包括CNN-TCN网络和特征拼接层,输入为长短周期性序列的数据,输出为周期指标权重对CNN-TCN网络输出的不同周期特征进行加权拼接得到的分类结果;
所述训练模块用于使用权重交叉熵损失函数对异常检测网络进行训练,在得到分类结果后,将分类结果中分类错误的数据直接划分为异常数据,然后计算分类正确数据的结果矩阵和真实分类矩阵的欧式距离,并将欧式距离大于预设阈值的数据划分为异常数据;
所述权重交叉熵损失函数中,每个样本的权重通过假设检验方法计算机器性能指标数据中的抖动数据构建。
与前述一种基于自监督混合神经网络的运维数据异常检测方法的实施例相对应,本发明还提供了一种基于自监督混合神经网络的运维数据异常检测装置的实施例。
参见图5,本发明实施例提供的一种基于自监督混合神经网络的运维数据异常检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的一种基于自监督混合神经网络的运维数据异常检测方法。
本发明提供的一种基于自监督混合神经网络的运维数据异常检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明提供的一种基于自监督混合神经网络的运维数据异常检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于自监督混合神经网络的运维数据异常检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现所述的一种基于自监督混合神经网络的运维数据异常检测方法。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,该方法包括:
S1、获取运维数据中的程序接口运行指标数据和机器性能指标数据;
S2、对数据进行预处理,根据数据的历史标签划分风险等级;
S3、获取输入数据:提取程序接口运行指标数据中的长短周期性序列的数据;
S4、将程序接口运行指标数据中长短周期性序列的数据输入到预训练的TCN网络中,将每个周期的每个指标时序分别进行全局平均池化后作为时序特征,每个指标的时序特征作为一个神经元,且每个神经元连接不同风险等级的权重值中最大值作为该指标时序的权重值,得到周期指标权重;
S5、使用权重交叉熵损失函数对异常检测网络进行训练,所述异常检测网络包括CNN-TCN网络和特征拼接层,输入为S3中的输入数据,输出为周期指标权重对CNN-TCN网络输出的不同周期特征进行加权拼接得到的分类结果;将分类结果中分类错误的数据直接划分为异常数据,然后计算分类正确数据的结果矩阵和真实分类矩阵的欧式距离,并将欧式距离大于预设阈值的数据划分为异常数据;
所述权重交叉熵损失函数中,每个样本的权重通过假设检验方法计算机器性能指标数据中的抖动数据构建;
S6、使用训练好的异常检测网络进行运维数据异常检测,并通过假设检验法得到异常结果。
2.根据权利要求1所述的一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,所述程序接口运行指标数据和机器性能指标数据具体为:
程序运行接口指标数据包括:接口运行次数、平均处理时间、平均响应时间、接口运行成功率、系统运行成功率、接口停顿数量和接口停顿率;
所述机器性能指标数据包括:CPU利用率、内存使用率、网络带宽、磁盘IO、TCP连接数和全量垃圾回收次数。
3.根据权利要求1所述的一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,所述数据预处理具体包括:对程序接口运行指标数据进行过滤、聚合、填充,以天为单位对各个指标数据分别进行均值归一化;
所述过滤为筛选出Q个数字形式的有效指标;
所述聚合为利用每分钟内单个指标的所有数据计算数据平均值,将该平均值作为该分钟的指标数据;
所述填充为在某一时刻的指标数据缺失的情况下,将前一时刻的指标数据作为当前时刻的指标数据。
4.根据权利要求1所述的一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,所述划分风险等级具体为:将故障和预警数据中的接口运行成功率分别构造两个正态分布图,将预警正态分布图的累计概率为0.8的点设置为x1,将两个正态分布图的相交点设置为x2;将接口运行成功率为x1至100%的数据划分为第Ⅰ类数据,x2-x1划分为第Ⅱ类数据,0-x1划分为第Ⅲ类数据;
所述第Ⅰ类数据表明系统程序运行稳定鲁棒,所述第Ⅱ类数据表明系统程序存在不稳定风险但运行基本稳定,所述第Ⅲ类数据表明系统程序运行较不稳定存在较大的安全隐患和崩溃风险。
5.根据权利要求1所述的一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,所述提取程序接口运行指标数据中长短周期性序列的数据具体为:利用小波变换对程序接口运行指标数据进行频率层次分解,将其中m个主要频率分量取整,以该主要频率为采样率获取数据形成时间序列;同时,获得当前时间点的前N个数据、每天当前时间点的前N个数据和每周当前时间点的前N个数据,共m+3个长短周期的时间序列,所有时间序列的数据量相同,均为N个;该m+3个时间序列作为神经网络的输入。
6.根据权利要求1所述的一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,所述异常检测网络包括: CNN-TCN网络、特征拼接层、两层全连接层和softmax激活函数;
所述CNN-TCN网络中CNN包括指标卷积层、TCN中包括时序卷积层,其中指标卷积层由一维卷积,平均池化,Relu激活函数和dropout参数遗弃组成;时序卷积层由膨胀因果卷积,归一化,Relu激活函数,dropout参数遗弃和1X1卷积组成。
7.根据权利要求1所述的一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,所述权重交叉熵损失函数具体为:
其中,N表示样本数量,C表示类别数量,表示类别j的权重,是样本i的真实标签,是样本i在类别j上的预测概率,权重计算如下所示:
其中表示损失函数中类别j的权重,是由机器性能指标的数据抖动决定的权重系数,为最高权重值限制系数,P表示该第j类数据在数据集中所占比例。
8.根据权利要求7所述的一种基于自监督混合神经网络的运维数据异常检测方法,其特征在于,所述假设检验包括:
其中,X表示样本值,U表示总体均值,SD表示标准差,n表示样本量,当z在置信区间[-,]内表明数据正常,反之表明数据抖动;
统计抖动数据占窗口内数据的比例为p;损失函数权重系数计算公式如下所示:
9.一种用于实现权利要求1-8任一项所述方法的系统,其特征在于,该系统包括:数据预处理模块、周期性数据提取模块、预训练TCN网络模块、异常检测网络模块和训练模块;
所述预处理模块用于对运维数据中的程序接口运行指标数据进行预处理,根据数据的历史标签划分风险等级;
所述周期性数据提取模块用于提取预处理后程序接口运行指标数据中的长短周期性序列的数据;
预训练TCN网络模块输入长短周期性序列的数据,对每个周期的每个指标时序分别进行全局平均池化后作为时序特征,将每个指标的时序特征作为一个神经元,且每个神经元连接不同风险等级的权重值中的最大值作为该指标时序的权重值,得到周期指标权重;
所述异常检测网络模块包括CNN-TCN网络和特征拼接层,输入为长短周期性序列的数据,输出为周期指标权重对CNN-TCN网络输出的不同周期特征进行加权拼接得到的分类结果;
所述训练模块用于使用权重交叉熵损失函数对异常检测网络进行训练,在得到分类结果后,将分类结果中分类错误的数据直接划分为异常数据,然后计算分类正确数据的结果矩阵和真实分类矩阵的欧式距离,并将欧式距离大于预设阈值的数据划分为异常数据;
所述权重交叉熵损失函数中,每个样本的权重通过假设检验方法计算机器性能指标数据中的抖动数据构建。
10.一种基于自监督混合神经网络的运维数据异常检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-8中任一项所述的一种基于自监督混合神经网络的运维数据异常检测方法。
CN202411228394.6A 2024-09-03 2024-09-03 基于自监督混合神经网络的运维数据异常检测方法与系统 Pending CN118733398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411228394.6A CN118733398A (zh) 2024-09-03 2024-09-03 基于自监督混合神经网络的运维数据异常检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411228394.6A CN118733398A (zh) 2024-09-03 2024-09-03 基于自监督混合神经网络的运维数据异常检测方法与系统

Publications (1)

Publication Number Publication Date
CN118733398A true CN118733398A (zh) 2024-10-01

Family

ID=92865696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411228394.6A Pending CN118733398A (zh) 2024-09-03 2024-09-03 基于自监督混合神经网络的运维数据异常检测方法与系统

Country Status (1)

Country Link
CN (1) CN118733398A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109029699A (zh) * 2018-06-12 2018-12-18 国网四川省电力公司乐山供电公司 一种变压器振动在线异常检测方法
CN110264001A (zh) * 2019-06-20 2019-09-20 国网上海市电力公司 基于多时序的用电负荷预测方法
CN112215422A (zh) * 2020-10-13 2021-01-12 北京工业大学 基于季节性分解的长短时记忆网络水质动态预警方法
CN113505857A (zh) * 2021-08-06 2021-10-15 红云红河烟草(集团)有限责任公司 用于卷烟实时数采的数据异常检测方法
CN114201374A (zh) * 2021-12-07 2022-03-18 华融融通(北京)科技有限公司 基于混合机器学习的运维时序数据异常检测方法及系统
CN116956282A (zh) * 2023-06-07 2023-10-27 广州天懋信息系统股份有限公司 基于网络资产内存时间序列多特征数据的异常检测系统
CN116991229A (zh) * 2022-11-16 2023-11-03 腾讯科技(深圳)有限公司 数据处理方法、装置、介质及设备
CN117034169A (zh) * 2023-08-14 2023-11-10 中国科学院合肥物质科学研究院 基于时序因果关系网络的电网主变设备异常状态预测方法
CN117522403A (zh) * 2023-09-07 2024-02-06 浙商银行股份有限公司 一种基于子图融合的gcn异常客户预警方法及装置
US20240086272A1 (en) * 2022-09-12 2024-03-14 17Live Japan Inc. System, method and computer-readable medium for anomaly detection

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109029699A (zh) * 2018-06-12 2018-12-18 国网四川省电力公司乐山供电公司 一种变压器振动在线异常检测方法
CN110264001A (zh) * 2019-06-20 2019-09-20 国网上海市电力公司 基于多时序的用电负荷预测方法
CN112215422A (zh) * 2020-10-13 2021-01-12 北京工业大学 基于季节性分解的长短时记忆网络水质动态预警方法
CN113505857A (zh) * 2021-08-06 2021-10-15 红云红河烟草(集团)有限责任公司 用于卷烟实时数采的数据异常检测方法
CN114201374A (zh) * 2021-12-07 2022-03-18 华融融通(北京)科技有限公司 基于混合机器学习的运维时序数据异常检测方法及系统
US20240086272A1 (en) * 2022-09-12 2024-03-14 17Live Japan Inc. System, method and computer-readable medium for anomaly detection
CN116991229A (zh) * 2022-11-16 2023-11-03 腾讯科技(深圳)有限公司 数据处理方法、装置、介质及设备
CN116956282A (zh) * 2023-06-07 2023-10-27 广州天懋信息系统股份有限公司 基于网络资产内存时间序列多特征数据的异常检测系统
CN117034169A (zh) * 2023-08-14 2023-11-10 中国科学院合肥物质科学研究院 基于时序因果关系网络的电网主变设备异常状态预测方法
CN117522403A (zh) * 2023-09-07 2024-02-06 浙商银行股份有限公司 一种基于子图融合的gcn异常客户预警方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
温粉莲;: "一种混合模型的时序数据异常检测方法", 数字通信世界, no. 01, 1 January 2020 (2020-01-01) *
秦浩: "基于改进时间卷积网络的短期电力负荷预测研究", 中国优秀硕士学位论文全文数据库, 15 March 2024 (2024-03-15) *

Similar Documents

Publication Publication Date Title
US8868985B2 (en) Supervised fault learning using rule-generated samples for machine condition monitoring
CN110134566A (zh) 一种基于标签技术的云环境下信息系统性能监测方法
CN110232499A (zh) 一种配电网信息物理侧风险预警方法及系统
CN114528190B (zh) 单指标异常的检测方法、装置、电子设备及可读存储介质
CN111796957A (zh) 基于应用日志的交易异常根因分析方法及系统
CN117439256A (zh) 一种基于物联网的电站设备管理方法及系统
CN116028315A (zh) 作业运行预警方法、装置、介质及电子设备
CN112069039A (zh) 人工智能开发平台的监控预知告警方法、装置及存储介质
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
KR20210011822A (ko) 인공 지능 기반 비정상 로그를 탐지하는 방법 및 이를 구현하는 시스템
CN118733398A (zh) 基于自监督混合神经网络的运维数据异常检测方法与系统
CN115883424B (zh) 一种高速骨干网间流量数据预测方法及系统
CN117648214A (zh) 一种异常日志处理方法及装置
CN117708720A (zh) 一种基于知识图谱的设备故障诊断系统
CN113569879B (zh) 异常识别模型的训练方法、异常账号识别方法及相关装置
US20230080654A1 (en) Causality detection for outlier events in telemetry metric data
CN109978038B (zh) 一种集群异常判定方法及装置
CN117633680B (zh) 直流电能表的计量标准分析方法、装置、设备及存储介质
CN118651107B (zh) 基于物联网实现充电站的设备控制方法及系统
CN114064441B (zh) 一种日志异常检测方法、装置及设备
CN117559646A (zh) 调控一体化模式下防设备事件漏监视方法及系统
CN119205330A (zh) 金融市场数据智能监控方法、系统、设备及介质
CN118520026A (zh) 数据和领域知识驱动的工业过程多变量时间序列预测方法
CN118245923A (zh) 基于AIOps的智能告警分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination