CN117827928A

CN117827928A - 一种基于异常特征提取的数据库巡检方法

Info

Publication number: CN117827928A
Application number: CN202311698586.9A
Authority: CN
Inventors: 蔡宜; 魏兴国; 叶小朋; 李跃森
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-04-05

Abstract

本发明公开了一种基于异常特征提取的数据库巡检方法，具体涉及数据库巡检技术领域，包括巡检任务趋于周期化触发，巡检任务过程中将每个观测指标与归档数据以时间的维度进行纵向序列化，以获得序列化数据；对序列化数据进行提取特征，以获得数据库的异常特征模型；所述异常特征模型包括数据缺失、振幅明显、均值漂移、偏离阈值、偏离程度；构建各序列化数据的关联关系，求出各序列化数据的聚合值；以获取最准确的异常原因，本发明对序列化数据进行提取特征，并基于管理关系，提高了异常判别的精准度，从多个方面反映异常的原因，使巡检结论更加立体；运维效率得到提高，运维人员无需对数据库环境进行二次分析。

Description

一种基于异常特征提取的数据库巡检方法

技术领域

本发明涉及数据库巡检技术领域，更具体地说，本发明涉及一种基于异常特征提取的数据库巡检方法。

背景技术

随着信息化建设的高速发展，以数据库为载体的信息化业务架构愈发复杂，使得运维人员疲于应付巡检和故障检修，这一问题对于数据库的运维管理是一个巨大的挑战。

当前针对数据巡检的方案侧重点大多在于操作便捷性、巡检效率性、数据采集多样性上，但均忽略了对采集到的观测指标数据进行二次分析，忽略了异常情况下的隐藏细节，导致提供的巡检结果过于片面，无法真实反映异常场景下的根本原因。就目前而言，对于数据库巡检结论方向主要存在以下几个问题：

(1)当前的一些数据库巡检方案基本上都将待观测指标以孤立的视角去分析，然而数据库生产环境一般比较复杂，被观测指标之间一般都具有关联性，因此不能以孤立的视角去分析每个观测指标，需要将待观测指标之间建立关联关系，结合场景进行聚合分析；

(2)现阶段的数据库巡检方案均未考虑到待观测指标具有瞬时性这一特征，这导致分析结果不具有代表性，甚至产生偏离实际情况的问题，误导运维人员；

(3)针对采集上来的巡检信息未进行深入挖掘，数据库的相关指标信息一般具有周期性、突发性、连续性等特征，因此在巡检指标分析过程中应该充分结合历史巡检信息，并提取特征，这样才能反映出更全面、更深层次的问题。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于异常特征提取的数据库巡检方法，将侧重点放在对采集上来的观测数据进行二次分析，其中包括结合历史存档数据将观测指标序列化，并进行特征提取，异常特征建模，根据配置的指标关联规则进行多指标聚合分析，最终产出更为立体的巡检报告，指导运维人员排查问题。

为实现上述目的，本发明提供如下技术方案：一种基于异常特征提取的数据库巡检方法，包括：

巡检任务趋于周期化触发，巡检任务过程中将每个观测指标与归档数据以时间的维度进行纵向序列化，以获得序列化数据；

对序列化数据进行提取特征，以获得数据库的异常特征模型；所述异常特征模型包括数据缺失、振幅明显、均值漂移、偏离阈值与偏离程度；

构建各序列化数据的关联关系，求出各序列化数据的聚合值；以获取最准确的异常原因。

进一步地，所述巡检任务由用户配置并触发观测指标；所述观测指标为巡检过程中收集到的数据库性能和状态指标，所述状态指标包括CPU负载、主从延迟、IO、SQL线程状态、读写IP端口连通性。

进一步地，将每个观测指标与归档数据以时间的维度进行纵向序列化的步骤，包括：

将所有的采集的指标数据存档；

按时间的维度进行排列，组合成一条线性或离散的序列。

进一步地，对于数据缺失的提取特征的方法包括：

使用频数分布和直方图对序列化数据进行分析；

若直方图显示序列化数据分布呈现明显的间隔，且每个间隔内的序列化数据的数据点是离散的，则序列化数据为离散型；

若直方图显示序列化数据呈现平滑的曲线状分布，则序列化数据为连续型；

判断序列化数据是否为连续型还是离散型，通过卡方检验来检验序列化数据是否符合一个离散分布模型，所述卡方检验为泊松分布；

若序列化数据符合任何离散分布模型，则序列化数据为离散型；

若序列化数据不符合任何离散分布模型，则序列化数据为连续型。

进一步地，对振幅明显的提取特征的方法包括：

统计序列化数据的方差，期望值取序列化数据的历史期望值，所述序列化数据的方差使用方差公式计算；所述历史期望值为历史巡检过程中的观测指标的期望值；

若序列化数据为离散型，则期望值通过以下公式计算；

E(X)＝Σ(x*P(X＝x))；

其中，X表示观测指标变量，x表示观测指标的取值，P(X＝x)表示观测指标取值为x的概率；

若序列化数据为连续型，则期望值通过以下公式计算：

E(X)＝∫(x*f(x))dx；

其中，X表示观测指标变量，f(x)表示观测指标的概率密度函数；

偏离程度越大表示震荡幅度越大；

具体方差公式：

Var[X(ti)]＝E[(X(ti)-μ)^2]

其中，E[·]表示期望运算符，(X(ti)-μ)^2表示随机变量X(ti)与均值μ的差的平方。

进一步地，对均值漂移的提取特征的方法包括：

接入均值漂移算法的具体步骤：

初始化：选择一个观测指标观测结果值作为初始种子点；

确定搜索半径：定义一个搜索半径，用于确定局部邻域的大小；所述搜索半径由用户自己定义，或根据数据分布的特点进行动态调整；

对于每个种子点，通过计算在每个种子点搜索半径内的数据点的平均位置，即观测指标观测结果值的均值，得到一个新的位置；将种子点移动到新的位置，并更新搜索半径；重复当前步骤，直到均值漂移过程收敛；

对于收敛到同一个局部最大值的种子点并标记为同一个聚类；

对于存在重叠的聚类，根据合并规则进行合并，所述合并规则为将相邻的聚类合并为一个聚类；

输出聚类结果，得到最终的聚类结果，即每个数据点所属的聚类标签。

进一步地，对偏离阈值的提取特征的方法包括：

计算绝对差值的具体步骤：

若序列化数据为离散型：

{|X(t₂)-X(t₁)|，|X(t₃)-X(t₂)|，...，|X(t_n)-X(t_n-1)|}；

若序列为{X(t₁)，X(t₂)，...，X(t_n)}，其中X(t_i)表示在时刻t_i观测指标的观测值；

若序列化数据为连续型：

|X(t₂)-X(t₁)|＝∫|x₂-x₁|f(x₁，t₁)f(x₂，t₂)dx₁dx₂；

其中，其中x表示随机变量的取值，t表示时刻。

进一步地，偏离程度的判断具体步骤：

选定当前观测指标的值为中心点；

以该中心点向两边扩散，即遍历该观测指标其他时间段的观测指标值；

内部绘制出数据分布图，根据数据分布图的波峰波谷的差值距离来确定偏离程度；

序列化数据与阈值的绝对差值，绝对差值越大表示偏离阈值越严重。

进一步地，关联关系是指各个序列化数据之间存在关联，根据关联关系形成关联树。

进一步地，各序列化数据的关联关系的构建方法：

每次进行指标分析时，遍历对应的关联树，

提取关联树内的观测指标并进行聚合分析；

将异常标记为1，正常标记为0；

观测指标1为cpu出现异常，遍历其关联树：即为指标2，3，4；

此时关联树：指标2等于1，指标3等于1，指标4等于0；

结果为：0110，即等于6，即序列化数据出现异常原因为存在大量慢SQL且锁异常。

本发明的技术效果和优点：

1.结合历史巡检归档数据，将待观测指标以时间的维度进行序列化，获得该观测指标在一个或多个周期之内的波动变化；

2.将序列化后的采样数据进行特征提取，针对五种异常特征模型给出了各自的特征提取方法；

3.扩展每个观测指标的关联指标，建立关联关系，计算聚合值，获取最终根因，提供具体排查点；

4.提高了异常判别的精准度，从多个方面反映异常的原因，使巡检结论更加立体；运维效率得到提高，运维人员无需对数据库环境进行二次分析。

附图说明

图1为本发明实施例1的流程示意图；

图2为本发明实施例1的数据库异常特征模型示意图；

图3为本发明实施例1的关系树示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。采用软件形式来实现功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是，虽然在这里可能使用了术语“第一”“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元被称为第二单元，并且类似地第二单元被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

实施例1

请参阅图1所示，本实施例公开提供了一种基于异常特征提取的数据库巡检方法，包括如下步骤：

步骤1.巡检任务趋于周期化触发，巡检任务过程中将每个观测指标与归档数据以时间的维度进行纵向序列化，以获得序列化数据；

需要说明的是，所述巡检任务由用户配置并触发观测指标；所述观测指标为巡检过程中收集到的数据库性能和状态指标，所述状态指标包括但不限定于CPU负载、主从延迟、IO、SQL线程状态、读写IP端口连通性等；

将每个观测指标与归档数据以时间的维度进行纵向序列化的步骤，包括：

101.将所有的采集的指标数据存档；

102.按时间的维度进行排列，组合成一条线性或离散的序列；

本步骤以时间的维度作为序列化数据，记录每个观测指标和归档数据的时间戳，有助于分析变化趋势，检测数据库潜在的性能异常。

步骤2.对序列化数据进行提取特征，以获得数据库的异常特征模型；

如图2所示，需要说明的是，所述异常特征模型包括数据缺失、振幅明显、均值漂移、偏离阈值与偏离程度；

201.对于数据缺失的提取特征的方法包括：

使用频数分布和直方图对序列化数据进行分析；

需要说明的是，判断序列化数据是否为连续型还是离散型，通过卡方检验来检验序列化数据是否符合一个离散分布模型，优选的，所述卡方检验为泊松分布；

继续说明的是，序列化数据的数据点越离散，表示网络抖动越频繁；

202.对振幅明显的提取特征的方法包括：

若序列化数据为离散型，则期望值通过以下公式计算；

E(X)＝Σ(x*P(X＝x))；

若序列化数据为连续型，则期望值通过以下公式计算：

E(X)＝∫(x*f(x))dx；

偏离程度越大表示震荡幅度越大；

具体方差公式：

Var[X(ti)]＝E[(X(ti)-μ)^2]

其中E[·]表示期望运算符，(X(ti)-μ)^2表示随机变量X(ti)与均值μ的差的平方；

203.对均值漂移的提取特征的方法包括：

接入均值漂移算法的具体步骤：

步骤2031.初始化：选择一个观测指标观测结果值作为初始种子点；

步骤2032.确定搜索半径：定义一个搜索半径，用于确定局部邻域的大小；所述搜索半径由用户自己定义，或根据数据分布的特点进行动态调整；

步骤2033.对于每个种子点，通过计算在每个种子点搜索半径内的数据点的平均位置，即观测指标观测结果值的均值，得到一个新的位置；将种子点移动到新的位置，并更新搜索半径；重复步骤2033，直到均值漂移过程收敛；

需要说明的是的，收敛条件为种子点的移动距离小于某个阈值，或者迭代次数达到预设的值；

步骤2034.对于收敛到同一个局部最大值的种子点并标记为同一个聚类；

步骤2035.对于存在重叠的聚类，根据合并规则进行合并，所述合并规则为将相邻的聚类合并为一个聚类；

步骤2036.输出聚类结果，得到最终的聚类结果，即每个数据点所属的聚类标签。

需要说明的是，均值漂移算法通过迭代寻找概率密度函数的峰值来实现目标的跟踪；均值漂移算法跟踪该观测指标，在单位时间内的数值分布情况，从而计算出单位时间内是否出现均值漂移的情况；观测指标值结果值是指在巡检过程中当前观测指标的结果数据，例如主从延迟指标巡检结果为1分钟。

204.对偏离阈值的提取特征的方法包括：

序列化数据与阈值的绝对差值，绝对差值越大表示偏离阈值越严重；

计算绝对差值的具体步骤：

若序列化数据为离散型：

{|X(t₂)-X(t₁)|，|X(t₃)-X(t₂)|，...，|X(t_n)-X(t_n-1)|}；

例如，若序列为{X(t₁)，X(t₂)，...，X(t_n)}，其中X(t_i)表示在时刻ti观测指标的观测值；

若序列化数据为连续型：

|X(t₂)-X(t₁)|＝∫|x₂-x₁|f(x₁，t₁)f(x₂，t₂)dx₁dx₂；

其中，其中x表示随机变量的取值，t表示时刻；

205.偏离程度的判断具体步骤：

2051.选定当前观测指标的值为中心点；

2052.以该中心点向两边扩散，即遍历该观测指标其他时间段的观测指标值；

2053.然后内部绘制出数据分布图，根据数据分布图的波峰波谷的差值距离来确定偏离程度。

需要说明的是，以当前观测指标的值为中心点，将序列化数据向两侧扩散取特征值，偏离程度越大波峰越明显；计算偏离程度，波峰越明显，偏离程度越大；本步骤以序列化数据为输入，结合序列化数据的归档数据并序列化，通过遍历五种特征提取方式来获得五种异常特征模型。

步骤3.构建各序列化数据的关联关系，求出各序列化数据的聚合值；以获取最准确的异常原因；

如图3所示，关联关系是指各个序列化数据之间存在关联，根据关联关系形成关联树；观测指标1的观测结果与观测指标2、3、4均存在关联，观测指标1，其关联树上的数值即为指标2，3，4；

各序列化数据的关联关系的构建方法：

每次进行指标分析时，遍历对应的关联树，

提取关联树内的观测指标并进行聚合分析；

将异常标记为1，正常标记为0；

观测指标1为cpu出现异常，遍历其关联树：即为指标2，3，4；

此时关联树：指标2等于1，指标3等于1，指标4等于0；

结果为：0110，即等于6，即序列化数据出现异常原因为存在大量慢SQL且锁异常，从而导致cpu性能异常。

上述实施例，全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机为通用计算机、专用计算机、计算机网络，或者其他可编程装置。所述计算机指令存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令从一个网站站点、计算机、服务器或数据中心通过有线网络方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)，或者半导体介质。半导体介质是固态硬盘。

本领域普通技术人员意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件，或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种，实际实现时有另外的划分方式，例如多个单元或组件结合或者集成到另一个系统，或一些特征忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接是通过一些接口，装置或单元的间接耦合或通信连接，是电性，机械或其他的形式。

所述作为分离部件说明的单元是或者也不是物理上分开的，作为单元显示的部件是或者也不是物理单元，即位于一个地方，或者也分布到多个网络单元上。根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元集成在一个处理单元中，也是各个单元单独物理存在，也两个或两个以上单元集成在一个单元中。

所述功能若以软件功能单元的形式实现并作为独立的产品销售或使用时，存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术作出贡献的部分或者该技术方案的部分以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(randomaccessmemory，RAM)、磁碟或者光盘等各种存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异常特征提取的数据库巡检方法，其特征在于，包括：

2.根据权利要求1所述的一种基于异常特征提取的数据库巡检方法，其特征在于，所述巡检任务由用户配置并触发观测指标；所述观测指标为巡检过程中收集到的数据库性能和状态指标，所述状态指标包括CPU负载、主从延迟、IO、SQL线程状态、读写IP端口连通性。

3.根据权利要求2所述的一种基于异常特征提取的数据库巡检方法，其特征在于，将每个观测指标与归档数据以时间的维度进行纵向序列化的步骤，包括：

将所有的采集的指标数据存档；

按时间的维度进行排列，组合成一条线性或离散的序列。

4.根据权利要求3所述的一种基于异常特征提取的数据库巡检方法，其特征在于，对于数据缺失的提取特征的方法包括：

使用频数分布和直方图对序列化数据进行分析；

5.根据权利要求4所述的一种基于异常特征提取的数据库巡检方法，其特征在于，对振幅明显的提取特征的方法包括：

若序列化数据为离散型，则期望值通过以下公式计算；

E(X)＝Σ(x*P(X＝x))；

若序列化数据为连续型，则期望值通过以下公式计算：

E(X)＝∫(x*f(x))dx；

偏离程度越大表示震荡幅度越大；

具体方差公式：

Var[X(ti)]＝E[(X(ti)-μ)^2]

6.根据权利要求5所述的一种基于异常特征提取的数据库巡检方法，其特征在于，对均值漂移的提取特征的方法包括：

接入均值漂移算法的具体步骤：

初始化：选择一个观测指标观测结果值作为初始种子点；

确定搜索半径：定义一个搜索半径，用于确定局部邻域的大小；

7.根据权利要求6所述的一种基于异常特征提取的数据库巡检方法，其特征在于，对偏离阈值的提取特征的方法包括：

若序列化数据为离散型：

{|X(t₂)-X(t₁)|，|X(t₃)-X(t₂)|，...，|X(tn)-X(tn-₁)|}；

若序列为{X(t₁)，X(t₂)，...，X(tn)}，其中X(ti)表示在时刻ti观测指标的观测值；

若序列化数据为连续型：

|X(t2)-X(t1)|＝∫|x2-x1|f(x1，t1)f(x2，t2)dx1dx2；

其中，其中x表示随机变量的取值，t表示时刻。

8.根据权利要求7所述的一种基于异常特征提取的数据库巡检方法，其特征在于，偏离程度的判断具体步骤：

选定当前观测指标的值为中心点；

序列化数据与阈值的绝对差值越大表示偏离阈值越严重。

9.根据权利要求8所述的一种基于异常特征提取的数据库巡检方法，其特征在于，关联关系是指各个序列化数据之间存在关联，根据关联关系形成关联树。

10.根据权利要求9所述的一种基于异常特征提取的数据库巡检方法，其特征在于，各序列化数据的关联关系的构建方法：

每次进行指标分析时，遍历对应的关联树，

提取关联树内的观测指标并进行聚合分析；

将异常标记为1，正常标记为0；

观测指标1为cpu出现异常，遍历其关联树：即为指标2，3，4；

此时关联树：指标2等于1，指标3等于1，指标4等于0；