Nothing Special   »   [go: up one dir, main page]

CN113568822B - 业务资源监控方法、装置、计算设备及存储介质 - Google Patents

业务资源监控方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN113568822B
CN113568822B CN202110887054.4A CN202110887054A CN113568822B CN 113568822 B CN113568822 B CN 113568822B CN 202110887054 A CN202110887054 A CN 202110887054A CN 113568822 B CN113568822 B CN 113568822B
Authority
CN
China
Prior art keywords
monitoring
service resource
monitoring period
period
occupation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110887054.4A
Other languages
English (en)
Other versions
CN113568822A (zh
Inventor
梁冰
宋成伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Antiy Technology Group Co Ltd
Original Assignee
Antiy Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Antiy Technology Group Co Ltd filed Critical Antiy Technology Group Co Ltd
Priority to CN202110887054.4A priority Critical patent/CN113568822B/zh
Publication of CN113568822A publication Critical patent/CN113568822A/zh
Application granted granted Critical
Publication of CN113568822B publication Critical patent/CN113568822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种业务资源监控方法、装置、计算设备及存储介质,其中方法包括:利用预设的更新逻辑对监控阈值进行更新;其中,所述监控阈值的变化与业务资源的变化呈正相关;在每一个监控周期内,利用更新后的所述监控阈值对业务资源进行监控。本方案,能够降低错误告警概率。

Description

业务资源监控方法、装置、计算设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,特别涉及一种业务资源监控方法、装置、计算设备及存储介质。
背景技术
随着互联网技术的发展,电商业务也在逐渐增多。为保证业务的正常运行,需要监控业务对系统的资源占用情况进行监控。比如,业务对系统的CPU占用信息、内存占用信息等。
目前,现有的业务资源监控方式中,通过针对资源占用信息设置一个固定阈值,当监控到业务对系统的当前资源占用信息超过该阈值时,则进行告警。
发明内容
基于现有技术中对业务资源进行监控过程中错误告警概率较高的问题,本发明实施例提供了一种业务资源监控方法、装置、计算设备及存储介质,能够降低错误告警概率。
第一方面,本发明实施例提供了一种业务资源监控方法,包括:
利用预设的更新逻辑对监控阈值进行更新;其中,所述监控阈值的变化与业务资源的变化呈正相关;
在每一个监控周期内,利用更新后的所述监控阈值对业务资源进行监控。
优选地,所述利用预设的更新逻辑对监控阈值进行更新,包括:
获取当前监控周期的业务资源占用信息;
获取至少一个历史监控周期的业务资源占用信息;
根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,预测下一个监控周期内的业务资源占用信息;
根据预测的下一个监控周期内的业务资源占用信息,对所述监控阈值进行更新。
优选地,所述业务资源占用信息包括:CPU占用率、内存占用量、磁盘IO读速率和磁盘IO写速率中的至少一个;
所述获取当前监控周期的业务资源占用信息,包括:
针对每一个目标业务资源,根据预设的采集周期采集系统文件中目标业务资源对应的字段信息;
当对所述当前监控周期采集完成后,利用各采集周期采集到的各字段信息,计算所述目标业务资源在当前监控周期的业务资源占用信息。
优选地,所述根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,预测下一个监控周期内的业务资源占用信息,包括:
根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,计算每个监控周期的平均增长率;
根据所述当前监控周期的业务资源占用信息和所述平均增长率,计算下一个监控周期内的业务资源占用信息。
优选地,所述根据预测的下一个监控周期内的业务资源占用信息,对所述监控阈值进行更新,包括:
基于预设的监控精度以及该预测的下一个监控周期内的业务资源占用信息确定阈值范围,将所述阈值范围确定为更新后的所述监控阈值。
优选地,在所述利用预设的更新逻辑对监控阈值进行更新之前,还包括:
基于业务的运行特征,将监控周期划分为至少两个监控区间;所述监控阈值包括至少两个;且该至少两个监控阈值与所述至少两个监控区间一一对应。
优选地,所述利用更新后的所述监控阈值对业务资源进行监控,包括:
获取当前的业务资源占用信息;
利用更新后的所述监控阈值判定该当前的业务资源占用信息是否异常;若异常,则进行告警。
第二方面,本发明实施例还提供了一种业务资源监控装置,包括:
阈值更新单元,用于利用预设的更新逻辑对监控阈值进行更新;其中,所述监控阈值的变化与业务资源的变化呈正相关;
业务资源监控单元,用于在每一个监控周期内,利用更新后的所述监控阈值对业务资源进行监控。
第三方面,本发明实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
本发明实施例提供了一种业务资源监控方法、装置、计算设备及存储介质,由于监控阈值是不断更新的,因此,在每一个监控周期对业务资源进行监控时,使用的监控阈值不完全相同,且监控阈值的变化与业务资源的变化呈正相关,可以保证在监控过程中,对业务资源的监控更加准确,从而降低错误告警概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种业务资源监控方法流程图;
图2是本发明一实施例提供的一种监控阈值的更新方法流程图;
图3是本发明一实施例提供的一种计算设备的硬件架构图;
图4是本发明一实施例提供的一种业务资源监控装置结构图;
图5是本发明一实施例提供的另一种业务资源监控装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如前所述,通过针对资源占用信息设置一个固定阈值,当监控到业务对系统的当前资源占用信息超过该阈值时,则进行告警。但是,在实际情况中,业务运行所需的资源是不断变化的。比如电商业务,随着用户不断增加、业务种类不断扩充,其业务资源占用可能会逐渐增高,若利用固定阈值对当业务资源占用进行监控,可能会造成错误告警。基于该问题,考虑到业务运行所需的资源是不断变化的,那么可以考虑使用变化的监控阈值对业务资源进行监控,使得监控阈值的变化与业务资源的变化呈正相关,从而提高监控准确性,降低错误告警概率。
下面描述以上构思的具体实现方式。
请参考图1,本发明实施例提供了一种业务资源监控方法,该方法包括:
步骤100,利用预设的更新逻辑对监控阈值进行更新;其中,该监控阈值的变化与业务资源的变化呈正相关。
步骤102,在每一个监控周期内,利用更新后的该监控阈值对业务资源进行监控。
本发明实施例中,由于监控阈值是不断更新的,因此,在每一个监控周期对业务资源进行监控时,使用的监控阈值不完全相同,且监控阈值的变化与业务资源的变化呈正相关,可以保证在监控过程中,对业务资源的监控更加准确,从而降低错误告警概率。
下面描述图1所示的各个步骤的执行方式。
首先,针对步骤100,利用预设的更新逻辑对监控阈值进行更新;其中,所述监控阈值的变化与业务资源的变化呈正相关。
在本发明一个实施例中,对监控阈值的更新可以是每一个监控周期均进行一次更新。其中,该监控周期可以是一天、一个星期、一个月等。在本实施例中可以将一天作为一个监控周期为例进行说明。
在本发明一个实施例中,为了实现对业务资源的监控,该监控阈值可以是一个值,也可以是一个阈值范围。在监控阈值为一个值时,可以根据业务资源与监控阈值的大小来确定该业务资源是否正常。在监控阈值为一个阈值范围时,可以根据业务资源是否位于该阈值范围内判定该业务资源是否正常。
考虑到业务的运行特征,在一个监控周期内其业务资源占用情况也不相同。比如电商业务,在一天内分为繁忙状态和空闲状态,因此,在本发明一个实施例中,在本步骤100之前,可以包括:基于业务的运行特征,将监控周期划分为至少两个监控区间;所述监控阈值包括至少两个;且该至少两个监控阈值与所述至少两个监控区间一一对应。
其中,业务的运行特征可以包括但不限于:用户访问量、服务压力。
举例来说,按照用户访问量的多少,可以将监控周期划分为三个监控区间:0-8点,8-12点,12-24点。由于不同监控区间的业务资源占用情况不同,因此,每一个监控区间对应一个监控阈值,在对当前监控周期的一个监控区间进行业务资源监控时,需要利用该监控区间对应的监控阈值进行业务资源监控。通过将监控周期的监控粒度进行细化,从而可以进一步提高监控准确性,降低错误告警概率。
在本发明一个实施例中,请参考图2,至少可以通过如下一种方式实现本步骤100:
步骤200,获取当前监控周期的业务资源占用信息。
在本发明一个实施例中,该业务资源占用信息可以包括但不限于:CPU占用率、内存占用量、磁盘IO读速率和磁盘IO写速率中的至少一个。
在本发明一个实施例中,监控周期可以对应如下两种情况:
情况一:监控周期未划分监控区间。
情况二:监控周期被划分为若干个监控区间。
下面针对上述两种情况分别对业务资源占用信息的获取方式进行说明。
在情况一中,监控周期未划分监控区间,那么需要对整个监控周期内的业务资源占用信息进行获取。
本步骤200可以包括:针对每一个目标业务资源,根据预设的采集周期采集系统文件中目标业务资源对应的字段信息;当对所述当前监控周期采集完成后,利用各采集周期采集到的各字段信息,计算所述目标业务资源在当前监控周期的业务资源占用信息。
当操作系统为Linux系统时,业务资源可以通过读取Linux系统中的系统文件中对应的字段信息来获取。通过读取系统文件的方式获取业务资源占用信息,不仅便于获取,且获取的业务资源占用信息更加准确。
下面针对上述四种业务资源中的每一个目标业务资源分别进行说明。
其一,当目标业务资源为CPU占用率时,具体地:
为了提高获取的业务资源占用信息的准确率,可以预先设定采集周期,比如,3秒,即每隔3秒采集一次。
在获取业务资源占用信息时,需要获取该业务对应的业务进程的编号;比如,该业务由两条业务进程实现,编号分别为pid1和pid2。针对每一条业务进程,分别获取Linux系统中的“/proc/+pid+/stat”文件,读取该文件中的utime字段(该进程在用户态运行的时间,单位为jiffies)、stime字段(该进程在核心态运行的时间,单位为jiffies)、cutime字段(累计的该任务的所有的waited-for进程曾经在用户态运行的时间,单位为jiffies)和cstime字段(累计的该任务的所有的waited-for进程曾经在核心态运行的时间,单位为jiffies)。将该四个字段的数值之和确定为当前采集周期该业务进程的CPU使用量,记为a1。同时,读取/proc/stat文件中的user字段(用户态的CPU时间)、nice字段(低优先级程序所占用的用户态的cpu时间)、system字段(系统态的CPU时间)和idle字段(CPU空闲的时间),将该四个字段的数值之和确定为当前系统CPU的总体使用量,记为A1。间隔一个采集周期之后,继续使用相同方式获取下一个采集周期的CPU使用量和CPU的总体使用量,记为a2、A2。此时可以利用如下公式(1)计算出一个采集周期内业务进程的CPU占用率:
P1=(a2-a1)/(A2-A1) (1)
在当前监控周期内,可以针对某个业务进程的CPU占用率统计n次,那么可以利用如下公式(2)计算该当前监控周期内该业务进程的CPU占用率P:
P=(P1+P2+P3+...+Pn)/n (2)
将该业务对应的每一条业务进程的CPU占用率之和,确定为该业务在当前监控周期内的CPU占用率。
其二,当目标业务资源为内存占用量时,具体地:
同样的,假定采集周期为3秒,业务对应的业务进程的编号分别为pid1和pid2。针对每一条业务进程,分别获取Linux系统中的“/proc/+pid+/status”文件,读取该文件中的vmRSS字段,将该vmRSS字段值确定为该业务进程的内存占用量,记为M1。每隔3秒采集一次,得到n个内存占用量,利用如下公式计算当前监控周期内该业务进程的内存占用量:
M=(M1+M2+M3+...+Mn)/n (3)
将该业务对应的每一条业务进程的内存占用量之和,确定为该业务在当前监控周期内的内存占用量。
其三,当目标业务资源为磁盘IO读速率或磁盘IO写速率时,具体地:
同样的,假定采集周期为3秒,业务对应的业务进程的编号分别为pid1和pid2。针对每一条业务进程,分别获取Linux系统中的“/proc/+pid+/io”文件,读取该文件中的read_bytes字段、write_bytes字段,将read_bytes字段的数值确定为该业务进程已读总字节、已写总字节,分别记为R1、W1。间隔3秒之后,继续使用相同方式获取下一个采集周期的已读总字节、已写总字节,记为为R2、W2。此时可以利用如下公式计算出一个采集周期内业务进程的平均磁盘IO读速率R01、平均磁盘IO写速率W01
R01=(R2-R1)/T (4)
W01=(W2-W1)/T (5)
其中T用于表征采集周期。
在当前监控周期内,可以针对某个业务进程的平均磁盘IO读速率、平均磁盘IO写速率统计n次,利用如下公式计算当前监控周期内该业务进程的磁盘IO读速率R、磁盘IO写速率W:
R=(R01+R02+R03+...+R0n)/n (6)
W=(W01+W02+W03+...+W0n)/n (7)
将该业务对应的每一条业务进程的磁盘IO读速率R之和,确定为该业务在当前监控周期内的磁盘IO读速率,将该业务对应的每一条业务进程的磁盘IO写速率W之和,确定为该业务在当前监控周期内的磁盘IO写速率。
以上完成了情况一中对当前监控周期各业务资源占用信息的获取。
在情况二中,监控周期被划分成了若干个监控区间,那么针对该当前监控周期内每一个监控区间,均需要采集对应的业务资源占用信息。
在本发明一个实施例中,以针对某一个监控区间为例,比如,8-12点,那么本步骤200可以包括:针对每一个目标业务资源,根据预设的采集周期采集系统文件中目标业务资源对应的字段信息;当对所述当前监控周期的当前监控区间采集完成后,利用各采集周期采集到的各字段信息,计算所述目标业务资源在当前监控区间的业务资源占用信息。在当前监控周期采集完成后,可以得到每一个监控区间内目标业务资源的业务资源占用信息。
其中,计算目标业务资源在当前监控区间的业务资源占用信息,与情况一种计算目标业务资源在当前监控周期的业务资源占用信息的方式相同,在此不在赘述。
需要说明的是,针对上述四种业务资源的业务资源占用信息的采集数据和计算数据,均可以记录在日志中,以便于在告警业务资源占用异常时,能够根据日志对各业务资源的占用情况进行溯源,使得运维人员能够快速对业务资源占用异常的根源进行定位。
步骤202,获取至少一个历史监控周期的业务资源占用信息。
在本发明一个实施例中,该至少一个历史监控周期中至少存在一个历史监控周期与当前监控周期之间间隔至少一个监控周期。以该至少一个历史监控周期为一个监控周期为例,针对业务资源进行监控,得到各监控周期的业务资源占用信息,该各监控周期可以为第1天、第2天、第3天、……、第n-1天、第n天,其中,第n天为当前监控周期,n为不小于3的整数,若获取一个历史监控周期,那么该历史监控周期可以为第i天,i不大于(n-2)。
在本发明一个实施例中,该至少一个历史监控周期为与当前监控周期临近的监控周期,且该获取的该至少一个历史监控周期的数量等于设定数量。若业务资源处于递增或递减的情况,那么获取的历史监控周期的数量越多,对下一个监控周期的业务资源占用信息的预测准确率越高;若业务资源处于增加和减少的不断变化的情况,那么为了提高预测准确率,获取的历史监控周期与当前监控监控周期越近,且获取的该至少一个历史监控周期的数量等于设定数量时,对当前监控周期的下一个监控周期的业务资源占用信息的预测准确率越高。比如,该设定数量为10,那么获取的历史监控周期可以为第n-1天、第n-2天、……、第n-10天。
步骤204,根据该当前监控周期的业务资源占用信息和该至少一个历史监控周期的业务资源占用信息,预测下一个监控周期内的业务资源占用信息。
在预测下一个监控周期内的业务资源占用信息时,具体的,本步骤204至少可以通过如下一种方式预测:
首先,根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,计算每个监控周期的平均增长率。
举例来说,该至少一个历史监控周期包括第1天、第2天、第3天、……、第n-1天,对应的业务资源占用信息分别为d1、d2、d3、……、dn-1,当前监控周期的业务资源占用信息为dn。该平均增长率可以利用如下公式计算δ:
其中,dj为第j天对应的业务资源占用信息,j为不大于n-2的正整数,n为大于等于3的整数。
为进一步提高平均增长率的计算准确性,还可以通过如下公式计算平均增长率:
其中,i为大于等于1的整数,n为大于等于3的整数。
然后,根据所述当前监控周期的业务资源占用信息和所述平均增长率,计算下一个监控周期内的业务资源占用信息。
在本发明一个实施例中,可以利用如下公式计算下一个监控周期内的业务资源占用信息dn+1
dn+1=dn·(1+δ) (10)
步骤206,根据预测的下一个监控周期内的业务资源占用信息,对该监控阈值进行更新。
若监控阈值为一个值,那么可以将该预测的下一个监控周期内的业务资源占用信息dn+1确定为该下一个监控周期的监控阈值。
若监控阈值为一个阈值范围,那么可以利用预设的监控精度以及该预测的业务资源占用信息,确定该阈值范围。具体地,本步骤206可以包括:基于预设的监控精度以及该预测的下一个监控周期内的业务资源占用信息确定阈值范围,将所述阈值范围确定为更新后的所述监控阈值。比如,监控精度为10%,那么该阈值范围可以为[(dn+1-10%dn+1),(dn+1+10%dn+1)]。
本实施例中,通过设置监控精度,对预测的下一个监控周期的业务资源占用信息进行调整,得到一个阈值范围,以利用该阈值范围对业务资源进行监控,由于考虑到了实际运行过程中业务资源占用信息的浮动,因此可以使得监控过程中错误告警概率的进一步降低。
在本发明一个实施例中,若步骤200中监控周期对应上述情况二,那么需要针对每一个当前监控区间,预测下一个监控周期内该当前监控区间的业务资源占用信息。此时,可以得到下一个监控周期内各监控区间分别对应有更新后的监控阈值,不同监控区间对应的监控阈值不完全相同。
然后,针对步骤102,在每一个监控周期内,利用更新后的该监控阈值对业务资源进行监控。
举例来说,在对第n+1天的业务资源进行监控时,在第n+1天内,各监控区间分别对应的监控阈值为:监控区间0-8点之间对应监控阈值1,监控区间8-12点之间对应监控阈值2,监控区间12-24点之间对应监控阈值3;那么在第n+1天内,在监控区间0-8点之间,使用监控阈值1对业务资源进行监控;在在监控区间8-12点之间,使用监控阈值2对业务资源进行监控;在监控区间12-24点之间,使用监控阈值3对业务资源进行监控。
在本发明一个实施例中,本步骤102具体可以包括:获取当前的业务资源占用信息;利用更新后的所述监控阈值判定该当前的业务资源占用信息是否异常;若异常,则进行告警。
如图3、图4所示,本发明实施例提供了一种业务资源监控装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的一种业务资源监控装置所在计算设备的一种硬件架构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的计算设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在计算设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种业务资源监控装置,包括:
阈值更新单元401,用于利用预设的更新逻辑对监控阈值进行更新;其中,所述监控阈值的变化与业务资源的变化呈正相关;
业务资源监控单元402,用于在每一个监控周期内,利用更新后的所述监控阈值对业务资源进行监控。
在本发明一个实施例中,所述阈值更新单元401,具体用于获取当前监控周期的业务资源占用信息;获取至少一个历史监控周期的业务资源占用信息;根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,预测下一个监控周期内的业务资源占用信息;根据预测的下一个监控周期内的业务资源占用信息,对所述监控阈值进行更新。
在本发明一个实施例中,所述业务资源占用信息包括:CPU占用率、内存占用量、磁盘IO读速率和磁盘IO写速率中的至少一个;
所述阈值更新单元401,在获取当前监控周期的业务资源占用信息时,具体用于针对每一个目标业务资源,根据预设的采集周期采集系统文件中目标业务资源对应的字段信息;当对所述当前监控周期采集完成后,利用各采集周期采集到的各字段信息,计算所述目标业务资源在当前监控周期的业务资源占用信息。
在本发明一个实施例中,所述阈值更新单元401,在所述根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,预测下一个监控周期内的业务资源占用信息时,具体用于根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,计算每个监控周期的平均增长率;根据所述当前监控周期的业务资源占用信息和所述平均增长率,计算下一个监控周期内的业务资源占用信息。
在本发明一个实施例中,所述阈值更新单元401,在所述根据预测的下一个监控周期内的业务资源占用信息,对所述监控阈值进行更新时,具体用于基于预设的监控精度以及该预测的下一个监控周期内的业务资源占用信息确定阈值范围,将所述阈值范围确定为更新后的所述监控阈值。
在本发明一个实施例中,请参考图5,该业务资源监控装置还可以包括:
区间划分单元403,用于基于业务的运行特征,将监控周期划分为至少两个监控区间;所述监控阈值包括至少两个;且该至少两个监控阈值与所述至少两个监控区间一一对应。
在本发明一个实施例中,所述业务资源监控单元402,具体用于获取当前的业务资源占用信息;利用更新后的所述监控阈值判定该当前的业务资源占用信息是否异常;若异常,则进行告警。
可以理解的是,本发明实施例示意的结构并不构成对一种业务资源监控装置的具体限定。在本发明的另一些实施例中,一种业务资源监控装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任一实施例中的一种业务资源监控方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理器执行本发明任一实施例中的一种业务资源监控方法。
具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
本发明各实施例至少具有如下有益效果:
1、在本发明一个实施例中,由于监控阈值是不断更新的,因此,在每一个监控周期对业务资源进行监控时,使用的监控阈值不完全相同,且监控阈值的变化与业务资源的变化呈正相关,可以保证在监控过程中,对业务资源的监控更加准确,从而降低错误告警概率。
2、在本发明一个实施例中,通过利用因为的运行特征将一个监控周期划分为若干个监控区间,使得不同监控区间使用不同的监控阈值进行业务资源监控,从而使得监控粒度更加的细化,可以进一步提高监控准确性,降低错误告警概率。
3、在本发明一个实施例中,当操作系统为Linux系统时,业务资源可以通过读取Linux系统中的系统文件中对应的字段信息来获取。通过读取系统文件的方式获取业务资源占用信息,不仅便于获取,且获取的业务资源占用信息更加准确。
4、在本发明一个实施例中,在对业务资源进行监控过程中,针对业务资源占用信息的采集数据和计算数据,均可以记录在日志中,以便于在告警业务资源占用异常时,能够根据日志对各业务资源的占用情况进行溯源,使得运维人员能够快速对业务资源占用异常的根源进行定位。
5、在本发明一个实施例中,通过计算每个监控周期的平均增长率,利用平均增长率与当前监控周期内的业务资源占用信息,对下一个监控周期进行预测,可以保证预测准确率更高。
6、在本发明一个实施例中,通过设置监控精度,对预测的下一个监控周期的业务资源占用信息进行调整,得到一个阈值范围,以利用该阈值范围对业务资源进行监控,由于考虑到了实际运行过程中业务资源占用信息的浮动,因此可以使得监控过程中错误告警概率的进一步降低。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种业务资源监控方法,其特征在于,包括:
获取当前监控周期的业务资源占用信息;获取至少一个历史监控周期的业务资源占用信息;根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,计算每个监控周期的平均增长率;根据所述当前监控周期的业务资源占用信息和所述平均增长率,计算下一个监控周期内的业务资源占用信息;基于预设的监控精度以及该预测的下一个监控周期内的业务资源占用信息确定阈值范围,将所述阈值范围确定为更新后的监控阈值;其中,所述监控阈值的变化与业务资源的变化呈正相关;
在每一个监控周期内,利用更新后的所述监控阈值对业务资源进行监控。
2.根据权利要求1所述的方法,其特征在于,所述业务资源占用信息包括:CPU占用率、内存占用量、磁盘IO读速率和磁盘IO写速率中的至少一个;
所述获取当前监控周期的业务资源占用信息,包括:
针对每一个目标业务资源,根据预设的采集周期采集系统文件中目标业务资源对应的字段信息;
当对所述当前监控周期采集完成后,利用各采集周期采集到的各字段信息,计算所述目标业务资源在当前监控周期的业务资源占用信息。
3.根据权利要求1-2中任一所述的方法,其特征在于,在所述利用预设的更新逻辑对监控阈值进行更新之前,还包括:
基于业务的运行特征,将监控周期划分为至少两个监控区间;所述监控阈值包括至少两个;且该至少两个监控阈值与所述至少两个监控区间一一对应。
4.根据权利要求1-2中任一所述的方法,其特征在于,所述利用更新后的所述监控阈值对业务资源进行监控,包括:
获取当前的业务资源占用信息;
利用更新后的所述监控阈值判定该当前的业务资源占用信息是否异常;若异常,则进行告警。
5.一种业务资源监控装置,其特征在于,包括:
阈值更新单元,用于获取当前监控周期的业务资源占用信息;获取至少一个历史监控周期的业务资源占用信息;根据所述当前监控周期的业务资源占用信息和所述至少一个历史监控周期的业务资源占用信息,计算每个监控周期的平均增长率;根据所述当前监控周期的业务资源占用信息和所述平均增长率,计算下一个监控周期内的业务资源占用信息;基于预设的监控精度以及该预测的下一个监控周期内的业务资源占用信息确定阈值范围,将所述阈值范围确定为更新后的监控阈值;其中,所述监控阈值的变化与业务资源的变化呈正相关;
业务资源监控单元,用于在每一个监控周期内,利用更新后的所述监控阈值对业务资源进行监控。
6.根据权利要求5所述的装置,其特征在于,所述业务资源占用信息包括:CPU占用率、内存占用量、磁盘IO读速率和磁盘IO写速率中的至少一个;
所述阈值更新单元,在获取当前监控周期的业务资源占用信息时,具体用于针对每一个目标业务资源,根据预设的采集周期采集系统文件中目标业务资源对应的字段信息;当对所述当前监控周期采集完成后,利用各采集周期采集到的各字段信息,计算所述目标业务资源在当前监控周期的业务资源占用信息。
7.根据权利要求5-6中任一项所述的装置,其特征在于,还包括:
区间划分单元,用于基于业务的运行特征,将监控周期划分为至少两个监控区间;所述监控阈值包括至少两个;且该至少两个监控阈值与所述至少两个监控区间一一对应。
8.根据权利要求5-6中任一项所述的装置,其特征在于,所述业务资源监控单元,具体用于获取当前的业务资源占用信息;利用更新后的所述监控阈值判定该当前的业务资源占用信息是否异常;若异常,则进行告警。
9.一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-4中任一项所述的方法。
CN202110887054.4A 2021-08-03 2021-08-03 业务资源监控方法、装置、计算设备及存储介质 Active CN113568822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110887054.4A CN113568822B (zh) 2021-08-03 2021-08-03 业务资源监控方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110887054.4A CN113568822B (zh) 2021-08-03 2021-08-03 业务资源监控方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN113568822A CN113568822A (zh) 2021-10-29
CN113568822B true CN113568822B (zh) 2023-09-05

Family

ID=78170098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110887054.4A Active CN113568822B (zh) 2021-08-03 2021-08-03 业务资源监控方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN113568822B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820630A (zh) * 2015-05-22 2015-08-05 上海新炬网络信息技术有限公司 基于业务变化量的系统资源监控装置
CN106713029A (zh) * 2016-12-20 2017-05-24 中国银联股份有限公司 一种确定资源监控阈值的方法及装置
US10146612B1 (en) * 2015-06-08 2018-12-04 Sprint Communications Company L.P. Historical disk error monitoring
CN109800131A (zh) * 2018-12-18 2019-05-24 平安健康保险股份有限公司 Linux服务器的监控处理方法、装置、计算机设备和存储介质
CN110704284A (zh) * 2019-09-27 2020-01-17 高新兴科技集团股份有限公司 视频监控场景下的告警处理方法、系统及电子设备
CN110971444A (zh) * 2019-10-09 2020-04-07 中移(杭州)信息技术有限公司 告警管理方法、装置、服务器及存储介质
CN112346924A (zh) * 2020-09-21 2021-02-09 西安交大捷普网络科技有限公司 一种服务器监控方法与系统
CN112699007A (zh) * 2021-01-04 2021-04-23 网宿科技股份有限公司 监控机器性能的方法、系统、网络设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400682B2 (en) * 2012-12-06 2016-07-26 Hewlett Packard Enterprise Development Lp Ranking and scheduling of monitoring tasks
JP6891611B2 (ja) * 2017-04-17 2021-06-18 富士通株式会社 管理装置、情報処理システムの制御方法、および管理装置の管理プログラム
US10514951B2 (en) * 2017-05-04 2019-12-24 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a stateless, deterministic scheduler and work discovery system with interruption recovery

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820630A (zh) * 2015-05-22 2015-08-05 上海新炬网络信息技术有限公司 基于业务变化量的系统资源监控装置
US10146612B1 (en) * 2015-06-08 2018-12-04 Sprint Communications Company L.P. Historical disk error monitoring
CN106713029A (zh) * 2016-12-20 2017-05-24 中国银联股份有限公司 一种确定资源监控阈值的方法及装置
CN109800131A (zh) * 2018-12-18 2019-05-24 平安健康保险股份有限公司 Linux服务器的监控处理方法、装置、计算机设备和存储介质
CN110704284A (zh) * 2019-09-27 2020-01-17 高新兴科技集团股份有限公司 视频监控场景下的告警处理方法、系统及电子设备
CN110971444A (zh) * 2019-10-09 2020-04-07 中移(杭州)信息技术有限公司 告警管理方法、装置、服务器及存储介质
CN112346924A (zh) * 2020-09-21 2021-02-09 西安交大捷普网络科技有限公司 一种服务器监控方法与系统
CN112699007A (zh) * 2021-01-04 2021-04-23 网宿科技股份有限公司 监控机器性能的方法、系统、网络设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器学习赋能的软件自适应性综述;张明悦;金芝;赵海燕;罗懿行;;软件学报(08);126-153 *

Also Published As

Publication number Publication date
CN113568822A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN110058977B (zh) 基于流式处理的监控指标异常检测方法、装置及设备
TWI738721B (zh) 任務調度方法和裝置
US20130158950A1 (en) Application performance analysis that is adaptive to business activity patterns
CN106202280B (zh) 一种信息处理方法及服务器
US20180039895A1 (en) Data predicting method and apparatus
US9292336B1 (en) Systems and methods providing optimization data
CN113590429B (zh) 一种服务器故障诊断方法、装置及电子设备
CN110287229B (zh) 一种数据统计处理方法及装置
CN112988550B (zh) 服务器故障预测方法、装置和计算机可读介质
CN109388550B (zh) 一种缓存命中率确定方法、装置、设备及可读存储介质
CN111045881A (zh) 一种慢盘检测方法及系统
CN108243032B (zh) 一种服务等级信息的获取方法、装置及设备
CN111104342A (zh) 用于存储的方法、电子设备和计算机程序产品
CN113672600B (zh) 一种异常检测方法及系统
CN113986595A (zh) 一种异常定位方法及装置
CN111858108A (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
CN114444827A (zh) 一种集群性能的评估方法和装置
CN111737555A (zh) 热点关键词的选取方法、设备和存储介质
CN113568754A (zh) 资源分配方法、装置、计算设备及存储介质
CN113568822B (zh) 业务资源监控方法、装置、计算设备及存储介质
CN110855484B (zh) 自动检测业务量变化的方法、系统、电子设备和存储介质
CN117453480A (zh) 监控数据的预警方法、装置、设备及存储介质
CN117389472A (zh) 交易数据的冷热数据迁移方法及系统
CN111414295A (zh) 一种cpu占用率的统计方法、装置、设备及介质
CN110069379B (zh) 监控指标的筛选方法及筛选装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant