Nothing Special   »   [go: up one dir, main page]

CN117493115A - 埋点采集状态检测方法、装置、电子设备及存储介质 - Google Patents

埋点采集状态检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117493115A
CN117493115A CN202311500058.8A CN202311500058A CN117493115A CN 117493115 A CN117493115 A CN 117493115A CN 202311500058 A CN202311500058 A CN 202311500058A CN 117493115 A CN117493115 A CN 117493115A
Authority
CN
China
Prior art keywords
data
buried point
buried
acquisition
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311500058.8A
Other languages
English (en)
Inventor
张明哲
龚滨
仲籽彦
魏丫丫
陈梦南
聂延闯
洪迪
汪利伟
金伟德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202311500058.8A priority Critical patent/CN117493115A/zh
Publication of CN117493115A publication Critical patent/CN117493115A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种埋点采集状态检测方法、装置、电子设备及存储介质。所述方法包括:基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值;获取由所述目标埋点采集的所述各时间段的埋点采集数据的数据量;基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态。本申请实施例可以提高准确获取异常数据的能力,提高采集数据的质量,为后续的数据分析提供保障。

Description

埋点采集状态检测方法、装置、电子设备及存储介质
技术领域
本申请涉及数据分析技术领域,特别是涉及一种埋点采集状态检测方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的蓬勃发展,互联网用户的数量不断增加,越来越多的企业已开始挖掘用户行为数据的商业价值,利用行为数据进行精准有效的数字营销。
目前,随着行为数据采集分析平台的深入使用,采集的埋点数据急剧增长,对埋点采集中的异常数据进行精准定位和预测告警显得尤为重要。
发明内容
本申请实施例所要解决的技术问题是提供一种埋点采集状态检测方法、装置、电子设备及存储介质,以精准定位埋点采集中的异常数据,有效提高准确获取异常数据的能力,提高采集数据的质量,为后续的数据分析提供保障。
第一方面,本申请实施例提供了一种埋点采集状态检测方法,所述方法包括:
基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值;
获取由所述目标埋点采集的所述各时间段的埋点采集数据的数据量;
基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态。
可选地,在所述基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值之前,还包括:
获取所述目标埋点在距离当前时间为预设时长内采集的埋点数据;
基于所述埋点数据对应的时间戳信息,对所述埋点数据进行排序,生成基于时间序列的埋点数据;
基于预设算法对所述基于时间序列的埋点数据的数据量进行建模,得到所述数据量阈值预测模型。
可选地,所述基于所述埋点数据对应的时间戳信息,对所述埋点数据进行排序,生成基于时间序列的埋点数据,包括:
对所述埋点数据进行预处理,得到预处理埋点数据;
基于所述时间戳信息和预设时长信息,对所述预处理埋点数据进行排序,生成基于时间序列的埋点数据。
可选地,所述对所述埋点数据进行预处理,得到预处理埋点数据,包括:
对所述埋点数据进行数据清洗,得到清洗埋点数据;
在所述清洗埋点数据中存在缺失数据的情况下,基于所述时间戳信息对所述清洗埋点数据进行插值处理,得到补全埋点数据;
基于预设去噪算法对所述补全埋点数据进行去噪处理,得到所述预处理埋点数据。
可选地,所述基于预设算法对所述基于时间序列的埋点数据的数据量进行建模,得到所述数据量阈值预测模型,包括:
分析所述基于时间序列的埋点数据的数据量,得到所述目标埋点的埋点趋势项参数;
基于预设分析模型对所述基于时间序列的埋点数据进行处理,得到所述目标埋点的分析模型参与计算项参数;
基于预设周期对所述基于时间序列的埋点数据的数据量进行分析,得到所述目标埋点的周期项参数;
对所述基于时间序列的埋点数据的数据量中指定日期的数据量进行分析,得到指定日期项参数;
基于所述埋点趋势项参数、所述分析模型参与计算项参数、所述周期项参数、所述指定日期项参数和模型迭代过程中产生的误差项参数,构建得到所述数据量阈值预测模型。
可选地,所述基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态,包括:
在所述数据量大于或者等于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为异常状态;
在所述数据量小于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为正常状态。
可选地,在所述确定所述目标埋点的埋点采集状态为异常状态之后,还包括:
生成所述目标埋点对应的异常告警提示信息;
基于预设输出方式,输出所述异常告警提示信息。
第二方面,本申请实施例提供了一种埋点采集状态检测装置,所述装置包括:
采集数量阈值预测模块,用于基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值;
数据量获取模块,用于获取由所述目标埋点采集的所述各时间段的埋点采集数据的数据量;
埋点采集状态确定模块,用于基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态。
可选地,所述装置还包括:
埋点数据获取模块,用于获取所述目标埋点在距离当前时间为预设时长内采集的埋点数据;
埋点数据生成模块,用于基于所述埋点数据对应的时间戳信息,对所述埋点数据进行排序,生成基于时间序列的埋点数据;
预测模型获取模块,用于基于预设算法对所述基于时间序列的埋点数据的数据量进行建模,得到所述数据量阈值预测模型。
可选地,所述埋点数据生成模块包括:
预处理数据获取单元,用于对所述埋点数据进行预处理,得到预处理埋点数据;
埋点数据生成单元,用于基于所述时间戳信息和预设时长信息,对所述预处理埋点数据进行排序,生成基于时间序列的埋点数据。
可选地,所述预处理数据获取单元包括:
清洗数据获取子单元,用于对所述埋点数据进行数据清洗,得到清洗埋点数据;
补全数据获取子单元,用于在所述清洗埋点数据中存在缺失数据的情况下,基于所述时间戳信息对所述清洗埋点数据进行插值处理,得到补全埋点数据;
预处理数据获取子单元,用于基于预设去噪算法对所述补全埋点数据进行去噪处理,得到所述预处理埋点数据。
可选地,所述预测模型获取模块包括:
趋势项参数获取单元,用于分析所述基于时间序列的埋点数据的数据量,得到所述目标埋点的埋点趋势项参数;
计算项参数获取单元,用于基于预设分析模型对所述基于时间序列的埋点数据进行处理,得到所述目标埋点的分析模型参与计算项参数;
周期项参数获取单元,用于基于预设周期对所述基于时间序列的埋点数据的数据量进行分析,得到所述目标埋点的周期项参数;
日期项参数获取单元,用于对所述基于时间序列的埋点数据的数据量中指定日期的数据量进行分析,得到指定日期项参数;
预测模型构建单元,用于基于所述埋点趋势项参数、所述分析模型参与计算项参数、所述周期项参数、所述指定日期项参数和模型迭代过程中产生的误差项参数,构建得到所述数据量阈值预测模型。
可选地,所述埋点采集状态确定模块包括:
异常状态确定单元,用于在所述数据量大于或者等于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为异常状态;
正常状态确定单元,用于在所述数据量小于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为正常状态。
可选地,所述装置还包括:
告警提示生成模块,用于生成所述目标埋点对应的异常告警提示信息;
告警提示输出模块,用于基于预设输出方式,输出所述异常告警提示信息。
第三方面,本申请实施例提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的埋点采集状态检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的埋点采集状态检测方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例中,通过基于预先构建的目标埋点的数据量阈值预测模型,预测得到目标埋点在未来时长内各时间段的采集数量阈值。获取由目标埋点采集的各时间段的埋点采集数据的数据量。基于数据量和采集数量阈值,确定目标埋点的埋点采集状态。本申请实施例通过预先对目标埋点构建数据量阈值预测模型,在采集过程中对目标埋点采集数据的异常阈值进行预测,为预警提供合理的区间,从而可以精准定位埋点采集中的异常数据,提高准确获取异常数据的能力,提高采集数据质量,为后续的数据分析提供保障。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
图1为本申请实施例提供的一种埋点采集状态检测方法的步骤流程图;
图2为本申请实施例提供的一种预测模型构建方法的步骤流程图;
图3为本申请实施例提供的一种埋点数据生成方法的步骤流程图;
图4为本申请实施例提供的一种埋点数据获取方法的步骤流程图;
图5为本申请实施例提供的另一种预测模型构建方法的步骤流程图;
图6为本申请实施例提供的一种埋点采集状态确定方法的步骤流程图;
图7为本申请实施例提供的一种异常告警提示信息输出方法的步骤流程图;
图8为本申请实施例提供的一种埋点采集线上异常告警流程的示意图;
图9为本申请实施例提供的一种系统流程的示意图;
图10为本申请实施例提供的一种系统模块的示意图;
图11为本申请实施例提供的一种埋点采集状态检测装置的结构示意图;
图12为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
参照图1,示出了本申请实施例提供的一种埋点采集状态检测方法的步骤流程图,如图1所示,该埋点采集状态检测方法可以包括:步骤101、步骤102和步骤103。
步骤101:基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值。
本申请实施例可以应用于结合预先构建的埋点的数据量阈值预测模型,以对该埋点的采集状态进行检测的场景中。
在本示例中,针对不同的埋点可以预先构建相应的数据量阈值预测模型,例如,埋点可以包括:埋点1、埋点2和埋点3,那么,针对埋点1、埋点2和埋点3可以分别构建相应的数据量阈值预测模型等。
目标埋点是指需要进行埋点采集状态检测的埋点。对于目标埋点的数据量阈值预测模型的构建过程可以结合图2进行如下详细描述。
参照图2,示出了本申请实施例提供的一种预测模型构建方法的步骤流程图。如图2所示,该预测模型构建方法可以包括:步骤201、步骤202和步骤203。
步骤201:获取所述目标埋点在距离当前时间为预设时长内采集的埋点数据。
在本申请实施例中,可以获取目标埋点的在距离当前时间为预设时长内采集的埋点数据。
在实际应用中,可以获取较长时间段(如1年或数月等)的历史数据(即目标埋点采集的埋点数据),历史数据中可以包括:时间戳、应用ID、事件ID、埋点ID、用户ID、页面名称、坑位内容等信息,其中,ID信息可以用于对历史数据进行归类,时间戳可以用于进行埋点数据的时间排序等。
在获取到目标埋点在距离当前时间为预设时长内采集的埋点数据之后,执行步骤202。
步骤202:基于所述埋点数据对应的时间戳信息,对所述埋点数据进行排序,生成基于时间序列的埋点数据。
在获取到目标埋点在距离当前时间为预设时长内采集的埋点数据之后,额可以基于埋点数据对应的时间戳信息,对埋点数据进行排序,生成基于时间序列的埋点数据。在本示例中,可以对埋点数据先进行预处理,在预处理完成之后,再进行排序。对于该实现过程可以结合图3进行如下详细描述。
参照图3,示出了本申请实施例提供的一种埋点数据生成方法的步骤流程图。如图3所示,该埋点数据生成方法可以包括:步骤301和步骤302。
步骤301:对所述埋点数据进行预处理,得到预处理埋点数据。
在本申请实施例中,在获取到目标埋点在历史时间内采集的埋点数据之后,则可以对埋点数据进行预处理,以得到预处理埋点数据。
在本示例中,预处理可以包括:数据清洗、补全、去噪等处理,对于具体地预处理过程可以结合图4进行如下详细描述。
参照图4,示出了本申请实施例提供的一种埋点数据获取方法的步骤流程图。如图4所示,该埋点数据获取方法可以包括:步骤401、步骤402和步骤403。
步骤401:对所述埋点数据进行数据清洗,得到清洗埋点数据。
在本实施例中,在获取到目标埋点在历史时间内采集的埋点数据之后,可以对埋点数据进行数据清洗,以得到清洗埋点数据。具体地,可以清洗掉埋点数据的无效数据、重复数据等。
在对埋点数据进行数据清洗得到清洗埋点数据之后,执行步骤402。
步骤402:在所述清洗埋点数据中存在缺失数据的情况下,基于所述时间戳信息对所述清洗埋点数据进行插值处理,得到补全埋点数据。
在对埋点数据进行数据清洗得到清洗埋点数据之后,则可以判断清洗埋点数据是否存在缺失数据的情况,如历史时间为1年内的某天或某几天的埋点数据为空等,则表示存在缺失数据的情况等。
若清洗埋点数据中存在缺失数据的情况吗,则可以基于时间戳信息对清洗埋点数据进行插值处理,以得到补全埋点数据。例如,历史时间为第1天至第10天,其中,缺失了第5天和第6天的埋点数据,此时,可以采用基于时间的插值、样条插值、线性插值等方法和时间戳对缺失数据进行插值,以得到补全埋点数据等。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
在基于时间戳信息对清洗埋点数据进行插值处理得到补全埋点数据之后,执行步骤403。
步骤403:基于预设去噪算法对所述补全埋点数据进行去噪处理,得到所述预处理埋点数据。
在基于时间戳信息对清洗埋点数据进行插值处理得到补全埋点数据之后,则可以基于预设去噪算法对补全埋点数据进行去噪处理,以得到预处理埋点数据。例如,可以使用滚动平均值或傅里叶变换对数据进行去噪等。
当然,除了上述预处理方式之外,还可以对时间数据进行格式的统一转换,将数据时间类型转换为日期时间数据类型等。
本申请实施例通过采用上述预处理方式对埋点数据进行处理,可以清洗掉埋点数据中的无效数据,且进行数据补全和去噪,从而可以使得通过预处理的埋点数据构建预测模型时,能够提高模型的预测精度。
在对埋点数据进行预处理得到预处理埋点数据之后,执行步骤302。
步骤302:基于所述时间戳信息和预设时长信息,对所述预处理埋点数据进行排序,生成基于时间序列的埋点数据。
预设时长信息是指用于将预处理埋点数据分时段进行排序的时长,在本示例中,预设时长可以为1个月,1周等,具体地,对于预设时长的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在对埋点数据进行预处理得到预处理埋点数据之后,则可以基于时间戳信息和预设时长信息对预处理埋点数据进行排序,生成基于时间序列的埋点数据。
本申请实施例通过获取基于时间序列的埋点数据,通过该基于时间序列的埋点数据可以应用于构建目标埋点的基于时间序列的数据量阈值预测模型。
可以理解地,在上述实现过程中,针对埋点数据可以先进行预处理,在进行数据排序。也可以先进行数据排序,生成基于时间序列的埋点数据之后,在进行数据预处理等。本实施例对于该过程的先后顺序不加以限制。
在基于埋点数据对应的时间戳信息对埋点数据进行排序,生成基于时间序列的埋点数据之后,执行步骤203。
步骤203:基于预设算法对所述基于时间序列的埋点数据的数据量进行建模,得到所述数据量阈值预测模型。
在基于埋点数据对应的时间戳信息对埋点数据进行排序,生成基于时间序列的埋点数据之后,则可以基于预设算法对基于时间序列的埋点数据的数据量进行建模,得到数据量阈值预测模型。对于数据量阈值预测模型的构建过程可以结合图5进行如下详细描述。
参照图5,示出了本申请实施例提供的另一种预测模型构建方法的步骤流程图。如图5所示,该预测模型构建方法可以包括:步骤501、步骤502、步骤503、步骤504和步骤505。
步骤501:分析所述基于时间序列的埋点数据的数据量,得到所述目标埋点的埋点趋势项参数。
在本申请实施例中,在生成基于时间序列的埋点数据之后,则可以分析基于时间序列的埋点数据的数据量,得到目标埋点的埋点趋势项参数。
在本示例中,埋点趋势项参数可以用于指示目标埋点采集数据的数据量的趋势变化信息。
在实际应用中,埋点趋势项可以包含两个增长函数,分别是分段线性函数(linear)和逻辑回归函数(logistic)。默认使用的是分段线性函数(linear),如果要是用逻辑回归函数的时候,需要设置能力值,否则会出错。
在具体实现中,可以指定25个潜在的变化点,它们均匀地放置在时间序列的前80%中。可以使用参数设置潜在变化点的数量,但通过调整正则化可以更好地调整。默认情况下,仅为时间序列的前80%推断变化点,以便有足够的跑道来预测未来趋势并避免在时间序列结束时过度拟合波动。此默认值适用于许多情况,但不是全部,并且可以使用预设参数进行更改。
步骤502:基于预设分析模型对所述基于时间序列的埋点数据进行处理,得到所述目标埋点的分析模型参与计算项参数。
分析模型参与计算项可以用于指示历史数据参与计算的比重。
在得到基于时间序列的埋点数据之后,则可以基于预设分析模型对基于时间序列的埋点数据进行处理,得到目标埋点的分析模型参与计算项参数。
在本示例中,可以选取分析模型场景,将历史数据(即本示例中的基于时间序列的埋点数据)代入选取的通用事件分析、漏斗分析、留存分析各场景中进行运算,对运算结果进行线性拟合,以得到分析模型参与计算项参数。
步骤503:基于预设周期对所述基于时间序列的埋点数据的数据量进行分析,得到所述目标埋点的周期项参数。
周期项参数可以用于指示目标埋点在指定周期内采集埋点数据的数据量变化。
在本示例中,预设周期可以为一个月,一周等,具体地,对于预设周期的具体数值可以根据业务需求而定,本实施例对此不加以限制。
在得到基于时间序列的埋点数据之后,则可以基于预设周期对基于时间序列的埋点数据的数据量进行分析,得到目标埋点的周期项参数。在具体实现中,如果时间序列的长度超过两个周期,将默认按周、年拟合数据。可以添加其他周期性(每月、每季度、每小时)。此函数的输入是名称、周期(以天为单位)以及周期的傅里叶阶。
步骤504:对所述基于时间序列的埋点数据的数据量中指定日期的数据量进行分析,得到指定日期项参数。
指定日期项参数可以用于指示目标埋点在指定日期(如节假日等)内采集埋点数据的数据量的参数。
在得到基于时间序列的埋点数据之后,则可以对基于时间序列的埋点数据的数据量中指定日期的数据量进行分析,得到指定日期项参数,以确定目标埋点在指定日期内的埋点采集数据的数据量变化。
在具体实现中,如果有想要建模的假期或其他经常性事件,必须为它们创建一个数据框。它有两列和一个对应于每个节假日出现的行。它必须包括假期的所有事件,包括过去(就历史数据而言)和未来(就预测而言)。如果它们将来不会重复,模型将对它们进行建模,然后不将它们包括在预测中。
步骤505:基于所述埋点趋势项参数、所述分析模型参与计算项参数、所述周期项参数、所述指定日期项参数和模型迭代过程中产生的误差项参数,构建得到所述数据量阈值预测模型。
误差项又称为剩余项,是模型在迭代过程中产生的参数,该误差项参数可以用于表示模型未预测到的波动参数,其服从高斯分布。
在通过上述步骤得到埋点趋势项参数、分析模型参与计算项参数、周期项参数和指定日期项参数之后,可以基于埋点趋势项参数、分析模型参与计算项参数、周期项参数、指定日期项参数和模型迭代过程中产生的误差项参数,构建得到数据量阈值预测模型,如下公式(1)所示:
y(t)=g(t)+f(t)+s(t)+h(t)+ε(t) (1)
上述公式(1)中,y(t)为数据量阈值预测模型,g(t)为埋点趋势项参数,f(t)为分析模型参与计算项参数,s(t)为周期项参数,h(t)为指定日期项参数,ε(t)为误差项参数。
在构建得到数据量阈值预测模型之后,还可以对数据量阈值预测模型进行模型评估,以评估数据量阈值预测模型的预测准确度。具体地,可以使用历史数据测量预测误差,即通过选择历史中的截止点来完成的,并且对于每个截止点,只使用直到该截止点的数据来拟合模型。并使用时间序列交叉验证功能的算法对该数据量阈值预测模型进行交叉验证,以调整模型的超参数,以完成模型参数调整。
经拟合,得到构建好的模型,本实施例提供的数据量阈值预测模型由于考虑了业务强相关性的分析模型、周期(月初月末效应)、节假日的影响,因此,具备异常阈值预测准确,稳定的技术效果,特别适用于行为数据采集与分析的业务场景。
对于模型构建过程可以如图10所示,首先,可以进行数据采集,如针对IOS埋点、安卓埋点、H5埋点和小程序埋点采集的埋点数据,可以上报至本平台,以实时监控埋点采集数量,并结合时间戳信息,生成埋点采集时序数据。其次,进行特征处理,包括:格式处理、降噪处理、插值处理等处理方法。最后,可以进行模型建立,按照如图10所示模型函数构建模型,其包含增长趋势(即埋点趋势项参数)、模型计算结果(即分析模型参与计算项参数)、周期项参数、节假日项参数(即指定日期项参数),同时结合误差项构建得到埋点的预测模型。在构建得到模型之后,即可以进行阈值预测,即预测埋点监控阈值。
本申请实施例构建的数据量阈值预测模型是基于时间序列的预测模型,该预测模型可以用于预测目标埋点在不同时间序列内的埋点采集数据的数据量变化,以便于对目标埋点的埋点采集状态进行实时分析。
在构建得到目标埋点的数据量阈值预测模型之后,则可以基于该目标埋点的数据量阈值预测模型,预测得到目标埋点在未来时长内各时间段的采集数量阈值。在本示例中,可以通过数据量阈值预测模型预测目标埋点在未来一周或者一个月内每天的采集数量阈值,以便于对目标埋点的埋点采集量数据进行分析。
在基于预先构建的目标埋点的数据量阈值预测模型预测得到目标埋点在未来时长内各时间段的采集数量阈值之后,执行步骤102。
步骤102:获取由所述目标埋点采集的所述各时间段的埋点采集数据的数据量。
随着时间的推移,目标埋点可以采集在步骤101中所描述的未来时长内各时间段的埋点采集数据,并统计出各时间段的埋点采集数据的数据量。
在获取到由目标埋点采集的各时间段的埋点采集数据的数据量之后,执行步骤103。
步骤103:基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态。
在获取到由目标埋点采集的各时间段的埋点采集数据的数据量之后,则可以基于数据量和采集数量阈值,确定出目标埋点的埋点采集状态。具体地,可以根据数据量和采集数量阈值之间的大小关系确定埋点采集状态。对于该实现过程可以结合图6进行如下详细描述。
参照图6,示出了本申请实施例提供的一种埋点采集状态确定方法的步骤流程图。如图6所示,该埋点采集状态确定方法可以包括:步骤601和步骤602。
步骤601:在所述数据量大于或者等于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为异常状态;
步骤602:在所述数据量小于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为正常状态。
在本实施例中,在目标埋点采集的各时间段的埋点采集数据的数据量大于或者等于对应时间段的采集数量阈值的情况下,则可以确定目标埋点的埋点采集状态为异常状态。
在目标埋点采集的各时间段的埋点采集数据的数据量小于对应时间段的采集数量阈值的情况下,则可以确定目标埋点的埋点采集状态为正常状态。例如,未来时长为一周,可以分析一周7天内的埋点采集数据的数据量与对应的采集数量阈值进行比较,依据比较结果确定目标埋点的埋点采集状态。如一周7天对应的采集数量阈值分别为:阈值1、阈值2、...、阈值7,一周7天内的埋点采集数据的数据量分别为:数据量1、数据量2、...、数据量7,此时,可以比较阈值1与数据量1的大小关系,以确定目标埋点的埋点采集状态。若正常,再比较阈值2与数据量2的大小关系,以确定目标埋点的埋点采集状态等等。
当然,可以理解地,在具体实现中,由于已经预测出目标埋点在未来时长内的各时间段的采集数量阈值,在目标埋点每采集到一个时间段内的埋点采集数据之后,则可以先进行数据量与采集数量阈值的比较。若采集状态正常,则继续进行下一时间段的埋点数据的采集,及与采集数量阈值的比较,以此类推。
本申请实施例通过预先对目标埋点构建数据量阈值预测模型,在采集过程中对目标埋点采集数据的异常阈值进行预测,为预警提供合理的区间,从而提高准确获取异常数据的能力,提高采集数据质量,为后续的数据分析提供保障。
在本申请实施例中,在确定目标埋点的埋点采集状态为异常状态之后,还可以生成目标埋点对应的异常告警提示信息,以提示运维人员尽快进行维护。对于该实现过程可以结合图7进行如下详细描述。
参照图7,示出了本申请实施例提供的一种异常告警提示信息输出方法的步骤流程图。如图7所示,该异常告警提示信息输出方法可以包括:步骤701和步骤702。
步骤701:生成所述目标埋点对应的异常告警提示信息。
在本申请实施例中,在确定目标埋点的埋点采集状态为异常状态之后,则可以生成目标埋点对应的异常告警提示信息。
步骤702:基于预设输出方式,输出所述异常告警提示信息。
进而,可以基于预设输出方式输出异常告警提示信息,以提示运维人员及时发现故障埋点,并进行后续维护处理,减少异常数据的采集。
在本示例中,预设输出方式可以包括以下至少一种:
1、声音输出方式,即以声音输出目标埋点对应的异常告警提示信息。
2、警示灯输出方式,如在目标埋点对应的警示灯处闪烁红色灯光,以提示该埋点出现异常。
3、邮件输出方式,即通过电子邮件将目标埋点对应的异常告警提示信息发送给运维人员。
4、短信输出方式,即通过短信将目标埋点对应的异常告警提示信息发送给运维人员。
本申请实施例通过生成并输出异常告警提示信息,可以使运维人员及时发现处于异常采集状态的埋点,以便及时进行埋点维护,减少了异常埋点数据的采集量。
当然,在确定目标埋点的埋点采集状态为异常状态时,还可以结合异常埋点数据对该目标埋点的数据量阈值预测模型进行模型超参数的调整,以提高数据量阈值预测模型的预测精度。
对于模型构建及模型参数调整的过程可以如图9所示,该过程可以包括以下步骤:
1、埋点数据采集量监控;即监控埋点采集的埋点数据的数据采集量。
2、采集量数据特征处理,即预处理过程,如数据清洗、格式转换、降噪等处理。
3、基于埋点历史采集数据量构建模型,并通过模型预测采集量异常阈值。
4、将异常阈值(即采集量异常阈值)实时发送到行为次啊及与分析管理平台,并根据此阈值对埋点采集量进行监控告警。
5、通过模型的仿真历史预测评估模型功能,进而,可以调整模型参数,处理异常值,以优化模型,迭代提高模型的预测精度。
对于模型构建及埋点异常告警的实现过程可以结合图8进行如下详细描述。如图8所示,该实现过程可以包括以下步骤:
1、App、H5、小程序埋点数据上报。
2、埋点采集量监控程序埋点上报数据,形成具有时间数据的历史数据。
3、对埋点采集量数据进行特征处理。
4、通过算法建模,并预测埋点采集量的阈值。
5、同时,可以获取App、H5、小程序埋点上报的实时数据;
6、定时扫描查询埋点是否已采集,若否,则等待下一次扫描查询,若是,则执行步骤7。
7、已采集埋点加入告警规则表,开启对埋点采集量异常的告警;
8、判断采集量是否在告警阈值之内。
9、若采集量在告警阈值之内,则埋点采集量正常,不进行告警。
10、若采集量在告警阈值之外,则对埋点采集异常进行告警,以提示运维人员及时发现异常埋点,并对异常埋点进行实时维护。
本申请实施例提供的埋点采集状态检测方法,通过基于预先构建的目标埋点的数据量阈值预测模型,预测得到目标埋点在未来时长内各时间段的采集数量阈值。获取由目标埋点采集的各时间段的埋点采集数据的数据量。基于数据量和采集数量阈值,确定目标埋点的埋点采集状态。本申请实施例通过预先对目标埋点构建数据量阈值预测模型,在采集过程中对目标埋点采集数据的异常阈值进行预测,为预警提供合理的区间,从而可以精准定位埋点采集中的异常数据,提高准确获取异常数据的能力,提高采集数据质量,为后续的数据分析提供保障。
参照图11,示出了本申请实施例提供的一种埋点采集状态检测装置的结构示意图,如图11所示,该埋点采集状态检测装置1100可以包括以下模块:
采集数量阈值预测模块1110,用于基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值;
数据量获取模块1120,用于获取由所述目标埋点采集的所述各时间段的埋点采集数据的数据量;
埋点采集状态确定模块1130,用于基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态。
可选地,所述装置还包括:
埋点数据获取模块,用于获取所述目标埋点在距离当前时间为预设时长内采集的埋点数据;
埋点数据生成模块,用于基于所述埋点数据对应的时间戳信息,对所述埋点数据进行排序,生成基于时间序列的埋点数据;
预测模型获取模块,用于基于预设算法对所述基于时间序列的埋点数据的数据量进行建模,得到所述数据量阈值预测模型。
可选地,所述埋点数据生成模块包括:
预处理数据获取单元,用于对所述埋点数据进行预处理,得到预处理埋点数据;
埋点数据生成单元,用于基于所述时间戳信息和预设时长信息,对所述预处理埋点数据进行排序,生成基于时间序列的埋点数据。
可选地,所述预处理数据获取单元包括:
清洗数据获取子单元,用于对所述埋点数据进行数据清洗,得到清洗埋点数据;
补全数据获取子单元,用于在所述清洗埋点数据中存在缺失数据的情况下,基于所述时间戳信息对所述清洗埋点数据进行插值处理,得到补全埋点数据;
预处理数据获取子单元,用于基于预设去噪算法对所述补全埋点数据进行去噪处理,得到所述预处理埋点数据。
可选地,所述预测模型获取模块包括:
趋势项参数获取单元,用于分析所述基于时间序列的埋点数据的数据量,得到所述目标埋点的埋点趋势项参数;
计算项参数获取单元,用于基于预设分析模型对所述基于时间序列的埋点数据进行处理,得到所述目标埋点的分析模型参与计算项参数;
周期项参数获取单元,用于基于预设周期对所述基于时间序列的埋点数据的数据量进行分析,得到所述目标埋点的周期项参数;
日期项参数获取单元,用于对所述基于时间序列的埋点数据的数据量中指定日期的数据量进行分析,得到指定日期项参数;
预测模型构建单元,用于基于所述埋点趋势项参数、所述分析模型参与计算项参数、所述周期项参数、所述指定日期项参数和模型迭代过程中产生的误差项参数,构建得到所述数据量阈值预测模型。
可选地,所述埋点采集状态确定模块包括:
异常状态确定单元,用于在所述数据量大于或者等于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为异常状态;
正常状态确定单元,用于在所述数据量小于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为正常状态。
可选地,所述装置还包括:
告警提示生成模块,用于生成所述目标埋点对应的异常告警提示信息;
告警提示输出模块,用于基于预设输出方式,输出所述异常告警提示信息。
本申请实施例提供的埋点采集状态检测装置,通过基于预先构建的目标埋点的数据量阈值预测模型,预测得到目标埋点在未来时长内各时间段的采集数量阈值。获取由目标埋点采集的各时间段的埋点采集数据的数据量。基于数据量和采集数量阈值,确定目标埋点的埋点采集状态。本申请实施例通过预先对目标埋点构建数据量阈值预测模型,在采集过程中对目标埋点采集数据的异常阈值进行预测,为预警提供合理的区间,从而可以精准定位埋点采集中的异常数据,提高准确获取异常数据的能力,提高采集数据质量,为后续的数据分析提供保障。
本申请实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述埋点采集状态检测方法。
图12示出了本发明实施例的一种电子设备1200的结构示意图。如图12所示,电子设备1200包括中央处理单元(CPU)1201,其可以根据存储在只读存储器(ROM)1202中的计算机程序指令或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序指令,来执行各种适当的动作和处理。在RAM1203中,还可存储电子设备1200操作所需的各种程序和数据。CPU1201、ROM1202以及RAM1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
电子设备1200中的多个部件连接至I/O接口1205,包括:输入单元1206,例如键盘、鼠标、麦克风等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,可由处理单元1201执行。例如,上述任一实施例的方法可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到电子设备1200上。当计算机程序被加载到RAM1203并由CPU1201执行时,可以执行上文描述的方法中的一个或多个动作。
另外地,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述埋点采集状态检测方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端上,使得在计算机或其他可编程终端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端中还存在另外的相同要素。
以上对本申请所提供的一种埋点采集状态检测方法、一种埋点采集状态检测装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种埋点采集状态检测方法,其特征在于,所述方法包括:
基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值;
获取由所述目标埋点采集的所述各时间段的埋点采集数据的数据量;
基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态。
2.根据权利要求1所述的方法,其特征在于,在所述基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值之前,还包括:
获取所述目标埋点在距离当前时间为预设时长内采集的埋点数据;
基于所述埋点数据对应的时间戳信息,对所述埋点数据进行排序,生成基于时间序列的埋点数据;
基于预设算法对所述基于时间序列的埋点数据的数据量进行建模,得到所述数据量阈值预测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述埋点数据对应的时间戳信息,对所述埋点数据进行排序,生成基于时间序列的埋点数据,包括:
对所述埋点数据进行预处理,得到预处理埋点数据;
基于所述时间戳信息和预设时长信息,对所述预处理埋点数据进行排序,生成基于时间序列的埋点数据。
4.根据权利要求3所述的方法,其特征在于,所述对所述埋点数据进行预处理,得到预处理埋点数据,包括:
对所述埋点数据进行数据清洗,得到清洗埋点数据;
在所述清洗埋点数据中存在缺失数据的情况下,基于所述时间戳信息对所述清洗埋点数据进行插值处理,得到补全埋点数据;
基于预设去噪算法对所述补全埋点数据进行去噪处理,得到所述预处理埋点数据。
5.根据权利要求2所述的方法,其特征在于,所述基于预设算法对所述基于时间序列的埋点数据的数据量进行建模,得到所述数据量阈值预测模型,包括:
分析所述基于时间序列的埋点数据的数据量,得到所述目标埋点的埋点趋势项参数;
基于预设分析模型对所述基于时间序列的埋点数据进行处理,得到所述目标埋点的分析模型参与计算项参数;
基于预设周期对所述基于时间序列的埋点数据的数据量进行分析,得到所述目标埋点的周期项参数;
对所述基于时间序列的埋点数据的数据量中指定日期的数据量进行分析,得到指定日期项参数;
基于所述埋点趋势项参数、所述分析模型参与计算项参数、所述周期项参数、所述指定日期项参数和模型迭代过程中产生的误差项参数,构建得到所述数据量阈值预测模型。
6.根据权利要求1所述的方法,其特征在于,所述基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态,包括:
在所述数据量大于或者等于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为异常状态;
在所述数据量小于所述采集数量阈值的情况下,确定所述目标埋点的埋点采集状态为正常状态。
7.根据权利要求6所述的方法,其特征在于,在所述确定所述目标埋点的埋点采集状态为异常状态之后,还包括:
生成所述目标埋点对应的异常告警提示信息;
基于预设输出方式,输出所述异常告警提示信息。
8.一种埋点采集状态检测装置,其特征在于,所述装置包括:
采集数量阈值预测模块,用于基于预先构建的目标埋点的数据量阈值预测模型,预测得到所述目标埋点在未来时长内各时间段的采集数量阈值;
数据量获取模块,用于获取由所述目标埋点采集的所述各时间段的埋点采集数据的数据量;
埋点采集状态确定模块,用于基于所述数据量和所述采集数量阈值,确定所述目标埋点的埋点采集状态。
9.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7中任一项所述的埋点采集状态检测方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1至7中任一项所述的埋点采集状态检测方法。
CN202311500058.8A 2023-11-10 2023-11-10 埋点采集状态检测方法、装置、电子设备及存储介质 Pending CN117493115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311500058.8A CN117493115A (zh) 2023-11-10 2023-11-10 埋点采集状态检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311500058.8A CN117493115A (zh) 2023-11-10 2023-11-10 埋点采集状态检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117493115A true CN117493115A (zh) 2024-02-02

Family

ID=89674090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311500058.8A Pending CN117493115A (zh) 2023-11-10 2023-11-10 埋点采集状态检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117493115A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118400519A (zh) * 2024-06-27 2024-07-26 南京财经大学 一种视频监控异常行为智能检查方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118400519A (zh) * 2024-06-27 2024-07-26 南京财经大学 一种视频监控异常行为智能检查方法及系统

Similar Documents

Publication Publication Date Title
CN107943809B (zh) 数据质量监控方法、装置及大数据计算平台
CN107844848B (zh) 一种区域人流量预测方法及系统
CN101771758B (zh) 一种性能指标值正常波动范围的动态确定方法及其装置
CN110147803B (zh) 用户流失预警处理方法与装置
CN111221706B (zh) 一种cpu使用率预测方法、系统、介质及设备
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN113570396A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
CN112148561B (zh) 业务系统的运行状态预测方法、装置及服务器
AU2016201794B1 (en) Analyzing equipment degradation for maintaining equipment
CN110909306B (zh) 业务异常检测方法、装置、电子设备和存储设备
CN111368980A (zh) 状态检测方法、装置、设备及存储介质
CN117493115A (zh) 埋点采集状态检测方法、装置、电子设备及存储介质
CN112686433B (zh) 快递数量的预测方法、装置、设备及存储介质
CN108306997B (zh) 域名解析监控方法及装置
JP2004023114A (ja) 通信トラヒック予測方法およびその装置
CN111800807A (zh) 一种基站用户数量告警的方法及装置
CN114938339B (zh) 一种数据处理方法和相关装置
CN116128690B (zh) 一种碳排放量成本值计算方法、装置、设备及介质
CN112422333B (zh) 一种配网情况确定方法、系统及相关装置
CN107783942B (zh) 一种异常行为检测方法及装置
Kobbacy et al. Small data sets and preventive maintenance modelling
CN114154668A (zh) It系统扩容预测方法及装置
CN117130882B (zh) 基于时间序列干预分析模型的节点资源预测方法和系统
CN114006865B (zh) 基于多维度指标的用户流量控制系统、方法、终端及介质
CN118212097B (zh) 一种基于水资源管理平台的取水量预警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination