CN111835541B - 一种流量识别模型老化检测方法、装置、设备及系统 - Google Patents
一种流量识别模型老化检测方法、装置、设备及系统 Download PDFInfo
- Publication number
- CN111835541B CN111835541B CN201910314721.2A CN201910314721A CN111835541B CN 111835541 B CN111835541 B CN 111835541B CN 201910314721 A CN201910314721 A CN 201910314721A CN 111835541 B CN111835541 B CN 111835541B
- Authority
- CN
- China
- Prior art keywords
- data set
- model
- detection
- traffic
- detection data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请实施例公开了一种模型老化检测方法、装置、设备及系统。该方法包括:先获取检测数据集和基准数据集,检测数据集包括基于流量识别模型对网络中的真实流量数据进行识别得到的识别置信度,基准数据集包括基于流量识别模型对训练该流量识别模型时使用的流量数据进行识别得到的识别置信度。然后,确定检测数据集的分布特征和基准数据集的分布特征。进而,基于检测数据集的分布特征和基准数据集的分布特征,确定流量识别模型是否老化。上述方法通过对识别置信度的分布特征的改变情况进行分析,感知流量数据分布特征的变化情况,据此判断流量识别模型是否老化。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种模型老化检测方法、装置、设备及系统。
背景技术
随着宽带业务的不断发展和变化,宽带数据流量迅猛增加,业务流量如今呈现多样化分布的局势;为了避免被管道化,实现精细化流量经营已成为各大网络运营商的必然出路。作为实现精细化流量经营的关键技术之一,网络应用流量识别技术通过将不同应用的网络流量区分开来,感知用户使用的应用类型,进而根据用户使用的应用类型,为用户相应地提供差异化网络服务,精细化地保障用户的网络体验。
受益于机器学习算法的不断发展与成熟,如今基于应用流量的特征分布,采用机器学习算法获得流量识别模型,利用该流量识别模型识别流量产生的来源,即识别产生该流量的应用,已成为主流的网络应用流量识别技术。但是,由于网络环境和各种应用的应用形式均会不断地发生变化,应用流量的特征分布也会随之动态改变,对于特征分布改变的应用流量,流量识别模型可能难以准确地识别其来源,发生模型老化现象。
为了保证流量识别模型的识别准确率,需要相应地采用检测机制检测流量识别模型是否发生模型老化现象,并在确定发生模型老化现象后,对流量识别模型进行更新训练,保证流量识别模型的识别性能。
发明内容
本申请实施例提供了一种模型老化检测方法、装置、设备及系统,能够有效地检测流量识别模型是否发生模型老化现象,以便及时地对流量识别模型进行优化更新,保证流量识别模型的模型性能。
有鉴于此,本申请第一方面提供了一种模型老化检测方法,采用该方法检测流量识别模型是否老化时,先获取检测数据集和基准数据集。检测数据集中通常包括大量的检测数据,这些检测数据为基于该流量识别模型对网络中的真实流量数据进行识别得到的识别置信度,该网络中的真实流量数据为流量识别模型在实际应用过程中采集的流量数据。基准数据集中通常包括大量的基准数据,这些基准数据为基于流量识别模型对训练流量数据进行识别得到的识别置信度,该训练流量数据为训练该流量识别模型时使用的流量数据。上述识别置信度能够表征其对应的流量数据属于各应用类别的概率。然后,确定基准数据集的分布特征以及检测数据集的分布特征。进而,基于基准数据集的分布特征和检测数据集的分布特征之间的差异度,确定所检测的流量识别模型是否老化。
上述方法在检测模型老化的过程中,通过对识别置信度分布特征的改变情况进行分析,感知输入至该流量识别模型的流量数据分布特征的变化情况,据此判断流量识别模型是否老化。相比一些技术方案中基于包括真实识别结果的检测样本对模型进行老化检测,本申请提供的模型老化检测方法大大降低了模型老化的检测成本,并且保证能够及时地检测到模型老化。在本申请实施例第一方面的第一种实现方式中,确定基准数据集的分布特征以及检测数据集的分布特征时,可以将基准数据集中各基准数据以及检测数据集中各检测数据,均映射至m维空间,此处的m等于流量识别模型所能识别的应用类别的数量。根据各基准数据在m维空间中的分布情况,确定基准数据集的分布特征。根据各检测数据在m维空间中的分布情况,确定检测数据集的分布特征。
由于本申请中的识别置信度用于表征流量数据属于流量识别模型所能识别的各应用类别的概率,因此,该识别置信度通常可以表现为m维向量,m等于流量识别模型所能识别的应用类别的概率,m维向量中的每一维向量分别表征流量数据属于该维向量对应的应用类别的概率。基于此,为了使基准数据集和检测数据集的分布特征表现得更为直观,可以将基准数据集中的各基准数据以及检测数据集中的各检测数据,均映射至m维空间,利用m维空间中基准数据集的分布情况表征基准数据集的分布特征,利用m维空间中检测数据集的分布情况表征检测数据集的分布特征。
在本申请实施例第一方面的第二种实现方式中,可以基于各基准数据和各检测数据在m维空间中的分布情况,分别绘制直方图作为基准数据集的分布特征和检测数据集的分布特征。具体的,先按照预设的区域划分方式,将m维空间划分成n个区域。进而,根据每个区域中基准数据在基准数据集中的占比,绘制直方图作为基准数据集的分布特征。根据每个区域中检测数据在检测数据集中的占比,绘制直方图作为检测数据集的分布特征。
为了进一步便于衡量m维空间中各基准数据的分布情况和各检测数据的分布情况,本申请选用直方图作为衡量指标,利用直方图表现m维空间中各基准数据的分布情况以及各检测数据的分布情况,即基准数据集的分布特征以及检测数据集的分布特征。基于直方图表现数据集的分布特征,在后续衡量基准数据集的分布特征与检测数据集的分布特征之间的差异度时,也可以相应地简化差异度的计算过程。
在本申请实施例第一方面的第三种实现方式中,在确定流量识别模型是否老化时,可以基于检测数据集的分布特征与基准数据集的分布特征之间的差异度,确定流量识别模型是否老化。具体的,当检测数据集的分布特征与基准数据集的分布特征之间的差异度大于或等于老化判定阈值时,即可确定该流量识别模型已老化。具体确定差异度时,可以计算检测数据集的分布特征与基准数据集的分布特征之间的信息熵,或相对熵,或余弦距离,作为差异度。
本申请在此提供了差异度的多种计算方式,确定检测数据集的分布特征与基准数据集的分布特征之间的差异度时,可以根据实际情况,选择合适的计算方式计算检测数据集的分布特征与基准数据集的分布特征之间的差异度,从而简化差异度的计算过程,提高差异度的计算效率。
在本申请实施例第一方面的第四种实现方式中,在流量识别模型不输出识别置信度的情况下,可以通过以下方式获取识别置信度。先检测该流量识别模型的模型类型。然后,在用于存储模型类型与识别置信度生成算法之间的对应关系的对应关系表中,根据该模型类型查找识别置信度生成算法。进而,通过查找到的识别置信度算法,获得识别置信度。
在实际应用中,一些流量识别模型直接输出流量数据对应的应用类别,而不输出该流量数据对应的识别置信度。在这种情况下,可以基于用于存储模型类型与识别置信度生成算法之间的对应关系的对应关系表,确定能够使得所检测的流量识别模型输出识别置信度的置信度生成算法,进而获得识别置信度。如此,可以扩大本申请提供的模型老化检测方法的使用范围,使该方法既可以检测能够输出识别置信度的流量识别模型,又可以检测不能输出识别置信度的流量识别模型。
在本申请实施例第一方面的第五种实现方式中,可以对检测数据进行筛选,使得检测数据集中的检测数据满足特定的条件。具体的,检测数据集中的检测数据的属性信息符合预设条件,检测数据的属性信息即为该检测数据对应的流量数据的属性信息。
在一些情况下,某些检测数据对于模型老化检测的参考意义不大,基于这些检测数据进行模型老化检测,可能会对模型老化检测结果产生影响。为此,在获取检测数据集之前,可以先根据会对模型老化检测结果产生影响的因素设置预设条件,进而基于该预设条件对检测数据进行筛选,使得检测数据集中的检测数据的属性信息均符合该预设条件。从而,提高模型老化检测结果的准确度。
在本申请实施例第一方面的第六种实现方式中,上述属性信息具体可以为采集地点和采集时间。相应地,用于筛选检测数据的预设条件可以设置为,使得检测数据对应的流量数据的采集时间处于预设时间范围内,以及使得检测数据对应的流量数据的采集地点处于预设地理范围内。
经发明人实验研究发现,流量数据的采集时间和流量数据的采集地点,对于模型老化检测结果会产生一定的影响;例如,居民区在工作日的白天产生的流量数据通常较少,利用基于这些流量数据产生的检测数据组成检测数据集,对流量识别模型进行模型老化检测,难以保证模型老化检测结果的准确度。为了保证模型老化检测结果的准确度,可以在获取检测数据集时,基于检测数据对应的流量数据的采集时间和采集地点,对检测数据进行筛选。
本申请第二方面提供了一种模型老化检测装置,所述装置包括:
获取模块,用于获取检测数据集和基准数据集,其中所述检测数据集包括基于流量识别模型对网络中的真实流量数据进行识别得到的识别置信度;所述基准数据集包括基于所述流量识别模型对训练所述流量识别模型时使用的训练流量数据进行识别得到的识别置信度;
确定模块,用于确定所述基准数据集的分布特征和所述检测数据集的分布特征;
老化判定模块,用于基于所述检测数据集的分布特征与所述基准数据集的分布特征,确定所述流量识别模型是否老化。
在本申请第二方面的第一种实现方式中,所述确定模块具体用于:
将所述基准数据集中各基准数据映射至m维空间,确定所述基准数据集的分布特征;所述m等于所述流量识别模型能够识别的应用类别的数量;
将所述检测数据集中各检测数据映射至所述m维空间,确定所述检测数据集的分布特征。
在本申请第二方面的第二种实现方式中,所述确定模块具体用于:
按照预设的区域划分方式,将所述m维空间划分为n个区域;
根据每个所述区域中基准数据在所述基准数据集中的占比,绘制直方图,作为所述基准数据集的分布特征;
根据每个所述区域中检测数据在所述检测数据集中的占比,绘制直方图,作为所述检测数据集的分布特征。
在本申请第二方面的第三种实现方式中,所述老化判定模块具体用于:
根据所述检测数据集的分布特征与所述基准数据集的分布特征之间的差异度,确定流量识别模型是否老化;
则所述老化判定模块包括:差异度计算子模块;
所述差异度计算子模块,用于计算所述检测数据集的分布特征与所述基准数据集的分布特征之间的信息熵,或相对熵,或余弦距离,作为所述差异度。
在本申请第二方面的第四种实现方式中,当所述流量识别模型不输出所述识别置信度时,所述装置还包括:
检测模块,用于检测所述流量识别模型的模型类型;
查找模块,用于根据所述模型类型,在对应关系表中查找识别置信度生成算法;所述对应关系表中存储有模型类型与识别置信度生成算法之间的对应关系;
置信度生成模块,用于通过所查找到的识别置信度生成算法,获得所述识别置信度。
在本申请第二方面的第五种实现方式中,所述检测数据集中检测数据的属性信息符合预设条件,所述检测数据的属性信息为所述检测数据对应的流量数据的属性信息。
在本申请第二方面的第六种实现方式中,所述属性信息包括:流量数据的采集时间和采集地点;
则所述预设条件为:所述采集时间处于预设时间范围内,且所述采集地点处于预设地理范围内。本申请第三方面提供了一种模型老化检测系统,所述系统包括:检测设备和应用设备;所述应用设备上承载有流量识别模型;
所述应用设备,用于利用所述流量识别模型对流量数据进行识别得到检测数据,并向所述检测设备上传所述检测数据;
所述检测设备,用于执行上述第一方面所述的模型老化检测方法,检测所述流量识别模型是否已老化。
在本申请第三方面的第一种实现方式中,该模型老化检测系统可以应用于家庭宽带场景下,所述检测设备包括:网络云化引擎服务器;所述应用设备包括:光网络终端和/或光线路终端。
在本申请第三方面的第二种实现方式中,所述检测设备或所述应用设备还用于:筛选属性信息符合预设条件的检测数据,所述检测数据的属性信息为所述检测数据对应的流量数据的属性信息。
本申请第四方面提供了一种检测设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的模型老化检测方法。
本申请第五方面提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述第一方面所述的模型老化检测方法。
附图说明
图1为一个技术方案中模型老化检测方法的示意图;
图2为本申请实施例提供的一种模型老化检测系统的结构示意图;
图3为本申请实施例提供的一种家庭宽带场景下的模型老化检测系统的结构示意图;
图4为本申请实施例提供的一种模型老化检测方法的流程示意图;
图5为本申请实施例提供的获取检测数据集和基准数据集的实现方式的示意图;
图6为本申请实施例提供的构建直方图的实现方式的示意图;
图7为本申请实施例提供的模型老化检测装置的结构示意图;
图8为本申请实施例提供的检测设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列操作或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些操作或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它操作或单元。
在一个技术方案中,通常定期采用人工标注的检测样本对流量识别模型进行检测,以判断流量识别模型是否已老化。参见图1,图1为一个技术方案中模型老化检测方法的示意图。
如图1所示,在识别模型是否老化时,需要将检测样本中的待检测流量数据输入至流量识别模型中,获得该流量识别模型输出的识别结果,根据该识别结果与检测样本中的识别结果,对流量识别模型的识别精度进行评估,检测样本中的识别结果是基于待检测流量数据进行人工标注得到的,其通常具有绝对的准确性;当流量识别模型的识别精度低于预设阈值时,确定该流量识别模型已老化,需要对其进行优化更新训练。
然而,人工标注样本数据通常需要耗费大量的时间和资源,相应地,利用人工标注的检测样本对流量识别模型进行老化检测,将需要耗费较高的检测成本。
此外,在另一种可能的实现方式中,也可以基于深度报文检测(deep packetinspection,DPI)规则库确定检测样本中的识别结果,但是DPI规则库的构建难度大,随着流量数据分布特征的改变,还需要相应地对该DPI规则库进行更新,对其进行更新的难度也很大,并且需要耗费大量的资源;可见,即使基于DPI规则库确定检测样本中的识别结果,基于如此确定的检测样本对流量识别模型进行老化检测,同样需要耗费较高的检测成本。
为了解决上述技术方案中存在的问题,本申请实施例提供了一种模型老化检测方法,该方法能够在不标注流量数据的真实识别结果的情况下,实现对于流量识别模型的老化检测,大大降低了模型老化的检测成本。
经发明人研究发现,流量识别模型老化的原因在于:受到应用软件版本更新、网络环境发生变化、新类型应用软件层出不穷等因素的影响,输入流量识别模型的流量数据的分布特征逐渐发生变化,即发生概念漂移(concept drift)现象;在当前采集的流量数据的分布特征相比于训练模型时使用的流量数据的分布特征的变化情况达到一定程度时,流量识别模型将无法准确地识别当前采集的流量数据来源的应用类别,发生模型老化现象。
基于上述原因,本申请实施例提供了一种模型老化检测方法,该方法通过对识别置信度分布特征的变化情况进行分析,感知输入流量识别模型的流量数据分布特征的变化情况,即感知输入该流量识别模型的流量数据是否发生概念漂移,据此判断流量识别模型是否老化。
具体的,在本申请实施例提供的模型老化检测方法中,先获取包括检测数据的检测数据集和包括基准数据的基准数据集,其中,检测数据是流量识别模型对其应用时采集的流量数据进行识别得到的识别置信度,基准数据的流量识别模型对其训练时采用的流量数据进行识别得到的识别置信度。然后分别确定检测数据集和基准数据集的分布特征。进而,根据检测数据集的分布特征与基准数据集的分布特征,确定该流量识别模型是否老化。
相比一些技术方案中中基于包括真实识别结果的检测样本对模型进行老化检测,本申请实施例提供的方法直接基于流量识别模型确定的识别置信度分布特征的改变情况,确定流量数据是否发生概念漂移,进而确定流量识别模型是否老化;在此过程中,完全不需要人工标注或基于DPI规则库确定真实识别结果,大大降低了模型老化的检测成本。此外,本申请实施例提供的方法可以基于流量识别模型运行过程中产生的数据,及时地判断该流量识别模型是否已老化,进而保证在检测到流量识别模型老化时,可以及时地对其进行优化更新训练,保证该流量识别模型具备稳定的识别性能。
为了便于理解本申请实施例提供的模型老化检测方法,下面结合附图对该模型老化检测方法所应用的模型老化检测系统进行介绍。
参见图2,图2为本申请实施例提供的一种模型老化检测系统的结构示意图;如图2所示,该模型老化检测系统中包括:检测设备210和应用设备220;其中,检测设备210具体可以为具备数据处理能力的设备,如服务器等;应用设备220为能够采集流量数据的设备,其承载有流量识别模型。
应用设备220,采集到流量数据后,可以利用自身承载的流量识别模型对所采集的流量数据进行识别,以确定所采集的流量数据来源的应用类别;同时,应用设备220可以获取上述识别过程中生成的识别置信度作为检测数据,将该检测数据发送给检测设备210。
应理解,在实际应用中,该模型老化检测系统中可以包括一台应用设备220,也可以包括多台应用设备220,在此不对模型老化系统中应用设备220的数量做任何限定。
在需要对应用设备220上承载的流量识别模型进行老化检测时,检测设备210可以基于应用设备220发送的检测数据,获得检测数据集;与此同时,检测设备210还可以从本地或其他设备处获取基准数据集,该基准数据集中包括多个基准数据,这些基准数据均是流量识别模型对其训练时所采用的流量数据进行识别得到的识别置信度;进而,检测设备210可以基于上述检测数据集和基准数据集,通过本申请实施例提供的模型老化检测方法,对流量识别模型进行老化检测。
需要说明的是,为了保证模型老化检测结果的准确性,检测设备210或应用设备220还可以对检测数据进行筛选,从海量的检测数据中,筛选出属性信息符合预设条件的检测数据,如此,检测设备210可以利用这些筛选出的检测数据组成检测数据集,对流量识别模型进行老化检测;具体筛选检测数据的方式将在下述方法实施例中进行详细介绍,详见下述方法实施例的相关描述。
需要说明的是,上述图2所示的模型老化检测系统通常可以应用于家庭宽带场景;当该模型老化检测系统应用于家庭宽带场景下时,上述检测设备具体可以为网络云化引擎服务器(network cloud engine server,NCE-Server),上述应用设备具体可以为光网络终端(optical network terminal,ONT)和/或光线路终端(optical line terminal,OLT)。
下面结合图3,对家庭宽带场景下的模型老化检测系统进行介绍。参见图3,图3为家庭宽带场景下的模型老化检测系统的结构示意图。如图3所示,该模型老化检测系统中包括:NCE-Server310、ONT320和OLT330。
NCE-Server310可以对初始的流量识别模型进行训练,并在完成对该初始的流量识别模型的训练后,通过OLT330将训练得到的流量识别模型下发至ONT320;ONT320利用该流量识别模型对经过自身的流量数据进行识别,确定流量数据来源的应用类别,从而便于根据上述识别结果为用户相应地提供业务优化和保障。
在需要对ONT320上承载的流量识别模型进行老化检测时,NCE-Server310可以通过OLT330从各ONT320处采集检测数据。该检测数据具体是流量识别模型对经过ONT320的流量数据进行识别得到的识别置信度。与此同时,NCE-Server310可以从本地或其他相关服务器处,获取训练流量识别模型时得到的基准数据,该基准数据是流量识别模型对其训练时使用的流量数据进行识别得到的识别置信度。进而,NCE-Server310可以分别基于上述检测数据和基准数据,获得检测数据集和基准数据集,执行本申请实施例提供的模型老化检测方法,根据检测数据集的分布特征和基准数据集的分布特征,判断各ONT320上当前承载的流量识别模型是否已老化。
在确定各ONT320上当前承载的流量识别模型已老化的情况下,NCE-Server310可以对该流量识别模型做进一步优化更新训练,得到能够准确识别当前流量数据的流量识别模型;进而,将优化更新得到的流量识别模型重新下发给各ONT320。
需要说明的是,为了保证模型老化检测的准确度,在获得检测数据集时通常需要根据各ONT320上传的检测数据的属性信息,对各ONT320上传的检测数据进行筛选,保证检测数据集中的检测数据的属性信息均符合预设条件。检测数据的属性信息通常即为该检测数据对应的流量数据的属性信息,例如,流量数据的采集时间、采集地点等均可作为检测数据的属性信息;当检测数据的属性信息包括采集时间和采集地点时,可以相应地将采集时间处于预设时间范围内、采集地点处于预设地理范围内作为筛选检测数据的预设条件。
在一种可能的情况下,可以由NCE-Server310进行上述筛选操作;即,由NCE-Server310根据各ONT320上传的检测数据的属性信息,从这些检测数据中筛选出用于组成检测数据集的检测数据。
在另一种可能的情况下,为了减少NCE-Server310需要执行的处理操作,在OLT330的处理性能足够的情况下,可以利用OLT330执行上述筛选操作;即,由OLT330根据各ONT320发送的检测数据的属性信息,从这些检测数据中筛选出可以用于组成检测数据集的检测数据,上传至NCE-Server310。
需要说明的是,除了可以利用ONT320承载流量识别模型外,还可以利用OLT330承载流量识别模型,这种情况下,OLT330也可以将自身运行的流量识别模型生成的检测数据发送至NCE-Server310上。
应理解,本申请实施例提供的模型老化检测方法,除了可以应用于上述适用于家庭宽带场景的模型老化检测系统以外,还可以应用于适用于其他场景的模型老化检测系统,例如,应用于适用于园区宽带场景的模型老化检测系统,在此不对本申请实施例提供的模型老化检测方法适用的应用场景做任何限定。
下面通过实施例对本申请提供的模型老化检测方法进行介绍。
参见图4,图4为本申请实施例提供的一种模型老化检测方法的流程示意图。为了便于描述,下述实施例以服务器作为执行主体进行描述,应理解,本申请实施例提供的模型老化检测方法的执行主体并不仅限于服务器;如图4所示,该模型老化检测方法包括以下操作。
操作401:获取检测数据集和基准数据集。所述检测数据集包括基于流量识别模型对网络中真实流量数据进行识别得到的识别置信度。所述基准数据集包括基于所述流量识别模型对训练所述流量识别模型时所使用的训练流量数据进行识别得到的识别置信度。
运行有流量识别模型的设备利用流量识别模型,对自身采集的流量数据进行识别得到其对应的识别置信度,该识别置信度用于表征该流量数据来源于各应用类别的概率,例如,假设流量识别模型能够识别的应用类别的数量为m,则基于该流量识别模型识别得到的识别置信度可以表现为一个m维的向量Pi,Pi=[pi 1,pi 2,......,pi m],其中,pi 1为流量数据产生于第一类应用类别的概率,pi 2为该流量数据产生于第二类应用类别的概率,以此类推。将流量识别模型确定的识别置信度作为检测数据发送至用于检测模型老化的服务器,如此,该服务器可以从各运行有流量识别模型的设备处获取到大量检测数据,进而获得检测数据集。
需要说明的是,流量识别模型可以对输入的流量数据进行识别,识别产生该流量数据的应用类别。该流量识别模型所能识别的应用类别具体包括:视频、游戏、下载、语音等等,在此不对该流量识别模型所能识别的应用类别做具体限定。
应理解,服务器可以获得一个检测数据集,也可以获得多个检测数据集,在此不对检测数据集的数量做任何限定。
与此同时,用于检测模型老化的服务器还可以获取基准数据集,基准数据集中包括基准数据,基准数据是流量识别模型对训练自身时所使用的训练流量数据进行识别得到的识别置信度,该识别置信度表征训练流量数据来源于各应用类别的概率,该识别置信度的表现形式与检测数据集中识别置信度的表现形式相类似。
基准数据集通常可以在训练流量识别模型时获得。具体的,在对流量识别模型进行训练之前,通常需要先获取训练样本集和测试样本集。训练样本集用于对流量识别模型进行训练,以调整流量识别模型的模型参数,训练样本集包括多个训练样本,每个训练样本包括流量数据及其对应的应用类别。测试样本集用于对流量识别模型的模型性能进行测试,以判断流量识别模型的模型性能是否满足预设标准,是否可以停止对于该流量识别模型的训练,测试样本集包括多个测试样本,每个测试样本包括流量数据及其对应的应用类别。
训练流量识别模型时,利用训练样本集中各训练样本对流量识别模型进行不断地训练优化,待训练满足一定条件时,例如,利用训练样本集对流量识别模型迭代训练的次数达到预设次数时,利用测试样本集中的各测试样本对流量识别模型进行测试,以判断流量识别模型的模型性能是否达到预设标准。在测试流量识别模型的模型性能已达到预设标准时,获取流量识别模型对测试样本中的流量数据进行识别得到的识别置信度,作为基准数据,如此,获取测试样本集中多个流量数据各自对应的识别置信度,组成基准数据集。应理解,上述训练样本集中的流量数据以及测试样本集中的流量数据,均属于训练流量数据。通常情况下,服务器根据测试样本集中的流量数据生成的识别置信度,获得基准数据集。但是,在实际应用中,服务器也可以根据训练样本集中的流量数据生成的识别置信度,获得基准数据集。
在一种可能的情况下,用于检测模型老化的服务器与用于训练流量识别模型的服务器为同一台服务器。该服务器利用测试样本集对流量识别模型进行测试,在确定该流量识别模型的模型性能达到预设标准时,获取流量识别模型对测试样本中的流量数据进行识别得到的识别置信度作为基准数据。如此,根据测试样本集中各流量数据各自对应的识别置信度获得基准数据集,将该基准数据集保存在本地,以便后续从本地调取该基准数据集对流量识别模型进行老化检测。
在另一种可能的情况下,用于检测模型老化的服务器与用于训练流量识别模型的服务器不是同一台服务器。用于训练流量识别模型的服务器也可以通过上述方式,在对流量识别模型进行测试的过程中,基于该流量识别模型对测试样本集中的流量数据进行识别得到的识别置信度,获得基准数据集。相应地,在用于检测模型老化的服务器需要对流量识别模型进行老化检测时,该用于检测模型老化的服务器可以从用于训练流量识别模型的服务器处获取该基准数据集。应理解,若在训练流量识别模型的过程中没有保存上述基准数据集,在需要对流量识别模型进行老化检测时,也可以直接获取训练该流量识别模型时所采用的训练流量数据,利用流量识别模型对所获取的训练流量数据进行识别获得基准数据,进而获得基准数据集。
图5为本申请实施例提供的获取检测数据集和基准数据集的实现方式的示意图。
如图5所示,流量识别模型500通常是基于训练样本集501训练得到的,该训练样本集501中包括大量的训练样本,每个训练样本包括流量数据和基于该流量数据标注的应用类别。具体训练流量识别模型500时,可以将训练样本中的流量数据输入该流量识别模型500,然后,基于该流量识别模型500输出的应用类别与训练样本中流量数据对应的应用类别,构建损失函数,进而,基于该损失函数对流量识别模型500的模型参数进行调整。如此,基于训练样本集501中各训练样本迭代执行上述训练过程。
待对流量识别模型500的训练满足一定条件时,例如,利用训练样本集501对流量识别模型500迭代训练的次数达到预设次数时,可以利用测试样本集502对流量识别模型500的模型性能进行测试。测试样本集502中包括大量的测试样本,每个测试样本包括流量数据和基于该流量数据标注的应用类别。具体测试流量识别模型500时,可以将测试样本中的流量数据输入流量识别模型500,流量识别模型500对输入的流量数据进行分析处理,输出该流量数据对应的应用类别,进而,根据该流量识别模型500输出的应用类别与测试样本中的应用类别,确定流量识别模型500的识别准确度。如此,基于测试样本集502中各测试样本重复执行上述测试过程,进而,基于每次测试过程获得的识别准确度,确定流量识别模型500当前的识别准确度。
当流量识别模型500当前的识别准确度达到预设阈值时,即可认为该流量识别模型500的模型性能已达到预设标准,可以结束对于该流量识别模型500的训练。此时,该流量识别模型500对测试样本中流量数据进行识别得到的识别置信度,即可作为基准数据,相应地,可以获取流量识别模型500对测试样本集502中各流量数据进行识别得到的识别置信度,组成基准数据集506。
需要说明的是,训练样本集501和测试样本集502中包括的数据类型相同,即均包括流量数据以及流量数据对应的应用类别。训练样本集501和测试样本集502的主要区别在于:对流量识别模型500训练的过程中所起的作用不同;训练样本集501用于训练流量识别模型500,即调整流量识别模型500的模型参数;测试样本集502用于对流量识别模型500进行性能测试,以判断是否完成对于流量识别模型500的训练。
在对流量识别模型500进行老化检测时,服务器需要分别获取检测数据集505和基准数据集506。
基准数据集506可以通过以下方式获得:从用于训练流量识别模型500的服务器处获取基准数据集506;由于基准数据集506通常可以在训练流量识别模型500的过程中生成,因此,服务器可以直接从用于训练流量识别模型500的服务器处获取该基准数据集506。此外,若在训练流量识别模型500的过程中没有保存基准数据集506,服务器还可以从用于训练流量识别模型500的服务器处获取测试样本集502,进而,利用流量识别模型500对测试样本集502中各流量数据进行识别,得到各流量数据各自对应的识别置信度,利用这些识别置信度组成基准数据集506。
检测数据集505可以通过以下方式获得:获取流量识别模型500在应用过程中采集的流量数据503,利用这些流量数据组成待检测流量数据集504。进而,将待检测流量数据集504中的流量数据输入至流量识别模型500中,获得流量识别模型500识别流量数据生成的识别置信度,如此,获得待检测数据集504中各流量数据各自对应的识别置信度,利用这些识别置信度组成检测数据集505。
需要说明的是,检测数据集505是基于流量识别模型在应用过程中采集的流量数据生成的,即,检测数据集505中包括的各个识别置信度,均是利用流量识别模型500对其应用过程中采集的流量数据进行识别生成的。而,基准数据集506是基于流量识别模型在训练过程中使用的流量数据生成的,即,基准数据集506中包括的各个识别置信度,均是流量识别模型500对自身被训练时使用的流量数据进行识别生成的。
需要说明的是,为了保证模型老化检测结果的准确度,防止发生误判断的情况,服务器在获取到各运行有流量识别模型的设备发送的检测数据后,可以先对所获取的检测数据进行预处理。即根据各检测数据的属性信息对检测数据进行筛选,保证检测数据集中的检测数据的属性信息均符合预设条件,上述检测数据的属性信息通常为该检测数据对应的流量数据的属性信息。
具体的,各运行有流量识别模型的设备向服务器上传检测数据时,可以将该检测数据的属性信息一同上传至服务器。检测数据的属性信息通常即为该检测数据对应的流量数据的属性信息,例如,流量数据的采集时间、采集地点、产生流量数据的设备型号以及一些能够表征流量数据质量的信息,等等。服务器接收到检测数据以及检测数据的属性信息后,可以判断检测数据的属性信息是否符合预设条件,如此从所接收的各个检测数据中,筛选出属性信息符合预设条件的检测数据,利用所筛选出的检测数据获得检测数据集。
应理解,上述预设条件可以根据实际需求进行设定,在此不对该预设条件做具体限定。
需要说明的是,在一些情况下,也可以由除用于检测模型老化的服务器以外的其他设备对检测数据进行筛选。例如,在图2所示的模型老化系统中,除了可以由NCE-Server筛选检测数据外,也可以由OLT对检测数据进行筛选,在此不对筛选检测数据的执行主体做任何限定。
在一种可能的实现方式中,检测数据的属性信息包括:流量数据的采集时间和采集地点。在这种情况下,则可以相应地将用于筛选检测数据的预设条件设置为:采集时间处于预设时间范围内,且采集地点处于预设地理范围内。
应理解,在不同的应用场景下,流量数据的主要产生时间不同。例如,在家庭宽带的应用场景下,流量数据的主要产生时间为工作日的晚上以及休息日;又例如,在园区宽带的应用场景下,流量数据的主要产生时间为工作日的白天。对于流量识别模型来说,对其进行训练时需要基于大量的训练样本,而这些训练样本通常是基于在上述流量数据的主要产生时间内采集的流量数据生成的。
为了保证老化检测时所基于的流量数据与训练模型时所基于的流量数据的来源分布基本相似,通常可以设置采集时间在预设时间范围内,以及采集地点在预设地理范围内,作为筛选检测数据的预设条件。例如,假设对流量识别模型进行训练时,所采用的流量数据是北京A小区晚上8点到12点产生的流量数据;相应地,对该流量识别模型进行老化检测时,可以将预设条件设置为:采集时间在晚上8点到12点之间,采集地点为北京A小区。如此从海量的检测数据中筛选出属性信息符合上述预设条件的检测数据,获得检测数据集。
需要说明的是,在筛选检测数据时,无需完全遵照训练模型时所采用的流量数据的属性信息设置预设条件,也可以根据训练模型时所采用的流量数据的属性信息,相应地设置与其类似的限制条件作为预设条件。在不知道训练模型时所采用的流量数据的属性信息的情况下,还可以根据流量识别模型的应用场景,设置流量数据的主要产生时间和主要产生地点作为预设条件。在此不对预设条件的设置方式做任何限定。
需要说明的是,在一些情况下,流量识别模型可能不输出上述识别置信度,而是直接输出流量数据对应的应用类别。这种情况下,为了获得识别置信度,服务器可以先检测流量识别模型的模型类型;然后,根据所检测的模型类型在对应关系表中相应地查找识别置信度生成算法,该对应关系表中存储有各种模型类型与其对应的识别置信度生成算法之间的对应关系;进而,通过所查找到的识别置信度生成算法获取识别置信度。
具体的,服务器可以预先配置用于检测模型类型的相关文件;在检测到流量识别模型不输出识别置信度时,调用该文件检测该流量识别模型的模型类型;进而,根据所检测到的模型类型,在对应关系表中查找其对应的识别置信度生成算法,调用该识别置信度生成算法生成识别置信度。
例如,当检测到流量识别模型为神经网络模型时,服务器可以获取该神经网络模型对应的识别置信度生成算法。由于神经网络模型在运行的过程中可以生成识别置信度,因此,该识别置信度生成算法仅需对该神经网络模型的模型参数进行修改,即可使得该神经网络模型输出其运行过程中生成的识别置信度。又例如,当检测到流量识别模型为决策树模型时,服务器可以获取该决策树模型对应的识别置信度生成算法。由于该决策树模型在运行的过程中不会生成识别置信度,因此,该识别置信度生成算法可以基于该模型输出的结果,相应地对其进行处理,生成识别置信度。
当然,流量识别模型还可以为其他类型的模型。对应地,用于获取识别置信度的识别置信度生成算法也可以为其他算法,在此不对流量识别模型的类型做任何限定,也不对识别置信度生成算法做任何限定。
操作402:确定所述基准数据集的分布特征和所述检测数据集的分布特征。
服务器获取到检测数据集和基准数据集后,可以进一步根据检测数据集中的各检测数据,确定检测数据集的分布特征,以及根据基准数据集中的各基准数据,确定基准数据集的分布特征。
需要说明的是,检测数据集实际上可以为一系列识别置信度的集合,每个识别置信度实际上均为一个m维的向量Pi,Pi=[pi 1,pi 2,......,pi m],其中,m为该流量识别模型所能识别的应用类别的数量,pi 1为流量数据产生于第一类应用类别的概率,pi 2为流量数据产生于第二类应用类别的概率,以此类推。相类似地,基准数据集实际上也为一系列识别置信度的集合,该集合中的每个识别置信度实际上也均为上述m维的向量。由此可见,确定基准数据集和检测数据集的分布特征,实质上就是确定两个包括有多个m维向量的集合的分布特征。
进一步地,为了便于后续对比基准数据集的分布特征和检测数据集的分布特征,可以将基准数据集中各m维的基准数据均映射至m维空间,将m维空间中基准数据集对应的点集合的空间分布特征,作为基准数据集的分布特征。相类似地,可以将检测数据集中各m维的检测数据均映射至m维空间,将m维空间中检测数据集对应的点集合的空间分布特征,作为检测数据集的分布特征。
应理解,在实际应用中,可以分别将基准数据集和检测数据集映射至不同的m维空间,也可以将基准数据集和检测数据集均映射至同一m维空间。
为了便于衡量上述m维空间中基准数据集和检测数据集各自对应的点集合分布特征之间的差异度,可以相应地获得合适的衡量指标。本申请在此提供了一种利用直方图表征分布特征的实现方式,即利用直方图表征基准数据集和检测数据集各自对应的分布特征,以便基于该直方图衡量上述两个分布特征之间的差异度。
具体构建直方图时,可以按照预设的区域划分方式,将m维空间划分为n个区域。进而,根据每个区域中基准数据在基准数据集中的占比,绘制直方图,作为基准数据集的分布特征。并且,根据每个区域中检测数据在检测数据集中的占比,绘制直方图,作为检测数据集的分布特征。
图6为本申请提供的一种基于点集合构建直方图的实现方式的示意图。如图6所示,可以将基准数据集R所处的m维空间作为基准,按照预设的区域划分方式,将该基准数据集R所处的m维空间划分为s1、s2、s3和s4四个区域;统计每个区域中基准数据的数量,进而计算每个区域中基准数据在基准数据集R中的占比;根据该占比绘制基准数据集R对应的直方图hR,该直方图的横坐标为区域标识,纵坐标为基准数据在基准数据集R中的占比。
相类似地,将对于基准数据集所处的m维空间的划分方式,施加于检测数据集T1所处的m维空间和检测数据集T2所处的m维空间,即将检测数据集T1所处的m维空间划分为s1、s2、s3和s4四个区域,将检测数据集T2所处的m维空间划分为s1、s2、s3和s4四个区域;分别统计每个区域中检测数据在其所属的检测数据集中的占比,根据该占比分别绘制检测数据集T1对应直方图hT1和检测数据集T2对应的直方图hT2。
需要说明的是,图5所示的区域划分方式仅为一种示例。在实际应用中,可以根据实际需求将m维空间等分为若干个区域,也可以基于点分布密度对m维空间进行划分,在此不对本申请中的区域划分方式做任何限定。此外,具体划分出的区域数目也可以根据实际需求任意设定,在此也不对所划分出的区域数目做任何限定。
应理解,除了可以利用直方图表征基准数据集和检测数据集的分布特征外,还可以通过其他方式表征基准数据集和检测数据集的分布特征,在此不对用于基准数据集和检测数据集的分布特征的表现形式做任何限定。
操作403:基于所述检测数据集的分布特征与所述基准数据集的分布特征,确定所述流量识别模型是否老化。
服务器确定出检测数据集的分布特征和基准数据集的分布特征后,计算检测数据集的分布特征与基准数据集的分布特征之间的差异度,并判断该差异度是否大于老化判定阈值。若该差异度大于或等于老化判定阈值,则说明当前输入流量识别模型的流量数据已发生概念漂移,由此可以确定该流量识别模型已老化,需要立即基于当前的流量数据对该流量识别模型进行优化更新训练;反之,若该差异度小于该老化判定阈值,则说明流量识别模型目前仍能准确地识别当前的流量数据所来源的应用类别,该流量识别模型还未老化,可以继续应用。
上述检测数据集的分布特征与基准数据集的分布特征之间的差异度,具体可以通过以下方式确定:计算检测数据集的分布特征与基准数据集的分布特征之间的信息熵,或相对熵、或余弦距离,作为二者的差异度。
下面以利用直方图表征数据集的分布特征为例,对上述三种计算差异度的方法分别进行介绍。
当计算检测数据集的分布特征与基准数据集的分布特征之间的信息熵作为差异度时,可以采用式(1)进行计算:
d(hR,hT)=h(pR||pT)=-∑i|pR(i)-pT(i)|*log2(|pR(i)-pT(i)|) (1)
其中,hR为基准数据集的分布特征,hT为检测数据集的分布特征,d(hR,hT)为基准数据集的分布特征与检测数据集的分布特征之间的差异度;pR(i)为第i个区域的基准数据在基准数据集中的占比,pT(i)为第i个区域的检测数据在检测数据集中的占比。
当计算检测数据集的分布特征与基准数据集的分布特征之间的相对熵作为差异度时,即计算检测数据集的分布特征与基准数据集的分布特征之间的KL散度作为差异度时,可以采用式(2)进行计算:
其中,hR为基准数据集的分布特征,hT为检测数据集的分布特征,d(hR,hT)为基准数据集的分布特征与检测数据集的分布特征之间的差异度;pR(i)为第i个区域的基准数据在基准数据集中的占比,pT(i)为第i个区域的检测数据在检测数据集中的占比。
当计算检测数据集的分布特征与基准数据集的分布特征之间的余弦距离作为差异度时,可以采用式(3)进行计算:
其中,hR为基准数据集的分布特征,hT为检测数据集的分布特征,d(hR,hT)为基准数据集的分布特征与检测数据集的分布特征之间的差异度;pR(i)为第i个区域的基准数据在基准数据集中的占比,pT(i)为第i个区域的检测数据在检测数据集中的占比。
应理解,除了可以通过上述三种计算方式,计算检测数据集的分布特征与基准数据集的分布特征之间的差异度外,还可以采用其他计算方式,计算检测数据集的分布特征与基准数据集的分布特征之间的差异度,在此不对差异度的计算方式做任何限定。
计算得到检测数据集的分布特征与基准数据集的分布特征之间的差异度d(hR,hT)后,将该差异度d(hR,hT)与老化判定阈值w进行比较,从而确定流量识别模型是否已老化,下面对老化判定阈值w的计算方法进行介绍:
具体计算老化判定阈值w时,可以基于K-fold交叉验证技术,根据用于训练该流量识别模型的训练样本集确定;具体的,可以将该训练样本集划分为K个样本集合,在第i次迭代过程中,将第i个样本集合作为测试集,利用其它K-1个样本集合作为训练集对流量识别模型进行训练,将利用该流量识别模型识别训练集(即K-1个样本集合)得到的识别置信度集合作为基准样本集Ri,将利用流量识别模型识别测试集(即第i个样本集合)得到的识别置信度集合作为测试样本集Ti,计算测试样本集的分布特征与基准样本集的分布特征之间的差异度di,di=d(hRi,hTi),具体计算方式可以采用上述操作303所介绍的方式;如此,将上述过程重复执行K次,利用每次计算得到的差异度组成差异度集合[d1,d2,...,di,...,dK],进而根据该差异度集合按照式(4)计算老化判定阈值w:
应理解,除了可以通过上述方式确定老化判定阈值外,也可以根据实际需求,采用其他方式确定老化判定阈值,在此不对确定老化判定阈值的方式做任何限定。
在上述模型老化检测方法中,先获取包括检测数据的检测数据集和包括基准数据的基准数据集,检测数据是流量识别模型对其应用时采集的流量数据进行识别得到的识别置信度,基准数据是流量识别模型对其训练时采用的流量数据进行识别得到的识别置信度。然后确定检测数据集的分布特征和基准数据集的分布特征。进而,根据检测数据集的分布特征与基准数据集的分布特征,确定该流量识别模型是否老化。该方法在检测模型老化的过程中,通过对识别置信度分布特征的改变情况进行分析,感知输入至该流量识别模型的流量数据特征分布的变化情况,据此判断流量识别模型是否老化。
针对上文描述的模型老化检测方法,本申请还提供了对应的模型老化检测装置,以使上述模型老化检测方法在实际中的应用以及实现。
参见图7,图7为本申请实施例提供的一种模型老化检测装置的结构示意图;如图7所示,该模型老化检测装置700包括:
获取模块701,用于获取检测数据集和基准数据集,其中所述检测数据集包括基于流量识别模型对网络中的真实流量数据进行识别得到的识别置信度;所述基准数据集包括基于所述流量识别模型对训练所述流量识别模型时使用的训练流量数据进行识别得到的识别置信度;
确定模块702,用于确定所述基准数据集的分布特征和所述检测数据集的分布特征;
老化判定模块703,用于基于所述检测数据集的分布特征与所述基准数据集的分布特征,确定所述流量识别模型是否老化。
具体实现时,获取模块701具体可以用于执行操作401中的方法,具体请参考图4所示的方法实施例中对操作401部分的描述。确定模块702具体可以用于执行操作402中的方法,具体请参考图4所示的方法实施例中对操作402部分的描述。老化判定模块703具体可以用于执行操作403中的方法,具体请参考图4所示的方法实施例中对操作403部分的描述。此处不再赘述。
可选的,所述确定模块702具体用于:
将所述基准数据集中各基准数据映射至m维空间,确定所述基准数据集的分布特征;所述m等于所述流量识别模型能够识别的应用类别的数量;
将所述检测数据集中各检测数据映射至所述m维空间,确定所述检测数据集的分布特征。
具体实现时,确定模块702具体可以参考图4所示的实施例中关于确定基准数据集的分布特征以及检测数据集的分布特征的相关内容的描述。
可选的,所述确定模块具体用于:
按照预设的区域划分方式,将所述m维空间划分为n个区域;
根据每个所述区域中基准数据在所述基准数据集中的占比,绘制直方图,作为所述基准数据集的分布特征;
根据每个所述区域中检测数据在所述检测数据集中的占比,绘制直方图,作为所述检测数据集的分布特征。
具体实现时,确定模块702具体可以参考图4所示的实施例中关于确定基准数据集的分布特征以及检测数据集的分布特征的相关内容的描述。
可选的,所述老化判定模块703具体用于:
根据所述检测数据集的分布特征与所述基准数据集的分布特征之间的差异度,确定流量识别模型是否老化;
则所述老化判定模块包括:差异度计算子模块;
所述差异度计算子模块,用于计算所述检测数据集的分布特征与所述基准数据集的分布特征之间的信息熵,或相对熵,或余弦距离,作为所述差异度。
具体实现时,老化判定模块703具体可以参考图4所示的实施例中关于根据差异度确定流量识别模型是否老化的相关内容的描述。
可选的,当所述流量识别模型不输出所述识别置信度时,所述装置还包括:
模型类型检测模块,用于检测所述流量识别模型的模型类型;
查找模块,用于根据所述模型类型,在对应关系表中查找识别置信度生成算法;所述对应关系表中存储有模型类型与识别置信度生成算法之间的对应关系;
置信度生成模块,用于通过所查找到的识别置信度生成算法,获得所述识别置信度。
具体实现时,模型类型检测模块、查找模块以及置信度生成模块具体可以参考图4所示的实施例中关于在流量识别模型不输出识别置信度的情况下,获取识别置信度的相关内容的描述。
在上述模型老化检测装置中,先调用获取模块,获取包括检测数据的检测数据集和包括基准数据的基准数据集,检测数据是流量识别模型对其应用时采集的流量数据进行识别得到的识别置信度,基准数据是流量识别模型对其训练时采用的流量数据进行识别得到的识别置信度。然后调用确定模块,确定检测数据集的分布特征和基准数据集的分布特征。最后,调用老化判定模块,基于检测数据集的分布特征与基准数据集的分布特征之间的差异度,确定该流量识别模型是否老化。该装置在检测模型老化的过程中,通过对识别置信度分布特征的改变情况进行分析,感知输入至该流量识别模型的流量数据特征分布的变化情况,据此判断流量识别模型是否老化。
本申请还提供了一种检测设备,该设备具体可以为服务器,该设备用于检测流量识别模型是否老化。参见图8,图8是本申请实施例提供的一种服务器结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的操作可以基于该图8所示的服务器结构。
其中,CPU 822用于执行如下操作:
获取检测数据集和基准数据集,其中所述检测数据集包括基于流量识别模型对网络中的真实流量数据进行识别得到的识别置信度;所述基准数据集包括基于所述流量识别模型对训练所述流量识别模型时使用的训练流量数据进行识别得到的识别置信度;
确定所述基准数据集的分布特征和所述检测数据集的分布特征;
基于所述检测数据集的分布特征与所述基准数据集的分布特征,确定所述流量识别模型是否老化。
可选的,CPU822还可以执行本申请实施例中模型老化检测方法任一具体实现方式的方法操作。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的模型老化检测方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的模型老化检测方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对一些其它技术方案做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分操作。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-Only Memory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (17)
1.一种流量识别模型老化检测方法,其特征在于,所述方法包括:
获取检测数据集和基准数据集,其中所述检测数据集包括基于流量识别模型对网络中的真实流量数据进行识别得到的识别置信度;所述基准数据集包括基于所述流量识别模型对训练所述流量识别模型时使用的训练流量数据进行识别得到的识别置信度;
确定所述基准数据集的分布特征和所述检测数据集的分布特征;
基于所述检测数据集的分布特征与所述基准数据集的分布特征,确定所述流量识别模型是否老化。
2.根据权利要求1所述的方法,其特征在于,所述确定所述基准数据集的分布特征和所述检测数据集的分布特征,包括:
将所述基准数据集中各基准数据映射至m维空间,确定所述基准数据集的分布特征;所述m等于所述流量识别模型能够识别的应用类别的数量;
将所述检测数据集中各检测数据映射至所述m维空间,确定所述检测数据集的分布特征。
3.根据权利要求2所述的方法,其特征在于,通过以下方式确定所述基准数据集的分布特征和所述检测数据集的分布特征:
按照预设的区域划分方式,将所述m维空间划分为n个区域;
根据每个所述区域中基准数据在所述基准数据集中的占比,绘制直方图,作为所述基准数据集的分布特征;
根据每个所述区域中检测数据在所述检测数据集中的占比,绘制直方图,作为所述检测数据集的分布特征。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述检测数据集的分布特征与所述基准数据集的分布特征,确定所述流量识别模型是否老化,包括:
根据所述检测数据集的分布特征与所述基准数据集的分布特征之间的差异度,确定流量识别模型是否老化;
所述差异度通过以下方式确定:
计算所述检测数据集的分布特征与所述基准数据集的分布特征之间的信息熵,或相对熵,或余弦距离,作为所述差异度。
5.根据权利要求1所述的方法,其特征在于,当所述流量识别模型不输出所述识别置信度时,通过以下方式获取所述识别置信度:
检测所述流量识别模型的模型类型;
根据所述模型类型,在对应关系表中查找识别置信度生成算法;所述对应关系表中存储有模型类型与识别置信度生成算法之间的对应关系;
通过所查找到的识别置信度生成算法,获得所述识别置信度。
6.根据权利要求1所述的方法,其特征在于,所述检测数据集中检测数据的属性信息符合预设条件,所述检测数据的属性信息为所述检测数据对应的流量数据的属性信息。
7.根据权利要求6所述的方法,其特征在于,所述属性信息包括:流量数据的采集时间和采集地点;
则所述预设条件为:所述采集时间处于预设时间范围内,且所述采集地点处于预设地理范围内。
8.一种流量识别模型老化检测装置,其特征在于,所述装置包括:
获取模块,用于获取检测数据集和基准数据集,其中所述检测数据集包括基于流量识别模型对网络中的真实流量数据进行识别得到的识别置信度;所述基准数据集包括基于所述流量识别模型对训练所述流量识别模型时使用的训练流量数据进行识别得到的识别置信度;
确定模块,用于确定所述基准数据集的分布特征和所述检测数据集的分布特征;
老化判定模块,用于基于所述检测数据集的分布特征与所述基准数据集的分布特征,确定所述流量识别模型是否老化。
9.根据权利要求8所述的装置,其特征在于,所述确定模块具体用于:
将所述基准数据集中各基准数据映射至m维空间,确定所述基准数据集的分布特征;所述m等于所述流量识别模型能够识别的应用类别的数量;
将所述检测数据集中各检测数据映射至所述m维空间,确定所述检测数据集的分布特征。
10.根据权利要求9所述的装置,其特征在于,所述确定模块具体用于:
按照预设的区域划分方式,将所述m维空间划分为n个区域;
根据每个所述区域中基准数据在所述基准数据集中的占比,绘制直方图,作为所述基准数据集的分布特征;
根据每个所述区域中检测数据在所述检测数据集中的占比,绘制直方图,作为所述检测数据集的分布特征。
11.根据权利要求8-10任一项所述的装置,其特征在于,所述老化判定模块具体用于:
根据所述检测数据集的分布特征与所述基准数据集的分布特征之间的差异度,确定流量识别模型是否老化;
则所述老化判定模块包括:差异度计算子模块;
所述差异度计算子模块,用于计算所述检测数据集的分布特征与所述基准数据集的分布特征之间的信息熵,或相对熵,或余弦距离,作为所述差异度。
12.根据权利要求8所述的装置,其特征在于,当所述流量识别模型不输出所述识别置信度时,所述装置还包括:
模型类型检测模块,用于检测所述流量识别模型的模型类型;
查找模块,用于根据所述模型类型,在对应关系表中查找识别置信度生成算法;所述对应关系表中存储有模型类型与识别置信度生成算法之间的对应关系;
置信度生成模块,用于通过所查找到的识别置信度生成算法,获得所述识别置信度。
13.一种流量识别模型老化检测系统,其特征在于,所述系统包括:检测设备和应用设备;所述应用设备上承载有流量识别模型;
所述应用设备,用于利用所述流量识别模型对流量数据进行识别得到检测数据,并向所述检测设备上传所述检测数据;
所述检测设备,用于执行所述权利要求1-7任一项所述的流量识别模型老化检测方法,检测所述流量识别模型是否已老化。
14.根据权利要求13所述的系统,其特征在于,所述检测设备包括:网络云化引擎服务器;所述应用设备包括:光网络终端和/或光线路终端。
15.根据权利要求13或14所述的系统,其特征在于,所述检测设备或所述应用设备还用于:
筛选属性信息符合预设条件的检测数据,所述检测数据的属性信息为所述检测数据对应的流量数据的属性信息。
16.一种检测设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的流量识别模型老化检测方法。
17.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的流量识别模型老化检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910314721.2A CN111835541B (zh) | 2019-04-18 | 2019-04-18 | 一种流量识别模型老化检测方法、装置、设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910314721.2A CN111835541B (zh) | 2019-04-18 | 2019-04-18 | 一种流量识别模型老化检测方法、装置、设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111835541A CN111835541A (zh) | 2020-10-27 |
CN111835541B true CN111835541B (zh) | 2021-10-22 |
Family
ID=72914942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910314721.2A Active CN111835541B (zh) | 2019-04-18 | 2019-04-18 | 一种流量识别模型老化检测方法、装置、设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111835541B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114079579B (zh) * | 2021-10-21 | 2024-03-15 | 北京天融信网络安全技术有限公司 | 一种恶意加密流量检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106982230A (zh) * | 2017-05-10 | 2017-07-25 | 深信服科技股份有限公司 | 一种流量检测方法及系统 |
CN107733921A (zh) * | 2017-11-14 | 2018-02-23 | 深圳中兴网信科技有限公司 | 网络流量异常检测方法、装置、计算机设备和存储介质 |
CN108023876A (zh) * | 2017-11-20 | 2018-05-11 | 西安电子科技大学 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
EP3454289A1 (en) * | 2016-05-04 | 2019-03-13 | Doosan Heavy Industries & Construction Co., Ltd. | Plant abnormality detection method and system |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100579037C (zh) * | 2007-05-09 | 2010-01-06 | 华为技术有限公司 | 网络流量仿真方法和设备、网络流量测试方法及设备 |
CN101651568B (zh) * | 2009-07-01 | 2011-12-07 | 青岛农业大学 | 一种网络流量预测和异常检测方法 |
CN102045363B (zh) * | 2010-12-31 | 2013-10-09 | 华为数字技术(成都)有限公司 | 网络流量特征识别规则的建立方法、识别控制方法及装置 |
CN102957579B (zh) * | 2012-09-29 | 2015-09-16 | 北京邮电大学 | 一种网络异常流量监测方法及装置 |
CN104994056B (zh) * | 2015-05-11 | 2018-01-19 | 中国电力科学研究院 | 一种电力信息网络中流量识别模型的动态更新方法 |
CN105162643B (zh) * | 2015-06-30 | 2018-04-27 | 天津车之家科技有限公司 | 流量预估的方法、装置及计算设备 |
CN108028807B (zh) * | 2015-10-09 | 2021-03-05 | 华为技术有限公司 | 用于在线自动识别网络流量模型的方法和系统 |
US10129118B1 (en) * | 2016-03-29 | 2018-11-13 | Amazon Technologies, Inc. | Real time anomaly detection for data streams |
CN105827455A (zh) * | 2016-04-27 | 2016-08-03 | 乐视控股(北京)有限公司 | 一种资源模型修正方法和装置 |
CN106612289A (zh) * | 2017-01-18 | 2017-05-03 | 中山大学 | 一种基于sdn的网络协同异常检测方法 |
CN107819631B (zh) * | 2017-11-23 | 2021-03-02 | 东软集团股份有限公司 | 一种设备异常检测方法、装置及设备 |
CN108200015A (zh) * | 2017-12-18 | 2018-06-22 | 北京天融信网络安全技术有限公司 | 一种检测异常流量的方法、分类模型的构建方法及设备 |
CN108173708A (zh) * | 2017-12-18 | 2018-06-15 | 北京天融信网络安全技术有限公司 | 基于增量学习的异常流量检测方法、装置及存储介质 |
CN108629183B (zh) * | 2018-05-14 | 2021-07-20 | 南开大学 | 基于可信度概率区间的多模型恶意代码检测方法 |
CN109462580B (zh) * | 2018-10-24 | 2021-03-30 | 全球能源互联网研究院有限公司 | 训练流量检测模型、检测业务流量异常的方法及装置 |
-
2019
- 2019-04-18 CN CN201910314721.2A patent/CN111835541B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3454289A1 (en) * | 2016-05-04 | 2019-03-13 | Doosan Heavy Industries & Construction Co., Ltd. | Plant abnormality detection method and system |
CN106982230A (zh) * | 2017-05-10 | 2017-07-25 | 深信服科技股份有限公司 | 一种流量检测方法及系统 |
CN107733921A (zh) * | 2017-11-14 | 2018-02-23 | 深圳中兴网信科技有限公司 | 网络流量异常检测方法、装置、计算机设备和存储介质 |
CN108023876A (zh) * | 2017-11-20 | 2018-05-11 | 西安电子科技大学 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111835541A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109922032B (zh) | 用于确定登录账户的风险的方法、装置、设备及存储介质 | |
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
CN110766080B (zh) | 一种标注样本确定方法、装置、设备及存储介质 | |
CN110019074B (zh) | 访问路径的分析方法、装置、设备及介质 | |
CN111475680A (zh) | 检测异常高密子图的方法、装置、设备及存储介质 | |
CN111898578B (zh) | 人群密度的获取方法、装置、电子设备 | |
CN108768695B (zh) | Kqi的问题定位方法及装置 | |
CN111526119A (zh) | 异常流量检测方法、装置、电子设备和计算机可读介质 | |
CN109063433B (zh) | 虚假用户的识别方法、装置及可读存储介质 | |
CN111932269A (zh) | 设备信息处理方法及装置 | |
CN112801155B (zh) | 基于人工智能的业务大数据分析方法及服务器 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN110648172B (zh) | 一种融合多种移动设备的身份识别方法和系统 | |
CN109995611B (zh) | 流量分类模型建立及流量分类方法、装置、设备和服务器 | |
CN116707859A (zh) | 特征规则提取方法和装置、网络入侵检测方法和装置 | |
CN106572486B (zh) | 一种基于机器学习的手持终端流量识别方法和系统 | |
CN111835541B (zh) | 一种流量识别模型老化检测方法、装置、设备及系统 | |
CN108268877A (zh) | 一种识别目标终端的方法和装置 | |
CN113746780A (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
CN113660687B (zh) | 网络差小区处理方法、装置、设备及存储介质 | |
CN115296984A (zh) | 异常网络节点的检测方法及装置、设备、存储介质 | |
CN113886821A (zh) | 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质 | |
CN109889981B (zh) | 一种基于二分类技术的定位方法及系统 | |
CN114168788A (zh) | 音频审核的处理方法、装置、设备及存储介质 | |
KR20210142864A (ko) | 계량기 숫자 인식 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |