CN110245132B - 数据异常检测方法、装置、计算机可读存储介质和计算机设备 - Google Patents
数据异常检测方法、装置、计算机可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN110245132B CN110245132B CN201910506329.8A CN201910506329A CN110245132B CN 110245132 B CN110245132 B CN 110245132B CN 201910506329 A CN201910506329 A CN 201910506329A CN 110245132 B CN110245132 B CN 110245132B
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- similarity
- sample
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 230000002159 abnormal effect Effects 0.000 claims abstract description 119
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000013441 quality evaluation Methods 0.000 claims description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000001303 quality assessment method Methods 0.000 claims description 2
- 238000012790 confirmation Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000005856 abnormality Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据异常检测方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待检测数据,计算待检测数据中数据簇内各个数据样本之间的相似度,得到数据样本之间的相似度,根据数据样本之间的相似度确定数据簇对应的非相似数据样本对。获取到数据簇对应的非相似阈值,根据非相似度阈值和和非相似数据样本对确定数据簇的状态,将异常状态的数据簇对应的数据作为待检测数据中的异常数据。将待检测数据中的各个数据簇分别进行检测,能够提高待检测数据中异常数据的检测效率。并且根据各个数据簇对应的非相似度阈值来确定数据簇的状态,能够提高确定数据簇的状态的准确度,从而提高得到待检测数据中的异常数据的准确度。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据异常检测方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着互联网技术的发展,各种网站或者平台等会产生越来越多的数据,得到大量数据。通常,在使用大量数据时,需要对大量数据进行异常检测,发现大量数据中存在异常的数据并剔除,得到纯净的数据。然而,现有技术中检测大量数据中异常数据的准确度较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高异常数据检测准确度的数据异常检测方法、装置、计算机可读存储介质和计算机设备。
一种数据异常检测方法,包括:
获取待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本;
计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对;
获取各个数据簇对应的非相似阈值,根据非相似阈值和非相似数据样本对确定各个数据簇的状态;非相似阈值是根据数据簇内的数据样本数量确定的;
将异常状态的数据簇对应的数据作为待检测数据中的异常数据。
一种数据异常检测装置,该装置包括:
数据获取模块,用于获取待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本;
样本相似度计算模块,用于计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对;
簇状态确定模块,用于获取各个数据簇对应的非相似阈值,根据非相似阈值和非相似数据样本对确定各个数据簇的状态;非相似阈值是根据数据簇内的数据样本数量确定的;
第一异常数据确定模块,用于将异常状态的数据簇对应的数据作为待检测数据中的异常数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行程序时实现以下步骤:
获取待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本;
计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对;
获取各个数据簇对应的非相似阈值,根据非相似阈值和非相似数据样本对确定各个数据簇的状态;非相似阈值是根据数据簇内的数据样本数量确定的;
将异常状态的数据簇对应的数据作为待检测数据中的异常数据。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本;
计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对;
获取各个数据簇对应的非相似阈值,根据非相似阈值和非相似数据样本对确定各个数据簇的状态;非相似阈值是根据数据簇内的数据样本数量确定的;
将异常状态的数据簇对应的数据作为待检测数据中的异常数据。
上述数据异常检测方法、装置、计算机可读存储介质和计算机设备,通过计算数据簇内各个数据样本之间的相似度,得到数据样本之间的相似度,根据数据样本之间的相似度确定数据簇对应的非相似数据样本对。此时,获取到数据簇对应的非相似阈值,根据非相似度阈值和和非相似数据样本对确定数据簇的状态,将异常状态的数据簇对应的数据作为待检测数据中的异常数据。根据各个数据簇对应的非相似度阈值来确定数据簇的状态,能够提高确定数据簇的状态的准确度,从而提高得到待检测数据中的异常数据的准确度。
附图说明
图1为一个实施例中数据异常检测方法的应用环境图;
图2为一个实施例中数据异常检测方法的流程示意图;
图3为一个实施例中数据簇中异常数据样本的示意图;
图4为另一个实施例中数据异常检测方法的流程示意图;
图5为一个实施例中计算数据簇对相似度的流程示意图;
图6为一个实施例中计算第一数据簇与第二数据簇相似度的流程示意图;
图7为一个实施例中计算评价数据样本的流程示意图;
图8为一个具体实施例中数据异常检测方法的流程示意图;
图8a为另一个具体实施例中数据异常检测方法的流程示意图;
图9为一个实施例中对原始数据聚类的流程示意图;
图10为一个实施例中得到非相似度数据样本对的流程示意图;
图11为一个实施例中提取数据样本特征的流程示意图;
图12为一个实施例中确定数据簇状态的流程示意图;
图13为又一个具体实施例中数据异常检测方法的流程示意图;
图13a为再一个具体实施例中数据异常检测方法的流程示意图;
图14为一个实施例中数据异常检测装置的结构框图;
图15为另一个实施例中数据异常检测装置的结构框图;
图16为一个实施例中簇对相似度计算模块的结构框图;
图17为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中数据异常检测方法的应用环境图。参照图1,该数据异常检测方法应用于数据异常检测系统。该数据异常检测系统包括终端102和服务器104。终端102和服务器104通过网络连接。终端102具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端102采集待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本,再将采集的待检测数据发送服务器104。服务器104计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对。服务器104获取各个数据簇对应的非相似阈值,根据非相似阈值和非相似数据样本对确定各个数据簇的状态;非相似阈值是根据数据簇内的数据样本数量确定的。服务器104将异常状态的数据簇对应的数据作为待检测数据中的异常数据。进一步地,服务器104可以将待检测数据中的异常数据发送至终端102进行展示。
在一个实施例中,提供了一种数据异常检测方法。本实施例主要以该方法应用于上述图1中的终端102或服务器104来举例说明。参照图2,该数据异常检测方法具体包括如下步骤:
S202,获取待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本。
其中,待检测数据是指要进行异常数据检测的数据,该数据可以是各种类型的数据,比如,待检测数据可以是人脸图像数据,可以是用户浏览网站的用户行为数据,可以是交易数据,可以是语音数据等等。数据簇是对数据样本进行聚类得到的,每个数据簇都包括有具有一定相似性的多个数据样本。比如,将大量的人脸图像进行聚类,得到每一个人对应的人脸图像簇,该人脸图像簇包括该人的各种人脸图像。或者将大量用户的用户行为数据进行聚类,得到每一个用户的用户行为数据簇,该用户行为数据簇中就包括该用户的用户行为数据。或者将大量用户的交易数据进行聚类,每一个用户对应的交易数据簇,该交易数据簇包括该用户的交易数据。或者将大量的语音数据进行聚类,得到每一个用户对应的语音数据簇。数据样本是指待检测数据中数据个体,数据簇中包括多个相似的数据个体,不同的数据簇中数据样本的数量不同。比如,人脸图像数据中数据样本为人脸图像。用户行为数据中数据样本可以是一条用户行为数据记录。交易数据中数据样本可以是一条交易记录。语音数据中的数据样本可以是一条语音记录。
具体地,获取采集到的原始数据,提取原始数据中各个数据样本的数据样本特征,并将数据样本特征转换为数据样本特征向量,根据数据样本特征和初始聚类簇中心不断进行聚类计算,直到将原始数据中各个数据样本分类到各个簇中时,得到至少两个数据簇,即得到待检测数据。原始数据是直接从各个数据源采集到的数据,数据源即数据的来源,可以是从数据库服务器中得到,也可以从各个数据网站进行采集得到。
S204,计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对。
其中,各个数据样本之间的相似度是指循环遍历数据簇中的各个数据样本,得到数据样本对,计算每个数据样本对中数据样本之间的相似度,得到各个数据样本之间的相似度。数据样本对是由任意两个数据样本组成的,可以是同一个数据簇中的数据样本,也可以是不同数据簇中的数据样本。计算数据样本之间的相似度可以使用相似度算法进行计算,相似度算法可以是用比如,余弦距离算法,欧式距离算法、皮尔逊相关系数等。非相似数据样本对是指数据样本对中相似度未超过设定的相似度阈值的数据样本对。
具体地,可以使用余弦距离算法计算数据簇内每两个数据样本之间的相似度。当数据样本是人脸图像时,提取两个人脸图像的人脸图像特征,将人脸图像特征转换为人脸图像特征向量,使用余弦距离算法公式计算人脸图像特征向量A和人脸图像特征向量B的相似度。当计算出数据簇内各个数据样本之间的相似度时,将各个数据样本之间的相似度与设定的相似度阈值进行比较,当数据样本之间的相似度未超过设定的相似度阈值时,则将数据样本之间的相似度未超过设定的相似度阈值对应的两个数据样本作为非相似数据样本对,则可以得到数据簇内的所有非相似数据样本对。
在一个实施例中,使用欧式距离算法公式计算出人脸图像特征向量A和人脸图像特征向量B的相似度。
在一个实施例中,使用皮尔逊相关系数公式计算出人脸图像特征向量A和人脸图像特征向量B的相似度。其中,E为数学期望。
S206,获取各个数据簇对应的非相似阈值,根据非相似阈值和非相似数据样本对确定各个数据簇的状态;非相似阈值是根据数据簇内的数据样本数量确定的。
其中,非相似阈值是根据数据簇内的数据样本数量确定的,与数据簇内的数据样本数量成正比。即非相似阈值根据数据簇内的数据样本数量自适应的。数据簇的状态包括正常状态和异常状态。异常状态的数据簇是指该数据簇中存在与数据簇中的数据样本不相似的异常数据样本,即该异常数据样本不属于该数据簇,则该数据簇处于异常状态。异常数据样本是指异常数据样本与除异常数据样本以外的数据样本的相似距离超过设定的相似距离。可以如图3所示,为一个数据簇中的一个异常数据样本的示意图,黑色圆点为异常数据样本,白色圆点为正常数据样本。图中实线和虚线表示数据样本之间的相似距离。实线表示异常数据样本与正常数据样本的相似距离,虚线表示正常数据样本与正常数据样本的相似距离。实线长度超过虚线长度表示异常数据样本与正常数据样本的相似距离超过正常样本与正常样本的相似距离。
例如,当数据簇是人脸图像簇时,该人脸图像簇中的人脸图像应该是同一个人的人脸图像,当人脸图像簇中的人脸图像存在不是同一个人的人脸图像时,则该人脸图像簇处于异常状态。该人脸图像簇为“小光”的人脸图像簇,则白色圆点为“小光”的人脸图像。图中黑色圆点可以是“小明”的人脸图像。则该“小光”的人脸图像簇处于异常状态。
具体地,根据各个数据簇内的数据样本数量获取到各个数据簇对应的非相似阈值。然后根据各个数据簇内的非相似数据样本对得到各个数据簇内的非相似数据样本对数,再根据各个数据簇内的数据样本数量得到各个数据簇对应的所有数据样本对数,计算出各个数据簇对应的非相似数据样本对数的占比,将各个数据簇对应的非相似数据样本对数的占比与获取的各个数据簇对应的非相似阈值进行比较,当数据簇对应的非相似数据样本对数的占比超过数据簇对应的非相似阈值时,说明数据簇中存在异常数据样本,则得到数据簇的状态为异常状态。当数据簇对应的非相似数据样本对数的占比未超过数据簇对应的非相似阈值时,说明数据簇中未存在异常数据样本,则得到数据簇的状态为正常状态。
S208,将异常状态的数据簇对应的数据作为待检测数据中的异常数据。
具体地,将异常状态的数据簇对应的所有数据样本作为待检测数据中的异常数据样本。
在一个实施例中,可以从待检测数据中将异常状态的数据簇中的所有数据样本进行删除。
在一个实施例中,可以将异常状态的数据簇中的所有数据样本从待检测数据中召回,即将异常状态的数据簇中的所有数据样本作为原始数据重新进行聚类。
在一个实施例中,可以将异常状态的数据簇中的所有数据样本发送到管理终端,通过管理人员再次审核异常状态的数据簇中的所有数据样本。此时,获取管理人员到管理终端发送的异常数据样本删除指令,根据该异常数据样本删除指令将异常状态的数据簇中的异常数据样本进行删除,将删除异常数据样本的数据簇保留。
上述数据异常检测方法,通过计算数据簇内各个数据样本之间的相似度,得到数据样本之间的相似度,根据数据样本之间的相似度确定数据簇对应的非相似数据样本对。此时,获取到数据簇对应的非相似阈值,根据非相似度阈值和和非相似数据样本对确定数据簇的状态,将异常状态的数据簇对应的数据作为待检测数据中的异常数据。将待检测数据中的各个数据簇分别进行检测,能够提高待检测数据中异常数据的检测效率。并且根据各个数据簇对应的非相似度阈值来确定数据簇的状态,能够提高确定数据簇的状态的准确度,从而提高得到待检测数据中的异常数据的准确度。
在一个实施例中,如图4所示,数据异常检测方法还包括步骤:
S402,根据各个数据簇中的数据样本计算各个数据簇之间的相似度,得到各个数据簇对相似度。
其中,数据簇对是指从各个数据簇中任意选取两个数据簇得到的。当待检测数据中有N个数据簇时,数据簇对就会有个数据簇对。数据簇对相似度用于反映数据簇与数据簇之间的相似程度,是指数据簇对中数据簇的数据样本之间的相似度超过预设阈值的相似度的数量占所有数据样本之间的相似度数量的比值。该预设阈值是预先设定好的阈值,预设阈值可以50%。
具体地,根据待检测数据中的各个数据簇得到各个数据簇对,根据数据簇的数据样本计算数据簇对中数据簇之间的相似度,例如,当数据簇对中第一数据簇中有n个数据样本,第二数据簇有m个数据样本,使用相似度算法计算第一数据簇中每个数据样本与第二数据簇中每个数据样本之间的相似度。则数据簇之间会计算出n*m个相似度,将数据簇之间的各个相似度与预设阈值进行比较,统计数据簇之间的相似度超过预设阈值的相似度数量为q,则得到数据簇对的相似度为
S404,根据各个数据簇对相似度和预设相似阈值,确定各个数据簇对的状态。
其中,预设相似阈值是指预先设定的进行数据簇对状态判断的阈值。数据簇对的状态包括正常状态的数据簇对和异常状态的数据簇对。异常状态的数据簇对是指数据簇对的数据簇之间的数据样本为相似的数据样本即为同一类数据样本的数据簇。正常状态的数据簇对是指数据簇对的数据簇之间的数据样本为不相似的数据样本,即为不同类数据样本的数据簇。比如:在人脸图像的聚类结果中有两个人脸图像簇中数据样本都为“小明”的人脸图像,则这两个人脸图像簇组成的人脸图像簇对为异常状态的人脸图像簇。当有两个人脸图像簇,一个为“小明”的人脸图像簇,一个为“小光”的人脸图像簇,则“小明”的人脸图像簇和“小光”的人脸图像簇组成的人脸图像簇对为正常状态的人脸图像簇对。
具体地,当数据簇对的相似度超过预设相似阈值时,得到数据簇对的状态为异常,当数据簇对的相似度未超过预设相似阈值时,得到数据簇对的状态为正常。将待检测数据中每个数据簇对的相似度与预设相似阈值进行比较,得到所有数据簇对的状态。
S406,将异常状态的数据簇对对应的数据作为待检测数据中的异常数据,异常状态的数据簇对是指数据簇对对应的数据簇对相似度超过预设相似度阈值。
具体地,当数据簇对对应的数据簇对相似度超过预设相似度阈值,则该数据簇对的状态为异常状态,此时,将异常状态的数据簇对中各个数据簇的所有数据样本作为待检测数据中的异常数据。
在一个实施例中,可以将异常状态的数据簇对中数据簇合并为一个数据簇。由于异常状态的数据簇对中数据簇的数据样本为相似的数据样本,将可以将异常状态的数据簇对中对应的数据合并为同一个数据簇。
在一个实施例中,可以将异常状态的数据簇对中数据簇的所有数据样本删除,即将该数据簇对的两个数据簇对应的数据样本从待检测数据中删除。
在一个实施例中,可以将异常状态的数据簇对中数据簇的所有数据样本从待检测数据中召回,使待检测数据中没有异常状态的数据簇对,召回是指将待检测数据中异常数据作为原始数据重新分配到数据簇中。
在一个实施例中,可以将异常状态的数据簇对中数据簇的所有数据样本发送到管理终端,通过管理人员再次审核异常状态的数据簇对中数据簇的所有数据样本。此时,获取管理人员通过管理终端发送的数据簇合并指令,根据数据簇合并指将异常数据簇对中数据簇的数据样本合并,得到合并后的数据簇,将合并后的数据簇保留。
在上述数据异常检测方法中,通过计算数据簇对相似度,确定出数据簇对的状态,将异常状态的数据簇对对应的数据作为待检测数据中的异常数据,能够检测出数据簇之间的异常数据,提高异常数据检测的准确性。
在一个实施例中,如图5所示,根据各个数据簇中的数据样本计算各个数据簇之间的相似度,得到各个数据簇对相似度,包括步骤:
S502,获取各个数据簇中数据样本的质量评价信息。
其中,质量评价信息是用于对数据样本的数据质量进行评价的信息,该信息可以是对数据样本的评价数值,也可以是对数据样本的评价等级等等。
比如,数据样本是人脸图像,则对图像的质量评价信息可以是图像质量分,图像质量的含义包括图像的逼真度和图像的可读懂性。图像质量指标包括分辨率、色彩深度、图像失真等方面,即根据图像质量指标得到图像质量分。
比如,数据样本是交易记录,则对交易记录的质量评价信息可以是交易等级。交易等级用于反映该交易记录的重要程度,可以根据交易金额、交易对象、交易时间等得到交易等级。
具体地,可以预先对待检测数据中的数据样本的数据质量进行评价,得到质量评价信息,将质量评价信息保存到对应的数据表中,然后从数据表中查找到各个数据簇中各个数据样本对应的质量评价信息。
S504,根据质量评价信息分别从各个数据簇中选取预设数量的数据样本,得到各个数据簇对应的目标数据样本。
具体地,可以根据质量评价信息对各个数据簇的数据样本进行排序,按照每个数据簇中数据样本的排序结果依次从数据簇的数据样本中选取的预设数量的数据样本,作为各个数据簇对应的目标数据样本,该选取的目标数据样本是高质量评价信息对应数据样本的集合。其中,预设数量可以根据各个数据簇的数据样本数量决定,当数据簇的数据样本数量多时,预设数量相应增加,当数据簇的数据样本数量少时,预设数量相应减少。即根据可以数据簇的数据样本数量动态调整选取的预设数量。
S506,计算各个数据簇对应的目标数据样本之间的相似度,根据各个数据簇对应的目标数据样本之间的相似度确定各个数据簇对相似度。
其中,目标数据样本是指数据簇中预设数量的数据样本集合。使用目标数据样本计算数据簇对相似度,可以减少计算量,提高计算数据簇对相似度的效率。
具体地,根据待检测数据中的各个数据簇,得到各个数据簇对。每一个数据簇对中的数据簇都有对应的目标数据样本,使用相似度算法计算各个数据簇对应的目标数据样本之间的相似度。并且统计得到数据簇对之间的相似度数量和数据簇对之间的相似度超过预设阈值的相似度数量,根据数据簇对之间的相似度超过预设阈值的相似度数量和数据簇对之间的相似度数量确定数据簇对的相似度。
在上述实施例中,通过根据质量评价信息选取预设数量的数据样本,得到目标数据样本,计算各个数据簇对应的目标数据样本之间的相似度从而确定数据簇对的相似度,能够提高得到数据簇对相似度的效率。
在一个实施例中,如图6所示,计算各个数据簇对应的目标数据样本之间的相似度,根据各个数据簇对应的目标数据样本之间的相似度确定各个数据簇对相似度,包括步骤:
S602,获取各个数据簇中第一数据簇对应的第一目标数据样本和第二数据簇对应的第二目标数据样本。
S604,计算第一目标数据样本中各个数据样本与第二目标数据样本中各个数据样本的各个目标相似度。
具体地,从各个数据簇中选取各个数据簇对,并获取各个数据簇对中第一数据簇对应的第一目标数据样本和第二数据簇对应的第二目标数据样本。分别计算第一目标数据样本中各个数据样本与第二目标数据样本中各个数据样本的相似度,得到各个数据样本对的相似度。该数据样本对中的数据样本在两个不同的数据簇中。
S606,统计目标相似度总数和目标相似度超过预设目标阈值的目标相似度数。
S608,根据目标相似度总数和目标相似度数计算得到第一数据簇和第二数据簇对应的数据簇对相似度。
其中,目标相似度总数即是根据第一目标数据样本和第二目标数据样本得到的数据样本对总数。目标相似度数是指数据样本对对应的相似度超过预设目标阈值的数据样本对数量。该预设目标阈值是预先设定好的阈值,用于判断不同数据簇的数据样本对之间的相似度是否超过该预设目标阈值。
具体地,统计目标相似度总数和目标相似度超过预设目标阈值的目标相似度数,计算目标相似度数与目标相似度总数的比值即得到第一数据簇和第二数据簇对应的数据簇对相似度。
在一个具体的实施例中,第一数据簇对应的目标数据样本有k(k<n且k<m)个数据样本,第二数据簇对应的目标数据样本有k(k<m且k<n)个数据样本,则根据目标数据样本使用相似度算法计算第一数据簇与第二数据簇之间的相似度,得到k*k个相似度。统计第一数据簇与第二数据簇之间的相似度超过预设阈值的相似度数量为t(t<=k*k),则得到由第一数据簇与第二数据簇组成的数据簇对相似度为
在一个实施例中,如图7所示,获取各个数据簇中数据样本的质量评价信息,包括步骤:
S702,获取各个数据簇中的数据样本,将数据样本输入到已训练的质量评价模型中进行识别,得到输出结果。
S704,根据输出结果得到各个数据簇中数据样本的质量评价信息。
其中,质量评价模型用于对数据样本进行评价,是通过历史数据样本和对应的质量评价信息使用深度学习算法训练得到的。深度学习算法可以是深度神经网络算法包括卷积神经网络算法、循环神经网络算法和递归神经网络算法等。输出结果是指质量评价模型的输出向量,在训练质量评价模型时将历史输出向量与历史质量评价信息进行关联。
具体地,获取到历史数据样本和对应的质量评价信息,从历史数据样本中提取特征得到历史数据样本特征向量,根据历史数据样本对应的质量评价信息得到历史质量评价信息向量。将历史数据样本特征向量作为卷积神经网络的输入,将历史质量评价信息向量作为卷积神经网络的标签进行训练,当训练完成时,得到已训练的质量评价模型,将已训练的质量评价模型部署运行。当得到待检测数据时,将各个数据簇中的数据样本提取数据样本特征向量,输入到运行的质量评价模型中进行识别计算,得到各个数据样本对应的质量评价信息向量。根据历史输出向量与历史质量评价信息的关联关系,根据该输出结果得到各个数据簇中数据样本的质量评价信息。
在上述实施例中,通过已训练的质量评价模型对数据样本进行质量评价,提高了得到各个数据簇中数据样本的质量评价信息的准确性。
在一个具体的实施例中,如图8所示,提供一种数据异常检测方法,具体包括以下步骤:
S802,获取到待检测数据,待检测数据中包括大规模的人脸建档数据,人脸建档数据中包括N个人脸数据档,每个人脸数据档中包括有多个人脸图像。人脸数据档是将原始人脸图像聚类分析后得到的同一人的人脸图像簇。
S804,通过已训练的质量评价模型获取到每个人脸图像对应的人脸质量分,按照人脸质量分将每个人脸数据档中的人脸图像由高到底进行排序,按照每个人脸数据档的排序结果从每个人脸数据档中由高到底依从选取K个人脸图像。
S806,选取任意一对人脸数据档,得到该一对人脸数据档中每个人脸数据档对应的K个人脸图像,使用余弦相似度算法分别计算不同人脸数据档中每个人脸图像之间的相似度;
S808,统计相似度大于预设阈值的人脸图像对数为T,并计算出所有的人脸图像对数K*K,计算相似百分比即相似度大于预设阈值的人脸图像对数在所有的人脸图像对数中的占比得到
S810,将相似百分比与预设相似阈值进行比较,当相似百分比超过预设相似阈值时,该一对人脸数据档为异常状态的人脸数据档对,即为一人多档,即该一对人脸数据档中的人脸图像为同一人的人脸图像。当相似百分比未超过预设相似阈值时该一对人脸数据档正常状态的人脸数据档对,即为非一人多档。即该一对人脸数据档对的人脸数据档中的人脸图像分别为两个人的人脸图像。
S812,当根据待检测数据中所有人脸数据档得到的人脸数据档对都被检测完成时,执行步骤S814,当根据待检测数据中所有人脸数据档得到的人脸数据档对未被检测完成时,返回步骤S806继续进行执行,即返回从未被检测的人脸数据档对中选取任意一对人脸数据档的步骤进行执行。
S814,将异常状态的人脸数据档对对应的人脸图像作为待检测数据中的异常数据。
在一个具体的实施例中,如图8a所示,数据异常检测方法包括步骤:
S802a,数据聚类成N个簇。
S804a,对N个簇内的样本根据人脸质量分进行降序排序。
S806a,选取任意数据簇对中数据簇的前topK个数据样本,计算数据簇对中数据样本的相似度。
S808a,统计相似的数据簇对,记为sim_num,计算相似百分比per=sim_num/(topK*topK)。根据根据设定的阈值high_score统计相似的数据簇对,当数据样本相似度超过high_score时,相似的数据簇对数加1。
S810a,判断Per是否超过预设相似阈值threshold。当Per超过预设相似阈值threshold时,执行步骤S812a。当Per未超过预设相似阈值threshold时,执行步骤S814a。
S812a,该数据簇对为一人多档。
S814a,该数据簇对为非一人多档。
在一个实施例中,如图9所示,获取待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本,包括步骤:
S902,获取原始数据,将原始数据进行划分,得到各个目标原始数据。
其中,原始数据是直接从各个数据源采集到的数据,是未经过处理或者简化的数据,该原始数据可以是文本数据,图像数据和音频数据等等。目标原始数据是原始数据中的部分数据。
具体地,获取到原始数据,对原始数据进行数据清洗,当清洗后的原始数据的数据量超过设定的数据量时,按照配置的划分规则对原始数据进行划分,得到预定数量的目标原始数据。配置的划分规则是指预先配置好的对原始数据进行划分的具体方法,比如,可以是计算原始数据中的数据样本数量,按照数据样本数量进行等分,得到具有相同数据样本数量的各个目标原始数据。也可以根据原始数据中的数据样本的数值标识,将数值标识取模计算,将计算结果相同的数据样本划分为同一个目标原始数据内。
S904,使用聚类算法对各个目标原始数据分别进行聚类,得到各个目标原始数据对应的多个原始数据簇。
其中,聚类是指将将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类算法可以包括划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)等等。
具体地,使用聚类算法对各个目标原始数据分别进行聚类,可以依次对目标原始数据进行聚类,也可以对各个目标原始数据并行聚类。每个目标原始数据都会有对应的聚类结果即多个原始数据簇。
在一个实施例中,使用划分法对各个目标原始数据分别进行聚类。确定各个目标原始数据的聚类中心,根据聚类中心将各个目标原始数据进行聚类。
在一个实施例中,使用层次法各个目标原始数据分别进行聚类。对各个各个目标原始数据分别进行层次似的分解,直到聚类完成条件满足为止。例如,可以自底向上层次聚类,将每一个数据样本都组成单独的簇,将相互邻近的簇合并,知道所有的簇合并成一个簇或者满足预设簇数时为止。还可以自顶向下层次聚类。将目标原始数据中的所有数据样本作为同一组,在逐渐划分为小簇,直到每个数据样本都自成一簇,或者达到了预设的簇数为止。
在一个实施例中,使用基于密度的方法对各个目标原始数据分别进行聚类。将目标原始数据中在一个区域中的数据样本的密度大于设定的阈值时,将该区域的数据样本合并到相近的聚类中。
在一个实施例中,使用基于网格的方法对各个目标原始数据分别进行聚类。将目标原始数据的数据空间划分为网格单元,将数据样本映射到网格单元中,计算每个网格单元的密集,将邻近的高密度的网格单元识别为簇。
在一个实施例中,使用基于模型的方法对各个目标原始数据分别进行聚类。主要是指使用概率模型或者神经网络模型的方法来对各个目标原始数据进行聚类。
S906,计算多个原始数据簇之间的相似度,根据多个原始数据簇之间的相似度将多个原始数据簇进行合并,得到各个数据簇。
具体地,计算出每个目标原始数据对应的所有原始数据簇的簇中心,使用各个原始数据簇的簇中心计算各个原始数据簇的相似度,将原始数据簇之间的相似度超过预设原始数据簇阈值的原始数据簇合并,得到原始数据对应的各个数据簇。
在上述实施例中,通过将原始数据进行划分,得到目标原始数据,分别对各个目标原始数据进行聚类,得到各个原始数据簇,然后再将相似的原始数据粗合并,得到各个数据簇,能够降低服务器处理压力,提高服务器的聚类效率。
进一步地,当原始数据的数据量未超过设定的数据量时,使用聚类算法对原始数据进行聚类,得到各个数据簇。
在一个实施例中,如图10所示,计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对,包括:
S1002,提取数据簇内各个数据样本的特征。
S1004,根据数据样本的特征使用相似度算法计算数据簇内各个数据样本之间的相似度。
其中,数据样本的特征用于反映该数据样本的特性,例如,数据样本为人脸图像,则提取该人脸图像的颜色特征、纹理特征、形状特征和空间关系特征等等,该人脸图像的特征在可以有多个维度。数据样本也可以是交易信息,提取交易信息的特征比如交易金额、交易对象和交易时间等等。数据样本可以是语音,提取出该语音的特征包括响度,音调、频率和音色等。
具体地,当提取到数据簇内各个数据样本的特征时,根据提取到的各个数据样本的特征是使用距离相似度算法计算各个数据样本之间的相似度。该相似度是数据簇内的不同数据样本之间的相似度。
S1006,将数据簇内各个数据样本之间的相似度未超过预设相似度阈值的数据样本对作为非相似数据样本对。
其中,预设相似度阈值是预先设置好的同簇中数据样本之家间相似度的阈值。
具体地,当计算得到数据簇内数据样本之间的相似度时,与预先设置好的相似度阈值进行比较。将数据簇内各个数据样本之间的相似度未超过预设相似度阈值的数据样本对作为非相似数据样本对,就得到了数据簇内所有的非相似数据样本对。进一步地,可以计算出待检测数据中各个数据簇内的非相似度数据样本对。
在一个实施例中,如图11所示,提取各个数据样本对中数据样本的特征,包括步骤:
S1102,获取已训练的数据识别模型,将各个数据样本对中数据样本输入到已训练的数据识别模型中,得到特征提取层的输出结果。
S1104,根据特征提取层的输出结果得到各个数据样本对中数据样本的特征。
其中,数据识别模型用于提取出数据样本的特征,是预先通过历史数据样本使用深度学习算法训练得到的模型。深度学习算法包括深度神经网络算法、卷积神经网络算法和递归神经网络算法等。特征提取层是指是神经网络中与输出层直接连接的中间层。
具体地,通将历史数据样本作为卷积神经网络的输入,将历史数据样本对应的特征作为特征输出层的标签进行训练,当训练完成时,得到数据识别模型,将数据识别模型进行部署。然后当获取到数据簇内的各个数据样本时,将各个数据样本分别输入到已训练的数据识别模型中,得到特征提取层输出的各个数据样本对应的输出结果,可以直接将输出结果作为各个数据样本对中数据样本的特征。
在一个实施例中,获取各个数据簇对应的非相似阈值,包括:
根据各个数据簇中数据样本数量计算得到各个数据簇对应的非相似阈值,非相似阈值与各个数据簇中数据样本的数量成正比。
具体地,当数据簇中数据样本数量为n时,使用公式计算该数据簇的非相似度阈值。该公式是指该数据簇中出现一个异常数据样本的概率值,明显的,非相似阈值与数据样本的数量成正比。其中,/>是指该数据簇中计算相似度的数据样本对的总数(包括数据样本与自身形成的数据样本对),也可以使用/>(包括数据样本与自身形成的数据样本对)计算该数据簇中数据样本对的总数,即使用公式/>计算该数据簇的非相似度阈值。n-1表示如果出现一个异常数据样本,则该异常数据样本与该数据簇中其余的数据样本都不相似。
进一步地,可以根据每个数据簇中数据样本的数量使用该公式计算得到各个数据簇对应的非相似阈值,然后根据各个数据簇对应的非相似阈值来确定各个数据簇的状态,提高了数据簇异常检测的准确度。
在一个实施例中,如图12所示,根据非相似阈值和非相似数据样本对确定各个数据簇的状态,包括步骤:
S1202,根据各个数据簇对应的非相似数据样本对得到各个数据簇对应的非相似数据样本对数。
S1204,计算各个数据簇对应的数据样本对总数,根据各个数据簇对应的非相似数据样本对数和各个数据簇对应的数据样本对总数得到各个数据簇对应的非相似度。
S1206,当非相似度超过非相似阈值时,得到非相似度对应的数据簇的状态为异常。
其中,各个数据簇对应的非相似度是指该数据簇中出现异常数据样本的概率值,是根据数据簇中非相似数据样本对数和数据簇中数据样本对总数计算得到的。
具体地,当得到各个数据簇对对应的非相似数据样本对时,统计各个数据簇对应的非相似数据样本对数并计算各个数据簇对应的数据样本对总数,然后分别计算各个数据簇对应的非相似数据样本对数与各个数据簇对应的数据样本对总数的比值,将该比值作为各个数据簇对应的非相似度。分别将各个数据簇对应的非相似度与非相似阈值进行比较,当数据簇对应的非相似度超过数据簇对应的非相似阈值时,非相似度对应的数据簇处于异常状态,即该数据簇中存在异常数据样本。当数据簇对应的非相似度未超过数据簇对应的非相似阈值时,非相似度对应的数据簇处于正常状态。此时,得到待检测数据中各个数据簇对应的状态,将异常状态的数据簇对应的数据作为待检测数据中的异常数据。进一步的,可以将待检测数据中的异常数据发送到管理终端进行审核,保留审核后的数据。也可以直接将待检测数据中的异常数据删除。
在一个具体的实施例中,如图13所示,该数据异常检测方法包括:
S1302,获取待检测数据,待检测数据中包括多个人脸图像档,人脸图像档包括多个人脸图像。
S1304,从待检测数据中选取人脸图像档,该人脸图像档中人脸图像数量为n,将人脸图像档中的各个人脸图像档输入到已训练的卷积神经网络模型中,提取到各个人脸图像的特征(该特征有512维)。
S1306,根据人脸图像的特征使用余弦距离算法计算人脸图像之间的相似度,将人脸图像之间的相似度与预设相似度阈值进行比较。
S1308,当人脸图像之间的相似度未超过预设相似度阈值时,确定人脸图像之间的相似度对应的两个人脸图像,将该两个人脸图像作为非相似度人脸图像对。
S1310,统计该人脸图像档中所有的非相似度人脸图像对数为U,并计算得到所有的计算相似度的人脸图像对总数为
S1312,根据该人脸图像档中非相似度人脸图像对数和所有相似度的人脸图像对总数计算得到非相似度为
S1314,根据该人脸图像档中人脸图像数量n计算得到该人脸图像档对应的非相似度阈值比较该人脸图像档对应的非相似度和非相似度阈值。
S1316,当该人脸图像档对应的非相似度超过非相似度阈值时,得到该人脸图像档的状态为异常,即该人脸图像档为坏档。当该人脸图像档对应的非相似度未超过非相似度阈值时,得到该人脸图像档的状态为正常,即该人脸图像档为非坏档。
S1318,判断是否确定待检测数据中所有人脸图像档的状态,当已确定待检测数据中所有人脸图像档的状态时,执行步骤S1320,当未确定待检测数据中所有人脸图像档的状态时,返回步骤S1304继续执行。
S1320,将异常状态的人脸图像档对应的各个人脸图像作为待检测数据中的异常数据。
在一个具体的实施例中,如图13a所示,数据异常检测方法包括步骤:
S1302a,获取待检测的数据簇,数据簇中有N个样本。
S1304a,计算该数据簇中每个数据样本对的相似度,共个。
S1306a,根据设定的相似度阈值low_score统计不相似的数据样本对数量,记为bad_num,计算不相似百分比
S1308a,计算非相似度阈值判断Percent是否超过threshold,当超过时,执行步骤S1310a,当未超过时,执行步骤S1312a。
S1310a,该数据簇为坏档。
S1312a,该数据簇为非坏档。
应该理解的是,虽然图2或图4-13a的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2或图4-13中的至少一部分步骤可以包括各个子步骤或者各个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图14所示,为一实施例中的数据异常检测装置1400的示意图,该装置包括:
数据获取模块1402,用于获取待检测数据,待检测数据中包括至少两个数据簇,每个数据簇中包括多个数据样本;
样本相似度计算模块1404,用于计算数据簇内各个数据样本之间的相似度,根据各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对;
簇状态确定模块1406,用于获取各个数据簇对应的非相似阈值,根据非相似阈值和非相似数据样本对确定各个数据簇的状态;非相似阈值是根据数据簇内的数据样本数量确定的;
第一异常数据确定模块1408,用于将异常状态的数据簇对应的数据作为待检测数据中的异常数据。
在一个实施例中,如图15所示,数据异常检测装置1400,还包括:
簇对相似度计算模块1502,用于根据各个数据簇中的数据样本计算各个数据簇之间的相似度,得到各个数据簇对相似度;
簇对状态确定模块1504,用于当各个数据簇对相似度超过预设相似阈值时,确定各个数据簇对的状态;
第二异常数据确定模块1506,用于将异常状态的数据簇对对应的数据作为待检测数据中的异常数据。
在一个实施例中,如图16所示,簇对相似度计算模块1502,包括:
评价信息获取单元1502a,用于获取各个数据簇中数据样本的质量评价信息;
目标样本选取单元1502b,用于根据质量评价信息分别从各个数据簇中选取预设数量的数据样本,得到各个数据簇对应的目标数据样本;
目标样本相似度计算单元1502c,用于计算各个数据簇对应的目标数据样本之间的相似度,根据各个数据簇对应的目标数据样本之间的相似度确定各个数据簇对相似度。
在一个实施例中,目标样本相似度计算单元1502c还用于获取各个数据簇中第一数据簇对应的第一目标数据样本和第二数据簇对应的第二目标数据样本;计算第一目标数据样本中各个数据样本与第二目标数据样本中各个数据样本的各个目标相似度;统计目标相似度总数和目标相似度超过预设目标阈值的目标相似度数;根据目标相似度总数和目标相似度数计算得到第一数据簇和第二数据簇对应的数据簇对相似度。
在一个实施例中,评价信息获取单元1502a还用于获取各个数据簇中的数据样本,将数据样本输入到已训练的质量评价模型中进行识别,得到输出结果;根据输出结果得到各个数据簇中数据样本的质量评价信息。
在一个实施例中,数据获取模块1402还用于获取原始数据,将原始数据进行划分,得到各个目标原始数据;使用聚类算法对各个目标原始数据分别进行聚类,得到各个目标原始数据对应的多个原始数据簇;计算多个原始数据簇之间的相似度,根据多个原始数据簇之间的相似度将多个原始数据簇进行合并,得到各个数据簇。
在一个实施例中,样本相似度计算模块1404还用于提取数据簇内各个数据样本的特征;根据数据样本的特征使用相似度算法计算数据簇内各个数据样本之间的相似度;将数据簇内各个数据样本之间的相似度未超过预设相似度阈值的数据样本对作为非相似数据样本对。
在一个实施例中,样本相似度计算模块1404还用于获取已训练的数据识别模型,将各个数据样本对中数据样本输入到已训练的数据识别模型中,得到特征提取层的输出结果;根据特征提取层的输出结果得到各个数据样本对中数据样本的特征。
在一个实施例中,簇状态确定模块还用于根据各个数据簇中数据样本数量计算得到各个数据簇对应的非相似阈值,非相似阈值与各个数据簇中数据样本的数量成正比。
在一个实施例中,簇状态确定模块1406还用于根据各个数据簇对应的非相似数据样本对得到各个数据簇对应的非相似数据样本对数;计算各个数据簇对应的数据样本对总数,根据各个数据簇对应的非相似数据样本对数和各个数据簇对应的数据样本对总数得到各个数据簇对应的非相似度;当非相似度超过非相似阈值时,得到非相似度对应的数据簇的状态为异常。
关于数据异常检测装置的具体限定可以参见上文中对于数据异常检测方法的限定,在此不再赘述。上述数据异常检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述数据异常检测装置可以实现为一种计算机程序的形式。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端。当该计算机设备为服务器时,其内部结构图可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据异常检测方法。当该计算机设备为终端时,其内部结构还包括显示屏、输入装置、摄像头、声音采集装置和扬声器等,该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的数据异常检测装置可以实现为一种计算机程序的形式,计算机程序可在如图17所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据异常检测装置的各个程序模块,比如,图14所示的数据获取模块、样本相似度计算模块、簇状态确定模块和第一异常数据确定模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据异常检测方法中的步骤。
例如,图17所示的计算机设备可以通过如图14所示的数据异常检测装置中的数据获取模块执行步骤S202。计算机设备可通过样本相似度计算模块执行步骤S204。计算机设备可通过簇状态确定模块执行步骤S206。计算机设备可通过第一异常数据确定模块执行步骤S208。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据异常检测方法的步骤。此处数据异常检测方法的步骤可以是上述各个实施例的数据异常检测方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述数据异常检测方法的步骤。此处数据异常检测方法的步骤可以是上述各个实施例的数据异常检测方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (20)
1.一种数据异常检测方法,包括:
获取待检测数据,所述待检测数据中包括至少两个数据簇,所述每个数据簇中包括多个数据样本;
计算数据簇内各个数据样本之间的相似度,根据所述各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对;
获取各个数据簇对应的非相似阈值,根据所述非相似阈值和所述非相似数据样本对确定各个数据簇的状态,包括:根据各个数据簇对应的非相似数据样本对得到各个数据簇对应的非相似数据样本对数,计算各个数据簇对应的数据样本对总数,根据各个数据簇对应的非相似数据样本对数和各个数据簇对应的数据样本对总数得到各个数据簇对应的非相似度,当非相似度超过所述非相似阈值时,得到所述非相似度对应的数据簇的状态为异常;所述非相似阈值是根据数据簇内的数据样本数量确定的,所述非相似阈值是指数据簇中出现一个异常数据样本时的非相似度;
将异常状态的数据簇对应的数据作为所述待检测数据中的异常数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据各个数据簇中的数据样本计算各个数据簇之间的相似度,得到各个数据簇对相似度;
根据所述各个数据簇对相似度和预设相似阈值,确定各个数据簇对的状态;
将异常状态的数据簇对对应的数据作为所述待检测数据中的异常数据,所述异常状态的数据簇对是指数据簇对对应的数据簇对相似度超过预设相似度阈值。
3.根据权利要求2所述的方法,其特征在于,所述根据每个数据簇中的数据样本计算数据簇之间的相似度,得到数据簇对相似度,包括:
获取每个数据簇中每个数据样本的质量评价信息;
根据所述质量评价信息分别从每个数据簇中选取预设数量的数据样本,得到每个数据簇对应的目标数据样本;
计算每个数据簇对应的目标数据样本之间的相似度,根据所述每个数据簇对应的目标数据样本之间的相似度确定数据簇对相似度。
4.根据权利要求3所述的方法,其特征在于,所述计算每个数据簇对应的目标数据样本之间的相似度,根据所述每个数据簇对应的目标数据样本之间的相似度确定数据簇对相似度,包括:
获取第一数据簇对应的第一目标数据样本和第二数据簇对应的第二目标数据样本;
计算所述第一目标数据样本中每个数据样本与第二目标数据样本中每个数据样本的各个目标相似度;
统计所述目标相似度总数和所述目标相似度超过预设目标阈值的目标相似度数;
根据所述目标相似度总数和目标相似度数计算得到所述第一数据簇和所述第二数据簇对应的数据簇对相似度。
5.根据权利要求3所述的方法,其特征在于,获取各个数据簇中数据样本的质量评价信息,包括:
获取所述各个数据簇中的数据样本,将所述数据样本输入到已训练的质量评价模型中进行识别,得到输出结果;
根据输出结果得到所述各个数据簇中数据样本的质量评价信息。
6.根据权利要求1所述的方法,其特征在于,所述获取待检测数据,所述待检测数据中包括至少两个数据簇,所述每个数据簇中包括多个数据样本,包括:
获取原始数据,将所述原始数据进行划分,得到各个目标原始数据;
使用聚类算法对各个目标原始数据分别进行聚类,得到各个目标原始数据对应的多个原始数据簇;
计算所述多个原始数据簇之间的相似度,根据所述多个原始数据簇之间的相似度将所述多个原始数据簇进行合并,得到所述至少两个数据簇。
7.根据权利要求1所述的方法,其特征在于,所述计算数据簇内各个数据样本之间的相似度,根据所述各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对,包括:
提取所述数据簇内各个数据样本的特征;
根据所述数据样本的特征使用相似度算法计算所述数据簇内各个数据样本之间的相似度;
将所述数据簇内各个数据样本之间的相似度未超过预设相似度阈值的数据样本对作为非相似数据样本对。
8.根据权利要求7所述的方法,其特征在于,提取所述各个数据样本对中数据样本的特征,包括:
获取已训练的数据识别模型,将所述各个数据样本对中数据样本输入到所述已训练的数据识别模型中,得到特征提取层的输出结果;
根据所述特征提取层的输出结果得到所述各个数据样本对中数据样本的特征。
9.根据权利要求1所述的方法,其特征在于,获取各个数据簇对应的非相似阈值,包括:
根据所述各个数据簇中数据样本数量计算得到各个数据簇对应的非相似阈值,所述非相似阈值与所述各个数据簇中数据样本的数量成正比。
10.一种数据异常检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待检测数据,所述待检测数据中包括至少两个数据簇,所述每个数据簇中包括多个数据样本;
样本相似度计算模块,用于计算数据簇内各个数据样本之间的相似度,根据所述各个数据样本之间的相似度确定各个数据簇对应的非相似数据样本对;
簇状态确定模块,用于获取各个数据簇对应的非相似阈值,根据所述非相似阈值和所述非相似数据样本对确定各个数据簇的状态,包括:根据各个数据簇对应的非相似数据样本对得到各个数据簇对应的非相似数据样本对数,计算各个数据簇对应的数据样本对总数,根据各个数据簇对应的非相似数据样本对数和各个数据簇对应的数据样本对总数得到各个数据簇对应的非相似度,当非相似度超过所述非相似阈值时,得到所述非相似度对应的数据簇的状态为异常;所述非相似阈值是根据数据簇内的数据样本数量确定的,所述非相似阈值是指数据簇中出现一个异常数据样本时的非相似度;
第一异常数据确定模块,用于将异常状态的数据簇对应的数据作为所述待检测数据中的异常数据。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
簇对相似度计算模块,用于根据各个数据簇中的数据样本计算各个数据簇之间的相似度,得到各个数据簇对相似度;
簇对状态确定模块,用于根据所述各个数据簇对相似度和预设相似阈值,确定各个数据簇对的状态;
第二异常数据确认模块,用于将异常状态的数据簇对对应的数据作为所述待检测数据中的异常数据,所述异常状态的数据簇对是指数据簇对对应的数据簇对相似度超过预设相似度阈值。
12.根据权利要求11所述的装置,其特征在于,所述簇对相似度计算模块,包括:
评价信息获取单元,用于获取每个数据簇中每个数据样本的质量评价信息;
目标样本选取单元,用于根据所述质量评价信息分别从每个数据簇中选取预设数量的数据样本,得到每个数据簇对应的目标数据样本;
目标样本相似度计算单元,用于计算每个数据簇对应的目标数据样本之间的相似度,根据所述每个数据簇对应的目标数据样本之间的相似度确定数据簇对相似度。
13.根据权利要求12所述的装置,其特征在于,所述目标样本相似度计算单元还用于获取第一数据簇对应的第一目标数据样本和第二数据簇对应的第二目标数据样本;计算所述第一目标数据样本中每个数据样本与第二目标数据样本中每个数据样本的各个目标相似度;统计所述目标相似度总数和所述目标相似度超过预设目标阈值的目标相似度数;根据所述目标相似度总数和目标相似度数计算得到所述第一数据簇和所述第二数据簇对应的数据簇对相似度。
14.根据权利要求12所述的装置,其特征在于,所述评价信息获取单元还用于获取所述各个数据簇中的数据样本,将所述数据样本输入到已训练的质量评价模型中进行识别,得到输出结果;根据输出结果得到所述各个数据簇中数据样本的质量评价信息。
15.根据权利要求10所述的装置,其特征在于,所述数据获取模块还用于获取原始数据,将所述原始数据进行划分,得到各个目标原始数据;使用聚类算法对各个目标原始数据分别进行聚类,得到各个目标原始数据对应的多个原始数据簇;计算所述多个原始数据簇之间的相似度,根据所述多个原始数据簇之间的相似度将所述多个原始数据簇进行合并,得到所述至少两个数据簇。
16.根据权利要求10所述的装置,其特征在于,所述样本相似度计算模块还用于提取所述数据簇内各个数据样本的特征;根据所述数据样本的特征使用相似度算法计算所述数据簇内各个数据样本之间的相似度;将所述数据簇内各个数据样本之间的相似度未超过预设相似度阈值的数据样本对作为非相似数据样本对。
17.根据权利要求16所述的装置,其特征在于,所述样本相似度计算模块还用于获取已训练的数据识别模型,将所述各个数据样本对中数据样本输入到所述已训练的数据识别模型中,得到特征提取层的输出结果;根据所述特征提取层的输出结果得到所述各个数据样本对中数据样本的特征。
18.根据权利要求10所述的装置,其特征在于,所述簇状态确定模块,还用于根据所述各个数据簇中数据样本数量计算得到各个数据簇对应的非相似阈值,所述非相似阈值与所述各个数据簇中数据样本的数量成正比。
19.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
20.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910506329.8A CN110245132B (zh) | 2019-06-12 | 2019-06-12 | 数据异常检测方法、装置、计算机可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910506329.8A CN110245132B (zh) | 2019-06-12 | 2019-06-12 | 数据异常检测方法、装置、计算机可读存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245132A CN110245132A (zh) | 2019-09-17 |
CN110245132B true CN110245132B (zh) | 2023-10-31 |
Family
ID=67886741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910506329.8A Active CN110245132B (zh) | 2019-06-12 | 2019-06-12 | 数据异常检测方法、装置、计算机可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245132B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579662A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 一种井下作业处理方法、系统及电子设备 |
CN110874693A (zh) * | 2019-11-12 | 2020-03-10 | 东软睿驰汽车技术(沈阳)有限公司 | 一种电池包异常工况的确定方法、检测方法以及装置 |
CN111046422B (zh) * | 2019-12-09 | 2021-03-12 | 支付宝(杭州)信息技术有限公司 | 防止隐私数据泄漏的编码模型训练方法及装置 |
CN111080012A (zh) * | 2019-12-17 | 2020-04-28 | 北京明略软件系统有限公司 | 人员危险度预测方法、装置、电子设备和可读存储介质 |
CN111091106B (zh) * | 2019-12-23 | 2023-10-10 | 浙江大华技术股份有限公司 | 图像聚类方法及装置、存储介质、电子装置 |
CN111160463A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市商汤科技有限公司 | 数据处理方法及装置、处理器、电子设备、存储介质 |
CN113127573B (zh) * | 2019-12-31 | 2024-06-21 | 奇安信科技集团股份有限公司 | 相关数据的确定方法、装置、计算机设备和存储介质 |
CN111242195B (zh) * | 2020-01-06 | 2023-06-20 | 蚂蚁胜信(上海)信息技术有限公司 | 模型、保险风控模型训练方法、装置及电子设备 |
CN112084764B (zh) * | 2020-09-02 | 2022-06-17 | 北京字节跳动网络技术有限公司 | 数据检测方法、装置、存储介质及设备 |
CN116936119A (zh) * | 2023-09-15 | 2023-10-24 | 山东优杰生物科技有限公司 | 一种血库智能调度管理系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285183A1 (en) * | 2015-10-09 | 2018-10-04 | Hitachi, Ltd. | Abnormality Detection Device |
CN109068272A (zh) * | 2018-08-30 | 2018-12-21 | 北京三快在线科技有限公司 | 相似用户识别方法、装置、设备及可读存储介质 |
-
2019
- 2019-06-12 CN CN201910506329.8A patent/CN110245132B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285183A1 (en) * | 2015-10-09 | 2018-10-04 | Hitachi, Ltd. | Abnormality Detection Device |
CN109068272A (zh) * | 2018-08-30 | 2018-12-21 | 北京三快在线科技有限公司 | 相似用户识别方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110245132A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245132B (zh) | 数据异常检测方法、装置、计算机可读存储介质和计算机设备 | |
CN111738244B (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN112863683B (zh) | 基于人工智能的病历质控方法、装置、计算机设备及存储介质 | |
CN108733819A (zh) | 一种人员档案建立方法和装置 | |
CN109871490B (zh) | 媒体资源匹配方法、装置、存储介质和计算机设备 | |
CN110245714B (zh) | 图像识别方法、装置及电子设备 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN108022146A (zh) | 征信数据的特征项处理方法、装置、计算机设备 | |
CN111325237B (zh) | 一种基于注意力交互机制的图像识别方法 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN110956195B (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN112785420A (zh) | 信用评分模型的训练方法、装置、电子设备及存储介质 | |
CN112330442A (zh) | 基于超长行为序列的建模方法及装置、终端、存储介质 | |
CN115687674A (zh) | 服务于智慧云服务平台的大数据需求分析方法及系统 | |
CN117151855A (zh) | 欺诈风险预测方法、装置、计算机设备和可读存储介质 | |
CN111275683A (zh) | 图像质量评分处理方法、系统、设备及介质 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN110674830B (zh) | 图像隐私识别方法、装置、计算机设备和存储介质 | |
CN115082999A (zh) | 合影图像人物分析方法、装置、计算机设备和存储介质 | |
CN116958720A (zh) | 目标检测模型的训练方法、目标检测方法、装置及设备 | |
CN118762377B (zh) | 多模态虚假新闻检测方法、装置、设备及介质 | |
CN110728615B (zh) | 基于序贯假设检验的隐写分析方法、终端设备及存储介质 | |
CN117058432B (zh) | 图像查重方法、装置、电子设备及可读存储介质 | |
CN115659022A (zh) | 资源推送数据处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |