CN113762311A - 一种数据聚类方法、设备和计算机可读存储介质 - Google Patents
一种数据聚类方法、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113762311A CN113762311A CN202110119375.XA CN202110119375A CN113762311A CN 113762311 A CN113762311 A CN 113762311A CN 202110119375 A CN202110119375 A CN 202110119375A CN 113762311 A CN113762311 A CN 113762311A
- Authority
- CN
- China
- Prior art keywords
- index data
- data
- clustering
- advertisement
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 16
- 238000004891 communication Methods 0.000 claims description 11
- 239000006185 dispersion Substances 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 33
- 230000000694 effects Effects 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种数据聚类方法,所述方法包括:获取待分析广告的指标数据;确定类别数量和每种类别中最少包括的指标数据的数据数量;其中,所述类别数量是所述指标数据待分成的类别的数量;基于所述类别数量对所述待分析广告的指标数据进行筛选,确定出多个第一聚类中心;计算所述待分析广告的每个指标数据与每个所述第一聚类中心的距离;基于所述距离、所述数据数量和所述多个第一聚类中心,对所述待分析广告的指标数据进行聚类得到目标聚类结果。本申请的实施例还公开了一种数据聚类设备和计算机可读存储介质。
Description
技术领域
本申请涉及计算机领域中的数据处理技术,尤其涉及一种数据聚类方法、设备和计算机可读存储介质。
背景技术
目前,随着信息流广告的快速发展,各种网络产品应运而生,尤其网络广告也成为了一种主要的广告形式,针对广告的投放效果进行分析评估在实现成本节约的同时可以给公司带来更多的收入,从而提高公司的投资回报率。网络广告具有形式复杂和多样化的特点,且广告本身具有强业务性,其分析工作需要加入强业务认知;因此,相关技术中提出采用k均值聚类算法(k-means clustering algorithm)进行广告效果聚类,进而根据聚类结果对广告效果进行分析;但是,相对技术中提供的广告效果聚类方法只能单纯的利用算法本身的计算逻辑判断样本类型及收敛条件,如果分类结果整体分布不是很均匀或存在异常广告效果,会导致聚类结果不准确,进而影响对广告投放效果的分析。
发明内容
为解决上述技术问题,本申请实施例期望提供一种数据聚类方法、设备和计算机可读存储介质,解决了相关技术中的对广告效果进行聚类时存在聚类结果不准确的问题,提高了聚类结果的准确性,同时避免影响对广告投放效果的分析。
本申请的技术方案是这样实现的:
一种数据聚类方法,所述方法包括:
获取待分析广告的指标数据;
确定类别数量和每种类别中最少包括的指标数据的数据数量;其中,所述类别数量是所述指标数据待分成的类别的数量;
基于所述类别数量对所述待分析广告的指标数据进行筛选,确定出多个第一聚类中心;
计算所述待分析广告的每个指标数据与每个所述第一聚类中心的距离;
基于所述距离、所述数据数量和所述多个第一聚类中心,对所述待分析广告的指标数据进行聚类得到目标聚类结果;其中,聚类后的每类指标数据中包括的指标数据的数量满足预设数量。
上述方案中,所述获取待分析广告的指标数据,包括:
获取所述待分析广告的基础指标数据;
对所述基础指标数据进行数据标准化处理,得到所述待分析广告的指标数据。
上述方案中,所述对所述基础指标数据进行数据标准化处理,得到所述待分析广告的指标数据,包括:
采用离差标准化算法对所述基础指标数据进行数据标准化处理,得到所述待分析广告的指标数据。
上述方案中,所述基于所述类别数量对所述待分析广告的指标数据进行筛选,确定出多个第一聚类中心,包括:
基于所述类别数量确定目标分位数值;
从所述待分析广告的指标数据中确定所述目标分位数值的位置处对应的指标数据,得到所述多个第一聚类中心。
上述方案中,所述基于所述距离、所述数据数量和所述多个第一聚类中心,对所述待分析广告的指标数据进行聚类得到目标聚类结果,包括:
针对每个指标数据,比较所述指标数据与每个所述第一聚类中心的距离的大小关系;
基于所述大小关系和所述数据数量,对所述待分析广告的指标数据进行聚类得到所述目标聚类结果。
上述方案中,所述基于所述大小关系和所述数据数量,对所述待分析广告的指标数据进行聚类得到所述目标聚类结果,包括:
针对每个指标数据,从所述多个第一聚类中心中确定距离最小的第一聚类中心;
针对每个指标数据,将所述指标数据与所述距离最小的第一聚类中心对应的指标数据归为一类,得到分类后的第一指标数据;
确定每两类所述第一指标数据中包括的指标数据的数量的差值满足预设数量阈值时,且每类所述第一指标数据中包括的指标数据的数量均大于所述数据数量时,确定所述分类后的第一指标数据为所述目标聚类结果。
上述方案中,所述方法还包括:
确定每两类所述第一指标数据中包括的指标数据的数量的差值不满足预设数量阈值,或任一类第一指标数据中包括的指标数据的数量小于或等于所述数据数量时,从所述每类第一指标数据中确定预设分位数值的位置处对应的指标数据,得到第二聚类中心;
计算每个第一指标数据与每一第二聚类中心的距离,并针对每个第一指标数据将所述第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到每两类所述第N指标数据中包括的指标数据的数量的差值满足预设数量阈值时,且每类第N指标数据中包括的指标数据的数量均大于所述数据数量,确定所述分类后的第N指标数据为所述目标聚类结果。
上述方案中,所述方法还包括:
确定每两类所述第一指标数据中包括的指标数据的数量的差值不满足预设数量阈值,或任一类第一指标数据中包括的指标数据的数量小于或等于所述数据数量时,从所述每类第一指标数据中确定预设分位数值的位置处对应的指标数据,得到第二聚类中心;
计算每个第一指标数据与每一第二聚类中心的距离,并针对每个第一指标数据将所述第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到任一类第N指标数据中包括的指标数据的数量小于所述数据数量,确定分类后的第N-1指标数据为所述目标聚类结果。
上述方案中,所述方法还包括:
采用图形化展示方式展示所述目标聚类结果。
一种数据聚类方法设备,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中存储的数据聚类程序,以实现以下步骤:
获取待分析广告的指标数据;
确定类别数量和每种类别中最少包括的指标数据的数据数量;其中,所述类别数量是所述指标数据待分成的类别的数量;
基于所述类别数量对所述待分析广告的指标数据进行筛选,确定出多个第一聚类中心;
计算所述待分析广告的每个指标数据与每个所述第一聚类中心的距离;
基于所述距离、所述数据数量和所述多个第一聚类中心,对所述待分析广告的指标数据进行聚类得到目标聚类结果。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的数据聚类方法的步骤。
因为可以获取待分析广告的指标数据,确定类别数量和每种类别中最少包括的指标数据的数据数量,基于类别数量对待分析广告的指标数据进行筛选确定出多个第一聚类中心,计算待分析广告的每个指标数据与每个第一聚类中心的距离,之后基于距离、数据数量和多个第一聚类中心,对待分析广告的指标数据进行聚类得到目标聚类结果,如此,在对广告的指标数据(广告效果)进行聚类时考虑到了要分成的类别数量和每类中至少包括指标数据的数据数量,而不是单纯的如相对技术中一样只使用算法本身的计算逻辑,解决了相关技术中的对广告效果进行聚类时存在聚类结果不准确的问题,提高了聚类结果的准确性,同时避免影响对广告投放效果的分析。
附图说明
图1为本申请的实施例提供的一种数据聚类方法的流程示意图;
图2为本申请的实施例提供的另一种数据聚类方法的流程示意图;
图3为本申请的实施例提供的又一种数据聚类方法的流程示意图;
图4为本申请的另一实施例提供的一种数据聚类方法的流程示意图;
图5为本申请的实施例提供的一种数据聚类设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请的实施例提供一种数据聚类方法,该方法可以应用于数据聚类设备中,参照图1所示,该方法包括以下步骤:
步骤101、获取待分析广告的指标数据。
在本申请实施例中,待分析广告的指标数据可以是能够表征待分析广告的效果的指标数据;其中,指标数据可以是待分析广告已经进行实际投放后对应的效果的指标数据。在一种可行的实现方式中,指标数据可以包括以下一项或多项:现金消耗、点击率(Click-through Rate,CTR)、点击成本(Cost Per Click,CPC)、千次展示收益(effective costper mile,ECPM)、转化率(Conversion Rate,CVR)、投资回报率(return on investment,ROI)等。
需要说明的是,指标数据可以是待分析广告在不同的渠道进行投放后,对应的能表征效果的指标数据;其中,指标数据可以是具有统一数据标准的。
步骤102、确定类别数量和每种类别中最少包括的指标数据的数据数量。
其中,类别数量是指标数据待分成的类别的数量。
在本申请实施例中,类别数量可以是待分析广告的指标数据需要被划分成的类别的数量;需要说明的是,类别数量和数据数量可以是根据待分析广告确定的。当然,类别数量和数据数量也可以是根据待分析广告和实际的需求确定出来的。
步骤103、基于类别数量对待分析广告的指标数据进行筛选,确定出多个第一聚类中心。
其中,第一聚类中心可以是从所有的指标数据中筛选出的多个指标数据,也就是说,第一聚类中心指代的就是指标数据本身。在本申请实施例中,第一聚类中心可以是根据类别数量对所有的指标数据进行等分处理后确定出来的;在一种可行的实现方式中,第一聚类中心就是等分处理的等分点所在的指标数据。
步骤104、计算待分析广告的每个指标数据与每个第一聚类中心的距离。
在本申请实施例中,待分析广告语每一个第一聚类中心的距离可以指的是待分析广告语第一聚类中心对应的指标数据之间的距离。其中,每个指标数据与每个第一聚类中心之间的距离可以是采用欧式距离公式计算得到的。
步骤105、基于每个指标数据与每个第一聚类中心的距离、数据数量和多个第一聚类中心,对待分析广告的指标数据进行聚类得到目标聚类结果。
其中,可以是针对每一个指标数据,将指标数据与每一个第一聚类中心的距离进行比较分析,根据比较分析的结果将指标数据与确出的对应的第一聚类中心的指标数据归为一类,最终得到目标聚类结果。
本申请的实施例所提供的数据聚类方法,可以获取待分析广告的指标数据,确定待分析广告的类别数量和每种类别中最少包括的指标数据的数据数量,基于类别数量对待分析广告的指标数据进行筛选确定出多个第一聚类中心,计算待分析广告的每个指标数据与每个第一聚类中心的距离,之后基于距离、数据数量和多个第一聚类中心,对待分析广告的指标数据进行聚类得到目标聚类结果,如此,在对广告的指标数据(广告效果)进行聚类时考虑到了要分成的类别数量和每类中至少包括指标数据的数据数量,而不是单纯的如相对技术中一样只使用算法本身的计算逻辑,解决了相关技术中的对广告效果进行聚类时存在聚类结果不准确的问题,提高了聚类结果的准确性,同时避免影响对广告投放效果的分析。
基于前述实施例,本申请的实施例提供一种数据聚类方法,参照图2所示,该方法包括以下步骤:
步骤201、数据聚类设备获取待分析广告的基础指标数据。
其中,基础指标数据可以是不具有统一数据标准的指标数据,即指标数据的数值的量纲不同。
步骤202、数据聚类设备对基础指标数据进行数据标准化处理,得到待分析广告的指标数据。
需要说明的是,对基础指标数据进行数据标准化可以指的是对基础指标数据的量纲进行标准化处理,最终使得待分析广告的指标数据的量纲统一。
其中,步骤202可以通过以下方式来实现:
步骤202a、数据聚类设备采用离差标准化算法对基础指标数据进行数据标准化处理,得到待分析广告的指标数据。
在本申请实施例中,可以采用离差标准化算法对基础指标数据的量纲进行标准化处理;在一种可行的实现方式中,可以是采用转换函数对每一基础指标数据进行转换处理,使得得到的指标数据数值的范围在[0,1]之间;假设基础指标数据包括x1,x2......xn;其中,xi是待进行处理的基础指标数据,是所有基础指标数据中数值最小的基础指标数据,是所有基础指标数据中数值最大的基础指标数据;yi是xi处理后得到指标数据;也就是说,对x1,x2......xn采用离差标准化算法进行处理后,可以得到y1,y2......yn,且,y1,y2......yn数值的范围在[0,1]之间。
需要说明的是,经过处理后的指标数据的数值范围都是在统一的量纲,更有利于根据指标数据进行可视化分析。
步骤203、数据聚类设备确定类别数量和每种类别中最少包括的指标数据的数据数量。
其中,类别数量是指标数据待分成的类别的数量。
在本申请实施例中,类别数量可以用k表示,每一类别中包括的最小指标数据的数据数量可以用m表示;其中,m和k均未正整数。
步骤204、数据聚类设备基于类别数量确定目标分位数值。
在本申请实施例中,可以根据类别数量将所有的指标数据等分,每个等份对应的值即为目标分位值;其中,目标分位值可以包括多个分位数值;在一种可行的实现方式中,可以采用式子(1/(k+1))*n来确定目标分位数值;其中,n∈(1,k),且n为正整数。
步骤205、数据聚类设备从待分析广告的指标数据中确定目标分位数值的位置处对应的指标数据,得到多个第一聚类中心。
其中,可以将目标分位数值中包括的每个分位数值对应的指标数据作为第一聚类中心;在一种可行的实现方式中,如果k=3,我们需要计算各维度0.25,0.5,0.75分位数值,计算得到这些数值后可以将这些数值对应位置处的指标数据作为第一聚类中心。
步骤206、数据聚类设备计算待分析广告的每个指标数据与每个第一聚类中心的距离。
在本申请实施例中,可以将指标数据看作一个点,即确定每一个点在多维空间中的位置坐标,之后,将每个点在多维空间中的位置坐标代入欧式距离公式中,计算得到每个指标数据与每个第一聚类中心之间的距离。
步骤207、数据聚类设备针对每个指标数据,比较指标数据与每个第一聚类中心的距离的大小关系。
步骤208、数据聚类设备基于大小关系和数据数量,对待分析广告的指标数据进行聚类得到目标聚类结果。
在本申请实施例中,针对每一个指标数据可以根据指标数据与每个第一聚类中心的距离的大小关系,从所有第一聚类中心中确定出距离最小第一聚类中心,并基于距离最小的第一聚类中心和数据数量给将指标数据归类,进而实现对所有的指标数据分类得到目标聚类结果。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请的实施例所提供的数据聚类方法,在对广告的指标数据(广告效果)进行聚类时考虑到了要分成的类别数量和每类中至少包括指标数据的数据数量,而不是单纯的如相对技术中一样只使用算法本身的计算逻辑,解决了相关技术中的对广告效果进行聚类时存在聚类结果不准确的问题,提高了聚类结果的准确性,同时避免影响对广告投放效果的分析。
基于前述实施例,本申请的实施例提供一种数据聚类方法,参照图4所示,该方法包括以下步骤:
步骤301、数据聚类设备获取待分析广告的基础指标数据。
步骤302、数据聚类设备采用离差标准化算法对基础指标数据进行数据标准化处理,得到待分析广告的指标数据。
步骤303、数据聚类设备确定类别数量和每种类别中最少包括的指标数据的数据数量。
其中,类别数量是指标数据待分成的类别的数量。
步骤304、数据聚类设备基于类别数量确定目标分位数值。
步骤305、数据聚类设备从待分析广告的指标数据中确定目标分位数值的位置处对应的指标数据,得到多个第一聚类中心。
步骤306、数据聚类设备计算待分析广告的每个指标数据与每个第一聚类中心的距离。
步骤307、数据聚类设备针对每个指标数据,比较指标数据与每个第一聚类中心的距离的大小关系。
步骤308、数据聚类设备针对每个指标数据,从多个第一聚类中心中确定距离最小的第一聚类中心。
步骤309、数据聚类设备针对每个指标数据,将指标数据与距离最小的第一聚类中心对应的指标数据归为一类,得到分类后的第一指标数据。
在本申请实施例中,将每一个指标数据与距离该指标数据最近的第一聚类中心对应的指标数据归为一类,采用该分类方法完成对所有的指标数据的第一次分类后,可以得到分类后的第一指标数据。
步骤310、数据聚类设备确定每两类第一指标数据中包括的指标数据的数量的差值满足预设数量阈值,且每类第一指标数据中包括的指标数据的数量均大于数据数量时,确定分类后的第一指标数据为目标聚类结果。
在本申请实施例中,进行第一次分类后,如果分类后得到的每一类第一指标数据中包括的指标数据的数量基本相同(即指标数据分布均匀),且每一类第一指标数据中包括的指标数据的数量均大于数据数量,确定分类后的第一指标数据所呈现的结果即为目标聚类结果。
在本申请其他实施例中,参照图4所示,该方法还包括以下步骤:
步骤311、数据聚类设备确定每两类第一指标数据中包括的指标数据的数量的差值不满足预设数量阈值,或任一类第一指标数据中包括的指标数据的数量小于或等于数据数量时,从每类第一指标数据中确定预设分位数值的位置处对应的指标数据,得到第二聚类中心。
在本申请实施例中,如果分类后得到的每一类第一指标数据中包括的指标数据的数量差别较大(即指标数据分布不均匀),或者,存在某一类第一指标数据中包括的指标数据的数量小于或等于数据数量,此时确定分类后的第一指标数据不满足要求,需要继续针对每一类第一指标数据,从包括的第一指标数据中确定预设分位数值的位置处的指标数据为第二聚类中心;依此方法,对所有类别的第一指标数据重新确定聚类中心,得到数量与第一聚类中心的数量相同的多个第二聚类中心。其中,预设分位数值可以是0.5。
需要说明的是,步骤311之后可以执行步骤312或者步骤313;
步骤312、数据聚类设备计算每个第一指标数据与每一第二聚类中心的距离,并针对每个第一指标数据将第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到每类第N指标数据中包括的指标数据的数量的差值满足预设数量阈值时,且每类第N指标数据中包括的指标数据的数量均大于数据数量,确定分类后的第N指标数据为目标聚类结果。
步骤313、数据聚类设备计算每个第一指标数据与每一第二聚类中心的距离,并针对每个第一指标数据将第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到任一类第N指标数据中包括的指标数据的数量小于数据数量,确定分类后的第N-1指标数据为目标聚类结果。
在本申请实施例中,可以针对每个第一指标数据将第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类得到分类后的第二指标数据,如果分类后得到的每一类第二指标数据中包括的指标数据的数量差别较大(即指标数据分布不均匀),或者,存在某一类第二指标数据中包括的指标数据的数量小于或等于数据数量,此时确定分类后的第二指标数据不满足要求,需要继续针对每一类第二指标数据,从包括的第一指标数据中确定预设分位数值的位置处的指标数据为第三聚类中心,计算每个第二指标数据与每一第三聚类中心的距离,并针对每个第二指标数据将第二指标数据与距离最小的第三聚类中心对应的指标数据归为一类,得到分类后的第三指标数据,如果分类后的第三指标数据还不满足要求继续进行重新分类一直到得到的每类第N指标数据中包括的指标数据的数量的差值满足预设数量阈值,且每类第N指标数据中包括的指标数据的数量均大于数据数量时截止,此时可以确定分类后的第N指标数据为目标聚类结果;当然,实际应用中会存在指标数据分布不均匀,难免会产生某一类别的指标数据的数量很少或指标数据的数量未能达到实际业务需求,也可以在分类后的第三指标数据还不满足要求继续进行重新分类一直到得到的任一类第N指标数据中包括的指标数据的数量小于数据数量时截止,此时可以确定上一次得到的第N-1指标数据为目标聚类结果。
需要说明的是,本申请实施例中停止聚类的条件可以很好的将指标数据中异常的指标数据进行筛除,保证了目标聚类结果的准确性。
在本申请其他实施例中,该方法还包括以下步骤:
步骤314、采用图形化展示方式展示目标聚类结果。
在本申请实施例中,可以通过python、Excel等图形化工具将目标聚类结果以图形的方式输出,得到可读性较强的图形进而便于对待分析广告的效果进行分析,从而实现对待分析广告针对性的优化。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请的实施例所提供的数据聚类方法,在对广告的指标数据(广告效果)进行聚类时考虑到了要分成的类别数量和每类中至少包括指标数据的数据数量,而不是单纯的如相对技术中一样只使用算法本身的计算逻辑,解决了相关技术中的对广告效果进行聚类时存在聚类结果不准确的问题,提高了聚类结果的准确性,同时避免影响对广告投放效果的分析。
基于前述实施例,本申请的实施例提供一种数据聚类设备,该设备可以应用于图1~4对应的实施例提供的数据聚类方法中,参照图5所示,该设备可以包括:处理器41、存储器42和通信总线43,其中:
通信总线43用于实现处理器41和存储器42之间的通信连接;
处理器41用于执行存储器42中存储的数据聚类程序,以实现以下步骤:
获取待分析广告的指标数据;
确定类别数量和每种类别中最少包括的指标数据的数据数量;
其中,类别数量是指标数据待分成的类别的数量;
基于类别数量对待分析广告的指标数据进行筛选,确定出多个第一聚类中心;
计算待分析广告的每个指标数据与每个第一聚类中心的距离;
基于距离、数据数量和多个第一聚类中心,对待分析广告的指标数据进行聚类得到目标聚类结果。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的获取待分析广告的指标数据,以实现以下步骤:
获取待分析广告的基础指标数据;
对基础指标数据进行数据标准化处理,得到待分析广告的指标数据。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的对基础指标数据进行数据标准化处理,得到待分析广告的指标数据,以实现以下步骤:
采用离差标准化算法对基础指标数据进行数据标准化处理,得到待分析广告的指标数据。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的基于类别数量对待分析广告的指标数据进行筛选,确定出多个第一聚类中心,以实现以下步骤:
基于类别数量确定目标分位数值;
从待分析广告的指标数据中确定目标分位数值的位置处对应的指标数据,得到多个第一聚类中心。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的基于距离、数据数量和多个第一聚类中心,对待分析广告的指标数据进行聚类得到目标聚类结果,以实现以下步骤:
针对每个指标数据,比较指标数据与每个第一聚类中心的距离的大小关系;
基于大小关系和数据数量,对待分析广告的指标数据进行聚类得到目标聚类结果。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的基于大小关系和数据数量,对待分析广告的指标数据进行聚类得到目标聚类结果,以实现以下步骤:
针对每个指标数据,从多个第一聚类中心中确定距离最小的第一聚类中心;
针对每个指标数据,将指标数据与距离最小的第一聚类中心对应的指标数据归为一类,得到分类后的第一指标数据;
从每类第一指标数据中确定预设分位数值的位置处对应的指标数据,得到第二聚类中心;
计算每个第一指标数据与每一第二聚类中心的距离,并针对每个第一指标数据将第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类,得到分类后的第二指标数据;
确定每类第二指标数据中包括的指标数据的数量的差值满足预设数量阈值时,且每类第二指标数据中包括的指标数据的数量均大于数据数量时,确定分类后的第二指标数据为目标聚类结果。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的数据聚类程序,还可以实现以下步骤:
确定每类第三指标数据中包括的指标数据的数量的差值不满足预设数量阈值,或任一类第一指标数据中包括的指标数据的数量小于或等于数据数量时,从每类第二指标数据中确定预设分位数值的位置处对应的指标数据,得到第三聚类中心;
计算每个第二指标数据与每一第三聚类中心的距离,并针对每个第二指标数据将第二指标数据与距离最小的第三聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到每类第N指标数据中包括的指标数据的数量的差值满足预设数量阈值时,且每类第N指标数据中包括的指标数据的数量均大于数据数量,确定分类后的第N指标数据为目标聚类结果。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的数据聚类程序,还可以实现以下步骤:
确定每类第三指标数据中包括的指标数据的数量的差值不满足预设数量阈值,或任一类第一指标数据中包括的指标数据的数量小于或等于数据数量时,从每类第二指标数据中确定预设分位数值的位置处对应的指标数据,得到第三聚类中心;
计算每个第二指标数据与每一第三聚类中心的距离,并针对每个第二指标数据将第二指标数据与距离最小的第三聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到任一类第N指标数据中包括的指标数据的数量小于数据数量,确定分类后的第N-1指标数据为目标聚类结果。
在本申请的其他实施例中,处理器41用于执行存储器42中存储的数据聚类程序,还可以实现以下步骤:
采用图形化展示方式展示目标聚类结果。
需要说明的是,本实施例中处理器所执行的步骤的具体实现过程,可以参照图1~4对应的实施例提供的数据聚类方法中的实现过程,此处不再赘述。
本申请的实施例所提供的数据聚类设备,在对广告的指标数据(广告效果)进行聚类时考虑到了要分成的类别数量和每类中至少包括指标数据的数据数量,而不是单纯的如相对技术中一样只使用算法本身的计算逻辑,解决了相关技术中的对广告效果进行聚类时存在聚类结果不准确的问题,提高了聚类结果的准确性,同时避免影响对广告投放效果的分析。
基于前述实施例,本申请的实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行以实现如图1~4对应的实施例提供的数据聚类方法的步骤。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种数据聚类方法,其特征在于,所述方法包括:
获取待分析广告的指标数据;
确定类别数量和每种类别中最少包括的指标数据的数据数量;其中,所述类别数量是所述指标数据待分成的类别的数量;
基于所述类别数量对所述待分析广告的指标数据进行筛选,确定出多个第一聚类中心;
计算所述待分析广告的每个指标数据与每个所述第一聚类中心的距离;
基于所述距离、所述数据数量和所述多个第一聚类中心,对所述待分析广告的指标数据进行聚类得到目标聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待分析广告的指标数据,包括:
获取所述待分析广告的基础指标数据;
对所述基础指标数据进行数据标准化处理,得到所述待分析广告的指标数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述基础指标数据进行数据标准化处理,得到所述待分析广告的指标数据,包括:
采用离差标准化算法对所述基础指标数据进行数据标准化处理,得到所述待分析广告的指标数据。
4.根据权利要求1所述的方法,其特征在于,所述基于所述类别数量对所述待分析广告的指标数据进行筛选,确定出多个第一聚类中心,包括:
基于所述类别数量确定目标分位数值;
从所述待分析广告的指标数据中确定所述目标分位数值的位置处对应的指标数据,得到所述多个第一聚类中心。
5.根据权利要求1所述的方法,其特征在于,所述基于所述距离、所述数据数量和所述多个第一聚类中心,对所述待分析广告的指标数据进行聚类得到目标聚类结果,包括:
针对每个指标数据,比较所述指标数据与每个所述第一聚类中心的距离的大小关系;
基于所述大小关系和所述数据数量,对所述待分析广告的指标数据进行聚类得到所述目标聚类结果。
6.根据权利要求4所述的方法,其特征在于,所述基于所述大小关系和所述数据数量,对所述待分析广告的指标数据进行聚类得到所述目标聚类结果,包括:
针对每个指标数据,从所述多个第一聚类中心中确定距离最小的第一聚类中心;
针对每个指标数据,将所述指标数据与所述距离最小的第一聚类中心对应的指标数据归为一类,得到分类后的第一指标数据;
确定每两类所述第一指标数据中包括的指标数据的数量的差值满足预设数量阈值,且每类所述第一指标数据中包括的指标数据的数量均大于所述数据数量时,确定所述分类后的第一指标数据为所述目标聚类结果。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定每两类所述第一指标数据中包括的指标数据的数量的差值不满足预设数量阈值,或任一类第一指标数据中包括的指标数据的数量小于或等于所述数据数量时,从所述每类第一指标数据中确定预设分位数值的位置处对应的指标数据,得到第二聚类中心;
计算每个第一指标数据与每一第二聚类中心的距离,并针对每个第一指标数据将所述第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到每两类所述第N指标数据中包括的指标数据的数量的差值满足所述预设数量阈值,且每类第N指标数据中包括的指标数据的数量均大于所述数据数量,确定所述分类后的第N指标数据为所述目标聚类结果。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定每两类所述第一指标数据中包括的指标数据的数量的差值不满足预设数量阈值,或任一类第一指标数据中包括的指标数据的数量小于或等于所述数据数量时,从所述每类第一指标数据中确定预设分位数值的位置处对应的指标数据,得到第二聚类中心;
计算每个第一指标数据与每一第二聚类中心的距离,并针对每个第一指标数据将所述第一指标数据与距离最小的第二聚类中心对应的指标数据归为一类,得到分类后的第N指标数据,直到任一类第N指标数据中包括的指标数据的数量小于所述数据数量,确定分类后的第N-1指标数据为所述目标聚类结果。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用图形化展示方式展示所述目标聚类结果。
10.一种数据聚类设备,其特征在于,所述设备包括:处理器、存储器和通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
所述处理器用于执行所述存储器中存储的数据聚类程序,以实现以下步骤:
获取待分析广告的指标数据;
确定类别数量和每种类别中最少包括的指标数据的数据数量;其中,所述类别数量是所述指标数据待分成的类别的数量;
基于所述类别数量对所述待分析广告的指标数据进行筛选,确定出多个第一聚类中心;
计算所述待分析广告的每个指标数据与每个所述第一聚类中心的距离;
基于所述距离、所述数据数量和所述多个第一聚类中心,对所述待分析广告的指标数据进行聚类得到目标聚类结果。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至9任一项所述的数据聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110119375.XA CN113762311A (zh) | 2021-01-28 | 2021-01-28 | 一种数据聚类方法、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110119375.XA CN113762311A (zh) | 2021-01-28 | 2021-01-28 | 一种数据聚类方法、设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762311A true CN113762311A (zh) | 2021-12-07 |
Family
ID=78786505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110119375.XA Pending CN113762311A (zh) | 2021-01-28 | 2021-01-28 | 一种数据聚类方法、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762311A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6012058A (en) * | 1998-03-17 | 2000-01-04 | Microsoft Corporation | Scalable system for K-means clustering of large databases |
US6449612B1 (en) * | 1998-03-17 | 2002-09-10 | Microsoft Corporation | Varying cluster number in a scalable clustering system for use with large databases |
CN102663065A (zh) * | 2012-03-30 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种广告位异常数据识别和筛选方法 |
US8463783B1 (en) * | 2009-07-06 | 2013-06-11 | Google Inc. | Advertisement selection data clustering |
CN107122999A (zh) * | 2017-05-04 | 2017-09-01 | 山东浪潮云服务信息科技有限公司 | 基于聚类算法确定用户对应用软件偏好程度的方法及装置 |
CN107273918A (zh) * | 2017-05-26 | 2017-10-20 | 国信优易数据有限公司 | 一种样本数据类别确定方法和设备 |
CN108805174A (zh) * | 2018-05-18 | 2018-11-13 | 广东惠禾科技发展有限公司 | 聚类方法及装置 |
CN109934618A (zh) * | 2019-01-31 | 2019-06-25 | 北京三快在线科技有限公司 | 一种广告投放区域推荐方法、装置、设备及可读存储介质 |
-
2021
- 2021-01-28 CN CN202110119375.XA patent/CN113762311A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6012058A (en) * | 1998-03-17 | 2000-01-04 | Microsoft Corporation | Scalable system for K-means clustering of large databases |
US6449612B1 (en) * | 1998-03-17 | 2002-09-10 | Microsoft Corporation | Varying cluster number in a scalable clustering system for use with large databases |
US8463783B1 (en) * | 2009-07-06 | 2013-06-11 | Google Inc. | Advertisement selection data clustering |
CN102663065A (zh) * | 2012-03-30 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种广告位异常数据识别和筛选方法 |
CN107122999A (zh) * | 2017-05-04 | 2017-09-01 | 山东浪潮云服务信息科技有限公司 | 基于聚类算法确定用户对应用软件偏好程度的方法及装置 |
CN107273918A (zh) * | 2017-05-26 | 2017-10-20 | 国信优易数据有限公司 | 一种样本数据类别确定方法和设备 |
CN108805174A (zh) * | 2018-05-18 | 2018-11-13 | 广东惠禾科技发展有限公司 | 聚类方法及装置 |
CN109934618A (zh) * | 2019-01-31 | 2019-06-25 | 北京三快在线科技有限公司 | 一种广告投放区域推荐方法、装置、设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
刘季昂;刘友波;程明畅;余莉娜;: "基于分位数半径动态K-means的分布式负荷聚类算法", 电力系统保护与控制, no. 24, 16 December 2019 (2019-12-16) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Ecod: Unsupervised outlier detection using empirical cumulative distribution functions | |
CN107679946B (zh) | 基金产品推荐方法、装置、终端设备及存储介质 | |
WO2021174944A1 (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
US8700607B2 (en) | Applying data regression and pattern mining to predict future demand | |
CN109165975B (zh) | 标签推荐方法、装置、计算机设备及存储介质 | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
CN111814910B (zh) | 异常检测方法、装置、电子设备及存储介质 | |
CN116452261B (zh) | 一种基于跨境电商服务平台的广告投放数据处理方法 | |
CN111445304B (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN113222668B (zh) | 增值服务推送方法、装置、设备及存储介质 | |
de Amorim | Unsupervised feature selection for large data sets | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
CN109697203B (zh) | 指标异动分析方法及设备、计算机存储介质、计算机设备 | |
CN114757270A (zh) | 基于NB-IoT燃气智能设备的异常分析方法系统及存储介质 | |
WO2021196457A1 (zh) | 数据相关性分析方法、装置、计算机系统及可读存储介质 | |
CN113762311A (zh) | 一种数据聚类方法、设备和计算机可读存储介质 | |
CN112967100A (zh) | 相似人群扩展方法、装置、计算设备以及介质 | |
CN112560474A (zh) | 快递行业画像的生成方法、装置、设备及存储介质 | |
US20230259756A1 (en) | Graph explainable artificial intelligence correlation | |
CN113780675B (zh) | 一种消耗预测方法、装置、存储介质及电子设备 | |
CN110705816A (zh) | 基于大数据的任务分配方法和装置 | |
CN115719244A (zh) | 用户行为预测方法及装置 | |
CN113077292B (zh) | 一种用户分类方法、装置、存储介质及电子设备 | |
EP3486795A1 (en) | Processing system, processing device, processing method, program, and information recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |