CN113344626A - 一种基于广告推送的数据特征优化方法及装置 - Google Patents
一种基于广告推送的数据特征优化方法及装置 Download PDFInfo
- Publication number
- CN113344626A CN113344626A CN202110620238.4A CN202110620238A CN113344626A CN 113344626 A CN113344626 A CN 113344626A CN 202110620238 A CN202110620238 A CN 202110620238A CN 113344626 A CN113344626 A CN 113344626A
- Authority
- CN
- China
- Prior art keywords
- binning
- result
- characteristic
- target
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 title claims abstract description 22
- 238000000926 separation method Methods 0.000 claims abstract description 24
- 238000012417 linear regression Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 8
- 239000002699 waste material Substances 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
Abstract
本申请公开了一种基于广告推送的数据特征优化方法及装置,通过对分箱结果进行数据特征优化处理的方式,能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
Description
技术领域
本申请公开涉及业务数据处理技术领域,特别涉及一种基于广告推送的数据特征优化方法及装置。
背景技术
在广告推送业务中,通常会采用广告推送模型进行相关推送处理。一般而言,所使用的广告推送模型为线性回归模型(linear regression,LR)。但是线性回归模型由于其自身的缺陷,在应用时的效果欠佳。为改善线性回归模型的应用效果以提高广告推送的准确性,减少无效广告推送造成的资源浪费,需要对广告业务数据进行特征优化。然而相关的特征优化技术仍然存在一些缺陷。
发明内容
为改善上述背景技术存在的技术问题,本公开提供了一种基于广告推送的数据特征优化方法及装置。
本申请提供了一种基于广告推送的数据特征优化方法,应用于计算机设备,所述方法包括:
获取待处理数据集;其中,所述待处理数据集为广告业务数据;
对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
优选地,所述对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果,包括:
对所述多个特征值进行等频分箱,得到第一分箱结果;
对所述多个特征值进行卡方分箱,得到第二分箱结果;
对所述多个特征值进行best-ks分箱,得到第三分箱结果;
对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
优选地,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果,包括:
按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
优选地,对所述最终分箱结果进行两两交叉,得到多个目标分箱特征,包括:
根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
优选地,对所述多个目标分箱特征进行独热编码,得到目标编码特征之后,还包括:
将所述目标编码特征输入到模型中。
本申请提供了一种基于广告推送的数据特征优化装置,应用于计算机设备,所述装置包括:
数据获取模块,用于获取待处理数据集;其中,所述待处理数据集为广告业务数据;
特征分箱模块,用于对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
结果交叉模块,用于对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
独热编码模块,用于对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
优选地,所述特征分箱模块,具体用于:
对所述多个特征值进行等频分箱,得到第一分箱结果;
对所述多个特征值进行卡方分箱,得到第二分箱结果;
对所述多个特征值进行best-ks分箱,得到第三分箱结果;
对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
优选地,所述特征分箱模块,具体用于:
按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
优选地,所述结果交叉模块,具体用于:
根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
优选地,所述独热编码模块,具体用于:
将所述目标编码特征输入到模型中。
本申请公开的实施例提供的技术方案可以包括以下有益效果。
一种基于广告推送的数据特征优化方法及装置,根据待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对多个特征值进行分箱,得到每个连续数值型特征的最终分箱结果,对最终分箱结果进行两两交叉,得到多个目标分箱特征,对多个目标分箱特征进行独热编码,得到目标编码特征。通过对分箱结果进行数据特征优化处理的方式,能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1为本发明实施例所提供的一种基于广告推送的数据特征优化方法的流程图;
图2为本发明实施例所提供的一种基于广告推送的数据特征优化装置的功能模块框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在上述基础上,请结合参阅图1,为本发明实施例所提供的基于广告推送的数据特征优化方法的流程示意图,进一步地,所述基于广告推送的数据特征优化的方法具体可以包括以下步骤S21-步骤S24所描述的内容。
步骤S21,获取待处理数据集;其中,所述待处理数据集为广告业务数据。
示例性的,所述待处理数据集可以从广告领域、电商领域或其它领域中获得(例如:广告领域将一类广告投放给客户,获取的样本集上可以得知该广告是否被点击,没被点击为一类,被点击为一类。又比如电商领域某类商品销售给客户,单条样本记录了一个客户是否购买该商品,购买为正类,没购买为负类)。所述待处理数据集可以包括连续数值型特征和二分类标签的样本。
步骤S22,对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果。
示例性的,所述特征值表示离散性系数,所述分箱包括等频分箱、卡方分箱、best-ks分箱以及iv最小值分箱,其中,所述等频分箱是将连续值分到多个区间内,每个区间的样本量相当,一般需要给定期望的分箱数,初始分箱后,将数值有重复的分箱合并,就得到了最终的分箱。所述卡方分箱是一个自下而上合并的分箱方法,当取值多的时候,初始会进行简单的等频分箱,然后将卡方值最小的两个分箱合并,重复循环,直到达到目标分箱数或者相邻分箱的最小卡方值超过一定阈值后截止。所述best-ks分箱是对特征取值排序后,求取每一个点的ks值,首先选择最大的ks值对应的取值,然后用该取值将特征取值划分为两个区间,对左右区间重复前一操作,直到分箱内的样本数低于设定阈值,或出现全为单一类的样本箱,或按序的分箱类别比例保持单调增或者单调减的趋势被打破,则停止分箱。所述iv最小值分箱(IV的全称是Information Value),是用来衡量特征线性预测能力的指标,iv损失最小分箱同样是自下而上合并邻箱的方法,其策略是每次都选择一组邻箱,使得合并后该变量的iv取值更大。
进一步地,所述最终分箱结果表示三种分箱结果进行合并后取最小的交集区域作为最终分箱结果(例如:三种分箱方法依次将特征划分为5、5、4段,也就生成了取值数为5、5、4的新的特征,根据新特征对三种分箱结果取最小的交集的结果,根据三个分箱结果对应取值区域最小交集的样本,一共可以形成七个分段区域,将七个分段区域对应的特征分箱的结果,作为单个特征最终分箱的结果)。
举例而言,将连续值排序后,按照一定规则将数值分段,同一分段区间的所有值都归为同一个值。这样做一方面对数据进行了降维,另一方面避免了一些极端值或者数值波动使得模型效果不稳定。
步骤S23,对所述最终分箱结果进行两两交叉,得到多个目标分箱特征。
示例性的,所述两两交叉表示将最终分箱结果中的特征先两两交叉组合,然后再将最终分箱结果中的特征对应的特征取值两两交叉组合,比如:最终分箱结果中有n个特征,最终得到了n个新的分箱特征。然后对这n个特征进行两两交叉,将交叉的特征再次输入分箱与合并流程。比如:特征取值交叉方法如下,生成的新分箱特征为Va、Vb……Vn,假设对Va和Vb这两个特征进行交叉,Va对应的取值有x个唯一值,Vb对应的取值有y个唯一值。然后对两个特征的取值进行两两组合,就可以得到一共x*y个组合方式。每一个组合对应一个新的交叉特征取值。对所有的原特征都与除开自己之外的其它特征进行交叉,一共有[nx(n-1)]/2组交叉结果,即进一步新生成了[nx(n-1)]/2个交叉特征,最终生成的新的交叉特征取值数量总共为∑n-1i=1∑nj=i+1(xiyj)。
进一步地,所有的交叉特征做进一步的分箱,这里只需要采用单一的分箱方式,等频、卡方、best-ks分箱皆可,同样分箱后可以得到新的特征。这里分箱是为了进行特征取值的降维。
步骤S24,对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
示例性的,所述独热编码是将一个特征的z个取值作为z种状态储存的编码方式,比如一个性别字段的所有取值区间是男、女,那么一种性别是一个状态,当符合该状态时,该状态位取值是1,否则取值是0。例如男性取值状态是“1-0”,女性取值状态是“0-1”。从而将单个特征扩充成两个特征,“男”对应一个特征,取值0、1依次表示不为男、为男,“女”对应一个特征,取值0、1依次表示不为女、为女。通过独热编码处理后也会大大降低特征的维度,减少样本量,减轻计算机内存压力,提高计算机建模速度。
可以理解的,在执行上述步骤S21-步骤S24所描述的内容时,根据待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对多个特征值进行分箱,得到每个连续数值型特征的最终分箱结果,对最终分箱结果进行两两交叉,得到多个目标分箱特征,对多个目标分箱特征进行独热编码,得到目标编码特征。通过对分箱结果进行数据特征优化处理的方式,这样能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
在一种可替换的实施例中,发明人发现,在对所述多个特征值进行分箱时,存在分箱混乱的问题,从而难以准确地得到每个所述连续数值型特征的最终分箱结果,为了避免上述技术问题,在步骤S22所描述的对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果的步骤,还可以包括以下步骤S221-步骤S224所描述的内容。
步骤S221,对所述多个特征值进行等频分箱,得到第一分箱结果。
步骤S222,对所述多个特征值进行卡方分箱,得到第二分箱结果。
步骤S223,对所述多个特征值进行best-ks分箱,得到第三分箱结果。
步骤S224,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
可以理解的,在执行上述步骤S221-步骤S224所描述的内容时,在对所述多个特征值进行分箱时,避免分箱混乱的问题,从而能够准确地得到每个所述连续数值型特征的最终分箱结果。
在一种可替换的实施例中,发明人发现,在对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并时,存在合并混乱的技术问题,从而难以精确地得到每个所述连续数值型特征的最终分箱结果,为了改善上述技术问题,步骤S224所描述的,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果的步骤,具体可以包括以下步骤A1和步骤A2所描述的内容。
步骤A1,按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果。
步骤A2,将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
可以理解的,在执行上述步骤A1和步骤A2所描述的内容时,在对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并时,避免合并混乱的技术问题,从而能够精确地得到每个所述连续数值型特征的最终分箱结果。
在一种可替换的实施例中,发明人发现,在对所述最终分箱结果进行两两交叉时,存在交叉混乱的技术问题,从而难以精确地得到多个目标分箱特征,为了改善上述技术问题,步骤S23所描述的对所述最终分箱结果进行两两交叉,得到多个目标分箱特征的步骤,具体可以包括以下步骤S231-步骤S233所描述的内容。
步骤S231,根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值。
步骤S232,将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合。
步骤S233,针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
可以理解的,在执行上述步骤S231-步骤S233所描述的内容时,对所述最终分箱结果进行两两交叉时,避免交叉混乱的技术问题,从而能够精确地得到多个目标分箱特征。
基于上述基础,对所述多个目标分箱特征进行独热编码,得到目标编码特征之后,还包括。
将所述目标编码特征输入到模型中。
基于上述同样的发明构思,请结合参阅图2,还提供了基于广告推送的数据特征优化装置20的功能模块框图,关于所述基于广告推送的数据特征优化装置20的详细描述如下。
一种基于广告推送的数据特征优化装置20,应用于计算机设备,所述装置20包括:
数据获取模块21,用于获取待处理数据集;其中,所述待处理数据集为广告业务数据;
特征分箱模块22,用于对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
结果交叉模块23,用于对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
独热编码模块24,用于对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
进一步地,所述特征分箱模块22,具体用于:
对所述多个特征值进行等频分箱,得到第一分箱结果;
对所述多个特征值进行卡方分箱,得到第二分箱结果;
对所述多个特征值进行best-ks分箱,得到第三分箱结果;
对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
进一步地,所述特征分箱模块22,具体用于:
按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
进一步地,所述结果交叉模块23,具体用于:
根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
进一步地,所述独热编码模块24,具体用于:
将所述目标编码特征输入到模型中。
综上,本发明实施例提供的一种基于广告推送的数据特征优化方法及装置,根据待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对多个特征值进行分箱,得到每个连续数值型特征的最终分箱结果,对最终分箱结果进行两两交叉,得到多个目标分箱特征,对多个目标分箱特征进行独热编码,得到目标编码特征。通过对分箱结果进行数据特征优化处理的方式,这样能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于广告推送的数据特征优化方法,其特征在于,应用于计算机设备,所述方法包括:
获取待处理数据集;其中,所述待处理数据集为广告业务数据;
对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果,包括:
对所述多个特征值进行等频分箱,得到第一分箱结果;
对所述多个特征值进行卡方分箱,得到第二分箱结果;
对所述多个特征值进行best-ks分箱,得到第三分箱结果;
对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
3.根据权利要求2所述的方法,其特征在于,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果,包括:
按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
4.根据权利要求1所述的方法,其特征在于,对所述最终分箱结果进行两两交叉,得到多个目标分箱特征,包括:
根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
5.根据权利要求1所述的方法,其特征在于,对所述多个目标分箱特征进行独热编码,得到目标编码特征之后,还包括:
将所述目标编码特征输入到模型中。
6.一种基于广告推送的数据特征优化装置,其特征在于,应用于计算机设备,所述装置包括:
数据获取模块,用于获取待处理数据集;其中,所述待处理数据集为广告业务数据;
特征分箱模块,用于对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
结果交叉模块,用于对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
独热编码模块,用于对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
7.根据权利要求6所述的装置,其特征在于,所述特征分箱模块,具体用于:
对所述多个特征值进行等频分箱,得到第一分箱结果;
对所述多个特征值进行卡方分箱,得到第二分箱结果;
对所述多个特征值进行best-ks分箱,得到第三分箱结果;
对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
8.根据权利要求7所述的装置,其特征在于,所述特征分箱模块,具体用于:
按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
9.根据权利要求6所述的装置,其特征在于,所述结果交叉模块,具体用于:
根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
10.根据权利要求6所述的装置,其特征在于,所述独热编码模块,具体用于:
将所述目标编码特征输入到模型中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110620238.4A CN113344626A (zh) | 2021-06-03 | 2021-06-03 | 一种基于广告推送的数据特征优化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110620238.4A CN113344626A (zh) | 2021-06-03 | 2021-06-03 | 一种基于广告推送的数据特征优化方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113344626A true CN113344626A (zh) | 2021-09-03 |
Family
ID=77475236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110620238.4A Pending CN113344626A (zh) | 2021-06-03 | 2021-06-03 | 一种基于广告推送的数据特征优化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344626A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114329127A (zh) * | 2021-12-30 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 特征分箱方法、装置及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786860A (zh) * | 2014-12-23 | 2016-07-20 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN108764273A (zh) * | 2018-04-09 | 2018-11-06 | 中国平安人寿保险股份有限公司 | 一种数据处理的方法、装置、终端设备及存储介质 |
CN111507831A (zh) * | 2020-05-29 | 2020-08-07 | 长安汽车金融有限公司 | 信贷风险自动评估方法和装置 |
CN111626832A (zh) * | 2020-06-05 | 2020-09-04 | 中国银行股份有限公司 | 产品推荐方法、装置及计算机设备 |
CN111861706A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据离散化调控方法及系统以及风险控制模型建立方法及系统 |
CN111950585A (zh) * | 2020-06-29 | 2020-11-17 | 广东技术师范大学 | 一种基于XGBoost的地下综合管廊安全状况评估方法 |
CN112085565A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于深度学习的信息推荐方法、装置、设备及存储介质 |
CN112328657A (zh) * | 2020-11-03 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 特征衍生方法、装置、计算机设备及介质 |
WO2021027362A1 (zh) * | 2019-08-13 | 2021-02-18 | 平安科技(深圳)有限公司 | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 |
CN112580825A (zh) * | 2021-02-22 | 2021-03-30 | 上海冰鉴信息科技有限公司 | 一种无监督的数据分箱方法及装置 |
CN112633414A (zh) * | 2021-01-06 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 特征选择优化方法、设备和可读存储介质 |
CN112632045A (zh) * | 2021-03-10 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-06-03 CN CN202110620238.4A patent/CN113344626A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786860A (zh) * | 2014-12-23 | 2016-07-20 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN108764273A (zh) * | 2018-04-09 | 2018-11-06 | 中国平安人寿保险股份有限公司 | 一种数据处理的方法、装置、终端设备及存储介质 |
WO2021027362A1 (zh) * | 2019-08-13 | 2021-02-18 | 平安科技(深圳)有限公司 | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 |
CN111507831A (zh) * | 2020-05-29 | 2020-08-07 | 长安汽车金融有限公司 | 信贷风险自动评估方法和装置 |
CN111626832A (zh) * | 2020-06-05 | 2020-09-04 | 中国银行股份有限公司 | 产品推荐方法、装置及计算机设备 |
CN111950585A (zh) * | 2020-06-29 | 2020-11-17 | 广东技术师范大学 | 一种基于XGBoost的地下综合管廊安全状况评估方法 |
CN111861706A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据离散化调控方法及系统以及风险控制模型建立方法及系统 |
CN112085565A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于深度学习的信息推荐方法、装置、设备及存储介质 |
CN112328657A (zh) * | 2020-11-03 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 特征衍生方法、装置、计算机设备及介质 |
CN112633414A (zh) * | 2021-01-06 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 特征选择优化方法、设备和可读存储介质 |
CN112580825A (zh) * | 2021-02-22 | 2021-03-30 | 上海冰鉴信息科技有限公司 | 一种无监督的数据分箱方法及装置 |
CN112632045A (zh) * | 2021-03-10 | 2021-04-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
王青天: "《Python金融大数据风控建模实战》", 31 May 2020, 机械工业出版社, pages: 89 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114329127A (zh) * | 2021-12-30 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 特征分箱方法、装置及存储介质 |
CN114329127B (zh) * | 2021-12-30 | 2023-06-20 | 北京瑞莱智慧科技有限公司 | 特征分箱方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hsu et al. | A practical guide to support vector classification | |
Antonacopoulos et al. | ICDAR2005 page segmentation competition | |
CN109213866A (zh) | 一种基于深度学习的税务商品编码分类方法和系统 | |
CN103679185A (zh) | 卷积神经网络分类器系统、其训练方法、分类方法和用途 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN111815432A (zh) | 金融服务风险预测方法及装置 | |
CN103885942B (zh) | 一种快速翻译装置及方法 | |
CN105528610A (zh) | 文字识别方法和装置 | |
CN108733644A (zh) | 一种文本情感分析方法、计算机可读存储介质及终端设备 | |
CN113971735A (zh) | 一种深度图像聚类方法、系统、设备、介质及终端 | |
CN103761532A (zh) | 基于特征相关隐式编码的标签空间降维方法及系统 | |
CN113344626A (zh) | 一种基于广告推送的数据特征优化方法及装置 | |
CN111783543A (zh) | 一种基于多任务学习的面部活动单元检测方法 | |
CN114283083B (zh) | 一种基于解耦表示的场景生成模型的美学增强方法 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN111553442B (zh) | 一种分类器链标签序列的优化方法及系统 | |
CN114548325B (zh) | 基于对偶对比学习的零样本关系抽取方法和系统 | |
CN116821274A (zh) | 一种施肥信息联合抽取方法及系统 | |
CN111814922B (zh) | 一种基于深度学习的视频片段内容匹配方法 | |
CN116304012A (zh) | 一种大规模文本聚类方法及装置 | |
CN115331754A (zh) | 基于哈希算法的分子分类方法 | |
Chang et al. | A Robust Color Image Quantization Algorithm Based on Knowledge Reuse of K-Means Clustering Ensemble. | |
CN111242247A (zh) | 一种伴随分析的时间片划分方法及系统 | |
CN110689082A (zh) | 一种使用optics与离线批处理优化的轨迹聚类算法 | |
CN118170920B (zh) | 一种混合语种文本检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |