CN112231299B - 一种特征库动态调整的方法和装置 - Google Patents
一种特征库动态调整的方法和装置 Download PDFInfo
- Publication number
- CN112231299B CN112231299B CN202011037242.XA CN202011037242A CN112231299B CN 112231299 B CN112231299 B CN 112231299B CN 202011037242 A CN202011037242 A CN 202011037242A CN 112231299 B CN112231299 B CN 112231299B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- characteristic
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000011144 upstream manufacturing Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 58
- 238000011156 evaluation Methods 0.000 claims description 32
- 230000005540 biological transmission Effects 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了特征库动态调整的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合;根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中;调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中;待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。从而,本发明的实施方式能够解决现有模型训练迭代所需的特征数据难以获得且质量较差的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种特征库动态调整的方法和装置。
背景技术
风控技术作为银行体系甚至是整个金融体系健康运营管理的重要保障环节,传统风控管理主要依靠专家业务经验方法,已经无法满足当前银行体系发展的需要。风控技术的核心在于风险模型开发与应用,基于大数据和人工智能技术的机器学习算法建模方法,风险模型特征数据随着时间周期推移,对模型的贡献度和有效性均可能发生改变,需要定期调整特征库来保持模型的有效性和稳定性。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前,建模人员在每次模型训练开发之前,需要进行从数据探查分析、特征衍生设计加工和特征筛选全过程;每次模型迭代都需要重新手工构建训练特征长清单和模型训练样本集合;对于特征变量的不同模型均建立单个模型级的评估方法;模型特征变量清单在模型发布之后保持相对固定形态。因此,可以看出现有模型特征工程耗时耗力,且不具备跨多个模型可复用性。特征变量仅在单模型中使用,无法在多个模型应用过程中做综合评价,不能体现特征变量的整体价值。特征库不能动态调整,没有特征变量退出变更机制。
发明内容
有鉴于此,本发明实施例提供一种特征库动态调整的方法和装置,能够解决现有模型训练迭代所需的特征数据难以获得且质量较差的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种特征库动态调整的方法,包括接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合;根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中;调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中;待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。
可选地,归类至所述标签对应的数据表中之后,包括:
调用特征加工引擎,根据不同标签对应的数据表的加工配置信息,获取相应的加工程序;
触发所述加工程序,基于预设的加工模型,对数据表中的特征数据进行加工;其中,加工模型包括清洗模型、衍生模型和筛选模型。
可选地,从目标特征池中得到相应的特征数据,以生成特征数据集并输出,包括:
从目标特征池中得到相应的特征数据,生成特征数据集;
根据外部应用模型的训练信息,将所述特征数据集拆分为样本集和验证集,并将所述样本集和验证集输出。
可选地,包括:
根据预设的评估周期,调用指标计量引擎,对目标特征池中的特征变量计算评估分数并排序;
待接收到特征调整指令,获取预设时间段内所有特征变量的评估分数和排序,得到待删除特征变量,进而将目标特征池中的待删除特征变量去除。
可选地,得到待删除特征变量之后,还包括:
更新所述待删除特征变量对应的上游业务组件数据传输接口的配置信息,以使所述接口不传输所述待删除特征变量。
可选地,得到待删除特征数据之后,还包括:
根据上游业务组件数据传输接口的配置信息,如果所述待删除特征变量包括了配置信息中的所有特征变量,则关闭该上游业务组件数据传输接口。
可选地,待接收到外部应用模型的数据请求之后,包括:
获取所述请求中的特征变量,确定目标特征池中不存在相应的特征变量,则配置所述特征变量对应的上游业务组件数据传输接口。
另外,本发明还提供了一种特征库动态调整的装置,包括获取模块,用于接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合;处理模块,用于根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中;调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中;生成模块,用于待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。
上述发明中的一个实施例具有如下优点或有益效果:本发明能够实现智能动态自适应构建模型特征库,为建模服务提供智能化全生命周期特征库数据服务,为模型(例如风险模型)建模自动化迭代体系建设提供数据基础保障。并且,建立特征变量动态调整机制,当特征变量在其他模型特征重要性表现排序靠前时,自动引入特征库集市入选多个模型迭代训练变量长清单(即目标数据宽表),当特征变量在多个模型重要性表现不能达到相关要求时,退出特征库集市,结束特征生命周期。另外,本发明通过建立智能化综合评估特征变量在模型迭代训练的贡献度价值,实现对特征库智能评估。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例的特征库动态调整的方法的主要流程的示意图;
图2是根据本发明第二实施例的特征库动态调整的方法的架构的示意图;
图3是根据本发明实施例的特征库动态调整的方法的架构的示意图;
图4是根据本发明实施例的特征库动态调整的装置的主要模块的示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明第一实施例的特征库动态调整的方法的主要流程的示意图,如图1所示,所述特征库动态调整的方法包括:
步骤S101,接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合。
在实施例中,通过配置上游业务组件数据传输的接口,实现自动接收并累积特征数据,进而得到不同业务类型的数据集合。其中,不同业务组件对应不同的业务类型。
步骤S102,根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中。
在一些实施例中,归类至所述标签对应的数据表中之后,可以对数据表中的数据进行加工处理,具体地实施过程包括:
调用特征加工引擎,根据不同标签对应的数据表的加工配置信息,获取相应的加工程序。触发所述加工程序,基于预设的加工模型,对数据表中的特征数据进行加工。其中,加工模型包括清洗模型、衍生模型和筛选模型。也就是说,该实施例可以根据不同的数据表,预先设置不同的加工配置信息,进而对应不同的加工程序。例如:预先设置的加工配置信息中只包括清洗和衍生加工信息,那么在触发加工程序时,只需要基于预设的清洗模型和衍生模型进行特征数据的加工即可。从而,实现了更为灵活的特征数据加工程序。
步骤S103,调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中。
在实施例中,存在不同的目标特征池(例如:个人征信特征池、企业征信特征池、工商数据特征池等等),且在目标特征池中存储着目标数据宽表,而所述的目标数据宽表则可以包括一个或多个数据表。因此,本发明可以调用匹配模型,将所述目标数据宽表需要的多个数据表进行处理并存储至相应的目标特征池中。另外,目标特征池中的数据以宽表即变量长清单的形式进行存储,实现了可扩展性。
至此,本发明构建了一个可以供外部应用模型训练迭代直接调用的特征库,即不用再对特征数据进行任何处理,可以直接调用,大幅度提高了模型训练迭代的效果。
步骤S104,待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。
在一些实施例中,从目标特征池中得到相应的特征数据,以生成特征数据集并输出,可以从目标特征池中得到相应的特征数据,生成特征数据集。然后,根据外部应用模型的训练信息,将所述特征数据集拆分为样本集和验证集,并将所述样本集和验证集输出。也就是说,可以根据不同外部应用模型的训练需求,将特征数据集拆分为不同比例的样本集和验证集。
还值得说明的是,特征数据集中还包括了配置集,在所述配置集中包括外部应用模型的配置信息,例如外部应用模型训练迭代的特征变量的范围。
作为另一些实施例,本发明还可以根据预设的评估周期,调用指标计量引擎,对目标特征池中的特征变量计算评估分数并排序。待接收到特征调整指令,获取预设时间段内所有特征变量的评估分数和排序,得到待删除特征变量,进而将目标特征池中的待删除特征变量去除。
也就是说,通过建立特征变量对模型迭代训练过程稳定性和重要性等贡献度指标计量体系,有效评估特征库变量的表现并排序。融合特征库中特征变量在多个模型的综合表现情况,建立特征库变量的全面评价指标计量体系,多个维度整体评价特征库变量的数据价值,为后续模型迭代和新模型开发提供先验支持,有效提升模型开发效率。
较佳的,本发明采用不同的特征变量评价指标,分别计算得到评价指标,然后再分别乘以对应的权重,最后求和得到特征变量的综合表现的评估分数。更进一步地,如果评估分数大于或等于预设的剔除阈值,再将该评估分数对应的特征变量作为待删除的特征变量。或者可以先提取评估分数排名预设后几位的特征变量,然后再进行评估分数是否大于或等于预设的剔除阈值的判断,如果评估分数大于或等于预设的剔除阈值,再将该评估分数对应的特征变量作为待删除的特征变量。
优选地,评价指标可以包括特征稳定性指标PSI(population stability index群体稳定性指数)、特征IV(Information Value)值等等。其中,特征稳定性指标PSI检验变量的稳定性,当一个变量的psi值大于0.0001时,变量不稳定。所谓特征稳定性,就是关注该特征的取值随着时间的推移会不会发生大的波动情况。对于一个特征变量,将它的取值按照分位数来分组一下,每一组中测试模型的客户数占比减去训练模型中的客户数占比再乘以这两者相除的对数,就是这一组的稳定性系数psi,然后变量的psi系数就是把这个变量的所有组的psi相加总起来,即:
psi=sum((实际占比-预期占比)/ln(实际占比/预期占比))
其中,特征IV值衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组i,其对应的IV值如下,其中n是分组个数,注意,在变量的任何分组中,不应该出现响应数为0或非响应数位0的情况,当变量的一个分组的响应数位0时,对应的woe就为负无穷,此时IV值为正无穷。如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件,单个分组IV值计算公式(Pyi代表第i个分箱里好客户的个数,Pni代表第i个分箱里坏客户的个数):
计算了一个变量各个组的IV值之后,可以计算整个变量的IV值:
在建模过程中,IV值主要用于特征选择,如果想要对变量的预测能力进行排序的话,可以按IV值从高到低筛选即可。
另外,WOE的全称是“weight of evidence”,即证据权重。直观上讲,WOE是对原始变量的一种编码形式,要对一个变量进行WOE编码,首先需要把这个变量进行分组处理,即分箱或者离散化,常用离散化的方法有等宽分组,等高分组,或者利用决策树来分组。分组后,对于第i组,WOE的计算公式:
进一步地实施例,得到待删除特征变量之后,还可以更新所述待删除特征变量对应的上游业务组件数据传输接口的配置信息,以使所述接口不传输所述待删除特征变量。也就是说,当要去掉特征库中的某个特征变量时,需要更新所述待删除特征变量对应的上游业务组件数据传输接口的配置信息,即删除配置信息中的该特征变量信息,从而不用接收该特征变量的数据。
另外,进一步地实施例,得到待删除特征变量之后,还可以根据上游业务组件数据传输接口的配置信息,如果所述待删除特征变量包括了配置信息中的所有特征变量,则关闭该上游业务组件数据传输接口。也就是说,当需要删除的特征变量已经覆盖了一个上游业务组件数据传输接口的配置信息中的特征变量时,则可以直接关闭该接口。
还值得说明的是,待接收到外部应用模型的数据请求之后,可以获取所述请求中的特征变量,确定目标特征池中不存在相应的特征变量,则配置所述特征变量对应的上游业务组件数据传输接口。也就是说,通过该实施例可以应外部应用模型的数据请求新增特征变量至特征库中。
可以看出,本发明依据特征变量技术指标评估价值情况,结合特征变量历史表现,以及横向多模型应用入选情况,动态调整特征库中特征变量的新增和退出(去掉),保持特征库变量集合的有效性和可用性,为模型迭代训练提供基础数据保障,实现了特征库分层管理。
图2是根据本发明第二实施例的特征库动态调整的方法的主要流程的示意图,如图2所示,所述特征库动态调整的方法包括:
步骤S201,接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合。
步骤S202,根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中。
步骤S203,调用特征加工引擎,根据不同标签对应的数据表的加工配置信息,获取相应的加工程序。
步骤S204,触发所述加工程序,基于预设的加工模型,对数据表中的特征数据进行加工。
其中,加工模型包括清洗模型、衍生模型和筛选模型。
步骤S205,调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中。
步骤S206,待接收到外部应用模型的数据请求,获取所述请求中的特征变量。
步骤S207,从目标特征池中得到相应的特征数据,生成特征数据集。
步骤S208,根据外部应用模型的训练信息,将所述特征数据集拆分为样本集和验证集,并将所述样本集和验证集输出。
图3是根据本发明实施例的特征库动态调整的方法的架构的示意图,根据数据特征阶段属性和特征工程数据加工过程的数据表征特点,建立数据特征库不同阶段的层级管理,有效区分数据加工颗粒度原子性,满足智能动态调整的技术实现基础。具体地特征库总体架构分为多个逻辑层次设计,包括:基础数据层、数据表加工层、特征池化层和模型应用层(即特征集市层)。
其中,基础数据层接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合,例如:客户基础信息、信贷信息、金融信息、行为信息、信用信息、社会关系等等。然后,根据预设的属性标签,对所有业务类型的数据打标签(例如对客户基础信息中的性别、年龄等等数据打标签),进而归类至所述标签对应的数据表中(例如将客户基础信息中的性别、年龄归类至征信数据表中)。
其中,数据表加工层实现特征库从基础数据接入开始,特征衍生加工过程,特征池化加工过程,以及特征筛选加工过程。也就是说,特征库作为模型训练和模型推理的依据基础,数据加工过程包括从基础层数据获取数据进行清洗、衍生以及筛选。
其中,特征池化层构成模型训练特征库数据宽表,即调用预设的匹配模型,基于多个数据表生成目标数据宽表(变量长清单),将所述目标数据宽表存入相应的目标特征池中(例如个人征信特征池)。
其中,模型应用层(即特征集市层)可以接收到外部应用模型(例如小微快贷风险模型)的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据(例如:企业征信特征池中的历史还款数据),以生成特征数据集并输出。
另外,作为满足多个不同类型模型建模训练需要的数据集市,通过建立一整套动态评估体系,定期调整模型训练特征库集合。除了量化特征变量的技术参数指标之外,还需要跟进特征变量历史迭代过程中,被模型应用的频度来考量其入选特征库集合的必要性和合理性。建立动态智能调整的特征库集合,定期通过多维度的数据分析指标,综合评估特征变量的重要性排序,及时新增有效变量或剔除失效变量,更新入选特征变量集合,保持模型迭代训练的特征数据保鲜性。因此,本发明实现了特征变量自动化生命周期管理,通过清晰定义特征库多层次标识,有效管理特征库在不同层级周期形态下的评估方法和指标参数。
综上所述,本发明所述特征库动态调整的方法,支持模型自动化迭代过程管理,提高模型全生命周期管理效率;通过多种指标参数评估方法,建立科学当模型评价体系,保障特征库当有效性和可用性;可以建立自动化机制,减少人工参与特征工程和模型迭代过程,实现建模过程数据支持自动化,提高生产效率,减少生产成本,带来更好当经济效益。
图4是根据本发明实施例的特征库动态调整的装置的主要模块的示意图,如图4所示,所述特征库动态调整的装置包括获取模块401、处理模块402和生成模块403。其中,获取模块401接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合;处理模块402根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中;调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中;生成模块403待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。
在一些实施例中,处理模块402归类至所述标签对应的数据表中之后,包括:
调用特征加工引擎,根据不同标签对应的数据表的加工配置信息,获取相应的加工程序;触发所述加工程序,基于预设的加工模型,对数据表中的特征数据进行加工;其中,加工模型包括清洗模型、衍生模型和筛选模型。
在一些实施例中,生成模块403从目标特征池中得到相应的特征数据,以生成特征数据集并输出,包括:
从目标特征池中得到相应的特征数据,生成特征数据集;根据外部应用模型的训练信息,将所述特征数据集拆分为样本集和验证集,并将所述样本集和验证集输出。
在一些实施例中,处理模块402,还用于:
根据预设的评估周期,调用指标计量引擎,对目标特征池中的特征变量计算评估分数并排序;待接收到特征调整指令,获取预设时间段内所有特征变量的评估分数和排序,得到待删除特征变量,进而将目标特征池中的待删除特征变量去除。
在一些实施例中,处理模块402得到待删除特征变量之后,还包括:
更新所述待删除特征变量对应的上游业务组件数据传输接口的配置信息,以使所述接口不传输所述待删除特征变量。
在一些实施例中,处理模块402得到待删除特征变量之后,还包括:
根据上游业务组件数据传输接口的配置信息,如果所述待删除特征变量包括了配置信息中的所有特征变量,则关闭该上游业务组件数据传输接口。
在一些实施例中,生成模块403待接收到外部应用模型的数据请求之后,包括:
获取所述请求中的特征变量,确定目标特征池中不存在相应的特征变量,则配置所述特征变量对应的上游业务组件数据传输接口。
需要说明的是,在本发明所述特征库动态调整的方法和所述特征库动态调整的装置在具体实施内容上具有相应关系,故重复内容不再说明。
图5示出了可以应用本发明实施例的特征库动态调整的方法或特征库动态调整的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有特征库动态调整的屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的特征库动态调整的方法一般由服务器505执行,相应地,计算装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU501、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶特征库动态调整的器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、处理模块和生成模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合;根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中;调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中;待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。
根据本发明实施例的技术方案,能够解决现有模型训练迭代所需的特征数据难以获得且质量较差的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种特征库动态调整的方法,其特征在于,包括:
接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合;
根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中;
调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中;
待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。
2.根据权利要求1所述的方法,其特征在于,归类至所述标签对应的数据表中之后,包括:
调用特征加工引擎,根据不同标签对应的数据表的加工配置信息,获取相应的加工程序;
触发所述加工程序,基于预设的加工模型,对数据表中的特征数据进行加工;其中,加工模型包括清洗模型、衍生模型和筛选模型。
3.根据权利要求1所述的方法,其特征在于,从目标特征池中得到相应的特征数据,以生成特征数据集并输出,包括:
从目标特征池中得到相应的特征数据,生成特征数据集;
根据外部应用模型的训练信息,将所述特征数据集拆分为样本集和验证集,并将所述样本集和验证集输出。
4.根据权利要求1所述的方法,其特征在于,包括:
根据预设的评估周期,调用指标计量引擎,对目标特征池中的特征变量计算评估分数并排序;
待接收到特征调整指令,获取预设时间段内所有特征数据的评估分数和排序,得到待删除特征变量,进而将目标特征池中的待删除特征变量去除。
5.根据权利要求4所述的方法,其特征在于,得到待删除特征变量之后,还包括:
更新所述待删除特征变量对应的上游业务组件数据传输接口的配置信息,以使所述接口不传输所述待删除特征变量。
6.根据权利要求1所述的方法,其特征在于,得到待删除特征变量之后,还包括:
根据上游业务组件数据传输接口的配置信息,如果所述待删除特征变量包括了配置信息中的所有特征变量,则关闭该上游业务组件数据传输接口。
7.根据权利要求1-6任一所述的方法,其特征在于,待接收到外部应用模型的数据请求之后,包括:
获取所述请求中的特征变量,确定目标特征池中不存在相应的特征变量,则配置所述特征变量对应的上游业务组件数据传输接口。
8.一种特征库动态调整的装置,其特征在于,包括:
获取模块,用于接收上游业务组件通过接口传输的特征数据,以得到基于不同业务类型的数据集合;
处理模块,用于根据预设的属性标签,对所有业务类型的数据打标签,进而归类至所述标签对应的数据表中;调用预设的匹配模型,基于多个数据表生成目标数据宽表,以将所述目标数据宽表存入相应的目标特征池中;
生成模块,用于待接收到外部应用模型的数据请求,获取所述请求中的特征变量,进而从目标特征池中得到相应的特征数据,以生成特征数据集并输出。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011037242.XA CN112231299B (zh) | 2020-09-27 | 2020-09-27 | 一种特征库动态调整的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011037242.XA CN112231299B (zh) | 2020-09-27 | 2020-09-27 | 一种特征库动态调整的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231299A CN112231299A (zh) | 2021-01-15 |
CN112231299B true CN112231299B (zh) | 2024-02-20 |
Family
ID=74120197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011037242.XA Active CN112231299B (zh) | 2020-09-27 | 2020-09-27 | 一种特征库动态调整的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231299B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052678A (zh) * | 2021-04-06 | 2021-06-29 | 北京明略昭辉科技有限公司 | 趋势性变量的自动衍生方法、系统、存储介质及电子设备 |
CN115718571B (zh) * | 2022-11-23 | 2023-08-22 | 深圳计算科学研究院 | 一种基于多维度特征的数据管理方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507068A (zh) * | 2017-09-02 | 2017-12-22 | 广东奡风科技股份有限公司 | 一种基于随机森林算法的金融产品实时推荐方法 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN110928879A (zh) * | 2019-11-20 | 2020-03-27 | 贵州电网有限责任公司电力科学研究院 | 宽表生成方法及装置 |
CN111062620A (zh) * | 2019-12-19 | 2020-04-24 | 烟台海颐软件股份有限公司 | 基于混合计费数据的电力计费公平性智能分析系统及方法 |
CN111274338A (zh) * | 2020-01-08 | 2020-06-12 | 重庆邮电大学 | 一种基于移动大数据的预出境用户识别方法 |
CN111369344A (zh) * | 2020-03-06 | 2020-07-03 | 中国建设银行股份有限公司 | 一种动态生成预警规则的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11243933B2 (en) * | 2018-06-29 | 2022-02-08 | Opendoor Labs Inc. | Time sensitive data store |
-
2020
- 2020-09-27 CN CN202011037242.XA patent/CN112231299B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507068A (zh) * | 2017-09-02 | 2017-12-22 | 广东奡风科技股份有限公司 | 一种基于随机森林算法的金融产品实时推荐方法 |
CN108764663A (zh) * | 2018-05-15 | 2018-11-06 | 广东电网有限责任公司信息中心 | 一种电力客户画像生成管理的方法及系统 |
CN110928879A (zh) * | 2019-11-20 | 2020-03-27 | 贵州电网有限责任公司电力科学研究院 | 宽表生成方法及装置 |
CN111062620A (zh) * | 2019-12-19 | 2020-04-24 | 烟台海颐软件股份有限公司 | 基于混合计费数据的电力计费公平性智能分析系统及方法 |
CN111274338A (zh) * | 2020-01-08 | 2020-06-12 | 重庆邮电大学 | 一种基于移动大数据的预出境用户识别方法 |
CN111369344A (zh) * | 2020-03-06 | 2020-07-03 | 中国建设银行股份有限公司 | 一种动态生成预警规则的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112231299A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10839255B2 (en) | Load-balancing training of recommender system for heterogeneous systems | |
CN107330715B (zh) | 选择图片广告素材的方法和装置 | |
CN114265979B (zh) | 确定融合参数的方法、信息推荐方法和模型训练方法 | |
CN111369344B (zh) | 一种动态生成预警规则的方法和装置 | |
CN113743971B (zh) | 一种数据处理方法和装置 | |
CN110070382B (zh) | 用于生成信息的方法和装置 | |
CN110659657B (zh) | 训练模型的方法和装置 | |
CN112231299B (zh) | 一种特征库动态调整的方法和装置 | |
CN112257868A (zh) | 构建和训练用于预测客流量的集成预测模型的方法及装置 | |
CN115202847A (zh) | 任务的调度方法和装置 | |
CN110866625A (zh) | 促销指标信息生成方法和装置 | |
CN112784212B (zh) | 一种优化库存的方法和装置 | |
CN112990311A (zh) | 一种准入客户的识别方法和装置 | |
CN112418258B (zh) | 一种特征离散化方法和装置 | |
CN112819555B (zh) | 一种物品推荐方法和装置 | |
CN110766488B (zh) | 一种自动确定主题场景的方法和装置 | |
CN113298645B (zh) | 资源额度调整方法、装置及电子设备 | |
CN111026863A (zh) | 客户行为预测方法、装置、设备及介质 | |
CN115203564A (zh) | 信息流推荐方法、装置及计算机程序产品 | |
CN113762992B (zh) | 一种处理数据的方法和装置 | |
CN115185606A (zh) | 业务配置参数的获得方法、装置、设备及存储介质 | |
CN113762687A (zh) | 一种仓库内的人员排班调度方法和装置 | |
CN113269600B (zh) | 一种信息发送的方法和装置 | |
CN113742158B (zh) | 系统容量规划的方法和装置 | |
CN112783956B (zh) | 一种信息处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |