CN113743453A - 一种基于随机森林的人口数量预测方法 - Google Patents
一种基于随机森林的人口数量预测方法 Download PDFInfo
- Publication number
- CN113743453A CN113743453A CN202110826722.2A CN202110826722A CN113743453A CN 113743453 A CN113743453 A CN 113743453A CN 202110826722 A CN202110826722 A CN 202110826722A CN 113743453 A CN113743453 A CN 113743453A
- Authority
- CN
- China
- Prior art keywords
- population
- data
- index
- random forest
- year
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 48
- 238000012417 linear regression Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000012847 principal component analysis method Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 238000013138 pruning Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于随机森林的人口数量预测方法,属于机器学习技术领域。本发明包括人口数据预处理和随机森林模型构建两个模块。所述人口数量预测方法包括:步骤一,填补人口数据中空缺部分;步骤二,提取出影响人口因素的主要特征;步骤三,构建人口预测模型的基学习器;步骤四,组合基学习器,生成随机森林模型,并得出预测结果。本发明对海量人口数据进行特征提取处理,利用随机森林模型预测人口数量,预测效果比单个回归树和线性回归预测精度更高。
Description
技术领域
本发明属于机器学习技术领域,涉及一种基于随机森林的人口数量预测方法。
背景技术
人口数量是地区的发展基础,是社会组成中的重要资源,人口数量多的区域往往是发达地区。根据统计,东北三省的人口数量在逐渐减少,辽宁省尤为突出。因为辽宁省的GDP已经连续3年呈现负增长的态势;人口数量一旦减少将会导致非常严重的经济问题。一个地区的人口数量的变化将对该地区产生巨大的影响,若一个地区的人数慢慢减少,随之该地区的经济、科技、教育、工业都会受其影响,所有的指标都会随之降低,最后对该地区产生所有生活,交通,就业等产生负面的影响。可见准确的预测人口数量对一个地区的发展至关重要。
现有的人口预测方法对人口数据考虑有所欠缺:(1)人口的自然增长率并不是一个定值,随着地区经济的发展进步,医疗和住房等因素的改变,人口自然增长率会随之变化;(2)大多数方法都没有考虑到人口的流动问题;(3)在计算人口的参数时,受环境因素的影响,可能会导致计算结果存在误差,最终得到的人口数量预测结果也就不够准确;(4)同一因素对不同地区的影响程度又有所差异,现有的大多数预测模型不能考虑多类型数据,通用性较差。
决策树可以处理数据型和常规型属性,能考虑更多的影响因素,计算消耗代价比一般的模型小,是进行预测的有效方法。但这种方法在数据指标不平衡的情况下误差比较明显,测试数据上的错误率比较高。随机森林是一种组合分类器技术,由多颗决策树组合而成,相较于决策树等单分类器,具有更好的预测性能。针对人口数据部分指标不平衡的情况,随机森林可以平衡误差,对高维度数据处理效果更好。
发明内容
对于人口数量预测问题,由于传统的预测方法考虑的因素都比较少,人口流动性问题和以往表现的大有不同。本发明提出了一种基于随机森林的人口数量预测方法,该方法有效解决了人口数据处理问题,并通过实验结果证明准确性高。
针对海量指标数据,本发明首先对缺失类型的数据,分别使用了线性回归与拉格朗日插值技术对他们补充;其次,先使用相关系数对指标之间的线性关系进行分析并根据线性关系的程度剔除掉冗余特征,然后使用主成分分析技术,继续在数据中提取所含信息更多的特征。然后使用随机森林的方法对指标数据进行建模预测,人口指标数据中利用自助采样法采取n个样本,再从每一个样本中随机抽取n个特征,分别建立人口预测的单个学习器回归树,发明预测类型为回归,所以该单个学习器为采用均方误差准则的回归树。通过自助采样的方法,可以得到多个基于人口数据的回归预测模型,在将他们统一组合到一起,构成一个回归预测模型,这就是基于人口指标数据所形成的随机森林模型。最后将测试指标输入到随机森林中,会得到多个预测结果,对这些结果做平均值处理,得出最后的人口的预测数值。综上,该过程可以分成人口数据预处理和随机森林模型构建两部分。
本发明的技术方案为:
一种基于随机森林的人口数量预测方法,该方法包括人口数据预处理模块和随机森林模型构建模块。所述人口数据预处理模块,全面地考虑了人口数量影响因素;能有效解决处理人口数据的部分缺失;针对不同地区特点找出该地区的主要影响因素:能够处理绝大多数地区的人口数据。所述随机森口模型构建模块,能根据最优特征生成回归树及随机森林,能更好平衡误差。
所述人口数据预处理模块,实现以下功能:
(1)补充各项指标的缺失数据;
(2)剔除人口数据中的冗余特征;
(3)提取影响人口数量的关键特征。
所述随机森林模型构建模块,实现以下功能:
(1)使用均方差准则,选择训练集数据中最优特征与最优划分点;
(2)根据最优特征与划分点生成回归树;
(3)平均化所有回归树模型的预测结果。
所述的人口数量预测方法,具体包括以下步骤:
步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况。
步骤2:对填补后的人口数据进行冗余特征处理,并使用主成分分析法提取出真正能代表指标的特征。
步骤3:将处理后的人口指标数据集D按照某种比例分成训练集D1与测试集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p。
步骤4:首先,从训练集D1中使用自助采样法获取K个样本;然后从样本中随机选择M个指标特征,基于均方差准则,选择最优特征与最优划分点,根据选择的最优特征与划分点生成2个子树,重复这个操作生成一个回归树,将这棵树加入到随机森林中;最后判断生成的森林中的树的个数是否达到N个,如果没有到达则继续生成,反之停止构建。设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
本发明选取房价等侧重于地区经济发展和民生改善等方面的信息;在人口数据中加入人口流动等因素,对数据进行综合考量,提高最终预测的准确率;与单个回归树回归生成的过程中需要根据情况进行剪枝处理不同,随机森林不必对单个回归树进行剪枝操作,预测精度高。
附图说明
图1是本发明的整体算法流程图;
图2是线性回归预测模型填补的算法流程图;
图3是拉格朗日插值模型填补的算法流程图;
图4是随机森林的方法提取影响人口数量关键特征的算法流程图;
图5是辽宁省部分指标生成的回归树结果图;
图6是基学习器组合的算法流程图;
图7是本发明预测辽宁省人口在部分年份的结果图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明。
本发明实施例是在实验室设备基础上进行,采用win10操作系统的电脑i5-6200U与2.24GHz的CPU、8GB内存、256GB硬盘,采用python做为开发语言,使用pandas开源数据处理框架、numpy高速矩阵计算框架、sklearn机器学习组件,使用PyCharm作为实验环境。
本发明所采用的数据集来自国家统计局公布的辽宁省人口宏观指标数据,每一个指标,每个特征在这里都可以看成是对该地区人口数量影响的重要因素。
图1是本发明的整体算法流程图,本发明包括人口数据预处理模块和随机森林模型构建模块两个模块:
所述人口数据预处理模块实现以下功能:
(1)补充各项指标的缺失数据;
(2)剔除人口数据中的冗余特征;
(3)提取影响人口数量的关键特征。
所述随机森林模型构建模块实现以下功能:
(1)基于均方差准则,选择训练集数据中最优特征与最优划分点;
(2)根据最优特征与划分点生成回归树;
(3)平均化所有回归树模型的预测结果。
本发明所述的人口预测方法,具体包括以下步骤:
步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况。详细分步骤如下:
步骤1.1:对单个年份缺失数据,采用线性回归预测模型填补。设人口指标数据集D*中含有完整指标D* a和缺失数据的指标D* b,其缺失的年份为Yb。如图2所示,图中完整指标为D* a,将D* a中除Yb年份以外的数据作为线性回归的自变量,将D* b中Yb年份的数据作为因变量,构建预测模型,预测出D* b中Yb年份的数据填补进空缺当中。
步骤1.2:对于多个年份缺失数据,采用拉格朗日插值填补。对于这类多个年份空值的情况,可以将年份Y看成是插值点的一部分,将年份与其数据看成是平面上的一个点,即(D*,Y)。如图3所示,通过这些平面上的点构建拉格朗日插值函数,缺失数据的年份输入函数中从而预测出数值进行填充。
步骤2:对人口数据冗余特征处理,使用主成分分析技术将真正能代表指标的特征提取出来。详细分步骤如下:
步骤2.1:使用相关性检测方法从指标数据中去处冗余特征。需要计算的是D中2个指标之间的相关性,而年份Y不属于指标范围在内的数据,所以不需要考虑年份这一字段,故将其从原始数据中删除。相关系数大于0.8,两个指标之间存在强的线性关系。对于多个指标间存在强线性关系,只需保留其中相关系数最强的一个指标,得到去处冗余特征的人口指标数据。
步骤2.2:使用主成分分析来对人口指标进行规约,继续降低数据集的特征个数,提高模型准确度。
步骤2.3:使用随机森林的方法提取影响人口数量的关键特征,算法流程如图4所示。抽样得到的辽宁人口指标数据,并且对每一次得到的数据都构建成一棵回归树,而且在生成的每一个结点随机不重复地选择特征。通过比对每个特征在随机森林中的每颗树上的贡献度,来获得每个特征的重要程度。选择占主要贡献度的特征作为预处理结果。
步骤3:构建人口预测模型的基学习器。输入数据,将处理后的人口指标数据集为D按照某种比例分成训练集与D1与测试数据集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p。详细分步骤如下:
步骤3.1:根据输入的每个数值,使用平方误差最小的原则,将误差最小的数据计算出来,选取的人口数量指标中的所有指标,设其中的一个人口指标为Rm,设人口数量为Cm,设Cm的最优值设xi为人口数量指标的全部样本数据,设yi为人口数量,是Rm上的所有输入实例xi对应的输出yi的均值,即:
步骤3.2:使用启发式空间基于人口数据指标的变量划分方法,选择第i个变量x(i)和它取的值s,这里的变量可以看作是人口指标数据中的指标,消费指数或能源指数等等,x(i)则为其中某一年份的数据,s作为切分变量和切分点,定义2个部分:
R1(j,s)={x|x(j)≤s}和R2(j,s)={x|x(j)>s}
R1与R2可以看成是将人口数量指标数据切分成的2部分,接下来需要计算数值,寻找最优切分人口数量指标j,以及最优分割点s,求解:
对每一个人口数量的指标j遍历,求得最优切分点s:
步骤3.3:通过计算形成一对(j,s),依次将数据空间划分为2个部分,对于每个部分,都是新执行一次前面的计算,生成一颗回归树。如图5所示,图中的叶子节点为预测的辽宁人口数量,非叶子为划分的人口数量指标。
步骤4:将基学习器按指定策略组合,算法流程如图6所示。首先,从训练集D1中使用自助采样法获取K个样本;然后从样本中随机选择M个指标特征,基于均方差准则,选择最优特征与最优划分点,根据选择的最优特征与划分点生成2个子树,重复这个操作生成一个回归树,将这棵树加入到随机森林中;最后判断生成的森林中的树的个数是否达到N个,如果没有到达则继续生成,反之停止构建。详细分步骤如下:
步骤4.1,使用自助采样法从人口指标数据中有放回的均匀抽取人口样本。假设当前人口指标数据中有m条记录,对人口指标数据样本为数据集D进行m次“有放回的”随机采样,这样得到了大小为m的新数据集D′。可以肯定的是,在经过反复的采样后相同的指标数据一定会重新选中,每一轮采样中,对于人口指标数据x,被采样抽到的概率为1/m,因此,在对人口指标数据D进行了m轮抽样后,某些人口指标仍未被抽取到的概率为:
步骤4.2,从人口数量指标数据集中取k个训练子集,然后使用人口指标数据的回归树构建方法,在k个训练子集上分别构建回归树模型。
步骤4.3,利用随机森林对人口数量进行预测时,只需要计算k棵回归树的人口预测结果,然后所有的预测出来的人口数量做平均化处理。设x为测试数据集中D2中的样本,令fi(x)为随机森林中第i个树的预测结果,则基于随机森林的人口数量预测结果为:
图7给出了本方法预测辽宁省人口在部分年份的结果。
综上所述,本发明提出了一种基于随机森林的人口数量预测方法,并将这种方法应用到辽宁省人口预测中。
表1模型均方误差
RMSE | |
随机森林 | 84.206 |
线性回归 | 100.136 |
由表1可以看出,使用RMSE评价指标对模型进行评估,随机森林的准确度是优于线性回归的。本发明的基于随机森林人口预测方法适合大部分地区的人口数据,预测结果准确度更高。
Claims (7)
1.一种基于随机森林的人口数量预测方法,其特征在于,包括以下步骤:
步骤1:对人口指标缺失数据填补,数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况;
步骤2:对填补后的人口数据进行冗余特征处理,并使用主成分分析法提取出真正能代表指标的特征;
步骤3:将处理后的人口指标数据集D按照某种比例分成训练集D1与测试集D2;设森林中回归树的数量为N,候选特征的分裂节点数目为M,最小节点大小p;
2.根据权利要求1所述的方法,其特征在于,所述步骤1的具体过程为:
步骤1.1:对单个年份缺失数据,采用线性回归预测模型填补;设人口指标数据集D*中含有完整指标D* a和缺失数据的指标D* b,其缺失的年份为Yb;将D* a中除Yb年份以外的数据作为线性回归的自变量,将D* b中Yb年份的数据作为因变量,构建预测模型,预测出D* b中Yb年份的数据填补进空缺当中;
步骤1.2:对于多个年份缺失数据,采用拉格朗日插值填补;对于这类多个年份空值的情况,将年份Y看成是插值点的一部分,将年份与其数据看成是平面上的一个点,即(D*,Y);通过这些平面上的点构建拉格朗日插值函数,缺失数据的年份输入函数中从而预测出数值进行填充。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤2的具体过程为:
步骤2.1:使用相关性检测方法从指标数据中去处冗余特征;需要计算的是D中2个指标之间的相关性,而年份Y不属于指标范围在内的数据,所以不需要考虑年份这一字段,故将其从原始数据中删除;相关系数大于0.8,两个指标之间存在强的线性关系;对于多个指标间存在强线性关系,只需保留其中相关系数最强的一个指标,得到去处冗余特征的人口指标数据;
步骤2.2:使用主成分分析来对人口指标进行规约,继续降低数据集的特征个数,提高模型准确度;
步骤2.3:使用随机森林的方法提取影响人口数量的关键特征;抽样得到的辽宁人口指标数据,并且对每一次得到的数据都构建成一棵回归树,而且在生成的每一个结点随机不重复地选择特征;通过比对每个特征在随机森林中的每颗树上的贡献度,来获得每个特征的重要程度;选择占主要贡献度的特征作为预处理结果。
4.根据权利要求1或2所述的方法,其特征在于,所述步骤3的具体过程为:
步骤3.1:根据输入的每个数值,使用平方误差最小的原则,将误差最小的数据计算出来,选取的人口数量指标中的所有指标,设其中的一个人口指标为Rm,设人口数量为Cm,设Cm的最优值设xi为人口数量指标的全部样本数据,设yi为人口数量,是Rm上的所有输入实例xi对应的输出yi的均值,即
步骤3.2:使用启发式空间基于人口数据指标的变量划分方法,选择第i个变量x(i)和它取的值s,变量看作是人口指标数据中的指标,消费指数或能源指数等等,x(i)则为其中某一年份的数据,s作为切分变量和切分点,定义2个部分:R1(j,s)={x|x(j)≤s}和R2(j,s)={x|x(j)>s}
其中,R1与R2看成是将人口数量指标数据切分成的2部分,接下来需要计算数值,寻找最优切分人口数量指标j,以及最优分割点s,求解:
对每一个人口数量的指标j遍历,求得最优切分点s:
步骤3.3:通过计算形成一对(j,s),依次将数据空间划分为2个部分,对于每个部分,都是新执行一次前面的计算,生成一颗回归树。
5.根据权利要求3所述的方法,其特征在于,所述步骤3的具体过程为:
步骤3.1:根据输入的每个数值,使用平方误差最小的原则,将误差最小的数据计算出来,选取的人口数量指标中的所有指标,设其中的一个人口指标为Rm,设人口数量为Cm,设Cm的最优值设xi为人口数量指标的全部样本数据,设yi为人口数量,是Rm上的所有输入实例xi对应的输出yi的均值,即
步骤3.2:使用启发式空间基于人口数据指标的变量划分方法,选择第i个变量x(i)和它取的值s,变量看作是人口指标数据中的指标,消费指数或能源指数等等,x(i)则为其中某一年份的数据,s作为切分变量和切分点,定义2个部分:R1(j,s)={x|x(j)≤s}和R2(j,s)={x|x(j)>s}
其中,R1与R2看成是将人口数量指标数据切分成的2部分,接下来需要计算数值,寻找最优切分人口数量指标j,以及最优分割点s,求解:
对每一个人口数量的指标j遍历,求得最优切分点s:
步骤3.3:通过计算形成一对(j,s),依次将数据空间划分为2个部分,对于每个部分,都是新执行一次前面的计算,生成一颗回归树。
6.根据权利要求1、2或5所述的方法,其特征在于,所述步骤4的具体过程为:
步骤4.1,使用自助采样法从人口指标数据中有放回的均匀抽取人口样本;假设当前人口指标数据中有m条记录,对人口指标数据样本为数据集D进行m次“有放回的”随机采样,得到了大小为m的新数据集D′;经过反复的采样后相同的指标数据一定会重新选中,每一轮采样中,对于人口指标数据x,被采样抽到的概率为1/m,在对人口指标数据D进行了m轮抽样后,某些人口指标仍未被抽取到的概率为:
步骤4.2,从人口数量指标数据集中取k个训练子集,然后使用人口指标数据的回归树构建方法,在k个训练子集上分别构建回归树模型;
7.根据权利要求3所述的方法,其特征在于,所述步骤4的具体过程为:
步骤4.1,使用自助采样法从人口指标数据中有放回的均匀抽取人口样本;假设当前人口指标数据中有m条记录,对人口指标数据样本为数据集D进行m次“有放回的”随机采样,得到了大小为m的新数据集D′;经过反复的采样后相同的指标数据一定会重新选中,每一轮采样中,对于人口指标数据x,被采样抽到的概率为1/m,在对人口指标数据D进行了m轮抽样后,某些人口指标仍未被抽取到的概率为:
步骤4.2,从人口数量指标数据集中取k个训练子集,然后使用人口指标数据的回归树构建方法,在k个训练子集上分别构建回归树模型;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110826722.2A CN113743453A (zh) | 2021-07-21 | 2021-07-21 | 一种基于随机森林的人口数量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110826722.2A CN113743453A (zh) | 2021-07-21 | 2021-07-21 | 一种基于随机森林的人口数量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743453A true CN113743453A (zh) | 2021-12-03 |
Family
ID=78728815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110826722.2A Pending CN113743453A (zh) | 2021-07-21 | 2021-07-21 | 一种基于随机森林的人口数量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743453A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112859A (zh) * | 2023-06-16 | 2023-11-24 | 中国联合网络通信有限公司深圳市分公司 | 人口移动演化的显示方法、装置及计算机可读存储介质 |
CN117150389A (zh) * | 2023-07-14 | 2023-12-01 | 广州易尊网络科技股份有限公司 | 模型训练方法、运营商号卡激活预测方法及其设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976301A (zh) * | 2010-10-09 | 2011-02-16 | 广东省电力设计研究院 | 逐年负荷预测中历史数据预处理的方法与装置 |
CN105303262A (zh) * | 2015-11-12 | 2016-02-03 | 河海大学 | 一种基于核主成分分析和随机森林的短期负荷预测方法 |
CN106295148A (zh) * | 2016-08-01 | 2017-01-04 | 苏翀 | 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法 |
CN106354995A (zh) * | 2016-08-24 | 2017-01-25 | 华北电力大学(保定) | 一种基于拉格朗日插值与时间序列的预测方法 |
CN108022001A (zh) * | 2017-09-20 | 2018-05-11 | 河海大学 | 基于pca和分位数回归森林的短期负荷概率密度预测方法 |
US20180365372A1 (en) * | 2017-06-19 | 2018-12-20 | Jungla Inc. | Systems and Methods for the Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework |
CN109408774A (zh) * | 2018-11-07 | 2019-03-01 | 上海海事大学 | 基于随机森林和梯度提升树的预测污水出水指标的方法 |
CN109726503A (zh) * | 2019-01-12 | 2019-05-07 | 国电联合动力技术有限公司 | 缺失数据填补方法及装置 |
CN109961093A (zh) * | 2019-03-07 | 2019-07-02 | 北京工业大学 | 一种基于众智集成学习的图像分类方法 |
US20190379592A1 (en) * | 2018-06-06 | 2019-12-12 | The Joan and Irwin Jacobs Technion-Cornell Institute | Telecommunications network traffic metrics evaluation and prediction |
-
2021
- 2021-07-21 CN CN202110826722.2A patent/CN113743453A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976301A (zh) * | 2010-10-09 | 2011-02-16 | 广东省电力设计研究院 | 逐年负荷预测中历史数据预处理的方法与装置 |
CN105303262A (zh) * | 2015-11-12 | 2016-02-03 | 河海大学 | 一种基于核主成分分析和随机森林的短期负荷预测方法 |
CN106295148A (zh) * | 2016-08-01 | 2017-01-04 | 苏翀 | 基于随机森林算法的乙肝代偿期肝硬化筛查模型建立方法 |
CN106354995A (zh) * | 2016-08-24 | 2017-01-25 | 华北电力大学(保定) | 一种基于拉格朗日插值与时间序列的预测方法 |
US20180365372A1 (en) * | 2017-06-19 | 2018-12-20 | Jungla Inc. | Systems and Methods for the Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework |
CN108022001A (zh) * | 2017-09-20 | 2018-05-11 | 河海大学 | 基于pca和分位数回归森林的短期负荷概率密度预测方法 |
US20190379592A1 (en) * | 2018-06-06 | 2019-12-12 | The Joan and Irwin Jacobs Technion-Cornell Institute | Telecommunications network traffic metrics evaluation and prediction |
CN109408774A (zh) * | 2018-11-07 | 2019-03-01 | 上海海事大学 | 基于随机森林和梯度提升树的预测污水出水指标的方法 |
CN109726503A (zh) * | 2019-01-12 | 2019-05-07 | 国电联合动力技术有限公司 | 缺失数据填补方法及装置 |
CN109961093A (zh) * | 2019-03-07 | 2019-07-02 | 北京工业大学 | 一种基于众智集成学习的图像分类方法 |
Non-Patent Citations (5)
Title |
---|
ALEXANDER HAPFELMEIER等: "A new variable importance measure for random forests with missing data", 《STATISTICS AND COMPUTING》, vol. 24, 28 August 2012 (2012-08-28), pages 21 - 34 * |
卓金武等: "《高职高专MATLAB数学建模》", vol. 1, 31 August 2019, 北京:北京航空航天大学出版社, pages: 37 - 39 * |
成方龙;等: "分区策略与机器学习的人口分布精细化模拟", 《测绘科学》, vol. 45, no. 09, 16 September 2020 (2020-09-16), pages 165 - 173 * |
王梓杰等: "基于PCA和随机森林的故障趋势预测方法研究", 《计算机测量与控制》, vol. 26, no. 02, 28 February 2018 (2018-02-28), pages 21 - 23 * |
邹顺华等: "《统计学原理》", vol. 1, 30 June 1986, 武汉:湖北教育出版社, pages: 345 - 351 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112859A (zh) * | 2023-06-16 | 2023-11-24 | 中国联合网络通信有限公司深圳市分公司 | 人口移动演化的显示方法、装置及计算机可读存储介质 |
CN117112859B (zh) * | 2023-06-16 | 2024-05-14 | 中国联合网络通信有限公司深圳市分公司 | 人口移动演化的显示方法、装置及计算机可读存储介质 |
CN117150389A (zh) * | 2023-07-14 | 2023-12-01 | 广州易尊网络科技股份有限公司 | 模型训练方法、运营商号卡激活预测方法及其设备 |
CN117150389B (zh) * | 2023-07-14 | 2024-04-12 | 广州易尊网络科技股份有限公司 | 模型训练方法、运营商号卡激活预测方法及其设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169628B (zh) | 一种基于大数据互信息属性约简的配电网可靠性评估方法 | |
US20240185130A1 (en) | Normalizing text attributes for machine learning models | |
CN112365171B (zh) | 基于知识图谱的风险预测方法、装置、设备及存储介质 | |
CN109388565B (zh) | 基于生成式对抗网络的软件系统性能优化方法 | |
CN110674636B (zh) | 一种用电行为分析方法 | |
CN111027629A (zh) | 基于改进随机森林的配电网故障停电率预测方法及系统 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN112819246A (zh) | 基于布谷鸟算法优化神经网络的能源需求预测方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN115630732A (zh) | 一种面向城市运营的企业迁移大数据监测预警方法及装置 | |
CN115033591B (zh) | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 | |
CN114819344B (zh) | 一种基于关键影响因子的全局时空气象农灾预测方法 | |
CN113516189B (zh) | 基于两阶段随机森林算法的网站恶意用户预测方法 | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
Yi-bin et al. | Improvement of ID3 algorithm based on simplified information entropy and coordination degree | |
CN116185684A (zh) | 一种服务器故障根因分析模型的构建方法及应用 | |
CN111680572B (zh) | 一种电网运行场景动态判定方法及系统 | |
CN114155913A (zh) | 一种基于高阶动态贝叶斯的基因调控网络构建方法 | |
Liu et al. | Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining | |
Sudjianto et al. | Single-index model tree | |
CN114816979B (zh) | 一种基于聚类分析和决策树算法的软件缺陷预测方法 | |
CN113254428A (zh) | 一种基于决策树的缺失数据填充方法及系统 | |
CN117171678B (zh) | 一种微生物修复过程中土壤微生物菌群调控方法及系统 | |
CN112509640B (zh) | 基因本体项名称生成方法、装置及存储介质 | |
CN118550573B (zh) | It运维管理方法及it运维管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |