CN105354198A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN105354198A CN105354198A CN201410409716.7A CN201410409716A CN105354198A CN 105354198 A CN105354198 A CN 105354198A CN 201410409716 A CN201410409716 A CN 201410409716A CN 105354198 A CN105354198 A CN 105354198A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- classification algorithm
- input data
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 21
- 238000007635 classification algorithm Methods 0.000 claims abstract description 151
- 238000012545 processing Methods 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000012216 screening Methods 0.000 claims abstract description 55
- 238000013501 data transformation Methods 0.000 claims description 51
- 230000009466 transformation Effects 0.000 claims description 35
- 238000004140 cleaning Methods 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 10
- 230000002068 genetic effect Effects 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000013524 data verification Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 17
- 238000007405 data analysis Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 12
- 210000000349 chromosome Anatomy 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000003064 k means clustering Methods 0.000 description 6
- 238000012417 linear regression Methods 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 6
- 230000000750 progressive effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法,确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据变换;依据所述组合分类算法对变换后的数据进行数据处理。本发明还同时公开了一种数据处理装置。
Description
技术领域
本发明涉及互联网领域中的数据处理技术,尤其涉及一种数据处理方法及装置。
背景技术
随着信息技术的迅猛发展以及人们获取信息手段的多样化,社会各行各业都拥有大量的信息数据。电信运营商的数据仓库中已经累积大量原始数据未得以利用,运营商在经营过程中,已经出现了大量客户流失和业务收入下滑的现象。在使用现有业务支撑系统外,更多的只能是通过相关报表看到这些现象发生的结果,再采取相应的措施,并不能有一个事先的预警,以至于不能及时采取相应的战略调整。而且,目前的业务支撑系统的数据处理速度和响应时间较慢,因此,也导致管理层和决策层都不能及时地得到数据结果。
综上所述,提供一种通用性强、能够高效处理海量数据的大数据处理方法是目前亟待解决的问题。
发明内容
有鉴于此,本发明实施例期望提供一种数据处理方法及装置,能够迅速地处理海量数据的丰富信息,通用性强、可靠性高。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种数据处理方法,所述方法包括:
确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据变换;
依据所述组合分类算法对变换后的数据进行数据处理。
上述方案中,所述确定模型库中存在与输入数据对应的应用模型包括:对输入数据进行抽样,确定样本数据的关键字,将样本数据的关键字与模型库中关键字进行匹配,匹配成功时,确定存在与所述输入数据对应的应用模型。
上述方案中,所述对输入数据进行数据筛选包括:依据所述应用模型对应的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
上述方案中,对筛选后的数据进行数据变换包括:
依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化及变量变换,确定变量变换后的数据不满足预设条件时,重复上述处理过程,直至变量变换后的数据满足预设条件。
本发明实施例还提供了一种数据处理装置,所述装置包括:第一筛选模块、第一数据变换模块、第一处理模块及第一模型库;其中,
所述第一筛选模块,用于在确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
所述第一数据变换模块,用于对筛选后的数据进行数据变换;
所述第一处理模块,用于依据所述应用模型对应的组合分类算法对数据变换后的数据进行数据处理;
所述第一模型库,用于存储不同应用类型的应用模型。
上述方案中,所述装置还包括第一匹配模块,用于对输入数据进行抽样,确定样本数据的关键字,将所述关键字与模型库中关键字进行匹配,确定是否存在与所述输入数据对应的应用模型。
上述方案中,所述第一筛选模块对输入数据进行数据筛选包括:
所述第一筛选模块依据所述应用模型对应的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
上述方案中,所述第一数据变换模块对筛选后的数据进行数据变换包括:
所述第一数据变换模块对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化及变量变换,确定变量变换后的数据不满足预设条件时,重复上述处理过程,直至变量变换后的数据满足预设条件。
本发明实施例还提供了一种数据处理方法,所述方法包括:
确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
获取所述输入数据对应的近似最优组合分类算法;
依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直至获取满足要求的组合分类算法模型;
对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库;
其中,所述组合分类算法模型用于对后续输入数据进行处理。
上述方案中,所述对输入数据进行数据筛选包括:依据样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
上述方案中,所述依据所述近似最优组合分类算法进行模型训练之前,所述方法还包括:依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换。
上述方案中,所述获取所述输入数据对应的近似最优组合分类算法包括:
依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
本发明实施例还提供了一种数据处理装置,所述装置包括第二筛选模块、获取模块、第二处理模块、评估模块及第二模型库;其中,
所述第二筛选模块,用于确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
所述获取模块,用于获取所述输入数据对应的近似最优组合分类算法;
所述第二处理模块,用于依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直至获取满足要求的组合分类算法模型;
所述评估模块,用于对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库;
所述第二模型库,用于存储不同应用类型的应用模型;
其中,所述组合分类算法模型用于对后续输入数据进行处理。
上述方案中,所述第二筛选模块对输入数据进行数据筛选包括:所述第二筛选模块依据样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
上述方案中,所述装置还包括第二数据变换模块,依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换。
上述方案中,所述获取模块获取所述输入数据对应的近似最优组合分类算法包括:所述获取模块依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
本发明实施例所提供的数据处理方法及装置,确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据变换;依据所述组合分类算法对变换后的数据进行数据处理;或者,确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;获取所述输入数据对应的近似最优组合分类算法;依据所述近似最优组合分类算法对数据的要求,对所述输入数据进行数据变换;并依据所述近似最优组合分类算法对变换后的数据进行模型训练及模型实施,直至获取满足要求的组合分类算法模型;对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库,并依据所述组合分类算法对后续输入数据进行处理。如此,能够提高海量数据处理的准确性,短时间内高效的处理海量数据,可靠性高、通用性强。
附图说明
图1为本发明实施例一数据处理方法流程示意图;
图2为本发明实施例二数据处理方法流程示意图;
图3为本发明实施例三数据处理方法流程示意图;
图4为本发明实施例四数据处理方法流程示意图;
图5为本发明实施例一数据处理装置组成结构示意图;
图6为本发明实施例二数据处理装置组成结构示意图。
具体实施方式
在本发明实施例中,确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据变换;依据所述组合分类算法对变换后的数据进行数据处理;或者,确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;获取所述输入数据对应的近似最优组合分类算法;依据所述近似最优组合分类算法对数据的要求,对所述输入数据进行数据变换;并依据所述近似最优组合分类算法对变换后的数据进行模型训练及模型实施,直至获取满足要求的组合分类算法模型;对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库,并依据所述组合分类算法对后续输入数据进行处理。
图1为本发明实施例一数据处理方法流程示意图,如图1所示,本实施例数据处理方法流程包括:
步骤101:确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
这里,所述确定模型库中存在与输入数据对应的应用模型包括:对输入数据进行抽样,确定样本数据的关键字,将样本数据的关键字与模型库中关键字进行匹配,匹配成功时,确定存在与所述输入数据对应的应用模型;
这里,所述模型库中包括不同应用类型的应用模型,如换机应用类型包括:换机推荐模型、安全预警模型等。
具体的,所述对输入数据进行抽样,确定样本数据的关键字包括:
先采用自适应渐进抽样法对输入数据进行抽样,得到n维样本数据X={x1,x2,...,xn};
再依据公式对样本数据进行主成分分析,当S矩阵的特征值λ1≥λ2≥...≥λm≥...≥λn的前m个特征值之和占总特征值之和的比率达到预设条件时,选择与前m个特征值对应的字段为关键字;
这里,其中,Sij为xi和xj的协方差,i∈[1,n],j∈[1,n],n为样本数据的个数,为正整数,优选的,n小于100;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90%以上。
所述将样本数据的关键字与模型库中关键字进行匹配包括:按照特征值由大到小的顺序,依次为模型库中每个应用模型对应的关键字分配权值;将样本数据的关键字与模型库中关键字进行匹配,并记录匹配关键字的权值之和Q;若Q超过阈值T,则匹配成功,即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型;这里,所述T的大小可以依据多次试验确定。
所述对输入数据进行数据筛选包括:依据所述应用模型对应的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过;
其中,所述对提取的数据进行数据清洗及数据审核,直至审核通过包括:
对提取的数据进行K均值聚类,根据聚类结果判断出明显离群点和重复数据点,将离群点和重复数据点删除;对于不一致数据点以及缺失数据点,以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计,完成数据清洗;随机抽取部分清洗过的数据作为检测数据,利用切比雪夫定理利用检测数据的均值,标准差和置信区间识别异常数据,当检测数据错误率低于阈值T0时,审核通过;否则重复进行数据清洗及审核,直至审核通过;这里,所述部分清洗过的数据可以为占总体1/4的清洗过的数据;所述阈值T0可以为0.5%;
进一步的,对输入数据进行数据筛选之后,所述方法还包括:
确定磁盘空间满足存储要求时,将筛选后的数据存储至所述磁盘;确定磁盘空间不满足存储要求时,对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端;
这里,所述对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端包括:依据用户标识和时间对筛选后的数据进行分片,并将分片数据进行分布式发送至指定终端进行存储及处理。
步骤102:依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据变换;
这里,所述应用模型与组合分类算法为一一对应关系;
本步骤具体包括:依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化并进行变量变换,以满足所述组合分类算法对数据格式的要求,确定变量变换后的数据无效时,重复上述处理过程,直至确定变量变换后的数据有效;
这里,所述应用模型对应的组合分类算法对数据的要求包括:数据的输入输出格式完全相同;
所述组合分类算法可以为将逻辑回归、决策树和人工神经网络算法进行的组合;
所述对筛选后的数据进行降维处理包括:依据协方差矩阵对筛选后的数据进行降维处理;
所述确定变量变换后的数据有效包括:随机抽取部分离散化后的数据,计算所述数据离散化前后的信息增益,如果所得信息增益小于阈值T1,确定变量变换后的数据有效;否则,确定变量变换后的数据无效;其中,所述部分离散化后的数据可以为1/3离散化后的数据;所述阈值T1可通过多次试验确定;
所述变量变换可以包括:变量的标准化变换及相似度转换等。
步骤103:依据所述组合分类算法对变换后的数据进行数据处理;
这里,所述对变换后的数据进行数据处理具体为:对变换后的数据进行分类数据处理;
本步骤之后,所述方法还包括:发布数据分析结果,并将所述分析结果发送至数据输入端;其中,所述数据分析结果可以包括:换机推荐用户、安全警示信息等。
图2为本发明实施例数据处理方法流程示意图,如图2所示,本实施例数据处理方法流程包括:
步骤201:确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
这里,所述确定模型库中不存在与输入数据对应的应用模型包括:对输入数据进行抽样,确定样本数据的关键字,将所述关键字与模型库中关键字进行匹配,匹配不成功时,确定存在与所述输入数据对应的应用模型;
其中,所述模型库中包括不同应用类型的应用模型,如换机应用类型包括:换机推荐模型、安全预警模型等。
具体的,所述对输入数据进行抽样,确定样本数据的关键字包括:
先采用自适应渐进抽样法对输入数据进行抽样,得到n维样本数据X={x1,x2,...,xn};
再依据公式对样本数据进行主成分分析,当S矩阵的特征值λ1≥λ2≥...≥λm≥...≥λn的前m个特征值之和占总特征值之和的比率达到预设条件时,选择与前m个特征值对应的字段为关键字;
这里,其中,Sij为xi和xj的协方差,i∈[1,n],j∈[1,n],n为样本数据的个数,为正整数,优选的,n小于100;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90%以上。
所述将样本数据的关键字与模型库中关键字进行匹配包括:按照特征值由大到小的顺序,依次为模型库中每个应用模型对应的关键字分配权值;将样本数据的关键字与模型库中关键字进行匹配,并记录匹配关键字的权值之和Q;若Q超过阈值T,则匹配成功,即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型;这里,所述阈值T的大小可以依据多次试验确定。
所述对输入数据进行数据筛选包括:依据所述样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过;
其中,所述对提取的数据进行数据清洗及数据审核,直至审核通过包括:
对提取的数据进行K均值聚类,根据聚类结果判断出明显离群点和重复数据点,将离群点和重复数据点删除;对于不一致数据点以及缺失数据点,以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计,完成数据清洗;随机抽取部分清洗过的数据作为检测数据,利用切比雪夫定理利用检测数据的均值,标准差和置信区间识别异常数据,当检测数据错误率低于阈值T0时,审核通过;否则重复进行数据清洗及审核,直至审核通过;这里,所述部分清洗过的数据可以为占总体1/4的清洗过的数据;所述阈值T0可以为0.5%;
进一步的,对输入数据进行数据筛选之后,所述方法还包括:
确定磁盘空间满足存储要求时,将筛选后的数据存储至所述磁盘;确定磁盘空间不满足存储要求时,对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端;
这里,所述对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端包括:依据用户标识和时间对筛选后的数据进行分片,并将分片数据进行分布式发送至指定终端进行存储及处理。
步骤202:获取所述输入数据对应的近似最优组合分类算法;
本步骤具体包括:依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法;
这里,所述统计特性可以为:概率分布或均值或方差等;
所述字段属性可以为:数值型或布尔型或文本型等;
所述算法库中包含不同的数据分类算法;
所述依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括:
利用选择的满足要求的分类算法对筛选后的数据进行分类,并计算分类的准确率,利用一元线性回归方程作为适应度函数f(x)描述分类的准确率,根据比例选择原则选择染色体产生下一代,通过染色体的交叉和变异产生下一代,直到达到第M代,获得所述输入数据对应的近似最优组合分类算法;
其中,M为正整数,通过多次测试确定;
所述利用一元线性回归方程作为适应度函数f(x)描述分类的准确率,以使适应度函数值与每个分类算法的分类准确率成正比;
所述根据比例选择原则选择染色体,即算法xi被选中的概率为f(xi)/(f(x1)+f(x2)+...+f(xn))。
步骤203:依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直至获取满足要求的组合分类算法模型;
本步骤之前,所述方法还包括:依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换;具体包括:依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化并进行变量变换,以满足所述组合分类算法对数据格式的要求,确定变量变换后的数据无效时,重复上述处理过程,直至确定变量变换后的数据有效;
这里,所述对筛选后的数据进行降维处理包括:依据协方差矩阵对筛选后的数据进行降维处理;
所述确定变量变换后的数据有效包括:随机抽取部分离散化后的数据,计算所述数据离散化前后的信息增益,如果所得信息增益小于阈值T1,确定变量变换后的数据有效;否则,确定变量变换后的数据无效;其中,所述部分离散化后的数据可以为1/3离散化后的数据;所述阈值T1可通过多次试验确定;
本步骤具体包括:采用随机简单抽样法对数据变换后的数据抽样,样本总数为N,将抽样数据作为训练集,对所述近似最优组合分类算法进行初始参数配置,初始参数Pi设置为1/k;对训练集数据进行模型训练,直至模型训练所得的分类误差率小于阈值T2;利用训练后的模型对输入数据进行分类数据处理,直至数据处理结果的误差率小于阈值T2,获取满足要求的组合分类算法模型;这里所述阈值T2可以为0.5%;k为选中的分类算法个数,为正整数。
步骤204:对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库;
这里,所述对所述组合分类算法模型进行模型评估包括:
令数据集合D={(x1,y1),(x2,y2),...,(xn,yn)}是由输入向量和目标值对偶组成的,依据误分类率公式作为评分函数对所述组合分类算法模型进行评估,当a不等于b时,I(a,b)=1,否则,I(a,b)=0;Sv(θ)为误分类率,当Sv(θ)不超过阈值T3时,评估通过;超过阈值T3时,评估不通过;其中,f(x(i),θ)为模型使用参数值θ对个体i作出的预测,1≤i≤n,y(i)为训练数据集合中第i个实体的实际观测值;N为样本总数;
对所述组合分类算法模型进行模型评估,当评估不通过时,重复执行步骤202至步骤204;
所述组合分类算法模型用于对后续输入数据进行分类处理;
本步骤之后,所述方法还包括:发布数据分析结果,并将所述分析结果发送至数据输入端;其中,所述数据分析结果可以包括:换机推荐用户、安全警示信息等。
图3为本发明实施例三数据处理方法流程示意图,如图3所示,本实施例数据处理方法流程包括:
步骤301:确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
本步骤具体包括:对输入数据进行抽样,确定样本数据的关键字,将样本数据的关键字与模型库中关键字进行匹配,匹配成功时,确定存在与所述输入数据对应的应用模型;
这里,所述模型库中包括不同应用类型的应用模型,如换机应用类型包括:换机推荐模型、安全预警模型等。
具体的,所述对输入数据进行抽样,确定样本数据的关键字包括:
先采用自适应渐进抽样法对输入数据进行抽样,得到n维样本数据X={x1,x2,...,xn};
再依据公式对样本数据进行主成分分析,当S矩阵的特征值λ1≥λ2≥...≥λn的前m个特征值之和占总特征值之和的比率达到预设条件时,选择与前m个特征值对应的字段为关键字;
这里,其中,Sij为xi和xj的协方差,i∈[1,n],j∈[1,n],n为样本数据的个数,为正整数,优选的,n小于100;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90%以上。
所述将样本数据的关键字与模型库中关键字进行匹配包括:按照特征值由大到小的顺序,依次为模型库中每个应用模型对应的关键字分配权值;将样本数据的关键字与模型库中关键字进行匹配,并记录匹配关键字的权值之和Q;若Q超过阈值T,则匹配成功,即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型;这里,所述T的大小可以依据多次试验确定。
所述对输入数据进行数据筛选包括:依据所述应用模型对应的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过;
其中,所述对提取的数据进行数据清洗及数据审核,直至审核通过包括:
对提取的数据进行K均值聚类,根据聚类结果判断出明显离群点和重复数据点,将离群点和重复数据点删除;对于不一致数据点以及缺失数据点,以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计,完成数据清洗;随机抽取部分清洗过的数据作为检测数据,利用切比雪夫定理利用检测数据的均值,标准差和置信区间识别异常数据,当检测数据错误率低于阈值时,审核通过;否则重复进行数据清洗及审核,直至审核通过;
这里,所述部分清洗过的数据可以为占总体1/4的清洗过的数据;所述阈值可以为0.5%。
步骤302:判断磁盘空间是否满足存储要求,如果满足,执行步骤303;如果不满足,执行步骤307。
步骤303:将筛选后的数据存储至所述磁盘。
步骤304:依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据变换,并判断变换后的数据是否有效,如果有效,执行步骤305;如果无效,执行步骤304;
本步骤具体包括:依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化并进行变量变换,以满足所述组合分类算法对数据格式的要求,确定变量变换后的数据无效时,重复上述处理过程,直至确定变量变换后的数据有效;
这里,所述对筛选后的数据进行降维处理包括:依据协方差矩阵对筛选后的数据进行降维处理;
所述确定变量变换后的数据有效包括:随机抽取部分离散化后的数据,计算所述数据离散化前后的信息增益,如果所得信息增益小于阈值T1,确定变量变换后的数据有效;否则,确定变量变换后的数据无效;其中,所述部分离散化后的数据可以为1/3离散化后的数据;所述阈值T1可通过多次试验确定。
步骤305:依据所述组合分类算法对变换后的数据进行数据处理;
这里,所述对变换后的数据进行数据处理具体为:对变换后的数据进行分类数据处理。
步骤306:发布数据分析结果,并将所述分析结果发送至数据输入端。
步骤307:对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端;
这里,所述对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端包括:依据用户标识和时间对筛选后的数据进行分片,并将分片数据进行分布式发送至指定终端进行存储及处理。
步骤308:结束本次处理流程。
图4为本发明实施例四数据处理方法流程示意图,如图4所示,本实施例数据处理方法流程包括:
步骤401:确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
这里,所述确定模型库中不存在与输入数据对应的应用模型包括:对输入数据进行抽样,确定样本数据的关键字,将所述关键字与模型库中关键字进行匹配,匹配不成功时,确定存在与所述输入数据对应的应用模型;
其中,所述模型库中包括不同应用类型的应用模型,如换机应用类型包括:换机推荐模型、安全预警模型等。
具体的,所述对输入数据进行抽样,确定样本数据的关键字包括:
先采用自适应渐进抽样法对输入数据进行抽样,得到n维样本数据X={x1,x2,...,xn};
再依据公式对样本数据进行主成分分析,当S矩阵的特征值λ1≥λ2≥...≥λm≥...≥λn的前m个特征值之和占总特征值之和的比率达到预设条件时,选择与前m个特征值对应的字段为关键字;
这里,其中,Sij为xi和xj的协方差,i∈[1,n],j∈[1,n],n为样本数据的个数,为正整数,优选的,n小于100;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90%以上。
所述将样本数据的关键字与模型库中关键字进行匹配包括:按照特征值由大到小的顺序,依次为模型库中每个应用模型对应的关键字分配权值;将样本数据的关键字与模型库中关键字进行匹配,并记录匹配关键字的权值之和Q;若Q超过阈值T,则匹配成功,即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型;这里,所述阈值T的大小可以依据多次试验确定。
所述对输入数据进行数据筛选包括:依据所述样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过;
其中,所述对提取的数据进行数据清洗及数据审核,直至审核通过包括:
对提取的数据进行K均值聚类,根据聚类结果判断出明显离群点和重复数据点,将离群点和重复数据点删除;对于不一致数据点以及缺失数据点,以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计,完成数据清洗;随机抽取部分清洗过的数据作为检测数据,利用切比雪夫定理利用检测数据的均值,标准差和置信区间识别异常数据,当检测数据错误率低于阈值时,审核通过;否则重复进行数据清洗及审核,直至审核通过;
这里,所述部分清洗过的数据可以为占总体1/4的清洗过的数据;所述阈值可以为0.5%。
步骤402:判断磁盘空间是否满足存储要求,如果满足,执行步骤403;如果不满足,执行步骤410。
步骤403:将筛选后的数据存储至磁盘。
步骤404:获取所述输入数据对应的近似最优组合分类算法;
本步骤具体包括:依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法;
这里,所述统计特性可以为:概率分布或均值或方差等;
所述字段属性可以为:数值型或布尔型或文本型等;
所述算法库中包含不同的数据分类算法;
所述依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括:
利用选择的满足要求的分类算法对筛选后的数据进行分类,并计算分类的准确率,利用一元线性回归方程作为适应度函数f(x)描述分类的准确率,根据比例选择原则选择染色体产生下一代,通过染色体的交叉和变异产生下一代,直到达到第M代,获得所述输入数据对应的近似最优组合分类算法;
其中,M为正整数,通过多次测试确定;
所述利用一元线性回归方程作为适应度函数f(x)描述分类的准确率,以使适应度函数值与每个分类算法的分类准确率成正比;
所述根据比例选择原则选择染色体,即算法xi被选中的概率为f(xi)/(f(x1)+f(x2)+...+f(xn))。
步骤405:依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换,并判断变换后的数据是否有效,如果有效执行步骤406;如果无效,执行步骤405;
本步骤具体包括:依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化并进行变量变换,以满足所述组合分类算法对数据格式的要求,确定变量变换后的数据无效时,重复上述处理过程,直至确定变量变换后的数据有效;
这里,所述对筛选后的数据进行降维处理包括:依据协方差矩阵对筛选后的数据进行降维处理;
所述确定变量变换后的数据有效包括:随机抽取部分离散化后的数据,计算所述数据离散化前后的信息增益,如果所得信息增益小于阈值T1,确定变量变换后的数据有效;否则,确定变量变换后的数据无效;其中,所述部分离散化后的数据可以为1/3离散化后的数据;所述阈值T1可通过多次试验确定。
步骤406:依据所述近似最优组合分类算法进行模型训练,并判断训练所得的分类误差率是否小于阈值T2,如果小于T2,执行步骤407;否则,执行步骤406;
这里,所述依据所述近似最优组合分类算法进行模型训练包括:采用随机简单抽样法对变换后的数据抽样,样本总数为N,将抽样数据作为训练集,对所述近似最优组合分类算法进行初始参数配置,初始参数Pi设置为1/k,k为选中的分类算法个数;对训练集数据进行模型训练。
步骤407:利用训练后的模型对输入数据进行处理,并判断数据处理结果的误差率是否小于阈值T2,如果小于,执行步骤408;否则,执行步骤406;
这里,所述对输入数据进行处理具体为对输入数据进行分类处理。
步骤408:对所述组合分类算法模型进行模型评估,并判断评估是否通过,如果评估通过,执行步骤409;如果评估不通过,执行步骤404;
这里,所述对所述组合分类算法模型进行模型评估包括:
令数据集合D={(x1,y1),(x2,y2),...,(xn,yn)}是由输入向量和目标值对偶组成的,f(x(i),θ)为模型使用参数值θ对个体i作出的预测,1≤i≤n,y(i)为训练数据集合中第i个实体的实际观测值,依据误分类率公式作为评分函数对所述组合分类算法模型进行评估,当a不等于b时,I(a,b)=1,否则,I(a,b)=0;Sv(θ)为误分类率,当Sv(θ)不超过阈值T3时,评估通过;超过阈值T3时,评估不通过;其中,T3可通过多次测试确定,N为样本总数。
步骤409:将所述组合分类算法模型加入模型库,发布数据分析结果,并将所述分析结果发送至数据输入端;
这里,所述组合分类算法模型用于对后续输入数据进行分类处理;
所述数据分析结果可以包括:换机推荐用户、安全警示信息等。
步骤410:对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端;
这里,所述对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端包括:依据用户标识和时间对筛选后的数据进行分片,并将分片数据进行分布式发送至指定终端进行存储及处理。
步骤411:结束本次处理流程。
图5为本发明实施例一数据处理装置组成结构示意图,如图5所示,本实施例数据处理装置组成结构包括:第一筛选模块51、第一数据变换模块52、第一处理模块53及第一模型库54;其中,
所述第一筛选模块51,用于在确定模型库54中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
所述第一数据变换模块52,用于对筛选后的数据进行数据变换;
所述第一处理模块53,用于依据所述应用模型对应的组合分类算法对数据变换后的数据进行数据处理;
所述第一模型库54,用于存储不同应用类型的应用模型。
进一步的,所述装置还包括第一匹配模块55,用于对输入数据进行抽样,确定样本数据的关键字,并将所述关键字与模型库54中关键字进行匹配,确定是否存在与所述输入数据对应的应用模型;
这里,所述第一匹配模块55将所述关键字与模型库54中关键字进行匹配,匹配成功时,确定存在与所述输入数据对应的应用模型;匹配不成功时,确定不存在与所述输入数据对应的应用模型;
所述应用模型可以为:换机推荐模型或安全预警模型等。
所述第一匹配模块55对输入数据进行抽样,确定样本数据的关键字包括:所述第一匹配模块55先采用自适应渐进抽样法对输入数据进行抽样,得到n维样本数据X={x1,x2,...,xn};
然后依据公式对样本数据进行主成分分析,当S矩阵的特征值λ1≥λ2≥...≥λm≥...≥λn的前m个特征值之和占总特征值之和的比率达到预设条件时,选择与前m个特征值对应的字段为关键字;
这里,其中,Sij为xi和xj的协方差,i∈[1,n],j∈[1,n],n为样本数据的个数,为正整数,优选的,n小于100;所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90%以上。
所述第一匹配模块55将样本数据的关键字与模型库中关键字进行匹配包括:所述第一匹配模块55按照特征值由大到小的顺序,依次为模型库中每个应用模型对应的关键字分配权值;将样本数据的关键字与模型库中关键字进行匹配,并记录匹配关键字的权值之和Q;若Q超过阈值T,则匹配成功,即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型;这里,所述T的大小可以依据多次试验确定。
进一步的,所述第一筛选模块51对输入数据进行数据筛选包括:
所述第一筛选模块51依据所述应用模型对应的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过;其中,
所述第一筛选模块51对提取的数据进行数据清洗及数据审核,直至审核通过包括:
所述第一筛选模块51对提取的数据进行K均值聚类,根据聚类结果判断出明显离群点和重复数据点,将离群点和重复数据点删除;对于不一致数据点以及缺失数据点,以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计,完成数据清洗;随机抽取部分清洗过的数据作为检测数据,利用切比雪夫定理利用检测数据的均值,标准差和置信区间识别异常数据,当检测数据错误率低于阈值时,审核通过;否则重复进行数据清洗及审核,直至审核通过;这里,所述部分清洗过的数据可以为占总体1/4的清洗过的数据;所述阈值可以为0.5%。
进一步的,所述装置还包括第一确定模块56,用于确定磁盘空间满足存储要求时,将筛选后的数据存储至所述磁盘;确定磁盘空间不满足存储要求时,对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端;
这里,所述第一确定模块56对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端包括:所述第一确定模块56依据用户标识和时间对筛选后的数据进行分片,并将分片数据进行分布式发送至指定终端进行存储及处理。
进一步的,所述第一数据变换模块52对筛选后的数据进行数据变换包括:所述第一数据变换模块52依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化并进行变量变换,以满足所述组合分类算法对数据格式的要求,确定变量变换后的数据无效时,重复上述处理过程,直至确定变量变换后的数据有效;
这里,所述第一数据变换模块52对筛选后的数据进行降维处理包括:所述第一数据变换模块52依据协方差矩阵对筛选后的数据进行降维处理;
所述第一数据变换模块52确定变量变换后的数据有效包括:所述第一数据变换模块52随机抽取部分离散化后的数据,计算所述数据离散化前后的信息增益,如果所得信息增益小于阈值T1,确定变量变换后的数据有效;否则,确定变量变换后的数据无效;其中,所述部分离散化后的数据可以为1/3离散化后的数据;所述阈值T1可通过多次试验确定。
进一步的,所述装置还包括第一发布模块57,用于发布数据分析结果,并将所述分析结果发送至数据输入端;
这里,所述数据分析结果可以包括:换机推荐用户、安全警示信息等。
图6为本发明实施例二数据处理装置组成结构示意图,如图6所示,本实施例数据处理装置组成结构包括:第二筛选模块61、获取模块62、第二处理模块63、评估模块64及第二模型库65;其中,
所述第二筛选模块61,用于确定模型库65中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
所述获取模块62,用于获取所述输入数据对应的近似最优组合分类算法;
所述第二处理模块63,用于依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直至获取满足要求的组合分类算法模型;
所述评估模块64,用于对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库;
所述第二模型库65,用于存储不同应用类型的应用模型;
这里,所述组合分类算法模型对后续输入数据进行处理。
进一步的,所述装置还包括第二匹配模块66,用于对输入数据进行抽样,确定样本数据的关键字,将所述关键字与模型库中关键字进行匹配,确定是否存在与所述输入数据对应的应用模型;
这里,将所述关键字与模型库中关键字进行匹配,匹配成功时,确定存在与所述输入数据对应的应用模型;匹配不成功时,确定不存在与所述输入数据对应的应用模型;
所述应用模型可以为换机推荐模型或安全预警模型等;
所述第二匹配模块66对输入数据进行抽样,确定样本数据的关键字包括:
所述第二匹配模块66先采用自适应渐进抽样法对输入数据进行抽样,得到n维样本数据X={x1,x2,...,xn};
然后依据公式对样本数据进行主成分分析,当S矩阵的特征值λ1≥λ2≥...≥λm≥...≥λn的前m个特征值之和占总特征值之和的比率达到预设条件时,选择与前m个特征值对应的字段为关键字;
这里,其中,Sij为xi和xj的协方差,i∈[1,n],j∈[1,n],n为样本数据的个数,为正整数,优选的,n小于100;其中,所述预设条件可以为前m个特征值之和占总特征值之和的比率达到90%以上。
所述第二匹配模块66将样本数据的关键字与模型库中关键字进行匹配包括:所述第二匹配模块66按照特征值由大到小的顺序,依次为模型库中每个应用模型对应的关键字分配权值;将样本数据的关键字与模型库中关键字进行匹配,并记录匹配关键字的权值之和Q;若Q超过阈值T,则匹配成功,即确定模型库中存在与所述输入数据对应的应用模型为所述匹配成功的关键字对应的应用模型;这里,所述阈值T的大小可以依据多次试验确定。
进一步的,所述第二筛选模块61对输入数据进行数据筛选包括:所述第二筛选模块61依据所述样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过;其中,
所述第二筛选模块61对提取的数据进行数据清洗及数据审核,直至审核通过包括:
所述第二筛选模块61对提取的数据进行K均值聚类,根据聚类结果判断出明显离群点和重复数据点,将离群点和重复数据点删除;对于不一致数据点以及缺失数据点,以所述不一致数据点的样本均值及所述缺失数据点的样本均值进行估计,完成数据清洗;随机抽取部分清洗过的数据作为检测数据,利用切比雪夫定理利用检测数据的均值,标准差和置信区间识别异常数据,当检测数据错误率低于阈值时,审核通过;否则重复进行数据清洗及审核,直至审核通过;这里,所述部分清洗过的数据可以为占总体1/4的清洗过的数据;所述阈值可以为0.5%。
进一步的,所述装置还包括第二确定模块67,用于确定磁盘空间满足存储要求时,将筛选后的数据存储至所述磁盘;确定磁盘空间不满足存储要求时,对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端;
这里,所述第二确定模块67对筛选后的数据进行分片,将分片数据进行分布式发送至指定终端包括:所述第二确定模块67依据用户标识和时间对筛选后的数据进行分片,并将分片数据进行分布式发送至指定终端进行存储及处理。
进一步的,所述装置还包括算法库68,用于存储不同的数据分类算法;
相应的,所述获取模块62获取所述输入数据对应的近似最优组合分类算法包括:
所述获取模块62依据输入数据的统计特性及字段属性在算法库68中选择满足要求的分类算法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法;
这里,所述统计特性可以为:概率分布或均值或方差等;
所述字段属性可以为:数值型或布尔型或文本型等;
所述算法库中包含不同的数据分类算法;
所述获取模块62依据遗传算法确定所述输入数据对应的近似最优组合分类算法包括:
所述获取模块62利用选择的满足要求的分类算法对筛选后的数据进行分类,并计算分类的准确率,利用一元线性回归方程作为适应度函数f(x)描述分类的准确率,根据比例选择原则选择染色体产生下一代,通过染色体的交叉和变异产生下一代,直至达到第M代,获得所述输入数据对应的近似最优组合分类算法;
其中,M为正整数,通过多次测试确定;
所述利用一元线性回归方程作为适应度函数f(x)描述分类的准确率,以使适应度函数值与每个分类算法的分类准确率成正比;
所述根据比例选择原则选择染色体,即算法xi被选中的概率为f(xi)/(f(x1)+f(x2)+...+f(xn))。
进一步的,所述装置还包括第二数据变换模块69,用于依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换;具体包括:第二数据变换模块69依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化并进行变量变换,以满足所述组合分类算法对数据格式的要求,确定变量变换后的数据无效时,重复上述处理过程,直至确定变量变换后的数据有效;
这里,所述第二数据变换模块69对筛选后的数据进行降维处理包括:第二数据变换模块69依据协方差矩阵对筛选后的数据进行降维处理;
所述第二数据变换模块69确定变量变换后的数据有效包括:第二数据变换模块69随机抽取部分离散化后的数据,计算所述数据离散化前后的信息增益,如果所得信息增益小于阈值T1,确定变量变换后的数据有效;否则,确定变量变换后的数据无效;其中,所述部分离散化后的数据可以为1/3离散化后的数据;所述阈值T1可通过多次试验确定。
进一步的,所述第二处理模块63依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直至获取满足要求的组合分类算法模型包括:
所述第二处理模块63采用随机简单抽样法对变换后的数据抽样,将抽样数据作为训练集,对所述近似最优组合分类算法进行初始参数配置,初始参数Pi设置为1/k,k为选中的分类算法个数;对训练集数据进行模型训练,直至模型训练所得的分类误差率小于阈值T2;利用训练后的模型对输入数据进行数据处理,直至数据处理结果的误差率小于阈值T2,获取满足要求的组合分类算法模型;这里所述阈值T2可以为0.5%;所述样本的总数为N。
进一步的,所述评估模块64对所述组合分类算法模型进行模型评估包括:
所述评估模块64令数据集合D={(x1,y1),(x2,y2),...,(xn,yn)}是由输入向量和目标值对偶组成的,f(x(i),θ)为模型使用参数值θ对个体i作出的预测,1≤i≤n,y(i)为训练数据集合中第i个实体的实际观测值,依据误分类率公式作为评分函数对所述组合分类算法模型进行评估,当a不等于b时,I(a,b)=1,否则,I(a,b)=0;当Sv(θ)不超过阈值T3时,评估通过;超过阈值T3时,评估不通过;其中,Sv(θ)为误分类率,N为样本总数。
进一步的,所述装置还包括第二发布模块70,用于发布数据分析结果,并将所述分析结果发送至数据输入端;
这里,所述数据分析结果可以包括:换机推荐用户、安全警示信息等。
在实际应用中,所述第一筛选模块51、第一数据变换模块52、第一处理模块53、第一匹配模块55、第一确定模块56、第一发布模块57及第二筛选模块61、获取模块62、第二处理模块63、评估模块64、第二匹配模块66、第二确定模块67、第二数据变换模块69、第二发布模块70既可由软件实现,也可由服务器中的中央处理器(CPU,CentralProcessingUnit)、或数字信号处理器(DSP,DigitalSignalProcessor)、或现场可编程门阵列(FPGA,FieldProgrammableGateArray)实现。
以上所述,仅为本发明较佳实施例而已,并非用于限定本发明的保护范围。
Claims (16)
1.一种数据处理方法,其特征在于,所述方法包括:
确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行数据变换;
依据所述组合分类算法对变换后的数据进行数据处理。
2.根据权利要求1所述方法,其特征在于,所述确定模型库中存在与输入数据对应的应用模型包括:对输入数据进行抽样,确定样本数据的关键字,将样本数据的关键字与模型库中关键字进行匹配,匹配成功时,确定存在与所述输入数据对应的应用模型。
3.根据权利要求2所述方法,其特征在于,所述对输入数据进行数据筛选包括:依据所述应用模型对应的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
4.根据权利要求1或2所述方法,其特征在于,对筛选后的数据进行数据变换包括:
依据所述应用模型对应的组合分类算法对数据的要求,对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化及变量变换,确定变量变换后的数据不满足预设条件时,重复上述处理过程,直至变量变换后的数据满足预设条件。
5.一种数据处理装置,其特征在于,所述装置包括:第一筛选模块、第一数据变换模块、第一处理模块及第一模型库;其中,
所述第一筛选模块,用于在确定模型库中存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
所述第一数据变换模块,用于对筛选后的数据进行数据变换;
所述第一处理模块,用于依据所述应用模型对应的组合分类算法对数据变换后的数据进行数据处理;
所述第一模型库,用于存储不同应用类型的应用模型。
6.根据权利要求5所述装置,其特征在于,所述装置还包括第一匹配模块,用于对输入数据进行抽样,确定样本数据的关键字,将所述关键字与模型库中关键字进行匹配,确定是否存在与所述输入数据对应的应用模型。
7.根据权利要求6所述装置,其特征在于,所述第一筛选模块对输入数据进行数据筛选包括:
所述第一筛选模块依据所述应用模型对应的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
8.根据权利要求5或6所述装置,其特征在于,所述第一数据变换模块对筛选后的数据进行数据变换包括:
所述第一数据变换模块对筛选后的数据进行对象聚焦及降维处理,对降维后的连续数据进行等距离散化及变量变换,确定变量变换后的数据不满足预设条件时,重复上述处理过程,直至变量变换后的数据满足预设条件。
9.一种数据处理方法,其特征在于,所述方法包括:
确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
获取所述输入数据对应的近似最优组合分类算法;
依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直至获取满足要求的组合分类算法模型;
对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库;
其中,所述组合分类算法模型用于对后续输入数据进行处理。
10.根据权利要求9所述方法,其特征在于,所述对输入数据进行数据筛选包括:依据样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
11.根据权利要求9或10所述方法,其特征在于,所述依据所述近似最优组合分类算法进行模型训练之前,所述方法还包括:依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换。
12.根据权利要求9或10所述方法,其特征在于,所述获取所述输入数据对应的近似最优组合分类算法包括:
依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
13.一种数据处理装置,其特征在于,所述装置包括第二筛选模块、获取模块、第二处理模块、评估模块及第二模型库;其中,
所述第二筛选模块,用于确定模型库中不存在与输入数据对应的应用模型时,对输入数据进行数据筛选;
所述获取模块,用于获取所述输入数据对应的近似最优组合分类算法;
所述第二处理模块,用于依据所述近似最优组合分类算法进行模型训练,并对输入数据进行模型实施,直至获取满足要求的组合分类算法模型;
所述评估模块,用于对所述组合分类算法模型进行模型评估,评估通过时,将所述组合分类算法模型加入模型库;
所述第二模型库,用于存储不同应用类型的应用模型;
其中,所述组合分类算法模型用于对后续输入数据进行处理。
14.根据权利要求13所述装置,其特征在于,所述第二筛选模块对输入数据进行数据筛选包括:所述第二筛选模块依据样本数据的关键字对输入数据进行数据提取,并对提取的数据进行数据清洗及数据审核,直至审核通过。
15.根据权利要求14所述装置,其特征在于,所述装置还包括第二数据变换模块,依据所述近似最优组合分类算法对数据的要求,对筛选后的数据进行数据变换。
16.根据权利要求13或14所述装置,其特征在于,所述获取模块获取所述输入数据对应的近似最优组合分类算法包括:所述获取模块依据输入数据的统计特性及字段属性在算法库中选择满足要求的分类算法,并依据遗传算法确定所述输入数据对应的近似最优组合分类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410409716.7A CN105354198B (zh) | 2014-08-19 | 2014-08-19 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410409716.7A CN105354198B (zh) | 2014-08-19 | 2014-08-19 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105354198A true CN105354198A (zh) | 2016-02-24 |
CN105354198B CN105354198B (zh) | 2019-07-02 |
Family
ID=55330171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410409716.7A Active CN105354198B (zh) | 2014-08-19 | 2014-08-19 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105354198B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426425A (zh) * | 2015-11-04 | 2016-03-23 | 华中科技大学 | 一种基于移动信令的大数据营销方法 |
CN106250556A (zh) * | 2016-08-17 | 2016-12-21 | 贵州数据宝网络科技有限公司 | 用于大数据分析的数据挖掘方法 |
CN107301453A (zh) * | 2016-04-15 | 2017-10-27 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN109101507A (zh) * | 2017-06-20 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN109448445A (zh) * | 2018-09-05 | 2019-03-08 | 南京航空航天大学 | 基于长短期记忆神经网络的航班延误分级预警方法 |
CN109858633A (zh) * | 2019-02-22 | 2019-06-07 | 中国工商银行股份有限公司 | 一种特征信息识别方法及系统 |
CN110109938A (zh) * | 2017-12-20 | 2019-08-09 | 北京国双科技有限公司 | 一种数据筛选方法及装置 |
CN110175194A (zh) * | 2019-04-19 | 2019-08-27 | 中国矿业大学 | 一种基于关联规则挖掘的煤矿巷道围岩变形破裂辨识方法 |
CN110458383A (zh) * | 2019-06-24 | 2019-11-15 | 平安国际智慧城市科技股份有限公司 | 需求处理服务化的实现方法、装置及计算机设备、存储介质 |
CN110910231A (zh) * | 2019-11-06 | 2020-03-24 | 上海百事通信息技术股份有限公司 | 一种债务清收管理平台 |
WO2021139112A1 (zh) * | 2020-01-07 | 2021-07-15 | 平安科技(深圳)有限公司 | 数据降维处理方法、装置、计算机设备和存储介质 |
CN113535444A (zh) * | 2020-04-14 | 2021-10-22 | 中国移动通信集团浙江有限公司 | 异动检测方法、装置、计算设备及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1967579A (zh) * | 2006-02-13 | 2007-05-23 | 湖南大学 | 金融风险管理辅助挖掘分析系统 |
CN102567391A (zh) * | 2010-12-20 | 2012-07-11 | 中国移动通信集团广东有限公司 | 一种分类预测混合模型的建立方法及装置 |
CN102959506A (zh) * | 2010-06-22 | 2013-03-06 | 惠普发展公司,有限责任合伙企业 | 用于计划应用部署的方法和系统 |
CN103294828A (zh) * | 2013-06-25 | 2013-09-11 | 厦门市美亚柏科信息股份有限公司 | 数据挖掘模型维度的验证方法和验证装置 |
-
2014
- 2014-08-19 CN CN201410409716.7A patent/CN105354198B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1967579A (zh) * | 2006-02-13 | 2007-05-23 | 湖南大学 | 金融风险管理辅助挖掘分析系统 |
CN102959506A (zh) * | 2010-06-22 | 2013-03-06 | 惠普发展公司,有限责任合伙企业 | 用于计划应用部署的方法和系统 |
CN102567391A (zh) * | 2010-12-20 | 2012-07-11 | 中国移动通信集团广东有限公司 | 一种分类预测混合模型的建立方法及装置 |
CN103294828A (zh) * | 2013-06-25 | 2013-09-11 | 厦门市美亚柏科信息股份有限公司 | 数据挖掘模型维度的验证方法和验证装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426425A (zh) * | 2015-11-04 | 2016-03-23 | 华中科技大学 | 一种基于移动信令的大数据营销方法 |
CN107301453A (zh) * | 2016-04-15 | 2017-10-27 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN106250556A (zh) * | 2016-08-17 | 2016-12-21 | 贵州数据宝网络科技有限公司 | 用于大数据分析的数据挖掘方法 |
CN106250556B (zh) * | 2016-08-17 | 2019-06-18 | 贵州数据宝网络科技有限公司 | 用于大数据分析的数据挖掘方法 |
CN109101507A (zh) * | 2017-06-20 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN109101507B (zh) * | 2017-06-20 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN110109938B (zh) * | 2017-12-20 | 2021-04-30 | 北京国双科技有限公司 | 一种数据筛选方法及装置 |
CN110109938A (zh) * | 2017-12-20 | 2019-08-09 | 北京国双科技有限公司 | 一种数据筛选方法及装置 |
CN109448445A (zh) * | 2018-09-05 | 2019-03-08 | 南京航空航天大学 | 基于长短期记忆神经网络的航班延误分级预警方法 |
CN109858633A (zh) * | 2019-02-22 | 2019-06-07 | 中国工商银行股份有限公司 | 一种特征信息识别方法及系统 |
CN110175194B (zh) * | 2019-04-19 | 2021-02-02 | 中国矿业大学 | 一种基于关联规则挖掘的煤矿巷道围岩变形破裂辨识方法 |
CN110175194A (zh) * | 2019-04-19 | 2019-08-27 | 中国矿业大学 | 一种基于关联规则挖掘的煤矿巷道围岩变形破裂辨识方法 |
CN110458383A (zh) * | 2019-06-24 | 2019-11-15 | 平安国际智慧城市科技股份有限公司 | 需求处理服务化的实现方法、装置及计算机设备、存储介质 |
CN110910231A (zh) * | 2019-11-06 | 2020-03-24 | 上海百事通信息技术股份有限公司 | 一种债务清收管理平台 |
WO2021139112A1 (zh) * | 2020-01-07 | 2021-07-15 | 平安科技(深圳)有限公司 | 数据降维处理方法、装置、计算机设备和存储介质 |
CN113535444A (zh) * | 2020-04-14 | 2021-10-22 | 中国移动通信集团浙江有限公司 | 异动检测方法、装置、计算设备及计算机存储介质 |
CN113535444B (zh) * | 2020-04-14 | 2023-11-03 | 中国移动通信集团浙江有限公司 | 异动检测方法、装置、计算设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105354198B (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105354198B (zh) | 一种数据处理方法及装置 | |
CN111177714B (zh) | 异常行为检测方法、装置、计算机设备和存储介质 | |
WO2021047186A1 (zh) | 咨询对话处理的方法、装置、设备及存储介质 | |
CN108364106A (zh) | 一种报销单风险预测方法、装置、终端设备及存储介质 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN107341716A (zh) | 一种恶意订单识别的方法、装置及电子设备 | |
CN103617435B (zh) | 一种主动学习图像分类方法和系统 | |
CN112235327A (zh) | 异常日志检测方法、装置、设备和计算机可读存储介质 | |
CN113779969B (zh) | 基于人工智能的案件信息处理方法、装置、设备及介质 | |
WO2024067387A1 (zh) | 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质 | |
CN117593037A (zh) | 一种人机交互用户完成能力的预测方法 | |
CN112116168B (zh) | 一种用户行为的预测方法、装置及电子设备 | |
US20210278827A1 (en) | Systems And Method For Dimensionally Aware Rule Extraction | |
CN111105041A (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN114238764A (zh) | 基于循环神经网络的课程推荐方法、装置及设备 | |
CN114117029A (zh) | 一种基于多层次信息增强的解决方案推荐方法及系统 | |
KR102078541B1 (ko) | 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체 | |
CN116452212A (zh) | 一种智能客服商品知识库信息管理方法及系统 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN113722485A (zh) | 一种异常数据识别分类方法、系统及存储介质 | |
CN113313138A (zh) | 基于概率生成模型的入侵行为特征转换方法、检测方法 | |
CN116341990B (zh) | 一种基础设施工程的知识管理评价方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |