CN108399434B - 基于特征提取的高维时间序列数据的分析预测方法 - Google Patents
基于特征提取的高维时间序列数据的分析预测方法 Download PDFInfo
- Publication number
- CN108399434B CN108399434B CN201810228459.5A CN201810228459A CN108399434B CN 108399434 B CN108399434 B CN 108399434B CN 201810228459 A CN201810228459 A CN 201810228459A CN 108399434 B CN108399434 B CN 108399434B
- Authority
- CN
- China
- Prior art keywords
- attribute
- condition
- decision
- particle
- dimensional time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 239000002245 particle Substances 0.000 claims abstract description 94
- 238000012417 linear regression Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000036541 health Effects 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 4
- 230000001364 causal effect Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000010355 oscillation Effects 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 230000002085 persistent effect Effects 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 208000018737 Parkinson disease Diseases 0.000 description 12
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Multimedia (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于特征提取的高维时间序列数据的分析预测方法,涉及数据分析技术领域。该方法首先度量高维时间序列数据的条件属性间和条件属性与决策属性间的相关性,并将与决策属性有相关性的条件属性加入属性核集中;再对高维时间序列数据进行特征提取;然后建立多元线性回归模型,再通过基于健康度的粒子群优化算法对模型中的回归系数进行优化;最后根据所构建的多元线性回归模型,得到某一时刻决策属性的值。本发明提供的基于特征提取的高维时间序列数据的分析预测方法,解决了高维时间序列数据在分析预测过程中所存在的预测效率低、误差大以及容易出现局部最优解的问题,有效提高了多元线性回归分析算法对高维时间序列数据的预测效果。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于特征提取的高维时间序列数据的分析预测方法。
背景技术
随着近代科技的发展和互联网技术的普及,用户所产生的数据总量成指数型增长,在大量的数据中,高维时间序列数据是一种非常常见的时态数据,它被广泛的应用于工业、农业、医疗、金融、交通等行业。高维时间序列数据是指在不同的时间点上所收集到的数据,这类的数据可以反映出某一类的现象或事物随时间变化而表现出的状态和趋势。对于高维时间序列数据的高维性首先表现在收集数据的时间点上,通常一个时间点表示为一个维度,因此高维时间序列数据的一个主要特点为数据量大。其次,对于实际生产活动中的高维时间序列数据多为传感器收集,对于不同种类的传感器所收集的数据为不同属性的数据,因此,对于高维时间序列数据的另一个特点为属性数量多。常见的高维时间序列数据主要应用于异常检测、股票交易、销售系统、气象监测以及量子物理研究等等。
对于高维时间序列的预测是指通过当前记录收集的数据来获取到未来一段时间中未发生的数据。它主要可以通过对于条件属性的特征提取后,对决策属性进行预测,也可以通过决策属性的历史数据进行预测。高维时间序列数据的预测已经广泛的应用于经济、医学、气象学等各个领域中,因此,如何提高对于高维时间序列数据预测的准确度,以及降低预测的成本,是目前对高维时间序列数据研究的一大热点。
发明内容
针对现有技术的缺陷,本发明提供一种基于特征提取的高维时间序列数据的分析预测方法,实现对高维时间序列数据进行分析预测。
基于特征提取的高维时间序列数据的分析预测方法,包括以下步骤:
步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,具体方法为:
步骤1.1、通过使用联合熵的概念来度量高维时间序列数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性并将与决策属性具有相关性的条件属性加入属性核集Core中;
所述条件属性间的相关性度量使用如下所示公式进行判断:
其中,c1和c2分别为高维时间序列数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量;
所述条件属性与决策属性间的相关性度量使用如下所示公式进行判断:
其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量;
对于条件属性与决策属性间相关性度量,若I(C-{ci};D)<I(C;D),其中C={c1,c2,…cn}为含有n个条件属性的条件属性集,ci∈C为条件属性集C中的第i个条件属性,i=1、2…、n,D为决策属性集,说明此条件属性对于决策属性具有相关性,则将条件属性ci加入到集中,结果为Core=Core+{ci},否则对下一个条件属性进行判断直至最后一个条件属性;
步骤1.2、基于Granger因果分析对高维时间序列数据进行特征提取,具体方法为:
步骤1.2.1:对高维时间序列数据进行预处理;
首先利用单位根检验法对高维时间序列数据的平稳性进行检验,对于不平稳的高维时间序列数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则(Bayesian Information Criterion,BIC)对高维时间序列数据进行最优滞后期计算;
步骤1.2.2:构建决策属性的自回归模型;
高维时间序列数据决策属性y的自回归模型如下式所示:
y(t)=a0+a1yt-1+a2yt-2+…+alyt-l
其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数;
步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;
对于加入条件属性x后的决策属性y的增广型自回归模型如下式所示:
y(t)=a0+a1yt-1+…+alyt-l+b1xt-1+…+bwxt-w
其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数;
步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,具体方法为:
首先判断此条件属性是否为决策属性的Granger因果关系,如果此条件属性不是此决策属性的Granger因果关系,则执行步骤1.2.6,如果此条件属性是此决策属性的Granger因果关系,则将条件属性与决策属性进行交换,再根据上述步骤1.2.2与步骤1.2.3进行Granger因果关系进行判断,只有条件属性是决策属性的Granger因果关系,而决策属性不是条件属性的Granger因果关系时,执行步骤1.2.5;若此判断的条件属性为最后一个条件属性,则完成高维时间序列数据的特征提取,执行步骤2;
步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集;
步骤1.2.6:对下一条件属性进行因果性判断;
步骤2、在基于维度关联性分析的高维时间序列数据特征提取方法基础上,建立多元线性回归模型对高维时间序列数据进行预测,具体方法为:
步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立如下公式所示的多元线性回归模型:
其中,yt为决策属性y在t时刻的决策属性值,l为决策属性的y的滞后期最大值,m为步骤1所得到的属性核集的大小,xu,t为属性核集中的条件属性u在时刻t的取值,{a0}+{as|1≤s≤l}+{bus|1≤s≤l∧1≤u≤m}=COEF为系数集合;
记系数集合的估计值为COEF'={a0'}+{as'|1≤s≤l}+{bus'|1≤s≤l∧1≤u≤m},则根据该系数集合,决策属性y在时刻t的估计值yt'如下公式所示:
在对系数集进行训练的过程中,在已知y在时刻t的观测值的情况下,通过以下公式判断所估计的系数集合的预测精度:
如果误差|yt-yt′|越小,表示预测精度越好;
将已知决策属性y以及条件属性x在多个时刻的观测值,要找到一个系数集合使得y在所有时刻的观测值与估计值的总的误差最小的问题转化为求解一个多系数取值的组合优化问题,即要找到系数集合中的各个系数的取值,该问题通过建立如下所示的目标函数,并利用粒子群算法进行问题求解:
步骤2.2、通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化,具体方法为:
步骤2.2.1、初始化算法参数,随机产生初始粒子,并对其赋初值;
初始化种群规模为K的粒子群,K为设定值;记粒子spv为R维空间中的一个粒子,R为系数集合的估计值COEF'的大小;粒子初始位置的设置采用如下方法:粒子spv在第u维方向的位置即在第u维方向的值随机设置为0到1间的一个数,从而得到粒子spv在R维空间中的位置为随机设置粒子在第u维方向的速度从而得到粒子spv在R维空间的速度其中,it表示当前迭代;粒子的适应度函数定义为如下公式:
其中,fitness(spv)为粒子spv的适应度;
步骤2.2.2、对群体粒子的进化进行操作,具体方法为:
a、根据以下两个公式分别更新粒子的速度与位置:
b、根据健康度识别异常粒子,并更新异常粒子的位置;
(1)对于每个粒子,根据以下公式,计算粒子的健康度:
(2)对于健康度小于事先所设定阈值的粒子,删除该粒子,并随机产生一个新的粒子替换它;
c、判断是否达到所设置的迭代次数,如果是,则返回gBest作为回归系数的最优解,否则,返回到步骤a继续迭代;
步骤2.2.3、根据步骤2.2.2所得到的gBest,将其行向量作为回归模型的系数,得到回归模型并对该模型进行持久化存储;
步骤3、根据所构建的多元线性回归模型,将时间序列数据按照模型所需的条件属性值进行输入,得到某一时刻决策属性的值,从而完成对某一时刻决策属性值的预测。
由上述技术方案可知,本发明的有益效果在于:本发明提供的基于特征提取的高维时间序列数据的分析预测方法,所提供的基于维度关联性分析对高维时间序列数据进行的特征提取,提取出了关联性高的属性核集,提高了预测的准确性。通过改进的粒子群算法解决了对高维时间序列数据进行预测所建立的多元线性回归模型中存在的回归系数求解效率低以及容易出现局部最优解的问题,有效提高了多元线性回归分析算法对高维时间序列数据的预测效果。
附图说明
图1为本发明实施例提供的基于特征提取的高维时间序列数据的分析预测方法的流程图;
图2为本发明实施例提供的对于高维时间序列数据的条件属性间相关性和条件属性与决策属性间相关性进行处理的流程图;
图3为本发明实施例提供的基于Granger因果分析对高维时间序列数据进行特征提取的流程图;
图4为本发明实施例提供的对高维时间序列数据进行预处理的流程图;
图5为本发明实施例提供的初始帕金森遥感数据集的部分数据;
图6为本发明实施例提供的帕金森遥感数据集进行联合熵计算的结果示意图;
图7为本发明实施例提供的基于改进多元线性回归分析的高维时间序列数据进行预测的流程图;
图8为本发明实施例提供的粒子群算法(PSO)与基于健康度的粒子群优化算法(HPSO)的优化结果对比示意图;
图9为本发明实施例提供的不同预测方法的各评价指标的柱状图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例以一份帕金森遥感数据集为例,使用本发明的基于特征提取的高维时间序列数据的分析预测方法对该高维时间序列数据进行分析预测。
基于特征提取的高维时间序列数据的分析预测方法,如图1所示,包括以下步骤:
步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,具体方法为:
步骤1.1、通过使用联合熵的概念来度量高维时间序列数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性并将与决策属性具有相关性的条件属性加入属性核集Core中,如图2所示。
条件属性间的相关性度量使用如下所示公式进行判断:
其中,c1和c2分别为高维时间序列数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量。
条件属性与决策属性间的相关性度量使用如下所示公式进行判断:
其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量。
对于条件属性与决策属性间相关性度量,若I(C-{ci};D)<I(C;D),其中C={c1,c2,…cn}为含有n个条件属性的条件属性集,ci∈C为条件属性集C中的第i个条件属性,i=1、2…、n,D为决策属性集,说明此条件属性对于决策属性具有相关性,则将条件属性ci加入到集中,结果为Core=Core+{ci},否则对下一个条件属性进行判断直至最后一个条件属性。
步骤1.2、基于Granger因果分析对高维时间序列数据进行特征提取,如图3所示,具体方法为:
步骤1.2.1:对高维时间序列数据进行预处理,如图4所示,具体方法为:
首先利用单位根检验法对高维时间序列数据的平稳性进行检验,对于不平稳的高维时间序列数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则(Bayesian Information Criterion,BIC)对高维时间序列数据进行最优滞后期计算。
步骤1.2.2:构建决策属性的自回归模型;
高维时间序列数据决策属性y的自回归模型如下式所示:
y(t)=a0+a1yt-1+a2yt-2+…+alyt-l
其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数。
步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;
对于加入条件属性x后的决策属性y的增广型自回归模型如下式所示:
y(t)=a0+a1yt-1+…+alyt-l+b1xt-1+…+bwxt-w
其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数。
步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,具体方法为:
首先判断此条件属性是否为决策属性的Granger因果关系,如果此条件属性不是此决策属性的Granger因果关系,则执行步骤1.2.6,如果此条件属性是此决策属性的Granger因果关系,则将条件属性与决策属性进行交换,再根据上述步骤1.2.2与步骤1.2.3进行Granger因果关系进行判断,只有条件属性是决策属性的Granger因果关系,而决策属性不是条件属性的Granger因果关系时,执行步骤1.2.5;若此判断的条件属性为最后一个条件属性,则完成高维时间序列数据的特征提取,执行步骤2。
步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集。
步骤1.2.6:对下一条件属性进行因果性判断。
本实施例使用的高维时间序列数据集来源于UCI(University of California,Irvin)机器学习数据仓库,该数据集是由Athanasios Tsanas和Max Little创建,是一份帕金森遥感数据集,主要是由42名早期帕金森患者的生物医学声音测量组成。
此数据集的属性数目为26,高维时间序列长度为5875,其具体属性如表1所示:
表1高维时间序列数据的属性表
属性名称 | 属性含义 |
subject | 病人编号 |
age | 年龄 |
sex | 性别,0-男性,1-女性 |
Test_time | 测试时间 |
Motor_UPDRS | 帕金森氏病运动评分 |
Total_UPDRS | 帕金森氏病合计评分 |
Jitter(%),Jitter(Abs), | 频率变化的几种测量方法 |
Jitter:RAP,Jitter:PPQ5, | |
Jitter:DDP | |
Shimmer,Shimmer(dB), | 振幅变化的几种度量方法 |
Shimmer:APQ3,Shimmer:APQ5, | |
Shimmer:APQ11,Shimmer:DDA | |
NHR,HNR | 声音中噪声与音调分量的比值 |
RPDE | 一种非线性动态复杂性测度 |
DFA | 信号分形标度指数 |
PPE | 频率变化的非线性度量 |
本实施例中,对于初始帕金森遥感数据集部分数据如图5所示,针对上述数据集中的条件属性进行特征提取,然后对其决策属性Total_UPDRS(帕金森氏病合计评分)与决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测。
本实施例中,对于原始数据进行数据清洗、平稳性检验、周期性进行检验后,原高维时间序列数据的属性由26个减少为18个。对此结果的高维时间序列数据进行联合熵计算及专家经验解释与互信息求属性核集计算,如图6所示为对剩下的属性两两进行联合熵计算的结果,其中颜色越深的越说明两属性的相关性越大。
本实施例中,本发明的基于维度关联性分析的高维时间序列数据特征提取方法(Dimension Correlation Analysis,DCA)的预测模型指标如表2所示:
表2基于DCA特征提取算法的预测模型指标
表中的数据为对决策属性Total_UPDRS(帕金森氏病合计评分)进行预测时的预测值与原数据值之间的差值,表中对R方、RMSE(平均方根误差)、MAE(平均绝对误差)的平均值、最小值与最大值表示为对决策属性Total_UPDRS(帕金森氏病合计评分)进行预测时的平均值、最小值与最大值。
本实施例还给出了如表3所示的基于RS特征提取算法、基于GC特征提取算法、基于DCA特征提取算法、基于PCA特征提取算法不分别对给定的高维时间序列进行特征提取的结果,在表中,主要展现了不同方法中提取变量的数目与提取变量的比例。
表3不同特征提取算法的特征提取结果
步骤2、在基于维度关联性分析的高维时间序列数据特征提取方法基础上,建立多元线性回归模型对高维时间序列数据进行预测,如图7所示,具体方法为:
步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立如下公式所示的多元线性回归模型:
其中,yt为决策属性y在t时刻的决策属性值,l为决策属性的y的滞后期最大值,m为步骤1所得到的属性核集的大小,xu,t为属性核集中的条件属性u在时刻t的取值,{a0}+{as|1≤s≤l}+{bus|1≤s≤l∧1≤u≤m}=COEF为系数集合。
记系数集合的估计值为COEF'={a0'}+{as'|1≤s≤l}+{bus'|1≤s≤l∧1≤u≤m},则根据该系数集合,决策属性y在时刻t的估计值yt'如下公式所示:
在对系数集进行训练的过程中,在已知y在时刻t的观测值的情况下,通过以下公式判断所估计的系数集合的预测精度:
如果误差|yt-yt′|越小,表示预测精度越好。
将已知决策属性y以及条件属性x在多个时刻的观测值,要找到一个系数集合使得y在所有时刻的观测值与估计值的总的误差最小的问题转化为求解一个多系数取值的组合优化问题,即要找到系数集合中的各个系数的取值,该问题通过建立如下所示的目标函数,并利用粒子群算法进行问题求解:
步骤2.2、通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化,具体方法为:
步骤2.2.1、初始化算法参数,随机产生初始粒子,并对其赋初值;
初始化种群规模为K的粒子群,K为设定值;记粒子spv为R维空间中的一个粒子,R为系数集合的估计值COEF'的大小;粒子初始位置的设置采用如下方法:粒子spv在第u维方向的位置即在第u维方向的值随机设置为0到1间的一个数,从而得到粒子spv在R维空间中的位置为随机设置粒子在第u维方向的速度从而得到粒子在R维空间的速度其中,it表示当前迭代;粒子的适应度函数定义为如下公式:
其中,fitness(spv)为粒子spv的适应度。
步骤2.2.2、对群体粒子的进化进行操作,具体方法为:
a、根据以下两个公式分别更新粒子的速度与位置:
b、根据健康度识别异常粒子,并更新异常粒子的位置;
(1)对于每个粒子,根据以下公式,计算粒子的健康度:
(2)对于健康度小于事先所设定阈值的粒子,删除该粒子,并随机产生一个新的粒子替换它。
c、判断是否达到所设置的迭代次数,如果是,则返回gBest作为回归系数的最优解,否则,返回到步骤a继续迭代;
步骤2.2.3、根据步骤2.2.2所得到的gBest,将其行向量作为回归模型的系数,得到回归模型并对该模型进行持久化存储;
步骤3、根据所构建的多元线性回归模型,将时间序列数据按照模型所需的条件属性值进行输入,得到某一时刻决策属性的值,从而完成对某一时刻决策属性值的预测。
本实施例提供了如图8所示的对于变量维度为11,种群规模为20,最大迭代次数为200的情况下,粒子群算法(PSO)与基于健康度的粒子群优化算法(HPSO)的优化结果对比图,其中横坐标为迭代次数,纵坐标为误差值。
从图中可以看出,在上述条件中,HPSO相对于PSO可以做到收敛早,并且预测误差值小的效果。
本实施例中,基于改进多元线性回归分析的高维时间序列数据预测方法的指标数据如表4所示:
表4基于改进多元线性回归分析的高维时间序列数据预测方法的指标
表中的数据为对决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测时的预测值与原数据值之间的差值,表中对R方、RMSE(平均方根误差)、MAE(平均绝对误差)的平均值、最小值与最大值表示为对决策属性Total_UPDRS(帕金森氏病合计评分)进行预测时的平均值、最小值与最大值。
本实施例还给出了如图9所示的多元线性回归分析预测方法MLR和基于粒子群的多元线性回归分析预测方法PMLR同本发明的基于改进多元线性回归分析的高维时间序列数据预测方法IMLR的评价指标的柱状图,从图中可以看出,对于R方,IMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果能解释因变量变化的百分数高于MLR与PMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果能解释因变量变化的百分数。同时,IMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果与原数据的平均绝对误差(MAE)与平均方根误差(RMSE)也是低于MLR与PMLR预测方法对于决策属性Motor_UPDRS(帕金森氏病运动评分)进行预测的结果与原数据的平均绝对误差(MAE)与平均方根误差(RMSE)。综上所述,本发明的基于改进多元线性回归分析的高维时间序列数据预测方法的预测效果要优于多元线性回归分析预测方法与基于粒子群的多元线性回归分析预测方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (9)
1.一种基于特征提取的高维时间序列数据的分析预测方法,其特征在于:包括以下步骤:
步骤1、基于维度关联性分析对高维时间序列数据进行特征提取,所述高维时间序列数据为通过对帕金森患者的生物医学声音测量得到的帕金森遥感数据,具体方法为:
步骤1.1:通过使用联合熵的概念来度量帕金森遥感数据中条件属性之间的相关性进行度量,并且根据专家学者的经验知识对判断结果进行交互式分析,对具有相关性较大的条件属性进行处理,最后,通过条件属性与决策属性间相关性度量评价条件属性与决策属性之间的相关性,并将与决策属性具有相关性的条件属性加入属性核集Core中;
步骤1.2:基于Granger因果分析对帕金森遥感数据进行特征提取;
步骤2、在基于维度关联性分析的帕金森遥感数据特征提取方法基础上,建立多元线性回归模型对帕金森遥感数据进行预测,具体方法为:
步骤2.1:根据决策属性时间自相关以及条件属性的相关性,建立多元线性回归模型;
步骤2.2:通过基于健康度的粒子群优化算法对多元线性回归模型中的回归系数进行优化;
步骤3、根据所构建的多元线性回归模型,将帕金森遥感数据按照模型所需的条件属性值进行输入,得到在某一时刻的决策属性的值,从而完成对某一时刻决策属性值的预测。
2.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤1.1所述条件属性间的相关性度量使用如下所示公式进行判断:
其中,c1和c2分别为帕金森遥感数据的两个条件属性,p(c1,c2)为两个条件属性c1和c2间的概率分布,H(c1,c2)为两个条件属性c1和c2间的相关性度量;
所述条件属性与决策属性间的相关性度量使用如下所示公式进行判断:
其中,c为条件属性,d为决策属性,p(c,d)为条件属性c和决策属性d的联合概率分布,p(c)和p(d)分别为条件属性c和决策属性d边缘分布,I(c;d)为条件属性c和决策属性d间的相关性度量;
3.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤1.2的具体方法为:
步骤1.2.1:对帕金森遥感数据进行预处理;
首先利用单位根检验法对帕金森遥感数据的平稳性进行检验,对于不平稳的帕金森遥感数据,通过差分转换方法进行转换使其平稳;然后,使用周期图法和Fisher精确检验法进行周期性检验,最后,通过贝叶斯信息准则BIC对帕金森遥感数据进行最优滞后期计算;
步骤1.2.2:构建决策属性的自回归模型;
步骤1.2.3:构建加入条件属性后的决策属性的增广型自回归模型;
步骤1.2.4:对条件属性与决策属性进行Granger因果关系检验,
步骤1.2.5:对于与决策属性具有因果性的条件属性加入属性核集;
步骤1.2.6:对下一条件属性进行因果性判断。
4.根据权利要求3所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤1.2.2所述构建的决策属性的自回归模型如下式所示:
y(t)=a0+a1yt-1+a2yt-2+…+alyt-l
其中,y(t)为某一时刻t时决策属性y的属性值,l为决策属性y中滞后期的最大值,a0为常数项,a1,a2,…,al为回归系数。
所述步骤1.2.3对于加入条件属性后的决策属性的增广型自回归模型如下式所示:
y(t)=a0+a1yt-1+…+alyt-l+b1xt-1+…+bwxt-w
其中,w为条件属性x中滞后期的最大值,b1,b2,…,bw为回归系数。
5.根据权利要求3所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤1.2.4的具体方法为:
首先判断此条件属性是否为决策属性的Granger因果关系,如果此条件属性不是此决策属性的Granger因果关系,则执行步骤1.2.6,如果此条件属性是此决策属性的Granger因果关系,则将条件属性与决策属性进行交换,再根据上述步骤1.2.2与步骤1.2.3进行Granger因果关系进行判断,只有条件属性是决策属性的Granger因果关系,而决策属性不是条件属性的Granger因果关系时,执行步骤1.2.5;若此判断的条件属性为最后一个条件属性,则完成帕金森遥感数据的特征提取,执行步骤2。
6.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:步骤2.1所述的建立的多元线性回归模型如下公式所示:
其中,yt为决策属性y在t时刻的决策属性值,l为决策属性的y的滞后期最大值,m为步骤1所得到的属性核集的大小,xu,t为属性核集中的条件属性u在时刻t的取值,{a0}+{as|1≤s≤l}+{bus|1≤s≤l∧1≤u≤m}=COEF为系数集合;
记系数集合的估计值为COEF'={a0'}+{as'|1≤s≤l}+{bus'|1≤s≤l∧1≤u≤m},则根据该系数集合,决策属性y在时刻t的估计值yt'如下公式所示:
在对系数集进行训练的过程中,在已知y在时刻t的观测值的情况下,通过以下公式判断所估计的系数集合的预测精度:
如果误差|yt-yt′|越小,表示预测精度越好;
将已知决策属性y以及条件属性x在多个时刻的观测值,要找到一个系数集合使得y在所有时刻的观测值与估计值的总的误差最小的问题转化为求解一个多系数取值的组合优化问题,即要找到系数集合中的各个系数的取值,该问题通过建立如下所示的目标函数,并利用粒子群算法进行问题求解:
7.根据权利要求1所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤2.2的具体方法为:
步骤2.2.1:初始化算法参数,随机产生初始粒子,并对其赋初值;
步骤2.2.2:对群体粒子的进化进行操作,得到种群的全局最优位置gBest;
步骤2.2.3:根据步骤2.2.2所得到的gBest,将其行向量作为回归模型的系数,得到回归模型并对该模型进行持久化存储。
9.根据权利要求8所述的基于特征提取的高维时间序列数据的分析预测方法,其特征在于:所述步骤2.2.2的具体方法为:
a、根据以下两个公式分别更新粒子的速度与位置:
b、根据健康度识别异常粒子,并更新异常粒子的位置;
(1)对于每个粒子,根据以下公式,计算粒子的健康度:
(2)对于健康度小于事先所设定阈值的粒子,删除该粒子,并随机产生一个新的粒子替换它;
c、判断是否达到所设置的迭代次数,如果是,则返回gBest作为回归系数的最优解,否则,返回到步骤a继续迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810228459.5A CN108399434B (zh) | 2018-03-20 | 2018-03-20 | 基于特征提取的高维时间序列数据的分析预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810228459.5A CN108399434B (zh) | 2018-03-20 | 2018-03-20 | 基于特征提取的高维时间序列数据的分析预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108399434A CN108399434A (zh) | 2018-08-14 |
CN108399434B true CN108399434B (zh) | 2022-02-18 |
Family
ID=63093064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810228459.5A Expired - Fee Related CN108399434B (zh) | 2018-03-20 | 2018-03-20 | 基于特征提取的高维时间序列数据的分析预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399434B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190709A (zh) * | 2018-09-12 | 2019-01-11 | 北京工业大学 | 一种针对大气污染物浓度预测的选择特征的方法 |
CN109165246A (zh) * | 2018-09-30 | 2019-01-08 | 北京工业大学 | 一种挖掘大气污染传播路径的方法 |
CN111354338B (zh) * | 2020-02-26 | 2022-03-15 | 重庆大学 | 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统 |
CN112395368A (zh) * | 2020-11-16 | 2021-02-23 | 杭州安恒信息安全技术有限公司 | 一种数据聚类方法、系统、存储介质及设备 |
CN112862190B (zh) * | 2021-02-09 | 2022-09-27 | 汕头大学 | 一种基于改进Seq2Seq框架的水质时间序列预测方法 |
CN113012815B (zh) * | 2021-04-06 | 2023-09-01 | 西北工业大学 | 一种基于多模态数据的帕金森健康风险评估方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001306998A (ja) * | 2000-04-18 | 2001-11-02 | Toshiba Corp | 時系列分析方法 |
CN106056244A (zh) * | 2016-05-30 | 2016-10-26 | 重庆大学 | 一种股票价格优化预测方法 |
CN106980877A (zh) * | 2017-03-15 | 2017-07-25 | 陕西中爆安全网科技有限公司 | 一种基于粒子群算法优化支持向量机的爆破振动预测方法 |
-
2018
- 2018-03-20 CN CN201810228459.5A patent/CN108399434B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001306998A (ja) * | 2000-04-18 | 2001-11-02 | Toshiba Corp | 時系列分析方法 |
CN106056244A (zh) * | 2016-05-30 | 2016-10-26 | 重庆大学 | 一种股票价格优化预测方法 |
CN106980877A (zh) * | 2017-03-15 | 2017-07-25 | 陕西中爆安全网科技有限公司 | 一种基于粒子群算法优化支持向量机的爆破振动预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108399434A (zh) | 2018-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399434B (zh) | 基于特征提取的高维时间序列数据的分析预测方法 | |
Liu et al. | An enhanced encoder–decoder framework for bearing remaining useful life prediction | |
CN115412455B (zh) | 一种基于时间序列的服务器多性能指标异常检测方法及装置 | |
Wang et al. | A novel structural damage identification scheme based on deep learning framework | |
CN111062533A (zh) | 一种基于鲸鱼优化算法优化加权最小二乘支持向量机的风机故障预测方法 | |
CN117407797B (zh) | 基于增量学习的设备故障诊断方法及模型的构建方法 | |
Fu et al. | MCA-DTCN: A novel dual-task temporal convolutional network with multi-channel attention for first prediction time detection and remaining useful life prediction | |
CN112116198A (zh) | 数据驱动的流程工业状态感知网络关键节点筛选方法 | |
CN116502049B (zh) | 滚动轴承剩余使用寿命预测方法、系统、设备及存储介质 | |
Wang et al. | Spatiotemporal non-negative projected convolutional network with bidirectional NMF and 3DCNN for remaining useful life estimation of bearings | |
CN111931983A (zh) | 一种降水量预测方法及系统 | |
CN116597939A (zh) | 基于大数据的药品质量控制管理分析系统及方法 | |
CN116595465A (zh) | 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 | |
Nguyen et al. | Physics-infused fuzzy generative adversarial network for robust failure prognosis | |
CN115631869A (zh) | 一种传染病预测模型的构建方法 | |
CN112001115A (zh) | 一种半监督动态软测量网络的软测量建模方法 | |
Chamlal et al. | Elastic net-based high dimensional data selection for regression | |
CN114357870A (zh) | 基于局部加权偏最小二乘的计量设备运行性能预测分析方法 | |
CN107437112B (zh) | 一种基于改进多尺度核函数的混合rvm模型预测方法 | |
CN118070040A (zh) | 一种炼钢厂数据采集方法、装置、电子设备及存储介质 | |
CN117473275A (zh) | 一种数据中心的能耗检测方法 | |
CN112651168B (zh) | 基于改进神经网络算法的建设用地面积预测方法 | |
TWI757828B (zh) | 原料採購決策方法、電子裝置與電腦程式產品 | |
CN116933119A (zh) | 一种基于卷积神经网络的信号数据去除趋势方法 | |
CN118378178B (zh) | 基于残差图卷积神经网络的变压器故障识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220218 |
|
CF01 | Termination of patent right due to non-payment of annual fee |