CN115423080A

CN115423080A - 时间序列预测方法、装置、电子设备及介质

Info

Publication number: CN115423080A
Application number: CN202211134256.2A
Authority: CN
Inventors: 段智华; 张岚; 陈伟耿; 赵戌
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-02

Abstract

本发明公开了一种时间序列预测方法、装置、电子设备及介质，涉及大数据技术领域。该方法包括：获取历史时间序列数据；基于Transformer网络构建预测模型，该预测模型包括注意力层，注意力层包括线性映射自相关注意力模块，线性映射自相关注意力模块用于获取预测模型的输入数据的自相关特征；将历史时间序列数据作为输入数据输入预测模型，基于预测模型的线性映射自相关注意力模块，获得历史时间序列数据的自相关特征，并基于历史时间序列数据的自相关特征，获得当前时刻之后预设时间段内的预测序列。该方法能够捕获历史时间序列数据的上下文关联信息，预测更精准，降低了空间和时间复杂度，提高了内存效率和时间效率。

Description

时间序列预测方法、装置、电子设备及介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种时间序列预测方法、装置、电子设备及介质。

背景技术

在数学中，时间序列是按时间顺序索引列出的一系列数据点，是在连续的等间隔时间点采集的序列，是一系列离散时间数据。时间序列预测是指使用模型根据先前观察到的值来预测未来值，使用统计和建模分析时间序列数据，以进行预测并为战略决策提供信息的过程。时间序列预测可以用于涉及时间测量的任何应用科学和工程领域，例如可以应用于统计、信号处理、模式识别、计量经济学、数学金融、天气预报、地震预测、脑电图、控制工程、天文学、通信工程。

目前，常用的时间序列预测方法包括：基于机器学习的时序预测法，如自回归移动平均法((ARMA)、自回归法(AR)等。然而，基于机器学习的时序预测法适用于单变量的平稳时间序列分析，不适用于多变量的时间序列预测；基于深度学习的预测方法,例如循环神经网络RNN、长短期依赖神经网络LSTM等，基于RNN的方法面对长时间序列无法完全消除梯度消失和梯度爆炸的问题，在模型预测时每步预测都依赖于上一步隐状态的问题，模型不能充分表征时序数据的非线性关系。

发明内容

为解决上述技术问题或至少部分地解决上述技术问题，本发明实施例提供一种时间序列预测方法、装置、电子设备及介质。

第一方面，本发明实施例提供了一种时间序列预测方法，包括：

获取历史时间序列数据；

基于Transformer网络构建预测模型，所述预测模型包括注意力层，所述注意力层包括线性映射自相关注意力模块，所述线性映射自相关注意力模块用于获取所述预测模型的输入数据的自相关特征；

将所述历史时间序列数据作为输入数据输入所述预测模型，基于所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征，并基于所述历史时间序列数据的自相关特征，获得当前时刻之后预设时间段内的预测序列。

可选地，所述预测模型的线性映射自相关注意力模块包括线性映射子模块和自相关注意力子模块；所述线性映射子模块用于基于预设的线性映射矩阵对所述历史时间序列数据对应的键矩阵和/或值矩阵进行线性映射；所述自相关注意力子模块用于对所述历史时间序列数据对应的查询矩阵、键矩阵和值矩阵中的一个或多个进行自相关映射。

可选地，所述预测模型的注意力层还包括以下一种或多种：稀疏注意力模块、

注意力模块和残差注意力模块；所述线性映射自相关注意力模块、稀疏注意力模块、

注意力模块和残差注意力模块通过预设的目标参数进行调用。

可选地，所述预测模型采用编码器-解码器结构；所述编码器包括输入嵌入层、位置编码层、所述注意力层、正则化层和前馈层；所述解码器包括输出嵌入层、所述位置编码层、所述注意力层、所述正则化层、所述前馈层、线性转换层和激活层。

可选地，所述预测模型的所述位置编码层用于确定所述历史时间序列数据中每一数据的位置编码特征向量，所述位置编码层采用三角函数式编码。

可选地，所述位置编码层根据下式确定所述历史时间序列数据中每一数据的位置编码特征向量：

其中，PE表示位置编码特征向量，pos表示所述历史时间序列数据中索引下标为i的数据的位置，N表示正整数，d_model表示所述预测模型的模型维度。

可选地，所述预测模型的所述前馈层包括第一前馈模块和/或第二前馈模块，所述第一前馈模块和所述第二前馈模块通过预设的指定参数进行调用；

所述第一前馈模块的激活函数包括以下一种或多种：ELU函数、GELU函数、GELU_Fast函数、GELU_new函数、Swish函数、Tanh函数、Sigmoid函数；所述第二前馈模块为卷积神经网络结构。

可选地，所述将所述历史时间序列数据作为输入数据输入所述预测模型，基于所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征，包括：

将所述历史时间序列数据作为输入数据输入所述预测模型，利用所述输入嵌入层将所述历史时间序列数据转化为向量形式，得到所述历史时间序列数据的输入数据向量和全局时间特征向量；

利用所述位置编码层确定所述历史时间序列数据的位置编码特征向量；

基于所述输入数据向量、所述全局时间特征向量和所述位置编码特征向量，获得输入表示向量；

将所述输入表示向量输入所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征。

可选地，所述解码器采用生成式并行预测方式获得当前时刻之后预设时间段内的预测序列；

所述解码器的输入数据的形式如下式(2)所示：

其中，

表示所述预测序列对应的占位符；

表示所述预测序列的开始字符，所述开始字符为从历史时间序列中采样的时间序列。

第二方面，本发明实施例提供了一种时间序列预测装置，包括：

数据获取模块，用于获取历史时间序列数据；

模型构建模块，用于基于Transformer网络构建预测模型，所述预测模型包括注意力层，所述注意力层包括线性映射自相关注意力模块，所述线性映射自相关注意力模块用于获取所述预测模型的输入数据的自相关特征；

预测模块，用于将所述历史时间序列数据作为输入数据输入所述预测模型，基于所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征，并基于所述历史时间序列数据的自相关特征，获得当前时刻之后预设时间段内的预测序列。

可选地，所述预测模块还用于：将所述历史时间序列数据作为输入数据输入所述预测模型，利用所述输入嵌入层将所述历史时间序列数据转化为向量形式，得到所述历史时间序列数据的输入数据向量和全局时间特征向量；利用所述位置编码层确定所述历史时间序列数据的位置编码特征向量；基于所述输入数据向量、所述全局时间特征向量和所述位置编码特征向量，获得输入表示向量；将所述输入表示向量输入所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征。

第三方面，本发明实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例的时间序列预测方法。

第四方面，本发明实施例提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明任一实施例的时间序列预测方法。

上述发明中的一个实施例具有如下优点或有益效果：

本发明实施例的时间序列预测方法，通过基于Transformer网络构建的预测模型对历史时间序列数据进行分析处理，获得当前时刻之后预设时间段内的预测序列；其中，该基于Transformer网络构建的预测模型的注意力层包括线性映射自相关注意力模块，该线性映射自相关注意力模块能够获取历史时间序列数据的自相关特征，能够捕获历史时间序列数据的上下文关联信息，预测更精准，将标准Transformer注意力的复杂度从O(N²)降低到O(N)，提高了内存效率和时间效率，使得该预测模型更能适应于长序列数据。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1示出了本发明实施例的时间序列预测方法的流程示意图；

图2示出了本发明实施例的时间序列预测方法中线性映射自相关注意力模块的示意图；

图3示出了本发明实施例的时间序列预测方法中线性映射自相关注意力模块的示意图；

图4示出了本发明另一实施例的时间序列预测方法中线性映射自相关注意力模块的示意图；

图5示出了本发明又一实施例的时间序列预测方法中线性映射自相关注意力模块的示意图；

图6示出了本发明实施例的时间序列预测方法中的预测模型的结构示意图；

图7示出了本发明实施例的时间序列预测方法的输入表示向量的示意图；

图8示出了本发明实施例的预测模型的调优结果示意图；

图9示出了本发明实施例的时间序列预测装置的结构示意图；

图10示出了本发明实施例的电子设备的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了本发明实施例的时间序列预测方法的流程图，如图1所示，该方法包括：

步骤S101：获取历史时间序列数据。

其中，历史时间序列数据是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。历史时间序列数据是按照时间排序的一组随机变量，通常是在相等间隔的时间段内依照给定的采样率对同一统计指标进行观测的结果。作为示例，该历史时间序列数据可以是将城域网链路流量监控指标、宽带在线数或者派单量按照其发生的时间先后顺序排列而成的数列。预测序列可以是当前时刻之后预设时间段内的城域网链路流量监控指标、宽带在线数或者派单量。

步骤S102：基于Transformer网络构建预测模型，该预测模型包括注意力层，所述注意力层包括线性映射自相关注意力模块，所述线性映射自相关注意力模块用于获取所述预测模型的输入数据的自相关特征。

标准的Transformer网络由于自注意力层时间复杂度和内存空间复杂度的限制，对较长的时间序列数据进行分析预测时效果较差。为解决该技术问题，本实施例的预测模型对标准Transformer网络的注意力机制进行改进，实现了轻量级的线性映射自相关注意力模块，该模块引入了自相关注意力机制，该自相关注意力机制使得预测能捕获时序的上下文关联信息，可以提供长短期依赖建模，预测更精准。该自相关注意力机制对输入的数据进行自相关运算，该自相关运算是一种数值微分技术。计算时间序列的自相关有助于将非平稳时间序列转换为平稳形式，用来消除序列对时间的依赖，通过消除时间序列水平的变化来稳定时间序列的平均值。该自相关注意力机制可以使用缩放的点积注意力计算上下文映射矩阵，然后计算每个注意力头的上下文嵌入，上述操作通过低秩矩阵来进行近似，在时间和空间上将标准Transformer注意力的复杂度从O(N²)降低到O(N)，同时具有更高的内存效率和时间效率。

步骤S103：将所述历史时间序列数据作为输入数据输入所述预测模型，基于所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征，并基于所述历史时间序列数据的自相关特征，获得当前时刻之后预设时间段内的预测序列。

在本步骤中将历史时间序列数据输入该预测模型，通过该预测模型的线性映射自相关注意力模块，获得历史时间序列数据的自相关特征，该自相关特征用于表征历史时间序列数据的上下文信息，然后该预测模型对历史时间序列数据的自相关特征进行预测，获得当前时刻之后预设时间段内的预测序列。

在可选的实施例中，该基于Transformer网络的预测模型的线性映射自相关注意力模块包括线性映射子模块和自相关注意力子模块。其中，该自相关注意力子模块用于对历史时间序列数据对应的查询矩阵(Query矩阵，简称Q矩阵)、键矩阵(Key矩阵，简称K矩阵)和值矩阵(Value矩阵，简称V矩阵)中的一个或多个进行自相关映射。

其中，Query矩阵、Key矩阵和Value矩阵是从历史时间序列数据对应的输入矩阵X线性变换而来，计算公式如下：

其中，W^Q、W^K、W^V是三个可训练的参数矩阵，输入矩阵X分别与W^Q、W^K、W^V相乘，经过线性变换生成Query矩阵、Key矩阵和Value矩阵。

在本实施例中，自相关注意力模块对Query矩阵、Key矩阵和Value矩阵中的一个或多个进行自相关映射包括对Query矩阵、Key矩阵和Value矩阵中的一个或多个进行一阶自相关映射和/或对Query矩阵、Key矩阵和Value矩阵中的一个或多个进行二阶自相关映射。其中，一阶自相关定义为：当自变量时间序列从t变到t+1时，时序特征值y＝y(t)的改变量Δy_t称为时序特征函数y(t)在时刻t的一阶自相关：

Δy_t＝y(t+1)-y(t)＝y_t+1-y_t

对于输入矩阵X，将一阶自相关函数(AutoCorrelation Function)描述为ACF(X)。

二阶自相关定义：当自变量时间序列从t变到t+1时，一阶自相关的自相关函数：

Δ(Δy)＝Δy_t+1-Δy_t＝(y_t+2-y_t+1)-(y_t+1-y_t)

Δ(Δy)称为时序特征函数y(t)在时刻t的二阶自相关。对于输入矩阵X，将二阶自相关函数描述为ACF²(x)。

基于一阶自相关、二阶自相关函数的定义，以V矩阵的一阶自相关注意力机制为实施例进行说明，其中第i个注意力头：

其中，

W_i ^Q、

表示权重矩阵，E_i和F_i表示线性投影转换矩阵，E_i∈R^{dim_reduce_k×seq_ten}，

dim_reduce_k表示降维矩阵维度为k，dim_reduce_k*seq_len表示构建的E_i和F_i的大小，

的大小为seq_len×dim_reduce_k，

的大小为dim_reduce_k×d_model。

将V矩阵进行一阶自相关映射：

其中，线性映射子模块用于基于预设的线性映射矩阵对历史时间序列数据对应的Key矩阵和/或Value矩阵进行线性映射。

其中，线性映射是从一个向量空间V到另一个向量空间W的映射且保持加法运算和数量乘法的运算。在本实施例中，预先设置线性映射矩阵，通过该线性映射矩阵对Key矩阵和/或Value矩阵进行线性映射。作为示例，可以从给定均值和标准差的正态分布中生成线性映射矩阵的初始值，通过学习训练得到最终的线性映射矩阵。本发明实施例通过线性映射矩阵将标准Transformer网络的矩阵点积操作改进为矩阵空间的线性运算，形成了线性映射注意力机制注意力的矩阵分解，形成的随机矩阵可以近似为低秩矩阵，将注意力的空间复杂度和时间复杂度从O(N²)降低为O(N)，大大减少内存和空间的消耗，具有更强的内存和时间利用效率。

作为示例，以V矩阵进行一阶自相关映射为例，如图2所示，从算法的结构视角，首先对V矩阵进行一阶自相关映射转换，在计算K矩阵和V矩阵时增加两个线性映射矩阵，使用缩放的点积注意力计算上下文映射矩阵，计算每个注意力头的上下文嵌入，上述操作只需要O(N)时间和空间复杂度。如图3所示，该图3从矩阵的视角对Q矩阵、K矩阵和V矩阵进行一阶自相关映射。

图4是本发明实施例的自相关注意力机制的另一种变体，在图5中，首先对Q矩阵进行二阶自相关映射，对V矩阵进行一阶自相关映射，计算K矩阵和V矩阵时新增两个线性投影矩阵，使用缩放的点积注意力计算上下文映射矩阵，计算每个注意力头的上下文嵌入。

图5是本发明实施例的自相关注意力机制的另一种变体。在图5中，首先对Q矩阵、K矩阵、V矩阵均进行一阶自相关映射，计算K矩阵和V矩阵时新增两个线性投影矩阵，使用缩放的点积注意力计算上下文映射矩阵，计算每个注意力头的上下文嵌入。值得说明的是，以上所述仅为本发明的较佳实施例而已，其他变体形式，此处不再赘述。

在可选的实施例中，该基于Transformer网络构建的预测模型的注意力层还包括以下一种或多种：稀疏注意力模块、

注意力模块和残差注意力模块。其中，线性映射自相关注意力模块、稀疏注意力模块、

注意力模块和残差注意力模块可以通过预设的目标参数进行调用。

在实现本发明实施例的时间序列预测方法的过程中，通过定性分析标准Transformer网络多头注意力的概率分布，发现只有少部分位置的值对注意力的贡献较大，大部分位置的值对注意力贡献不大。因此，本发明实施例构建稀疏注意力模块，将稀疏偏置引入到注意力计算中，以此降低计算复杂度及提升网络性能。作为示例，该稀疏注意力模块可以采用基于位置的稀疏自注意力(原子稀疏模式、聚合稀疏注意力、扩展稀疏注意力)、基于内容的稀疏自注意力等方式。更进一步的，引入和查询矩阵(Query)相同大小的稀疏矩阵，该稀疏矩阵仅包含稀疏评估采样的TopK个查询向量，使得自注意力对于每个查询键只需要计算采样后的内积，将时间和空间复杂度控制到O(NlogN)。本实施例的稀疏注意力模块采用基于内容的稀疏注意力，其注意力特征采样的时序特征值由最相似的TopK个特征值决定，将时间和空间复杂度控制到O(NlogN)，突出处于支配地位的优势特征，增强蒸馏操作的鲁棒性，迭代减少自关注提取层的数量，将编码器所有堆栈的输出串联起来，得到编码器的最终隐向量表示，通过解码器并行生成未来时间步的预测数据，而不是一步一步地进行，大大提高了长序列预测的推理速度，有效捕捉输出和输入之间精确的长依赖关系。

注意力模块借鉴

方法及矩阵分解的思想，利用

方法来近似标准自注意力计算。

方法是一种通过生成低秩近似值来加速大规模学习应用的有效技术，

方法至关重要的是假设一个矩阵可以通过只处理其子集来进行很好地近似。标准Transformer模型线性注意力是通过矩阵乘法的结合律来降低注意力的复杂度，本发明实施例的基于Transformer网络构建的预测模型，将Query矩阵、Key矩阵(Q,K∈R^n×d)聚类转换构成新矩阵

通过

双重Softmax形式来构建Attention注意力矩阵，逐步寻找更加接近标准注意力的线性近似注意力，实验表明，

近似注意力模块跟标准自注意力模块相比具有竞争力。

残差(Residual)注意力模块：本发明实施例的基于Transformer网络构建的预测模型构建了残差注意力模块，相比于标准Transformer的Pre-LN(Pre LayerNormalization)和Post-LN(Post Layer Normalization)，残差注意力模块在注意力模块间加入了Residual残差连接，既保持了Post-LN的性能，又融合了Residual连接，实验表明优于标准的Transformer框架。

在可选的实施例中，基于Transformer网络构建的预测模型采用编码器-解码器结构。

如图6所示，该预测模型的编码器包括输入嵌入层、位置编码层、所述注意力层、正则化层和前馈层。该预测模型的解码器包括输出嵌入层、所述位置编码层、所述注意力层、所述正则化层、所述前馈层、线性转换层和Softmax层。

其中，输入嵌入层用于将历史时间序列数据转换为向量形式。

位置编码层用于确定所述历史时间序列数据中每一数据的位置编码特征向量，所述位置编码层采用三角函数式编码。通过该位置编码层，获取绝对位置信息和相对位置信息的表达能力，在输入序列中注入序列的相对或绝对位置信息。

为了处理序列问题，标准Transformer网络的解决方案是使用位置编码(PositionEncode/Embedding，PE)，绝对位置编码为序列中每个位置映射一个固定的位置向量，然后将嵌入词向量和位置向量相加得到每个时序最终的输入向量，作为编码器和解码器堆栈底部的输入。而本发明实施例的位置编码层，采用三角函数式位置编码，位置编码的每个维度对应一个正弦曲线,波长形成一个从2π到N·2π的几何级数(N为正整数，例如10000)，使用正余弦函数实现位置编码，在偶数位使用正弦编码，在奇数位使用余弦编码。具体的，位置编码层通过下式确定位置编码特征向量：

注意力层包括上述实施例所述的线性映射自相关注意力模块，还可以包括稀疏注意力模块、

注意力模块和残差注意力模块中的一种或多种。

深层神经网络中每次权重参数的更新，将导致每层的输入分布发生改变，为了解决数据分布偏移问题，标准Transformer网络引入正则化层(归一化层)，使神经层的输入分布在训练过程保持一致。与批处理归一化(Batch Normalization)不同，本发明实施例的预测模型的正则化层实现了层归一化(Layer Normalization)，通过对输入同一层的数据进行汇总，计算平均值和方差，对每一层的输入数据做规范化处理，加快深层网络的收敛速度。

在可选的实施例中，上述步骤S103将历史时间序列数据作为输入数据输入预测模型，基于预测模型的线性映射自相关注意力模块，获得历史时间序列数据的自相关特征，包括：

将历史时间序列数据作为输入数据输入预测模型，利用输入嵌入层将历史时间序列数据转化为向量形式，得到历史时间序列数据的输入数据向量和全局时间特征向量；

利用位置编码层确定历史时间序列数据的位置编码特征向量；

基于输入数据向量、全局时间特征向量和位置编码特征向量，获得输入表示向量；

将输入表示向量输入预测模型的线性映射自相关注意力模块，获得历史时间序列数据的自相关特征。

步骤S101获取的历史时间序列数据是不含时序信息的数据，为使预测模型能够对该历史时间序列数据进行分析，本发明实施例给出了一种统一的输入表示，如图7所示，融入本地位置编码(Local Time Stamp)、全局时间特征向量(Global Time Stamp)、输入数据向量(Value Embedding)的特征，将三者结合形成新的输入表示向量。其中，输入数据向量是利用预设的编码方法将历史时间序列数据进行编码得到的，全局时间特征向量是对历史时间序列数据的对应的时间进行编码得到的，位置编码特征向量是对历史时间序列数据的本地位置进行编码得到的。本地位置编码注入标记在序列中的顺序位置信息，通过固定位置嵌入时序上下文信息。在本发明实施例中，位置编码层使用正余弦函数实现位置编码，在偶数位使用正弦编码，在奇数位使用余弦编码，在输入序列中注入序列的本地位置编码信息，使本发明实施例的预测模型具备学习时序信息的能力。全局层次时序编码注入了标记序列的全局时间特征(minute、hour、day、week、month、year)，预测模型在编码器和解码器堆栈底部的输入向量中嵌入本地位置特征及全局时间特征，经过上述步骤，得到编码器模型的输入表示向量：

其中，i∈{1,…,L_x}，α为平衡输入数据向量、本地位置编码特征向量及全局时间特征向量之间大小的因子，VE表示输入数据向量(Value Embedding)，作为示例，α＝1，PE表示位置编码特征向量(Local Time Stamp)，GE表示全局时间特征向量(Global TimeStamp)，n表示包括n种类型的全局时间特征向量，如minute(分)、hour(时)、day(天)、week(周)、month(月)、year(年)。

在可选的实施例中，该预测模型的前馈层包括第一前馈模块和/或第二前馈模块，所述第一前馈模块和所述第二前馈模块通过预设的指定参数进行调用。第一前馈模块的激活函数包括以下一种或多种：ELU函数、GELU函数、GELU_Fast函数、GELU_new函数、Swish函数、Tanh函数、Sigmoid函数；第二前馈模块为卷积神经网络结构。

在标准Transformer网络的结构中，只简单堆叠注意力模块会导致层级崩溃及标记的均匀归纳偏差问题，而本发明实施例构建前馈层(Feedforward Neural Network，FFN)可以缓解这个问题。本发明实施例的预测模块包括第一前馈模块和/或第二前馈模块，所述第一前馈模块和所述第二前馈模块通过预设的指定参数进行调用。在可选的是实施例中，基于Transformer网络构建的预测模型也可以去除前馈层，从而简化网络。

第二前馈模块为卷积神经网络结构，其中，卷积神经网络由具有可学习权重和偏差的神经元组成，每个神经元接收序列输入信息，一个卷积神经网络层将多个滤波器堆叠在一起，通过两层一维卷积及Dropout运算得到卷积输出结果。随着卷积神经网络的加深，组合成更加复杂的全局特征。相比FFN网络实现效率更高，并减少了网络中的参数数量。Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的节点暂认为不是网络结构的一部分，但是保留权重(只是暂时不更新)，下次样本输入时可能又进行工作。

基于上述预测模型，本发明实施例的时间序列预测方法的过程可以包括输入向量表示、编码器数据转换、解码器解码等过程。整体而言，预设一个给定大小的滑动窗口，在t时刻输入向量

预测模型输出相应的预测序列

其中输入及输出特征维度可以包括多个特征。

输入向量表示过程：历史时间序列数据是不含时序信息的数据，为使预测模型能够对该历史时间序列数据进行分析，本发明实施例给出了一种统一的输入表示，如图7所示，融入本地位置编码(Local Time Stamp)、全局时间特征向量(Global Time Stamp)、输入数据向量(Value Embedding)的特征，将三者结合形成新的输入表示向量。本地位置编码注入标记在序列中的顺序位置信息，通过固定位置嵌入时序上下文信息，在本发明实施例中，使用正余弦函数实现位置编码，在偶数位使用正弦编码，在奇数位使用余弦编码，在输入序列中注入序列的本地位置编码信息，使本发明实施例的预测模型具备学习时序信息的能力。全局层次时序编码注入了标记序列的全局时间特征(minute、hour、day、week、month、year)，预测模型在编码器和解码器堆栈底部的输入向量中嵌入本地位置特征及全局时间特征，经过上述步骤，得到编码器模型的输入表示向量：

编码器数据转换：TeleTransformer编码器提取长序列数据的依赖关系，第t个序列馈入数据表示为矩阵：

本发明实施例的预测模型的注意力层采用线性映射自相关注意力模块，该线性映射自相关注意力模块基于一阶及二阶自相关的注意力机制，例如V向量的一阶自注意力head:

其中，

W_i ^Q、

的大小为seq_len×dim_reduce_k，

的大小为dim_reduce_k×d_model。

本发明实施例的线性映射自相关注意力模块通过低秩矩阵来进行近似，在时间和空间上将标准Transformer注意力的复杂度从O(N²)降低到O(N)，具有更高的内存和时间效率。

解码器数据转换过程：本法实施例的预测模型的解码器使用2个Multi-HeadAttentionlayer堆叠组成decoder结构，将以下向量馈入预测模型的解码器：

其中，

表示预测序列的开始标记，如图7所示，在输入序列中采样一个L_token序列，表示输出预测序列之前的历史输入信息，

表示预测目标序列的预设值，其中token表示输入序列中每个时间步的特征值，例如每个时间序列的宽带用户数，0表示未来预测时间步的值预设置为0。作为具体的示例，在历史时间序列数据为过去一段时间内(如过去80个小时内)观测到的宽带在线数和派单量，则预测序列的开始标记可以是最近若干个小时内(例如最近8个小时内)观测到的宽带在线数和派单量，预测序列可以是未来若干个小时内(例如未来5个小时内)的宽带在线数和派单量。

传统的Seq2Seq模型解码方式包括基于搜索的解码方法(贪心搜索、集束搜索BeamSearch)、基于采样的解码方法(随机采样、Topk采样)，贪心搜索解码方法每个时间步只预测一个值，根据Encoder的结果及已预测的第一个时间步的值，预测生成第二个时间步的值，然后再根据Encoder的结果和前两个时间步的值，生成第三个时间步的值，依此类推，这种方法不能获得全局最优。本发明实施例的预测模型采用并行预测方法，实现解码器并行化训练，将整个输入时间序列的特征值输入给解码器，基于掩码自注意力算法并行计算出n个预测值，分别对应n个时刻的输出，只需一步就能实现预测全部结果。本发明实施例的预测模型将Masked Multi-Head Attention中的Mask掩码设置为负无穷(-∞)，使得ProbSparse Self-Attention目标序列预测防止每个位置关注未来的位置，预测时只能基于历史的输入信息进行预测，避免预测时的自回归，按目标序列的预测选择MAE(MeanAbsolute Error)平均绝对误差作为损失函数，从解码器的输出反向传播到整个模型。

可选的实施例中，在构建得到该预测模型之后，可以对该预测模型进行超参数调优。

超参数调优主要从两个方面实施：网络设计相关的参数：编码器解码器网络层数、注意力头个数、隐藏层神经元的参数设置、序列长度参数；模型训练过程相关的参数：小批量数据的规模、学习率、迭代次数等等。本发明实施例的超参数调优实验结果如图8和下表1所示，从实验中可以看出：模型MAE及MSE指标对注意力头个数及模型维度的大小非常敏感；不仅仅是编码器解码器网络层数,小批量数据的规模也十分重要。在实施例中调整TeleTransformer参数的最佳实践，提升模型对应的泛化能力，加快模型训练的收敛速度。

表1：

图9示出了本发明实施例的时间序列预测装置900的结构示意图，如图9所示，该时间序列预测装置900包括：

数据获取模块901，用于获取历史时间序列数据；

模型构建模块902，用于基于Transformer网络构建预测模型，所述预测模型包括注意力层，所述注意力层包括线性映射自相关注意力模块，所述线性映射自相关注意力模块用于获取所述预测模型的输入数据的自相关特征；

预测模块903，用于将所述历史时间序列数据作为输入数据输入所述预测模型，基于所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征，并基于所述历史时间序列数据的自相关特征，获得当前时刻之后预设时间段内的预测序列。

在可选的实施例中，该预测模块还用于将所述历史时间序列数据作为输入数据输入所述预测模型，利用所述预测模型的输入嵌入层将所述历史时间序列数据转化为向量形式，得到所述历史时间序列数据的输入数据向量和全局时间特征向量；利用所述预测模型的位置编码层确定所述历史时间序列数据的位置编码特征向量；基于所述输入数据向量、所述全局时间特征向量和所述位置编码特征向量，获得输入表示向量；将所述输入表示向量输入所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征。

上述装置可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

获取历史时间序列数据；

上述终端提到的通信总线1004可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1004可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1002用于上述终端与其他设备之间的通信。

存储器1003可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器1001的存储装置。

上述的处理器1001可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读介质，该计算机可读介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的时间序列预测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的时间序列预测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种时间序列预测方法，其特征在于，包括：

获取历史时间序列数据；

2.根据权利要求1所述的方法，其特征在于，所述预测模型的线性映射自相关注意力模块包括线性映射子模块和自相关注意力子模块；所述线性映射子模块用于基于预设的线性映射矩阵对所述历史时间序列数据对应的键矩阵和/或值矩阵进行线性映射；所述自相关注意力子模块用于对所述历史时间序列数据对应的查询矩阵、键矩阵和值矩阵中的一个或多个进行自相关映射。

3.根据权利要求2所述的方法，其特征在于，所述预测模型的注意力层还包括以下一种或多种：稀疏注意力模块、

4.根据权利要求3所述的方法，其特征在于，所述预测模型采用编码器-解码器结构；

所述编码器包括输入嵌入层、位置编码层、所述注意力层、正则化层和前馈层；所述解码器包括输出嵌入层、所述位置编码层、所述注意力层、所述正则化层、所述前馈层、线性转换层和激活层。

5.根据权利要求4所述的方法，其特征在于，所述预测模型的所述位置编码层用于确定所述历史时间序列数据中每一数据的位置编码特征向量，所述位置编码层采用三角函数式编码。

6.根据权利要求5所述的方法，其特征在于，所述位置编码层根据下式(1)确定所述历史时间序列数据中每一数据的位置编码特征向量：

7.根据权利要求5所述的方法，其特征在于，所述预测模型的所述前馈层包括第一前馈模块和/或第二前馈模块，所述第一前馈模块和所述第二前馈模块通过预设的指定参数进行调用；

所述第一前馈模块的激活函数包括以下一种或多种：ELU函数、GELU函数、GELU_Fast函数、GELU_new函数、Swish函数、Tanh函数、Sigmoid函数；

所述第二前馈模块为卷积神经网络结构。

8.根据权利要求7所述的方法，其特征在于，所述将所述历史时间序列数据作为输入数据输入所述预测模型，基于所述预测模型的线性映射自相关注意力模块，获得所述历史时间序列数据的自相关特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述解码器采用生成式并行预测方式获得当前时刻之后预设时间段内的预测序列；

所述解码器的输入数据的形式如下式(2)所示：

其中，

表示所述预测序列对应的占位符；

10.一种时间序列预测装置，其特征在于，包括：

数据获取模块，用于获取历史时间序列数据；

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。