WO2024212614A1

WO2024212614A1 - 基于多维资源预测的混合弹性伸缩方法

Info

Publication number: WO2024212614A1
Application number: PCT/CN2023/143167
Authority: WO
Inventors: 胡凤明; 杨帆; 丛培鑫; 王雨晴; 刘磊; 闫海娜
Original assignee: 天翼云科技有限公司
Priority date: 2023-12-13
Filing date: 2023-12-29
Publication date: 2024-10-17
Also published as: CN117827434A

Abstract

本发明提供了一种基于多维资源预测的混合弹性伸缩方法，包括：采集云平台的多维指标的业务流量数据，基于采集的业务流量数据构建历史数据集，并对历史数据集进行预处理；构建LSTM模型，将预处理后的历史数据集输入至LSTM模型中进行模型训练和模型调优，并通过LSTM模型预测云平台在未来预设时段内的业务流量预测值；在通过LSTM模型预测未来的业务流量预测值后，基于SVM分类算法对业务流量预测值进行弹性扩展或弹性收缩的决策。本发明的方法可以实现对业务系统的混合弹性伸缩过程的智能化、自动化，提高云平台对业务系统流量变化监控的灵敏度，有利于提高业务系统对云资源的利用率、降低业务运营成本。

Description

基于多维资源预测的混合弹性伸缩方法

技术领域

本发明涉及云计算技术领域，具体而言，涉及一种基于多维资源预测的混合弹性伸缩方法。

背景技术

近年来，云计算技术逐渐发展成熟，它利用分布式计算、虚拟资源管理等技术，将分散的资源集中起来形成资源池，为用户动态提供弹性服务。弹性伸缩用于解决上云业务系统的动态计算需求场景，根据业务需求自动调整相应的计算能力。当业务需求增长时，弹性伸缩自动移入实例；当业务需求下降时，弹性伸缩自动弹出实例，以此保证服务质量、平衡运营成本。

传统的弹性伸缩一般基于基础监控项如CPU利用率、内存利用率，通过人工触发、定时规则或告警规则触发实例移入或弹出，以应对业务突发流量或节约成本。其中，仅通过CPU利用率、内存利用率两项监控指标较难对实时业务流量有灵敏的反映。此外，弹性伸缩的触发往往需要运维工程师对业务、云系统有较为深入的了解，才能制定出符合业务需求的、合适的触发规则。然而，由于不同业务系统的业务场景复杂多样，具有丰富经验的运维工程师针对不同业务、复杂场景制定相应的弹性伸缩触发规则较难具备可移植性。

因此，如何实现对云平台的业务系统的混合弹性伸缩过程的智能化、自动化，提高云平台对业务系统流量变化监控的灵敏度，降低云平台工程师对业务经验的需求成为急需解决的问题。

发明内容

鉴于此，本发明提出了一种基于多维资源预测的混合弹性伸缩方法，旨在解决如何实现对云平台的业务系统的混合弹性伸缩过程的智能化、自动化，提高云平台对业务系统流量变化监控的灵敏度，降低云平台工程师对业务经验的需求的问题。

一个方面，本发明提出了一种基于多维资源预测的混合弹性伸缩方法，包括：

采集云平台的多维指标的业务流量数据，基于采集的所述业务流量数据构建历史数据集，并对所述历史数据集进行预处理；

构建LSTM模型，将预处理后的所述历史数据集输入至所述LSTM模型中进行模型训练和模型调优，并通过所述LSTM模型预测所述云平台在未来预设时段内的业务流量预测值；

在通过所述LSTM模型预测未来的业务流量预测值后，基于SVM分类算法对所述业务流量预测值进行弹性扩展或弹性收缩的决策。

进一步地，在基于采集的所述业务流量数据构建历史数据集时，包括：

通过云平台监控服务实时采集的历史数据，所述历史数据采集后固化到数据库中，采集的单条业务流量数据由多个特征组成，定义为[伸缩组名称，时间戳，CPU利用率，内存利用率，GPU利用率，磁盘IO使用率，网络最大吞吐率，用户请求速率，请求响应速率，请求成功率，并发数，CPU总核数，内存总大小]，记为X＝[x₁ … x_n]^T，其中，x₁为伸缩组名称，...，x_n为内存总大小，n为特征维度；

取当前时刻的前m条采集数据作为m行*n列的原始数据集，记为相应的每一时刻t的标签均为下一时刻t+1的指标值，即

进一步地，在对所述历史数据集进行预处理时，包括：

对所述历史数据集进行数据清洗和数据标准化处理；其中，

根据式1对业务流量数据X中的特征填补缺失值：
x_t,j＝(x_t-1,j+x_t+1,j)/2 (1)

其中，x_t,j是第j种特征在t时刻的缺失填充值，其取值为取第j种特征在t时刻的前一时刻和后一时刻的均值；

根据式2对业务流量数据X中的特征进行标准化处理：

其中，x_i,j为原始数据，x'_i,j为x_i,j经过标准化处理后的值，μ_j为数据集X中的特征的均值，σ_j为数据集X中的特征的方差。

进一步地，在构建LSTM模型时，包括：

将收集的所述历史数据集进行数据预处理后，以时间戳为索引将数据集划分为训练集D_train和测试集D_test；

进行LSTM网络的构建，LSTM网络分为输入层、隐藏层和输出层，输入层为一段时间内的业务流量数据神经元个数与输入数据维度保持一致。

进一步地，在构建LSTM模型后，包括：

对LSTM模型训练及预测；其中，

在对所述LSTM模型训练时，优化器选用Adam算法进行梯度控制，损失函数选用均方误差MSE进行模型评估，如式3所示：

其中，y_actual为实际值，y_predict为预测值；

在模型训练完成后，将模型的权重w和b保存至配置文件中，用于预测使用；

重复构建多个LSTM网络，进行相同的训练过程，并选取多个所述LSTM网络的预测结果的均值作为所述LSTM模型最后的预测值。

进一步地，在建立所述SVM分类算法时，包括：

所述SVM分类算法的训练数据集由所述LSTM模型预测出的各时刻下业务流量预测值Predict_i与该时刻下实际采取的伸缩策略Label_SVM组成，SVM损失函数如式4所示：

优化目标如式5所示：

其中，y_i为时刻i的业务流量的实际值，wx_i-b为时刻i的业务流量的预测值，ε为容忍模型预测值与真实值的误差，w为模型权重。

进一步地，在基于SVM分类算法对所述业务流量预测值进行弹性扩展或弹性收缩的决策时，包括：

当决策结果为弹性扩展时，则在当前时刻t后进行弹性扩展，若在当前时刻t前的额定时间T内进行过弹性扩展，则取消本次扩展，若未进行过弹性扩展则生成混合弹性扩展方案，并在当前时刻t后执行所述混合弹性扩展方案；

当决策结果为弹性收缩时，则在当前时刻t后进行弹性收缩，若在当前时刻t前的额定时间T内进行过弹性收缩，则取消本次收缩，若未进行过弹性收缩则生成混合弹性收缩方案，并在当前时刻t后执行所述混合弹性收缩方案。

进一步地，若未进行过弹性扩展则生成混合弹性扩展方案时，包括：

所述混合弹性扩展方案基于用户成本和预期资源量生成；其中，

根据用户开通成本、扩容预期资源量以及当前资源池可售卖资源量生成满足业务需求且用户成本最低的扩展方案，并建立扩展模型，所述扩展模型如式1所示：

其中，P_i为可售卖规格i的售价，N_i是可售卖规格i的实例开通台数，和分别为可售卖规格P_i的CPU核数和内存大小，CPU_epx和MEM_epx分别为预期的CPU总核数和内存总大小。

进一步地，在根据用户开通成本、扩容预期资源量以及当前资源池可售卖资源量生成满足业务需求且用户成本最低的扩展方案后，包括：

所述扩展方案中包含有需要移入伸缩组内的实例规格和数量，规格以CPU核数和内存大小降序排列；

降序遍历所述扩展方案内的规格，并依次与所述伸缩组内已有实例的规格进行比较：

当所述伸缩组内无所述扩展方案内的规格时，则垂直伸缩移入该规格实例；

当所述伸缩组内有所述扩展方案内的规格但数量不足时，则水平伸缩移入部分该规格实例；

遍历完所述扩展方案内的规格后，若所述伸缩组内原有实例不在所述扩展方案内，则进行垂直伸缩，以使得所述伸缩组内总CPU核数和总内存大小满足预期值。

进一步地，若未进行过弹性收缩则生成混合弹性收缩方案时，包括：

所述混合弹性收缩方案基于最少负载优先原则和预期资源量生成；其中，

对伸缩组内所有实例的CPU利用率、内存利用率升序排序，取前k台实例进行混合弹性收缩，部分实例垂直伸缩，部分实例水平伸缩，以使得所述伸缩组内总CPU核数和总内存大小满足预期值。

进一步地，在取前k台实例进行混合弹性收缩，部分实例垂直伸缩，部分实例水平伸缩时，包括：

在满足预期资源量的负载最低的前k台实例中，对小规格低负载实例降配后进行垂直伸缩，对大规格低负载实例进行水平伸缩。

与现有技术相比，本发明的有益效果在于，本发明通过对云平台的应用系统的业务流量多维度监控，基于LSTM模型实时分析预测系统业务流量，提高对业务流量变化的灵敏度；通过SVM模型进行弹性伸缩决策，基于用户成本和预期资源量生成合适的弹性伸缩方案；基于用户成本和预期资源量的弹性伸缩方案中，会对伸缩组内实例进行混合伸缩，包括升降配实例的垂直弹性伸缩和增减实例数量的水平弹性伸缩，以此动态调配伸缩组内资源，提高资源利用率，保证服务质量。本发明的方法可以实现对业务系统的混合弹性伸缩过程的智能化、自动化，提高云平台对业务系统流量变化监控的灵敏度，降低云平台工程师对业务经验的需求，有利于提高业务系统对云资源的利用率、降低业务运营成本。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的基于多维资源预测的混合弹性伸缩方法的流程图；

图2为本发明实施例提供的基于LSTM的未来业务流量预测框图；

图3为本发明实施例提供的混合弹性伸缩方案流程示意图；

图4为本发明实施例提供的系统架构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明实施例提出了一种基于多维资源预测的混合弹性伸缩方法，基于多维指标的业务流量数据采集及预处理；通过LSTM模型预测未来业务流量和预期资源量；基于用户成本和期望配额生成混合弹性伸缩方案。在本实施例的方法中，针对现有技术中的不足，为了较为全面地描述实时业务流量，除了基础资源维度指标外，还需要考虑业务性能指标。并且，不同业务系统的需求变化随着时间会表现出一定规律，这种业务流量规律可以考虑使用人工智能算法进行实时挖掘和学习，并基于学习的结果进行精准决策，实现业务系统计算能力的弹性伸缩。

可以理解的是，采用本实施例的方法可以实现对业务系统的混合弹性伸缩过程的智能化、自动化，提高云平台对业务系统流量变化监控的灵敏度，降低云平台工程师对业务经验的需求，有利于提高业务系统对云资源的利用率、降低业务运营成本。

参阅图1所示，本实施例提供的一种基于多维资源预测的混合弹性伸缩方法，包括以下步骤：

步骤S100：采集云平台的多维指标的业务流量数据，基于采集的业务流量数据构建历史数据集，并对历史数据集进行预处理。

具体而言，在基于采集的业务流量数据构建历史数据集时，包括：

通过云平台监控服务实时采集的历史数据，历史数据采集后固化到数据库中，采集的单条业务流量数据由多个特征组成，定义为[伸缩组名称，时间戳，CPU利用率，内存利用率，GPU利用率，磁盘IO使用率，网络最大吞吐率，用户请求速率，请求响应速率，请求成功率，并发数，CPU总核数，内存总大小]，记为X＝[x₁ … x_n]^T，其中，x₁为伸缩组名称，x₂为时间戳，x₃为CPU利用率...，x_n为内存总大小，n为特征维度。采集周期Cycle配置为1分钟，也即一分钟采集一次。

具体而言，在对历史数据集进行预处理时，包括：

对历史数据集进行数据清洗和数据标准化处理；其中，

其中，x_t,j是第j种特征在t时刻的缺失填充值，其取值为取第j种特征在t时刻的前一时刻和后一时刻的均值。

在实际应用中，监控服务采集数据过程中，可能因采集能力或网络传输等原因导致数据丢失或空缺。针对采集到的业务流量数据X中存在缺失值的可能情况，采用基于统计学的特征值填充方法填补缺失值。

此外，不同类型的特征指标存在量纲差异，因此在训练模型时需要对特征进行标准化处理，可以提升模型收敛速度，便于综合分析。对于非负小数类型的特征，采用z-score标准化处理。

具体而言，根据式2对业务流量数据X中的特征进行标准化处理：

本实施例的方法还包括：步骤S200：构建LSTM模型，将预处理后的历史数据集输入至LSTM模型中进行模型训练和模型调优，并通过LSTM模型预测云平台在未来预设时段内的业务流量预测值。

本实施例的方法采用长短时记忆模型(Long Short Term Memory,LSTM)来预测未来业务流量和预期资源量。LSTM是一种递归神经网络算法，能够从短期和长期中充分挖掘具有时间依赖和上下文信息的时间序列预测信息。

具体而言，在构建LSTM模型时，将收集的历史数据集进行数据预处理后，以时间戳为索引将数据集划分为训练集D_train和测试集D_test，分别用于后续模型训练和模型调优。

具体的，进行LSTM网络的构建时，LSTM网络主要分为输入层、隐藏层和输出层。输入层为一段时间内的业务流量数据神经元个数与输入数据维度保持一致；隐藏层的层数和每层神经元个数需要人工配置，一般根据业务流量数据量大小、模型训练效果进行配置，配置原则为层数和神经元个数越多，则模型越复杂，训练时间越长，可根据实际情况将层数和神经元个数分别设定为2和50；输出层为全连接层，神经元个数与特征维度保持一致，生成一组未来业务流量的预测值。

具体而言，在构建LSTM模型后，对LSTM模型训练及预测。在对LSTM模型训练时，优化器选用Adam算法进行梯度控制，损失函数选用均方误差MSE进行模型评估，如式3所示：

其中，y_actual为实际值，y_predict为预测值。

在模型训练完成后，将模型的权重w和b保存至配置文件中，用于预测使用。

结合图2所示，重复构建多个LSTM网络，进行相同的训练过程，并选取多个LSTM网络的预测结果的均值作为LSTM模型最后的预测值。具体的，为了降低随机性，重复构建4个LSTM网络，进行相同的训练过程，然后取4个网络的预测结果的均值作为模型最后的预测值。

在预测时，导入配置文件中的参数w和b，对模型输入当前时刻t前一段时间的m条业务流量，预测得到Predict则为未来一段时间的业务流量预测值。

通过LSTM算法预测的未来流量预测值后，需要对业务流量预测值进行弹性扩展或弹性收缩的判断。传统的弹性伸缩进行伸缩判断时仅依据CPU和内存利用率与额定阈值的比较结果。仅通过以上策略无法满足多样化复杂化的业务场景。因此本实施例采用基于支持向量机SVM分类算法进行弹性伸缩决策。

具体而言，在建立SVM分类算法时，SVM分类算法的训练数据集由LSTM模型预测出的各时刻下业务流量预测值Predict_i与该时刻下实际采取的伸缩策略Label_SVM组成，SVM损失函数如式4所示：

优化目标如式5所示：

本实施例通过基于LSTM的多维资源预测，考虑了资源性能和业务性能，使用LSTM对未来业务流量进行预测，有利于提高对业务流量预测的准确性、业务流量变化的灵敏度。

本实施例的方法还包括：步骤S300：在通过LSTM模型预测未来的业务流量预测值后，基于SVM分类算法对业务流量预测值进行弹性扩展或弹性收缩的决策。

结合图3所示，具体而言，在基于SVM分类算法对业务流量预测值进行弹性扩展或弹性收缩的决策时，包括：

当决策结果为弹性扩展时，则在当前时刻t后进行弹性扩展，若在当前时刻t前的额定时间T内进行过弹性扩展，则取消本次扩展，若未进行过弹性扩展则生成混合弹性扩展方案，并在当前时刻t后执行混合弹性扩展方案；

当决策结果为弹性收缩时，则在当前时刻t后进行弹性收缩，若在当前时刻t前的额定时间T内进行过弹性收缩，则取消本次收缩，若未进行过弹性收缩则生成混合弹性收缩方案，并在当前时刻t后执行混合弹性收缩方案。

具体的，如果预测结果为弹性扩展，则会触发在当前时刻t后进行弹性扩展。如果在当前时刻t前的额定时间T内已经进行过弹性扩展，则取消本次扩展，否则生成混合弹性扩展方案，并在当前时刻t后执行扩展方案。如果算法预测结果为弹性收缩，则会触发在当前时刻t后进行弹性收缩。如果在当前时刻t前的额定时间T内已经进行过弹性收缩，则取消本次收缩，否则生成混合弹性收缩方案，并在当前时刻t后执行收缩方案。

具体而言，若未进行过弹性扩展则生成混合弹性扩展方案时，混合弹性扩展方案基于用户成本和预期资源量生成；其中，

根据用户开通成本、扩容预期资源量以及当前资源池可售卖资源量生成满足业务需求且用户成本最低的扩展方案，并建立扩展模型，扩展模型如式1所示：

其中，P_i为可售卖规格i的售价，N_i是可售卖规格i的实例开通台数，和分别为可售卖规格P_i的CPU核数和内存大小，CPU_epx和MEM_epx分别为预期的CPU总核数和内存总大小。该问题属于组合优化问题，可采用模拟退火算法进行求解。

具体而言，在根据用户开通成本、扩容预期资源量以及当前资源池可售卖资源量生成满足业务需求且用户成本最低的扩展方案后，包括：

扩展方案中包含有需要移入伸缩组内的实例规格和数量，规格以CPU核数和内存大小降序排列；

降序遍历扩展方案内的规格，并依次与伸缩组内已有实例的规格进行比较：

当伸缩组内无扩展方案内的规格时，则垂直伸缩移入该规格实例；

当伸缩组内有扩展方案内的规格但数量不足时，则水平伸缩移入部分该规格实例；

遍历完扩展方案内的规格后，若伸缩组内原有实例不在扩展方案内，则进行垂直伸缩，以使得伸缩组内总CPU核数和总内存大小满足预期值。

具体的，基于式6生成的扩展方案中，包含了需要移入伸缩组内的实例规格和数量，这些规格以CPU核数、内存大小降序排列。降序遍历方案内规格，依次与伸缩组内已有实例的规格进行比较。如果伸缩组内无方案内的规格，则水平伸缩移入该规格实例；如果伸缩组内有方案内的规格但数量不足，则水平伸缩移入部分该规格实例；遍历完后伸缩组内原有实例不在方案组内，则进行垂直伸缩以使得伸缩组内总CPU核数和总内存大小满足预期值。此外，本实施例除了对计算能力扩展外，还考虑对存储、网络能力采取一定的扩缩。在弹性扩展需求中，伸缩组内的实例数量、规格的扩展会同时对存储磁盘、网络能力的扩展。

具体而言，若未进行过弹性收缩则生成混合弹性收缩方案时，包括：混合弹性收缩方案基于最少负载优先原则和预期资源量生成；其中，

对伸缩组内所有实例的CPU利用率、内存利用率升序排序，取前k台实例进行混合弹性收缩，部分实例垂直伸缩，部分实例水平伸缩，以使得伸缩组内总CPU核数和总内存大小满足预期值。

具体而言，在取前k台实例进行混合弹性收缩，部分实例垂直伸缩，部分实例水平伸缩时，包括：在满足预期资源量的负载最低的前k台实例中，对小规格低负载实例降配后进行垂直伸缩，对大规格低负载实例进行水平伸缩。

具体的，混合弹性收缩方案基于最少负载优先原则和预期资源量生成。对伸缩组内所有实例的CPU利用率、内存利用率升序排序，取前k台实例进行混合弹性收缩，部分实例垂直伸缩也即规格降配，部分实例水平伸缩也即移出伸缩组，以满足伸缩组内总CPU核数和总内存大小满足预期值。此外，生成的收缩方案在对计算能力的适当收缩时也对存储、网络能力进行了一定的收缩。方案生成后，在当前时刻t后执行混合弹性伸缩方案。这样能够更为精准地进行伸缩组伸缩活动，实现资源精准合理分配，提高总体资源利用率。

可以理解的是，上述实施例通过基于SVM和多维资源预测的弹性伸缩决策方法，使用机器学习算法从资源和业务的多个维度综合分析应用场景，判断是否需要弹性伸缩，提高了弹性伸缩在复杂业务场景的决策能力。基于用户成本和预期资源量的混合弹性伸缩生成方法，综合考虑了用户成本和当前可售资源的合理分配，对伸缩组进行水平伸缩和垂直伸缩，实现灵活配置，既可以满足业务需求，同时提高总体资源利用率。

参阅图4所示，图4为本实施例执行所需的系统架构，主要包含了底层的数据库、配置文件、核心组件监控服务、业务流量预测服务和混合伸缩服务，弹性伸缩对象业务伸缩组。

基于上述实施例的一个具体示例中，上述系统架构执行混合弹性伸缩的步骤为：

步骤1：业务伸缩组内实例分布为规格2实例有2台，规格1实例有1台。监控服务定时周期性采集该伸缩组的业务流量指标数据，包括伸缩组名称、时间戳、CPU利用率、内存利用率、GPU利用率、磁盘IO使用率、网络最大吞吐率、用户请求速率、请求响应速率、请求成功率、并发数，以及当前时间戳下该伸缩组内的CPU总核数和内存总大小。将采集到的数据固化到数据库中进行保存。

步骤2：业务流量预测服务从数据库中导入一定时间(如30天)的连续性采集数据。首先进行数据预处理，包括数据清洗和数据标准化。然后搭建4个隐藏层为2、神经元数为50的LSTM网络，并基于Adam优化器进行模型训练，在训练过程中对模型参数不断调优。训练完成后将LSTM模型参数保存至配置文件中。

步骤3：将历史业务流量数据输入LSTM模型中，得到相应的预测值和对应时间的伸缩标签，作为SVM模型的输入，对SVM进行训练。训练过程中对惩罚因子、核函数等超参数进行不断调优，这里SVM的惩罚因子采用0.125，核函数采用径向基函数RBF。训练完成后将SVM模型参数保存至配置文件中。

步骤4：将以上训练好的模型部署到环境后，监控服务采集到某时刻t₁的业务历史流量，此时刻正值业务高发前夕，其业务流量主要特征为“CPU、内存利用率较高，并发数和磁盘利用率升高”。将该时刻业务流量输入到LSTM模型中，模型输出下一时刻的预测结果Predict_t+1；将Predict_t+1进一步输入到SVM模型中，最终输出弹性伸缩决策为“弹性扩展”。

步骤5：混合弹性伸缩服务得到“弹性扩展”的指令后，判断某时刻t₁前10分钟内是否进行过弹性伸缩，若已进行过，为避免频繁伸缩则本次不执行扩展；否则触发弹性扩展方案的生成。生成的扩展方案中，规格3实例1台，规格2实例3台，规格1实例1台。最终执行为：水平伸缩规格3实例1台入伸缩组，水平伸缩规格2实例1台入伸缩组。

步骤6：监控服务采集到某时刻t₂的业务流量，此时刻的业务流量特征表现为“伸缩组的CPU、内存利用率负载稳定且并发数不变，但请求响应下降”。在经过LSTM模型和SVM模型后，模型预测结果为无需进行伸缩。

步骤7：监控服务采集到某时刻t₃的业务流量，此时刻的业务流量特征表现为“伸缩组的CPU、内存利用率较低、并发数下降”。在经过LSTM模型和SVM模型后，生成的指令为“弹性收缩”，生成的方案为：规格3实例1台，规格1实例2台。最终执行为：水平伸缩规格2实例2台出伸缩组，垂直伸缩规格2实例为规格1。

以上为基于多维资源预测的混合弹性伸缩方法实施过程，在初次构建模型和训练模型时，需要人工配置相关参数和模型调优。模型训练时，一般历史数据量更大，模型更能挖掘具体业务的流量规律和特征。当模型进行预测前，仅需对生成方案中的指标阈值、额定时间、额定次数进行配置。

可以理解的是，上述各实施例可以实现对云平台业务系统的混合弹性伸缩过程的智能化、自动化，提高云平台对业务系统流量变化监控的灵敏度，降低云平台工程师对业务经验的需求，有利于提高业务系统对云资源的利用率、降低业务运营成本。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

一种基于多维资源预测的混合弹性伸缩方法，其特征在于，包括：

采集云平台的多维指标的业务流量数据，基于采集的业务流量数据构建历史数据集，并对所述历史数据集进行预处理；

构建LSTM模型，将预处理后的所述历史数据集输入至所述LSTM模型中进行模型训练和模型调优，并通过所述LSTM模型预测所述云平台在未来预设时段内的业务流量预测值；

在通过所述LSTM模型预测未来的业务流量预测值后，基于SVM分类算法对所述业务流量预测值进行弹性扩展或弹性收缩的决策。
根据权利要求1所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，在基于采集的所述业务流量数据构建历史数据集时，包括：

通过云平台监控服务实时采集的历史数据，所述历史数据采集后固化到数据库中，采集的单条业务流量数据由多个特征组成，定义为[伸缩组名称，时间戳，CPU利用率，内存利用率，GPU利用率，磁盘IO使用率，网络最大吞吐率，用户请求速率，请求响应速率，请求成功率，并发数，CPU总核数，内存总大小]，记为X＝[x₁ … x_n]^T，其中，x₁为伸缩组名称，...，x_n为内存总大小，n为特征维度；

取当前时刻的前m条采集数据作为m行*n列的原始数据集，记为相应的每一时刻t的标签均为下一时刻t+1的指标值，即
根据权利要求2所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，在对所述历史数据集进行预处理时，包括：

对所述历史数据集进行数据清洗和数据标准化处理；其中，

根据式1对业务流量数据X中的特征填补缺失值：
x_t,j＝(x_t-1,j+x_t+1,j)/2 (1)

其中，x_t,j是第j种特征在t时刻的缺失填充值，其取值为取第j种特征在t时刻的前一时刻和后一时刻的均值；

根据式2对业务流量数据X中的特征进行标准化处理：

其中，x_i,j为原始数据，x'_i,j为x_i,j经过标准化处理后的值，μ_j为数据集X中的特征的均值，σ_j为数据集X中的特征的方差。
根据权利要求1所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，在构建LSTM模型时，包括：

将收集的所述历史数据集进行数据预处理后，以时间戳为索引将数据集划分为训练集D_train和测试集D_test；

进行LSTM网络的构建，LSTM网络分为输入层、隐藏层和输出层，输入层为一段时间内的业务流量数据神经元个数与输入数据维度保持一致。
根据权利要求1所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，在构建LSTM模型后，包括：

对LSTM模型训练及预测；其中，

在对所述LSTM模型训练时，优化器选用Adam算法进行梯度控制，损失函数选用均方误差MSE进行模型评估，如式3所示：

其中，y_actual为实际值，y_predict为预测值；

在模型训练完成后，将模型的权重w和b保存至配置文件中，用于预测使用；

重复构建多个LSTM网络，进行相同的训练过程，并选取多个所述LSTM网络的预测结果的均值作为所述LSTM模型最后的预测值。
根据权利要求1所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，在建立所述SVM分类算法时，包括：

所述SVM分类算法的训练数据集由所述LSTM模型预测出的各时刻下业务流量预测值Predict_i与该时刻下实际采取的伸缩策略Label_SVM组成，SVM损失函数如式4所示：

优化目标如式5所示：

其中，y_i为时刻i的业务流量的实际值，wx_i-b为时刻i的业务流量的预测值，∈为容忍模型预测值与真实值的误差，w为模型权重。
根据权利要求1-6任一项所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，在基于SVM分类算法对所述业务流量预测值进行弹性扩展或弹性收缩的决策时，包括：

当决策结果为弹性扩展时，则在当前时刻t后进行弹性扩展，若在当前时刻t前的额定时间T内进行过弹性扩展，则取消本次扩展，若未进行过弹性扩展则生成混合弹性扩展方案，并在当前时刻t后执行所述混合弹性扩展方案；

当决策结果为弹性收缩时，则在当前时刻t后进行弹性收缩，若在当前时刻t前的额定时间T内进行过弹性收缩，则取消本次收缩，若未进行过弹性收缩则生成混合弹性收缩方案，并在当前时刻t后执行所述混合弹性收缩方案。
根据权利要求7所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，若未进行过弹性扩展则生成混合弹性扩展方案时，包括：

所述混合弹性扩展方案基于用户成本和预期资源量生成；其中，

根据用户开通成本、扩容预期资源量以及当前资源池可售卖资源量生成满足业务需求且用户成本最低的扩展方案，并建立扩展模型，所述扩展模型如式 1所示：

其中，P_i为可售卖规格i的售价，N_i是可售卖规格i的实例开通台数，和分别为可售卖规格P_i的CPU核数和内存大小，CPU_epx和MEM_epx分别为预期的CPU总核数和内存总大小。
根据权利要求8所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，在根据用户开通成本、扩容预期资源量以及当前资源池可售卖资源量生成满足业务需求且用户成本最低的扩展方案后，包括：

所述扩展方案中包含有需要移入伸缩组内的实例规格和数量，规格以CPU核数和内存大小降序排列；

降序遍历所述扩展方案内的规格，并依次与所述伸缩组内已有实例的规格进行比较：

当所述伸缩组内无所述扩展方案内的规格时，则垂直伸缩移入该规格实例；

当所述伸缩组内有所述扩展方案内的规格但数量不足时，则水平伸缩移入部分该规格实例；

遍历完所述扩展方案内的规格后，若所述伸缩组内原有实例不在所述扩展方案内，则进行垂直伸缩，以使得所述伸缩组内总CPU核数和总内存大小满足预期值。
根据权利要求7所述的基于多维资源预测的混合弹性伸缩方法，其特征在于，若未进行过弹性收缩则生成混合弹性收缩方案时，包括：

所述混合弹性收缩方案基于最少负载优先原则和预期资源量生成；其中，

对伸缩组内所有实例的CPU利用率、内存利用率升序排序，取前k台实例进行混合弹性收缩，部分实例垂直伸缩，部分实例水平伸缩，以使得所述伸缩组内总CPU核数和总内存大小满足预期值。