CN110413657B

CN110413657B - 面向季节型非平稳并发量的平均响应时间评估方法

Info

Publication number: CN110413657B
Application number: CN201910624505.8A
Authority: CN
Inventors: 郭军; 王嘉怡; 张斌; 刘晨; 侯帅; 李薇; 柳波; 王馨悦; 张瀚铎; 张娅杰; 迟航民
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-08-17
Anticipated expiration: 2039-07-11
Also published as: CN110413657A

Abstract

本发明提供一种面向季节型非平稳并发量的平均响应时间评估方法，涉及云计算技术领域。该方法首先基于自相关系数法判定云服务系统中的请求并发量中的季节型非平稳并发量；然后建立基于RNN‑LSTM神经网络的季节型非平稳并发量预测模型，并进行季节型非平稳并发量预测；建立基于RBF的云服务系统平均响应时间预测模型，将预测的用户季节型非平稳并发量、CPU利用率、内存利用率这些影响云服务平均响应时间的资源状态信息预处理完之后作为输入，输出为云服务系统的平均响应时间大小。本发明方法克服了传统的负载均衡策略的不足，提高了季节型非平稳并发量的预测精度，能及时对服务性能作出评估响应，使云计算系统能更好的为用户提供服务。

Description

面向季节型非平稳并发量的平均响应时间评估方法

技术领域

本发明涉及云计算技术领域，尤其涉及一种面向季节型非平稳并发量的平均响应时间评估方法。

背景技术

随着当今社会中更大规模的互联网应用的迅速发展，云计算作为一种新的计算和商业模式也得到了迅猛发展，使得用户通过互联网进行各种资源的共享变得更加方便。云数据中心是云服务系统的核心，主要由各种网络硬件与软件设备组成，随着用户需求的不断提高，对云数据中心也提出了更高的要求。平均响应时间是云服务系统中的重要性能指标之一，同时，云服务系统中季节型非平稳并发量广泛存在，随着季节型非平稳并发量的不断变化，云服务系统的服务性能也会受到影响。

云服务系统中，季节型非平稳并发量广泛存在，该并发量以周期的形式出现高峰。随着季节型非平稳并发量的不断变化，云服务系统的服务性能会受到影响。因此面对季节型非平稳并发量的不断变化，为了保障服务性能的可靠性以及稳定性，通常会采用动态调整资源的方法。但是传统的负载均衡策略在制定时需要一定的时间，尤其当处理季节型非平稳并发量这种以非平稳形式出现高峰的负载，易滞后于实时的负载状况，而负载的滞后将导致云服务的平均响应时间大大增加，云服务系统的性能也受到影响。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种面向季节型非平稳并发量的平均响应时间评估方法，实现对云服务系统的平均响应时间进行评估。

为解决上述技术问题，本发明所采取的技术方案是：面向季节型非平稳并发量的平均响应时间评估方法，包括以下步骤：

步骤1、基于自相关系数法判定云服务系统中的请求并发量中的季节型非平稳并发量；

步骤1.1：提取云服务系统中的请求并发量，采用插补缺失值中的均值插补法对并发量原始数据缺失的数据值进行填充；

云服务系统中的请求并发量是一个二维数组，由请求发起的时间和请求的数量组成，使用[t，C_t]表示，其中，t代表云服务系统监测到的请求发起的时刻，C_t代表t时刻用户访问的请求数，则对i时刻用户访问的请求数的缺失值C_i进行填充过程，如下公式所示：

其中，C_i表示i时刻用户访问的请求数，C_i-1表示i-1时刻用户访问的请求数，C_i+1表示i+1时刻用户访问的请求数，C_i-1与C_i+1均为正常数据；

步骤1.2：将填充后的用户请求并发量分为平稳型并发量和季节型非平稳型并发量；

所述平稳性型并发量根据平稳型时间序列定义进行判断，所述季节型非平稳型并发量采用自相关系数法进行判定；

所述季节型非平稳并发量是非平稳型时间序列的一种，对于其类型的判定通过自相关系数分析法进行；当用户请求到来时，每隔时间周期t云服务系统自动监测此刻应用用户请求并发量，并将数据存入数据库中；t时期并发量观测值con_t与(t+k)时期并发量观测值con_t+k之间的相关程度，称为时间延迟为k的并发量自相关系数r_k；当并发量自相关系数随着时间延迟的增加以固定的频率出现高峰，并逐渐趋向于0，即r_k趋向于0时判断该并发量为季节型非平稳并发量；

所述时间延迟为k的并发量自相关系数r_k的计算如下公式所示：

其中，Cov表示协方差，Var表示方差；

步骤2、建立基于RNN-LSTM神经网络的季节型非平稳并发量预测模型，并进行季节型非平稳并发量预测，具体方法为：

步骤2.1：季节型非平稳并发量原始数据转化；

步骤2.1.1：对季节型非平稳并发量原始数据格式进行转化，将提取出来的数据的日期进行删除，只保留并发量数据；

步骤2.1.2：对进行了格式转化的季节型非平稳并发量数据进行Z-Score标准化及区间缩放处理，并作为RNN-LSTM神经网络的输入与输出数据；

(a)对季节型非平稳并发量数据进行Z-Score标准化

将剔除完时间维度的并发量数据记为X＝{x₁，x₂，...，x_n}，对并发量序列X＝{x₁，x₂，...，x_n}进行Z-Score标准化后，生成的新序列y₁，y₂，...，y_n，其中，

生成的新序列y₁，y₂，...，y_n的均值为0，并且方差为1；

(b)对季节型非平稳并发量数据进行区间缩放

将并发量数据中特征的取值区间转换到[0，1]范围，归一化公式如下所示：

其中，X表示并发量数据，Min表示并发量数据中的最小值，Max表示并发量数据中的最大值，Y表示处理完的数据；

步骤2.2：生成模型训练数据集；确定训练集窗口长度以及训练集与测试集数据的大小；所述训练集窗口长度的确定为季节型非平稳并发量周期的确定，通过分析自相关系数图得出，用于明确预测下一个并发量的时间间隔；

步骤2.3：RNN-LSTM神经网络模型结构的确定和调整；所述RNN-LSTM神经网络模型包括存储器块以及各个处理数据的输入门、输出门以及忘记门；

步骤2.3.1：将每个存储器块表示为一个Cell；将存储器块作为网络隐藏层的基本单元，其包含一个或多个存储器单元和一对自适应的乘法门控单元，该门控单元将并发量的输入和并发量的输出连接到该块中的所有单元；每个存储器单元的核心都有一个被称为恒定误差传送带即CEC的循环自连线性单元，当它激活时被称为单元状态；在没有新的输入或错误信号时，CEC的局部误差保持不变，既不增长也不衰减；CEC通过输入和输出门分别受到前向激励和后向误差的保护；当门被关闭时，不相关输入和噪声不进入单元，单元状态不会干扰网络的其余部分；

步骤2.3.2：计算输入门和输出门；所述输入门和输出门是一种让信息选择通过的方法，其作用于参数的输入与输出，从而控制输入与输出的数据；输入和输出门包括一个sigmoid神经网络和一个pointwise乘法操作；Sigmoid层输出0到1之间的数值，描述网络每个部分有多少并发量通过，0代表“不同意任何量通过”，1代表“允许任意量通过”；

步骤2.3.3：：计算忘记门；引入忘记门则是逐渐重置对应于缓慢衰落的单元状态；忘记门的作用和输入输出门相似，不同的是，在训练阶段开始时，忘记门的激活是1，整个单元的行为就像一个标准的LSTM单元；

步骤2.4：RNN-LSTM神经网络模型建立后，将处理好的季节型非平稳并发量数据传入模型，设置合适的训练数据集与测试数据集，以及模型训练的epoch，确定模型误差的计算方式，进行季节型非平稳并发量的预测；

步骤3、建立基于RBF的云服务系统平均响应时间预测模型，将预测的用户季节型非平稳并发量、CPU利用率、内存利用率这些影响云服务平均响应时间的资源状态信息预处理完之后作为输入，输出为云服务系统的平均响应时间大小，具体方法为：

步骤3.1：数据收集与预处理；收集云服务系统四种类型的数据，包括历史并发量、CPU利用率、内存利用率以及各服务上的平均响应时间；并在建立模型之前对收集的数据采用区间缩放和Z-Score标准化方法进行标准化处理；

步骤3.2：建立基于RBF网络的云服务系统平均响应时间预测模型；

步骤3.2.1：确定RBF网络的扩展常数、径向基函数的中心以及隐藏层到输出层的权重三个网络参数；

(1)确定扩展常数

扩展常数又称为宽度向量，代表着隐藏层神经元对输入信息的感应范围；宽度越小感应范围越小，相反，宽度越大感应范围越大；RBF网络的初始化宽度向量为

其中，

其中，d_ji′为第j个宽度向量的第i′个取值，i′＝1，2…，n，n为RBF神经网络输入层的单元数，d_f为宽度调节系数，c_ji′表示径向基函数的中心参数，N为给定的常数，r为循环变量；

(2)确定径向基函数的中心

径向基函数的中心参数用于完成输入层到隐藏层的映射；隐藏层中的每一个神经元都有一个径向基函数中心，该参数的表示为C_j＝[C_j1，C_j2，...C_jn]^T，其中，

其中，q为RBF网络隐藏层节点数，min_i与max_i分别表示训练集中第i个特征所有输入信息的最小值与最大值；

(3)确定隐藏层到输出层的权重

隐藏层到输出层的权重W_s＝[w_s1，w_s2，...w_sp]^T，s＝1，2，其中，

其中，max_s与min_s分别表示训练集中第s个输出神经元中所有输出信息即平均响应时间的最大值与最小值；

步骤3.2.2：计算RBF网络隐藏层第j个神经元的输出Z_j与输出层神经元的输出，实现构建完整的RBF神经网络；

其中，隐藏层的输出计算公式为：

输出层神经元的输出计算公式为：

O＝[o₁，o₂]^T (11)

其中，O为输出层神经元的输出；

步骤3.3：对建立的基于RBF网络的云服务系统平均响应时间预测模型进行训练，得到最优的平均时间响应预测模型；

步骤3.3.1：将云服务系统中的虚拟机上同一Web应用的不同时刻的各服务的历史并发量以及对应时刻下内存使用率、CPU使用率、平均响应时间，以及预测的各服务中的季节型非平稳并发量数据传至RBF网络的输入节点；

步骤3.3.2：采用K-Means方法初始化RBF网络的径向基函数的中心，使用随机梯度算法对构建的RBF网络中三个网络参数的权重迭代进行自适应调整；

步骤3.3.3：初始化RBF网络的三个参数：扩展常数D_ji、隐藏层径向基函数的中心D_ji以隐藏层到输出层的连接权值W_kj；

步骤3.3.4：设置隐藏层节点数目、学习因子、模型训练误差精度ε及最大训练次数MT；

步骤3.3.5：初始化循环迭代次数cycle＝1；

步骤3.3.6：基于随机梯度下降法训练RBF网络三大参数，优化基于RBF网络的云服务系统平均响应时间预测模型；

步骤3.3.7：计算模型训练的均方根误差(Root Mean Square Error，即RMSE)，如果RMSE≥ε，即RMSE大于一个极小的值，则cycle＝cycle+1，否则执行步骤3.3.9；

步骤3.3.8：判断cycle是否小于最大训练次数MT，如果小于，则跳转至步骤3.3.6，否则执行步骤3.3.9；

步骤3.3.9：结束循环，得到最优平均时间响应预测模型；

步骤3.4：将步骤3.1收集与预处理的数据输入到最优的平均时间响应预测模型，得到预测的云服务系统的平均响应时间。

采用上述技术方案所产生的有益效果在于：本发明提供的一种面向季节型非平稳并发量的平均响应时间评估方法，采用RNN-LSTM神经网络对处理完的季节型非平稳并发量进行预测，并将其作为数据输入之一，输入到RBF网络模型中预测平均响应时间，对云服务系统的性能进行评估。本发明克服了传统的负载均衡策略的不足，提高了季节型非平稳并发量的预测精度，提高了对平均响应时间的评估准确度，能及时对服务性能作出评估响应，使云计算系统能更好的为用户提供服务。

附图说明

图1为本发明实施例提供的面向季节型非平稳并发量的平均响应时间评估方法的流程图；

图2为本发明第实施例提供的实验拓扑图；

图3为本发明第实施例提供的并发量初始序列图；

图4为本发明第实施例提供的采用ARIMA方法和本发明的RNN-LSTM神经网络对部分并发量的预测结果对比图；

图5为本发明第实施例提供的采用BP算法和本发明的改进RBF网络模型对平均响应时间预测结果的对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以某实验室搭建的飞机订票云服务系统为例，使用本发明的面向季节型非平稳并发量的平均响应时间评估方法对该云服务系统的平均响应时间进行评估。

面向季节型非平稳并发量的平均响应时间评估方法，如图1所示，包括以下步骤：

其中，Cov表示协方差，Var表示方差；

步骤2.1：季节型非平稳并发量原始数据转化；

步骤2.1.1：对季节型非平稳并发量原始数据格式进行转化，将提取出来的数据的日期进行删除，只保留并发量数据；为了提高数据质量，方便传入模型进行预测，将提取的季节型非平稳并发量原始数据进行一定的转化。首先是格式的转化，直接提取的季节型非平稳并发量数据带有确定的时间维度，为了方便直接对数据进行预测，将提取出来的数据的日期进行删除，只保留并发量数据。

步骤2.1.2：对进行了格式转化的季节型非平稳并发量数据进行Z-Score标准化及区间缩放处理，并作为RNN-LSTM神经网络的输入与输出数据；鉴于LSTM方法对于数据的大小较为敏感，因此还需要对算法的输入与输出数据作相应处理，具体步骤如下：

(a)对季节型非平稳并发量数据进行Z-Score标准化(Z-Score Standardization)

Z-Score标准化方法使用原始数据的平均值以及标准差，进行数据的标准化，它适用于需要处理的属性的最大值与最小值未知的情况，或者有部分离群数据的情况。将剔除完时间维度的并发量数据记为X＝{x₁，x₂，...，x_n}，对并发量序列X＝{x₁，x₂，...，x_n}进行Z-Score标准化后，生成的新序列y₁，y₂，...，y_n，其中，

生成的新序列y₁，y₂，...，y_n的均值为0，并且方差为1；

(b)对季节型非平稳并发量数据进行区间缩放(Min-Max Scaling)

区间缩放是数据归一化的一种，它可以将原始数据用线性化的方式进行缩放，将并发量数据中特征的取值区间转换到[0，1]范围，归一化公式如下所示：

本实施例中，输入门a_l ^t的计算如下所示：

其中，

b_l ^t＝f(a_l ^t)

b_l ^t＝f(a_l ^t)为激活函数，激活函数的作用是为函数添加非线性因素，提高神经网络的表达能力。

输出门a_w ^t的表示如下：

其中，

b_w ^t＝f(a_w ^t)

本实施例中，忘记门的表示如下所示：

其中，

b_φ ^t＝f(a_φ ^t)

最后的输出：

b_c ^t＝b_w ^th(s_c ^t)

步骤3.2：建立基于RBF网络(即径向基函数网络)的云服务系统平均响应时间预测模型；

(1)确定扩展常数

其中，

(2)确定径向基函数的中心

(3)确定隐藏层到输出层的权重

其中，隐藏层的输出计算公式为：

输出层神经元的输出计算公式为：

O＝[o₁，o₂]^T (11)

其中，O为输出层神经元的输出；

步骤3.3.5：初始化循环迭代次数cycle＝1；

步骤3.3.9：结束循环，得到最优平均时间响应预测模型；

本实施例中的所有数据均采集于飞机订票云服务系统，其是一个集注册、登录、订票等多种云服务于一身的智能订票系统。该飞机订票云服务系统所使用的服务器为SugonI620-G20，其中两台服务器的IP分别为202.199.6.137、202.199.6.106。服务器配置如表1所示。

表1服务器配置表

该云服务系统的每台物理机上都包含多台虚拟机。同时，使用虚拟机管理器(Kernel-based Virtual Machine，即KVM)在服务器上安装虚拟机，完成环境的虚拟化。

本实施例除了使用KVM创建虚拟机之外，通过virt-manager这一工具管理KVM虚拟环境。在创建虚拟机之前，将CentOS镜像放入服务器中，使用virt-manager进行虚拟机的安装时可以直接调用该镜像。

本实施例采用的虚拟机配置情况如表2所示，并采用同构的虚拟机，即每一台VM的配置情况都相同。采用的虚拟机中的CPU核心数为4核，2G的内存容量，20G的硬盘容量以及CentOS的操作系统。

表2虚拟机配置表

性能指标	性能参数
		CPU核心数	4核
内存容量	2G
		硬盘容量	20GB
操作系统	CentOS

搭建完最底层的环境之后，需要在环境中安装软件用于虚拟机数据的收集与分析。本实施例中使用过的系统性能测试软件有两种：第一套是Collectd+InfluxDB+Grafana，其中，Collectd用于虚拟机性能数据的采集，InfluxDB用于虚拟机性能数据的存储，Grafana用于虚拟机性能数据的显示；另一种是直接使用LoadRunner对系统进行性能的检测。在使用LoadRunner时，共有四个部分，分别是创建脚本、设计模拟场景、运行场景以及分析结果。

最后，在实验室电脑上安装VNC-Viewer，它用于在Windows客户端远程连接服务器。在实验室就可以控制其他地方搭建的虚拟环境。针对该实验环境，实验拓扑图如图2所示。

在数据的收集过程中，首先要进行脚本的创建。采用LoadRunner进行录制脚本时，将对具有季节型非平稳并发请求的系统以及网页进行录制。在打开LoadRunner以后，首先需要创建或者编辑脚本，即打开VuGen起始页，创建新的Web脚本，开始录制。录制时主要针对季节型非平稳并发请求进行录制。录制完之后，可以通过树视图或者脚本视图进行查看，也可以指定某些事务进行操作。创建完脚本之后，接下来需要搭建负载测试环境。利用Controller进行负载测试，首先要创建场景，并将创建好的脚本加载到负载的测试环境中。Load Generator通过运行Vuser在应用程序中添加生成负载的计算机，并且可以在同一时间使用多个Load Generator，在每个Load Generator中运行多个Vuser。Controller在运行场景时可以自主连接到Load Generator。场景运行完之后，即可进行数据的提取。其中，部分并发量数据如图3，所示，本实施例选取的用户并发量数据是以1min为时间间隔，130个历史用户同时访问飞机订票系统的并发量数据为训练集。

分析采集的历史用户并发量数据之后，需要对数据进行预处理，将数据补充为完整的数据集，然后采用自相关系数法对用户并发量数据的趋势类型进行判断，并采取周期差分的方式对用户并发量数据进行平稳化处理。之后，使用本发明的RNN-LSTM预测模型进行预测，并与真实数据进行对比，验证模型的有效性。使用RNN-LSTM与ARIMA预测完之后的比较数据如表3所示。

表3预测误差对比

算法	平均相对误差	平均均方误差	平均绝对误差
				ARIMA	0.0586	6.7584	3.5864
RNN-LSTM	0.0467	4.3654	2.0157

通过对比分析可知，本发明的RNN-LSTM预测模型的预测精确度要高于ARIMA。图4为ARIMA与RNN-LSTM对部分并发量的预测。由表3可知，RNN-LSTM的平均相对误差、平均均方误差以及平均绝对误差分别为0.0586，6.7584以及3.5864，而ARIMA的三类误差分别为0.0467，4.3654以及2.0157，因此表明了在季节型非平稳并发量预测问题中，RNN-LSTM具有较高的预测精度。

用户历史并发量数据预测完之后，同时监测影响云服务的各项平均响应时间指标，并对各指标进行数据预处理，进而建立基于RBF的并发量预测的平均响应时间预测模型。同时，本实施例将本发明方法得到的平均响应时间预测结果与通过BP神经网络算法得到平均响应时间作对比，得到如图5所示的对比结果。

通过对比结果分析可知，本发明的改进的RBF平均响应时间预测模型的预测准确性要高于BP算法。如表4所示，RBF的平均相对误差、平均均方误差以及平均绝对误差分别为0.0125、1.5642以及1.2896，而BP的三类误差分别为0.0425、5.3869以及3.9865，表明RBF对于非线性关系组合有更好的逼近能力，因此表明了在web服务用户并发量存在的云服务平均响应时间预测问题中，本发明方法具有较高的预测精度以及较低的预测误差。

表4平均响应时间误差对比

算法	平均相对误差	平均均方误差	平均绝对误差
				BP	0.0425	5.3869	3.9865
RBF	0.0125	1.5642	1.2896

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种面向季节型非平稳并发量的平均响应时间评估方法，其特征在于：包括以下步骤：

步骤2.1：季节型非平稳并发量原始数据转化；

步骤3.4：将步骤3.1收集与预处理的数据输入到最优的平均时间响应预测模型，得到预测的云服务系统的平均响应时间；

步骤1.1的具体方法为：

云服务系统中的请求并发量是一个二维数组，由请求发起的时间和请求的数量组成，使用[t,C_t]表示，其中，t代表云服务系统监测到的请求发起的时刻，C_t代表t时刻用户访问的请求数，则对i时刻用户访问的请求数的缺失值C_i进行填充过程，如下公式所示：

步骤1.2的具体方法为：

所述平稳型并发量根据平稳型时间序列定义进行判断，所述季节型非平稳型并发量采用自相关系数法进行判定；

所述季节型非平稳并发量是非平稳型时间序列的一种，对于其类型的判定通过自相关系数分析法进行；当用户请求到来时，每隔时间周期t云服务系统自动监测此刻应用用户请求并发量，并将数据存入数据库中；t时期并发量观测值cont与(t+k)时期并发量观测值con_t+k之间的相关程度，称为时间延迟为k的并发量自相关系数r_k；当并发量自相关系数随着时间延迟的增加以固定的频率出现高峰，并逐渐趋向于0，即r_k趋向于0时判断该并发量为季节型非平稳并发量；