CN117472167A

CN117472167A - 服务器能耗的调节方法、装置、计算机设备及存储介质

Info

Publication number: CN117472167A
Application number: CN202311831949.1A
Authority: CN
Inventors: 王东清; 李道童; 张炳会; 李婷婷; 陈衍东
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-01-30
Anticipated expiration: 2043-12-28
Also published as: CN117472167B

Abstract

本申请涉及数据中心控制技术领域，特别是涉及一种服务器能耗的调节方法、装置、计算机设备及存储介质。服务器能耗的调节方法包括：获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；将环境状态输入第一预测模型，利用第一预测模型自多个预设动作中选取目标动作，控制数据中心执行目标动作；其中，多个预设动作包括改变或保持服务器中虚拟机的状态；将硬件状态参数输入第二预测模型，利用第二预测模型对服务器硬件的能耗进行预测，基于预测能耗调节服务器的工作频率以及电压。采用本方法能够从软件层面以及硬件层面双层进行调度以降低能耗，有利于减少冗余能量使用以提高能源利用率。

Description

服务器能耗的调节方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据中心控制技术领域，特别是涉及一种服务器能耗的调节方法、服务器能耗的调节装置、计算机设备以及计算机可读存储介质。

背景技术

伴随着大数据、云计算等技术的快速，诸如数据中心等场景所产生的能耗也日益俱增，在增加供电负担的同时还存在着供电时会产生大量的诸如二氧化碳等气体排放。

为此，通常是通过轮询等方式将接收的业务优先分配至低温服务器中，但是容易出现低温服务器升为高温服务器的情况，导致服务器不断地被切换于高温服务器与低温服务器身份，同时轮询等作业方式需要占用较大网络传输资源、传输时间等，综合导致能耗调节效果较差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够从软件层面以及硬件层面双层进行调度以降低能耗，有利于减少冗余能量使用以提高能源利用率的服务器能耗的调节方法、服务器能耗的调节装置、计算机设备以及计算机可读存储介质。

一方面，提供一种服务器能耗的调节方法，服务器能耗的调节方法包括：获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；其中，硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者；将环境状态输入第一预测模型，利用第一预测模型自多个预设动作中选取目标动作，控制数据中心执行目标动作；其中，多个预设动作包括改变或保持服务器中虚拟机的状态；将硬件状态参数输入第二预测模型，利用第二预测模型对服务器硬件的能耗进行预测，基于预测能耗调节服务器的工作频率以及电压。

在本申请的一实施例中，数据中心包括至少一台服务器，各服务器允许挂载若干个虚拟机；获取数据中心的环境状态包括：获取服务器在预设周期内的能耗数据；获取数据中心在预设周期内接收到的用户请求数量，作为第一请求数量；获取服务器的管理设备在预设周期内接收到的用户请求数量，作为第二请求数量；其中，管理设备用于将所接收的用户请求分发至虚拟机；将能耗数据、第一请求数量以及第二请求数量作为环境状态。

在本申请的一实施例中，获取服务器在预设周期内的能耗数据包括：获取服务器的资源利用率、服务器以及虚拟机二者的资源容量；其中，资源包括中央处理器、内存、网卡以及磁盘中的至少一者；将资源利用率、二者的资源容量作为能耗数据。

在本申请的一实施例中，利用第一预测模型自多个预设动作中选取目标动作包括：利用第一预测模型接收环境状态以及当前环境奖励，令第一预测模型基于环境状态以及当前环境奖励，自多个预设动作中选取其中一者作为目标动作；控制数据中心执行目标动作之后还包括：响应于数据中心执行目标动作，基于数据中心的能耗变动趋势，评估数据中心的当前环境奖励。

在本申请的一实施例中，基于数据中心的能耗变动趋势，评估数据中心的环境奖励包括：测算数据中心的当前能耗；将当前能耗与执行目标动作前的前向能耗进行比对；响应于当前能耗不高于前向能耗，赋予第一预测模型正向激励作为当前环境奖励；响应于当前能耗高于前向能耗，赋予第一预测模型负向激励作为当前环境奖励。

在本申请的一实施例中，第一预测模型的迭代方法包括：初始化数据中心以及第一预测模型；向状态序列写入数据中心的当前状态，对第一预测模型进行当前轮次迭代；响应于第一预测模型完成当前轮次迭代；判断第一预测模型累计迭代轮次是否达到预设轮次；响应于累计迭代轮次未达到预设轮次，则利用数据中心的当前状态进行新一轮的轮次迭代；响应于累计迭代轮次达到预设轮次，则完成第一预测模型的迭代；响应于迭代轮次达到预设次数，利用损失函数以及模型梯度反向传播形成可用于更新第一预测模型的模型参数的更新参数。

在本申请的一实施例中，对第一预测模型进行当前轮次迭代包括：基于当前状态评估各预设动作于当前状态被选择的概率，选取预设动作中概率最大的一者作为迭代动作；在数据中心的当前状态下执行迭代动作，得到更新状态以及环境奖励；将当前状态、迭代动作、环境奖励、更新状态关联，作为样本存入经验回收集；自经验回收集采样至少一个样本，计算当前的目标价值。

在本申请的一实施例中，计算当前的目标价值的计算公式如下：，其中，y_j表示第j个样本的目标价值；R_j表示第j个样本的环境奖励；γ表示衰减因子；S_j’表示第j个样本的更新状态；A_j’表示第j个样本的迭代动作；w’表示第一预测模型的网络参数；Q’表示价值评分；/>表示计算执行各预设动作可实现的最大价值评分；和/或，损失函数的计算公式如下：/>，其中，Loss表示损失值；m表示选取样本的数量；Sj表示第j个样本的当前状态；Q（Sj，Aj，ω）表示第j个样本的价值评分。

在本申请的一实施例中，初始化数据中心以及第一预测模型包括：随机初始化数据中心的当前状态；随机初始化各预设动作对应的价值；随机初始化第一预测模型的模型参数；清空经验回收集。

在本申请的一实施例中，第一预测模型包括概率子模型；利用第一预测模型自多个预设动作中选取目标动作包括：获取选择各预设动作作为目标动作的概率；选择概率中最大值所对应的预设动作，作为目标动作。

在本申请的一实施例中，数据中心包括多台物理服务器，各物理服务器分别挂载若干个虚拟机；其中，允许各物理服务器挂载的虚拟机的数量不同；多个预设动作包括增加服务器所挂载的虚拟机、删减虚拟机、于服务器间迁移虚拟机、维持当前状态、激活物理服务器、休眠物理服务器。

在本申请的一实施例中，硬件状态参数包括服务器的中央处理器、内存、风扇转速三者各自的利用率；利用第二预测模型对服务器硬件的能耗进行预测，基于预测能耗调节服务器的工作频率以及电压包括：基于利用率评估服务器的吞吐力的性能变化趋势；预测服务器在未来预设时长内的预测能耗；比对预测能耗与当前能耗，得到能耗变动趋势；将性能变化趋势与能耗变动趋势进行比较，响应于性能变化趋势为性能衰减且能耗变动趋势为能耗增加，则降低服务器的工作频率以及电压。

另一方面，提供了一种服务器能耗的调节装置，服务器能耗的调节装置包括：数据采集模块、第一预测模型、第二预测模型以及管理模块；数据采集模块用于获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；其中，硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者；第一预测模型用于输入环境状态，自多个预设动作中选取目标动作；其中，多个预设动作包括改变或保持服务器中虚拟机的状态；第二预测模型用于输入硬件状态参数，对服务器硬件的能耗进行预测；管理模块用于控制数据中心执行目标动作以及基于预测能耗调节服务器的工作频率以及电压。

再一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；其中，硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者；将环境状态输入第一预测模型，利用第一预测模型自多个预设动作中选取目标动作，控制数据中心执行目标动作；其中，多个预设动作包括改变或保持服务器中虚拟机的状态；将硬件状态参数输入第二预测模型，利用第二预测模型对服务器硬件的能耗进行预测，基于预测能耗调节服务器的工作频率以及电压。

又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

上述服务器能耗的调节方法、服务器能耗的调节装置、计算机设备以及计算机可读存储介质，获取数据中心的环境状态，通过环境状态选择目标动作，以根据数据中心的当前整体环境对数据中心进行软件层面的调度，以促进从软件层面减少数据中心的能耗。与此同时，获取数据中心中服务器的硬件状态参数，通过服务器的硬件状态参数对服务器的工作频率以及电压进行调节，以根据服务器的工作状态调节工作频率以及电压，从而有效地对能耗进行调节。如是，本申请能够融合数据中心的软件层以及硬件层，在两个层面均对能耗进行调节，有效提高能耗调节效率以及可靠性。

附图说明

图1是本申请服务器能耗的调节装置一实施例的结构示意图；

图2是本申请服务器能耗的调节方法应用场景一实施例的场景示意图；

图3是本申请服务器能耗的调节方法一实施例的流程示意图；

图4是本申请服务器能耗的调节方法另一实施例的流程示意图；

图5是本申请第二预测模型一实施例的结构示意图；

图6是本申请计算机设备一实施例的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为解决相关技术中能耗调节效果较差的技术问题，本申请提供了一种服务器能耗的调节方法、服务器能耗的调节装置、计算机设备以及计算机可读存储介质。

请参阅图1，图1是本申请服务器能耗的调节装置一实施例的结构示意图。

在本实施例中，服务器能耗的调节装置能够对数据中心的整体能耗进行调节，尽可能地提高能量利用率，减少能量浪费，从而达到相对降低数据中心能耗的目的。

以下对服务器能耗的调节装置的具体结构进行举例阐述。

服务器能耗的调节装置包括数据采集模块11、第一预测模型12、第二预测模型13以及管理模块14。

数据采集模块11能够获取数据中心的环境状态。数据采集模块11还能够获取数据中心中服务器的硬件状态参数。其中，硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者。

第一预测模型12用于输入环境状态，自多个预设动作中选取目标动作。其中，多个预设动作包括改变或保持服务器中虚拟机的状态。本实施例中，第一预测模型12能够各预设动作可能产生的能耗进行预测/评估，具体可以是对预设动作会产生的具体能耗值进行预测，亦或是可以对选择各预设动作的价值进行预测，在此不做限定。

第二预测模型13用于输入硬件状态参数，对服务器硬件的能耗进行预测。第二预测模型13能够接收并识别硬件状态参数，根据服务器当前的硬件状态参数，对服务器未来的能耗进行预测，从而根据预测的能耗对能够提高能量利用率的工作频率以及电压进行选择。

其中，第一预测模型12与第二预测模型13可以集成于一体，亦或是二者彼此独立，在此不做限定。

管理模块14用于控制数据中心执行目标动作以及基于预测能耗调节服务器的工作频率以及电压。

如是，本实施例中服务器能耗的调节装置能够数据中心的融合数据中心的软件层信息以及硬件层信息，自软件以及硬件两方面同步对能耗进行调节，有效提高能耗调节效率以及可靠性。

请参阅图2，图2是本申请服务器能耗的调节方法应用场景一实施例的场景示意图。

数据中心20可以包括至少一台服务器。

各服务器可以挂载若干个虚拟机。当然服务器也可以暂未挂载虚拟机，在此不做限定。换言之，允许各服务器挂载若干个虚拟机。

数据中心20可以包括基础设施，用于提供计算、存储、网络、虚拟机等资源。

数据采集模块11能够以设定频率获取环境状态和/或硬件状态参数。例如，用户请求、如CPU（Central Processing Unit，中央处理器）、内存、磁盘I/O（Input/Output，输入/输出）等资源使用率和数据中心20能耗信息。

服务管理模块14可以负责将用户提交请求，按照所指定的配置要求拆分为彼此独立的虚拟机资源，放置入虚拟机队列。

第一预测模型12以及第二预测模型13形成的调度决策模块，可以基于采集的信息，监控服务器资源使用率、虚拟机配置分布、任务队列的资源请求数量，通过从软硬件层面以最小化能耗为目标给出决策。

关于服务器能耗的调节装置的具体限定可以参见下文中对于服务器能耗的调节方法的限定，在此不再赘述。上述服务器能耗的调节装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以下对服务器能耗的调节装置降低能耗的工作原理进行详细阐述。

请参阅图3，图3是本申请服务器能耗的调节方法一实施例的流程示意图。

S301：获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；其中，硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者。

在本实施例中，数据中心为需要进行能耗调节的场景。数据中心具有若干台服务器。

环境状态可以标识数据中心当前的软件状态。

硬件状态参数可以标识服务器当前的工作效率，对硬件状态参数进行分析可以得到服务器的能量利用率。

硬件状态参数可以包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者。举例而言，硬件状态参数可以包括中央处理器利用率；亦或是，硬件状态参数可以包括内存利用率；亦或是，硬件状态参数可以包括风扇转速利用率；亦或是，硬件状态参数可以包括中央处理器利用率、内存利用率、风扇转速利用率，在此就不再赘述。

S302：将环境状态输入第一预测模型，利用第一预测模型自多个预设动作中选取目标动作，控制数据中心执行目标动作；其中，多个预设动作包括改变或保持服务器中虚拟机的状态。

在本实施例中，可以预先通过数据集训练第一预测模型。将环境状态输入预先训练的第一预测模型，第一预测模型响应于接收环境状态，则结合当前场景的软件层数据对各预设动作的适用性进行评估，选择其中一种预设动作作为目标动作。第一预测模型可以输出该目标动作；亦或是，可以输出选择各预设动作的概率值；亦或是，可以输出选用各预设动作的价值。

其中，多个预设动作包括改变或保持服务器中虚拟机的状态。

响应于选取目标动作，则控制数据中心执行目标动作，调节数据中心的软件层工作。每次服务器能耗调节的过程中，可以仅选取一个预设动作作为目标动作，也可以选取多个预设动作均作为目标动作。举例而言，选择的目标动作为对其中一个虚拟机进行迁移，对另一虚拟机进行删除等，在此就不再赘述。

其中，目标动作的选取条件包括在环境状态保持不变的情况下，选用其的能耗不高于数据中心未执行目标动作的能耗。当然，若环境状态改变，尤其是在软件层工作增加的情况下，不会要求执行目标动作的能耗低于未执行目标动作的能耗，可以是选择各预设动作中有利于提高或维持能量利用效率的一者作为目标动作。

S303：将硬件状态参数输入第二预测模型，利用第二预测模型对服务器硬件的能耗进行预测，基于预测能耗调节服务器的工作频率以及电压。

在本实施例中，第二预测模型能够接收并识别硬件状态参数，根据服务器当前的硬件状态参数，对服务器未来的能耗进行预测，从而根据预测的能耗对能够提高能量利用率的工作频率以及电压进行选择。

对工作频率进行调节，举例而言可以在工作需求频率低于当前工作频率时，降低工作频率，从而有利于减少能耗。

其中，第一预测模型与第二预测模型可以集成于一体，亦或是二者彼此独立，在此不做限定。

由此可见，本实施例中获取数据中心的环境状态，通过环境状态选择目标动作，以根据数据中心的当前整体环境对数据中心进行软件层面的调度，以促进从软件层面减少数据中心的能耗。与此同时，获取数据中心中服务器的硬件状态参数，通过服务器的硬件状态参数对服务器的工作频率以及电压进行调节，以根据服务器的工作状态调节工作频率以及电压，从而有效地对能耗进行调节。如是，本实施例能够在降低服务器能耗的时宏观考虑数据中心的整体环境，减少单独对一台服务器能耗进行条件的片面性，与此同时，本实施例中还能够融合数据中心的软件层以及硬件层，在两个层面均对能耗进行调节，有效提高能耗调节效率以及可靠性。

请参阅图4，图4是本申请服务器能耗的调节方法另一实施例的流程示意图。

S401：获取数据中心的环境状态。

在本实施例中，数据中心可以包括至少一台服务器，各服务器允许挂载若干个虚拟机。

举例而言，数据中心包括多台物理服务器，各物理服务器分别挂载若干个虚拟机；其中，允许各物理服务器挂载的虚拟机的数量不同。

如是，本实施例中可以根据用户业务情况，灵活地对服务器、服务器挂载虚拟机的数量进行调节，有利于保障数据中心工作的可靠性以及稳定性。与此同时，本实施例中可以通过对数据中心的能耗调节，提高数据中心服务器以及虚拟机的利用效率，从而有利于提高数据中心的性能。

具体地，可以获取服务器在预设周期内的能耗数据。

可选地，可以获取服务器的资源利用率、服务器以及虚拟机二者的资源容量；其中，资源包括中央处理器、内存、网卡以及磁盘中的至少一者；将资源利用率、二者的资源容量作为能耗数据。如是，通过环境奖励便于第一预测模型明确当前所选取的目标动作是否适用，便于第一预测模型基于当前环境奖励对所选择策略进行动态调整，实现对第一预测模型的优化。

如是，通过真实的服务器软件资源利用情况，对该资源利用所需的能量进行预测/评估，以此选择作为目标动作的预设动作，能够提高目标动作与真实情况的适配程度，提高能耗调节的可靠性以及调节效率。

进一步地，可以获取数据中心在预设周期内接收到的用户请求数量，作为第一请求数量。

可以获取服务器的管理设备在预设周期内接收到的用户请求数量，作为第二请求数量；其中，管理设备用于将所接收的用户请求分发至虚拟机。

可选地，管理设备可以是本申请服务器能耗的调节装置中的管理模块，也可以是独立的管理设备，在此不做限定。

本实施例中可以将能耗数据、第一请求数量以及第二请求数量作为环境状态。

也就是说，本实施例中在获取环境状态时，能够对服务器的能耗以及用户请求同步进行获取，以在进行能耗调节时综合考量服务器的能耗以及用户请求，可以通过用户请求数量对需求的虚拟机数量进行评估，能够提高本实施例中能耗调节的合理性，尽可能地在不干扰业务进行的前提下减少数据中心的能耗。与此同时，本实施例中还能够考虑到用户请求达到数据中心以及服务器二者存在一定的时间差，因此同时获取第一请求数量以及第二请求数量，以提高本实施例中能耗调节考量的精细化，提高预测准确性，进而提高目标动作选择的可靠性。

S402：将环境状态输入第一预测模型，利用第一预测模型自多个预设动作中选取目标动作。

在本实施例中，可以利用第一预测模型接收环境状态以及当前环境奖励，令第一预测模型基于环境状态以及当前环境奖励，自多个预设动作中选取其中一者作为目标动作。

举例而言，多个预设动作可以包括增加服务器所挂载的虚拟机、删减虚拟机、于服务器间迁移虚拟机、维持当前状态、激活物理服务器、休眠物理服务器。

S403：控制数据中心执行目标动作，基于能耗变动趋势评估当前环境奖励。

在本实施例中，响应于数据中心执行目标动作，可以基于数据中心的能耗变动趋势，评估数据中心的当前环境奖励。

具体地，可以测算数据中心的当前能耗。将当前能耗与执行目标动作前的前向能耗进行比对。响应于当前能耗不高于前向能耗，赋予第一预测模型正向激励作为当前环境奖励；响应于当前能耗高于前向能耗，赋予第一预测模型负向激励作为当前环境奖励。

也就是说，本实施例中可以通过符号相反的正向激励以及负向激励，便于第一预测模型有效识别降低能耗的目的是否达到，简化优化过程，有利于提高第一预测模型的优化效率，进而提高能耗调节的效率。

进一步地，若选择的动作为迁移虚拟机，在评估环境奖励时可以增加源位置和目标位置之间的距离、网络带宽等信息，当前环境奖励的计算公式可以如下：

式1-1

其中，R表示迁移虚拟机的当前环境奖励，R₀表示与其它预设动作相同环境奖励算法得到的环境奖励；dist表示源位置和目标位置之间的距离；f_band表示网络带宽。

如是，本实施例中能够实现选择带宽更大、距离尽量近的机器迁移，有利于缩短任务完成时间，即有利于保证任务在更短时间内完成，进而提高能耗调节效率。

S404：获取数据中心中服务器的硬件状态参数。

在本实施例中，可以利用硬件状态参数评估服务器的吞吐力的性能变化趋势。

可选地，硬件状态参数包括服务器的中央处理器、内存、风扇转速三者各自的利用率，可以基于利用率评估服务器的吞吐力的性能变化趋势。

进一步地，硬件状态参数还可以包括显卡利用率等，在此不做限定。

S405：预测服务器在未来预设时长内的预测能耗。

在本实施例中，响应于获取服务器的硬件状态参数，可以通过硬件状态参数为未来预设时长的能耗进行预测，即得到预测能耗。可以通过第二预测模型进行预测。

其中，预设时长可以与能耗调节的调度周期一致，亦或是可以长于预设调度周期，在此不做限定。

S406：比对预测能耗与当前能耗，得到能耗变动趋势。

在本实施例中，将预测能耗与当前能耗进行比对，判断未来预设时长内，数据中心的能耗是否增加，并形成能耗变动趋势。

可选地，能耗变动趋势可以是简单地增长、减少；亦或是可以详细预测增加/减少的比重等，在此不做限定。

S407：对性能变化趋势与能耗变动趋势二者进行分析，适应性调整工作频率以及电压。

在本实施例中，可以将性能变化趋势与能耗变动趋势进行比较。

响应于性能变化趋势为性能衰减且能耗变动趋势为能耗增加，则降低服务器的工作频率以及电压。

如是，本实施例可以通过将硬件状态参数输入第二预测模型，利用第二预测模型对服务器的能耗进行预测，基于预测结果调节服务器的工作频率以及电压。

如图5中所举例展示的，图5是本申请第二预测模型一实施例的结构示意图，第二预测模型可以包括输入层、隐含层以及输出层，隐含层的数量可以是至少一层。输入层接收硬件状态参数，输出层输出预测的预测能耗。

以下对第一预测模型的迭代方法进行举例：

初始化数据中心以及第一预测模型。

具体地，可以随机初始化数据中心的当前状态；随机初始化各预设动作对应的价值；随机初始化第一预测模型的模型参数；清空经验回收集。如是，能够保障对当前第一预测模型的优化时基于当前数据中心的真实情况，提高优化过程的可靠性，从而有利于第一预测模型更好地服务于目标动作选取，进而提高能耗调节的可靠性。

向状态序列写入数据中心的当前状态，对第一预测模型进行当前轮次迭代。

响应于第一预测模型完成当前轮次迭代；判断第一预测模型累计迭代轮次是否达到预设轮次。

响应于累计迭代轮次未达到预设轮次，则利用数据中心的当前状态进行新一轮的轮次迭代；响应于累计迭代轮次达到预设轮次，则完成第一预测模型的迭代。

响应于迭代轮次达到预设次数，利用损失函数以及模型梯度反向传播形成可用于更新第一预测模型的模型参数的更新参数。通过设定合理的更新时机，减少频繁地、效果差地、相对无效地更新，从而有利于合理利用运算资源，能够减少消耗的能量，在降低数据中心能耗的同时降低调节过程的能耗。

其中，对第一预测模型进行当前轮次迭代的详细过程可以如下所举例的：

可以基于当前状态评估各预设动作于当前状态被选择的概率，选取预设动作中概率最大的一者作为迭代动作。

在数据中心的当前状态下执行迭代动作，得到更新状态以及环境奖励。

将当前状态、迭代动作、环境奖励、更新状态关联，作为样本存入经验回收集。

自经验回收集采样至少一个样本，计算当前的目标价值。

计算当前的目标价值的计算公式如下：

式1-2

其中，y_j表示第j个样本的目标价值；R_j表示第j个样本的环境奖励；γ表示衰减因子；S_j’表示第j个样本的更新状态；A_j’表示第j个样本的迭代动作；w’表示第一预测模型的网络参数；Q’表示价值评分；表示计算执行各预设动作可实现的最大价值评分。

前文中所提及的损失函数的计算公式如下：

式1-3

其中，Loss表示损失值；m表示选取样本的数量；Sj表示第j个样本的当前状态；Q（Sj，Aj，ω）表示第j个样本的价值评分。

以下通过以数据中心为数据中心为例对本申请进行举例阐述。

在一实施例中，数据中心可以由k台物理服务器PM(Physical Machine)构成，可表示为。

VM(Virtual Machine，虚拟机)表示数据中系统搭载的虚拟机，数据中心可以由q台虚拟机构成，可表示为。

R_n表示数据中心间隔n时内所接收到的用户的请求数，假设用户请求书为m个，可以表示为。

PM_n表示间隔n时物理服务器的状态，假设n是内服务器经历λ个状态，可以表示为。

L_n可以表示间隔n时服务器的管理模块接收到的用户请求数。

服务器在时刻t的能耗定义为E_t，可以由其中运行的所有虚拟机能耗总和表示，具体可以表示为，其中，E_it表示第i个虚拟机的能耗。

本实施例中诸如第一预测模型以及第二预测模型等智能体，可以在与数据中心这一环境交互的过程中进行学习，获取环境反馈的奖励，从而不断调优自身策略，将服务器的能耗过程采用诸如强化学习模型、深度学习模型等模型进行实现。

以强化学习模型为例，要素定义可以为以下内容：环境的状态S可以通过表示，表示诸如服务器等物理机（即服务器）的总体能耗水平；其中，PM_n表示间隔n时物理服务器的状态，R_n表示数据中心间隔n时内所接收到的用户的请求数，L_n可以表示间隔n时服务器的管理模块接收到的用户请求数。

个体的动作A可以表示所有可能状态下，控制决策模块可以采取的虚拟机执行动作量。本实施例中可以将动作空间划分为4种状态，即迁移虚拟机、增加虚拟机、删除虚拟机和维持原有状态虚拟机分配策略。

环境奖励R：第一预测模型以及第二预测模型、或服务器能耗的调节装置的目标是调整虚拟机配置实现能耗最小化。故在虚拟机迁移时，会根据源位置和目标位置之间的距离、网络带宽等信息综合判断，保证任务在更短时间内完成在奖励机制设计时，在环境激奖励设计时会将服务器的能耗、距离、网络带宽因素综合考虑。

本实施例中可以选用动作价值函数对动作价值进行评估。动作价值函数可以理解为一个状态的价值由该状态的奖励以及后续状态价值按一定的衰减比例联合组成。其中，与当前时刻越接近的前向时刻的状态价值对当前时刻的影响越大。

本实施例的执行过程可以如下：算法输入：迭代轮数T，环境状态S, 动作集A，衰减因子γ,当前Z网络Q，目标Z网络Z'，批量梯度下降的样本数m,目标Z网络Z'参数更新频率C。输出可以是Z网络参数。

随机初始化所有的状态和动作对应的价值Q，随机初始化当前Z网络的所有参数w，初始化目标Z网络Z'的参数w^'=w。清空经验回放的集合D。

对强化学习模型进行T次迭代。其中迭代过程可以如下：初始化环境状态S为当前状态序列的第一个状态。

在Z网络中使用经过预处理的环境状态S作为输入，得到Z网络的所有动作对应的价值Q输出。在当前价值Q输出中选择对应概率最大的动作A。

在状态S执行当前动作A，得到经过预处理的新状态S'和环境奖励R。

将{S, A, R, S^'}存入经验回放集合D。

对新一次迭代/能耗调节的环境状态进行更新，即令S=S'。

自经验回放集合D中采样m个样本，计算当前目标Q值，计算公式可以如上文中的式1-3以及式1-4：

式1-3

使用均方差损失函数，通过神经网络的梯度反向传播来更新Z网络的所有参数w。其中，损失函数的计算公式可以如下：

式1-4

对当前迭代次数i进行识别，响应于i%C=1（i除以预设常数C的余数为1），则更新目标Z网络参数w'= w。

若损失函数降低幅度小于设定阈值，当前轮迭代完毕，否则转到在Z网络中使用经过预处理的环境状态S作为输入，得到Z网络的所有动作对应的价值Q输出。在当前价值Q输出中选择对应概率最大的动作A。

综上，本申请能够在软件层面从全局粒度节约集群整体能耗，可以采用强化学习模型动态配置物理机和虚拟机资源（如减少物理机和虚拟机运行数量，迁移虚拟机运行位置）。同时，本申请能够在配置资源不满足软件调整条件下，从硬件层面对单台服务器硬件能耗优化，根据单台服务器的CPU、内存等硬件粒度利用率信息，采用深度学习模型预测单服务器在未来一段时间内的能耗，从硬件部件粒度，调整相应部件的工作频率、电压等，实现单服务器的能源最大化利用。因此，本申请对云服务客户而言，在同等条件下，能够减少用户提交任务完成时间，提升效率；对云服务运营商而言，能够平衡系统各组件负载资源利用率，降低服务部件使用损耗、电能，整体降低运营成本。

应该理解的是，虽然图3-图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图6，图6是本申请计算机设备一实施例的结构示意图。

在一实施例中，计算机设备可以是终端，其内部结构图可以如图6中所举例展示的。

计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种服务器能耗的调节方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一实施例中，处理器执行计算机程序时还实现以下步骤：S401：获取数据中心的环境状态。

在本实施例中，数据中心包括至少一台服务器，各服务器允许挂载若干个虚拟机。

具体地，可以获取服务器在预设周期内的能耗数据。

可选地，可以获取服务器的资源利用率、服务器以及虚拟机二者的资源容量；其中，资源包括中央处理器、内存、网卡以及磁盘中的至少一者；将资源利用率、二者的资源容量作为能耗数据。

在一替代实施例中，可以是获取数据中心以及管理设备中一者的用户请求数量，作为环境状态，在此就不再赘述。

举例而言，多个预设动作包括增加服务器所挂载的虚拟机、删减虚拟机、于服务器间迁移虚拟机、维持当前状态、激活物理服务器、休眠物理服务器。

S404：获取数据中心中服务器的硬件状态参数。

S405：预测服务器在未来预设时长内的预测能耗。

S406：比对预测能耗与当前能耗，得到能耗变动趋势。

在一实施例中，对第一预测模型的迭代方法时，处理器执行计算机程序时还实现以下步骤：初始化数据中心以及第一预测模型。

具体地，可以随机初始化数据中心的当前状态；随机初始化各预设动作对应的价值；随机初始化第一预测模型的模型参数；清空经验回收集。

响应于迭代轮次达到预设次数，利用损失函数以及模型梯度反向传播形成可用于更新第一预测模型的模型参数的更新参数，通过设定合理的更新时机，减少频繁地、效果差地、相对无效地更新，从而有利于合理利用运算资源，能够减少消耗的能量，在降低数据中心能耗的同时降低调节过程的能耗。

迭代轮次达到预设次数块在本实施例中，可以是达到次数阈值就进行更新，亦或是达到次数阈值后下一次迭代进行更新，在此不做限定。

其中，对第一预测模型进行当前轮次迭代的详细过程可以如下所举例的：可以基于当前状态评估各预设动作于当前状态被选择的概率，选取预设动作中概率最大的一者作为迭代动作。

自经验回收集采样至少一个样本，计算当前的目标价值。

计算当前的目标价值的计算公式如下：，

前文中所提及的损失函数的计算公式如下：，其中，Loss表示损失值；m表示选取样本的数量；Sj表示第j个样本的当前状态；Q（Sj，Aj，ω）表示第j个样本的价值评分。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：S301：获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；其中，硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者。

在一实施例中，计算机程序被处理器执行时还实现以下步骤：S401：获取数据中心的环境状态。

具体地，可以获取服务器在预设周期内的能耗数据。

可选地，可以获取服务器的资源利用率、服务器以及虚拟机二者的资源容量；其中，资源包括中央处理器、内存、网卡以及磁盘中的至少一者。将资源利用率、二者的资源容量作为能耗数据。

其中，获取资源利用率是还可以进一步获取显卡利用率等，在此不做限定。

在本实施例中，响应于数据中心执行目标动作，可以基于数据中心的能耗变动趋势，评估数据中心的当前环境奖励。如是，通过环境奖励便于第一预测模型明确当前所选取的目标动作是否适用，便于第一预测模型基于当前环境奖励对所选择策略进行动态调整，实现对第一预测模型的优化。

具体地，可以测算数据中心的当前能耗。将当前能耗与执行目标动作前的前向能耗进行比对。响应于当前能耗不高于前向能耗，赋予第一预测模型正向激励作为当前环境奖励；响应于当前能耗高于前向能耗，赋予第一预测模型负向激励作为当前环境奖励。通过符号相反的正向激励以及负向激励，便于第一预测模型有效识别降低能耗的目的是否达到，简化优化过程，有利于提高第一预测模型的优化效率，进而提高能耗调节的效率。

S404：获取数据中心中服务器的硬件状态参数。

S405：预测服务器在未来预设时长内的预测能耗。

S406：比对预测能耗与当前能耗，得到能耗变动趋势。

在一实施例中，对第一预测模型的迭代方法时，计算机程序被处理器执行时还实现以下步骤：初始化数据中心以及第一预测模型。

响应于迭代轮次达到预设次数，利用损失函数以及模型梯度反向传播形成可用于更新第一预测模型的模型参数的更新参数。

自经验回收集采样至少一个样本，计算当前的目标价值。

计算当前的目标价值的计算公式如下：，其中，y_j表示第j个样本的目标价值；R_j表示第j个样本的环境奖励；γ表示衰减因子；S_j’表示第j个样本的更新状态；A_j’表示第j个样本的迭代动作；w’表示第一预测模型的网络参数；Q’表示价值评分；/>表示计算执行各预设动作可实现的最大价值评分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种服务器能耗的调节方法，其特征在于，所述方法包括：

获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；其中，所述硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者；

将所述环境状态输入第一预测模型，利用所述第一预测模型自多个预设动作中选取目标动作，控制所述数据中心执行所述目标动作；其中，所述多个预设动作包括改变或保持服务器中虚拟机的状态；

将所述硬件状态参数输入第二预测模型，利用所述第二预测模型对所述服务器硬件的能耗进行预测，基于预测能耗调节服务器的工作频率以及电压。

2.根据权利要求1所述的服务器能耗的调节方法，其特征在于，所述数据中心包括至少一台所述服务器，各所述服务器允许挂载若干个虚拟机；

所述获取数据中心的环境状态包括：

获取所述服务器在预设周期内的能耗数据；

获取所述数据中心在所述预设周期内接收到的用户请求数量，作为第一请求数量；

获取所述服务器的管理设备在所述预设周期内接收到的用户请求数量，作为第二请求数量；其中，所述管理设备用于将所接收的用户请求分发至所述虚拟机；

将所述能耗数据、所述第一请求数量以及所述第二请求数量作为所述环境状态。

3.根据权利要求2所述的服务器能耗的调节方法，其特征在于，所述获取所述服务器在预设周期内的能耗数据包括：

获取所述服务器的资源利用率、所述服务器以及所述虚拟机二者的资源容量；其中，资源包括中央处理器、内存、网卡以及磁盘中的至少一者；

将所述资源利用率、所述二者的资源容量作为所述能耗数据。

4.根据权利要求1所述的服务器能耗的调节方法，其特征在于，所述利用所述第一预测模型自多个预设动作中选取目标动作包括：

利用所述第一预测模型接收所述环境状态以及当前环境奖励，令所述第一预测模型基于所述环境状态以及所述当前环境奖励，自所述多个预设动作中选取其中一者作为所述目标动作；

所述控制所述数据中心执行所述目标动作之后还包括：

响应于所述数据中心执行所述目标动作，基于所述数据中心的能耗变动趋势，评估所述数据中心的当前环境奖励。

5.根据权利要求4所述的服务器能耗的调节方法，其特征在于，所述基于所述数据中心的能耗变动趋势，评估所述数据中心的环境奖励包括：

测算所述数据中心的当前能耗；

将所述当前能耗与执行所述目标动作前的前向能耗进行比对；

响应于所述当前能耗不高于所述前向能耗，赋予所述第一预测模型正向激励作为所述当前环境奖励；响应于所述当前能耗高于所述前向能耗，赋予所述第一预测模型负向激励作为所述当前环境奖励。

6.根据权利要求1所述的服务器能耗的调节方法，其特征在于，所述第一预测模型的迭代方法包括：

初始化所述数据中心以及所述第一预测模型；

向状态序列写入所述数据中心的当前状态，对所述第一预测模型进行当前轮次迭代；

响应于所述第一预测模型完成所述当前轮次迭代；判断所述第一预测模型累计迭代轮次是否达到预设轮次；

响应于所述累计迭代轮次未达到所述预设轮次，则利用所述数据中心的当前状态进行新一轮的轮次迭代；响应于所述累计迭代轮次达到所述预设轮次，则完成所述第一预测模型的迭代；

响应于迭代轮次达到预设次数，利用损失函数以及模型梯度反向传播形成可用于更新所述第一预测模型的模型参数的更新参数。

7.根据权利要求6所述的服务器能耗的调节方法，其特征在于，所述对所述第一预测模型进行当前轮次迭代包括：

基于所述当前状态评估各所述预设动作于所述当前状态被选择的概率，选取所述预设动作中所述概率最大的一者作为迭代动作；

在所述数据中心的当前状态下执行所述迭代动作，得到更新状态以及环境奖励；

将所述当前状态、所述迭代动作、所述环境奖励、所述更新状态关联，作为样本存入经验回收集；

自所述经验回收集采样至少一个所述样本，计算当前的目标价值。

8.根据权利要求7所述的服务器能耗的调节方法，其特征在于，所述计算当前的目标价值的计算公式如下：，其中，y_j表示第j个样本的目标价值；R_j表示第j个样本的环境奖励；γ表示衰减因子；S_j’表示第j个样本的更新状态；A_j’表示第j个样本的迭代动作；w’表示所述第一预测模型的网络参数；Q’表示价值评分；表示计算执行各预设动作可实现的最大价值评分；

和/或，所述损失函数的计算公式如下：，其中，Loss表示损失值；m表示选取样本的数量；Sj表示第j个样本的当前状态；Q（Sj，Aj，ω）表示第j个样本的价值评分。

9.根据权利要求7所述的服务器能耗的调节方法，其特征在于，所述初始化所述数据中心以及所述第一预测模型包括：

随机初始化所述数据中心的当前状态；

随机初始化各所述预设动作对应的价值；

随机初始化所述第一预测模型的模型参数；

清空经验回收集。

10.根据权利要求1所述的服务器能耗的调节方法，其特征在于，所述第一预测模型包括概率子模型；

所述利用所述第一预测模型自多个预设动作中选取目标动作包括：

获取选择各所述预设动作作为所述目标动作的概率；

选择所述概率中最大值所对应的预设动作，作为所述目标动作。

11.根据权利要求1所述的服务器能耗的调节方法，其特征在于，

所述数据中心包括多台物理服务器，各所述物理服务器分别挂载若干个虚拟机；其中，允许各所述物理服务器挂载的虚拟机的数量不同；

所述多个预设动作包括增加所述服务器所挂载的虚拟机、删减所述虚拟机、于所述服务器间迁移所述虚拟机、维持当前状态、激活所述物理服务器、休眠所述物理服务器。

12.根据权利要求1所述的服务器能耗的调节方法，其特征在于，所述硬件状态参数包括所述服务器的中央处理器、内存、风扇转速三者各自的利用率；

所述利用所述第二预测模型对所述服务器硬件的能耗进行预测，基于预测能耗调节服务器的工作频率以及电压包括：

基于所述利用率评估所述服务器的吞吐力的性能变化趋势；

预测所述服务器在未来预设时长内的预测能耗；

比对所述预测能耗与当前能耗，得到能耗变动趋势；

将所述性能变化趋势与所述能耗变动趋势进行比较，响应于所述性能变化趋势为性能衰减且所述能耗变动趋势为能耗增加，则降低所述服务器的工作频率以及电压。

13.一种服务器能耗的调节装置，其特征在于，所述服务器能耗的调节装置包括：

数据采集模块，用于获取数据中心的环境状态，获取数据中心中服务器的硬件状态参数；其中，所述硬件状态参数包括中央处理器利用率、内存利用率、风扇转速利用率中的至少一者；

第一预测模型，用于输入所述环境状态，自多个预设动作中选取目标动作；其中，所述多个预设动作包括改变或保持服务器中虚拟机的状态；

第二预测模型，用于输入所述硬件状态参数，对所述服务器硬件的能耗进行预测；

管理模块，用于控制所述数据中心执行所述目标动作以及基于预测能耗调节服务器的工作频率以及电压。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述服务器能耗的调节方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述服务器能耗的调节方法的步骤。