CN116016987A

CN116016987A - 面向边缘蜂窝网络基于强化学习的视频码率自适应方法

Info

Publication number: CN116016987A
Application number: CN202211574628.3A
Authority: CN
Inventors: 孙彦赞; 陈文凯; 于军; 张舜卿; 陈小静; 王涛
Original assignee: SHANGHAI UNIVERSITY
Current assignee: SHANGHAI UNIVERSITY
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-25
Anticipated expiration: 2042-12-08
Also published as: CN116016987B

Abstract

一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法，通过构建能够多址边缘计算(MEC)转码的服务端及内置缓存的客户端作为视频流会话仿真环境，采用并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型，以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习(A3C)的训练，在在线阶段通过该模型对视频码率进行自适应调整。本发明在配置MEC的无线网络场景下，充分利用RAN侧的信息以及MEC计算资源和存储资源的同时，使用传输和转码并行执行的策略，减少MEC带来的额外计算延迟和计算能耗，提高客户端的视频流QoE指标。

Description

面向边缘蜂窝网络基于强化学习的视频码率自适应方法

技术领域

本发明涉及的是一种视频处理领域的技术，具体是一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法。

背景技术

为了满足移动用户的质量体验(QoE)和提供新的高性能质量服务(QoS)，下一代无线网络中引入了多址边缘计算(MEC)、软件定义移动网络(SDMN)和云无线接入网(C-RAN)技术，将云计算能力扩展到无线网络(尤其是超密集网络(UDNs))中邻近的小型基站(SBSs)，使计算资源和存储资源在更靠近最终用户的无线接入网(RAN)侧，并通过多种自适应比特率(ABR)算法实现高质量的体验。由于MEC的缓存空间大小有限，视频流内容的欢迎度因时间和地理位置变化，视频流的预缓存命中率较低，导致缓存的更新和替换算法对缓存内容进行频繁刷新，然而频繁的更新缓存内容会增加额外的能耗。

发明内容

本发明针对现有改进ABR技术对网络吞吐量的不准确估计、对于RAN侧信息的欠缺考虑以及未充分利用MEC的计算、缓存资源的不足，提出一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法，在配置MEC的无线网络场景下，充分利用RAN侧的信息以及MEC计算资源和存储资源的同时，使用传输和转码并行执行的策略，减少MEC带来的额外计算延迟和计算能耗，提高客户端的视频流QoE指标。

本发明是通过以下技术方案实现的：

本发明涉及一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法，通过构建能够多址边缘计算(MEC)转码的服务端及内置缓存的客户端作为视频流会话仿真环境，采用并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型，以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习(A3C)的训练，在在线阶段通过该模型对视频码率进行自适应调整。

所述的PCMC模型具备多动作输出的网络结构，包括：环境编码模块、策略生成模块和策略评价模块，其中：环境编码模块根据反映环境(Environment)特征的状态信息

生成特征向量，策略生成模块根据特征向量输出由未来k个动作的集合A_n组成的策略，策略评价模块对当前的策略进行评价估值并反馈至策略生成模块以估值调整其策略模型。

本发明涉及一种实现上述方法的系统，包括：视频源服务器端、客户端以及位于服务器端的码率选择模块、缓存模块和转码模块，其中：客户端在本地维护视频切片缓存，并在向服务端请求视频切片时会附加本地的缓存状态信息，码率选择模块根据请求信息运行PCMC模型输出未来K块的码率选择，缓存模块依次检查未来K块的视频切片是否存在高码率版本，并由转码模块相应将高码率版本的视频切片加入转码任务队列，转换为对应的版本后传输至客户端，否则由MEC服务器向用于存储所有视频数据的视频源服务器端请求该视频切片的高码率版本后，由MEC服务器转发传输至客户端。

所述的传输，优选与转码同步执行。

技术效果

相比于现有的ABR算法，本发明通过PCMC模型充分考虑到RAN侧的信息，在无线网络环境下能够更准确的预测带宽吞吐量，具有灵活的多动作输出策略，能够使转码和传输并行执行，从而有效的减少了MEC转码所带来的计算延迟，提高了用户QoE并且降低了整个视频流会话的总能耗。

附图说明

图1为本发明方法流程图；

图2为PCMC模型网络结构图；

图3为网络收敛曲线对比图；

图4为QoE与各播放指标对比图。

具体实施方式

如图1所示，为本实施例涉及一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法，包括以下步骤：

步骤1、构建具有转码和缓存能力的多址边缘计算(MEC)服务端及内置缓存的客户端作为视频流会话仿真环境。

所述的客户端内置缓存，当请求的视频切片到达客户端时缓存增加的长度为该视频切片包含的视频内容长度，缓存的消耗速率等于客户端播放视频速率。

所述的缓存的长度满足：

其中：B_ue(n)为索引为n的切片到达客户端时缓存的长度，t为该视频切片到达客户端的时刻，L为切片包含的视频内容长度；当B_ue(n)的长度大于阈值(B_thresh)时，停止请求视频并休眠整数个休眠周期(T_s)直至缓存满足条件；T_ts(n，m)为第n块的m级码率切片的传输时间；当用户使用正常播放速率播放视频，则当请求的视频切片到达时，缓存的消耗长度就等于传输时间与转码时间的总和。

所述的阈值(B_thresh)，优选设置为60秒。

所述的转码是指：在MEC服务端设置转码任务队列，采用PCMC模型选择未来k块视频码率后，MEC缓存依次检查是否命中，即是否存在高码率版本；当命中时通过转码任务队列依次进行视频切片的转码。

所述的转码任务队列中每个转码任务的时长与计算设备的cpu核心数量、频率和转码前后的码率之差有关，则转码任务队列的第n个切片的转码任务的时长满足：

其中：原始的码率为q(0)，目标码率为q(m)，Cm为在单核情况下处理单个码率差值等级所需要的CPU周期数；当切片在传输或者客户端缓存进行休眠时，任务队列里的转码任务可以并行执行以减小因转码带来的延迟。

所述的MEC缓存是指：服务端利用缓存资源缓存最频繁被访问的视频切片并使用最低频率淘汰算法(LFU)模拟缓存的更新机制，具体为：优先缓存访问频率高的视频切片，同一切片的不同码率只缓存最高的码率版本；当缓存达到上限，优先淘汰频率低的切片，在频率相同的情况下优先淘汰访问时间点最早的片段，当请求视频切片码率版本低于缓存中的版本即为命中，否则未命中。

所述的转码任务队列，具体更新方式如下：标记T为转码任务队列可消耗的时长，当第n个切片到达客户端后并且客户端的缓存长度B_mec(n)大于缓存阈值B_thresh时，将任务队列的T更新为

否则将T更新为T_ts(n，m)，按照先进先出的原则依次取出转码任务队列的第j个任务，即B_mec(n+j)，将其更新为max(0，B_mec(n+j)-T)，再将T更新为T-B_mec(n+j)，循环执行上述步骤直至T小于零或j超出队列长度。

步骤2、构建视频数据集和无线带宽轨迹数据集。

所述的视频数据集，通过以下方式构建：收集10部分辨率为4K、长度在120分钟左右的电影视频作为原始数据源，使用H.264/AVC编码后，按照HLS协议的格式将其切分为每4秒一个的视频切片。随机挑选视频切片添加噪声组成新的伪视频切片文件，共生成100支5-100分钟随机时长的伪视频源作为视频数据集。

所述的无线带宽轨迹数据集，通过以下方式构建：通过控制每一个无线帧中分配的RB数量得到不同网络带宽的轨迹，将RB数量的分配规则添加随机函数，均值决定网络带宽的平均大小，方差则决定网络带宽的波动幅度，通过改变随机函数均值和方差来模拟网络的不同状况。总计生成100条，每条2000s的网络轨迹数据集作为无线带宽轨迹数据集。

所述的带宽，使用OFDM调制的方式进行模拟，具体为：设置子载波间隔为15kHz、无线信道模型的衰落模型为

其中：

为大尺度衰落模型，系数α为小尺度衰落模型。所述的大尺度衰落模型使用路径损耗模型为：

其中：G_A为天线的增益系数，d为基站和用户之间的距离，厂_c为子载波的频率，d_e为一个常量系数。

所述的小尺度衰落使用瑞丽衰落模型，其概率密度函数为：

其中：r为大于等于0的实数，δ为此随机过程的标准差。

优选地，所述的无线带宽轨迹数据集中使用虚部和实部均为标准正态分布的方法模拟出瑞丽衰落。仿真环境每次加载网络轨迹时随机挑选一条记录和时间起点，保证训练的随机性，当运行到该条终点时重复上述开始过程，直至视频流会话关闭。

步骤3、构建用于步骤1仿真环境中并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型，并由步骤1仿真环境加载步骤2构建的数据集后，PCMC模型和步骤1中的仿真环境不断进行交互训练。

如图2所示，本实施例中的PCMC模型具体包括：环境编码模块、策略生成模块以及策略评价模块，其中：环境编码模块根据反映环境(Environment)特征的环境状态信息

输出特征向量；策略生成模块生成决策模型

根据环境编码模块生成的特征向量输出未来k块视频切片的码率选择，即动作A_n＝(v_n，v_n+1，...，v_n+k)的概率分布

当传输索引n的切片时，并行执行n+1至n+k的切片码率的转码过程以减小因转码带来的延时，v(n)为请求索引n视频切片选择的码率，

为在t时刻客户端Buffer的长度，b(n)为传输索引n视频切片的平均网络吞吐量，Z(n,m)为索引n码率m视频切片的字节大小，d(n-1)为传输索引n视频造成客户端播放卡顿时长，C(n)为索引n视频切片在缓存中最高的码率版本，l(n)为剩余的视频切片数量；策略评价模块拟合状态值(V)函数，根据环境状态信息的特征向量输出V值至策略生成模块，用于梯度更新。

优选地，所述的策略生成模块中进一步设置动作掩模(Action Mask)以过滤不可能发生的动作，例如将动索引超出视频切片总数的动作滤除。

优选地，所述的环境编码模块内置存储单元存储历史u个节点信息。

所述的PCMC模型，以最大化期望回报值J(π_θ)为目标，采用A3C方法进行异步训练，即在AC网络架构的基础上部署多个子线程进行同时训练，子线程训练完毕后将参数同步给主线程；训练过程中策略生成模块和策略评价模块的参数分别通过以下方式进行更新：

其中：状态

采取动作A_n比平均水平的差异

从状态

并执行动作A_n的双重设定下，在策略π下能够获得的期望回报值

V函数的贝尔曼方程为

智能体做出动作后得到环境的奖励为

ω、μ、δ、

为各子项的权重系统，为常量。q(0)为最高码率，方便归一化处理；同时为使模型权衡近期奖励和长期奖励的重要性，使用随着时间衰减的折扣回报R_τ来使策略模型能考虑长远的回报值：

PCMC模型的策略生成模块和环境编码模块不断交互产生奖励直至达到终止状态，此过程的状态信息、动作和奖励的所有集合即轨迹τ，其发生的概率P(τ)；信道衰落条件遵循k状态马尔可夫模型，置信空间向量

为在状态信息

下观察到

的概率分布；在部分可观察马尔可夫决策过程(POMDP)中，回报值为r′_n，即在置信空间向量下能够得到的r_n的期望值；将r′_n替换折扣回报R_τ中r_n得到新的折扣回报R′_τ。由于环境状态转移和策略都具有随机性，同样的策略模型作用于同初始状态的同一环境，也可能产生截然不同的轨迹，因此强化学习模型的优化目标应为最大化在观察到

下的期望回报值

θ表示强化学习模型中所有的参数集合。视频流会话总能量损耗E＝E_c+E_om+E_tc，其中：MEC服务端执行缓存任务时带来的能耗E_c＝w_cm*Z(n，m)，当缓存未命中时，请求源服务器数据的传输延时T_om＝Z(n，m)/W_om，传输能耗E_om＝e_om*Z(n，m)*T_om；当缓存中存在码率版本高于请求时，MEC执行转码任务的计算能耗E_tc＝ρ₀*c_tm*(q_ext-q_tar)*T_tc(n，m)；w_cm为MEC的缓存能耗单位，w_om为MEC到源服务器的带宽，e_om为MEC到源服务器的传输能耗单位，ρ₀为CPU运行每周期的能耗，c_tm为CPU处理每比特转码任务所需的周期数。

所述的用户QoE指标包括：客户端的平均播放质量、播放码率的平滑度以及播放卡顿时间。

经过具体实际实验，在表1的具体环境设置下，部署8个子线程进行训练，当所有子线程训练经过500个epoch之后，网络收敛，记录训练过程中的最优模型。经过测试，最优模型在测试集上的平均QoE可达289.28。

如图3所示，本发明大大降低MEC转码所带来的时延，同时兼顾能效，提高用户的QoE。对比方法(Baseline1)每次只考虑未来一个视频切片的码率选择，和本方法使用相同的网络架构，并在相同数据集和测试集上进行训练和测试。由于训练时每个epoch的网络环境具有随机性，平均带宽并不一致，因此观察模型在相同测试集上的性能来体现方法的优劣。从图中可以看出，本发明由于具有更灵活的码率选择策略，传输和转码的并行执行降低延时，最优的效果好于对比方法。

如图4所示，将MPC方法作为Baseline 2方法，分别将三种方法放在不同的网络场景下，统计三种方法的平均QoE、平均码率、平均播放卡顿时间以及平均码率波动性。从图中可以看出，本方法的平均QoE高于其他两种方法，虽然平均码率稍低于Baseline 2方法，但是本方法更好地考虑视频码率的波动性，避免视频码率的过多切换造成播放体验质量下降。

与现有技术相比，本方法更全面地考虑了RAN侧信息，通过更灵活的码率选择策略模型(PCMC)，在针对配置MEC的无线通信环境下，利用RAN侧和客户端的信息，动态地选择未来多个视频切片的码率。对于边缘缓存中已经存在的视频切片通常需要进行码率转码后再传输至客户端，由于本发明模型具有灵活的多视频切片码率选择特性，通过并行执行视频切片的传输和转码任务显著减少了MEC带来的计算延迟。同时本发明综合考虑计算和传输的能耗因素，在提高用户的QoE的同时尽可能降低视频流会话的能耗。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征在于，通过构建能够多址边缘计算(MEC)转码的服务端及内置缓存的客户端作为视频流会话仿真环境，采用并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型，以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习(A3C)的训练，在在线阶段通过该模型对视频码率进行自适应调整；

2.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的客户端内置缓存，当请求的视频切片到达客户端时缓存增加的长度为该视频切片包含的视频内容长度，缓存的消耗速率等于客户端播放视频速率；

所述的缓存的长度满足：

其中：B_ue(n)为索引为n的切片到达客户端时缓存的长度，t为该视频切片到达客户端的时刻，L为切片包含的视频内容长度；当B_ue(n)的长度大于阈值(B_thresh)时，停止请求视频并休眠整数个休眠周期(T_s)直至缓存满足条件；T_ts(n,m)为第n块的m级码率切片的传输时间；当用户使用正常播放速率播放视频，则当请求的视频切片到达时，缓存的消耗长度就等于传输时间与转码时间的总和。

3.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的转码是指：在服务端设置转码任务队列，采用PCMC模型选择未来k块视频码率后，MEC缓存并依次检查是否命中，即是否存在高码率版本；当命中时通过转码任务队列依次进行视频切片的转码；

其中：原始的码率为q(0)，目标码率为q(m)，C_m为在单核情况下处理单个码率差值等级所需要的CPU周期数；当切片在传输或者客户端缓存进行休眠时，任务队列里的转码任务可以并行执行以减小因转码带来的延迟。

4.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的MEC缓存是指：服务端利用缓存资源缓存最频繁被访问的视频切片并使用最低频率淘汰算法(LFU)模拟缓存的更新机制，具体为：优先缓存访问频率高的视频切片，同一切片的不同码率只缓存最高的码率版本；当缓存达到上限，优先淘汰频率低的切片，在频率相同的情况下优先淘汰访问时间点最早的片段，当请求视频切片码率版本低于缓存中的版本即为命中，否则未命中；

5.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的视频数据集，通过以下方式构建：收集10部分辨率为4K、长度在120分钟左右的电影视频作为原始数据源，使用H.264/AVC编码后，按照HLS协议的格式将其切分为每4秒一个的视频切片；随机挑选视频切片添加噪声组成新的伪视频切片文件，共生成100支5-100分钟随机时长的伪视频源作为视频数据集。

6.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的无线带宽轨迹数据集，通过以下方式构建：通过控制每一个无线帧中分配的RB数量得到不同网络带宽的轨迹，将RB数量的分配规则添加随机函数，均值决定网络带宽的平均大小，方差则决定网络带宽的波动幅度，通过改变随机函数均值和方差来模拟网络的不同状况；总计生成100条，每条2000s的网络轨迹数据集作为无线带宽轨迹数据集；

其中：

为大尺度衰落模型，系数α为小尺度衰落模型；

所述的大尺度衰落模型使用路径损耗模型为：

其中：G_A为天线的增益系数，d为基站和用户之间的距离，f_c为子载波的频率，d_e为一个常量系数；

所述的小尺度衰落使用瑞丽衰落模型，其概率密度函数为：

其中：r为大于等于0的实数，δ为此随机过程的标准差。

7.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的无线带宽轨迹数据集中使用虚部和实部均为标准正态分布的方法模拟出瑞丽衰落；仿真环境每次加载网络轨迹时随机挑选一条记录和时间起点，保证训练的随机性，当运行到该条终点时重复上述开始过程，直至视频流会话关闭。

8.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的PCMC模型具体包括：环境编码模块、策略生成模块以及策略评价模块，其中：环境编码模块根据反映环境(Environment)特征的环境状态信息

Z(n，m)，d(n-1)，C(n)，l(n))输出特征向量；策略生成模块生成决策模型

当传输索引n的切片时，并行执行n+1的切片码率的转码过程以减小因转码带来的延时，v(n)为请求索引n视频切片选择的码率，

为在t时刻客户端Buffer的长度，b(n)为传输索引n视频切片的平均网络吞吐量，Z(n，m)为索引n码率m视频切片的字节大小，d(n-1)为传输索引n视频造成客户端播放卡顿时长，C(n)为索引n视频切片在缓存中最高的码率版本，l(n)为剩余的视频切片数量；策略评价模块拟合状态值(V)函数，根据环境状态信息的特征向量输出V值至策略生成模块，用于梯度更新。

9.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法，其特征是，所述的PCMC模型，以最大化期望回报值J(π_θ)为目标，采用A3C方法进行异步训练，即在AC网络架构的基础上部署多个子线程进行同时训练，子线程训练完毕后将参数同步给主线程；训练过程中策略生成模块和策略评价模块的参数分别通过以下方式进行更新：

其中：状态

采取动作A_n比平均水平的差异

从状态

V函数的贝尔曼方程为

强化学习模型的优化目标应为最大化在观察到

下的期望回报值

θ表示强化学习模型中所有的参数集合，置信空间向量

为在状态信息

下观察到

的概率分布；智能体做出动作后得到环境的奖励为

ω、μ、δ、

为各子项的权重系统，为常量；q(0)为最高码率，方便归一化处理；同时为使模型权衡近期奖励和长期奖励的重要性，使用随着时间衰减的折扣回报R_τ来使策略模型能考虑长远的回报值：

PCMC模型的策略生成模块和环境编码模块不断交互产生奖励直至达到终止状态，此过程的状态信息、动作和奖励的所有集合即轨迹τ，其发生的概率P(τ)；在部分可观察马尔可夫决策过程(POMDP)中，回报值为r′_n，即在置信空间向量下能够得到的r_n的期望值；将r′_m替换折扣回报R_τ中r_n得到新的折扣回报R′_τ；由于环境状态转移和策略都具有随机性，同样的策略模型作用于同初始状态的同一环境，也可能产生截然不同的轨迹，因此强化学习模型的优化目标应为最大化在观察到

下的期望回报；视频流会话总能量损耗E＝E_c+E_om+E_tc，其中：MEC服务端执行缓存任务时带来的能耗E_c＝w_cm*Z(n，m)，当缓存未命中时，请求源服务器数据的传输延时T_om＝Z(n，m)/W_om，传输能耗E_om＝e_om*Z(n，m)*T_om；当缓存中存在码率版本高于请求时，MEC执行转码任务的计算能耗E_tc＝ρ₀*c_tm*(q_ext-q_tar)*T_tc(n，m)；w_cm为MEC的缓存能耗单位，w_om为MEC到源服务器的带宽，e_om为MEC到源服务器的传输能耗单位，ρ₀为CPU运行每周期的能耗，c_tm为CPU处理每比特转码任务所需的周期数。

10.一种实现权利要求1-9中任一所述面向边缘蜂窝网络基于强化学习的视频码率自适应方法的系统，其特征在于，包括：视频源服务器端、客户端以及位于服务器端的码率选择模块、缓存模块和转码模块，其中：客户端在本地维护视频切片缓存，并在向服务端请求视频切片时会附加本地的缓存状态信息，码率选择模块根据请求信息运行PCMC模型输出未来K块的码率选择，缓存模块依次检查未来K块的视频切片是否存在高码率版本，并由转码模块相应将高码率版本的视频切片加入转码任务队列，转换为对应的版本后传输至客户端，否则由MEC服务器向用于存储所有视频数据的视频源服务器端请求该视频切片的高码率版本后，由MEC服务器转发传输至客户端；

所述的传输，与转码同步执行。