Nothing Special   »   [go: up one dir, main page]

CN116016987A - 面向边缘蜂窝网络基于强化学习的视频码率自适应方法 - Google Patents

面向边缘蜂窝网络基于强化学习的视频码率自适应方法 Download PDF

Info

Publication number
CN116016987A
CN116016987A CN202211574628.3A CN202211574628A CN116016987A CN 116016987 A CN116016987 A CN 116016987A CN 202211574628 A CN202211574628 A CN 202211574628A CN 116016987 A CN116016987 A CN 116016987A
Authority
CN
China
Prior art keywords
video
code rate
transcoding
model
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211574628.3A
Other languages
English (en)
Other versions
CN116016987B (zh
Inventor
孙彦赞
陈文凯
于军
张舜卿
陈小静
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202211574628.3A priority Critical patent/CN116016987B/zh
Publication of CN116016987A publication Critical patent/CN116016987A/zh
Application granted granted Critical
Publication of CN116016987B publication Critical patent/CN116016987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,通过构建能够多址边缘计算(MEC)转码的服务端及内置缓存的客户端作为视频流会话仿真环境,采用并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型,以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习(A3C)的训练,在在线阶段通过该模型对视频码率进行自适应调整。本发明在配置MEC的无线网络场景下,充分利用RAN侧的信息以及MEC计算资源和存储资源的同时,使用传输和转码并行执行的策略,减少MEC带来的额外计算延迟和计算能耗,提高客户端的视频流QoE指标。

Description

面向边缘蜂窝网络基于强化学习的视频码率自适应方法
技术领域
本发明涉及的是一种视频处理领域的技术,具体是一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法。
背景技术
为了满足移动用户的质量体验(QoE)和提供新的高性能质量服务(QoS),下一代无线网络中引入了多址边缘计算(MEC)、软件定义移动网络(SDMN)和云无线接入网(C-RAN)技术,将云计算能力扩展到无线网络(尤其是超密集网络(UDNs))中邻近的小型基站(SBSs),使计算资源和存储资源在更靠近最终用户的无线接入网(RAN)侧,并通过多种自适应比特率(ABR)算法实现高质量的体验。由于MEC的缓存空间大小有限,视频流内容的欢迎度因时间和地理位置变化,视频流的预缓存命中率较低,导致缓存的更新和替换算法对缓存内容进行频繁刷新,然而频繁的更新缓存内容会增加额外的能耗。
发明内容
本发明针对现有改进ABR技术对网络吞吐量的不准确估计、对于RAN侧信息的欠缺考虑以及未充分利用MEC的计算、缓存资源的不足,提出一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,在配置MEC的无线网络场景下,充分利用RAN侧的信息以及MEC计算资源和存储资源的同时,使用传输和转码并行执行的策略,减少MEC带来的额外计算延迟和计算能耗,提高客户端的视频流QoE指标。
本发明是通过以下技术方案实现的:
本发明涉及一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,通过构建能够多址边缘计算(MEC)转码的服务端及内置缓存的客户端作为视频流会话仿真环境,采用并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型,以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习(A3C)的训练,在在线阶段通过该模型对视频码率进行自适应调整。
所述的PCMC模型具备多动作输出的网络结构,包括:环境编码模块、策略生成模块和策略评价模块,其中:环境编码模块根据反映环境(Environment)特征的状态信息
Figure BDA0003988810000000011
生成特征向量,策略生成模块根据特征向量输出由未来k个动作的集合An组成的策略,策略评价模块对当前的策略进行评价估值并反馈至策略生成模块以估值调整其策略模型。
本发明涉及一种实现上述方法的系统,包括:视频源服务器端、客户端以及位于服务器端的码率选择模块、缓存模块和转码模块,其中:客户端在本地维护视频切片缓存,并在向服务端请求视频切片时会附加本地的缓存状态信息,码率选择模块根据请求信息运行PCMC模型输出未来K块的码率选择,缓存模块依次检查未来K块的视频切片是否存在高码率版本,并由转码模块相应将高码率版本的视频切片加入转码任务队列,转换为对应的版本后传输至客户端,否则由MEC服务器向用于存储所有视频数据的视频源服务器端请求该视频切片的高码率版本后,由MEC服务器转发传输至客户端。
所述的传输,优选与转码同步执行。
技术效果
相比于现有的ABR算法,本发明通过PCMC模型充分考虑到RAN侧的信息,在无线网络环境下能够更准确的预测带宽吞吐量,具有灵活的多动作输出策略,能够使转码和传输并行执行,从而有效的减少了MEC转码所带来的计算延迟,提高了用户QoE并且降低了整个视频流会话的总能耗。
附图说明
图1为本发明方法流程图;
图2为PCMC模型网络结构图;
图3为网络收敛曲线对比图;
图4为QoE与各播放指标对比图。
具体实施方式
如图1所示,为本实施例涉及一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,包括以下步骤:
步骤1、构建具有转码和缓存能力的多址边缘计算(MEC)服务端及内置缓存的客户端作为视频流会话仿真环境。
所述的客户端内置缓存,当请求的视频切片到达客户端时缓存增加的长度为该视频切片包含的视频内容长度,缓存的消耗速率等于客户端播放视频速率。
所述的缓存的长度满足:
Figure BDA0003988810000000021
其中:Bue(n)为索引为n的切片到达客户端时缓存的长度,t为该视频切片到达客户端的时刻,L为切片包含的视频内容长度;当Bue(n)的长度大于阈值(Bthresh)时,停止请求视频并休眠整数个休眠周期(Ts)直至缓存满足条件;Tts(n,m)为第n块的m级码率切片的传输时间;当用户使用正常播放速率播放视频,则当请求的视频切片到达时,缓存的消耗长度就等于传输时间与转码时间的总和。
所述的阈值(Bthresh),优选设置为60秒。
所述的转码是指:在MEC服务端设置转码任务队列,采用PCMC模型选择未来k块视频码率后,MEC缓存依次检查是否命中,即是否存在高码率版本;当命中时通过转码任务队列依次进行视频切片的转码。
所述的转码任务队列中每个转码任务的时长与计算设备的cpu核心数量、频率和转码前后的码率之差有关,则转码任务队列的第n个切片的转码任务的时长满足:
Figure BDA0003988810000000031
其中:原始的码率为q(0),目标码率为q(m),Cm为在单核情况下处理单个码率差值等级所需要的CPU周期数;当切片在传输或者客户端缓存进行休眠时,任务队列里的转码任务可以并行执行以减小因转码带来的延迟。
所述的MEC缓存是指:服务端利用缓存资源缓存最频繁被访问的视频切片并使用最低频率淘汰算法(LFU)模拟缓存的更新机制,具体为:优先缓存访问频率高的视频切片,同一切片的不同码率只缓存最高的码率版本;当缓存达到上限,优先淘汰频率低的切片,在频率相同的情况下优先淘汰访问时间点最早的片段,当请求视频切片码率版本低于缓存中的版本即为命中,否则未命中。
所述的转码任务队列,具体更新方式如下:标记T为转码任务队列可消耗的时长,当第n个切片到达客户端后并且客户端的缓存长度Bmec(n)大于缓存阈值Bthresh时,将任务队列的T更新为
Figure BDA0003988810000000032
否则将T更新为Tts(n,m),按照先进先出的原则依次取出转码任务队列的第j个任务,即Bmec(n+j),将其更新为max(0,Bmec(n+j)-T),再将T更新为T-Bmec(n+j),循环执行上述步骤直至T小于零或j超出队列长度。
步骤2、构建视频数据集和无线带宽轨迹数据集。
所述的视频数据集,通过以下方式构建:收集10部分辨率为4K、长度在120分钟左右的电影视频作为原始数据源,使用H.264/AVC编码后,按照HLS协议的格式将其切分为每4秒一个的视频切片。随机挑选视频切片添加噪声组成新的伪视频切片文件,共生成100支5-100分钟随机时长的伪视频源作为视频数据集。
所述的无线带宽轨迹数据集,通过以下方式构建:通过控制每一个无线帧中分配的RB数量得到不同网络带宽的轨迹,将RB数量的分配规则添加随机函数,均值决定网络带宽的平均大小,方差则决定网络带宽的波动幅度,通过改变随机函数均值和方差来模拟网络的不同状况。总计生成100条,每条2000s的网络轨迹数据集作为无线带宽轨迹数据集。
所述的带宽,使用OFDM调制的方式进行模拟,具体为:设置子载波间隔为15kHz、无线信道模型的衰落模型为
Figure BDA0003988810000000041
其中:
Figure BDA0003988810000000042
为大尺度衰落模型,系数α为小尺度衰落模型。所述的大尺度衰落模型使用路径损耗模型为:
Figure BDA0003988810000000043
其中:GA为天线的增益系数,d为基站和用户之间的距离,厂c为子载波的频率,de为一个常量系数。
所述的小尺度衰落使用瑞丽衰落模型,其概率密度函数为:
Figure BDA0003988810000000044
其中:r为大于等于0的实数,δ为此随机过程的标准差。
优选地,所述的无线带宽轨迹数据集中使用虚部和实部均为标准正态分布的方法模拟出瑞丽衰落。仿真环境每次加载网络轨迹时随机挑选一条记录和时间起点,保证训练的随机性,当运行到该条终点时重复上述开始过程,直至视频流会话关闭。
步骤3、构建用于步骤1仿真环境中并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型,并由步骤1仿真环境加载步骤2构建的数据集后,PCMC模型和步骤1中的仿真环境不断进行交互训练。
如图2所示,本实施例中的PCMC模型具体包括:环境编码模块、策略生成模块以及策略评价模块,其中:环境编码模块根据反映环境(Environment)特征的环境状态信息
Figure BDA00039888100000000411
Figure BDA0003988810000000046
输出特征向量;策略生成模块生成决策模型
Figure BDA0003988810000000047
根据环境编码模块生成的特征向量输出未来k块视频切片的码率选择,即动作An=(vn,vn+1,...,vn+k)的概率分布
Figure BDA0003988810000000048
当传输索引n的切片时,并行执行n+1至n+k的切片码率的转码过程以减小因转码带来的延时,v(n)为请求索引n视频切片选择的码率,
Figure BDA0003988810000000049
为在t时刻客户端Buffer的长度,b(n)为传输索引n视频切片的平均网络吞吐量,Z(n,m)为索引n码率m视频切片的字节大小,d(n-1)为传输索引n视频造成客户端播放卡顿时长,C(n)为索引n视频切片在缓存中最高的码率版本,l(n)为剩余的视频切片数量;策略评价模块拟合状态值(V)函数,根据环境状态信息的特征向量输出V值至策略生成模块,用于梯度更新。
优选地,所述的策略生成模块中进一步设置动作掩模(Action Mask)以过滤不可能发生的动作,例如将动索引超出视频切片总数的动作滤除。
优选地,所述的环境编码模块内置存储单元存储历史u个节点信息。
所述的PCMC模型,以最大化期望回报值J(πθ)为目标,采用A3C方法进行异步训练,即在AC网络架构的基础上部署多个子线程进行同时训练,子线程训练完毕后将参数同步给主线程;训练过程中策略生成模块和策略评价模块的参数分别通过以下方式进行更新:
Figure BDA00039888100000000410
Figure BDA0003988810000000051
其中:状态
Figure BDA0003988810000000052
采取动作An比平均水平的差异
Figure BDA0003988810000000053
从状态
Figure BDA0003988810000000054
并执行动作An的双重设定下,在策略π下能够获得的期望回报值
Figure BDA0003988810000000055
V函数的贝尔曼方程为
Figure BDA0003988810000000056
智能体做出动作后得到环境的奖励为
Figure BDA0003988810000000057
ω、μ、δ、
Figure BDA0003988810000000058
为各子项的权重系统,为常量。q(0)为最高码率,方便归一化处理;同时为使模型权衡近期奖励和长期奖励的重要性,使用随着时间衰减的折扣回报Rτ来使策略模型能考虑长远的回报值:
Figure BDA0003988810000000059
PCMC模型的策略生成模块和环境编码模块不断交互产生奖励直至达到终止状态,此过程的状态信息、动作和奖励的所有集合即轨迹τ,其发生的概率P(τ);信道衰落条件遵循k状态马尔可夫模型,置信空间向量
Figure BDA00039888100000000510
为在状态信息
Figure BDA00039888100000000511
下观察到
Figure BDA00039888100000000512
的概率分布;在部分可观察马尔可夫决策过程(POMDP)中,回报值为r′n,即在置信空间向量下能够得到的rn的期望值;将r′n替换折扣回报Rτ中rn得到新的折扣回报R′τ。由于环境状态转移和策略都具有随机性,同样的策略模型作用于同初始状态的同一环境,也可能产生截然不同的轨迹,因此强化学习模型的优化目标应为最大化在观察到
Figure BDA00039888100000000515
下的期望回报值
Figure BDA00039888100000000514
θ表示强化学习模型中所有的参数集合。视频流会话总能量损耗E=Ec+Eom+Etc,其中:MEC服务端执行缓存任务时带来的能耗Ec=wcm*Z(n,m),当缓存未命中时,请求源服务器数据的传输延时Tom=Z(n,m)/Wom,传输能耗Eom=eom*Z(n,m)*Tom;当缓存中存在码率版本高于请求时,MEC执行转码任务的计算能耗Etc=ρ0*ctm*(qext-qtar)*Ttc(n,m);wcm为MEC的缓存能耗单位,wom为MEC到源服务器的带宽,eom为MEC到源服务器的传输能耗单位,ρ0为CPU运行每周期的能耗,ctm为CPU处理每比特转码任务所需的周期数。
所述的用户QoE指标包括:客户端的平均播放质量、播放码率的平滑度以及播放卡顿时间。
经过具体实际实验,在表1的具体环境设置下,部署8个子线程进行训练,当所有子线程训练经过500个epoch之后,网络收敛,记录训练过程中的最优模型。经过测试,最优模型在测试集上的平均QoE可达289.28。
Figure BDA0003988810000000061
如图3所示,本发明大大降低MEC转码所带来的时延,同时兼顾能效,提高用户的QoE。对比方法(Baseline1)每次只考虑未来一个视频切片的码率选择,和本方法使用相同的网络架构,并在相同数据集和测试集上进行训练和测试。由于训练时每个epoch的网络环境具有随机性,平均带宽并不一致,因此观察模型在相同测试集上的性能来体现方法的优劣。从图中可以看出,本发明由于具有更灵活的码率选择策略,传输和转码的并行执行降低延时,最优的效果好于对比方法。
如图4所示,将MPC方法作为Baseline 2方法,分别将三种方法放在不同的网络场景下,统计三种方法的平均QoE、平均码率、平均播放卡顿时间以及平均码率波动性。从图中可以看出,本方法的平均QoE高于其他两种方法,虽然平均码率稍低于Baseline 2方法,但是本方法更好地考虑视频码率的波动性,避免视频码率的过多切换造成播放体验质量下降。
与现有技术相比,本方法更全面地考虑了RAN侧信息,通过更灵活的码率选择策略模型(PCMC),在针对配置MEC的无线通信环境下,利用RAN侧和客户端的信息,动态地选择未来多个视频切片的码率。对于边缘缓存中已经存在的视频切片通常需要进行码率转码后再传输至客户端,由于本发明模型具有灵活的多视频切片码率选择特性,通过并行执行视频切片的传输和转码任务显著减少了MEC带来的计算延迟。同时本发明综合考虑计算和传输的能耗因素,在提高用户的QoE的同时尽可能降低视频流会话的能耗。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征在于,通过构建能够多址边缘计算(MEC)转码的服务端及内置缓存的客户端作为视频流会话仿真环境,采用并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型,以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习(A3C)的训练,在在线阶段通过该模型对视频码率进行自适应调整;
所述的PCMC模型具备多动作输出的网络结构,包括:环境编码模块、策略生成模块和策略评价模块,其中:环境编码模块根据反映环境(Environment)特征的状态信息
Figure FDA0003988809990000012
生成特征向量,策略生成模块根据特征向量输出由未来k个动作的集合An组成的策略,策略评价模块对当前的策略进行评价估值并反馈至策略生成模块以估值调整其策略模型。
2.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的客户端内置缓存,当请求的视频切片到达客户端时缓存增加的长度为该视频切片包含的视频内容长度,缓存的消耗速率等于客户端播放视频速率;
所述的缓存的长度满足:
Figure FDA0003988809990000011
其中:Bue(n)为索引为n的切片到达客户端时缓存的长度,t为该视频切片到达客户端的时刻,L为切片包含的视频内容长度;当Bue(n)的长度大于阈值(Bthresh)时,停止请求视频并休眠整数个休眠周期(Ts)直至缓存满足条件;Tts(n,m)为第n块的m级码率切片的传输时间;当用户使用正常播放速率播放视频,则当请求的视频切片到达时,缓存的消耗长度就等于传输时间与转码时间的总和。
3.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的转码是指:在服务端设置转码任务队列,采用PCMC模型选择未来k块视频码率后,MEC缓存并依次检查是否命中,即是否存在高码率版本;当命中时通过转码任务队列依次进行视频切片的转码;
所述的转码任务队列中每个转码任务的时长与计算设备的cpu核心数量、频率和转码前后的码率之差有关,则转码任务队列的第n个切片的转码任务的时长满足:
Figure FDA0003988809990000021
其中:原始的码率为q(0),目标码率为q(m),Cm为在单核情况下处理单个码率差值等级所需要的CPU周期数;当切片在传输或者客户端缓存进行休眠时,任务队列里的转码任务可以并行执行以减小因转码带来的延迟。
4.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的MEC缓存是指:服务端利用缓存资源缓存最频繁被访问的视频切片并使用最低频率淘汰算法(LFU)模拟缓存的更新机制,具体为:优先缓存访问频率高的视频切片,同一切片的不同码率只缓存最高的码率版本;当缓存达到上限,优先淘汰频率低的切片,在频率相同的情况下优先淘汰访问时间点最早的片段,当请求视频切片码率版本低于缓存中的版本即为命中,否则未命中;
所述的转码任务队列,具体更新方式如下:标记T为转码任务队列可消耗的时长,当第n个切片到达客户端后并且客户端的缓存长度Bmec(n)大于缓存阈值Bthresh时,将任务队列的T更新为
Figure FDA0003988809990000022
否则将T更新为Tts(n,m),按照先进先出的原则依次取出转码任务队列的第j个任务,即Bmec(n+j),将其更新为max(0,Bmec(n+j)-T),再将T更新为T-Bmec(n+j),循环执行上述步骤直至T小于零或j超出队列长度。
5.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的视频数据集,通过以下方式构建:收集10部分辨率为4K、长度在120分钟左右的电影视频作为原始数据源,使用H.264/AVC编码后,按照HLS协议的格式将其切分为每4秒一个的视频切片;随机挑选视频切片添加噪声组成新的伪视频切片文件,共生成100支5-100分钟随机时长的伪视频源作为视频数据集。
6.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的无线带宽轨迹数据集,通过以下方式构建:通过控制每一个无线帧中分配的RB数量得到不同网络带宽的轨迹,将RB数量的分配规则添加随机函数,均值决定网络带宽的平均大小,方差则决定网络带宽的波动幅度,通过改变随机函数均值和方差来模拟网络的不同状况;总计生成100条,每条2000s的网络轨迹数据集作为无线带宽轨迹数据集;
所述的带宽,使用OFDM调制的方式进行模拟,具体为:设置子载波间隔为15kHz、无线信道模型的衰落模型为
Figure FDA0003988809990000023
其中:
Figure FDA0003988809990000024
为大尺度衰落模型,系数α为小尺度衰落模型;
所述的大尺度衰落模型使用路径损耗模型为:
Figure FDA0003988809990000031
其中:GA为天线的增益系数,d为基站和用户之间的距离,fc为子载波的频率,de为一个常量系数;
所述的小尺度衰落使用瑞丽衰落模型,其概率密度函数为:
Figure FDA0003988809990000032
其中:r为大于等于0的实数,δ为此随机过程的标准差。
7.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的无线带宽轨迹数据集中使用虚部和实部均为标准正态分布的方法模拟出瑞丽衰落;仿真环境每次加载网络轨迹时随机挑选一条记录和时间起点,保证训练的随机性,当运行到该条终点时重复上述开始过程,直至视频流会话关闭。
8.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的PCMC模型具体包括:环境编码模块、策略生成模块以及策略评价模块,其中:环境编码模块根据反映环境(Environment)特征的环境状态信息
Figure FDA0003988809990000033
Figure FDA0003988809990000034
Z(n,m),d(n-1),C(n),l(n))输出特征向量;策略生成模块生成决策模型
Figure FDA0003988809990000035
根据环境编码模块生成的特征向量输出未来k块视频切片的码率选择,即动作An=(vn,vn+1,...,vn+k)的概率分布
Figure FDA0003988809990000036
当传输索引n的切片时,并行执行n+1的切片码率的转码过程以减小因转码带来的延时,v(n)为请求索引n视频切片选择的码率,
Figure FDA0003988809990000037
为在t时刻客户端Buffer的长度,b(n)为传输索引n视频切片的平均网络吞吐量,Z(n,m)为索引n码率m视频切片的字节大小,d(n-1)为传输索引n视频造成客户端播放卡顿时长,C(n)为索引n视频切片在缓存中最高的码率版本,l(n)为剩余的视频切片数量;策略评价模块拟合状态值(V)函数,根据环境状态信息的特征向量输出V值至策略生成模块,用于梯度更新。
9.根据权利要求1所述的面向边缘蜂窝网络基于强化学习的视频码率自适应方法,其特征是,所述的PCMC模型,以最大化期望回报值J(πθ)为目标,采用A3C方法进行异步训练,即在AC网络架构的基础上部署多个子线程进行同时训练,子线程训练完毕后将参数同步给主线程;训练过程中策略生成模块和策略评价模块的参数分别通过以下方式进行更新:
Figure FDA0003988809990000038
Figure FDA0003988809990000039
其中:状态
Figure FDA00039888099900000310
采取动作An比平均水平的差异
Figure FDA0003988809990000041
从状态
Figure FDA0003988809990000042
并执行动作An的双重设定下,在策略π下能够获得的期望回报值
Figure FDA0003988809990000043
V函数的贝尔曼方程为
Figure FDA0003988809990000044
强化学习模型的优化目标应为最大化在观察到
Figure FDA0003988809990000045
下的期望回报值
Figure FDA0003988809990000046
θ表示强化学习模型中所有的参数集合,置信空间向量
Figure FDA0003988809990000047
为在状态信息
Figure FDA0003988809990000048
下观察到
Figure FDA0003988809990000049
的概率分布;智能体做出动作后得到环境的奖励为
Figure FDA00039888099900000410
ω、μ、δ、
Figure FDA00039888099900000411
为各子项的权重系统,为常量;q(0)为最高码率,方便归一化处理;同时为使模型权衡近期奖励和长期奖励的重要性,使用随着时间衰减的折扣回报Rτ来使策略模型能考虑长远的回报值:
Figure FDA00039888099900000412
PCMC模型的策略生成模块和环境编码模块不断交互产生奖励直至达到终止状态,此过程的状态信息、动作和奖励的所有集合即轨迹τ,其发生的概率P(τ);在部分可观察马尔可夫决策过程(POMDP)中,回报值为r′n,即在置信空间向量下能够得到的rn的期望值;将r′m替换折扣回报Rτ中rn得到新的折扣回报R′τ;由于环境状态转移和策略都具有随机性,同样的策略模型作用于同初始状态的同一环境,也可能产生截然不同的轨迹,因此强化学习模型的优化目标应为最大化在观察到
Figure FDA00039888099900000413
下的期望回报;视频流会话总能量损耗E=Ec+Eom+Etc,其中:MEC服务端执行缓存任务时带来的能耗Ec=wcm*Z(n,m),当缓存未命中时,请求源服务器数据的传输延时Tom=Z(n,m)/Wom,传输能耗Eom=eom*Z(n,m)*Tom;当缓存中存在码率版本高于请求时,MEC执行转码任务的计算能耗Etc=ρ0*ctm*(qext-qtar)*Ttc(n,m);wcm为MEC的缓存能耗单位,wom为MEC到源服务器的带宽,eom为MEC到源服务器的传输能耗单位,ρ0为CPU运行每周期的能耗,ctm为CPU处理每比特转码任务所需的周期数。
10.一种实现权利要求1-9中任一所述面向边缘蜂窝网络基于强化学习的视频码率自适应方法的系统,其特征在于,包括:视频源服务器端、客户端以及位于服务器端的码率选择模块、缓存模块和转码模块,其中:客户端在本地维护视频切片缓存,并在向服务端请求视频切片时会附加本地的缓存状态信息,码率选择模块根据请求信息运行PCMC模型输出未来K块的码率选择,缓存模块依次检查未来K块的视频切片是否存在高码率版本,并由转码模块相应将高码率版本的视频切片加入转码任务队列,转换为对应的版本后传输至客户端,否则由MEC服务器向用于存储所有视频数据的视频源服务器端请求该视频切片的高码率版本后,由MEC服务器转发传输至客户端;
所述的传输,与转码同步执行。
CN202211574628.3A 2022-12-08 2022-12-08 面向边缘蜂窝网络基于强化学习的视频码率自适应方法 Active CN116016987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211574628.3A CN116016987B (zh) 2022-12-08 2022-12-08 面向边缘蜂窝网络基于强化学习的视频码率自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211574628.3A CN116016987B (zh) 2022-12-08 2022-12-08 面向边缘蜂窝网络基于强化学习的视频码率自适应方法

Publications (2)

Publication Number Publication Date
CN116016987A true CN116016987A (zh) 2023-04-25
CN116016987B CN116016987B (zh) 2024-06-18

Family

ID=86028904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211574628.3A Active CN116016987B (zh) 2022-12-08 2022-12-08 面向边缘蜂窝网络基于强化学习的视频码率自适应方法

Country Status (1)

Country Link
CN (1) CN116016987B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805923A (zh) * 2023-08-25 2023-09-26 淳安华数数字电视有限公司 基于边缘计算的宽带通信方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109525861A (zh) * 2018-12-05 2019-03-26 北京邮电大学 一种确定用户所需视频的方法及装置
CN110913373A (zh) * 2019-09-17 2020-03-24 上海大学 基于联合时频优先级策略的车内无线通信平台及其抗干扰方法
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN111431941A (zh) * 2020-05-13 2020-07-17 南京工业大学 一种基于移动边缘计算的实时视频码率自适应方法
CN113114756A (zh) * 2021-04-08 2021-07-13 广西师范大学 一种移动边缘计算中自适应码率选择的视频缓存更新方法
CN114501468A (zh) * 2022-02-22 2022-05-13 上海大学 Tdd网络中联合上下行切片资源分配的方法
CN114640870A (zh) * 2022-03-21 2022-06-17 陕西师范大学 一种QoE驱动的无线VR视频自适应传输优化方法及系统
CN114867030A (zh) * 2022-06-09 2022-08-05 东南大学 双时间尺度智能无线接入网切片方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN109525861A (zh) * 2018-12-05 2019-03-26 北京邮电大学 一种确定用户所需视频的方法及装置
CN110913373A (zh) * 2019-09-17 2020-03-24 上海大学 基于联合时频优先级策略的车内无线通信平台及其抗干扰方法
CN111431941A (zh) * 2020-05-13 2020-07-17 南京工业大学 一种基于移动边缘计算的实时视频码率自适应方法
CN113114756A (zh) * 2021-04-08 2021-07-13 广西师范大学 一种移动边缘计算中自适应码率选择的视频缓存更新方法
CN114501468A (zh) * 2022-02-22 2022-05-13 上海大学 Tdd网络中联合上下行切片资源分配的方法
CN114640870A (zh) * 2022-03-21 2022-06-17 陕西师范大学 一种QoE驱动的无线VR视频自适应传输优化方法及系统
CN114867030A (zh) * 2022-06-09 2022-08-05 东南大学 双时间尺度智能无线接入网切片方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. LUO 等: "Adaptive Video Streaming With Edge Caching and Video Transcoding Over Software-Defined Mobile Networks: A Deep Reinforcement Learning Approach", IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS, vol. 19, no. 03, 3 December 2019 (2019-12-03), pages 1577 - 1592, XP011777875, DOI: 10.1109/TWC.2019.2955129 *
曹行健 等: "面向智慧交通的图像处理与边缘计算", 中国图象图形学报, vol. 27, no. 06, 16 June 2022 (2022-06-16), pages 1743 - 1767 *
王英: "移动边缘视频自适应传输与缓存机制研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 2022, 15 April 2022 (2022-04-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805923A (zh) * 2023-08-25 2023-09-26 淳安华数数字电视有限公司 基于边缘计算的宽带通信方法
CN116805923B (zh) * 2023-08-25 2023-11-10 淳安华数数字电视有限公司 基于边缘计算的宽带通信方法

Also Published As

Publication number Publication date
CN116016987B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
Ahlehagh et al. Video-aware scheduling and caching in the radio access network
Khan et al. A survey on mobile edge computing for video streaming: Opportunities and challenges
CN112953922B (zh) 一种自适应流媒体控制方法、系统、计算机设备及应用
Chen et al. Artificial intelligence aided joint bit rate selection and radio resource allocation for adaptive video streaming over F-RANs
Chiang et al. Collaborative social-aware and QoE-driven video caching and adaptation in edge network
Guo et al. Buffer-aware streaming in small-scale wireless networks: A deep reinforcement learning approach
Batalla et al. Adaptive video streaming: Rate and buffer on the track of minimum rebuffering
Tan et al. Radio network-aware edge caching for video delivery in MEC-enabled cellular networks
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
Hong et al. Continuous bitrate & latency control with deep reinforcement learning for live video streaming
Zhao et al. Popularity-based and version-aware caching scheme at edge servers for multi-version VoD systems
Mu et al. AMIS: Edge computing based adaptive mobile video streaming
Tian et al. Deeplive: QoE optimization for live video streaming through deep reinforcement learning
CN116016987B (zh) 面向边缘蜂窝网络基于强化学习的视频码率自适应方法
Zeng et al. MADRL-Based Joint Edge Caching and Bitrate Selection for Multicategory 360° Video Streaming
CN115720237A (zh) 边缘网络自适应比特率视频的缓存和资源调度方法
KR101966588B1 (ko) 모바일 단말의 비디오 콘텐츠 수신 방법 및 장치
Chen et al. Cooperative caching for scalable video coding using value-decomposed dimensional networks
Mu et al. AMIS-MU: edge computing based adaptive video streaming for multiple mobile users
Chou et al. Pricing-based deep reinforcement learning for live video streaming with joint user association and resource management in mobile edge computing
Kim et al. eff-HAS: Achieve higher efficiency in data and energy usage on dynamic adaptive streaming
Lekharu et al. Content-Aware Caching at the Mobile Edge Network Using Federated Learning
Zhan et al. Cloud-edge learning for adaptive video streaming in B5G internet-of-thing systems
Lin et al. KNN-Q learning algorithm of bitrate adaptation for video streaming over HTTP
CN115051996A (zh) 一种多接入边缘计算下基于本地视频效用值的视频缓存管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant