Nothing Special   »   [go: up one dir, main page]

CN116669111A - 一种基于区块链的移动边缘计算任务卸载方法 - Google Patents

一种基于区块链的移动边缘计算任务卸载方法 Download PDF

Info

Publication number
CN116669111A
CN116669111A CN202310802546.8A CN202310802546A CN116669111A CN 116669111 A CN116669111 A CN 116669111A CN 202310802546 A CN202310802546 A CN 202310802546A CN 116669111 A CN116669111 A CN 116669111A
Authority
CN
China
Prior art keywords
time slot
task
blockchain
edge
edge device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310802546.8A
Other languages
English (en)
Inventor
李云
康梅艳
鲜永菊
左琳立
吴广富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310802546.8A priority Critical patent/CN116669111A/zh
Publication of CN116669111A publication Critical patent/CN116669111A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/10Integrity
    • H04W12/106Packet or message integrity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/10Integrity
    • H04W12/108Source integrity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于移动通信技术领域,具体涉及一种基于区块链的移动边缘计算任务卸载方法,包括针对多服务器的动态MEC场景,建立基于区块链的移动边缘计算任务卸载模型;以最小化用户完成计算任务的成本以及最大化用户参与挖矿获得的效用为目标,在多维资源约束的条件下,建立任务卸载和资源分配联合优化模型;考虑到随机时变的网络环境和环境状态的部分可观测性,将任务卸载成本问题和区块链挖矿效用问题抽象为部分可观测的马尔可夫决策过程;根据所建立的系统模型获得MDP问题的状态空间和动作空间,并构建奖励函数;采用多智能体强化学习算法做出最优卸载和资源分配决策;本发明实现了更低的任务卸载成本和更高的区块链挖矿效用。

Description

一种基于区块链的移动边缘计算任务卸载方法
技术领域
本发明属于移动通信技术领域,具体涉及一种基于区块链的移动边缘计算任务卸载方法。
背景技术
随着互联网的发展,移动设备的数量急剧增加,涌现了许多时延敏感型、计算密集型的应用,如虚拟现实、交互式在线游戏、人脸识别、超高清视频等。由于移动设备的计算资源、存储资源有限,无法高效地完成上述的时延敏感型、计算密集型的应用,使得用户体验感较差。针对以上问题,提出了移动云计算,即用户将计算任务发送至云端,利用云端丰富的计算资源完成计算任务,在计算完成后,将结果传回用户端。但由于通常用户距离云端较远,导致时延往往很大,因此移动云计算不适用于时延敏感型的应用。
为了解决移动云计算中存在的时延高的问题,移动边缘计算(MEC)应运而生。移动边缘计算是欧洲电信标准协会于2014年首次提出的。与云计算不同,MEC将计算任务卸载至配备了边缘服务器的边缘设备进行计算,使得计算资源、存储资源更靠近移动设备,降低了时延和用户能耗,提高了任务卸载的效率以及用户体验,因此移动边缘计算受到了学术界和工业界的广泛关注。
随着IOT感知器的数量激增,边缘设备的数量也越来越多,在一个MEC服务器的覆盖范围内需要处理的任务数量越来越多,一个MEC服务器难以同时满足所有的计算需求,因此考虑多MEC服务器协同的场景。在MEC系统中,MEC服务器通常来自于不同的服务提供商,不同的服务器之间会存在利益冲突,很难在各方之间建立信任,而且边缘设备也是异构的,在异构的边缘节点之间的交互,以及跨节点之间的服务迁移会引发安全和隐私问题。
凭借去中心化、防篡改、透明性、不可变性、可追溯、匿名性等优势,区块链技术可以在分布式系统中构建安全、可信的交易环境,解决上述的安全和隐私问题。在区块链辅助MEC系统中,在用户与边缘服务器的交互中使用非对称加密算法、哈希算法等加密技术来保护交互过程的隐私安全,除此之外,区块链可以通过共识机制对交易记录进行一致性确认,保证了交易记录的完整性和可靠性。在MEC系统中,需要中央控制器做出卸载决策,如果这个机构遭受到攻击,将会导致整个MEC系统瘫痪,也被称为单点故障,区块链具有分布式的特性和共识机制,在少数节点被攻击的情况下,仍能够保持系统正常运行。因此,将区块链与MEC合理地结合起来,能够提高MEC系统的安全性。
发明内容
为了实现更低的任务卸载成本和更高的区块链挖矿效用,本发明提出一种基于区块链的移动边缘计算任务卸载方法,具体包括以下步骤:
针对多服务器的动态MEC场景,考虑到MEC服务器的计算、通信资源和信道状态是时变的以及异构的边缘节点之间的交互会引发安全和隐私问题,建立了基于区块链的移动边缘计算任务卸载模型;
以最小化用户完成计算任务的成本以及最大化用户参与挖矿获得的效用为目标,在多维资源约束的条件下,建立任务卸载和资源分配联合优化模型;
考虑到随机时变的网络环境和环境状态的部分可观测性,将任务卸载成本问题和区块链挖矿效用问题抽象为部分可观测的马尔可夫决策过程;
根据所建立的系统模型获得MDP问题的状态空间和动作空间,并构建奖励函数;
采用多智能体强化学习算法做出最优卸载和资源分配决策。
进一步的,基于区块链的移动边缘计算任务卸载模型包括:
当一个边缘设备有计算任务卸载需求时,向MEC服务器层发送卸载需求,在收到多个回复消息后,通过查询存储在区块链中的MEC服务器的可靠度表找到候选者的可靠度,根据可靠度以及信道状况、服务器的可用计算资源选择恰当的服务器进行计算卸载,可靠度表根据计算任务卸载的已验证的交易来定期更新;
将每个MEC服务器的可靠度存储在区块链账本中,在边缘设备做卸载决策时,从区块链中查询到可靠度;
在共识过程中,主节点负责块的产生,副本节点负责块的验证,没有被选择的边缘设备作为普通节点,只负责将已验证的块加入维护的区块链账本中。
进一步的,区块链共识的过程包括:
对一个块或交易签名需要x个CPU周期数,验证一个签名需要y个CPU周期数,产生一个MAC需要z个CPU周期数,验证一个MAC需要z个CPU周期数;
主节点从所有的边缘设备中收集未验证的交易,然后按照时间戳对交易进行排序,假设块的大小为Sb(t),交易的平均大小为χ,则一个块中的交易数为:在这一阶段,主节点需要验证L个交易的签名和MAC,因此主节点的计算成本为L(y+z);
主节点为块产生一个签名和MAC,为Ns-1个副本节点产生用于pre-prepare消息的MAC,每个副本节点验证块的MAC,以及块中L个交易的签名和MAC,主节点的计算成本为x+Nsz,每个副本节点的计算成本为z+L(y+z),假设块的传输时间与块的大小成正比,则消息传输时间为τbSb
副本节点验证了pre-prepare消息后,向其他共识节点发送prepare消息,在每个共识节点收到2f个prepare消息后,进入下一个阶段,在这一阶段中,主节点需要验证2f个MAC,因此计算成本为2fz;每个副本节点需要产生Ns-1个MAC以及验证2f个MAC,每个副本节点的计算成本为(Ns-1)z+2fz,消息传输时间为τbSb
在接收到2f个prepare消息后,每个共识节点向其他节点包括主节点发送commit消息,在这一阶段,主节点和副本节点需要验证2f个MAC,产生Ns-1个MAC,因此主节点和副本节点的计算成本为(Ns-1)z+2fz,消息传输时间为τbSb
在接收到2f个commit消息后,主节点和副本节点认为块是合法的,将块加入区块链账本中,并向其他边缘设备发送包含验证的块的reply消息,在收到f+1个reply消息后更新全局视图,在这一阶段中,主节点和副本节点需要为reply消息产生一个MAC,因此主节点和副本节点的计算成本为z,消息传输时间为τbSb
进一步的,建立任务卸载和资源分配联合优化模型包括:
约束条件:
其中,xn(t)表示时隙t下边缘设备n的本地观测;pn(t)表示时隙t下边缘设备n将任务卸载到MEC服务器m的传输功率;为时隙t下MEC服务器m为执行边缘设备n的卸载任务分配的计算资源;为时隙t下边缘设备n为执行任务分配的计算资源;为时隙t下边缘设备为区块链挖矿分配的计算资源;为时隙t下边缘设备n的共识效用;Cost(t)为时隙t下边缘设备的成本;xn(t)表示时隙t下边缘设备n的卸载决策,如果在时隙t计算任务被卸载到MEC服务器i执行,则xn(t)=i,如果任务在本地执行则xn(t)=0;为边缘设备的集合,N为边缘设备的数量;Pn为传输功率的最大值;为系统操作时间被离散化为T个时隙的集合;Fn为边缘设备n的最大计算资源;Fm为服务器m的最大计算资源;为MEC服务器的集合;φn为边缘设备n用于区块链挖矿的最大计算资源;τn表示任务可容忍的最大时延;Tn(t)为边缘设备n在时隙t的处理时延。
进一步的,将任务卸载成本问题和区块链挖矿效用问题抽象为部分可观测的马尔可夫决策过程包括:由边缘设备充当智能体,并定义元组{S,O,A,R}描述上述马尔可夫博弈过程,其中,S表示全局的状态空间,时隙t的环境为全局状态s(t)∈S,O={O1,O2,...,ON}为智能体的观测空间集合,On为边缘设备n的观测空间对应的取值空间;A={A1,A2,...,AN}为智能体的动作空间集合,An为边缘设备n的智能体的动作空间对应的取值空间;R={R1,R2,...,RN}为奖励集合,Rn为边缘设备n的奖励对应的取值空间;在时隙t,智能体N根据本地观测on(t)∈On,采取策略πn:On→An,选择对应的动作an(t)∈An,从而获得相应的奖励rn(t)∈Rn
进一步的,MDP问题的状态空间包括时隙t单个智能体的观测信息包含计算任务的大小、可容忍时延、信道状态、边缘设备的资源状态以及MEC服务器的状态,时隙t的状态空间表示为:
on(t)={otask(t),ochannel(t),oresource(t),oserver(t)}
其中,otask(t)={Cn(t),Dn(t),τn(t)}为时隙t下任务的观测信息,Cn(t)为时隙t下计算任务所需的计算资源,Dn(t)为时隙t下计算任务的大小,τn(t)为时隙t下计算任务的最大可容忍时延;ochannel(t)为时隙t下信道的观测信息,为时隙t下边缘设备n的资源状态;oserver(t)={μm(t),Fm(t)}为时隙t下边缘设备n观察到的MEC服务器的状态信息,μm(t)为时隙t下MEC服务器m的可靠度,Fm(t)为时隙t下MEC服务器m的可用计算资源。
进一步的,MDP问题的动作空间包括时隙t单个智能体的动作包括卸载决策、传输功率选择、计算资源分配、共识资源分配,时隙t的动作集合表示为:
进一步的,奖励函数表示为:
其中,r(t)表示时隙t下的奖励函数值;rn(t)表示时隙t下边缘设备n的奖励函数值;N为边缘设备的数量。
进一步的,采用多智能体强化学习算法做出最优卸载和资源分配决策,其中多智能体强化学习算法由环境和N个智能体组成,每个智能体有集中训练阶段和分散执行阶段,在训练阶段,采用集中式学习来训练critic网络和actor网络,critic网络训练时需要使用其他智能体的状态信息;在分散执行阶段actor只需要知道局部信息,并根据其他智能体的估计策略来调整局部策略,以达到全局最优,具体包括以下步骤:
令π={π12,...,πN}为所有智能体的策略集合,θ={θ12,...,θN}为相应的策略的参数集合,每个智能体通过更新参数θn来获得最优的策略;
在分散执行阶段,在每个时隙t时,每个智能体的actor网络根据本地观测状态on(t)以及其自身的策略选择动作,表示为:
an(t)=πnon(t)
在集中训练阶段,每个critic网络可以获得其他智能体的观测on(t)和动作an(t),则智能体n的Q函数可表示为:
Q函数从全局的角度来评估actor网络的动作,并且指导actor网络选择更优的动作;
在训练时,critic网络通过最小化损失函数来更新网络参数,损失函数表示为:
actor网络基于critic网络计算得到的损失函数以及它自身的观测信息来更新网络参数,并输出动作;actor通过计算目标函数的梯度更新网络:
目标网络的参数通过软更新的方式进行更新,即:
其中,γ为折扣因子;Eo,a,r,o'[·]表示对表达式求期望,其中o为观测集合,a为动作集合,r为奖励集合,o'为下一时隙的观测集合;rn为时隙t下边缘设备n的奖励;o'n(t)为时隙t的下一时隙智能体n的观测;a'n=πn(on)为在观测集合为on时根据策略πn选择的动作,πn(·)表示智能体n的策略;Eo,a~D[·]表示对表达式求期望,表示对表达式关于actor当前网络的参数θn求梯度,πn(an|on)为智能体在观测on下做出动作an的策略;为actor网络软更新系数,θn为actor当前网络的参数,θn'为actor目标网络的参数,为critic网络软更新系数,ωn为critic当前网络的参数,ω'n为critic目标网络的参数。
本发明研究了多服务器的MEC场景中的任务卸载和资源分配方法,考虑到MEC服务器的计算、通信资源和信道状态是时变的以及异构的边缘节点之间的交互会引发安全和隐私问题,建立了基于区块链的移动边缘计算任务卸载模型;然后,以最小化用户完成计算任务的成本以及最大化用户参与挖矿获得的效用为目标,在多维资源约束的条件下,建立任务卸载和资源分配联合优化模型;同时,考虑到随机时变的网络环境和环境状态的部分可观测性,将任务卸载成本问题和区块链挖矿效用问题抽象为部分可观测的马尔可夫决策过程;采用深度强化学习算法进行求解,智能体通过学习任务卸载和资源分配的历史信息,从而做出更优的决策,本发明实现了更低的任务卸载成本和更高的区块链挖矿效用。
附图说明
图1为本发明考虑的一种典型的MEC系统模型图;
图2为本发明中基于区块链的移动边缘计算任务卸载和资源分配的方法流程图;
图3为本发明中所采用的MADDPG算法框架图;
图4为本发明中所采用的区块链的链式数据结构;
图5为本发明中采用的基于PBFT的共识算法的共识过程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于区块链的移动边缘计算任务卸载方法,如图2,具体包括以下步骤:
针对多服务器的动态MEC场景,考虑到MEC服务器的计算、通信资源和信道状态是时变的以及异构的边缘节点之间的交互会引发安全和隐私问题,建立基于区块链的移动边缘计算任务卸载模型;
以最小化用户完成计算任务的成本以及最大化用户参与挖矿获得的效用为目标,在多维资源约束的条件下,建立任务卸载和资源分配联合优化模型;
考虑到随机时变的网络环境和环境状态的部分可观测性,将任务卸载成本问题和区块链挖矿效用问题抽象为部分可观测的马尔可夫决策过程;
根据所建立的系统模型获得MDP问题的状态空间和动作空间,并构建奖励函数;
采用多智能体强化学习算法做出最优卸载和资源分配决策。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
一、系统模型
如图1所示,本发明考虑一种典型的MEC系统,其由四层组成,分别是:IOT感知器层、边缘设备层、MEC服务器层、云服务器层。IOT感知器层由摄像头、智能电表、可穿戴设备、健康检测设备等组成,从物理环境中感知信息并生成需要计算的数据。IOT感知器作为轻量级的区块链节点,选举有代表性的边缘设备执行挖矿并生成区块,设边缘设备的集合为即系统中包括N个边缘设备,边缘设备负责从其管理的一组IOT感知器中收集数据,并且对数据进行分析,决定是要在边缘设备执行还是卸载到MEC服务器上执行,设MEC服务器的集合为即系统中包括M个MEC服务器,系统操作时间被离散化为T个时隙,表示为为了简单起见,假设每个边缘设备在当前时隙只有一个计算任务,定义任务为Sn={Cn,Dnn},Cn表示完成任务Sn所需的计算资源(CPU周期数),Dn表示任务的大小,τn表示任务可容忍的最大时延。
边缘设备从一组IOT感知器中收集需要计算的数据,通过对数据大小、可容忍时延、信道状况以及MEC服务器的计算资源分析,做出卸载决策。在任务处理完成后,若任务在MEC服务器进行处理,结果被返回边缘设备,边缘设备验证结果并对任务执行者的性能进行评估,若结果被验证为有效的,则边缘设备向MEC支付服务费用,并对保存在区块链中的MEC服务器的可靠度进行更新。
1.通信模型
定义为时隙t时边缘设备n的卸载决策,如果在时隙t计算任务被卸载到MEC服务器i执行,则xn(t)=i,如果任务在本地执行则xn(t)=0。边缘设备与MEC服务器之间的上行链路信道增益定义为hmn(t),t时隙下边缘设备n将任务卸载到MEC服务器m的传输功率为pn(t),传输功率策略为其中为卸载任务到MEC服务器的边缘设备的集合,pn为边缘设备n将任务卸载到MEC服务器m的传输功率,Pn为边缘设备n将任务卸载到MEC服务器m的最大传输功率,假设W为边缘设备n与MEC服务器m之间的带宽,则t时隙下边缘设备n与MEC服务器m之间的传输速率为:
其中,σ2(t)是时隙t下边缘设备n与MEC服务器m之间的传输信道的背景噪声功率,在同一时隙中,信道参数不发生改变,不同时隙中,信道参数不同;dmn为边缘设备n与MEC服务器m之间的距离,α为路径损耗指数。
边缘设备n与MEC服务器m之间的传输时延为:
2.本地计算模型
假设为时隙t时边缘设备n为执行任务分配的计算资源,边缘设备的计算资源分配策略为其中Fn为边缘设备n的最大计算资源,则边缘设备n在本地执行计算任务的时延为:
在本地执行计算任务的能耗为:
其中,κn是边缘设备n中特定于芯片结构的能量系数。
3.MEC服务器计算模型
假设为时隙t时MEC服务器m为执行边缘设备n的卸载任务分配的计算资源,则任务在MEC服务器m上执行的时延为:
总的卸载时延为:
在卸载任务时,边缘设备n的能耗成本只与数据传输有关,由下式给出:
在MEC系统中,服务质量主要包括两方面:任务完成时间Tn、能耗En。在时隙t,边缘设备n的总的时延Tn和能耗En表示为:
Cost(t)=λTTn(t)+λEEn(t) (10)
其中,Cost(t)表示时隙t下边缘设备的成本,λT为时延的权重因子;λE为能耗的权重因子。
4.边缘设备模型
当一个边缘设备向MEC服务器卸载计算任务时,边缘设备需要向MEC服务器支付服务费用,假设MEC服务器执行一个计算任务的服务费用与计算任务的计算量成比例,假设计算服务单价为qn,这个服务单价是由MEC服务器决定的,则大小为Cn的计算任务的计算费用为:qnCn。卸载任务的效用与任务的完成时间有关,如下式所示:
其中,τn是任务的最大可容忍时延,因此,边缘设备的卸载任务的效用为:
Un=un-qnCn (12)
5.MEC服务器模型
在任务的卸载过程中,一旦MEC服务器接收到一个卸载请求,MEC服务器会分配相应的资源去处理任务,则MEC服务器执行任务的能耗为:
MEC服务器m执行任务n的效用为:
其中,ω为能耗的单价。
从上式中可以看出,MEC服务器的效用取决于计算服务单价和为任务分配的计算资源,基于自私行为的MEC服务器会通过为任务分配较少的资源,降低执行任务的能耗来增加其效用,但这会降低任务的效用,会使任务不能在最大容忍时延内完成,从而降低边缘设备的效用。为了阻止自私的MEC服务器为任务分配不充足的资源,因此建立一个可靠度模型去评估MEC服务器在执行卸载任务的效率。每个MEC服务器的可靠度每隔一个时隙t更新一次,以MEC服务器m为例,假设在时隙t内,卸载到MEC服务器m上进行执行的任务数为Nm
定义一个在最大可容忍时延内完成的一个卸载任务的归一化效用:
其中,log(1+τn)表示任务的最大效用。
MEC服务器m的计算效率更新表达式为:
其中,ρm(t-1)为MEC服务器m之前的计算效率。
MEC服务器m的任务完成率为:
其中,ρm(t-1)为MEC服务器m在t时隙之前的任务完成率,Lm为时隙t在最大可容忍时延内要求内完成的任务数量。
因此,时隙t下MEC服务器m的可靠度定义如下式:
μm(t=ηρm(t)+(1-η)δm(t),η∈(0,1) (18)
其中,η是权重因子。
6.区块链模型
在基于区块链的MEC系统中,区块链的共识过程扮演着一个重要的角色,而影响区块链系统性能的一个重要因素是共识时延,因此在区块链共识中需要优化共识时延,本实施例采用的区块链的链式数据结构如图4所示。现有的共识算法(PoW、PoS等)在共识过程中遭受了较长的时延,降低了区块链系统的性能,因此基于PBFT的增强共识算法来优化共识时延,共识过程如附图5所示,其中根据边缘设备中可用于共识的计算资源和边缘设备的共识效用来动态地选择共识节点,共识节点的数量为Ns,边缘设备将计算任务卸载交易记录进行分组,通过PBFT共识验证后存储在不可变、防篡改的区块链账本上,完成区块上链。
当一个边缘设备有计算任务卸载需求时,它首先向MEC服务器层发送卸载需求,在收到多个回复消息后,通过查询存储在区块链中的MEC服务器的可靠度表找到候选者的可靠度,根据可靠度以及信道状况、服务器的可用计算资源选择恰当的服务器进行计算卸载,可靠度表根据计算任务卸载的已验证的交易来定期更新。将每个MEC服务器的可靠度存储在区块链账本中,在边缘设备做卸载决策时,可以快速地从区块链中查询到可靠度,从而可以快速地做出卸载决策,提高了卸载效率。
在共识过程中,主节点负责块的产生,副本节点负责块的验证,没有被选择的边缘设备作为普通节点,只负责将已验证的块加入维护的区块链账本中。在区块链的共识中,利用签名和消息认证码(MAC)来保证数据的完整性和交易的认证,对一个块或交易签名、验证一个签名、产生一个MAC、验证一个MAC分别需要x、y、z、z个CPU周期数。共识的主要步骤如下所示。
a)Collect
主节点从所有的边缘设备中收集未验证的交易,然后按照时间戳对交易进行排序,假设块的大小为Sb(t),交易的平均大小为χ,则一个块中的交易数为:在这一阶段,主节点需要验证L个交易的签名和MAC,因此主节点的计算成本为L(y+z);。
b)Pre-prepare
在这个阶段,主节点为块产生一个签名和MAC,为Ns-1个副本节点产生用于pre-prepare消息的MAC,每个副本节点验证块的MAC,以及块中L个交易的签名和MAC,主节点的计算成本为x+Nsz,每个副本节点的计算成本为z+L(y+z),假设块的传输时间与块的大小成正比,则消息传输时间为τbSb
c)Prepare
副本节点验证了pre-prepare消息后,向其他共识节点发送prepare消息,在每个共识节点收到2f个prepare消息后,进入下一个阶段,在这一阶段中,主节点需要验证2f个MAC,因此计算成本为2fz;每个副本节点需要产生Ns-1个MAC以及验证2f个MAC,每个副本节点的计算成本为(Ns-1)z+2fz,消息传输时间为τbSb。f为网络中存在问题的节点数量(恶意节点数量),在PBFT协议中规定网络中恶意节点的数量满足N≥3f+1,N为网络中节点的总数量。
d)Commit
副本节点验证了pre-prepare消息后,向其他共识节点发送prepare消息,在每个共识节点收到2f个prepare消息后,进入下一个阶段,在这一阶段中,主节点需要验证2f个MAC,因此计算成本为2fz;每个副本节点需要产生Ns-1个MAC以及验证2f个MAC,每个副本节点的计算成本为(Ns-1)z+2fz,消息传输时间为τbSb
e)Reply
在接收到2f个commit消息后,主节点和副本节点认为块是合法的,将块加入区块链账本中,并向其他边缘设备发送包含验证的块的reply消息,在收到f+1个reply消息后更新全局视图,在这一阶段中,主节点和副本节点需要为reply消息产生一个MAC,因此主节点和副本节点的计算成本为z,消息传输时间为τbSb
最终,主节点的计算时间为:
其中,为主节点中的用于共识的计算资源。
副本节点的计算时间为:
其中,为副本节点中的用于共识的计算资源。
使用TTF来表示共识过程的延迟:
TF=TI+TD+TV (21)
其中,TI为块间隔,TD=4τbSb为块传输时间,TV=max{Tpri,Trep}为块验证时间。
在区块链辅助的MEC系统中,边缘设备作为边缘矿工进行挖矿,在每一轮共识中,每一个IOT感知器用户对边缘设备基于共识效用和边缘设备中可用于共识的资源进行投票选出边缘矿工,区块链共识的性能主要取决于块的大小和ED中可用于共识的计算资源,定义边缘设备n的共识效用为:
其中,τn为任务的最大可容忍时延,为边缘设备n的共识时间。IOT感知器根据边缘设备中的可用于共识的计算资源选举进行挖矿的边缘矿工,其中用于共识的计算资源越多,则共识时延越低,共识效用也就越高,区块链系统的性能就越好。
二、问题建模
在基于区块链的MEC系统中,每个边缘设备需要同时进行任务卸载和区块链挖矿,因此系统性能的评估需要考虑到挖矿的性能和任务卸载的性能。对于任务卸载,边缘设备需要最小化卸载成本来维护任务卸载服务的性能。对于区块链挖矿,边缘设备需要最小化共识时延来维护块挖掘的性能。因此我们的优化目标是最大化所有边缘设备的区块链的共识效用以及最小化所有边缘设备的卸载成本。优化问题如下所示:
约束条件:
其中,Fm为服务器m的最大计算资源;φn为边缘设备n用于区块链挖矿的最大计算资源;为时隙t下边缘设备为区块链挖矿分配的计算资源;Tn(t)为边缘设备n在时隙t的处理时延;约束条件(23a)是对卸载决策的约束,约束条件(23b)是对是对传输功率的约束,约束条件(23c)是对边缘设备的计算资源的约束,表明边缘设备应分配一个正的计算资源执行计算任务,但不能超过资源预算;约束条件(23d)是对MEC服务器为任务分配的计算资源的约束;约束条件(23e)表示MEC服务器应为任务分配一个正的计算资源,但不能超过最大值;约束条件(23f)是对边缘设备用于共识的计算资源的约束;约束条件(23g)表示任务的处理时间不能超过最大值。
由于以上优化问题是混合整数非凸的,很难求解,在动态的计算卸载场景下,信道状况以及边缘设备和MEC服务器的可用计算资源是时变的,并且当边缘设备的数量逐渐增长时,系统状态空间的维数将会变得非常大,使用传统的优化方法会导致计算复杂度很高,很难得到最优的卸载策略及资源分配策略。因此本发明使用深度强化学习来解决这一问题。
三、基于多智能体深度强化学习的问题求解
本发明将上述优化问题抽象为部分可观测的马尔科夫决策过程,由边缘设备充当智能体,并定义元组{S,O,A,R}描述上述马尔可夫博弈过程,其中S表示全局的状态空间,时隙t的环境为全局状态s(t)∈S,O={O1,O2,...,ON}为智能体的观测空间集合,A={A1,A2,...,AN}是智能体的动作空间集合,R={R1,R2,...,RN}为奖励集合。在时隙t,智能体根据本地观测on(t)∈On,采取策略πn:On→An,选择对应的动作an(t)∈An,从而获得相应的奖励rn(t)∈Rn
1.状态空间
在时隙t,单个智能体的观测信息包含计算任务的大小、可容忍时延、信道状态、边缘设备的资源状态以及MEC服务器的状态。因此时隙t的观测集合可以表示为:
on(t)={otask(t),ochannel(t),oresource(t),oserver(t)}
其中,otask(t)={Cn(t),Dn(t),τn(t)}为时隙t下任务的观测信息,Cn(t)为时隙t下边缘设备n的计算任务所需的计算资源,Dn(t)为时隙t下边缘设备n的计算任务的大小,τn(t)为时隙t下边缘设备n的计算任务的最大可容忍时延;ochannel(t)为时隙t下信道的观测信息,为时隙t下边缘设备n的资源状态;oserver(t)={μm(t),Fm(t)}为时隙t下边缘设备n观察到的MEC服务器m的状态信息,μm(t)为时隙t下MEC服务器m的可靠度,Fm(t)为时隙t下MEC服务器m的可用计算资源。
O(t)={o1(t),o2(t),...oN(t)}为时隙t下的观测集合,由所有的智能体的状态组成。
2.动作空间
在时隙t,单个智能体的动作包括卸载决策、传输功率选择、计算资源分配、共识资源分配。因此动作集合可以表示为:
其中,xn(t)为时隙t下边缘设备n的卸载决策,pn(t)为时隙t下边缘设备n将任务卸载到服务器选择的传输功率。A(t)={a1(t),a2(t),...,aN(t)}为时隙t下的动作集合,由所有智能体的动作组成。
3.奖励函数
根据优化目标,定义系统奖励为时隙t下的所有智能体的奖励之和,智能体n的奖励定义为rn(t),则系统奖励为:
四、MADDPG算法
在这一部分,将展示如何在集中式学习和分布式执行的框架内使用多智能体深度强化学习方法来解决上述问题。
如图3,本发明中的MADDPG的框架由环境和N个智能体组成,每个智能体有集中训练阶段和分散执行阶段。在训练阶段,采用集中式学习来训练critic网络和actor网络,critic网络训练时需要使用其他智能体的状态信息。在执行阶段,actor只需要知道局部信息,并根据其他智能体的估计策略来调整局部策略,以达到全局最优。
令π={π12,...,πN}为所有智能体的策略集合,θ={θ12,...,θN}为相应的策略的参数集合,每个智能体通过更新参数θn来获得最优的策略。
在分散执行阶段,在每个时隙t时,每个智能体的actor网络根据本地观测状态on(t)以及其自身的策略πn:On→An选择动作:
an(t)=πnon(t)
在集中训练阶段,每个critic网络可以获得其他智能体的观测on(t)和动作an(t),则智能体n的Q函数可表示为:
Q函数从全局的角度来评估actor网络的动作,并且指导actor网络选择更优的动作。在训练时,critic网络通过最小化损失函数来更新网络参数,损失函数定义如下:
其中,γ为折扣因子;Eo,a,r,o'[·]表示在当前智能体的观测空间为o、下一时刻智能体的观测空间为o'、、智能体的动作空间为a、智能体的奖励空间为r的情况下对表达式求期望。
同时,actor网络基于critic网络计算得到的损失函数以及它自身的观测信息来更新网络参数,并输出动作a。actor通过计算目标函数的梯度更新网络:
其中,D为用于经验重放的集合;Eo,a-D[·]表示在当前智能体的观测空间为o、智能体的动作空间a的分布服从经验重放集合D的情况下对表达式求期望。
目标网络的参数通过软更新的方式进行更新,即:
其中,θn'、ω'n是更新后的策略的参数集合、智能体的策略集合。
基于MADDPG的MEC系统中任务卸载和资源分配策略的伪代码如下:
其中,表示对表达式关于策略参数θn求导;A←B表示将B的值赋给A。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于区块链的移动边缘计算任务卸载方法,其特征在于,具体包括以下步骤:
针对多服务器的动态MEC场景,考虑到MEC服务器的计算、通信资源和信道状态是时变的以及异构的边缘节点之间的交互会引发安全和隐私问题,建立基于区块链的移动边缘计算任务卸载模型;
以最小化用户完成计算任务的成本以及最大化用户参与挖矿获得的效用为目标,在多维资源约束的条件下,建立任务卸载和资源分配联合优化模型;
考虑到随机时变的网络环境和环境状态的部分可观测性,将任务卸载成本问题和区块链挖矿效用问题抽象为部分可观测的马尔可夫决策过程;
根据所建立的系统模型获得MDP问题的状态空间和动作空间,并构建奖励函数;
采用多智能体强化学习算法做出最优卸载和资源分配决策。
2.根据权利要求1所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,基于区块链的移动边缘计算任务卸载模型包括:
当一个边缘设备有计算任务卸载需求时,向MEC服务器层发送卸载需求,在收到多个回复消息后,通过查询存储在区块链中的MEC服务器的可靠度表找到候选者的可靠度,根据可靠度以及信道状况、服务器的可用计算资源选择恰当的服务器进行计算卸载,可靠度表根据计算任务卸载的已验证的交易来定期更新;
将每个MEC服务器的可靠度存储在区块链账本中,在边缘设备做卸载决策时,从区块链中查询到可靠度;
在共识过程中,主节点负责块的产生,副本节点负责块的验证,没有被选择的边缘设备作为普通节点,只负责将已验证的块加入维护的区块链账本中。
3.根据权利要求2所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,区块链共识的过程包括:
对一个块或交易签名需要x个CPU周期数,验证一个签名需要y个CPU周期数,产生一个MAC需要z个CPU周期数,验证一个MAC需要z个CPU周期数;
主节点从所有的边缘设备中收集未验证的交易,然后按照时间戳对交易进行排序,假设块的大小为Sb(t),交易的平均大小为χ,则一个块中的交易数为:在这一阶段,主节点需要验证L个交易的签名和MAC,因此主节点的计算成本为L(y+z);
主节点为块产生一个签名和MAC,为Ns-1个副本节点产生用于pre-prepare消息的MAC,每个副本节点验证块的MAC,以及块中L个交易的签名和MAC,主节点的计算成本为x+Nsz,每个副本节点的计算成本为z+L(y+z),假设块的传输时间与块的大小成正比,则消息传输时间为τbSb
副本节点验证了pre-prepare消息后,向其他共识节点发送prepare消息,在每个共识节点收到2f个prepare消息后,进入下一个阶段,在这一阶段中,主节点需要验证2f个MAC,因此计算成本为2fz;每个副本节点需要产生Ns-1个MAC以及验证2f个MAC,每个副本节点的计算成本为(Ns-1)z+2fz,消息传输时间为τbSb
在接收到2f个prepare消息后,每个共识节点向其他节点包括主节点发送commit消息,在这一阶段,主节点和副本节点需要验证2f个MAC,产生Ns-1个MAC,因此主节点和副本节点的计算成本为(Ns-1)z+2fz,消息传输时间为τbSb
在接收到2f个commit消息后,主节点和副本节点认为块是合法的,将块加入区块链账本中,并向其他边缘设备发送包含验证的块的reply消息,在收到f+1个reply消息后更新全局视图,在这一阶段中,主节点和副本节点需要为reply消息产生一个MAC,因此主节点和副本节点的计算成本为z,消息传输时间为τbSb
4.根据权利要求1所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,建立任务卸载和资源分配联合优化模型包括:
约束条件:
其中,xn(t)表示时隙t下边缘设备n的本地观测;pn(t)表示时隙t下边缘设备n将任务卸载到MEC服务器m的传输功率;为时隙t下MEC服务器m为执行边缘设备n的卸载任务分配的计算资源;为时隙t下边缘设备n为执行任务分配的计算资源;为时隙t下边缘设备为区块链挖矿分配的计算资源;为时隙t下边缘设备n的共识效用;Cost(t)为时隙t下边缘设备的成本;xn(t)表示时隙t下边缘设备n的卸载决策,如果在时隙t计算任务被卸载到MEC服务器i执行,则xn(t)=i,如果任务在本地执行则xn(t)=0;为边缘设备的集合,N为边缘设备的数量;Pn为传输功率的最大值;为系统操作时间被离散化为T个时隙的集合;Fn为边缘设备n的最大计算资源;Fm为服务器m的最大计算资源;为MEC服务器的集合;φn为边缘设备n用于区块链挖矿的最大计算资源;τn表示任务可容忍的最大时延;Tn(t)为边缘设备n在时隙t的处理时延。
5.根据权利要求1所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,将任务卸载成本问题和区块链挖矿效用问题抽象为部分可观测的马尔可夫决策过程包括:
由边缘设备充当智能体,并定义元组{S,O,A,R}描述上述马尔可夫博弈过程,其中,S表示全局的状态空间,时隙t的环境为全局状态s(t)∈S,O={O1,O2,...,ON}为智能体的观测空间集合,On为边缘设备n的观测空间对应的取值空间;A={A1,A2,...,AN}为智能体的动作空间集合,An为边缘设备n的智能体的动作空间对应的取值空间;R={R1,R2,...,RN}为奖励集合,Rn为边缘设备n的奖励对应的取值空间;在时隙t,智能体N根据本地观测on(t)∈On,采取策略πn:On→An,选择对应的动作an(t)∈An,从而获得相应的奖励rn(t)∈Rn
6.根据权利要求1所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,MDP问题的状态空间包括时隙t单个智能体的观测信息包含计算任务的大小、可容忍时延、信道状态、边缘设备的资源状态以及MEC服务器的状态,时隙t的状态空间表示为:
on(t)={otask(t),ochannel(t),oresource(t),oserver(t)}
其中,otask(t)={Cn(t),Dn(t),τn(t)}为时隙t下任务的观测信息,Cn(t)为时隙t下计算任务所需的计算资源,Dn(t)为时隙t下计算任务的大小,τn(t)为时隙t下计算任务的最大可容忍时延;ochannel(t)为时隙t下信道的观测信息,为时隙t下边缘设备n的资源状态,为时隙t下边缘设备n为执行任务分配的计算资源,为时隙t下边缘设备n为区块链挖矿分配的计算资源;oserver(t)={μm(t),Fm(t)}为时隙t下边缘设备n观察到的MEC服务器的状态信息,μm(t)为时隙t下MEC服务器m的可靠度,Fm(t)为时隙t下MEC服务器m的可用计算资源。
7.根据权利要求1所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,MDP问题的动作空间包括时隙t单个智能体的动作包括卸载决策、传输功率选择、计算资源分配、共识资源分配,时隙t的动作集合表示为:
其中,xn(t)为时隙t下边缘设备n的卸载决策,pn(t)为时隙t下将任务卸载到服务器选择的传输功率;为时隙t下边缘设备n为执行任务分配的计算资源,为时隙t下边缘设备n为区块链挖矿分配的计算资源。
8.根据权利要求1所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,奖励函数表示为:
其中,r(t)表示时隙t下的奖励函数值;rn(t)表示时隙t下边缘设备n的奖励函数值;N为边缘设备的数量;为时隙t下边缘设备n的共识效用;Cost(t)为时隙t下边缘设备的成本。
9.根据权利要求1所述的一种基于区块链的移动边缘计算任务卸载方法,其特征在于,采用多智能体强化学习算法做出最优卸载和资源分配决策,其中多智能体强化学习算法由环境和N个智能体组成,每个智能体有集中训练阶段和分散执行阶段,在训练阶段,采用集中式学习来训练critic网络和actor网络,critic网络训练时需要使用其他智能体的状态信息;在分散执行阶段actor只需要知道局部信息,并根据其他智能体的估计策略来调整局部策略,以达到全局最优,具体包括以下步骤:
令π={π12,...,πN}为所有智能体的策略集合,θ={θ12,...,θN}为相应的策略的参数集合,每个智能体通过更新参数θn来获得最优的策略;
在分散执行阶段,在每个时隙t时,每个智能体的actor网络根据本地观测状态on(t)以及其自身的策略选择动作,表示为:
an(t)=πnon(t)
在集中训练阶段,每个critic网络可以获得其他智能体的观测on(t)和动作an(t),则智能体n的Q函数可表示为:
Q函数从全局的角度来评估actor网络的动作,并且指导actor网络选择更优的动作;
在训练时,critic网络通过最小化损失函数来更新网络参数,损失函数表示为:
actor网络基于critic网络计算得到的损失函数以及它自身的观测信息来更新网络参数,并输出动作;actor通过计算目标函数的梯度更新网络:
目标网络的参数通过软更新的方式进行更新,即:
其中,γ为折扣因子;Eo,a,r,o'[·]表示对表达式求期望,其中o为观测集合,a为动作集合,r为奖励集合,o'为下一时隙的观测集合;rn为时隙t下边缘设备n的奖励;o'n(t)为时隙t的下一时隙智能体n的观测;a'n=πn(on)为在观测集合为on时根据策略πn选择的动作,πn(·)表示智能体n的策略;Eo,a~D[·]表示对表达式求期望,表示对表达式关于actor当前网络的参数θn求梯度,πn(an|on)为智能体在观测on下做出动作an的策略;为actor网络软更新系数,θn为actor当前网络的参数,θn'为actor目标网络的参数,为critic网络软更新系数,ωn为critic当前网络的参数,ω'n为critic目标网络的参数。
CN202310802546.8A 2023-07-03 2023-07-03 一种基于区块链的移动边缘计算任务卸载方法 Pending CN116669111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310802546.8A CN116669111A (zh) 2023-07-03 2023-07-03 一种基于区块链的移动边缘计算任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310802546.8A CN116669111A (zh) 2023-07-03 2023-07-03 一种基于区块链的移动边缘计算任务卸载方法

Publications (1)

Publication Number Publication Date
CN116669111A true CN116669111A (zh) 2023-08-29

Family

ID=87719213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310802546.8A Pending CN116669111A (zh) 2023-07-03 2023-07-03 一种基于区块链的移动边缘计算任务卸载方法

Country Status (1)

Country Link
CN (1) CN116669111A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117202173A (zh) * 2023-11-07 2023-12-08 中博信息技术研究院有限公司 一种面向用户隐私保护的边缘计算卸载方法
CN117499491A (zh) * 2023-12-27 2024-02-02 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置
CN117768464A (zh) * 2023-11-13 2024-03-26 重庆理工大学 一种基于群智能强化学习的区块链计算任务卸载方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117202173A (zh) * 2023-11-07 2023-12-08 中博信息技术研究院有限公司 一种面向用户隐私保护的边缘计算卸载方法
CN117768464A (zh) * 2023-11-13 2024-03-26 重庆理工大学 一种基于群智能强化学习的区块链计算任务卸载方法
CN117768464B (zh) * 2023-11-13 2024-07-09 重庆理工大学 一种基于群智能强化学习的区块链计算任务卸载方法
CN117499491A (zh) * 2023-12-27 2024-02-02 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置
CN117499491B (zh) * 2023-12-27 2024-03-26 杭州海康威视数字技术股份有限公司 基于双智能体深度强化学习的物联网服务编排方法及装置

Similar Documents

Publication Publication Date Title
Lu et al. Low-latency federated learning and blockchain for edge association in digital twin empowered 6G networks
Shi et al. DRL-based V2V computation offloading for blockchain-enabled vehicular networks
Yun et al. DQN-based optimization framework for secure sharded blockchain systems
Xu et al. A blockchain-enabled energy-efficient data collection system for UAV-assisted IoT
Lin et al. Task offloading for wireless VR-enabled medical treatment with blockchain security using collective reinforcement learning
Lu et al. Blockchain empowered asynchronous federated learning for secure data sharing in internet of vehicles
Kong et al. A reliable and efficient task offloading strategy based on multifeedback trust mechanism for IoT edge computing
Asheralieva et al. Reputation-based coalition formation for secure self-organized and scalable sharding in IoT blockchains with mobile-edge computing
CN111132175B (zh) 一种协同计算卸载和资源分配方法及应用
Yang et al. Sharded blockchain for collaborative computing in the Internet of Things: Combined of dynamic clustering and deep reinforcement learning approach
CN116669111A (zh) 一种基于区块链的移动边缘计算任务卸载方法
US20220067063A1 (en) Apparatus and method for adaptively managing sharded blockchain network based on deep q network
Fu et al. Performance optimization for blockchain-enabled distributed network function virtualization management and orchestration
CN114626547A (zh) 一种基于区块链的群组协同学习方法
CN112637822B (zh) 一种基于区块链的蜂窝网络安全交易平台
CN112783662A (zh) 集成区块链的传感边缘云任务卸载中cpu资源可信共享系统
Halgamuge et al. Trust model to minimize the influence of malicious attacks in sharding based blockchain networks
Cui et al. A secure and decentralized DLaaS platform for edge resource scheduling against adversarial attacks
CN114301935A (zh) 一种基于声誉的物联网边云协同联邦学习节点选择方法
Al Ridhawi et al. An intelligent blockchain-assisted cooperative framework for industry 4.0 service management
Qiu et al. [Retracted] Blockchain and K‐Means Algorithm for Edge AI Computing
Nguyen et al. Intelligent blockchain-based edge computing via deep reinforcement learning: solutions and challenges
CN117094411A (zh) 一种基于区块链分片的服务器分区联邦学习方法
CN116827515A (zh) 一种基于区块链和强化学习的雾计算系统性能优化算法
Qi et al. STFM: a blockchain sharding algorithm based on trust field model for heterogeneous Internet of Things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination