← 返回列表

一种基于DDPG算法的去中心化自适应计算卸载方法

申请号: CN202311371217.9
申请人: 西南交通大学
更新日期: 2026-03-09

摘要文本

西南交通大学取得“一种透气窗帘布”专利技术,本发明公开了一种基于DDPG算法的去中心化自适应计算卸载方法,用于卡车车队系统,该方法中,DDPG由actor网络和critic网络两部分组成,每部分包含一个在线主网和一个目标网络;执行该方法时,初始化所有网络的参数,使DDPG与环境交互,然后将每个时刻生成的轨迹元组作为训练数据集存储到经验回放池中;在训练阶段,从经验回放池中随机选择一个包含N个轨迹元组的小批量样本送到DDPG中以更新网络参数;critic的主网络采用随机梯度下降方法来更新其参数,actor的主网络根据critic主网络提供的梯度来更新其网络的参数。本发明可以降低卡车车队系统的平均能耗和任务平均计算时延。

专利主权项内容

1.一种基于DDPG算法的去中心化自适应计算卸载方法,用于卡车车队系统,其特征在于,卡车车队系统模型以及通信模型为:卡车车队由一个头车PL和M个成员卡车PM组成,PM表示成:{1, 2, ..., m, ..., M};PL配备边缘计算EC服务器;每个PM都通过V2V与PL通信;对车队中的PM应用经典车辆跟驰模型:智能驾驶员模型IDM,并假设车队系统中任何两辆相邻卡车之间的距离相等并表示为d,则车队内平衡间距由下式给出:式中,d是最小车队内间距,t是理想车头时距,v是行驶速度,v是最大行驶速度;0hmax假设每辆卡车的长度为d,则成员m和头车之间的通信距离写为:td=m(d+d) (2)mt在卡车队列系统中,NOMA技术用于PM和PL之间的通信,由于多个PM在同一信道上同步上传任务数据,因此在卸载数据时会存在信号干扰;因此,在t时上行链路中,PL从PM m中接收到的信号可通过以下方式计算:
是PM m的发射功率,/>是最大发射功率,/>是PM m的信道矢量,x(t)是具有单位方差的复杂数据信号;y(t)第一部分是来自目标PM的有效信号,第二部分是来自共享该信道的其他PM的干扰信号,第三部分n(t)~CN(0, σ)是具有方差σ的加性高斯白噪声矢量;对于PM m,使用AR模型来表征时间t和t+1之间的信道状态转换:mm22其中,ρ是时间t和t+1之间的归一化相关系数且接近1,e(t+1)是一个误差矢量,同时也是一个与h(t+1)不相关的复杂高斯分布,每个PM的信道矢量初始化为h(0)~CN(0, h(d/d)),h是一个路径损耗常数,d为参考距离,α路径损失指数;mmm0refmα0ref考虑M个PM按其信道的降序在时间t中共享同一信道:h(t)≥h(t)≥…≥h(t)≥…≥h(t),PM m的干扰信号可写成:12mM则时间t中PM m的相应SINR为:σ是高斯白噪声功率;2因此,可以根据带宽B获得PM m和PL之间的任务数据传输速率:r(t)=Blog(1+ζ(t)) (7)m, o2m车队系统计算模型:a(t)量化时间t期间PM m的到达任务数据的数量,假设在所有时间上a(t)都是独立同分布,a(t)临时存储在缓存队列中,然后在从下一个时间t+1处理;对于每个PM,假设计算任务的到达率服从泊松分布λ,任务的数据大小服从均匀分布u~U(u, u),则a(t)满足:E[a(t)]=λ·u;mmmminmaxmm(1)本地计算模型对于每个PM,假设任务数据按时间顺序临时存储在缓存队列系统中,然后从缓存队列中弹出并在本地计算或卸载到PL,则PM m的本地计算的任务数据大小可写成:
是通过使用DVFS技术调整芯片电压来调度的PM m的CPU周期频率,是为CPU分配的本地计算功率,/>为最大本地计算功率,κ是PM m处理器的有效转换电容参数,L为可通过离线测量获得的任务数据执行所需的CPU周期数;mm在时间t中,PM m本地计算所消耗的能量可写成:E(t)=τp(t) (9)m, l0m, l(2)计算卸载模型由于PM的计算资源不足,部分任务数据将被卸载到PL并由EC服务器执行,根据公式(8),EC服务器处理PM m的卸载任务数据所需的时间表示为:
是EC服务器分配给PM m的功率,/>是分配给PM m的最大计算功率,κ是EC服务器的有效转换电容参数,L是PL处理任务数据所需的CPU周期数;HH根据公式(7),在时间t中卸载PM m的任务数据的大小计算如下:在时间t中PM m卸载任务数据所消耗的能量可写成:E(t)=τp(t) (12)m, o0m, oPL在时间t中计算PM m的卸载任务数据所消耗的能量可写成:E(t)=τp(t) (13)m, H0m, H车队系统问题建模:在时间t中,PM m本地计算和卸载到PL的任务数据分别为q(t)和q(t),因此,所有计算的任务数据量为q(t)+q(t);Q(t)表示缓存队列的当前长度,通过给定到达的任务数据a(t),下一个时间t+1中的缓存队列长度表示为:m, lm, om, lm, ommQ(t+1)=min([max((Q(t)-q(t)-q(t)), 0)+a(t)], Q) (14)mmm, lm, ommmax<为最大缓存队列长度;<max根据排队论中M/M/1模型和Little公式,队列的平均长度等于平均任务到达率乘以任务在队列系统中停留的平均时间,即平均缓存队列长度与任务数据延迟成正比,因此,使用平均缓存队列长度来表示平均任务计算延迟,车队系统的平均缓存队列长度可写成:假设EC服务器具有高频多核的CPU和足够的计算资源,并且可以并行处理PM卸载的不同任务;因此,忽略PL的计算延迟和能耗;根据公式(9)和(12)在时间t中卡车队列系统消耗的平均能量计算为:考虑到车队系统有限的电池资源以及任务计算时延,要解决的问题可以表述为:在最大电源约束下平均能耗成本最小化,在最大缓存队列长度下平均缓存队列长度最小化,写成:s.t.ω是一个非负加权系数,ω不同的值是能耗和任务计算延迟之间的权衡;(17-b)、(17-c)表示功率不得超过其相应的最大值,(17-d)保证缓存队列长度的限制;基于DDPG的去中心化自适应计算卸载:DDPG由actor网络和critic网络两部分组成,每部分包含一个在线主网μ(s;θ)、Q(s, a;w)和一个目标网络μ(s;θ)、Q(s, a;w);为了确保对环境状态空间进行更有效的随机探索,以获得最优策略,将OU随机噪声添加到动作空间中,如下所示:--a=μ(s;θ)+σ(t) (18)ttOU初始化所有网络的参数,使DDPG与环境交互,然后将每个时刻生成的轨迹元组(s, a, r, s)作为训练数据集存储到经验回放池中,在训练阶段,从经验回放池中随机选择一个包含N个轨迹元组的小批量样本送到DDPG中以更新网络参数;tttt+1actor的主网络根据策略π将状态s映射到确定性的连续动作a,并将其传递给critic的主网络;critic的主网络输出相应的Q值,可以评估动作a的好坏;根据贝尔曼方程,目标Q值通过以下方式计算:ttty=r+γQ(s, μ(s;θ);w) (19)ttt+1t+1--critic的主网络采用随机梯度下降SGD方法来更新其参数:actor的主网络采用确定性策略梯度DPG方法,根据critic主网络提供的梯度来更新其网络的参数:使用软更新方法,通过两个主在线网络对两个目标网络的参数进行部分更新:θ←τ·θ+(1-τ)·θ (24)--w←τ·w+(1-τ)·w (25)--(1)状态空间在卡车队列系统中,每个PM的状态空间包括上行链路中的缓存队列长度、信道状态和SINR,基于动态信息学习的优化计算卸载策略,智能体自适应进行功率分配,可降低任务执行的能耗和缓存队列的长度;因此,排系统的状态空间定义为:(2)动作空间基于车队系统的状态,智能体在时间t自适应地、连续地选择本地计算功率和发射功率;因此,车队系统在连续域中的动作空间定义为:A(t)={p(t), p(t);, ..., p(t), p(t), ..., p(t), p(t)} (27)1, l1, om, lm, oM, lM, o(3)奖励函数在车队系统中,PM的成本函数包括缓存队列的长度、本地计算的能耗和任务卸载的能耗,因此设计的奖励函数会权衡缓存队列的长度和总能耗;因此,PM m在执行动作后从环境中获得的奖励定义为:因此,卡车车队的平均奖励定义为:由于DRL的目标是最大化所有奖励的总和,因此能耗和缓存队列长度为负数;ω是一个加权系数,它能权衡缓存队列长度和总能耗;是限制缓存队列长度的惩罚函数,P为惩罚常数;/>是一个二进制函数,当缓存队列长度超过最大值时等于1,反之等于0;车队系统奖励函数的目标表示为长期奖励,当长期奖励收敛到稳定值时,可以获得最优策略,可以表示为:。

专利申请信息

项目 内容
专利名称 一种基于DDPG算法的去中心化自适应计算卸载方法
专利类型 发明申请
申请号 CN202311371217.9
申请日 2023/10/23
公告号 CN117641288A
公开日 2024/3/1
IPC主分类号 H04W4/46
权利人 西南交通大学
发明人 洪鑫涛; 王磊; 梁宏斌
地址 四川省成都市金牛区二环路北一段111号