一种多无人机辅助MEC的任务卸载与充电调度联合优化方法
摘要文本
本发明公开了一种多无人机辅助MEC的任务卸载与充电调度联合优化方法,涉及移动边缘计算技术领域,包括:1、建立多无人机辅助移动及充电模型;2、确定所述多无人机辅助移动及充电模型完成任务的时间延迟和总能耗;3、构建优化目标;4、将优化问题建模为离散时间马尔可夫决策过程;5、利用P‑TD3算法获得任务卸载和充电调度的最优策略;6、根据计算出的无人机的最优任务卸载比例、飞行轨迹、充电调度以及用户设备的最优任务卸载比例协同执行计算密集型任务。本发明在多无人机辅助移动边缘计算系统中部署充电站为无人机充电,有效降低系统总能耗,保证完成任务量最大化,同时通过充电调度解决无人机能量不足的问题,提高整体服务质量。
申请人信息
- 申请人:吉林大学
- 申请人地址:130012 吉林省长春市前进大街2699号
- 发明人: 吉林大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种多无人机辅助MEC的任务卸载与充电调度联合优化方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311660129.0 |
| 申请日 | 2023/12/6 |
| 公告号 | CN117354759B |
| 公开日 | 2024/3/19 |
| IPC主分类号 | H04W4/40 |
| 权利人 | 吉林大学 |
| 发明人 | 梅芳; 吉非凡; 孙庚; 康辉; 刘雨晴 |
| 地址 | 吉林省长春市前进大街2699号 |
专利主权项内容
1.一种多无人机辅助MEC的任务卸载与充电调度联合优化方法,其特征在于,包括如下步骤:步骤一、采集用户设备、基站、充电站的地理位置信息,建立多无人机辅助移动及充电模型;步骤二、确定所述多无人机辅助移动及充电模型完成任务的时间延迟和总能耗;所述时间延迟满足:
;式中,为用户设备/>在/>时隙完成任务的时间延迟,/>为用户设备/>在/>时隙的本地计算时间延迟,/>为用户设备/>与无人机/>之间在/>时隙的数据传输时间延迟,/>为无人机/>在/>时隙处理任务的计算时间延迟,/>为无人机/>与基站之间在/>时隙的数据传输时间延迟,/>为基站在/>时隙处理任务的计算时间延迟;所述总能耗满足:
;式中,为/>时隙系统的总能耗,/>为用户设备/>在/>时隙的本地计算能耗,为用户设备/>与无人机/>之间在/>时隙的数据传输能耗,/>为无人机/>在/>时隙处理任务的计算能耗,/>为无人机/>与基站之间在/>时隙的数据传输能耗,/>为基站在/>时隙处理任务的计算能耗;步骤三、构建优化目标为:
;式中,为无人机飞行的水平角度的集合,/>,/>为无人机飞行的水平距离的集合,/>,/>为无人机状态的集合,/>,/>为无人机卸载比例和用户设备卸载比例的集合,/>,/>为时隙,/>为第一权重因子,/>为第二权重因子,/>为/>时隙完成的任务数,/>为无人机/>在/>时隙的水平角度,/>为无人机/>在/>时隙的水平距离,/>为无人机/>在/>时隙的状态,/>为无人机/>在/>时隙的卸载比例,/>为用户设备/>在/>时隙的卸载比例,/>为多无人机辅助移动及充电模型的用户设备总数,/>为多无人机辅助移动及充电模型中配备移动边缘计算服务器的无人机总数,/>为时隙集合;步骤四、将所述优化目标建模为离散时间马尔科夫决策过程,根据P-TD3算法获得无人机的最优任务卸载比例、飞行轨迹、充电调度以及用户设备的最优任务卸载比例;将所述优化目标建模为离散时间马尔科夫决策过程具体包括:状态空间为:;动作空间为:;奖励函数为:;其中,为/>时隙的状态空间,以基站为原点在地面建立一个平面直角坐标系,基站的南北方向为/>轴,取向北为正方向,基站的东西方向为/>轴,取向东为正方向,/>为无人机/>在/>时隙的横坐标,/>为无人机/>在/>时隙的纵坐标,/>为无人机/>在t时隙的剩余电量,为/>时隙的动作空间,/>为/>时隙的奖励函数,且/>,/>,/>为无人机一个时隙可以水平飞行的最大距离,/>,当/>时,表示/>时隙无人机/>正在充电,当/>时,表示/>时隙无人机/>正在执行任务,/>,/>;其中,所述P-TD3算法具体包括:步骤1、初始化一个Actor网络、第一Critic网络/>和第二Critic网络/>,且Actor网络/>的参数为/>,第一Critic网络/>的参数为/>,第二Critic网络的参数/>,再初始化目标Actor网络/>、第一目标Critic网络/>和第二目标Critic网络/>,且目标Actor网络的参数为/>,第一目标Critic网络的参数为/>,第二目标Critic网络的参数为/>,将三个网络参数分别对应的复制给三个目标网络的参数,同时,初始化经验回放缓冲区和高斯噪声;其中,所述经验回放缓冲区的容量为10000条经验;步骤2、初始化时隙,每轮训练时隙个数为20个,/>时隙的状态空间/>中无人机/>在/>时隙的横坐标和纵坐标/>在/>范围内随机取值,/>,/>为每架无人机的初始电量;步骤3、将时隙的混合动作空间替换为/>时隙的连续动作空间,其中,/>为无人机在/>时隙的执行任务动作,/>为无人机/>在/>时隙的充电动作,且均为连续动作,将/>时隙的状态空间输入目标Actor网络/>生成当前的连续动作空间/>,并在连续动作空间上加入噪音/>,其后将连续动作空间转换为混合动作空间;其中,若,则/>;若/>,则/>;步骤4、环境执行获得的混合动作空间,得到对应的奖励函数和下一个时隙的状态空间;步骤5、将当前状态空间、连续动作空间/>、奖励函数/>和下一个时隙的状态空间存储到经验回放缓冲区中;步骤6、若经验回放缓冲区存储经验数量大于128条,则从经验回放缓冲区中随机采样128条经验,对于每个样本,使用第一目标Critic网络和第二目标Critic网络/>分别计算出初始的下一个状态Q值,选取两者中的最小值作为实际应用的下一个状态Q值,并通过梯度下降法更新两个Critic网络的参数/>;步骤7、两个Critic网络每更新2次,通过梯度下降法更新1次Actor网络的参数/>;步骤8、两个Critic网络每更新4次,使用软更新策略更新1次目标Actor网络的参数、第一目标Critic网络的参数/>和第二目标Critic网络的参数/>,本时隙完成;步骤9、若则直接跳转到步骤3;若且/>则跳转到步骤2;若且/>则算法结束;其中,为训练轮数。 马 克 数 据 网