一种基于分布式多智能体自主决策的无人机资源管理方法
申请人信息
- 申请人:南京信息工程大学
- 申请人地址:210044 江苏省南京市江北新区宁六路219号
- 发明人: 南京信息工程大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于分布式多智能体自主决策的无人机资源管理方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202410065814.7 |
| 申请日 | 2024/1/17 |
| 公告号 | CN117573383B |
| 公开日 | 2024/3/29 |
| IPC主分类号 | G06F9/50 |
| 权利人 | 南京信息工程大学 |
| 发明人 | 林鹏; 翟若雪; 刘艳; 纪阳; 张治中 |
| 地址 | 江苏省南京市江北新区宁六路219号 |
摘要文本
本发明公开了一种基于分布式多智能体自主决策的无人机资源管理方法,考虑了无人机的动态无线网络环境、无人机的移动性与负载状态、MEC节点的任务处理能力。在此基础上,将无人机的任务卸载与资源分配问题建模为马尔科夫博弈过程,并提出基于MADDPG算法的分布式在线决策算法对马尔科夫博弈过程进行决策。该算法能够使每个MEC节点仅利用局部观测的动态环境信息,实现对全局MEC节点的任务卸载与资源分配决策的优化,提升对无人机集群的服务能力。本发明实现对无人机集群的快速、准确任务卸载与资源分配,提高任务处理速度,并降低无人机的能耗。
专利主权项内容
1.一种基于分布式多智能体自主决策的无人机资源管理方法,其特征在于:包括如下步骤:预构建马尔可夫博弈过程系统模型;以最小化无人机能耗为目标,进行任务卸载与资源分配决策;所述马尔可夫博弈过程系统模型,具体包括:系统状态具体如下:其中,表示t时刻智能体m的系统状态,/>表示智能体m在t时刻的本地观测信息,/>表示其他智能体r的观测信息,M表示智能体的总数量,每个MEC服务器m都可被视为一个智能体m;系统动作具体如下:其中,表示t时刻智能体m的系统动作,x表示MEC服务器m对无人机n的任务卸载决策,当x=1时,无人机n将任务卸载至服务器m中处理,x=0时,任务在无人机n本地执行,p表示MEC服务器m对无人机n的补偿功率,c表示边缘节点m对无人机n的带宽分配决策,F表示为边缘服务器m为无人机n分配的计算资源;mnmnmnmnmnmn奖励函数r,具体如下:mr=1/E(x, c, p, F)m其中,E(x, c, p, F)表示N个无人机总能耗统;当选择合适的变量值x、变量值c或者变量值p时,系统动作满足如下约束:mnmnmn其中,N表示无人机的总数量;其中,表示任务卸载决策xmn,任务模型An处理总时延,/>表示无人机n的任务最大延时要求;其中,N表示无人机的总数量,F表示MEC服务器m的最大CPU频率;m0≤p≤Pmnm其中,P为MEC服务器m提供的最大发射功率;mE(x, c, p, F)计算公式如下:式中:E表示无人机n总能耗,计算公式如下:n其中,表示无人机n对于任务模型A本地处理能耗,/>表示无人机n上传任务至MEC服务器m的能耗,/>表示无人机n下载任务至MEC服务器m的能耗;n
计算公式如下:其中,表示无人机n在本地处理任务的时延消耗,/>表示无人机n产生任务模型A,并将任务上传至MEC服务器m的传输时延,/>表示MEC服务器m计算的无人机n产生任务模型A的计算时延,/>表示MEC服务器m处理的无人机n产生任务模型A的下载延时;nnn任务模型A,计算公式如下:n其中,D为A的输入数据量,C为完成任务所需的CPU周期数,为某任务的时延约束;nnn
计算公式如下:其中,D为A的输入数据量,为无人机n在t时刻的上行链路传输速率;nn式中,计算公式如下:其中,B为MEC服务器m为无人机节点提供的通信带宽,c为边缘节点m对无人机n的带宽分配决策;p表示MEC服务器m对无人机n的补偿功率,σ为在接收处的加性高斯白噪声随机变量,Λ为内部干扰,为无人机n与MEC服务器m在t时刻的上行链路SNR参数;mmnmn2mn所述以最小化无人机能耗为目标,进行任务卸载与资源分配决策,具体包括:步骤2-1:初始化每个智能体m的Actor网络和Critic网络,构建参数为θ的Actor网络构建参数为w的Critic网络/>步骤2-2:当前智能体在t时刻的观测信息为则基于策略/>选择一个动作步骤2-3:执行动作并获得奖励r和t+1时刻的观测集合/>m步骤2-4:每个智能体m基于已获得信息,构建局部信息元组将局部信息元组存储到本地经验回放池S中,并将局部信息元组发送给其它智能体;步骤2-5:智能体m从S中随机采取样本数据,构建全局信息元组其中,/>表示t+1时刻智能体m的系统状态;步骤2-6:对于每个智能体m,基于全局信息T,训练Critic网络,具体如下:g其中,w表示智能体m的Critic网络参数w,为关于函数L(w)的导数,α为更新权重,L(w)表示如下:m其中,E对所有元组信息T求期望值;s, a, r, s′g其中,γ表示任务处理后与任务处理前的数据量比值,表示t+1时刻智能体m的系统动作;步骤2-7:对于每个智能体m,基于局部信息T,训练自身的Actor网络,具体如下:l其中,θ表示智能体m的Actor网络参数θ,为函数J(θ)关于参数θ的导数运算,具体如下:mm其中,表示对函数/>关于/>的导数;步骤2-8 : 对于每个智能体m,基于所获得的参数w和参数θ,更新目标Actor网络和目标Critic网络;mm步骤2-9:重复步骤2-2至步骤2-8整个迭代过程,每一轮迭代过后,Actor网络和Critic网络得到更新,最终策略趋于收敛;收敛后的策略/>即最优策略;智能体m基于策略/>在局部观测/>信息下,做出动作/>