← 返回列表

一种基于分布式A2C的多无人机追逃博弈方法及系统

申请号: CN202311752787.2
申请人: 华中科技大学
申请日期: 2023/12/19

摘要文本

本发明公开了一种基于分布式A2C的多无人机追逃博弈方法及系统,所述方法包括:利用图论构建多无人机追逃博弈模型;分别构造追逐无人机和逃逸无人机的局部误差变量;构建多无人机追逃博弈性能指标函数,将多无人机追逃博弈问题转化为耦合分布最小化问题,得到最优代价函数,基于最优代价函数构造理论最优控制策略;构建分布式A2C网络模型来模拟最优代价函数和理论最优控制策略,并设计优势函数指导控制策略的调整;训练分布式A2C网络模型,求解实际最优控制策略并执行。本发明将优势函数与决策‑评判架构相结合,并将其扩展至多无人机追逃博弈问题,通过不断优化控制策略,可以提高多无人机追逃博弈控制的稳定性。。来源:马 克 数 据 网

专利详细信息

项目 内容
专利名称 一种基于分布式A2C的多无人机追逃博弈方法及系统
专利类型 发明授权
申请号 CN202311752787.2
申请日 2023/12/19
公告号 CN117434968B
公开日 2024/3/19
IPC主分类号 G05D1/46
权利人 华中科技大学
发明人 孙嘉冀; 李仁府; 柳春; 王强
地址 湖北省武汉市洪山区珞喻路1037号

专利主权项内容

1.一种基于分布式A2C的多无人机追逃博弈方法,其特征在于,所述方法包括:利用图论构建包含追逐无人机、逃逸无人机及逃逸目标的多无人机追逃博弈模型;分别建立追逐无人机和逃逸无人机的动力学系统模型,并分别基于追逐无人机、逃逸无人机及各自的邻居无人机构造追逐无人机和逃逸无人机的局部误差变量;基于追逐无人机和逃逸无人机的局部误差变量,构建多无人机追逃博弈性能指标函数,将多无人机追逃博弈问题转化为耦合分布最小化问题,得到最优代价函数,基于最优代价函数构造理论最优控制策略;构建分布式A2C网络模型来模拟最优代价函数和理论最优控制策略,并设计优势函数指导控制策略的调整;训练分布式A2C网络模型,求解实际最优控制策略并执行;所述分别建立追逐无人机和逃逸无人机的动力学系统模型具体包括:考虑由个追逐无人机组成的互联系统,引入追逐无人机的未知非线性扰动和未知系统矩阵,建立追逐无人机/>的动力学系统模型:N
;其中为追逐无人机/>的位置向量,/>为追逐无人机的位置向量的导数,/>是追逐无人机的控制输入向量;/>是追逐无人机/>的未知系统矩阵,/>是追逐无人机的已知输入增益矩阵,/>为与追逐无人机的状态相关的未知非线性扰动;/>表示时间;iii
个追逐无人机去围捕逃逸无人机,引入逃逸无人机的未知系统矩阵和未知非线性扰动,建立逃逸无人机的动力学系统模型:Nee
;其中是逃逸无人机/>的位置向量,/>是逃逸无人机/>的位置向量的导数,是逃逸无人机/>的控制输入向量;/>和/>分别是逃逸无人机/>的未知系统矩阵和已知输入增益矩阵,/>为与逃逸无人机/>的状态相关的未知非线性扰动;逃逸无人机在逃逸的过程中渐近跟踪逃逸目标/>的动力学系统模型/>,其中为逃逸目标/>的已知系统矩阵,/>为逃逸目标/>的位置向量,即逃逸无人机/>的位置向量/>渐近收敛至逃逸目标的位置向量/>;t所述分别基于追逐无人机、逃逸无人机及各自的邻居无人机构造追逐无人机和逃逸无人机的局部误差变量具体包括:引入追逐无人机与追逐无人机之间的位置偏移量、逃逸无人机与追逐无人机之间的位置偏移量,计算追逐无人机相对于其邻居无人机和逃逸无人机的局部误差变量:ije
;其中,为追逐无人机的位置向量,/>为逃逸无人机和追逐无人机之间的位置偏移量,/>为追逐无人机和追逐无人机之间的位置偏移量,/>为追逐无人机对应的节点的邻居集,/>是追逐无人机和追逐无人机对应的节点之间的关联权重,/>为逃逸无人机和追逐无人机对应的节点之间的关联权重;/>是与边逃逸无人机和逃逸目标对应的节点之间的关联权重;jeiijiijeiet引入逃逸无人机和追逐无人机之间的位置偏移量,计算逃逸无人机的局部误差变量:ee
;其中为增益,设追逐无人机1为唯一与逃逸无人机e交互的追逐无人机,/>为逃逸无人机的节点和追逐无人机1对应的节点之间的关联权重;/>为逃逸无人机和追逐无人机之间的位置偏移量;逃逸无人机的邻居集包括追逐无人机1和逃逸目标;/>为追逐无人机1的位置向量,/>为逃逸无人机与追逐无人机1之间的位置偏移量;eeiee所述构建分布式A2C网络模型来模拟最优代价函数和理论最优控制策略具体包括:设和/>分别是追逐无人机和逃逸无人机的最优代价函数;ie设计评判网络以模拟最优代价函数,计算最优代价函数的估计值:
;其中,分别为追逐无人机、逃逸无人机的最优代价函数的估计值;和/>均为基函数集向量,/>和/>分别为追逐无人机和逃逸无人机的最优代价函数/>和/>的当前权重估计;ieie设计决策网络以模拟理论最优控制策略,结合最优代价函数的估计值,计算得到理论最优控制策略的估计值,同时实现评判网络和决策网络之间的信息交互更新;其中,理论最优控制策略的估计值为:
;其中,为追逐无人机的控制输入向量的估计值,/>为逃逸无人机的控制输入向量的估计值,/>为追逐无人机的加权度;iei分别计算逐无人机和逃逸无人机的方程的误差:ieHJB
;其中,为追逐无人机的方程的误差,/>为逃逸无人机的方程的误差;/>为追逐无人机的控制输入向量的估计值,/>和/>分别为追逐无人机和逃逸无人机的学习回归变量;iHJBeHJBjie所述设计优势函数调整控制策略具体包括:追逐无人机和逃逸无人机的决策网络的优势函数分别为:ie
;其中,为追逐无人机的优势函数,/>为逃逸无人机的优势函数,T为时间间隔,为积分区间,为积分变量;/>、/>分别为追逐无人机、逃逸无人机的评判网络的当前权重。iesie