一种基于强化学习的多航天器追逃博弈下的最优捕获方法

申请号: CN202311242135.4

申请人: 同济大学

申请日期: 2023/9/25

摘要文本

本发明涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法，包括以下步骤：建立多航天器动态方程；获取追逃博弈双方的初始位置，对多航天器进行任务分配；针对外部扰动设计补偿器；对动态方程进行坐标变换；根据增广系统，利用坐标变换后的动态方程构建航天器追逃博弈问题；设计基于强化学习的无模型迭代策略；初始化控制器，并采集博弈双方动态信息；根据无模型迭代策略迭代求解航天器追逃博弈问题，得到最优追击策略，再次进行坐标变换得到最优控制器；根据最优控制器控制追击航天器捕获逃逸航天器，实现追逃博弈的纳什均衡。与现有技术相比，本发明可以克服外部系统带来的扰动，在未知模型的情况下完成追击任务并实现纳什均衡。。搜索马克数据网

申请人信息

申请人:同济大学
申请人地址:200092 上海市杨浦区四平路1239号
发明人: 同济大学

专利详细信息

项目	内容
专利名称	一种基于强化学习的多航天器追逃博弈下的最优捕获方法
专利类型	发明申请
申请号	CN202311242135.4
申请日	2023/9/25
公告号	CN117332684A
公开日	2024/1/2
IPC主分类号	G06F30/27
权利人	同济大学
发明人	贾玉鹏; 董怡
地址	上海市杨浦区四平路1239号

专利主权项内容

1.一种基于强化学习的多航天器追逃博弈下的最优捕获方法，其特征在于，包括以下步骤：步骤1)根据博弈航天器动力学特性建立多航天器动态方程；步骤2)获取追逃博弈双方的初始位置，对多航天器进行任务分配；步骤3)针对外部扰动设计补偿器；步骤4)根据补偿器对多航天器动态方程进行坐标变换；步骤5)根据增广系统，利用坐标变换后的动态方程构建航天器追逃博弈问题；步骤6)设计基于强化学习的无模型迭代策略；步骤7)初始化控制器，并采集博弈双方的动态信息；步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题，得到最优追击策略，再次进行坐标变换得到最优控制器；步骤9)根据最优控制器控制追击航天器，捕获逃逸航天器，实现追逃博弈的纳什均衡。

一种基于强化学习的多航天器追逃博弈下的最优捕获方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种基于强化学习的多航天器追逃博弈下的最优捕获方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料