← 返回列表
一种基于强化学习的多航天器追逃博弈下的最优捕获方法
摘要文本
本发明涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法,包括以下步骤:建立多航天器动态方程;获取追逃博弈双方的初始位置,对多航天器进行任务分配;针对外部扰动设计补偿器;对动态方程进行坐标变换;根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;设计基于强化学习的无模型迭代策略;初始化控制器,并采集博弈双方动态信息;根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;根据最优控制器控制追击航天器捕获逃逸航天器,实现追逃博弈的纳什均衡。与现有技术相比,本发明可以克服外部系统带来的扰动,在未知模型的情况下完成追击任务并实现纳什均衡。。搜索马 克 数 据 网
申请人信息
- 申请人:同济大学
- 申请人地址:200092 上海市杨浦区四平路1239号
- 发明人: 同济大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于强化学习的多航天器追逃博弈下的最优捕获方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311242135.4 |
| 申请日 | 2023/9/25 |
| 公告号 | CN117332684A |
| 公开日 | 2024/1/2 |
| IPC主分类号 | G06F30/27 |
| 权利人 | 同济大学 |
| 发明人 | 贾玉鹏; 董怡 |
| 地址 | 上海市杨浦区四平路1239号 |
专利主权项内容
1.一种基于强化学习的多航天器追逃博弈下的最优捕获方法,其特征在于,包括以下步骤:步骤1)根据博弈航天器动力学特性建立多航天器动态方程;步骤2)获取追逃博弈双方的初始位置,对多航天器进行任务分配;步骤3)针对外部扰动设计补偿器;步骤4)根据补偿器对多航天器动态方程进行坐标变换;步骤5)根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;步骤6)设计基于强化学习的无模型迭代策略;步骤7)初始化控制器,并采集博弈双方的动态信息;步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;步骤9)根据最优控制器控制追击航天器,捕获逃逸航天器,实现追逃博弈的纳什均衡。