← 返回列表
基于安全强化学习的近距空战机动决策优化方法
摘要文本
本发明公开了一种基于安全强化学习的近距空战机动决策优化方法,主要解决现有方法无法兼顾机动决策最优性、实时性、决策安全性和可移植性的问题。该方法包括以下步骤:S1,建立决策网络的状态输入模型;S2,建立我方红机连续动作空间模型;S3,建立近距空战态势评估函数,使我方红机未来时刻的相对态势符合决策网络输出的权重倾向;S4,建立近距空战机动决策最优控制问题的目标函数;S5,得到近距空战机动决策最优控制问题,并求解,得到基于安全强化学习的近距空战机动决策。本发明在强化学习训练架构设计上,通过加入可实时决策的机动决策安全优化模块,保证了机动决策优化的安全性和机动决策的底层六自由度可跟踪性。。该数据由<专利查询网>整理
申请人信息
- 申请人:四川大学
- 申请人地址:610065 四川省成都市武侯区一环路南一段24号
- 发明人: 四川大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于安全强化学习的近距空战机动决策优化方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311191402.X |
| 申请日 | 2023/9/15 |
| 公告号 | CN117332680A |
| 公开日 | 2024/1/2 |
| IPC主分类号 | G06F30/27 |
| 权利人 | 四川大学 |
| 发明人 | 李彬; 刘高旗; 宁召柯; 季玉龙; 孙绍山; 陶呈刚; 李导 |
| 地址 | 四川省成都市武侯区一环路南一段24号 |
专利主权项内容
1.一种基于安全强化学习的近距空战机动决策优化方法,其特征在于,包括以下步骤:S1,基于我方红机和蓝方敌机的位置和速度矢量,建立决策网络的状态输入模型;S2,根据决策网络的输出映射我方红机在相对距离、相对高度、相对速度、方位角的机动决策优化倾向权重,建立我方红机连续动作空间模型;S3,建立近距空战态势评估函数,使我方红机未来时刻的相对态势符合决策网络输出的权重倾向;S4,根据三自由度质点动力学模型,以近距空战态势评估函数的终端时刻值建立近距空战机动决策最优控制问题的目标函数;S5,根据目标函数,得到近距空战机动决策最优控制问题,并采用离散控制参数化对近距空战机动决策最优控制问题进行简化求解,得到基于安全强化学习的近距空战机动决策。