← 返回列表
一种拦截随机机动目标航天器的深度强化学习制导律
摘要文本
本发明提供一种拦截随机机动目标航天器的深度强化学习制导律。本发明设计了在目标可以进行随机机动规避拦截的场景下,一对一的深度强化学习训练环境,并设计相关奖惩训练机制,探究在随机性环境中在拦截卫星决策上的可行性与应用效果。用来拦截传统方法难以解决的目标卫星随机机动的任务。
申请人信息
- 申请人:哈尔滨工业大学
- 申请人地址:150001 黑龙江省哈尔滨市南岗区西大直街92号
- 发明人: 哈尔滨工业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种拦截随机机动目标航天器的深度强化学习制导律 |
| 专利类型 | 发明申请 |
| 申请号 | CN202310405974.7 |
| 申请日 | 2023/4/17 |
| 公告号 | CN117755521A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | B64G1/24 |
| 权利人 | 哈尔滨工业大学 |
| 发明人 | 叶东; 姜锐; 肖岩; 孙兆伟 |
| 地址 | 黑龙江省哈尔滨市南岗区西大直街92号 |
专利主权项内容
1.一种拦截随机机动目标航天器的深度强化学习制导律,其特征在于,所述深度强化学习制导律包括以下步骤:步骤1:建立追击卫星的拦截模型及约束设计;步骤2:对拦截模型的模块进行初始化;步骤3:追击卫星根据神经网络拟合选取多组动作,其中动作包括带探索的动作;步骤4:目标卫星根据二者预计最短距离判断是否需要机动,若需要,则追击卫星在目标卫星进行自主决策变轨后再进行步骤5;若不需要,则进行步骤5;步骤5:追击卫星与目标卫星两者在运行了前者的动作中采取的一定间隔时间后,进入强化学习的下一个状态;步骤6:利用步骤5的运行状态更新经验池,并判断经验池是否已满,若经验池未满,则进行步骤11;若经验池已满,则进行步骤7;步骤7:神经网络进行拟合更新学习,同时判断步骤5在轨运行状态的训练效果是否可以进行评估,若能进行评估则进行权利要求2,若不能进行评估则进行步骤8;步骤8:该幕奖励值累计并进行步骤9;步骤9:判断该幕拦截过程是否结束,若已结束,则进行步骤10;若未结束则返回步骤3;步骤10:判断是否达到设定幕数,若达到,则进行步骤11;若未达到,则返回步骤2;步骤11:结束。。