一种基于深度强化学习的稳定平台伺服控制方法
摘要文本
本发明公开了一种基于深度强化学习的稳定平台伺服控制方法,涉及伺服控制技术领域。本发明与之前的PID控制器相比,改进了其快速性与抗干扰能力不足、性能依赖设计人员经验且自适应能力欠缺的问题,通过设计并训练深度强化学习智能体,使其在与环境的不断交互中学习出最佳控制策略,构成深度强化学习自适应PID速度环、经典PID位置环的双闭环校正稳定平台控制器,并将之应用于基于斜置稳定平台的过顶控制策略中。仿真验证结果显示,该方法动态性能良好、抗干扰能力强,能够稳定跟踪高速机动的目标,满足稳定平台伺服控制系统的工程应用要求。
申请人信息
- 申请人:北京理工大学
- 申请人地址:100081 北京市海淀区中关村南大街5号
- 发明人: 北京理工大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于深度强化学习的稳定平台伺服控制方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202410033173.7 |
| 申请日 | 2024/1/10 |
| 公告号 | CN117539145B |
| 公开日 | 2024/4/2 |
| IPC主分类号 | G05B11/42 |
| 权利人 | 北京理工大学 |
| 发明人 | 刘福祥; 何玮钰; 金秋延; 李磊; 李函潞 |
| 地址 | 北京市海淀区中关村南大街5号 |
专利主权项内容
1.一种基于深度强化学习的稳定平台伺服控制方法,其特征在于,具体包括以下步骤:S1、建立伺服稳定平台控制系统模型,引入力矩电机模型,搭建位置速度双闭环校正模型;S2、建立基于深度强化学习的深度确定性策略梯度算法网络,记作深度确定性策略梯度智能体网络;S3、根据S2中所得的深度确定性策略梯度智能体网络设计智能体控制器的状态观测值,作为环境对智能体的反馈;S4、利用S2中所得的深度确定性策略梯度智能体网络设计智能体对环境采取的动作;S5、基于S2中所得的深度确定性策略梯度智能体网络,结合实际控制需求设计合适的奖赏函数,引导智能体学习最佳控制策略,具体包括以下内容:所述奖赏函数为组合式函数,由允许偏差带奖赏函数R(t)、偏差变化率奖赏函数R(t)、输出范围奖赏函数R(t)构成,具体公式表示如下:123将上述奖赏函数进行组合,得到:R(t)=R(t)+R(t)+R(t) (7);123S6、将S3-S5中所述智能体状态观测值设计、智能体动作设计、奖赏函数设计与智能体组合得到自适应PID控制器,应用于稳定平台的速度环控制中,获得速度环校正回路;S7、利用S6中所得的速度环校正回路分别训练各个框架通道的深度确定性策略梯度智能体网络,直至平均奖赏值达到目标奖赏值时停止训练;S8、将S7中训练完毕的深度确定性策略梯度速度环校正回路与采用经典PID的位置环校正串联,构成完整的双闭环校正回路稳定平台控制系统模型;S9、将S8所得的控制器应用于斜置稳定平台过顶奇异控制策略中,实现目标跟踪。