一种基于强化学习的固定翼无人机控制策略的确定方法
摘要文本
本申请提供了一种基于强化学习的固定翼无人机控制策略的确定方法,涉及飞行控制技术领域,包括:根据参考信号和固定翼无人机的动力学模型,构建增广系统;根据增广系统和价值函数,推导贝尔曼方程和最优控制策略的表达式;基于强化学习中的策略迭代方法,重构增广系统,再结合价值函数、重构的增广系统、贝尔曼方程和最优控制策略的表达式,确定策略迭代方程;在预定时间段内施加初始控制策略和初始参考信号,统计跟踪误差;将初始控制策略和跟踪误差代入策略迭代方程;迭代求解收敛时得到最优控制策略。将强化学习算法应用于固定翼无人机的控制策略求解,仅使用设定的初始控制策略和可测得的跟踪误差即可求解出最优控制策略,以提升控制效果。
申请人信息
- 申请人:北京航空航天大学
- 申请人地址:100191 北京市海淀区学院路37号
- 发明人: 北京航空航天大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于强化学习的固定翼无人机控制策略的确定方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410239788.5 |
| 申请日 | 2024/3/4 |
| 公告号 | CN117826860A |
| 公开日 | 2024/4/5 |
| IPC主分类号 | G05D1/495 |
| 权利人 | 北京航空航天大学 |
| 发明人 | 刘昊; 刘德元; 任梓铭; 钟森 |
| 地址 | 北京市海淀区学院路37号 |
专利主权项内容
1.一种基于强化学习的固定翼无人机控制策略的确定方法,其特征在于,所述控制策略应用于无人机控制系统;所述控制策略的控制目标为根据接收到的参考信号控制固定翼无人机跟随所述参考信号运动;所述确定方法包括:根据所述参考信号和所述固定翼无人机的动力学模型,构建所述固定翼无人机的增广系统;根据所述固定翼无人机的增广系统和价值函数,推导贝尔曼方程和最优控制策略的表达式;其中,所述价值函数根据所述控制策略的控制目标定义得到;基于强化学习中的策略迭代方法,重构所述固定翼无人机的增广系统;结合所述价值函数、重构的增广系统、所述贝尔曼方程和所述最优控制策略的表达式,确定待求解的策略迭代方程;对所述无人机控制系统在预定时间段内施加初始控制策略和初始参考信号,统计所述固定翼无人机在所述预定时间段内的相对于所述初始参考信号的跟踪误差;其中,所述初始控制策略包括控制所述无人机控制系统稳定的基本控制策略和探索噪声策略;将所述初始控制策略和跟踪误差代入所述策略迭代方程,并对所述策略迭代方程进行迭代求解;其中,当所述策略迭代方程的迭代求解收敛时,得到所述固定翼无人机的最优控制策略。。