一种基于强化学习的车辆稳定协调控制方法
摘要文本
本发明公开了一种基于强化学习的车辆稳定协调控制方法,包括:构建强化学网络模型,包括:策略网络、价值网络、目标策略网络和目标价值网络;以车辆行驶状态参数作为策略网络的输入变量,以主动前轮转向器和横摆力矩控制器的分配系数作为策略网络的输出变量;以车辆行驶状态参数及其对应的主动前轮转向器和横摆力矩控制器的分配系数作为价值网络的输入变量,价值网络输出当前策略的预估价值;以预估价值最大作为优化目标分别对多个强化学习网络模型进行优化,筛选出累计回报最大的优化网络模型作为最优网络模型;在车辆行驶过程中,通过最优网络模型得到主动前轮转向器和横摆力矩控制器的分配系数,协调控制车辆的附加前轮转角和附加横摆力矩。
申请人信息
- 申请人:吉林大学
- 申请人地址:130012 吉林省长春市前进大街2699号
- 发明人: 吉林大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于强化学习的车辆稳定协调控制方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311518186.5 |
| 申请日 | 2023/11/15 |
| 公告号 | CN117584939A |
| 公开日 | 2024/2/23 |
| IPC主分类号 | B60W30/045 |
| 权利人 | 吉林大学 |
| 发明人 | 靳立强; 滕飞; 肖峰; 彭金鑫 |
| 地址 | 吉林省长春市前进大街2699号 |
专利主权项内容
1.一种基于强化学习的车辆稳定协调控制方法,其特征在于,包括:构建强化学网络模型,所网络模型包括:策略网络、价值网络、目标策略网络和目标价值网络;以车辆行驶状态参数作为策略网络的输入变量,以主动前轮转向器和横摆力矩控制器的分配系数作为策略网络的输出变量;以车辆行驶状态参数及其对应的主动前轮转向器和横摆力矩控制器的分配系数作为价值网络的输入变量,所述价值网络输出当前策略的预估价值;所述目标策略网络用于选择所述策略网络的输出变量,所述目标价值网络用于计算所述价值网络的输出变量;其中,所述车辆行驶状态参数包括:车辆纵向速度,前轮转角,质心侧偏角,横摆角速度,横摆角速度和标称横摆角速度之差,路面附着系数;所述预估价值的计算公式为:r(s, a)=Ar+Ar+Ar+Ar;ttt1β2w3Δw4m式中,r为质心侧偏角回报,r为摆角速度回报,r为横摆角速度误差回报,r为质心侧偏角和横摆角速度限制回报;A、A、A、A分别为r、r、r、r的权重值;βwΔwm1234βwΔwm对策略网络参数集合和价值网络参数集合进行初始化,得到多个强化学习网络模型;以预估价值最大作为优化目标分别对所述多个强化学习网络模型进行优化,得到多个优化网络模型;筛选出累计回报最大的优化网络模型作为最优网络模型;在车辆行驶过程中,实时检测车辆状态参数作为所述最优网络模型的输入变量,通过所述最优网络模型得到主动前轮转向器和横摆力矩控制器的分配系数;并且根据所述分配系数协调控制车辆的附加前轮转角和附加横摆力矩。