← 返回列表

一种基于分层深度强化学习的多目标人车共享控制方法

申请号: CN202311366490.2
申请人: 杭州电子科技大学
申请日期: 2023/10/19

摘要文本

本申请属于智能驾驶技术领域,具体涉及一种基于分层深度强化学习的多目标人车共享控制方法,包括步骤1:获取驾驶仿真模拟环境中的各环境观测状态;步骤2:基于各环境观测状态建立整体环境状态空间,基于驾驶权分配策略建立驾驶权分配系数动作空间;步骤3:基于步骤2划分为第一层车道保持模型训练目标,第二层左右换道模型训练目标;步骤4:建立基本奖励函数,将完全自动驾驶系统驾驶、完全驾驶人模型和人机共驾融合得到车道保持模型和左右换道模型的融合奖励函数;步骤5:对融合奖励函数分层训练,直至得到最优人机共享驾驶系统驾驶权分配策略并输出分配权重。本申请将人机共享驾驶系统对驾驶控制权分配过程简化,提升训练的效率和准确性。

专利详细信息

项目 内容
专利名称 一种基于分层深度强化学习的多目标人车共享控制方法
专利类型 发明申请
申请号 CN202311366490.2
申请日 2023/10/19
公告号 CN117681901A
公开日 2024/3/12
IPC主分类号 B60W60/00
权利人 杭州电子科技大学
发明人 陈慧勤; 唐蕴涵; 朱嘉祺; 李千喜
地址 浙江省杭州市钱塘区白杨街道2号大街1158号

专利主权项内容

1.一种基于分层深度强化学习的多目标人车共享控制方法,其特征在于,所述基于分层深度强化学习的多目标人车共享控制方法包括以下步骤:步骤1:人机共享驾驶系统通过传感设备获取自动驾驶汽车在驾驶仿真模拟环境中的各环境观测状态,各环境观测状态至少包括车辆自身状态、车辆周围环境状态和驾驶人控制输入状态;步骤2:基于步骤1的各环境观测状态建立整体环境状态空间,基于人车共享驾驶系统的驾驶权分配策略,建立驾驶人和自动驾驶系统的驾驶权分配系数动作空间;步骤3:利用分层强化学习将步骤2获取到人车共享驾驶系统的整体环境状态空间和驾驶权分配系数动作空间划分为两层训练目标,第一层训练目标为车道保持模型,第二层训练目标为左右换道模型;步骤4:基于步骤1中的车辆运动学模型及步骤3中分解的车道保持模型和左右换道模型分别建立基本奖励函数,并按照完全自动驾驶系统驾驶、完全驾驶人模型和人机共驾三种方式融合,得到车道保持模型融合奖励函数和左右换道模型融合奖励函数;步骤5:基于步骤4建立的车道保持模型融合奖励函数和左右换道模型融合奖励函数进行训练,同时建立车道保持模型和左右换道模型训练所需的驾驶仿真模拟环境,将完全自动驾驶系统驾驶、完全驾驶人模型驾驶和人机共驾三种方式获得的整体环境状态空间和驾驶权分配系数动作空间同时输入车道保持模型的驾驶仿真模拟环境和融合奖励函数中训练,并将训练好的模型输入左右换道模型的驾驶仿真模拟环境和融合奖励函数进一步训练,直至训练得到最优的人机共享驾驶系统的驾驶权分配策略,并输出分配权重。