一种无信号交叉口完全自主交通流通行控制方法
摘要文本
本发明适用于智能交通技术领域,提供了一种无信号交叉口完全自主交通流通行控制方法,包括如下步骤:交叉口几何拓扑建模与交通流场景建模;交叉口交通流通行控制问题的约束马尔科夫建模及安全强化学习问题转换;交通流通行控制网络模型设计;利用安全改进的深度强化学习方法训练交叉口交通流通行控制方法。通过仿真实验测试结果表明,本发明提出的方法可以在贴近真实场景的交通流仿真环境中有效地训练得到安全性改进且高效舒适的无信号交叉口自动驾驶交通流通行策略。
申请人信息
- 申请人:吉林大学
- 申请人地址:130012 吉林省长春市前进大街2699号
- 发明人: 吉林大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种无信号交叉口完全自主交通流通行控制方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311687482.8 |
| 申请日 | 2023/12/11 |
| 公告号 | CN117636661A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G08G1/07 |
| 权利人 | 吉林大学 |
| 发明人 | 高镇海; 郝鹤声; 赵睿; 高菲 |
| 地址 | 吉林省长春市前进大街2699号 |
专利主权项内容
1.一种无信号交叉口完全自主交通流通行控制方法,其特征在于,包括以下步骤:步骤1、交叉口几何拓扑建模与交通流场景建模:通过定义交叉口的道路方向、道路数量、道路所含车道数量以及道路宽度,构建出由道路交汇形成的十字交叉口场景;设定车辆的被控区域以及到达交叉口的车辆密度,车辆到达交叉口的概率服从泊松分布;步骤2、交叉口交通流通行控制问题的约束马尔科夫建模及安全强化学习问题转换:设定交叉口交通流通行控制问题的状态空间、动作空间、奖励函数以及成本函数,将交叉口通行控制问题转变为安全深度强化学习问题;其中,状态空间表示智能体在环境中的所有状态特征,动作空间表示智能体在环境中可以采取的动作,奖励函数用于对智能体在某一状态下采取某一动作的性能进行评价,成本函数用于对智能体采取的动作的风险进行评估;步骤3、交通流通行控制网络模型设计:设计具有策略-价值-成本架构的神经网络模型;其中,策略网络为交通流通行控制的决策模块,基于当前环境状态输出智能体拟采用的动作;价值网络和成本网络分别用于近似通行策略的性能评价函数和风险评估函数,用来指导策略网络的更新方向;步骤4、利用安全性改进的深度强化学习方法训练交叉口交通流通行控制方法:将拉格朗日乘子法融合进深度强化学习方法,以得到安全性改进的深度强化学习方法;其输入为环境状态,基于当前策略网络为智能体选择拟采用的动作,智能体执行所选取的动作,进而得到下一个时间步的状态;搜集智能体与环境交互的状态和动作轨迹得到采样样本,进而基于价值网络和成本网络对当前策略的性能和风险进行评估;计算策略网络、价值网络以及成本网络的损失函数,利用梯度下降法对策略进行迭代更新。