一种基于离线强化学习的信号灯及路由协同控制方法
申请人信息
- 申请人:暨南大学
- 申请人地址:510000 广东省广州市黄埔大道西601号
- 发明人: 暨南大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于离线强化学习的信号灯及路由协同控制方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311421338.X |
| 申请日 | 2023/10/30 |
| 公告号 | CN117636623A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G08G1/01 |
| 权利人 | 暨南大学 |
| 发明人 | 欧阳雅捷; 赵阔 |
| 地址 | 广东省广州市黄埔大道西601号 |
摘要文本
暨南大学获取“一种透气窗帘布”专利技术,本发明提出了一种基于离线强化学习的信号灯及路由协同控制方法,方法包括:获取不同的数据源的数据,并对数据进行预处理;设计数据源优先等级,根据数据源的优先级对数据源输入图神经网络模型的优先级进行控制;设置自适应数据融合算法对数据进行融合;使用离线强化学习算法对预处理后的数据和奖励函数进行图神经网络模型训练;实时检测交通状态和图神经网络模型输出,并在检测到异常或不安全情况时切换到预定义的安全策略。本发明通过这种协同优化的方式,不仅能有效地解决复杂和动态的交通问题,而且具有很高的安全性和用户体验,是一种具有高度创新性和实用性的交通管理解决方案。 该数据由<专利查询网>整理
专利主权项内容
1.一种基于离线强化学习的信号灯及路由协同控制方法,其特征在于,所述方法包括:S1、获取不同的数据源的数据,并对数据进行预处理;S2、设计数据源优先等级,根据数据源的优先级对数据源输入图神经网络模型的优先级进行控制;S3、设置自适应数据融合算法对数据进行融合;S4、使用离线强化学习算法对预处理后的数据和奖励函数进行图神经网络模型训练;S5、实时检测交通状态和图神经网络模型输出,并在检测到异常或不安全情况时切换到预定义的安全策略;其中,所述离线强化学习算法的实现步骤如下:初始化Q-Table,设置Q(s, a)为0;初始化经验回放缓冲区ReplayBuffer;设置学习率η=0.01、折扣因子γ=0.99;在每个训练周期,对状态特征s进行动态特征扩充;其中,所述对状态特征s进行动态特征扩充具体为:根据最接近的几个时间步的状态特征来预测末来某段时间可能的状态,然后将这些预测的特征添加到当前状态特征中,如下表示:其中,s表示当前状态,包含一系列与当前交通状况相关的特征;⊕表示连接操作,用于将当前状态和预测的未来状态合并成一个增强的状态表示;PredictFutureStates(s)表示接受当前状态s作为输入,并输出预测的未来状态的函数,实际采用的就是LSTM网络;从缓冲区ReplayBuffer中随机抽取一个批次B的样本;使用重要性采样权重w,所述重要性采样权重w是基于图神经网络模型在一个滑动窗口内的表现来动态调整的,如下表示:tt其中,w表示重要性权重,在离线强化学习中用于校正样本偏差;π(a∣s)表示目标策略下在状态s选择动作a的概率;b(a∣s)表示行为策略下在状态s选择动作a的概率;WindowedLoss表示WindowedLoss函数;所述行为策略表示数据收集策略;ttttttttt所述WindowedLoss函数表示如下:其中,r是实际奖励,是图神经网络模型预测的奖励,T是窗口大小,t是指时间步的索引;t对于每个样本(s,a,r,s′)在批次B中,使用Q-value更新规则,所述Q-value表示如下:augmentedaugmented其中,η表示学习率;w表示重要性权重;r表示当前奖励;γ表示折扣因子;tmaxQ(s′,a′)表示下一个增强状态s′下所有可能动作a′的最大Q值;a′augmentedaugmented根据图神经网络模型在验证集上的表现,动态调整学习率η和重要性采样权重w,表示如下:tη=η×(1-ValidationLossRate)w=w×(1+λ×ValidarionLoss)tt其中,ValidationLossRate表示验证集上的损失率,用于衡量图神经网络模型的性能;λ表示调节因子,用于控制ValidarionLoss对重要性权重w的影响程度;ValidationLoss表示验证集上的损失,用于衡量图神经网络模型的性能。t