← 返回列表
一种基于DDQN算法的配送车辆动态调度优化方法
申请人信息
- 申请人:安徽农业大学
- 申请人地址:230036 安徽省合肥市蜀山区长江西路130号安徽农业大学
- 发明人: 安徽农业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于DDQN算法的配送车辆动态调度优化方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311830634.5 |
| 申请日 | 2023/12/27 |
| 公告号 | CN117726040A |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06Q10/04 |
| 权利人 | 安徽农业大学 |
| 发明人 | 刘司雨; 王超; 王琴; 董彩月; 李彬; 乔梓岩; 高羽佳; 辜丽川; 邹能锋 |
| 地址 | 安徽省合肥市长江西路130号 |
摘要文本
本发明公开了一种基于DDQN算法的配送车辆动态调度优化方法,属于基于深度强化学习的生鲜配送车辆调度技术领域;本发明将生鲜配送动态车辆调度问题视为连续时间过程,基于SMDP(Semi‑Markov Decision Process)框架进行建模,并采用DDQN(Double Deep Q‑Learning)算法来训练双Agent,在处理“新订单事件”和“车辆事件”时做出调度分配。该方法显著降低了分配空间的组合复杂性,在考虑多个分配限制因素的同时,表现出更好的平均分配时间。通过提高系统资源利用率和调度效率,解决了生鲜配送延迟导致生鲜产品时效性下降的问题。
专利主权项内容
1.一种基于DDQN算法的配送车辆动态调度优化方法,其特征在于,包括以下步骤:S1、将生鲜配送中的动态车辆调度问题视为基于SMDP框架的连续时间过程:根据生鲜配送订单随时间随机出现、连续分配之间时间间隔随机的特性,拟定基于事件的SMDP公式,并定义SMDP的基本构成:环境、状态、动作空间、奖励函数和环境动力学;在系统中,明确定义两个触发分配的重要事件:“新订单事件”和“车辆事件”,将原本的多对多分配调度问题简化为一对多分配调度问题;S2、利用离散事件模拟器进行模拟:使用Python配置离散事件模拟器;利用所述模拟器维护按时间顺序排列的订单列表,并使用特定的处理例程来处理“新订单事件”和“车辆事件”:在模拟过程中,用概率分布表示驾驶员拒绝的概率,并使用β密度函数对其进行建模,最后,Agent利用该概率执行伯努利试验来确定是否拒绝订单;S3、训练Agent:结合真实世界数据和模拟数据,运用DDQN算法来同时训练双Agent,使其针对“新订单事件”和“车辆事件”做出调度分配。