← 返回列表

一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

申请号: CN202311805708.X
申请人: 长春工业大学
申请日期: 2023/12/26

摘要文本

本发明提出一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法,涉及智能车间的仓储物流自动配送领域。在车间收集生产作业数据,以数据为基础建立马尔科夫决策模型。设定训练数据样本,用Dueling DQN算法优化数据的神经网络结构,输出层动作价值函数Q为价值函数和优势函数的线性加和,将价值函数和优势函数分开建模,使智能体更好的处理与动作关联较小的状态。构建奖惩函数与路网负载的联系,将路径长度和路网负载融入奖惩函数。构建关注状态价值和动作优势值差异的任务调度匹配执行机制,可以应用于仓储车间的AGV任务调度领域。与现有技术相比,本发明可高效优化路网负载,准确匹配不同状态和动作调度策略,极大提高了生产效率。

专利详细信息

项目 内容
专利名称 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
专利类型 发明申请
申请号 CN202311805708.X
申请日 2023/12/26
公告号 CN117474295A
公开日 2024/1/30
IPC主分类号 G06Q10/0631
权利人 长春工业大学
发明人 张秀梅; 李文松; 李慧; 刘芳; 刘方达
地址 吉林省长春市延安大街2055号

专利主权项内容

1.一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法,其特征在于,包括:步骤S1:采集智能仓储车间作业数据,并进行预处理,构建马尔科夫决策模型,随机初始化所有的状态和动作对应的价值Q,初始化所有网络参数,清空经验回放的集合D,完成数据状态建模;随机抽取状态建模后的数据,初始化状态S为当前状态序列的第一个状态,获取其特征向量;步骤S2:在Q网络中使用作为输入,在神经网络的输出层前加两个子网络结构,输出的动作价值函数Q由基于状态的价值函数V和基于状态动作的优势函数AF线性加和得到;步骤S3:使用ε-贪婪法在当前Q值输出中选择对应的动作A,得到基于动作A进行调度花费的时间T,并将时间T存放于集合中,分别评估时间T相同与不相同时的最优动作;步骤S4:设计奖惩函数,将路径长度和路网负载与奖惩函数相结合,使路网负载达到均衡,在状态S执行当前动作A,得到新状态S'对应的特征向量、奖励R和是否终止状态end,将{/>,A,R,/>,end }五元组存入经验回放集合D;步骤S5:从经验回放集合D中采样m个样本计算当前的目标Q值y,使用均方差损失函数,通过神经网络的梯度反向传播来更新Q网络的所有参数w;j步骤S6:如果S'是终止状态,则重复步骤S2~S5,直至任务完成。