一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

申请号: CN202311805708.X

申请人: 长春工业大学

申请日期: 2023/12/26

摘要文本

本发明提出一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，涉及智能车间的仓储物流自动配送领域。在车间收集生产作业数据，以数据为基础建立马尔科夫决策模型。设定训练数据样本，用Dueling DQN算法优化数据的神经网络结构，输出层动作价值函数Q为价值函数和优势函数的线性加和，将价值函数和优势函数分开建模，使智能体更好的处理与动作关联较小的状态。构建奖惩函数与路网负载的联系，将路径长度和路网负载融入奖惩函数。构建关注状态价值和动作优势值差异的任务调度匹配执行机制，可以应用于仓储车间的AGV任务调度领域。与现有技术相比，本发明可高效优化路网负载，准确匹配不同状态和动作调度策略，极大提高了生产效率。

申请人信息

申请人:长春工业大学
申请人地址:130012 吉林省长春市朝阳区延安大街长春工业大学南湖校区
发明人: 长春工业大学

专利详细信息

项目	内容
专利名称	一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
专利类型	发明申请
申请号	CN202311805708.X
申请日	2023/12/26
公告号	CN117474295A
公开日	2024/1/30
IPC主分类号	G06Q10/0631
权利人	长春工业大学
发明人	张秀梅; 李文松; 李慧; 刘芳; 刘方达
地址	吉林省长春市延安大街2055号

专利主权项内容

1.一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法，其特征在于，包括：步骤S1：采集智能仓储车间作业数据，并进行预处理，构建马尔科夫决策模型，随机初始化所有的状态和动作对应的价值Q，初始化所有网络参数，清空经验回放的集合D，完成数据状态建模；随机抽取状态建模后的数据，初始化状态S为当前状态序列的第一个状态，获取其特征向量；步骤S2：在Q网络中使用作为输入，在神经网络的输出层前加两个子网络结构，输出的动作价值函数Q由基于状态的价值函数V和基于状态动作的优势函数AF线性加和得到；步骤S3：使用ε-贪婪法在当前Q值输出中选择对应的动作A，得到基于动作A进行调度花费的时间T，并将时间T存放于集合中，分别评估时间T相同与不相同时的最优动作；步骤S4：设计奖惩函数，将路径长度和路网负载与奖惩函数相结合，使路网负载达到均衡，在状态S执行当前动作A，得到新状态S'对应的特征向量、奖励R和是否终止状态end，将{/>，A，R，/>，end }五元组存入经验回放集合D；步骤S5：从经验回放集合D中采样m个样本计算当前的目标Q值y，使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有参数w；j步骤S6：如果S'是终止状态，则重复步骤S2~S5，直至任务完成。

一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢