基于深度强化学习的资源均衡施工排程方法、装置及设备
摘要文本
本发明提供一种基于深度强化学习的资源均衡施工排程方法、装置及设备,涉及建筑施工排程技术领域,所述方法包括:获取至少一个样本施工项目对应的项目信息和资源需求信息;以资源均衡和排程效率为优化目标,分别构建单步奖励函数和项目总奖励函数;并构建深度神经网络模型,基于当前施工时间步对应的施工状态数据、项目信息和资源需求信息,对深度神经网络模型进行强化学习,输出下一施工时间步对应的决策,并基于单步奖励函数更新模型参数;在施工排程结束后,基于项目总奖励函数更新模型参数;遍历各样本施工项目,重复执行更新模型参数的步骤,得到训练完成的施工排程模型。本发明可实现以资源均衡为目标的施工排程。
申请人信息
- 申请人:清云小筑(北京)创新技术有限公司
- 申请人地址:100084 北京市海淀区中关村东路1号院8号楼CG05-043
- 发明人: 清云小筑(北京)创新技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于深度强化学习的资源均衡施工排程方法、装置及设备 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410111166.4 |
| 申请日 | 2024/1/26 |
| 公告号 | CN117634859A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G06Q10/0631 |
| 权利人 | 清云小筑(北京)创新技术有限公司 |
| 发明人 | 宋盛禹 |
| 地址 | 北京市海淀区中关村东路1号院8号楼CG05-043 |
专利主权项内容
1.一种基于深度强化学习的资源均衡施工排程方法,其特征在于,包括:获取至少一个样本施工项目对应的项目信息和资源需求信息;所述资源需求信息用于表征所述样本施工项目中工序、资源种类和资源需求量之间的映射关系;以资源均衡和排程效率为优化目标,分别构建单步奖励函数和项目总奖励函数;基于所述项目信息、所述资源需求信息、所述单步奖励函数和所述项目总奖励函数,构建深度神经网络模型,其中,所述深度神经网络模型包括基于卷积神经网络构建的第一子模型、基于循环神经网络构建的第二子模型、第三子模型和第四子模型,以及基于深度神经网络构建的主体子模型;基于所述深度神经网络模型,获取当前施工时间步对应的施工状态数据,基于所述当前施工时间步对应的施工状态数据、所述项目信息和所述资源需求信息,对所述深度神经网络模型进行强化学习,所述主体子模型输出下一施工时间步对应的决策,并基于所述单步奖励函数更新所述深度神经网络模型的模型参数;所述施工状态数据用于表征所述样本施工项目中所述当前施工时间步对应的工序完成进度和资源拥有量,且所述施工状态数据中不同类型的资源训练数据分别输入所述第一子模型至所述第四子模型;在所述下一施工时间步小于或等于施工工期阈值的情况下,重复执行单步决策步骤,在施工排程结束后,基于所述项目总奖励函数更新当前迭代轮次的所述模型参数;遍历各所述样本施工项目,重复执行更新所述模型参数的步骤,得到训练完成的施工排程模型,并基于所述施工排程模型对目标施工项目进行施工排程,输出所述目标施工项目在各施工时间步对应的目标排程策略。