← 返回列表
离散化多智能体的深度强化学习方法及系统
摘要文本
本发明提供一种离散化多智能体的深度强化学习方法及系统。所述方法包括:获取多智能体系统中的所有智能体的动作及所有智能体的观测;迭代执行至少一次第一训练过程,直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛。本发明使用一种离散化处理的网络结构来表征多智能体系统的观测以及其他智能体的动作,该离散化网络以所有智能体的观测和其他智能体的动作作为输入,用于离散化智能体的智能体观测集合以及其他智能体的动作,能够减轻环境中噪声对智能体决策的影响,促进智能体的协作,提升多智能体系统的协作效率。 数据由马 克 团 队整理
申请人信息
- 申请人:中国科学院自动化研究所
- 申请人地址:100190 北京市海淀区中关村东路95号
- 发明人: 中国科学院自动化研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 离散化多智能体的深度强化学习方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311532896.3 |
| 申请日 | 2023/11/16 |
| 公告号 | CN117610643A |
| 公开日 | 2024/2/27 |
| IPC主分类号 | G06N3/098 |
| 权利人 | 中国科学院自动化研究所 |
| 发明人 | 朱圆恒; 傅宇千; 赵冬斌 |
| 地址 | 北京市海淀区中关村东路95号 |
专利主权项内容
1.一种离散化多智能体的深度强化学习方法,其特征在于,包括:获取多智能体系统中的所有智能体的动作及所有智能体的观测;迭代执行至少一次第一训练过程,直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛;其中,所述第一训练过程包括:将所述所有智能体的观测输入到置换不变性网络,得到所有智能体的观测集合;迭代执行至少一次第二训练过程,直至获取到所有智能体的目标动作;执行所述所有智能体的目标动作,更新所述观测和环境奖励,所述环境奖励用于更新所述损失函数;对所述深度强化学习网络的参数进行更新;所述第二训练过程包括:基于离散化网络,对第一智能体的观测集合及第二智能体的动作进行离散化处理,得到第一智能体的目标动作,所述第一智能体为所述所有智能体中的任一智能体,所述第二智能体为所述所有智能体中除所述第一智能体之外的其他智能体。 数据由马 克 数 据整理