离散化多智能体的深度强化学习方法及系统

申请号: CN202311532896.3

申请人: 中国科学院自动化研究所

申请日期: 2023/11/16

摘要文本

本发明提供一种离散化多智能体的深度强化学习方法及系统。所述方法包括：获取多智能体系统中的所有智能体的动作及所有智能体的观测；迭代执行至少一次第一训练过程，直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛。本发明使用一种离散化处理的网络结构来表征多智能体系统的观测以及其他智能体的动作，该离散化网络以所有智能体的观测和其他智能体的动作作为输入，用于离散化智能体的智能体观测集合以及其他智能体的动作，能够减轻环境中噪声对智能体决策的影响，促进智能体的协作，提升多智能体系统的协作效率。数据由马克团队整理

申请人信息

申请人:中国科学院自动化研究所
申请人地址:100190 北京市海淀区中关村东路95号
发明人: 中国科学院自动化研究所

专利详细信息

项目	内容
专利名称	离散化多智能体的深度强化学习方法及系统
专利类型	发明申请
申请号	CN202311532896.3
申请日	2023/11/16
公告号	CN117610643A
公开日	2024/2/27
IPC主分类号	G06N3/098
权利人	中国科学院自动化研究所
发明人	朱圆恒; 傅宇千; 赵冬斌
地址	北京市海淀区中关村东路95号

专利主权项内容

1.一种离散化多智能体的深度强化学习方法，其特征在于，包括：获取多智能体系统中的所有智能体的动作及所有智能体的观测；迭代执行至少一次第一训练过程，直至达到预设训练次数或多智能体系统对应的深度强化学习网络的损失函数收敛；其中，所述第一训练过程包括：将所述所有智能体的观测输入到置换不变性网络，得到所有智能体的观测集合；迭代执行至少一次第二训练过程，直至获取到所有智能体的目标动作；执行所述所有智能体的目标动作，更新所述观测和环境奖励，所述环境奖励用于更新所述损失函数；对所述深度强化学习网络的参数进行更新；所述第二训练过程包括：基于离散化网络，对第一智能体的观测集合及第二智能体的动作进行离散化处理，得到第一智能体的目标动作，所述第一智能体为所述所有智能体中的任一智能体，所述第二智能体为所述所有智能体中除所述第一智能体之外的其他智能体。数据由马克数据整理

离散化多智能体的深度强化学习方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

离散化多智能体的深度强化学习方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢