← 返回列表
一种基于模块化网络的合作智能体模型、学习方法和装置
摘要文本
本申请实施例提供一种基于模块化网络的合作智能体模型、学习方法和装置。其中,基于模块化网络的合作智能体学习方法包括:根据合作智能体的观测信息表征数据和身份信息表征数据,利用门控信息提取模块,得到基础网络模块中各个门控单元的门控数据信息;将门控数据信息代入基础网络模块的各个门控单元,利用基础网络模块,处理合作智能体的观测信息表征数据,得到智能体在当前时刻的动作价值函数;根据所有合作智能体的在当前时刻的动作价值函数,执行端到端的训练,更新合作智能体模型的参数,直至达到训练结束条件,得到训练后的合作智能体模型。
申请人信息
- 申请人:中国科学院自动化研究所
- 申请人地址:100190 北京市海淀区中关村东路95号
- 发明人: 中国科学院自动化研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于模块化网络的合作智能体模型、学习方法和装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311637177.8 |
| 申请日 | 2023/12/1 |
| 公告号 | CN117332814A |
| 公开日 | 2024/1/2 |
| IPC主分类号 | G06N3/0442 |
| 权利人 | 中国科学院自动化研究所 |
| 发明人 | 黄凯奇; 张俊格; 于杨; 尹奇跃 |
| 地址 | 北京市海淀区中关村东路95号 |
专利主权项内容
1.一种基于模块化网络的合作智能体模型,其特征在于,所述合作智能体模型包括基础网络模块以及门控信息提取模块;其中,所述基础网络模块是由多个神经网络单元通过全连接的方式构成的,所述神经网络单元之间的每一个连接的权重作为不同合作智能体在所述合作智能体模型中的一个门控单元;所述门控信息提取模块,用于根据执行目标合作任务的任一合作智能体的观测信息表征和身份信息表征,生成对应该合作智能体的所述基础网络模块中各个门控单元的门控数据信息;所述基础网络模块,用于依据所述多个神经网络单元以及门控单元,根据所述合作智能体的观测信息表征数据以及所述门控信息提取模块输出的所述门控数据信息,生成所述合作智能体的动作价值函数。