多智能体通信方法、装置、存储介质和电子设备
摘要文本
本发明涉及一种多智能体通信方法、装置、存储介质和电子设备,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,智能体作为任务执行节点,通信关系描述为边;智能体基于观察到的当前全局环境状态及自身神经网络,执行局部决策动作,获取状态‑动作的奖励值及更新的全局环境状态;基于拉普拉斯函数分布进行采样,获取随机噪声信息;将价值函数估计信息与随机噪声信息结合,生成隐私保护通信信息,与智能体的邻居智能体建立双向通信信道通信;依据当前状态‑动作价值函数估计信息、接收的隐私保护通信接收信息、环境反馈的奖励值及新的全局环境状态,对神经网络进行迭代更新,具有严格理论保证的通信安全性能提升。。数据由马 克 团 队整理
申请人信息
- 申请人:中国科学院自动化研究所
- 申请人地址:100190 北京市海淀区中关村东路95号
- 发明人: 中国科学院自动化研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 多智能体通信方法、装置、存储介质和电子设备 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311586285.7 |
| 申请日 | 2023/11/24 |
| 公告号 | CN117579358A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | H04L9/40 |
| 权利人 | 中国科学院自动化研究所 |
| 发明人 | 张俊格; 乔丹; 陈皓 |
| 地址 | 北京市海淀区中关村东路95号 |
专利主权项内容
1.一种多智能体通信方法,其特征在于,包括:基于智能体之间的通信关系,构建分布式网络化多智能体学习系统,所述智能体为所述分布式网络化多智能体学习系统的执行单元节点,所述通信关系为所述分布式网络化多智能体学习系统的边;基于目标智能体在当前决策周期观察的当前全局环境状态及基于神经网络表示的状态-动作价值函数估计信息,利用Q-Learning算法生成局部决策动作,在所述当前全局环境状态下,执行所述局部决策动作,从环境中得到所述状态-动作价值函数估计信息的奖励值和新的全局环境状态;依据预先设置的差分隐私参数,基于拉普拉斯函数分布进行采样,获取随机噪声信息;基于所述随机噪声信息与所述状态-动作价值函数估计信息,生成隐私保护通信信息,向与所述目标智能体具有边的智能体发送;接收与所述目标智能体具有边的智能体发送的隐私保护通信接收信息,依据所述当前全局环境状态、所述目标智能体采取的决策动作、所述状态-动作价值函数估计信息、所述隐私保护通信接收信息、所述环境反馈的奖励值、所述新的全局环境状态,更新所述神经网络。