一种基于OAR模型与强化学习的辅助决策方法和装置
摘要文本
本公开提供了一种基于OAR模型与强化学习的辅助决策方法和装置,涉及强化学习技术领域,旨在准确预测出代理的动作概率分布。所述方法包括:获取每个代理观测到的各个目标的属性集合;对每个代理观测到的各个目标的属性集合进行图推理计算,得到每个代理的属性集合矩阵;获取关系邻接矩阵;将每个代理的属性集合矩阵和关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;从环境背景中提取背景特征,将背景特征附加到目标属性矩阵,得到每个代理在每一时刻观测到的OAR全局特征;利用循环神经网络对OAR全局特征进行处理,得到每个代理对应的融合了历史信息的目标OAR全局特征;基于目标OAR全局特征,确定代理的动作。
申请人信息
- 申请人:清华大学
- 申请人地址:100084 北京市海淀区清华大学
- 发明人: 清华大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于OAR模型与强化学习的辅助决策方法和装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311824731.3 |
| 申请日 | 2023/12/28 |
| 公告号 | CN117474077A |
| 公开日 | 2024/1/30 |
| IPC主分类号 | G06N3/092 |
| 权利人 | 清华大学 |
| 发明人 | 段一平; 陶晓明; 祖曰然; 崔洲涓; 李明哲 |
| 地址 | 北京市海淀区清华园 |
专利主权项内容
1.一种基于OAR模型与强化学习的辅助决策方法,其特征在于,应用于策略网络,所述策略网络包括循环神经网络和每类代理对应的动作网络,所述策略网络是进行强化学习得到的;所述方法包括:获取每个所述代理观测到的各个目标的属性集合,所述目标包括所述代理;对每个所述代理观测到的所述各个目标的属性集合进行图推理计算,得到每个所述代理的属性集合矩阵;获取所述各个目标之间的关系,根据所述各个目标之间的关系,得到关系邻接矩阵;将每个所述代理的属性集合矩阵和所述关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;从环境背景中提取背景特征,将所述背景特征附加到所述目标属性矩阵,得到每个所述代理在每一时刻观测到的OAR全局特征;利用所述循环神经网络对所述OAR全局特征进行处理,得到每个所述代理对应的融合了历史信息的目标OAR全局特征;将每个所述代理对应的所述目标OAR全局特征输入所述代理对应的动作网络,得到每个所述代理的动作概率分布;根据每个所述代理的动作概率分布,确定所述代理的动作。