← 返回列表

一种基于OAR模型与强化学习的辅助决策方法和装置

申请号: CN202311824731.3
申请人: 清华大学
申请日期: 2023/12/28

摘要文本

本公开提供了一种基于OAR模型与强化学习的辅助决策方法和装置,涉及强化学习技术领域,旨在准确预测出代理的动作概率分布。所述方法包括:获取每个代理观测到的各个目标的属性集合;对每个代理观测到的各个目标的属性集合进行图推理计算,得到每个代理的属性集合矩阵;获取关系邻接矩阵;将每个代理的属性集合矩阵和关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;从环境背景中提取背景特征,将背景特征附加到目标属性矩阵,得到每个代理在每一时刻观测到的OAR全局特征;利用循环神经网络对OAR全局特征进行处理,得到每个代理对应的融合了历史信息的目标OAR全局特征;基于目标OAR全局特征,确定代理的动作。

专利详细信息

项目 内容
专利名称 一种基于OAR模型与强化学习的辅助决策方法和装置
专利类型 发明申请
申请号 CN202311824731.3
申请日 2023/12/28
公告号 CN117474077A
公开日 2024/1/30
IPC主分类号 G06N3/092
权利人 清华大学
发明人 段一平; 陶晓明; 祖曰然; 崔洲涓; 李明哲
地址 北京市海淀区清华园

专利主权项内容

1.一种基于OAR模型与强化学习的辅助决策方法,其特征在于,应用于策略网络,所述策略网络包括循环神经网络和每类代理对应的动作网络,所述策略网络是进行强化学习得到的;所述方法包括:获取每个所述代理观测到的各个目标的属性集合,所述目标包括所述代理;对每个所述代理观测到的所述各个目标的属性集合进行图推理计算,得到每个所述代理的属性集合矩阵;获取所述各个目标之间的关系,根据所述各个目标之间的关系,得到关系邻接矩阵;将每个所述代理的属性集合矩阵和所述关系邻接矩阵进行推理计算,得到融合了全图信息的目标属性矩阵;从环境背景中提取背景特征,将所述背景特征附加到所述目标属性矩阵,得到每个所述代理在每一时刻观测到的OAR全局特征;利用所述循环神经网络对所述OAR全局特征进行处理,得到每个所述代理对应的融合了历史信息的目标OAR全局特征;将每个所述代理对应的所述目标OAR全局特征输入所述代理对应的动作网络,得到每个所述代理的动作概率分布;根据每个所述代理的动作概率分布,确定所述代理的动作。