一种基于OAR模型与强化学习的辅助决策方法和装置

申请号: CN202311824731.3

申请人: 清华大学

申请日期: 2023/12/28

摘要文本

本公开提供了一种基于OAR模型与强化学习的辅助决策方法和装置，涉及强化学习技术领域，旨在准确预测出代理的动作概率分布。所述方法包括：获取每个代理观测到的各个目标的属性集合；对每个代理观测到的各个目标的属性集合进行图推理计算，得到每个代理的属性集合矩阵；获取关系邻接矩阵；将每个代理的属性集合矩阵和关系邻接矩阵进行推理计算，得到融合了全图信息的目标属性矩阵；从环境背景中提取背景特征，将背景特征附加到目标属性矩阵，得到每个代理在每一时刻观测到的OAR全局特征；利用循环神经网络对OAR全局特征进行处理，得到每个代理对应的融合了历史信息的目标OAR全局特征；基于目标OAR全局特征，确定代理的动作。

申请人信息

申请人:清华大学
申请人地址:100084 北京市海淀区清华大学
发明人: 清华大学

专利详细信息

项目	内容
专利名称	一种基于OAR模型与强化学习的辅助决策方法和装置
专利类型	发明申请
申请号	CN202311824731.3
申请日	2023/12/28
公告号	CN117474077A
公开日	2024/1/30
IPC主分类号	G06N3/092
权利人	清华大学
发明人	段一平; 陶晓明; 祖曰然; 崔洲涓; 李明哲
地址	北京市海淀区清华园

专利主权项内容

1.一种基于OAR模型与强化学习的辅助决策方法，其特征在于，应用于策略网络，所述策略网络包括循环神经网络和每类代理对应的动作网络，所述策略网络是进行强化学习得到的；所述方法包括：获取每个所述代理观测到的各个目标的属性集合，所述目标包括所述代理；对每个所述代理观测到的所述各个目标的属性集合进行图推理计算，得到每个所述代理的属性集合矩阵；获取所述各个目标之间的关系，根据所述各个目标之间的关系，得到关系邻接矩阵；将每个所述代理的属性集合矩阵和所述关系邻接矩阵进行推理计算，得到融合了全图信息的目标属性矩阵；从环境背景中提取背景特征，将所述背景特征附加到所述目标属性矩阵，得到每个所述代理在每一时刻观测到的OAR全局特征；利用所述循环神经网络对所述OAR全局特征进行处理，得到每个所述代理对应的融合了历史信息的目标OAR全局特征；将每个所述代理对应的所述目标OAR全局特征输入所述代理对应的动作网络，得到每个所述代理的动作概率分布；根据每个所述代理的动作概率分布，确定所述代理的动作。

一种基于OAR模型与强化学习的辅助决策方法和装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种基于OAR模型与强化学习的辅助决策方法和装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢