一种强化学习模型训练和业务执行方法、装置及电子设备

申请号: CN202410171178.6

申请人: 之江实验室

更新日期: 2026-03-20

摘要文本

之江实验室取得“一种透气窗帘布”专利技术，本说明书公开了一种强化学习模型训练和业务执行方法、装置及电子设备。所述方法包括：获取用户针对指定业务场景构建的强化学习环境数据；响应于用户的指定操作，确定用户基于强化学习环境数据选择的目标智能体，并确定目标智能体的智能体配置信息；在预设算法库中确定出目标强化学习算法；基于目标智能体、智能体配置信息以及目标强化学习算法，构建强化学习模型，并对强化学习模型进行仿真，并将仿真过程中产生的数据存入经验回放池；根据从经验回放池中获取的训练数据以及奖励函数信息对强化学习模型进行训练。本方案极大的降低了用户的使用门槛，充分满足了用户对强化学习环境的多样化需求。

专利主权项内容

1.一种强化学习模型训练方法，其特征在于，包括：获取用户针对指定业务场景构建的强化学习环境数据；响应于所述用户的指定操作，确定所述用户基于所述强化学习环境数据选择的目标智能体，并确定所述目标智能体对应的智能体配置信息，所述智能体配置信息包括：智能体数量、奖励函数信息、各目标智能体所能执行的动作对应的动作配置信息以及各目标智能体所能获取到的强化学习环境的状态对应的状态配置信息；在预设算法库中确定出与所述业务场景以及所述智能体配置信息相匹配的目标强化学习算法；基于所述目标智能体、所述智能体配置信息以及所述目标强化学习算法，构建强化学习模型，并对所述强化学习模型进行仿真，并将仿真过程中产生的数据存入经验回放池；根据从所述经验回放池中获取的训练数据以及所述奖励函数信息，对所述强化学习模型进行训练。

专利申请信息

项目	内容
专利名称	一种强化学习模型训练和业务执行方法、装置及电子设备
专利类型	发明申请
申请号	CN202410171178.6
申请日	2024/2/6
公告号	CN117725985A
公开日	2024/3/19
IPC主分类号	G06N3/092
权利人	之江实验室
发明人	张杨; 王超; 陈卫; 陈振宇; 王永恒; 郑黄河; 恽爽; 曾洪海; 连建晓; 王梦丝; 路游; 周春来; 鲁艺
地址	浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼

一种强化学习模型训练和业务执行方法、装置及电子设备

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种强化学习模型训练和业务执行方法、装置及电子设备

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种用于视频的三维人体重建模型的训练方法及装置

一种基于云边协同的盾构机故障监测诊断方法与系统

一种针对光伏逆变器的调制模式的切换方法及装置

一种大件运输的现场监测核验方法、系统和介质

一种阀门开度控制装置及阀门开度调节方法

一种基于java ClassLoader实现单点登录的方法及装置

热门技术领域

快速入口

专利技术资料