← 返回列表
一种强化学习模型训练和业务执行方法、装置及电子设备
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种强化学习模型训练和业务执行方法、装置及电子设备 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410171178.6 |
| 申请日 | 2024/2/6 |
| 公告号 | CN117725985A |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06N3/092 |
| 权利人 | 之江实验室 |
| 发明人 | 张杨; 王超; 陈卫; 陈振宇; 王永恒; 郑黄河; 恽爽; 曾洪海; 连建晓; 王梦丝; 路游; 周春来; 鲁艺 |
| 地址 | 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼 |
摘要文本
本说明书公开了一种强化学习模型训练和业务执行方法、装置及电子设备。所述方法包括:获取用户针对指定业务场景构建的强化学习环境数据;响应于用户的指定操作,确定用户基于强化学习环境数据选择的目标智能体,并确定目标智能体的智能体配置信息;在预设算法库中确定出目标强化学习算法;基于目标智能体、智能体配置信息以及目标强化学习算法,构建强化学习模型,并对强化学习模型进行仿真,并将仿真过程中产生的数据存入经验回放池;根据从经验回放池中获取的训练数据以及奖励函数信息对强化学习模型进行训练。本方案极大的降低了用户的使用门槛,充分满足了用户对强化学习环境的多样化需求。
专利主权项内容
1.一种强化学习模型训练方法,其特征在于,包括:获取用户针对指定业务场景构建的强化学习环境数据;响应于所述用户的指定操作,确定所述用户基于所述强化学习环境数据选择的目标智能体,并确定所述目标智能体对应的智能体配置信息,所述智能体配置信息包括:智能体数量、奖励函数信息、各目标智能体所能执行的动作对应的动作配置信息以及各目标智能体所能获取到的强化学习环境的状态对应的状态配置信息;在预设算法库中确定出与所述业务场景以及所述智能体配置信息相匹配的目标强化学习算法;基于所述目标智能体、所述智能体配置信息以及所述目标强化学习算法,构建强化学习模型,并对所述强化学习模型进行仿真,并将仿真过程中产生的数据存入经验回放池;根据从所述经验回放池中获取的训练数据以及所述奖励函数信息,对所述强化学习模型进行训练。