← 返回列表
一种模型训练方法、装置、设备、存储介质及产品
申请人信息
- 申请人:腾讯科技(深圳)有限公司
- 申请人地址:518031 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 发明人: 腾讯科技(深圳)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种模型训练方法、装置、设备、存储介质及产品 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410218291.5 |
| 申请日 | 2024/2/28 |
| 公告号 | CN117786416A |
| 公开日 | 2024/3/29 |
| IPC主分类号 | G06F18/214 |
| 权利人 | 腾讯科技(深圳)有限公司 |
| 发明人 | 甘蓓 |
| 地址 | 广东省深圳市南山区高新区科技中一路腾讯大厦35层 |
摘要文本
本申请实施例公开了一种模型训练方法、装置、设备、存储介质及产品。其中方法包括:获取训练数据对应的M个规范文本和每个规范文本的交互信息集合,调用第一生产模型对每个规范文本和该规范文本的交互信息集合进行文本分析,得到M个规范文本的交互信息集合对应的答复信息集合,通过M个规范文本的交互信息集合,以及M个规范文本的交互信息集合对应的答复信息集合,对待训练模型进行训练,得到判别模型,对第一生产模型和判别模型进行强化学习联合训练,得到优化后的第一生产模型和优化后的判别模型。可见,通过对第一生产模型和单独训练得到的判别模型进行强化学习联合训练,可以利用数据相关性进一步提升筛选模型的训练效果。
专利主权项内容
1.一种模型训练方法,其特征在于,所述方法包括:获取训练数据对应的M个规范文本和每个规范文本的交互信息集合,所述M个规范文本的格式相同,每个交互信息集合包括至少一个交互信息,M为正整数;调用第一生产模型对每个规范文本和该规范文本的交互信息集合进行文本分析,得到所述M个规范文本的交互信息集合对应的答复信息集合,每个答复信息集合包括至少两个答复信息;通过所述M个规范文本的交互信息集合,以及所述M个规范文本的交互信息集合对应的答复信息集合,对待训练模型进行训练,得到判别模型,所述判别模型用于预测答复信息的满意度;对所述第一生产模型和所述判别模型进行强化学习联合训练,得到优化后的第一生产模型和优化后的判别模型,所述优化后的第一生产模型和所述优化后的判别模型用于对待处理数据集进行数据清洗。。来自: