← 返回列表
一种基于强化学习和知识库匹配的工业问答模型训练方法
摘要文本
本发明公开了一种基于强化学习和知识库匹配的工业问答模型训练方法,包括以下步骤:S1、收集工业领域内的专业知识问答构建工业知识库,对奖励模型进行训练,针对工业知识问答,将工业问答模型的输出与工业知识库的内容进行匹配比较,根据相似度得出奖励值;S2、将奖励值按序排列,并利用排序损失函数训练更新奖励模型网络的参数;S3、进行工业问答模型训练,对奖励值加入惩罚项,并利用强化学习算法对工业问答模型进行多次训练后,获得最优策略。本发明采用上述的一种基于强化学习和知识库匹配的工业问答模型训练方法,利用强化学习算法,经过多次迭代训练,帮助工业问答模型学习理解工业专业知识,提高了工业问答模型问答的精确度。
申请人信息
- 申请人:南京理工大学
- 申请人地址:210094 江苏省南京市孝陵卫200号
- 发明人: 南京理工大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于强化学习和知识库匹配的工业问答模型训练方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410039085.8 |
| 申请日 | 2024/1/10 |
| 公告号 | CN117763127A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F16/332 |
| 权利人 | 南京理工大学 |
| 发明人 | 李骏; 殷敏; 张杰; 夏鹏程; 时龙; 朱银涛 |
| 地址 | 江苏省南京市玄武区孝陵卫街道孝陵卫街200号 |
专利主权项内容
1.一种基于强化学习和知识库匹配的工业问答模型训练方法,其特征在于,包括以下步骤:S1、构建工业知识库,对奖励模型进行训练,针对工业知识问答,将工业问答模型的输出与工业知识库的内容进行匹配比较,根据相似度得出奖励值;S2、将奖励值按序排列,并利用排序损失函数训练更新奖励模型网络的参数;S3、进行工业问答模型训练,对奖励值加入惩罚项,并利用强化学习算法对工业问答模型进行多次训练后,获得最优策略。 关注公众号马 克 数 据 网