一种基于强化学习和知识库匹配的工业问答模型训练方法

申请号: CN202410039085.8

申请人: 南京理工大学

申请日期: 2024/1/10

摘要文本

本发明公开了一种基于强化学习和知识库匹配的工业问答模型训练方法，包括以下步骤：S1、收集工业领域内的专业知识问答构建工业知识库，对奖励模型进行训练，针对工业知识问答，将工业问答模型的输出与工业知识库的内容进行匹配比较，根据相似度得出奖励值；S2、将奖励值按序排列，并利用排序损失函数训练更新奖励模型网络的参数；S3、进行工业问答模型训练，对奖励值加入惩罚项，并利用强化学习算法对工业问答模型进行多次训练后，获得最优策略。本发明采用上述的一种基于强化学习和知识库匹配的工业问答模型训练方法，利用强化学习算法，经过多次迭代训练，帮助工业问答模型学习理解工业专业知识，提高了工业问答模型问答的精确度。

申请人信息

申请人:南京理工大学
申请人地址:210094 江苏省南京市孝陵卫200号
发明人: 南京理工大学

专利详细信息

项目	内容
专利名称	一种基于强化学习和知识库匹配的工业问答模型训练方法
专利类型	发明申请
申请号	CN202410039085.8
申请日	2024/1/10
公告号	CN117763127A
公开日	2024/3/26
IPC主分类号	G06F16/332
权利人	南京理工大学
发明人	李骏; 殷敏; 张杰; 夏鹏程; 时龙; 朱银涛
地址	江苏省南京市玄武区孝陵卫街道孝陵卫街200号

专利主权项内容

1.一种基于强化学习和知识库匹配的工业问答模型训练方法，其特征在于，包括以下步骤：S1、构建工业知识库，对奖励模型进行训练，针对工业知识问答，将工业问答模型的输出与工业知识库的内容进行匹配比较，根据相似度得出奖励值；S2、将奖励值按序排列，并利用排序损失函数训练更新奖励模型网络的参数；S3、进行工业问答模型训练，对奖励值加入惩罚项，并利用强化学习算法对工业问答模型进行多次训练后，获得最优策略。关注公众号马克数据网

一种基于强化学习和知识库匹配的工业问答模型训练方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种基于强化学习和知识库匹配的工业问答模型训练方法

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种用于分布式光伏方法发电的优化配置方法及系统

一种靶向热休克蛋白90的特异性肿瘤诊断探针和显像剂

企业数字化运营多维数据分析方法及系统

用于感知网络中边缘节点健康状态的方法、设备和介质

一种音频信息内容识别方法

一种输水隧洞水下检测机器人及使用方法

热门技术领域

快速入口

专利技术资料

特别鸣谢