← 返回列表

一种基于大语言模型的问答数据构建方法及装置

申请号: CN202410076463.X
申请人: 之江实验室
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种基于大语言模型的问答数据构建方法及装置
专利类型 发明申请
申请号 CN202410076463.X
申请日 2024/1/18
公告号 CN117591661A
公开日 2024/2/23
IPC主分类号 G06F16/332
权利人 之江实验室
发明人 施佳璐; 闫看阳; 邵研; 王芷霖; 洪星芸; 段曼妮
地址 浙江省杭州市余杭区中泰街道科创大道之江实验室

摘要文本

本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。

专利主权项内容

1.一种基于大语言模型的问答数据构建方法,其特征在于,包括:从预设的知识图谱中提取出基础三元组,以及从预设文档库中提取出文本素材,其中,三元组用于表示两个之间存在关系的实体以及两个实体之间的关系的组合,所述文本素材中包含若干文本段落;根据所述文本素材,对所述基础三元组进行补充,得到三元组集合;针对所述三元组集合中的每个三元组,确定该三元组的关联三元组以及从所述文本素材中确定出该三元组的关联文本段落,并将所述三元组集合中的每个三元组,每个三元组的关联三元组和每个三元组的关联文本段落,作为多源知识数据;根据所述多源知识数据,生成问答数据;选取出若干问答数据,并根据预设规则,对所述若干问答数据的有效性进行标注,得到训练样本,通过所述训练样本对预设的识别模型进行训练,并通过训练后的识别模型继续对未标注的问答数据进行标注,以得到新的训练样本,以及通过新的训练样本继续对所述识别模型进行训练,直到所述识别模型收敛,以通过所述识别模型从未标注的问答数据中筛选出有效的问答数据,筛选出的有效的问答数据用于对大语言模型进行训练。 ()