一种基于大语言模型的问答数据构建方法及装置

申请号: CN202410076463.X

申请人: 之江实验室

更新日期: 2026-03-20

摘要文本

之江实验室取得“一种透气窗帘布”专利技术，本说明书公开了一种基于大语言模型的问答数据构建方法及装置，可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材，而后，可以根据文本素材，对基础三元组进行补充，得到三元组集合；针对三元组集合中的每个三元组，可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落，以得到多源知识数据。而后，可以根据多源知识数据，生成问答数据，可以对生成的问答数据进行标注，从而通过半监督的方式训练识别模型，以通过识别模型从问答数据中筛选出有效的问答数据，筛选出的有效的问答数据可以用于对大语言模型进行训练或微调，从而本方法能够提到生成问答数据的效率和有效性。

专利主权项内容

1.一种基于大语言模型的问答数据构建方法，其特征在于，包括：从预设的知识图谱中提取出基础三元组，以及从预设文档库中提取出文本素材，其中，三元组用于表示两个之间存在关系的实体以及两个实体之间的关系的组合，所述文本素材中包含若干文本段落；根据所述文本素材，对所述基础三元组进行补充，得到三元组集合；针对所述三元组集合中的每个三元组，确定该三元组的关联三元组以及从所述文本素材中确定出该三元组的关联文本段落，并将所述三元组集合中的每个三元组，每个三元组的关联三元组和每个三元组的关联文本段落，作为多源知识数据；根据所述多源知识数据，生成问答数据；选取出若干问答数据，并根据预设规则，对所述若干问答数据的有效性进行标注，得到训练样本，通过所述训练样本对预设的识别模型进行训练，并通过训练后的识别模型继续对未标注的问答数据进行标注，以得到新的训练样本，以及通过新的训练样本继续对所述识别模型进行训练，直到所述识别模型收敛，以通过所述识别模型从未标注的问答数据中筛选出有效的问答数据，筛选出的有效的问答数据用于对大语言模型进行训练。（）

专利申请信息

项目	内容
专利名称	一种基于大语言模型的问答数据构建方法及装置
专利类型	发明申请
申请号	CN202410076463.X
申请日	2024/1/18
公告号	CN117591661A
公开日	2024/2/23
IPC主分类号	G06F16/332
权利人	之江实验室
发明人	施佳璐; 闫看阳; 邵研; 王芷霖; 洪星芸; 段曼妮
地址	浙江省杭州市余杭区中泰街道科创大道之江实验室

一种基于大语言模型的问答数据构建方法及装置

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种基于大语言模型的问答数据构建方法及装置

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种电能表翻转机构

一种服务的发布方法和发布系统

大规模数据的作者消歧方法、装置及可读存储介质

基于悬浮光镊的纳米颗粒消光截面原位测量方法及装置

基于联邦学习客户端选择的分类模型训练方法及系统

一种跨时空兼容性无监督自学习人脸识别方法和系统

热门技术领域

快速入口

专利技术资料