一种指令微调数据的生成方法、设备和存储介质

申请号: CN202311795841.1

申请人: 北京智谱华章科技有限公司

申请日期: 2023/12/25

摘要文本

本发明属于自然语言处理技术领域，涉及一种指令微调数据生成方法、设备和存储介质，所述方法包括：1)、获取第一知识库；2)、将第一知识库按固定长度切分成多个子文本块，并将其依次输入大语言模型中，以生成多个知识概念；3)、将知识概念和预设相关背景知识输入大语言模型中，以生成第一指令微调数据；4)、判断第二指令微调数据的数量是否大于第二指令微调数据的总量的平均值，如果大于，则返回步骤3)，否则，进入步骤5)；5)、对第一指令微调数据进行处理，处理后得到第二指令微调数据并将其作为该知识概念的指令微调数据。其是结合知识概念反馈机制和大语言模型的指令微调数据生成方法，能够提高指令微调数据的构建效率。更多数据：

申请人信息

申请人:北京智谱华章科技有限公司
申请人地址:100086 北京市海淀区中关村东路1号院9号楼10层整层
发明人: 北京智谱华章科技有限公司

专利详细信息

项目	内容
专利名称	一种指令微调数据的生成方法、设备和存储介质
专利类型	发明申请
申请号	CN202311795841.1
申请日	2023/12/25
公告号	CN117763113A
公开日	2024/3/26
IPC主分类号	G06F16/332
权利人	北京智谱华章科技有限公司
发明人	刘海波; 任星宇; 王仿
地址	北京市海淀区中关村东路1号院9号楼10层整层

专利主权项内容

1.一种指令微调数据生成方法，其特征在于，包括以下步骤：1)、获取第一知识库；2)、将所述第一知识库按固定长度切分成多个子文本块，并将所述多个子文本块依次输入大语言模型中，以分别生成多个知识概念；3)、将其中一个所述知识概念和预设相关背景知识分别输入大语言模型中，以生成该知识概念对应的第一指令微调数据；4)、判断该知识概念对应的第二指令微调数据的数量是否大于所有知识概念对应的第二指令微调数据的数量的平均值，如果大于平均值，则返回步骤3)，如果不大于平均值，则进入步骤5)；5)、对该知识概念对应的第一指令微调数据进行处理，处理后得到该知识概念对应的第二指令微调数据并将所述第二指令微调数据作为该知识概念的指令微调数据。

一种指令微调数据的生成方法、设备和存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

一种指令微调数据的生成方法、设备和存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢