← 返回列表

基于大模型的学生模型生成方法及装置

申请号: CN202311354829.7
申请人: 北京百度网讯科技有限公司
申请日期: 2023/10/18

摘要文本

本公开提出一种基于大模型的学生模型生成方法及装置,涉及计算机技术领域,尤其涉及大模型、自然语言处理、深度学习、知识蒸馏等人工智能技术领域。包括:获取样本数据集;将输入数据及提示信息输入大模型,以获取大模型生成的第一内容;将第一内容转化为与标注结果类型相同的第一预测结果;将输入数据输入初始学生模型,以获取初始学生模型输出的第二预测结果;根据第二预测结果分别与第一预测结果、及标注结果的差异,确定修正梯度;基于修正梯度,对初始学生模型进行修正,以获取目标学生模型。由此,实现了根据需要对大模型进行能力提取,不仅提高了可部署模型的能力,又降低了模型的参数规模,为提高应用服务的性能提供了条件。

专利详细信息

项目 内容
专利名称 基于大模型的学生模型生成方法及装置
专利类型 发明申请
申请号 CN202311354829.7
申请日 2023/10/18
公告号 CN117391185A
公开日 2024/1/12
IPC主分类号 G06N3/096
权利人 北京百度网讯科技有限公司
发明人 李树军; 卓泽城; 龚建; 张策; 李耀松
地址 北京市海淀区上地十街10号百度大厦2层

专利主权项内容

1.一种基于大模型的学生模型生成方法,包括:获取样本数据集及提示信息,其中,所述样本数据集中包括多个输入数据及标注结果对;将所述输入数据及所述提示信息输入大模型,以获取所述大模型生成的第一内容;将所述第一内容转化为与所述标注结果类型相同的第一预测结果;将所述输入数据输入初始学生模型,以获取所述初始学生模型输出的第二预测结果;根据所述第二预测结果分别与所述第一预测结果、及所述标注结果的差异,确定修正梯度;基于所述修正梯度,对所述初始学生模型进行修正,以获取目标学生模型。