← 返回列表
基于大模型的学生模型生成方法及装置
摘要文本
本公开提出一种基于大模型的学生模型生成方法及装置,涉及计算机技术领域,尤其涉及大模型、自然语言处理、深度学习、知识蒸馏等人工智能技术领域。包括:获取样本数据集;将输入数据及提示信息输入大模型,以获取大模型生成的第一内容;将第一内容转化为与标注结果类型相同的第一预测结果;将输入数据输入初始学生模型,以获取初始学生模型输出的第二预测结果;根据第二预测结果分别与第一预测结果、及标注结果的差异,确定修正梯度;基于修正梯度,对初始学生模型进行修正,以获取目标学生模型。由此,实现了根据需要对大模型进行能力提取,不仅提高了可部署模型的能力,又降低了模型的参数规模,为提高应用服务的性能提供了条件。
申请人信息
- 申请人:北京百度网讯科技有限公司
- 申请人地址:100085 北京市海淀区上地十街10号百度大厦二层
- 发明人: 北京百度网讯科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于大模型的学生模型生成方法及装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311354829.7 |
| 申请日 | 2023/10/18 |
| 公告号 | CN117391185A |
| 公开日 | 2024/1/12 |
| IPC主分类号 | G06N3/096 |
| 权利人 | 北京百度网讯科技有限公司 |
| 发明人 | 李树军; 卓泽城; 龚建; 张策; 李耀松 |
| 地址 | 北京市海淀区上地十街10号百度大厦2层 |
专利主权项内容
1.一种基于大模型的学生模型生成方法,包括:获取样本数据集及提示信息,其中,所述样本数据集中包括多个输入数据及标注结果对;将所述输入数据及所述提示信息输入大模型,以获取所述大模型生成的第一内容;将所述第一内容转化为与所述标注结果类型相同的第一预测结果;将所述输入数据输入初始学生模型,以获取所述初始学生模型输出的第二预测结果;根据所述第二预测结果分别与所述第一预测结果、及所述标注结果的差异,确定修正梯度;基于所述修正梯度,对所述初始学生模型进行修正,以获取目标学生模型。