一种基于线性变换的预训练模型微调方法和装置
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于线性变换的预训练模型微调方法和装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410060305.5 |
| 申请日 | 2024/1/16 |
| 公告号 | CN117574982A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | G06N3/08 |
| 权利人 | 之江实验室 |
| 发明人 | 王玉柱; 段曼妮; 王永恒 |
| 地址 | 浙江省杭州市余杭区中泰街道科创大道之江实验室 |
摘要文本
一种基于线性变换的预训练模型微调方法和装置,其方法包括:收集与下游任务的相关图像数据,对图像数据划分训练集、验证集,并进行适当的预处理,选择合适的预训练模型,修改该模型的任务头,以适配下游任务,并冻结预训练模型的骨干部分;在相邻层间插入线性变换模块,所述线性变换模块用于对特征的缩放和平移;利用下游任务的数据微调预训练模型,保存在验证集上表现最优的模型权重;利用重参数技术将线性变换模块的参数融入到相邻层中,最后部署模型,完成下游任务。本发明引入的待学习参数少,在多种下游任务上,能够实现更高的准确率,并且,在模型推理阶段采用重参数技术将引入的参数融入了模型骨干层中,极大地简化了模型的部署。
专利主权项内容
1.一种基于线性变换的预训练模型微调方法,其特征在于,包括以下步骤:S1,数据收集及预处理:收集与下游任务的相关图像数据,对图像数据划分训练集、验证集,并进行预处理,包括保持宽高比随机比例缩放、随机裁剪、随机水平翻转、RGB抖动、标签平滑、去均值;S2,准备预训练模型:选择在ImageNet-1K或者21K数据集上预训练后的主流的神经网络模型,冻结预训练模型的骨干部分backbone,即对应的网络参数不再更新,根据下游任务的类别数量,修改预训练模型的任务头head的输出维度,并对修改后head部分的参数随机初始化;S3,引入线性变换:在预训练模型的相邻两层间插入额外的线性变换模块,所述线性变换模块的维度与相邻层的输出特征满足矩阵乘法关系,对上一层输出的特征进行缩放和平移,使得预训练模型能够适配下游数据;S4,模型微调:利用下游任务的数据训练步骤S2中head部分的参数及步骤S3中线性变换模块的参数;S5,模型重参数:选择在验证集上表现最好的模型并保存模型权重,利用重参数技术,将步骤S3中所引入的线性变换模块的参数融入到预训练模型的backbone参数中;S6,模型部署:将重参数后的模型部署到终端设备上,终端设备将接收的新的数据,并输入到训练好的模型,得到预测概率向量,进而完成相关下游任务。