一种基于线性变换的预训练模型微调方法和装置

申请号: CN202410060305.5

申请人: 之江实验室

更新日期: 2026-03-20

摘要文本

之江实验室取得“一种透气窗帘布”专利技术，一种基于线性变换的预训练模型微调方法和装置，其方法包括：收集与下游任务的相关图像数据，对图像数据划分训练集、验证集，并进行适当的预处理，选择合适的预训练模型，修改该模型的任务头，以适配下游任务，并冻结预训练模型的骨干部分；在相邻层间插入线性变换模块，所述线性变换模块用于对特征的缩放和平移；利用下游任务的数据微调预训练模型，保存在验证集上表现最优的模型权重；利用重参数技术将线性变换模块的参数融入到相邻层中，最后部署模型，完成下游任务。本发明引入的待学习参数少，在多种下游任务上，能够实现更高的准确率，并且，在模型推理阶段采用重参数技术将引入的参数融入了模型骨干层中，极大地简化了模型的部署。

专利主权项内容

1.一种基于线性变换的预训练模型微调方法，其特征在于，包括以下步骤：S1，数据收集及预处理：收集与下游任务的相关图像数据，对图像数据划分训练集、验证集，并进行预处理，包括保持宽高比随机比例缩放、随机裁剪、随机水平翻转、RGB抖动、标签平滑、去均值；S2，准备预训练模型：选择在ImageNet-1K或者21K数据集上预训练后的主流的神经网络模型，冻结预训练模型的骨干部分backbone，即对应的网络参数不再更新，根据下游任务的类别数量，修改预训练模型的任务头head的输出维度，并对修改后head部分的参数随机初始化；S3，引入线性变换：在预训练模型的相邻两层间插入额外的线性变换模块，所述线性变换模块的维度与相邻层的输出特征满足矩阵乘法关系，对上一层输出的特征进行缩放和平移，使得预训练模型能够适配下游数据；S4，模型微调：利用下游任务的数据训练步骤S2中head部分的参数及步骤S3中线性变换模块的参数；S5，模型重参数：选择在验证集上表现最好的模型并保存模型权重，利用重参数技术，将步骤S3中所引入的线性变换模块的参数融入到预训练模型的backbone参数中；S6，模型部署：将重参数后的模型部署到终端设备上，终端设备将接收的新的数据，并输入到训练好的模型，得到预测概率向量，进而完成相关下游任务。

专利申请信息

项目	内容
专利名称	一种基于线性变换的预训练模型微调方法和装置
专利类型	发明申请
申请号	CN202410060305.5
申请日	2024/1/16
公告号	CN117574982A
公开日	2024/2/20
IPC主分类号	G06N3/08
权利人	之江实验室
发明人	王玉柱; 段曼妮; 王永恒
地址	浙江省杭州市余杭区中泰街道科创大道之江实验室

一种基于线性变换的预训练模型微调方法和装置

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种基于线性变换的预训练模型微调方法和装置

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种垃圾渗滤液处理系统

一种电池组的主动均衡电路及其保护系统

一种轨迹预测方法、装置和存储介质

基于动态数字人形象进行信息展示的方法及电子设备

一种积分球数字仿体系统及成像测评方法

基于云边协同的边缘服务网关系统及方法

热门技术领域

快速入口

专利技术资料