一种基于嵌入特征正则化的知识蒸馏方法和系统
摘要文本
一种基于嵌入特征正则化的知识蒸馏方法和系统,其方法包括:收集与识别任务相关的标注图像数据,计算教师模型在整个训练集上的各个类别的中心特征;将学生模型的嵌入特征投影到类别中心方向,将教师模型的嵌入特征旋转到类别中心方向,通过正则化学生模型的投影特征和教师模型的旋转特征,构建特征正则化损失:增大学生模型的特征范数,约束学生模型的特征的方向与类别中心方向一致;将特征正则化损失插入到现有的知识蒸馏框架中,训练学生模型;将训练好的学生模型部署到终端设备,根据终端设备接收的新数据,预测概率向量,进而完成相关识别任务。本发明通过增大学生特征的范数,和约束方向一致于类别中心,知识蒸馏性能更优。 来自马-克-数-据
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于嵌入特征正则化的知识蒸馏方法和系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311278779.9 |
| 申请日 | 2023/10/7 |
| 公告号 | CN117009830B |
| 公开日 | 2024/2/13 |
| IPC主分类号 | G06F18/22 |
| 权利人 | 之江实验室 |
| 发明人 | 王玉柱; 段曼妮; 程乐超; 王永恒 |
| 地址 | 浙江省杭州市余杭区中泰街道科创大道之江实验室 |
专利主权项内容
1.一种基于嵌入特征正则化的知识蒸馏方法,其特征在于,包括如下步骤:S1,收集与识别任务相关的标注图像数据,划分为训练集和验证集;S2,分别对训练集和验证集作数据增强;S3,对教师模型加载预训练权重,并冻结其网络参数,随机初始化学生模型的参数;S4,遍历训练集,将数据分批次喂入教师模型,提取教师模型对每个输入样本的嵌入特征,计算各个类别的均值作为特征中心;S5,对学生模型和教师模型输入相同批次的数据,并分别提取嵌入特征,对学生模型的嵌入特征作线性维度变换,使之和教师模型的嵌入特征具有相同的维度;S6,提取每一个输入样本所属类别的特征中心;旋转教师模型的嵌入特征至与该特征中心同向,获得旋转后的教师特征;将学生模型的嵌入特征沿特征中心的方向做投影,获得投影后的学生特征;S7,当投影后的学生特征的范数小于或等于旋转后的教师特征的范数时,最小化两者间的欧氏距离,对该欧氏距离作归一化约束,记作损失;否则,损失/>为最大化学生模型的嵌入特征与所述的特征中心之间的余弦相似性;S8,将损失插入到现有的知识蒸馏框架中,训练学生模型的总损失等于交叉熵损失加上经一对超参数平衡后的知识蒸馏损失与损失/>之和;S9,调整所述的一对超参数,获取在验证集上准确率最高的学生模型,并部署到终端设备上;终端设备将接收的新数据输入到训练好的模型,得到各个类别的预测概率向量。 关注公众号马克数据网