← 返回列表
一种基于知识增强的连续学习软标签构建方法
摘要文本
本发明涉及人工智能技术领域,提供了一种基于知识增强的连续学习软标签构建方法, 该方法包括:随机初始化语义软标签,计算语义Gram矩阵,通过语义Gram矩阵、词向量Gram矩阵和相应类别平滑后的语义软标签, 获得优化后的语义软标签损失函数;随机初始化知识蒸馏软标签,计算知识蒸馏Gram矩阵,通过知识蒸馏Gram矩阵、嵌入Gram矩阵和相应类别平滑后的知识蒸馏软标签,获得优化后的知识蒸馏软标签损失函数;将上述两种损失函数结合,获得总损失函数;将所述总损失函数用于新任务的训练。本发明解决了在神经网络模型连续学习过程中缺乏旧任务数据的问题,避免了灾难性遗忘的效果。
申请人信息
- 申请人:中国科学院自动化研究所
- 申请人地址:100190 北京市海淀区中关村东路95号
- 发明人: 中国科学院自动化研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于知识增强的连续学习软标签构建方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410183536.5 |
| 申请日 | 2024/2/19 |
| 公告号 | CN117743858A |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06F18/214 |
| 权利人 | 中国科学院自动化研究所 |
| 发明人 | 张俊格; 黄凯奇; 陈帅 |
| 地址 | 北京市海淀区中关村东路95号 |
专利主权项内容
(来自 ) 1.一种基于知识增强的连续学习软标签构建方法,其特征在于,包括:S1.随机初始化语义软标签,计算语义Gram矩阵,通过所述语义Gram矩阵、词向量Gram矩阵和相应类别平滑后的语义软标签, 获得优化后的语义软标签损失函数;以及随机初始化知识蒸馏软标签,计算知识蒸馏Gram矩阵,通过所述知识蒸馏Gram矩阵、嵌入Gram矩阵和相应类别平滑后的知识蒸馏软标签,获得优化后的知识蒸馏软标签损失函数;S2.将所述优化后的语义软标签损失函数与所述优化后的知识蒸馏软标签损失函数结合,获得总损失函数;S3.采用所述总损失函数进行新任务的训练。