← 返回列表
视觉识别模型训练、视觉识别方法、系统、终端及介质
申请人信息
- 申请人:深圳大学; 人工智能与数字经济广东省实验室(深圳)
- 申请人地址:518060 广东省深圳市南山区粤海街道南海大道3688号
- 发明人: 深圳大学; 人工智能与数字经济广东省实验室(深圳)
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 视觉识别模型训练、视觉识别方法、系统、终端及介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410147519.6 |
| 申请日 | 2024/2/2 |
| 公告号 | CN117689961A |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06V10/764 |
| 权利人 | 深圳大学; 人工智能与数字经济广东省实验室(深圳) |
| 发明人 | 黄惠; 李梦柯; 刘烨 |
| 地址 | 广东省深圳市南山区南海大道3688号; 广东省深圳市光明区玉塘街道科润大厦 |
摘要文本
本发明公开了一种视觉识别模型训练、视觉识别方法、系统、终端及介质,通过使用可训练的视觉提示词来微调预训练的视觉Transformer模型,使用随机锐度感知最小化方法更新视觉识别模型的模型参数,平衡地提升视觉识别模型在头类和尾类上的泛化能力。将提示词信息与视觉Transformer模型输出的类编码信息进行融合,充分利用提示词信息来提升模型的分类性能。训练好的视觉识别模型对长尾分布数据的识别精度较高。
专利主权项内容
1.视觉识别模型训练方法,所述视觉识别模型中设有预训练的视觉Transformer模型、可训练的视觉提示词和线性分类器,所述视觉提示词被配置为采用视觉提示词微调方法插入在所述视觉Transformer模型中,其特征在于,所述训练方法包括:基于呈长尾分布的图片数据集,获取训练数据;生成随机扰动向量,基于所述随机扰动向量和所述视觉识别模型,获得扰动后模型;将所述训练数据输入所述扰动后模型,获得所述扰动后模型中的视觉Transformer模型的最后一层输出的类编码信息;将所述扰动后模型中的视觉Transformer模型的视觉提示词与所述类编码信息进行融合,获得融合信息;将所述融合信息输入所述扰动后模型中的线性分类器,获得分类结果,根据所述分类结果获得所述扰动后模型的损失值,并根据所述损失值计算梯度值;根据所述梯度值更新所述视觉识别模型的模型参数,重新获取训练数据进行迭代训练直至所述视觉识别模型收敛,获得已训练的视觉识别模型。 马 克 数 据 网