视觉识别模型训练、视觉识别方法、系统、终端及介质

申请号: CN202410147519.6

申请人: 深圳大学; 人工智能与数字经济广东省实验室(深圳)

更新日期: 2026-03-17

摘要文本

深圳大学; 人工智能与数字经济广东省实验室(深圳)取得“一种透气窗帘布”专利技术，本发明公开了一种视觉识别模型训练、视觉识别方法、系统、终端及介质，通过使用可训练的视觉提示词来微调预训练的视觉Transformer模型，使用随机锐度感知最小化方法更新视觉识别模型的模型参数，平衡地提升视觉识别模型在头类和尾类上的泛化能力。将提示词信息与视觉Transformer模型输出的类编码信息进行融合，充分利用提示词信息来提升模型的分类性能。训练好的视觉识别模型对长尾分布数据的识别精度较高。

专利主权项内容

1.视觉识别模型训练方法，所述视觉识别模型中设有预训练的视觉Transformer模型、可训练的视觉提示词和线性分类器，所述视觉提示词被配置为采用视觉提示词微调方法插入在所述视觉Transformer模型中，其特征在于，所述训练方法包括：基于呈长尾分布的图片数据集，获取训练数据；生成随机扰动向量，基于所述随机扰动向量和所述视觉识别模型，获得扰动后模型；将所述训练数据输入所述扰动后模型，获得所述扰动后模型中的视觉Transformer模型的最后一层输出的类编码信息；将所述扰动后模型中的视觉Transformer模型的视觉提示词与所述类编码信息进行融合，获得融合信息；将所述融合信息输入所述扰动后模型中的线性分类器，获得分类结果，根据所述分类结果获得所述扰动后模型的损失值，并根据所述损失值计算梯度值；根据所述梯度值更新所述视觉识别模型的模型参数，重新获取训练数据进行迭代训练直至所述视觉识别模型收敛，获得已训练的视觉识别模型。马克数据网

专利申请信息

项目	内容
专利名称	视觉识别模型训练、视觉识别方法、系统、终端及介质
专利类型	发明申请
申请号	CN202410147519.6
申请日	2024/2/2
公告号	CN117689961A
公开日	2024/3/12
IPC主分类号	G06V10/764
权利人	深圳大学; 人工智能与数字经济广东省实验室(深圳)
发明人	黄惠; 李梦柯; 刘烨
地址	广东省深圳市南山区南海大道3688号; 广东省深圳市光明区玉塘街道科润大厦

视觉识别模型训练、视觉识别方法、系统、终端及介质

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

视觉识别模型训练、视觉识别方法、系统、终端及介质

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

多路存储的无源设备及无源设备的控制方法

动画数据生成方法、装置、计算机设备和存储介质

端口复用电路、控制芯片与控制系统

一种光伏板清洁用控制方法及系统

企业营收稽核方法、系统、设备及存储介质

一种蛋白质位点特异性修饰的方法

热门技术领域

快速入口

专利技术资料