基于预训练模型的视觉定位方法和装置

申请号: CN202410148264.5

申请人: 北京大学

申请日期: 2024/2/2

摘要文本

本发明涉及视觉识别技术领域，提供一种基于预训练模型的视觉定位方法，所述预训练模型包括图像编码器和文本编码器，该方法包括：接收待查询语句和给定图像；利用所述图像编码器获取所述给定图像的一维特征，记为第一特征；利用所述文本编码器获取所述待查询语句的一维特征，记为第二特征；利用所述第一特征、第二特征作为软标签引导所述给定图像和所述待查询语句的标记化表达的开始位置，并引导位置标记的学习；基于所述位置标记预测视觉对象定位边框。本发明通过融合图像、语句双模态特征融合以及通过多模态蒸馏损失的计算能够实现多模态之间的知识迁移，解决了模态领域之间的差距问题，进而提高预测性能。

申请人信息

申请人:北京大学
申请人地址:100871 北京市海淀区颐和园路5号
发明人: 北京大学

专利详细信息

项目	内容
专利名称	基于预训练模型的视觉定位方法和装置
专利类型	发明申请
申请号	CN202410148264.5
申请日	2024/2/2
公告号	CN117688198A
公开日	2024/3/12
IPC主分类号	G06F16/583
权利人	北京大学
发明人	胡文蕙; 刘学洋; 王嘉锡
地址	北京市海淀区北京大学物理学院西楼B116室

专利主权项内容

1.一种基于预训练模型的视觉定位方法，所述预训练模型包括图像编码器和文本编码器，其特征在于，该方法包括：接收待查询语句和给定图像；利用所述图像编码器获取所述给定图像的一维特征，记为第一特征；利用所述文本编码器获取所述待查询语句的一维特征，记为第二特征；利用所述第一特征、第二特征作为软标签引导所述给定图像和所述待查询语句的标记化表达的开始位置，并引导位置标记的学习；基于所述位置标记预测视觉对象定位边框。

基于预训练模型的视觉定位方法和装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

基于预训练模型的视觉定位方法和装置

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种全光产品的质量检测方法及系统

一种3D打印机脱料装置

一种基于试验数据库的压气机性能仿真程序精度评估方法

一种基于灰盒模型的节流阀响应预测方法

一种用于水性工业漆的加工装置

双辐板涡轮盘

热门技术领域

快速入口

专利技术资料