← 返回列表

基于预训练模型的视觉定位方法和装置

申请号: CN202410148264.5
申请人: 北京大学
申请日期: 2024/2/2

摘要文本

本发明涉及视觉识别技术领域,提供一种基于预训练模型的视觉定位方法,所述预训练模型包括图像编码器和文本编码器,该方法包括:接收待查询语句和给定图像;利用所述图像编码器获取所述给定图像的一维特征,记为第一特征;利用所述文本编码器获取所述待查询语句的一维特征,记为第二特征;利用所述第一特征、第二特征作为软标签引导所述给定图像和所述待查询语句的标记化表达的开始位置,并引导位置标记的学习;基于所述位置标记预测视觉对象定位边框。本发明通过融合图像、语句双模态特征融合以及通过多模态蒸馏损失的计算能够实现多模态之间的知识迁移,解决了模态领域之间的差距问题,进而提高预测性能。

专利详细信息

项目 内容
专利名称 基于预训练模型的视觉定位方法和装置
专利类型 发明申请
申请号 CN202410148264.5
申请日 2024/2/2
公告号 CN117688198A
公开日 2024/3/12
IPC主分类号 G06F16/583
权利人 北京大学
发明人 胡文蕙; 刘学洋; 王嘉锡
地址 北京市海淀区北京大学物理学院西楼B116室

专利主权项内容

1.一种基于预训练模型的视觉定位方法,所述预训练模型包括图像编码器和文本编码器,其特征在于,该方法包括:接收待查询语句和给定图像;利用所述图像编码器获取所述给定图像的一维特征,记为第一特征;利用所述文本编码器获取所述待查询语句的一维特征,记为第二特征;利用所述第一特征、第二特征作为软标签引导所述给定图像和所述待查询语句的标记化表达的开始位置,并引导位置标记的学习;基于所述位置标记预测视觉对象定位边框。