← 返回列表
一种基于弱监督的三维视觉定位方法、装置、设备及介质
申请人信息
- 申请人:深圳大学
- 申请人地址:518060 广东省深圳市南山区南海大道3688号
- 发明人: 深圳大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于弱监督的三维视觉定位方法、装置、设备及介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410239096.0 |
| 申请日 | 2024/3/4 |
| 公告号 | CN117830601A |
| 公开日 | 2024/4/5 |
| IPC主分类号 | G06V10/22 |
| 权利人 | 深圳大学 |
| 发明人 | 王旭; 许晓旭; 张秋丹; 刘学讯; 江健民 |
| 地址 | 广东省深圳市南山区粤海街道南海大道3688号 |
摘要文本
本发明公开了一种基于弱监督的三维视觉定位方法、装置、设备及介质,根据预先训练的3D分类模型的3D目标检测器对输入的查询文本进行3D提议框查询,生成3D提议框特征,及其对应的三维残差特征;根据所述3D分类模型的文本分类器获取输入的查询文本的查询特征和类别残差特征;对每个提议框的提议框特征和类别残差特征进行矩阵乘法,获得类别特征;计算不同提议框的三维残差特征和查询特征之间的余弦相似度;将余弦相似度得分最高的提议框以及类别特征作为查询目标。本申请能够减少三维边界框的标注工作,提高三维视觉定位的精度,促进三维视觉定位应用。
专利主权项内容
1.一种基于弱监督的三维视觉定位方法,其特征在于,所述方法包括:根据预先训练的3D分类模型的3D目标检测器对输入的查询文本进行3D提议框查询,生成3D提议框特征,及其对应的三维残差特征;根据所述3D分类模型的文本分类器获取输入的查询文本的查询特征和类别残差特征;对每个提议框的提议框特征和类别残差特征进行矩阵乘法,获得类别特征;计算不同提议框的三维残差特征和查询特征之间的余弦相似度;将余弦相似度得分最高的提议框以及类别特征作为查询目标。