← 返回列表
一种3D开放词汇检测与密集字幕生成统一的建模方法
摘要文本
本发明公开了一种3D开放词汇检测与密集字幕生成统一的建模方法,涉及计算机视觉与自然语言处理交叉领域。本发明的方法首先为了实现密集字幕数据和检测数据构建了统一的数据格式。随着数据的统一,模型架构在密集字幕数据和检测数据上采用统一的预训练范式。对于开发词汇的目标检测任务,利用CLIP多模态大模型的图像文本语义关联实现3D场景的跨模态表征学习,从而使得3D模型骨干网络能够具备开发词汇的目标检测能力,并为密集字幕生成提供基础。本发明既能检测和识别给定类别列表中的概念,又能为新概念或罕见类别的对象生成相应的自然语言描述。
申请人信息
- 申请人:四川大学; 中国科学院光电技术研究所; 中国电子科技集团公司第十研究所
- 申请人地址:610065 四川省成都市一环路南一段24号
- 发明人: 四川大学; 中国科学院光电技术研究所; 中国电子科技集团公司第十研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种3D开放词汇检测与密集字幕生成统一的建模方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311358367.6 |
| 申请日 | 2023/10/19 |
| 公告号 | CN117370498A |
| 公开日 | 2024/1/9 |
| IPC主分类号 | G06F16/33 |
| 权利人 | 四川大学; 中国科学院光电技术研究所; 中国电子科技集团公司第十研究所 |
| 发明人 | 雷印杰; 瞿诗义; 马浩统; 刘洋; 李鹏; 刘杰; 张敏 |
| 地址 | 四川省成都市武侯区一环路南一段24号; 四川省成都市双流350信箱; 四川省成都市金牛区茶店子东街48号 |
专利主权项内容
1.一种3D开放词汇检测与密集字幕生成统一的建模方法,其特征在于,包括以下步骤:根据3D场景数据集获取文本特征和点云数据,并剪切3D场景数据集的图像;分别提取剪切后的完整图像和局部图像的全部特征和全局特征;对点云数据编码和解码分别获取编码特征和候选特征;将全部特征和编码特征对齐,计算第一对比损失,将全局特征和候选特征对齐,计算第二对比损失;提取候选特征对应的文本特征,将候选特征与文本特征计算第三对比损失;利用第一对比损失,第二对比损失以及第三对比损失对3D模型骨干网络进行预训练;以点云场景输入至预训练完成后的3D模型骨干网络中,计算检测损失;利用检测损失和交叉熵损失函数对3D模型骨干网络训练,得到OpenCap模型。