← 返回列表
目标检测方法、模型训练方法、装置、设备及存储介质
摘要文本
本公开提供了目标检测方法、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于自动驾驶等场景。具体实现方案为:提取多视角图像的图像特征,对BEV空间中的预设参考点进行位置编码,得到初始化的稀疏查询,根据初始化的稀疏查询和图像特征确定输入数据,并将输入数据输入至Transformer网络的解码器,得到目标BEV特征,解码器用于对稀疏查询进行上采样,得到对应的密集查询,并基于图像特征对混合查询进行更新,更新后的混合查询用于确定目标BEV特征,基于目标BEV特征确定多视角图像的目标检测结果。
申请人信息
- 申请人:北京百度网讯科技有限公司
- 申请人地址:100085 北京市海淀区上地十街10号百度大厦2层
- 发明人: 北京百度网讯科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 目标检测方法、模型训练方法、装置、设备及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311764274.3 |
| 申请日 | 2023/12/20 |
| 公告号 | CN117746133A |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06V10/764 |
| 权利人 | 北京百度网讯科技有限公司 |
| 发明人 | 谭资昌; 杜金浩; 谭啸; 王井东 |
| 地址 | 北京市海淀区上地十街10号百度大厦2层 |
专利主权项内容
1.一种目标检测方法,包括:提取多视角图像的图像特征,其中,所述多视角图像由不同视角的图像采集设备获取;对鸟瞰视角BEV空间中的预设参考点进行位置编码,得到初始化的稀疏查询;根据所述初始化的稀疏查询和所述图像特征确定输入数据,并将所述输入数据输入至Transformer网络的解码器,得到目标BEV特征;其中,所述解码器用于对所述稀疏查询进行上采样,得到对应的密集查询,并基于所述图像特征对混合查询进行更新,所述混合查询包括所述稀疏查询和所述密集查询,更新后的所述混合查询用于确定所述目标BEV特征;基于所述目标BEV特征确定所述多视角图像的目标检测结果。