一种基于多提示引导的通用细粒度视觉计数方法及系统
申请人信息
- 申请人:江西云眼视界科技股份有限公司
- 申请人地址:330096 江西省南昌市南昌高新技术产业开发区京东大道1189号创新工场科创孵化大楼5楼北区
- 发明人: 江西云眼视界科技股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于多提示引导的通用细粒度视觉计数方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410224019.8 |
| 申请日 | 2024/2/29 |
| 公告号 | CN117808802A |
| 公开日 | 2024/4/2 |
| IPC主分类号 | G06T7/00 |
| 权利人 | 江西云眼视界科技股份有限公司 |
| 发明人 | 韩智峰; 王伟; 张磊; 郭小光 |
| 地址 | 江西省南昌市南昌高新技术产业开发区京东大道1189号创新工场科创孵化大楼5楼北区 |
摘要文本
本发明提供了一种基于多提示引导的通用细粒度视觉计数方法及系统,所述方法包括获取图像数据集,将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组,以得到图像嵌入;获取用户下发的输入提示,基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加,以得到提示嵌入;获取训练图像集,将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练,以得到训练后的计数解码器;将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中,以输出对应的预测前景框与相应的类别概率分布,本发明可提高在复杂场景中的计数准确性,能够处理开集环境下的计数任务,避免了对目标类别的预定义。
专利主权项内容
1.一种基于多提示引导的通用细粒度视觉计数方法,其特征在于,包括:构建视觉计数模型,所述视觉计数模型包括视觉编码器、提示编码器与计数解码器,获取图像数据集,将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组,以得到图像嵌入;获取用户下发的输入提示,基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加,以得到提示嵌入;获取训练图像集,将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练,以得到训练后的计数解码器,训练后的计数解码器内嵌入有自注意力模块、交叉注意力模块;将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中,以输出对应的预测前景框与相应的类别概率分布;所述基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加,以得到提示嵌入的步骤包括:初始化一个与所述图像嵌入相同维度的初始嵌入层,所述初始嵌入层的初始值为全零;识别所述输入提示的类型,并基于所述输入提示的类型生成稀疏特征或映射特征;将所述稀疏特征或所述映射特征叠加至所述初始嵌入层中,以得到提示嵌入;所述识别所述输入提示的类型,并基于所述输入提示的类型生成稀疏特征或映射特征的步骤包括:识别所述输入提示的类型;若所述输入提示为点提示或框提示,则将点提示或框提示与所述初始嵌入层进行拼接处理,以得到稀疏特征,所述稀疏特征的维度为,其中,/>为批量处理图像的数量,/>为输入点的数量;若所述输入提示为草图提示,则将草图提示映射到一个维度为的密集嵌入,以得到映射特征。