一种基于多提示引导的通用细粒度视觉计数方法及系统

申请号: CN202410224019.8

申请人: 江西云眼视界科技股份有限公司

更新日期: 2026-03-20

摘要文本

江西云眼视界科技股份有限公司取得“一种透气窗帘布”专利技术，本发明提供了一种基于多提示引导的通用细粒度视觉计数方法及系统，所述方法包括获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器；将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布，本发明可提高在复杂场景中的计数准确性，能够处理开集环境下的计数任务，避免了对目标类别的预定义。

专利主权项内容

1.一种基于多提示引导的通用细粒度视觉计数方法，其特征在于，包括：构建视觉计数模型，所述视觉计数模型包括视觉编码器、提示编码器与计数解码器，获取图像数据集，将所述图像数据集中的图像输入视觉编码器中进行维度展平与重组，以得到图像嵌入；获取用户下发的输入提示，基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入；获取训练图像集，将所述训练图像集输入计数解码器中并通过损失函数对所述计数解码器进行训练，以得到训练后的计数解码器，训练后的计数解码器内嵌入有自注意力模块、交叉注意力模块；将所述图像嵌入与所述提示嵌入输入训练后的计数解码器中，以输出对应的预测前景框与相应的类别概率分布；所述基于所述输入提示的类型将所述输入提示输入提示编码器中进行学习嵌入叠加，以得到提示嵌入的步骤包括：初始化一个与所述图像嵌入相同维度的初始嵌入层，所述初始嵌入层的初始值为全零；识别所述输入提示的类型，并基于所述输入提示的类型生成稀疏特征或映射特征；将所述稀疏特征或所述映射特征叠加至所述初始嵌入层中，以得到提示嵌入；所述识别所述输入提示的类型，并基于所述输入提示的类型生成稀疏特征或映射特征的步骤包括：识别所述输入提示的类型；若所述输入提示为点提示或框提示，则将点提示或框提示与所述初始嵌入层进行拼接处理，以得到稀疏特征，所述稀疏特征的维度为，其中，/>为批量处理图像的数量，/>为输入点的数量；若所述输入提示为草图提示，则将草图提示映射到一个维度为的密集嵌入，以得到映射特征。

专利申请信息

项目	内容
专利名称	一种基于多提示引导的通用细粒度视觉计数方法及系统
专利类型	发明申请
申请号	CN202410224019.8
申请日	2024/2/29
公告号	CN117808802A
公开日	2024/4/2
IPC主分类号	G06T7/00
权利人	江西云眼视界科技股份有限公司
发明人	韩智峰; 王伟; 张磊; 郭小光
地址	江西省南昌市南昌高新技术产业开发区京东大道1189号创新工场科创孵化大楼5楼北区

一种基于多提示引导的通用细粒度视觉计数方法及系统

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种基于多提示引导的通用细粒度视觉计数方法及系统

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种铈基配合物空穴掺杂剂及钙钛矿太阳能电池制备方法

新能源同步稳定与动态电压支撑安全域建模方法及系统

基于层级移动窗口注意力的全景图像质量评价方法与系统

一种图文融合的低秩多模态融合情感分析方法

一种反无人机模拟训练目标数据生成方法及装置

一种异常检测框架下的影像组学分析方法及系统

热门技术领域

快速入口

专利技术资料