基于可提示分割模型的分割识别和文本描述方法及系统

申请号: CN202311676811.9

申请人: 北京智源人工智能研究院

申请日期: 2023/12/7

摘要文本

本发明公开了一种基于可提示分割模型的分割识别和文本描述方法，包括：获取图像目标；建立可提示分割模型ProTo，可提示分割模型ProTo用于基于SMA架构下的可提示分割任务中融合CLIP的语言能力以同时对目标进行分割识别和文本描述，所述可提示分割模型包括图像编码器、提示编码器以及图像解码器；图像编码器与图像解码器通过模拟CLIP提供基于视觉提示的区域级语义信息；图像解码器用于提供基于视觉提示的区域级视觉表征；基于可提示分割模型对图像目标进行分割识别和文本描述，获得可提示分割、概念预测及可提示的文本描述。还公开对应系统和电子设备，通过概念蒸馏有效利用CLIP进行模型预训练；实现通用具有位置感知能力的图像标记工具，促进区域级视觉理解。

申请人信息

申请人:北京智源人工智能研究院
申请人地址:100084 北京市海淀区成府路150号5层501号
发明人: 北京智源人工智能研究院

专利详细信息

项目	内容
专利名称	基于可提示分割模型的分割识别和文本描述方法及系统
专利类型	发明申请
申请号	CN202311676811.9
申请日	2023/12/7
公告号	CN117671688A
公开日	2024/3/8
IPC主分类号	G06V30/148
权利人	北京智源人工智能研究院
发明人	王鑫龙; 潘汀; 唐路路; 黄铁军
地址	北京市海淀区成府路150号5层501号

专利主权项内容

1.一种基于可提示分割模型的分割识别和文本描述方法，其特征在于，包括：S1，获取图像目标；S2，建立可提示分割模型ProTo，所述可提示分割模型ProTo用于基于SMA架构下的可提示分割任务中融合CLIP的语言能力以同时对目标进行分割识别和文本描述，所述可提示分割模型包括图像编码器、提示编码器以及图像解码器；所述图像编码器与图像解码器通过模拟CLIP提供基于视觉提示的区域级语义信息；所述图像解码器用于提供基于视觉提示的区域级视觉表征；S3，基于所述可提示分割模型对所述图像目标进行分割识别和文本描述从而获得可提示分割、概念预测以及可提示的文本描述。

基于可提示分割模型的分割识别和文本描述方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

基于可提示分割模型的分割识别和文本描述方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢