← 返回列表
基于可提示分割模型的分割识别和文本描述方法及系统
摘要文本
本发明公开了一种基于可提示分割模型的分割识别和文本描述方法,包括:获取图像目标;建立可提示分割模型ProTo,可提示分割模型ProTo用于基于SMA架构下的可提示分割任务中融合CLIP的语言能力以同时对目标进行分割识别和文本描述,所述可提示分割模型包括图像编码器、提示编码器以及图像解码器;图像编码器与图像解码器通过模拟CLIP提供基于视觉提示的区域级语义信息;图像解码器用于提供基于视觉提示的区域级视觉表征;基于可提示分割模型对图像目标进行分割识别和文本描述,获得可提示分割、概念预测及可提示的文本描述。还公开对应系统和电子设备,通过概念蒸馏有效利用CLIP进行模型预训练;实现通用具有位置感知能力的图像标记工具,促进区域级视觉理解。
申请人信息
- 申请人:北京智源人工智能研究院
- 申请人地址:100084 北京市海淀区成府路150号5层501号
- 发明人: 北京智源人工智能研究院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于可提示分割模型的分割识别和文本描述方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311676811.9 |
| 申请日 | 2023/12/7 |
| 公告号 | CN117671688A |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G06V30/148 |
| 权利人 | 北京智源人工智能研究院 |
| 发明人 | 王鑫龙; 潘汀; 唐路路; 黄铁军 |
| 地址 | 北京市海淀区成府路150号5层501号 |
专利主权项内容
1.一种基于可提示分割模型的分割识别和文本描述方法,其特征在于,包括:S1,获取图像目标;S2,建立可提示分割模型ProTo,所述可提示分割模型ProTo用于基于SMA架构下的可提示分割任务中融合CLIP的语言能力以同时对目标进行分割识别和文本描述,所述可提示分割模型包括图像编码器、提示编码器以及图像解码器;所述图像编码器与图像解码器通过模拟CLIP提供基于视觉提示的区域级语义信息;所述图像解码器用于提供基于视觉提示的区域级视觉表征;S3,基于所述可提示分割模型对所述图像目标进行分割识别和文本描述从而获得可提示分割、概念预测以及可提示的文本描述。