基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统

申请号: CN202311675435.1

申请人: 北京智源人工智能研究院

申请日期: 2023/12/7

摘要文本

一种基于概念蒸馏和CLIP的可提示分割模型预训练方法，可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器；方法包括：获取用于可提示分割模型预训练的图片‑掩码输入，并获得用于概念蒸馏的模板文本描述；将图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；将图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；将模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；基于分割损失Segloss与概念蒸馏损失KLloss的联合优化损失Lloss进行基于概念蒸馏和CLIP的可提示分割模型预训练；其中概念蒸馏损失KLloss与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。。来自：

申请人信息

申请人:北京智源人工智能研究院
申请人地址:100084 北京市海淀区成府路150号5层501号
发明人: 北京智源人工智能研究院

专利详细信息

项目	内容
专利名称	基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统
专利类型	发明申请
申请号	CN202311675435.1
申请日	2023/12/7
公告号	CN117671426A
公开日	2024/3/8
IPC主分类号	G06V10/774
权利人	北京智源人工智能研究院
发明人	唐路路; 潘汀; 王鑫龙; 黄铁军
地址	北京市海淀区成府路150号5层501号

专利主权项内容

1.一种基于概念蒸馏和CLIP的可提示分割模型预训练方法，其特征在于，所述可提示分割模型基于可提示分割初始模型ProTo预训练获得，所述可提示分割模型包括一体化的图像解码器、CLIP视觉编码器和CLIP文本编码器；所述方法包括：S1，获取用于可提示分割模型预训练的图片-掩码输入，并获得用于概念蒸馏的模板文本描述；S2，将所述图片输入经过可提示分割初始模型ProTo的图像解码器进行第一视觉嵌入操作获得第一视觉嵌入；S3，将所述图片输入经过CLIP视觉编码器进行第二视觉嵌入操作获得第二视觉嵌入；S4，将所述模板文本描述经过CLIP文本编码器进行第三文本嵌入操作获得第三文本嵌入；S5，基于分割损失Seg与概念蒸馏损失KL的联合优化损失L进行基于概念蒸馏和CLIP的可提示分割模型预训练；其中所述概念蒸馏损失KL与第一视觉嵌入、第二视觉嵌入和第三文本嵌入相关联。losslosslossloss

基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

基于概念蒸馏和CLIP的可提示分割模型预训练方法及系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢