← 返回列表

一种生成模型增强的大规模视觉预训练方法及系统

申请号: CN202410077241.X
申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种生成模型增强的大规模视觉预训练方法及系统
专利类型 发明授权
申请号 CN202410077241.X
申请日 2024/1/19
公告号 CN117593215B
公开日 2024/3/29
IPC主分类号 G06T5/70
权利人 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
发明人 吴建龙; 李潇婕; 聂礼强; 张淼; 张民
地址 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区

摘要文本

本发明属于图像自监督预训练领域,为解决生成模型生成图像的准确性差的问题,提供一种生成模型增强的大规模视觉预训练方法及系统。其中,生成模型增强的大规模视觉预训练方法包括利用预训练的生成模型,自适应生成原始图像所对应的正视图;对原始图像和正视图进行数据增强,生成增强后的正样本对,使用预训练的图像编码器提取正样本对的特征表示;根据正样本对的特征表示,计算注意力掩码来分隔前景区域和背景区域;评估正样本对的质量来调整每个正样本对在训练生成模型过程中对整体损失的贡献,计算每个正样本对的重新加权因子,得到最终损失函数,以确定是否继续训练生成模型,其能够减轻低质量和错误图像对生成模型生成图像准确性的影响。

专利主权项内容

1.一种生成模型增强的大规模视觉预训练方法,其特征在于,包括:利用预训练的生成模型,自适应生成原始图像所对应的正视图;其中,生成模型包括预训练的图像编码器和扩散生成器,图像编码器用于提取原始图像的嵌入特征和潜在特征,扩散生成器用于根据图像编码器提取的特征自适应生成原始图像所对应的正视图;对原始图像和正视图进行数据增强,生成增强后的正样本对,再使用预训练的图像编码器提取增强后的正样本对的特征表示;根据正样本对的特征表示,计算注意力掩码来分隔前景区域和背景区域;计算前景区域之间的相似性和背景区域之间相似性,评估出正样本对的质量,以在生成模型训练过程中来调整每个正样本对在对比损失函数的贡献;根据每个正样本对在对比损失函数的贡献,计算每个正样本对的重新加权因子,基于重新加权因子与对比损失函数加权,得到最终的损失函数,以用来确定是否继续训练生成模型。