← 返回列表

一种基于检索及分割增强的扩散图像生成方法及系统

申请号: CN202410172400.4
申请人: 北京知呱呱科技有限公司; 知呱呱(天津)大数据技术有限公司
申请日期: 2024/2/7

摘要文本

马 克 数 据 网 本申请公开了一种基于检索及分割增强的扩散图像生成方法及系统,方法包括模型构建、数据集构建、模型训练以及图像生成,通过将图像检索及语义分割技术与扩散模型相结合,在扩散模型的文本生成图像过程中引入外部的检索图像及其语义分割结果,结合用户输入的描述文本和检索及语义分割得到的图像向量融合,丰富了输入信息种类。外部检索图像扩充了描述文本的语义;语义分割形成的构成部件拆解细化了对待生成图像的结构理解。本申请在理解基础上指导扩散模型更加准确、多样的生成图像,提高了生成图像的语义一致性和视觉质量,能够生成与文本描述更加匹配的图像。

专利详细信息

项目 内容
专利名称 一种基于检索及分割增强的扩散图像生成方法及系统
专利类型 发明申请
申请号 CN202410172400.4
申请日 2024/2/7
公告号 CN117725247A
公开日 2024/3/19
IPC主分类号 G06F16/58
权利人 北京知呱呱科技有限公司; 知呱呱(天津)大数据技术有限公司
发明人 冯好国; 徐青伟; 严长春; 裴非; 范娥媚
地址 北京市海淀区长春桥路11号3号、4号楼裙房四层401-1号; 天津市河西区黑牛城道南侧四信大厦1号楼806A

专利主权项内容

1.一种基于检索及分割增强的扩散图像生成方法,其特征在于,所述方法包括S1模型构建、S2数据集构建、S3模型训练以及S4图像生成,具体包括:S1模型构建,其中,所构建模型的网络架构具体包括分割模型、Chinese-Clip模型、噪声生成模块、多层感知机以及扩散模型组成;S2数据集构建,包括建立与图像库的数据传输关系,通过分割模型对图像库中的图像执行语义分割,获取所有图像的主要部件构成子图,利用Chinese-Clip模型中的图像编码器对图像库中的图像及其主要部件构件构成子图执行图像编码得到向量,并在将向量归一化后与图像对应的文本向量进行配对后存储至faiss向量数据库中;S3模型训练,包括配对后存储的图像向量与图像对应的文本向量通过多层感知机进行增强融合后,利用图像和文本的融合向量对扩散模型进行训练;S4图像生成,包括获取目标描述文本,利用文本编码器对目标描述文本进行编码后在向量数据库中检索出最相似的Top-K图像向量,基于目标描述文本和Top-K图像向量通过训练完成的扩散模型得到目标生成图像。