← 返回列表

一种多视角图像生成模型的训练方法、应用方法

申请号: CN202311673946.X
申请人: 之江实验室
申请日期: 2023/12/7

摘要文本

本说明书公开了一种多视角图像生成模型的训练方法、应用方法,待训练的生成模型至少包括加噪层、交叉注意力层和去噪层,将各视角的初始特征图、时间参数和各视角的噪声图像,输入加噪层,可以得到各视角的加噪特征图,将各视角的加噪特征图与各视角的初始特征图,输入交叉注意力层,得到各视角二维空间语义增强的各第二融合特征图,将各第二融合特征图输入去噪层,可以得到各视角的预测噪声图像。训练完成的生成模型的去噪层,可用于根据目标图像、随机生成的各噪声图像和时间参数,生成目标图像对应的各视角的生成图像,且各视角的生成图像具有较强的一致性约束。

专利详细信息

项目 内容
专利名称 一种多视角图像生成模型的训练方法、应用方法
专利类型 发明授权
申请号 CN202311673946.X
申请日 2023/12/7
公告号 CN117372631B
公开日 2024/3/8
IPC主分类号 G06T17/00
权利人 之江实验室
发明人 王宏升; 林峰
地址 浙江省杭州市余杭区中泰街道科创大道之江实验室

专利主权项内容

1.一种多视角图像生成模型训练方法,其特征在于,待训练的生成模型至少包括加噪层、交叉注意力层和去噪层,所述方法包括:获取多个视角的样本图像,确定各样本图像的初始特征图;确定时间参数和各视角的噪声图像,将各初始特征图、各噪声图像和所述时间参数,输入所述加噪层,针对每个视角,根据所述时间参数,将该视角的噪声图像与该视角的初始特征图进行合成,得到该视角的加噪特征图;将所述各初始特征图和各加噪特征图,输入所述交叉注意力层,将所述各初始特征图对应的键向量与所述各加噪特征图对应的键向量,进行拼接,得到第一拼接键向量,将所述各初始特征图对应的值向量与所述各加噪特征图对应的值向量,进行拼接,得到第一拼接值向量,将所述第一拼接键向量和所述第一拼接值向量,分别与所述各加噪特征图对应的查询向量进行交叉注意力计算,确定各第一融合特征图;将所述各第一融合特征图对应的键向量,进行拼接,得到第二拼接键向量,将所述各第一融合特征图对应的值向量,进行拼接,得到第二拼接值向量,将所述第二拼接键向量和所述第二拼接值向量,分别与所述各加噪特征图对应的查询向量进行交叉注意力计算,确定各第二融合特征图;将所述各第二融合特征图、所述时间参数以及任一视角的初始特征图,输入所述去噪层,确定各预测噪声图像,针对每个视角,根据该视角的预测噪声图像与该视角的噪声图像的差异,训练所述生成模型;所述生成模型训练完成后,响应于携带目标图像的多视角图像生成请求,将所述目标图像的初始特征图、随机生成的各视角的噪声图像和时间参数,输入训练完成的生成模型的去噪层,得到所述目标图像对应的各视角的生成图像。