一种基于关系和风格感知的多模态场景生成方法
摘要文本
四川大学; 中国电子科技集团公司第十研究所取得“一种透气窗帘布”专利技术,本发明公开了一种基于关系和风格感知的多模态场景生成方法,应用于计算机视觉及3D多模态技术领域。使用多模态大模型‑CLIP增强场景图数据的上下文关系信息,同时采用基于图卷积神经网络的双流结构,分别预测场景布局和相应的3D形状。其中在形状支路中,选择隐式扩散模型作为生成模型,解码器解码出关系形状嵌入作为其隐式条件。用户可输入风格文本,例如:中国风,中世纪风,欧洲风格等,然后利用生成的形状先验与神经辐射场,以CLIP作为优化时的指导,最后得到细粒度的3D场景。本发明可以通过场景图及用户输入的风格文本,实现可控的场景生成及风格感知,解决了目前现有的场景生成方法的不足。
专利主权项内容
1.一种基于关系和风格感知的多模态场景生成方法,其特征在于,包括以下步骤:S1、获取原始场景图,为原始场景图中每个节点和每条边初始化一个特征向量,使用CLIP的文本编码器将节点的语义标签和边的关系信息进行编码,同时将场景图中每个节点对应的位置3D框的参数特征化,得到特征增强后的场景图;S2、将特征增强后的场景图分为两个部分,第一部分由可学习的特征向量和编码后的语义标签组成,第二部分由参数化后的每个物体对应的位置3D框参数组成,两部分场景图的边的特征都是编码后的关系信息,第一部分送入形状编码器,第二部分送入布局编码器;S3、将形状编码器和布局编码器的输出送入一个基于图卷积神经网络的特征交互模块中,学习得到联合的布局-形状后验分布,最后采样得到特征向量z,将特征向量z更新为场景图每个节点的新信息;iiS4、将更新后的场景图分别送入布局解码器和形状解码器中,其中布局解码器的输出为场景中对应的物体3D框及布局,形状解码器输出的为含有上下文关系信息的形状嵌入;S5、将形状嵌入作为隐式扩散模型的条件输入,训练过程中使用VQ-VAE编码3D形状得到初始的形状特征,推理过程中随机的高斯噪声通过隐式扩散模型去噪,生成物体形状;S6、用户首先输入风格提示文本,利用S5中生成的物体形状作为神经辐射场的初始化,然后使用CLIP指导对其进行优化,得到具有细粒度纹理及风格的物体的3D形状,最后将物体的3D形状和场景布局相融合,得到完整的场景。
专利申请信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于关系和风格感知的多模态场景生成方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311358550.6 |
| 申请日 | 2023/10/19 |
| 公告号 | CN117496025A |
| 公开日 | 2024/2/2 |
| IPC主分类号 | G06T15/00 |
| 权利人 | 四川大学; 中国电子科技集团公司第十研究所 |
| 发明人 | 雷印杰; 冯俊球; 李鹏; 刘春黔; 刘杰; 林浩然; 周礼亮 |
| 地址 | 四川省成都市一环路南一段24号; 四川省成都市金牛区茶店子东街48号 |