自适应条件增强的文本图像生成方法、系统、装置及介质
摘要文本
本发明提供一种自适应条件增强的文本图像生成方法、系统、装置及介质,涉及文本‑图像生成技术领域,该方法包括采集文本信息,构建数据集;构建文本图像生成模型ACE‑GAN;将数据集输入到构建好的文本图像生成模型ACE‑GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE‑GAN;将文本信息输入到训练好的文本图像生成模型ACE‑GAN中,生成图像。本发明方法解决了单阶段生成网络中的跨模态信息交互性能较差,导致文本与生成图像之间的语义一致性较差的问题,提高了图像质量和多样性。
申请人信息
- 申请人:江南大学
- 申请人地址:214122 江苏省无锡市滨湖区蠡湖大道1800号
- 发明人: 江南大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 自适应条件增强的文本图像生成方法、系统、装置及介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311682269.8 |
| 申请日 | 2023/12/8 |
| 公告号 | CN117392284B |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G06T11/60 |
| 权利人 | 江南大学 |
| 发明人 | 徐天阳; 周龙龙; 周芮佳; 朱学峰; 罗晓清; 胡聪; 宋晓宁; 吴小俊 |
| 地址 | 江苏省无锡市蠡湖大道1800号 |
专利主权项内容
1.一种自适应条件增强的文本图像生成方法,其特征在于,包括:S1:采集文本信息,构建数据集;S2;构建文本图像生成模型ACE-GAN,其中文本图像生成模型ACE-GAN的框架为:由一个预训练文本编码器和一对生成器-判断器组成,所述预训练文本编码器用于将文本描述转换为句子和单词嵌入;所述生成器由7个ACE上采样块组成,每个上采样块使用句子和单词信息,通过仿射变换调整中间图像特征;所述判断器分为两部分,即特征提取网络和条件判别网络,其中所述特征提取网络由6个下采样块组成,并将第4个下采样块的输出定义为局部图像特征,将第6个下采样块的输出定义为全局图像特征,所述条件判别网络根据文本条件确定提取的图像特征的真实性;同时使用跨模态对齐损失CMAL来优化判断器的特征提取能力;所述生成器中的每个ACE上采样块由自适应条件增强模块ACEM和语义空间感知模块SSAM组成,所述自适应条件增强模块ACEM用于根据单词对中间图像特征的重要性为每个上采样块构建自适应的语义条件,所述语义空间感知模块SSAM用于使用文本条件来指导中间图像特征的学习;所述自适应条件增强模块ACEM用于根据单词对中间图像特征的重要性为每个上采样块构建自适应的语义条件,具体包括:在自适应条件增强模块ACEM中,首先计算单词与图像子区域之间的关系矩阵 : R=WIT式中,W代表词特征,I代表中间图像特征,R代表关系矩阵,沿着文本轴对关系矩阵R进行归一化,并在图像轴上执行平均池化:式中,R代表关系矩阵,代表归一化后的关系矩阵,i, j均表示第几个的意思,不指代任何释义,T代表关系矩阵行数,N代表词向量总个数,A代表词向量的权重;i, j然后,对词向量进行加权和,得到一个自适应的语义向量:式中,代表自适应的语义向量;最后,将句子向量和自适应的语义向量连接在一起,作为最终的文本条件:式中,C代表文本条件,S代表句子向量;所述使用跨模态对齐损失CMAL来优化判断器的特征提取能力的方法具体包括:在互信息损失的基础上引入了词与局部图像特征之间的约束,并为了迫使判断器在训练的早期阶段更多地关注全局图像特征,然后逐步加强对局部图像特征的关注,设计了一个平衡函数来调整词语局部损失和语句全局损失的比例,其中平衡函数表示为:式中,L为跨模态对齐损失,为词语局部对齐损失,/>为语句全局对齐损失,E为训练周期,K为与数据集相关的超参数;CMA所述词语局部对齐损失表示为:式中,w为第i个词向量,w为第j个词向量;为第i个区域内上下文信息向量,/>为第j个区域内上下文信息向量;R(, )为关系矩阵;γ为平滑因子;N为词向量总个数;i, j均表示第几个的意思,不指代任何释义;ij所述语句全局对齐损失表示为:式中,s为第i个语句向量;为第i张图片的第k个位置向量;/>为第j张图片的第k个位置向量;N为图片总数;M为每张图片内位置向量总数;i, j, k均表示第几个的意思,不指代任何释义;i1S3:将数据集输入到构建好的文本图像生成模型ACE-GAN中,进行条件对抗性学习训练,得到训练好的文本图像生成模型ACE-GAN;S4:将文本信息输入到训练好的文本图像生成模型ACE-GAN中,生成图像。