Please enable JavaScript.
Coggle requires JavaScript to display documents.
Muse: Text-To-Image Generation via Masked Generative Transformers - Coggle…
Muse: Text-To-Image Generation via Masked Generative Transformers
引言:提出了一种使用掩模图像建模方法进行文本到图像合成的新模型,图像解码器架构以来自预训练和冻结的 T5-XXL(Raffel 等人,2020)大型语言模型(LLM)编码器的嵌入为条件。每个模型由几个子模型组成,(1)
一对VQGAN标记器模型
,可以将输入图像编码为一系列离散标记,也可以解码将令牌序列返回到图像,使用两个VQGAN模型,一个低分辨率,一个高分辨率;(2)
一个基本蒙版图像模型
, 该模型采用一系列部分屏蔽的低分辨率标记,并根据未屏蔽的标记和 T5XXL 文本嵌入来预测每个屏蔽标记的边缘分布;(3)
一个“superres”转换器模型
,将(未屏蔽的)低分辨率标记转换为高分辨率标记,同样以 T5-XXL 文本嵌入为条件。
模型
(1)
预训练的文本编码器
:从 T5-XXL 提取的嵌入包含有关对象(名词)、动作(动词)、视觉属性(形容词)、空间关系(介词)和其他属性(例如 基数和组成),Muse 模型学习将 LLM 嵌入中这些丰富的视觉和语义概念映射到生成的图像,给定输入文本标题,将其传递给冻结的 T5-XXL 编码器,从而产生 4096 维语言嵌入向量的序列。 这些嵌入向量线性投影到我们的 Transformer 模型(基础和超分辨率)的隐藏尺寸;
(2)
使用 VQGAN 进行语义标记化
:该模型(完全使用卷积层构建)由编码器和解码器组成,以支持不同分辨率的图像编码,量化层将输入图像映射到学习码本中的标记序列, 编码器具有多个下采样块以减少输入的空间维度,而解码器具有相应数量的上采样块以将潜在图像映射回原始图像大小;
(3)
基础模型
:一个 masked Transformer,其中输入是投影的 T5 嵌入和图像标记,我们保留所有文本嵌入未屏蔽的状态,并随机屏蔽不同部分的图像标记,并用特殊的 [MASK] 标记替换它们。 然后,将图像标记线性映射到所需 Transformer 输入/隐藏大小的图像输入嵌入以及学习的 2D 位置嵌入。在训练时,基础模型经过训练以预测每一步的所有屏蔽标记。 然而,对于推理,掩模预测以迭代方式执行;
(4)
超分辨率模型
:只使用超分辨率会导致模型关注低级细节而不是大规模语义,因此采用级联模型,训练了两个 VQGAN 模型(类似于金字塔结构),从而获得全局特征和局部特征;
(5)
解码器微调
:为了进一步提高模型生成精细细节的能力,通过添加更多残差层和通道来增加 VQGAN 解码器的容量,同时保持编码器容量固定,然后,微调新的解码器,同时保持 VQGAN 编码器权重、码本和变压器(即基本模型和超分辨率模型)冻结;
(6)
可变掩蔽率
:使用基于余弦调度的可变掩蔽率来训练模型;
(7)
无分类器指导
:提高我们的生成质量和文本图像对齐;
(8)
推理时的迭代并行解码
主要贡献:(1)实现了出色的 FID 和 CLIP 分数(图像生成质量、多样性和与文本提示的对齐的定量测量);(2)使用了量化图像标记和并行解码,计算速度快;(3)架构支持开箱即用、零镜头编辑功能,包括修复、取消绘制和无遮罩编辑。
标题:Muse:通过 Masked Generative Transformers 生成文本到图像
摘要:提出了 Muse,一种文本到图像的 Transformer 模型,Muse 在
离散标记空间中接受屏蔽建模任务的训练
:给定
从预训练大语言模型 (LLM) 中提取的文本嵌入
,Muse 被
训练来预测随机屏蔽图像标记
。 与 Imagen 和 DALL-E 2 等像素空间扩散模型相比,由于
使用离散标记并且需要更少的采样迭代
,Muse 的效率明显更高; 与自回归模型(例如 Parti)相比,Muse 由于
使用并行解码
而更加高效。使用预先训练的 LLM 可以实现细粒度的语言理解,转化为高保真图像生成以及对视觉概念的理解,例如对象、它们的空间关系、姿势、基数等。
评价:(1)定性:Qualitative Performance,比较生成的图像的质量,不同模型生成图像的比较,自身模型生成不同风格的比较;(2)定量:Quantitative Performance,FID分数(两个数据高斯分布的距离)、CLIP分数(文本和图像对齐的分数);(3)人工评价;(4)推理速度和训练速度;
相关工作
图像生成模型
:变分自动编码器(VAE)、生成对抗模型(GAN)、基于渐进式去噪原理的扩散模型;
图像Tokenizers
:能够将大量计算从输入(像素)空间转移到潜在空间
大型语言模型
: LLM(包括 T5、BERT、 GPT等)
文本图像模型
:利用配对文本图像数据是表示学习和生成模型的强大学习范例,CLIP