Please enable JavaScript.
Coggle requires JavaScript to display documents.
Zero-Shot Text-to-Image Generation - Coggle Diagram
Zero-Shot Text-to-Image Generation
方法
第一阶段:学习视觉Codebook
初始先验和编码器分布
初始先验:在K=8192 个码本向量上的
均匀分类分布
编码器分布:由编码器输出的 32×32 网格中相同空间位置上的
8192 个 logits 参数化的分类分布
。表明编码器在每个网格位置上输出一个8192维的logits,用于表示每个可能的离散值的概率
解决办法
(1)
直通估计器和在线聚类分配程序
,直通估计器是一种在反向传播中忽略某些非可微操作梯度的技术;
Gumbel-Softmax 松弛
,可以在反向传播中对离散变量进行连续近似的方法,通过引入温度参数;
(2)
优化算法
:使用
Adam优化器
来更新模型参数,使用
指数加权迭代平均( EMA)
来平滑参数更新;
关键策略
:
松弛温度和步长的退火计划
(逐渐降低温度参数和学习率的策略),以逼近真正的离散分布;
卷积层的调整
(在编码器的末尾和解码器的开头使用1×1卷积),减小卷积的感受野大小可以更精确地处理局部信息,减少松弛过程中的信息丢失;
激活函数的调整
(将编码器和解码器每一层的输出激活乘以一个小常数),有助于防止梯度爆炸或梯度消失问题,提高训练的稳定性;
增加KL散度权重
:增加KL散度的权重有助于更好地利用码本,从而在训练结束时实现更小的重构误差
主要思想:如何通过
最大化关于模型参数φ(编码器参数)和θ(解码器参数)的证据下界(ELBO)
来训练
离散变分自动编码器(dVAE)
,ELBO包含了
重构误差和KL散度
(表示编码器输出的分布与先验分布的差异);
问题
(1)由于编码器是一个
离散分布
,
不能直接使用重新参数化技巧
(如在连续变分自动编码器中使用的)来优化。因此,需采用特殊方法来解决优化问题;
(2)在训练离散变分自动编码器(dVAE)时,为了
最大化松弛的证据下界(ELBO)
,采用了关键的技术和策略,以确保训练过程的稳定性和效果;
第二阶段:学习先验知识
数据预处理
文本标记
:使用BPE编码对文本进行编码,每个文本被限制在最多256个标记,词汇量为16,384;
图像标记
:图像被编码为32×32=1024个标记,每个标记可以有8192种可能的值。图像令牌通过对dVAE编码器输出的logits进行argmax采样获得,不添加任何Gumbel噪声;
建模和架构
连接文本和图像标记:文本和图像标记连接在一起,并自回归地作为一个单一的数据流进行建模
自注意力掩码
文本到文本注意:使用标准因果掩码,确保标记仅能注意到之前的标记。
图像到图像注意:使用行、列或卷积注意掩码,处理图像的结构化信息。
填充标记:为了处理文本标记和图像标记之间的填充位置,每个文本位置都有一个特殊的填充标记
主要思想:将
文本和图像标记结合起来
,并通过一个
大型稀疏变压器(Transformer)
来学习它们的联合分布,固定第一阶段训练好的VAE模型的编码器和解码器,通过最大化ELBO来学习文本和图像标记的先验分布;
损失函数和优化:
交叉熵损失
:文本和图像标记的交叉熵损失分别进行标准化,由于主要关注图像建模,因此将文本的交叉熵损失乘以1/8,将图像的交叉熵损失乘以7/8;
优化方法
:使用Adam优化器和指数加权迭代平均(EMA)来优化目标函数;
主要思想:
似然目标
倾向于优先考虑对像素之间的
短程依赖性进行建模
,因此用于
捕获高频细节
,而不是使我们在视觉上
可识别对象的低频结构
。因此,采用
两阶段
进行处理,
(1)训练离散变分自动编码器
,将每个 256×256 RGB 图像
压缩
为 32×32 图像令牌网格,其中每个元素可以假设 8192 个可能值。 这将变压器的上下文大小减少了 192(64x3) 倍,而视觉质量没有大幅下降;
(2)
将最多 256 个 BPE 编码的
文本标记
与 32 × 32 = 1024 个
图像标记
连接起来,并
训练一个自回归转换器
来对文本和图像标记上的联合分布进行建模;
标题:零样本文本到图像生成
摘要:传统上,文本到图像生成是寻找
更好的建模假设
(假设旨在更有效地捕捉文本和图像之间的复杂关系),以便
在固定数据集上进行训练
(需要大量标注好的文本和图像对)。这些假设可能涉及
复杂的架构
(多层卷积神经网络(CNN)、生成对抗网络(GAN)等)、
辅助损失
(除了主损失函数之外,还有一些分类器的损失)或
辅助信息
(例如训练期间提供的对象部分标签或分割掩模)。 本文提出一种基于变压器的简单方法,该变压器将
文本和图像标记
(文本中的单词和图像中的像素或块(tokens))
自动回归建模
(模型一次处理一个标记,预测下一个标记,直到生成完整的输出)为
单个数据流
(将文本和图像标记整合为一个连续的数据流进行处理)。