Diffusion Models: A Comprehensive Survey of Methods and Applications
引言:三种主要公式进行简短介绍:去噪扩散概率模型 (DDPM)、基于分数的生成模型 (SGM)和随机微分方程(Score SDE)。阐明它们如何在相同的扩散原理下工作,并解释三个模型如何相互连接以及如何相互简化。描绘了扩散模型的领域,将其分为三个关键领域:更快更高效采样、更准确的似然和密度估计、处理具有特殊结构的数据。此外,还讨论了扩散模型与其他深度生成模型结合,包括变分自动编码器(VAE),生成对抗网络(GAN),标准化流,自回归模型和基于能量的模型(EBM)。
高效采样的扩散模型
扩散模型的基础
标题:扩散模型:方法和应用的综合综述
基于分数的生成模型 (SGM):DDPM可以视作SGM的离散形式,SGM构造一个随机微分方程(SDE)来平滑的扰乱数据分布,将原始数据分布转化到已知的先验分布和一个相应的逆向SDE来将先验分布变换回原始数据分布。通过引入分数步长来逐渐生成样本,并通过逐步减小这些分数步长来学习逆转生成过程。评分函数可以用来指导采样过程,通过使用评分来调整采样分布。评分函数通常是在训练过程中学习的,并用于调整采样分布以更好地匹配目标分布。
随机微分方程(分数 SDE):使用随机微分方程来描述样本生成的过程,并通过学习这些方程来进行逆转生成。
去噪扩散概率模型 (DDPM):使用两个马尔科夫链,一个将数据扰动为噪声的前向链,以及一个将噪声转换回数据的反向链。前者通常是手工设计的,目的是将任何数据分布转换为简单的先验分布(例如标准高斯分布),而后者通过学习由深度神经网络参数化的转换核来反转前者。何等人 (2020) 建议重新加权 (目标函数)𝐿VLB 中的各项,以获得更好的样本质量。采用逐步注入噪声的方式来生成样本,并通过逐步去除噪声来学习数据。
不涉及学习的采样方法(无学习采样):采用离散化方案,以减少时间步数,同时最大限度地减少离散化误差。SDE Solvers和ODE solvers
在扩散模型训练后需要额外的学习过程的采样方法(基于学习的采样):通过使用部分步骤或训练逆过程的采样器,该方法以牺牲轻微的样本质量为代价实现更快的采样速度。Optimized Discretization、Truncated Diffusion、Knowledge Distillation
改进似然性的扩散模型
摘要:扩散模型应用在图像合成、视频生成和分子设计,本文概述了扩散模型快速扩展的工作,将研究分为三个关键领域:有效采样、改进的似然估计和处理具有特殊结构的数据。讨论了将扩散模型与其他增强结果的生成模型。 我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时态数据建模以及其他科学学科的跨学科应用等领域的广泛应用。
Reverse Variance Learning
Exact Likelihood Computation
Noise Schedule Optimization
特殊结构数据的扩散模型
Data with Invariant Structures
Data with Manifold Structures:是指在高维空间中具有局部低维结构的数据。
Discrete Data
与其他生成模型的连接
Normalizing Flows:将简单的概率分布转化为极其复杂的概率分布。
Autoregressive Models:使用概率链规则将数据的联合分布分解为条件分布的乘积。
Generative Adversarial Networks:主要由生成器𝐺和鉴别器𝐷组成,将输入数据从一个空间映射到另一个空间,GAN 的优化可以被视为价值函数 𝑉(𝐺, 𝐷) 的最小-最大优化问题。生成器𝐺旨在生成新的示例并对数据分布进行隐式建模。 鉴别器𝐷是一个二元分类器,用于以最大可能的准确度从真实示例中识别生成的示例。 优化过程在鞍点处结束,该鞍点产生关于生成器的最小值和关于鉴别器的最大值。由于输入数据的分布与生成数据的分布不重叠的原因,使GAN的训练过程不稳定。解决办法是将噪声作为输入注入鉴别器,以扩大生成器和鉴别器分布,Wang 等人 (2022) 使用由扩散模型确定的自适应噪声表将噪声注入鉴别器。 另一方面,GAN 可以提高扩散模型的采样速度,肖等人(2021)表明慢采样是由去噪的高斯假设引起的,这仅适用于小步长。 因此,每个去噪步骤都由条件 GAN 建模,允许更大的步长。
Energy-based Models:可以从未标记的输入数据中学习。
Variational Autoencoders:目标是学习编码器和解码器,以将输入数据映射到连续潜在空间中的值。在连续时间设置中,Song 等人(2021),黄等人(2021),和 Kingma 等人 (2021)证明分数匹配目标可以通过深层分层 VAE 的证据下界 (ELBO) 来近似。 因此,优化扩散模型可以被视为训练无限深的分层 VAE,Score SDE 扩散模型可以解释为分层 VAE 的连续极限。 基于潜在分数的生成模型(LSGM)通过说明 ELBO 可以被视为潜在空间扩散背景下的专门分数匹配目标。 尽管 ELBO 中的交叉熵项很棘手,但通过将基于分数的生成模型视为无限深的 VAE,可以将其转化为易于处理的分数匹配目标。
扩散模型的应用
自然语言生成(NLG):自然语言处理(NLP)旨在理解、建模和管理来自不同来源(例如文本或音频)的人类语言。自然语言生成的目的是在给定输入数据(例如序列和关键字)或随机噪声的情况下,用人类语言编写合理且可读的文本。
计算机视觉
扩散模型的基本应用范式
无条件和条件扩散模型,无条件生成常用于探索生成模型的性能上限,而条件生成更多的是应用层面的内容。
标签和分类器上的条件扩散:在标签的指导下调节扩散过程是将所需特性添加到生成的样品中的直接方法,但当标签有限时,扩散模型很难充分捕获数据的整个分布。
扩散模型中的调节/条件机制:连接、基于梯度、交叉注意力和自适应层归一化(adaLN),连接表示扩散模型将信息指导与扩散过程中的中间去噪目标连接起来,例如标签嵌入和语义特征图; 基于梯度的机制将与任务相关的梯度纳入扩散采样过程以实现可控生成。 例如,在图像生成中,可以在噪声图像上训练辅助分类器,然后使用梯度引导扩散采样过程朝向任意类别标签;交叉注意力在引导目标和扩散目标之间执行注意力消息传递,在去噪网络中以分层方式进行;adaLN 机制不是直接学习维度尺度和平移参数,而是从时间嵌入和条件的总和中回归它们。
文本、图像和语义地图上的条件扩散:在更多语义(例如文本、图像和语义图)的指导下条件扩散过程,以更好地表达样本中丰富的语义。
图(Graphs)上的条件扩散:图结构数据通常表现出节点之间的复杂关系。
视频生成。 由于视频帧的复杂性和时空连续性,生成高质量视频在深度学习时代仍然是一个挑战。
语义分割:根据已建立的对象类别来标记每个图像像素。
图像恢复:包括超分辨率、修复和翻译。图像超分辨率旨在从低分辨率输入中恢复高分辨率图像,而图像修复则围绕重建图像中丢失或损坏的区域。图像翻译侧重于合成具有特定所需样式的图像。
Point Cloud Completion and Generation:点云是捕获现实世界对象的3D 表示的重要形式,由于部分观察或自遮挡,扫描常常会生成不完整的点云。利用扩散模型来推断缺失的部分以重建完整的形状, 对许多下游任务具有影响,例如 3D 重建、增强现实和场景理解。。
异常检测
多模态生成
场景图到图像的生成:从场景图(SG)预测类似图像的布局,然后根据该布局生成图像。这中间表示会丢失 SG 中的语义信息。
文本到 3D 生成
文本到图像的生成:从描述性文本生成相应图像的任务。 扩散模型研究的一个新的有趣方向是利用预先训练的文本到图像扩散模型来对合成结果进行更复杂或更细粒度的控制。
文本到动画生成
文本到视频的生成
文本到音频的生成:文本到音频生成是将正常语言文本转换为语音输出的任务。
时态数据建模
时间序列预测
波形信号处理
时间序列插补
Robust Learning:防御方法,有助于学习对对抗性扰动或噪声具有鲁棒性的网络
跨学科应用
材料设计
医学图像重建: 逆问题是从观测到的测量中恢复未知信号,它是计算机断层扫描(CT)和磁共振成像(MRI)医学图像重建中的一个重要问题。
药物设计和生命科学:分子/蛋白质的生成
未来发展方向
理论理解
潜在表征:扩散模型在潜在空间中提供良好的数据表示效果较差。
重新审视假设:例如,扩散模型的前向过程完全擦除数据中的任何信息并使其等于先验分布的假设可能并不总是成立。 了解何时停止前向噪声过程在采样效率和样本质量之间取得平衡非常有意义。 薛定谔桥和最佳传输的最新进展提供了有前途的替代解决方案,提出了能够在有限时间内收敛到指定先验分布的扩散模型的新公式。
AIGC (生成式人工智能)和扩散基础模型