Please enable JavaScript.
Coggle requires JavaScript to display documents.
Diffusion Models for Image Restoration and Enhancement – A Comprehensive…
Diffusion Models for Image Restoration and Enhancement – A Comprehensive Survey
引言:IR任务(
主要问题:不满意的纹理生成
)包括
图像超分辨率(SR)、去模糊、去噪、修复和压缩伪影消除等
。
CNN
-->
Transformers
(以前的损失(MSE loss、L1 loss)方法使用像素级损失,易受纹理模糊的影响,纹理生成效果不理想)-->
GAN
(加入对抗性损失,增强纹理生成能力,但训练容易
受到模式损坏和不稳定优化的影响
,大多数生成图像的纹理似乎是
假的和反事实的
)-->
Diffusion models
。根据
训练策略
,可以大致分为两类:1)通过
监督学习从头开始优化IR的扩散模型
,通常需要收集大规模失真/干净图像对;2)
(零样本)
利用
IR预训练扩散模型
中的生成先验,主要依赖于已知的退化模式。由于
失真是多种多样且未知的
,因此,一些研究通过
结合真实世界失真模拟、核估计、域转换和失真不变学习
,扩展了扩散模型来处理盲/真实世界 IR
基于扩散模型的图像恢复方法:(1)
基于监督DM的方法
有两个挑战:从头开始训练扩散模型依赖于大量的配对训练数据;在现实世界中收集成对的扭曲/干净图像具有挑战性。(2)
基于零样本 DM 的方法
的挑战:如何在保留失真图像的数据结构的同时提取相应的感知先验
监督方法:
SR3
采用
简单的条件策略
,直接
将退化图像与在 t 时间步生成的图像 xt 连接起来
,有效地生成 SR 的条件图像。SR3 遵循
DDPM 框架
,并利用
U-Net 模型
作为噪声预测器。 给定低分辨率 (LR) 图像 y,SR3 最初使用
双三次插值
将其上采样到所需的分辨率。 随后,它
将超分辨率 LR 图像 y 与 t 时间步骤的去噪输出 xt 连接起来
,作为扩散模型的输入来预测 t - 1 步的噪声。 当达到 t = 0 时,扩散模型可以提供 y 的上采样高质量图像 x0,即 x。
零样本方法:
ILVR
利用
无条件扩散模型
来实现图像SR和图像翻译的免训练条件生成,ILVR 的关键创新涉及
用参考图像中的对应部分替换去噪输出中的低频分量(在反向去噪的每一步中,都进行替换对原始低分辨率图像的约束)
,该替换过程确保了
生成图像和参考图像之间的结构和语义一致性
,从而促进了条件生成。继 ILVR 之后,大多数基于零样本 DM 的 IR 方法主要侧重于
增强采样过程中的细化策略,从而无需训练
。
标题:用于图像恢复和增强的扩散模型 - 综合调查
摘要:基于扩散模型的图像恢复方法进行全面回顾,包括
学习范式、条件策略、框架设计、建模策略和评估
。 具体来说,(1)介绍扩散模型的背景,然后在图像恢复中利用扩散模型的两种流行的工作流程;(2)对图像恢复(IR)和盲/真实世界 IR 使用扩散模型的创新设计进行了分类和强调;(3)总结了
常用的数据集、实现细节和评估指标
。 此外,对开源方法在
图像超分辨率、去模糊和修复
等三个任务中进行了客观比较;(4)根据现有工作的局限性,为基于扩散模型的IR的未来研究提出了五个潜在和具有挑战性的方向,包括
采样效率、模型压缩、失真模拟和估计、失真不变学习和框架设计
扩散模型 (DM) 的背景:
DDPM、NCSN(基于分数的生成模型的特例)和 SDE(统一形式)
DDPM通过
添加高斯噪声的固定过程对正向过程进行建模,将扩散模型的逆向过程简化为变分边界目标的求解过程
随机微分方程(SDE)对
连续扩散和逆向建模
,它证明了NCSNs和DDPM只是SDE的两个独立的离散化
噪声条件评分网络(NCSN:从高噪声尺度开始,逐渐降低噪声尺度,直到噪声完全消除):通过
退火的 Langevin 动力学(指的是逐步降低噪声强度,用于在高维空间中进行采样,)从一系列逐渐降低的噪声尺度中进行采样来对数据分布进行建模
。 NCSN根据
对数密度函数的梯度
估计数据分布(即得分函数∇log p(x)),引导采样逐步向数据分布中心的方向前进。为了
避免结果分布崩溃到低维流形以及低密度区域中不准确的分数估计
,退火的朗格维动力学被设计用于基于分数的生成模型,其中预定义的噪声具有单调递减的水平 σ 来扰动数据
扩散模型的改进:从
优化策略、采样效率、模型架构、条件策略
等角度增强扩散模型
采样效率
:生成质量取决于采样步骤
(2)修改扩散过程,Lou 等人建议
提前停止机制截断扩散过程
,并
从非高斯分布开始采样
,该分布是由预先训练的 VAE/GAN 模型生成的
(3)采用
知识蒸馏
将生成能力从多个采样步骤转移到几个采样步骤
(1)与
ODE
相关的
手工采样策略
,例如,
DDIM
在前向过程中引入非马尔可夫链,使扩散模型能够实现任意步数的采样。 而
DPM 求解器
通过分析计算 ODE 解的线性部分而不是利用黑盒 ODE 求解器来寻求快速 ODE 求解器,因此,该方法大大缩小了生成高质量图像所需的采样步骤,将其限制在 10 到 20 的可接受范围内
(4)利用
条件策略嵌入生成先验
,从而优化采样效率
模型架构
:主要采用
基于 CNN 的 U-Net
和
基于 Transformer
的模型。通过结合交叉注意力模块、组归一化、多头注意力和位置编码。最近,Transformer证明了其在
建模远程依赖性和统一不同模式方面
的熟练程。因此,一些文本到图像的工作探索使用
Transformer主干
,例如 ViT 、Swinv2 ,来
取代原始的基于 CNN 的 U-Net 来预测反向过程中的噪声
,其中时间步 t 和其他条件通过自适应层归一化或交叉注意力馈送到变压器
优化策略
:探索
前向和后向过程
中
方差/噪声调度
的优化,前向过程中的噪声调度控制着每一步的扰动程度,这对逆向过程极其重要
为了缓解DDPM的问题,
IDDPM
引入
余弦噪声表
,以
避免早期扰动阶段快速噪声积累
的负面影响。 一般来说,
反向过程中的方差表
是
固定
的,并与
正向过程中的噪声表
一起计算。 然而,IDDPM 还发现
学习方差
可以进一步提高对数似然,因此
采用方差表作为正向和反向过程中方差的可学习线性插值
Diederik 等人用
单调神经网络参数化噪声表
,并与扩散模型联合优化
DDPM
采用
简单的线性噪声表
进行扩散过程,但这种方法通常会导致
次优结果
条件策略
(1)Nicol等人
训练辅助分类器
来指导扩散模型,利用其
梯度来指导图像生成朝向特定语义
(2)以
无分类器的方式
将
条件
(
文本提示、类标签、图像、分割图、潜在特征
)引入到分数估计/噪声预测模型中,例如,GLIDE、DALLE-2、稳定扩散、ControlNet
基于 DM 的零样本 IR:实现免训练、免数据的图像恢复
投影方法
:
从低质量图像中提取固有的结构/纹理
,作为每一步生成图像的补充,确保数据的一致性
ILVR 采用
低频投影
来实现图像超分辨率,将 xt−1 的低频分量替换为 yt−1 的低频分量,确保数据一致性
CCDF引入统一的投影方法
,这项工作证明
从更好的初始化开始生成可以提高反向过程的速度
RePaint 利用
简单的投影
来执行图像修复任务
分解方法
DDRM 进一步将 SVD 分解扩展到线性逆问题的变分目标
Kawar等人基于DDRM的特殊情况(即逆问题中没有噪声z)研究非线性逆问题,并扩展伪逆概念以实现JPEG伪影校正
SNIPS 基于退火 Langevian动力学并推导了光谱空间上的条件得分函数,在
奇异值分解(SVD)
谱域中运行扩散过程中,原始数据(如图像)的主要信息集中在少数较大的奇异值上,而噪声往往分布在较小的奇异值上。因此,通过分析奇异值,可以区分主要信息和噪声
对于MRI重建,SVD分解不适合,宋等人从头开始训练医学图像的无条件生成模型,然后利用采样过程中的矩阵分解来解决未知测量过程中常见的线性逆问题
DDNM 引入了另一种分解策略,即
范围零空间分解
,以进一步改进零样本图像恢复,其中范围空间负责数据一致性,零空间用于改善零样本图像恢复
核心挑战:i)如何
保持低质量图像和生成图像之间的数据一致性
,因为预训练的扩散模型致力于保持数据分布而不是像素数据一致性;ii)如何挖掘与低质量图像一致的感知知识
后验估计方法
MCG从数据流形的角度考虑数据一致性,提出
流形约束梯度
来让校正落在数据流形上
DPS指出MCG中的投影操作对数据一致性有害,可能导致采样路径偏离数据流形,因此丢弃了逆向过程中的投影步骤,并且更改后验估计
大多数投影方法致力于
无噪声逆问题
,并且会遇到
数据一致性不满意的问题
,即投影结果可能
不再符合原始数据的自然结构或分布
,为解决一般的噪声线性逆问题,一些工作使用
基于贝叶斯定理的无条件扩散模型
来估计后验分布p(x|y)。作为开创性工作,MCG和DPS用 p(y|ˆxo) 近似后验 p(y|xt),并且 ˆxo 是给定 xt 的期望,通过Tweedie’s公式ˆxo = E[xo|xt]计算
IIGDM扩展了后验估计方程
监督方法
(1)
增强条件策略
修改扩散过程:使得扩散输出 xT (即反向过程中的起点)近似于被少量高斯噪声破坏的低质量图像
Xie等人重新定义了扩散过程,分别推导了高斯噪声、伽马噪声和泊松噪声的三个独立的扩散过程
InDI 引入了连续扩散过程
,其中x和y是高质量图像及其相应的低质量对应图像,可以解释为在时间步t对高质量和低质量图像进行逐步插值
Luo等人
用均值回归 SDE 修改前向过程
,将 IR 的统一退化过程建模为:
,其中 θt 和 σt 是时间相关参数, µ 表示失真图像,x 表示其对应的高质量图像。 通过均值恢复 SDE,分别使用改进的前向和反向过程对图像退化和恢复过程进行了建模,避免了纯噪声的产生;在 IR-SDE 的基础上,通过优化网络架构、噪声水平和去噪步骤细化IR-SDE,引入了
Refusion
,Refusion采用U-Net压缩策略实现潜在空间的高效采样
HFS-SDE 表述了频率空间磁共振(MR)重建的扩散过程,前向过程逐步将噪声添加到高频空间中,得到由高频噪声和低频数据组成的最终 xT。 在逆向过程中,HFS-SDE采用预测校正器(PC)方法进行采样
生成残差:将生成过程
从图像空间移动到残差空间
,目标是
生成配对的高质量和低质量图像之间的残差
SRDiff首次利用扩散模型来预测SR中的残差
Whang 为图像去模糊任务
引入预测和细化策略
,首先使用确定性去模糊网络预测初始去模糊图像,然后通过随机扩散模型生成残差。(
预测器 gθ 生成干净图像的初始预测,而残差信息通过扩散过程建模
)
预处理参考:低质量图像由预先训练的恢复网络或可训练的预处理模块进行处理,输出是特征或干净的图像
预处理参考图像
增强条件
:为了减轻低质量图像中伪影的副作用,CDPMSR
利用现有的超分辨率模型
(RCAN、SwinIR、EDSR)来增强低质量图像,此外,在逆向过程中
避免了随机采样
,转而
采用确定性去噪过程
,提高图像质量和更快的推理速度;
初始恢复图像
:ResDiff 利用预训练的CNN生成低频内容丰富的图像作为初始恢复图像,并利用条件扩散模型进一步生成预处理的失真图像与其相应的干净图像之间的残差;
预处理参考特征
IDM致力于连续图像超分辨率,首先使用EDSR提取低分辨率图像的初始特征。 然后,将初始特征下采样到多个尺度,作为扩散模型中不同上采样层的条件,目的是
细化隐式表示
;
ShadowDiffusion利用预先训练的变压器主干从扭曲的参考图像中提取退化先验特征, 提取的退化先验被用作细化生成的阴影掩模的辅助,并用作无阴影图像生成的条件;
潜空间扩散:为减轻扩散模型的训练和采样成本
StableDiffusion:第一个在潜在空间中实现基于 DM生成,预训练
自动编码模型
(即编码器-解码器架构)来
学习感知空间
,能够保留
重建图像的感知质量
,同时降低计算复杂度。 利用预先训练的自动编码器,将图像扩散过程转换到感知空间,然后通过交叉注意机制将各种条件(例如文本、分割图和图像)引入到扩散模型中
Refusion引入用于图像恢复的潜在扩散模型来加速训练和采样
DiffIR 利用潜在扩散模型来生成紧凑的IR先验,指导基于动态变压器的恢复网络(DIRformer)实现更好的恢复
低质量参考图像
Ho 等人介绍了基于SR3主干的
三层级联扩散模型
,第一个实现
类条件
的低分辨率图像生成;两个额外的扩散模型被级联起来,对低分辨率生成的图像进行超分辨率处理;
除了基于 DDPM 的方法之外,还有另一项工作探索了使用
预测校正采样
进行人脸超分辨率的
连续扩散模型 SDE
的各种变体;
为了使扩散模型适应
任意尺寸的 IR
,Ozdenizciě 等人将
退化图像和相应的采样结果xt划分为几个重叠的补丁
,然后利用
补丁级联
作为噪声预测的扩散模型的输入。为了解决
重叠区域中不同采样块引起的不一致问题
,引入了重叠区域内每个像素的平均估计噪声;
Palette
采用相同的条件策略,用于图像着色、修复、取消裁剪和 JPEG 伪影去除,但仅
支持训练后的 IR 的固定分辨率
;
SR3
利用低质量参考图像与第 t - 1 步的去噪结果的直接串联作为第 t 步噪声预测的条件;
问题
:低质量图像中的
伪影
会对扩散模型的生成产生有害影响,特别是对于严重且多样化的失真;
(2)
探索潜在且更高效的生成空间
残差空间:侧重于重建低质量图像与其对应的高质量图像之间的残差,简化了生成整个图像的复杂性
潜在空间:提高生成效率
图像空间:大多数研究在图像空间恢复图像,其中结构和纹理需要直接生成
用于盲/真实世界图像恢复的扩散模型
核估计扩散模型:在盲图像恢复中被提出,退化可以建模为 y = (x ∗ k) +n,k为退化核,n为加性噪声
BlindDPS利用
DPS 架构
和一种
并行扩散模型
进行退化核估计,用于核估计的扩散模型是
在合成核上预先训练
的
GibbsDDRM使用
部分折叠的 Gibbs 采样器
实现采样过程,该采样器从联合后验 p(xt|k, y) 一起对内核参数和图像进行采样
BlindDPS和GibbsDDRM 通过
估计采样过程中的未知退化核
来解决盲逆问题
域转换扩散模型:旨在将图像从一个域转换到另一个域,从域转换角度看,
合成扭曲图像
、
真实世界扭曲图像
和
高质量图像
可以视为三个不同的域,它们共享相同的内容
(1)通过
转换合成图像中的低质量图像
来模拟更可靠的
现实世界扭曲/干净图像对
,实现合成域到现实世界的域的转换,模拟数据集可以使恢复网络对现实世界的退化具有更好的恢复能力。杨等人
第一个利用预训练的扩散模型来合成真实世界的训练对
,其中扩散模型是用真实世界的低质量图像进行预训练的,并且通过将合成的低质量图像扭曲为噪声来实现空间转换(即生成反转)
(2)利用无监督学习,其中域转换是通过
循环一致性约束
来实现的,两个生成器构建一个循环路径,其中
一个生成器将失真图像转换为无失真图像
,而
另一生成器将干净图像转换为失真图像
,这使得使用未配对的现实世界扭曲的高质量图像进行无监督训练。RainDiffusion 提出用
两个合作分支去除雨水
,其中非扩散翻译分支旨在利用预训练的循环一致生成器来生成初始配对的干净/下雨图像,扩散翻译分支利用多尺度扩散模型来细化结果
失真模拟扩散模型
SR3+基于SR3的扩散模型,并引入
RealESRGAN的二阶退化模拟
进行训练
Yang 等人建议使用扩散模型
合成现实世界的扭曲/干净训练对
,其中扭曲图像在 RealESRGAN 中使用二阶退化进行初始化
失真不变扩散模型
任等人提出
利用多尺度退化不变
指导信息实现失真不变扩散模型,对退化图像
采用失真增强策略
,以获得以结构信息为指导的不变表示
Wang 利用
低通滤波器
来
过滤低质量图像
中的
失真不变分量
,因为不同的现实世界失真图像通常共享相同的结构信息。 在采样阶段采用了类似于ILVR的简单迭代细化,在获得退化不变 ^x0 后,使用
增强模块(基于强大的 CNN 或基于 Transformer 的恢复方法)
来进一步提高图像质量
DifFace 等人引入了
预训练的恢复网络
,例如SRCNN 或SwinIR,以
获得初始干净图像
作为采样起点x,其中恢复网络
使用RealESRGAN的二阶退化进行训练
,从而表现出良好的泛化能力,并为扩散模型产生失真不变的初始干净图像
真实世界IR任务的挑战:1)
未知的降解模式难以识别
;2)
收集扭曲/干净的图像对是重要的,但现实世界中不可能
;
实验
评估指标:(1)PSNR :峰值信噪比,通过计算失真图像与其相应的干净图像之间的均方误差 (MSE) 来测量它们之间的像素距离;(2)SSIM:从对比度、亮度和结构三个角度比较失真图像和干净图像的相似度,SSIM 中引入了多尺度信息,称为 MS-SSIM ;(3)LPIPS:利用预先训练的 AlexNet 作为特征提取器,并针对人类感知优化线性层。 LPIPS 值越低意味着两个图像在感知空间中更相似;(4)DISTS :将两个图像的纹理相似性和结构相似性可以分别通过VGG中特征的均值和相关性来测量;(5)FID:用于衡量生成图像的保真度和多样性, Inception Score 的改进, 利用初始模型编码层的特征来对采样图像的多元高斯分布进行建模,并计算生成图像和参考图像的分布之间的 Fr´echet 距离 ;(6)KID:与FID类似,两者不同的距离测量策略;(7)NIQE :一种早期的无参考/盲图像质量评估指标,其中质量分数是根据失真图像的自然场景静态(NSS)与多元高斯模型(MGM)的自然图像之间的距离来计算的;(8)PI:评估超分辨率图像的感知质量。
数据集:(1)IR任务:SR、图像去模糊、图像修复、阴影去除、去雪、排水和去雾;(2)SR任务数据集:DIV2K、Flick2K、OST300、ImageNet(自然图像)、FFHQ(人脸)、CelebA-HQ(人脸)、Set5、Set14、BSD100、Manga109、Urban100;(3)图像去模糊:Gopro 测试数据集、RealBlur-J、REDS和 HIDE上进行验证;(4)阴影去除任务:ISTD和SRD;(5)图像去雾任务:Haze-4K、Dense-Haze和RESIDE;(6)图像除雪任务:CSD、Snow100k和 SRRS;(7)图像除雨任务:Rain100H、Rain100L、Rain800、DDN-Data、RainDrop、Outdoor-Rain、 SPA-data
挑战和未来方向
模型压缩
:1)模型剪枝,目的是通过估计每个参数的重要性得分来去除不重要的参数,2 )模型量化目标,用于减少存储或计算的浮点参数的位深度,3)提出知识蒸馏,将知识从复杂的教师模型转移到简单高效的学生模型,4)低秩 分解致力于将参数张量分解为多个低秩张量。尽管取得了这些进展,但很少有工作探索如何为基于扩散模型的红外设计模型压缩
失真模拟与估计
:由于现实世界中的失真模式很难识别,因此大多数研究都致力于合成失真,但同时也需要开发一种失真估计技术
采样效率
:先前关于扩散模型的工作从四个角度提高采样效率:1)使用非马尔可夫链对扩散过程进行建模,例如DDIM; 2)设计高效的ODE求解器,例如DPM求解器;3)利用知识蒸馏来减少采样步骤[;4)引入具有条件机制的跨模态先验。但都还没有达到实时要求,因此通过提高采样效率来加速基于扩散模型的IR将是一个潜在的方向
畸变/失真不变学习DIL
:解决如何在不同的失真类型和级别上实现一致的图像恢复的问题,旨在使 IR 模型能够推广到未知和多样化的退化。DIL的原理是
学习在各种退化模式下不变的表示
,并保留足够的结构和文本信息用于重建。在域泛化(DG)中,学习领域不变特征的典型方法有三种,包括
域对齐
、
数据增强
和
元学习
。域对齐旨在通过
最小化对比损失、最大平均差异(MMD)或对抗性学习
等来对齐源域和目标域的表示;数据增强来
扩展域的多样性和一致性
,使模型获得域不变的能力;元学习旨在通过
对齐不同域之间的梯度来学习域不变表示
。实现
失真不变学习的策略
:1)利用 IR 的编码器-解码器架构,并在解码器之前对齐来自不同失真图像的表示; 2)从失真增强中学习失真不变表示,即尽可能地模拟现实世界中的各种失真;3)利用元学习优化IR中的经验风险最小化
框架设计
:从生成空间来看,框架通常从四个空间设计,包括
图像空间、残差空间、潜在空间和频率空间
,图像空间可以保留更多的空间结构和文本信息,可以生成高质量的图像或残差,同时拥有更高的计算成本和参数;潜在空间生成需要较少的计算成本,可以在效率和保真度之间进行权衡;频率空间包括小波变换、傅里叶变换等,频率空间更擅长
捕捉全局上下文信息
,其中
低频指的是结构信息
,
高频指的是纹理和风格信息