Please enable JavaScript.
Coggle requires JavaScript to display documents.
Denoising Diffusion Probabilistic Models for Robust Image Super…
Denoising Diffusion Probabilistic Models for Robust Image
Super-Resolution in the Wild
引言:尽管现有方法在图像生成和图像翻译上都表现出优秀的性能,但针对OOD以及退化未知的数据集,GAN对盲高分辨力仍然表现出优秀的性能。因此,本文提出SR3+网络,将
简单的卷积架构
和
新颖的训练过程
与
两项关键创新
相结合。 受到王等人启发 (2021b) 在
数据增强训练管道中使用参数化降级
,与 (Saharia 等人,2022c) 相比,在生成低分辨率 (LR) 训练输入时会出现更加复杂的损坏,将这些退化与噪声调节增强相结合,用于提高级联扩散模型的鲁棒性 。Ho 等人(2022)发现噪声调节增强在零样本应用的测试时也很有效。
相关工作
显示退化模型:退化在训练期间直接合并为数据增强
(2)RealESRGAN 模型(Wang 等人,2021b)表明,
多次应用这种降级方案
会导致 LR 分布更接近自然图像的分布;
(3)GAN
(1) 罗等人(2021),王等人(2021)通过在对原始 HR 图像进行
下采样
之前应用模糊,然后添加噪声并对下采样结果应用 JPEG 压缩来生成增强调节图像 c;
(4)对比学习也已应用于超分辨率;
(5)通过学习本身执行图像上采样的 CNN,残差连接来加深神经网络以及基于注意力的网络;
隐式退化模型:需要学习退化过程,但这需要大型数据集
主要贡献
(2)证明了参数降级和噪声调节增强技术的互补优势(噪声调节增强技术在测试时使用)
(3)证明模型尺寸的增加和数据集的增大,SR3+模型性能显著改进。
(1)SR3+优于SR3和之前的SOTA;
标题:用于野外鲁棒图像超分辨率的去噪扩散概率模型
摘要:Diffusion Model在更具挑战性的盲超分辨率任务上,表现并没有超过最先进的 GAN 模型,其中输入图像存在分布外泛化(OOD)问题,且退化未知。本文介绍了 SR3+,一种基于扩散的盲超分辨率模型。 因此,我们将
自监督训练(通过从数据本身生成标签来训练模型,即使用原始高质量图像生成低质量图像作为训练数据,并使用高质量图像作为标签)
的
复合参数化降级(使用多种不同类型的图像降级操作(如模糊、噪声、低分辨率等)来生成训练数据)
与训练和测试期间的
噪声调节增强(在生成的降级图像上添加不同程度的噪声)
相结合进行自监督训练。
方法:
SR3+架构是SR3 中使用的卷积变体, 在训练过程中,通过对高分辨率图像进行下采样来生成相应的低分辨率输入,从而获得 LR-HR 图像对。 鲁棒性通过训练期间的复合参数降级(Wang et al., 2021b;a)和训练、测试时的噪声调节增强的两个关键增强策略。SR3+使用SR3的 UNet 架构,采用(2022b) 用于 Efficient U-Net 提高训练速度,但没有使用自注意力层(虽然对图像质量有积极影响,但泛化性差,泛化到不同的图像分辨率和长宽比变得非常困难(Whang et al.,2022))
高阶退化包含多种类型的退化,包括图像模糊、加性噪声、JPEG 压缩和下采样,并发现噪声调节增强(稍后解释)比在退化管道中包含噪声更好
调整大小:以三种(等概率)方式之一调整图像大小,即区域调整大小、双三次插值或双线性插值;第一阶段调整大小的比例因子是随机的 [0.15, 1.5],第二阶段调整的比例因子是 [0.3, 1.2];
JPEG压缩:JPEG 质量因子是从 [30, 95] 中随机抽取的。 在第二阶段,我们还在 JPEG 压缩之前或之后(以相同的概率)应用 sinc 滤波器;
模糊:使用四个模糊滤波器,即高斯滤波器、广义高斯滤波器、平台内核滤波器和 sinc滤波器(以概率 0.63、0.135、0.135 和 0.1 选择)
平台内核滤波器各向同性的概率为0.8,当各向异性时,内核以 (−π, π] 中的随机角度旋转;
sinc 滤波器当 r<6 时,wc 从 [π/3, π] 中随机选择,否则从 [π/5, π] 中选择;
高斯滤波器具有各向同性的概率为 9/14,否则为各向异性;
广义高斯,形状参数 β 从 [0.5, 4.0] 中采样; 它是从 [1.0, 2.0] 采样的,用于平台过滤器;
使用双三次插值将图像大小调整为原始 HR 图像和 LR 降级图像之间的所需放大倍数,然后SR3+ 经过 4 倍放大倍率训练;
噪声调节增强:用于级联扩散模型(Ho 等人,2022;Saharia 等人,2022b),为了使级联中的超分辨率模型可以通过下采样进行自我监督,而在测试时它将接收级联中先前模型的输入。噪声调节增强可以产生真实纹理和视觉细节的幻觉;