计算机系统应用教程网站

网站首页 > 技术文章 正文

CVPR2022:潜在扩散模型(LDM)

btikc 2024-09-05 12:26:29 技术文章 8 ℃ 0 评论

文章首发微信公众号:小小cv笔记

stable Diffusion Models 的原理论文,引入了latent space ,潜在空间训练可以生成高分辨率图像,减少计算开销,同时引入了一个领域专用编码器,将多模态信息进行编码训练,比如clip,从而达到stable Diffusion的文生图效果

论文题目

High-Resolution Image Synthesis with Latent Diffusion Models

1、贡献

(i)与纯粹基于transformer的方法相比,方法更适合高维数据,因此可以(a)在压缩级别上工作,提供比以前的工作更详细的重建,(b)可以有效地应用于百万像素图像的高分辨率合成。

(ii)在多个任务(无条件图像合成、图像绘制、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显著降低了计算成本。与基于像素的扩散方法相比,我们还显著降低了推理成本。

(iii)不需要精细的重构和生成能力加权。这确保了极其真实的重建,并且只需要很少的潜在空间正则化。

(iv)对于诸如超分辨率、语义合成等密集条件任务,我们的模型可以以卷积方式应用,并呈现大的、一致的1024像素的图像。

(v)此外,设计了一种基于交叉注意的通用条件调节机制,实现了多模态训练。用它来训练类条件、文本到图像和布局到图像模型。

2、方法

1)类似GAN,引入了latent space ,潜在空间训练可以生成高分辨率图像,减少计算开销

2)阶段一:自编码器训练,将像素空间映射到latent space

3) 阶段二:扩散模型训练,在latent space上应用扩散模型去噪训练

4)条件控制生成

除了无条件图片生成外,也可以进行条件图片生成,这主要是通过拓展得到一个条件时序去噪自编码器(conditional denoising autoencoder)

来实现的,这样一来我们就可通过 y来控制图片合成的过程。具体来说,论文通过在UNet主干网络上增加cross-attention机制来实现,为了能够从多个不同的模态预处理 ,论文引入了一个领域专用编码器(domain specific encoder)

,它用来将 y映射为一个中间表示

,这样我们就可以很方便的引入各种形态的条件(文本、类别、layout等等)。最终模型就可以通过一个cross-attention层映射将控制信息融入到UNet的中间层,cross-attention层的实现如下:

是UNet的一个中间表征。相应的目标函数可以写成如下形式:

3、实验

1)关于感知压缩的权衡

比较了在CelebAHQ和ImageNet上训练的模型与DDIM采样器在不同降噪步数下的采样速度,并将其与fid分数进行对比。LDM-{4-8}优于感知和概念压缩比例不合适的模型。特别是与基于像素的LDM-1相比,它们实现了更低的FID分数,同时显着提高了样本吞吐量。像ImageNet这样的复杂数据集需要降低压缩率以避免降低质量。综上所述,LDM-4和-8为获得高质量的合成结果提供了最佳条件。

2)生成效果

效果超过了GANs和LSGM,并且超过同为扩散模型的DDPM

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表