Architecture

P5

U-Net Based Diffusion Architecture

U-Net Architecture

✅ U-Net的是Large Scale Image Diffusion Model中最常用的backbone。

🔎 Ronneberger et al., “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI 2015

Pipeline

✅ 包含Input、U-Net backbone、Condition。
✅ Condition 通常用 Concat 或 Cross attention 的方式与 Content 相结合。

IDYearNameNoteTagsLink
452022High-Resolution Image Synthesis with Latent Diffusion Models常被称为Stable Diffusion 或 LDM,是diffusion方法做图像生成最经典工作(没有之一)
✅ (1):在 latent space 上工作
✅ (2):引入多种 condition.
UNet, latent spacelink
692022Photorealistic text-to-image diffusion models with deep language understanding1. 用纯文本预训练的大语言模型(如 T5)而不是传统图文对齐模型(CLIP)
2. 用4级超分而不是latent space
Imagen, UNet, T5, Google, pixel spacelink
702022ediffi: Text-to-image diffusion models with an ensemble of expert denoiser1. T5, Clip混合引导
2. 第二阶段基于第一阶段对时间步分段微调,解决传统扩散模型在生成过程中不同阶段对文本依赖的动态变化问题。
3. 部分区域关联文本条件
NVIDIA, eDiff-I, UNet, pixel spacelink

P7

Transformer Architecture

Vision Transformer(ViT)

IDYearNameNoteTagsLink
712021Dosovitskiy et al., “An image is worth 16x16 words: Transformers for image recognition at scale”分类任务。
基核心思想是将图像分割为固定大小的块(如16x16像素),并将每个块视为一个“单词”,通过线性投影转换为嵌入向量序列,直接输入标准Transformer编码器进行处理。
这一方法突破了传统卷积神经网络(CNN)在视觉任务中的主导地位,证明了纯Transformer在图像识别中的有效性。
ViTlink

Pipeline

IDYearNameNoteTagsLink
722022All are Worth Words: a ViT Backbone for Score-based Diffusion Models1. 基于transformer的diffusion网络 U-ViT,替代传统U-Net架构。
2. 将图像生成过程中的所有输入(包括噪声图像块、时间步长、条件信息)统一视为“令牌”(Token),通过ViT的全局自注意力机制进行建模。
3. 突破了diffusion对U-Net的依赖,展示了纯Transformer架构在生成任务中的潜力。
U-ViTlink
732022Scalable Diffusion Models with Transformers1. 以ViT为backbone的扩散模型——Diffusion Transformer(DiT),代表UNet backbone
2. 通过Transformer的全局自注意力机制建模图像生成过程,验证了Transformer在扩散模型中的可扩展性与性能优势。
DiT, ViTlink

其它

IDYearNameNoteTagsLink
2022DALL-E2利用CLIP(Radford等,2021)联合特征空间优化文本-图像对齐度,解决"语义漂移"问题
2021GLIDE首次引入文本条件控制,并通过分类器引导(classifier guidance)机制提升生成效果
首次将条件控制(文本)与扩散过程结合,通过梯度调节实现语义精准映射