SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations

1. 研究背景与核心问题

传统的图像合成与编辑方法（如GANs）需要针对特定任务设计复杂的损失函数或进行模型微调，难以在生成图像的**真实性（Realism）和与输入的一致性（Faithfulness）之间实现平衡。SDEdit提出了一种无需额外训练的统一框架，通过随机微分方程（SDE）**的逆向过程实现图像生成与编辑。

2. 核心方法：SDE驱动的生成与编辑

（1）前向与逆向SDE过程

前向加噪：输入图像通过SDE逐步添加噪声，破坏局部伪影但保留全局结构。例如，对用户绘制的粗糙笔画（如线条或色块）加噪，使其分布接近高斯噪声。
逆向去噪：从加噪后的中间状态出发，通过逆向SDE生成高质量图像。逆向过程利用预训练的**得分函数（Score Function）**预测噪声方向，逐步去除噪声。

（2）噪声调度与时间步选择

噪声调度函数：定义了噪声强度随时间的演化。论文对比了两种SDE：
- VE-SDE（方差爆炸型）：噪声方差随时间指数增长，最终分布接近高斯噪声。
- VP-SDE（方差保持型）：噪声方差与信号能量互补，确保总能量守恒。
关键参数t₀：控制加噪程度。t₀越大（如t₀∈[0.3, 0.6]），生成图像越真实但可能偏离输入；t₀越小则更忠实于输入但可能保留伪影。

（3）局部编辑与掩码融合

对于图像局部编辑（如修改特定区域），SDEdit通过掩码（Mask）分离编辑区域与未编辑区域：
- 编辑区域：按上述SDE流程处理；
- 未编辑区域：直接使用原图加噪后的中间状态，确保一致性。

Pipeline

Gradually projects the input to the manifold of natural images.

准备工作：一个预训练好的Image Diffusion Model
第一步：perturb the input with Gaussian noise
第二步：progressively remove the noise using a pretrained diffusion model.