DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

目标

Few-shot finetuning of large models for generating personalized concepts

✅ 基于目标的多张 reference，输入文本，生成包含目标的图像。要求生成的结果与refernce一致，且具有高质量和多样性：

✅ DreamBooth：输入文本和图像，文本中的［V］指代图像，生成新图像。
✅ 特点：对预训练的 diffusion model 的权重改变比较大。

P34

Pipeline

✅ 使用 reference image 微调 model，具体方法为：
✅ 输入多张reference image，使用包含特定 identifier 的文本构造 pairdata。目的是对输入图像做 encode。
✅ 同时使用用不含 identifer 的图像和文本调练，构造重建 loss 和对抗 loss.目的是生成的多样性及防止过拟合。

P35

DreamBooth Results

Input Image的基本特征保持住了，但是细节还是有些丢失。比如书包右下角的三个贴图，在每个生成里面都不一样。
用来生成动作照片还是可以的，因为人对动画的细节差异没有那么敏感。例如这只猫。额头上的花纹，在每张图像上都不一样。如果用来生成人，会发明显的差异。