One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
1. 研究背景与目标
多模态生成模型是通用人工智能的重要方向,但现有模型(如DALL·E 2、Stable Diffusion)仅支持单一模态生成(如文生图),难以实现任意模态间的互操作。清华大学朱军团队提出UniDiffuser,旨在通过统一的扩散模型框架,支持图像、文本、图文联合生成、条件生成等多样化任务,突破传统模型的局限性。
2. 核心创新点
(1)统一的概率建模框架
- 多模态分布的统一建模:传统扩散模型需为不同分布(边缘、条件、联合)单独设计,而UniDiffuser通过动态调整各模态的噪声扰动级别(时间步长),将多模态生成任务统一为噪声预测问题。例如:
- 文生图:将文本的时间步长设为0(即无噪声),图像的时间步长逐步去噪。
- 联合生成:图文时间步长同步变化,生成匹配的图文对。
- 训练目标函数:通过联合预测多模态噪声,最小化噪声预测误差,支持所有分布的同步学习。
(2)基于Transformer的U-ViT架构
- 统一处理多模态输入:将不同模态数据(如图像隐空间编码、文本CLIP嵌入)转换为token序列,通过U型连接的Transformer块进行交互。
- 高效性:结合Stable Diffusion的图像编解码器与自研的GPT-2文本解码器,参数规模达十亿级,支持单卡(10GB显存)推理。
(3)零成本的Classifier-Free Guidance (CFG)
- 通过线性组合条件生成与无条件生成模型,提升生成质量。例如,在文生图任务中,通过调整guidance scale平衡文本对齐与图像真实性。
3. 实验结果与性能
- 多任务生成能力:支持7种生成模式(如文生图、图生文、图文互跳、图像插值等),生成效果在CLIP Score和FID指标上优于通用模型Versatile Diffusion,甚至接近专用模型(如Stable Diffusion)。
- 效率优势:使用DPM-Solver快速采样算法,仅需约20步即可生成高质量样本,显著降低计算成本。
- 数据兼容性:基于LAION-5B大规模图文数据集训练,支持不同噪声水平的数据(如WebData与内部数据)。
4. 应用与影响
- 开源与生态整合:代码与模型已在GitHub和Hugging Face开源,并与Diffusers库集成,支持灵活调用。
- 推动多模态技术发展:UniDiffuser的框架被后续工作(如视频生成模型Vidu)采用,成为多模态生成领域的核心技术之一。
- 学术贡献:相关成果发表于ICML 2023,并衍生出U-ViT、DPM-Solver等关键技术,被OpenAI等机构借鉴。
5. 局限与未来方向
- 生成分辨率限制:当前版本支持512×512分辨率,尚未扩展至更高清输出。
- 模态扩展性:目前主要针对图文模态,未来可探索视频、音频等多模态联合生成。
总结
UniDiffuser通过统一的扩散框架和Transformer架构,首次实现了多模态生成任务的“一模型多用”,在性能、灵活性和效率上均达到前沿水平。其开源生态与理论创新为通用生成模型的进一步发展提供了重要基础。