ControlVideo: Training-free Controllable Text-to-Video Generation
提出无需训练的框架,通过结构一致性实现可控文本到视频生成。
- Input structural conditions through ControlNet
✅ 使用预训练的 stable diffusion, 无需额外训练。
✅ control net 是与 stable diffusion 配对的。
✅ control net 以深度图或边缘图为条件,并在时间维度上 embed 以此得到的Z。与原始视频有比较好的对应关系,但仍存在 temporal consistency 问题。
P201
- Use pretrained weights for Stable Diffusion & ControlNet, no training/finetuning
- Inflate Stable Diffusion and ControlNet along the temporal dimension
- Interleaved-frame smoothing during DDIM sampling for bever temporal consistency

✅ 解决 temporal consistency 问题,方法:
✅ 在每个 timestep,让不同帧成为前后两帧的融合。
❓ control net 与 diffusion medel 是什么关系?
P202
P203

P207
✅ 除了 control net, 还使用光流信息作为引导。
✅ Gop:Group of Pictures.