P139

✅ 用文生图模型生成 appearance, dynamics 来自于 reference video.

P141

✅ 当前帧只与上帧和前一帧做 attention,大大减少计算量。
✅ 在所有帧上做 attention 开销比较大。
✅ 解决方法:前一帧与第一帧。
❓ 怎么保证生成动作与原视频动作的一致性呢?

P142

✅ 对要编辑的视频,先 DDIM Inversion,得到 inverfed noise,这是保留了原视频 pattern 的 noise.
✅ 用这个 noise 作为 init noise,还原出的视频跟原视频有比较好的结构化保留。
✅ 解法方法

P144

多生成任务

MovieFactory (Zhu et al.)
“MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images,” arXiv 2023.
CoDi (Tang et al.)
“Any-to-Any Generation via Composable Diffusion,” NeurIPS 2023.
MM-Diffusion (Ruan et al.)
“MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation,” CVPR 2023.
NExT-GPT (Wu et al.)
“NExT-GPT: Any-to-Any Multimodal LLM,” arXiv 2023.

✅ 在物体改变比较大的情况下,diffusion 比其它生成方法效果更好。


本文出自CaterpillarStudyGroup,转载请注明出处。

https://caterpillarstudygroup.github.io/ImportantArticles/