P31

P34

Problem Definition

Text-Guided Video Generation

输入:Text prompt(或其它控制信号)
输出:video

T2I -> T2V

✅ 由于已有一个开源的大数据文生图预训练模型Stale Diffusion Model。为了充分利用这个预训练模型,通常的做法是把这个文生图模型改造成文生视频模型。即,从 2D 输出变成 3D 输出。
动作信息来源:文本
外观信息来源:文本

T2I/T2V -> TI2V

直接从文本生成视频,很难对视频内容进行更细节的控制,因此演生出了Image-2-Video任务。I2V通常是通过在预训练T2I的基础上,引入reference image的注入和时序层来实现。也可以通过直接在预训练的T2V上增加reference image的注入来实现。

任务1:驱动图像

外观信息来源:图像
动作信息来源:无控制地续写、或文本

任务2:以视频为控制条件的视频生成

外观信息来源:文本
动作信息来源:视频

T2I/T2V/TI2V + 其它控制信号

选一个合适的(开源)预训练模型,在此基础上

  • 注入自己的控制信号,例如图像、控制点、光流、拖拽等
  • 构造特定的(相对于训练基模型来说)少量的训练数据
  • 根据任务特性引入一些技巧
  • 经过(相对于训练基模型来说)少量的训练 就得到了针对特定任务的垂域的视频生成模型。

对于大多数社区玩家来说,只能获取到开源的预训练模型,因此要先了解可用的开源模型。

外观信息来源:图像
动作信息来源:文本、骨骼动作序列、物理规律、用户交互轨迹等

T2V -> Improved T2V

在预训练的T2V的基础上,通过一些微调手段,让它在某些方向更优,成为更强大的基模型

动作信息来源:文本
外观信息来源:文本


本文出自CaterpillarStudyGroup,转载请注明出处。

https://caterpillarstudygroup.github.io/ImportantArticles/