Problem Definition

Text-Guided Video Generation

输入：Text prompt（或其它控制信号）
输出：video

T2I -> T2V

✅ 由于已有一个开源的大数据文生图预训练模型Stale Diffusion Model。为了充分利用这个预训练模型，通常的做法是把这个文生图模型改造成文生视频模型。即，从 2D 输出变成 3D 输出。
动作信息来源：文本
外观信息来源：文本

直接从文本生成视频，很难对视频内容进行更细节的控制，因此演生出了Image-2-Video任务。I2V通常是通过在预训练T2I的基础上，引入reference image的注入和时序层来实现。也可以通过直接在预训练的T2V上增加reference image的注入来实现。

外观信息来源：图像
动作信息来源：无控制地续写、或文本

外观信息来源：文本
动作信息来源：视频

选一个合适的（开源）预训练模型，在此基础上

对于大多数社区玩家来说，只能获取到开源的预训练模型，因此要先了解可用的开源模型。

外观信息来源：图像
动作信息来源：文本、骨骼动作序列、物理规律、用户交互轨迹等

在预训练的T2V的基础上，通过一些微调手段，让它在某些方向更优，成为更强大的基模型

动作信息来源：文本
外观信息来源：文本

本文出自CaterpillarStudyGroup，转载请注明出处。

https://caterpillarstudygroup.github.io/ImportantArticles/