P126

2.6 Long video generation

长视频生成主要有这样一些难点:

  1. 长视频生成的复杂性
    • 训练与推理差距:模型在训练时仅接触短视频,无法学习长视频的全局时序模式,导致生成内容逻辑断裂。
    • 顺序生成的低效性:自回归生成需逐帧顺序处理,生成时间随视频长度线性增长,无法满足实际应用需求。
    • 保持内容的一致性:长篇视频包含复杂的人物、物体及其动态交互关系。
  2. 数据稀缺性
    高质量的长视频标注数据(如逐帧注释)获取成本极高,现有数据集(如短视频库)难以支持长视频先验的学习。

IDYearNameNoteTagsLink
2025.6.2DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion 基于预训练扩散模型的高帧率视频生成新方法link
2025.6.1FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation无训练引导方法增加视频生成的连续性link
802025One-Minute Video Generation with Test-Time Training1. 引入TTT层,通过TTT层动态调整模型隐藏状态,增强对长序列的全局理解能力。
2. 通过门控机制防止TTT层训练初期引入噪声。
3. 多阶段训练策略:从3秒片段逐步扩展至63秒,仅微调TTT层和门控参数,保留预训练模型的知识。
Test Time Training, RNN,link
412024STORYDIFFUSION: CONSISTENT SELF-ATTENTION FOR LONG-RANGE IMAGE AND VIDEO GENERATION先生成一致的关键帧,再插帧成中间图像link
602023NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generationdiffusion over diffusion的递归架构实现长视频生成和并行生成coarse-to-fine, 数据集link
2025Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
2022Latent Video Diffusion Models for High-Fidelity Long Video Generation (He et al.)
Generate long videos via autoregressive generation & interpolation
2023VidRD (Gu et al.)
Autoregressive long video generation
“Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation,” arXiv 2023.
2023VideoGen (Li et al.)
Cascaded pipeline for long video generation
“VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation,” arXiv 2023.

本文出自CaterpillarStudyGroup,转载请注明出处。

https://caterpillarstudygroup.github.io/ImportantArticles/