Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

研究背景与问题

要解决的问题

模拟现实世界力的物理有意义交互的视频生成

现在有方法及其局限性

方法核心技术优势局限性
振动模态建模(Davis et al., 2015)2D振动序列适合周期性运动无法处理复杂运动(如线性运动)
物理求解器+生成模型(PhysGen/PhysMotion)3D物理引擎+视频生成器高物理精度依赖3D几何,泛化能力差
Force Prompting力提示(vector fields)+合成数据无需3D模型,低成本复杂物理现象建模不足

本文方法及优势

我们探索将物理力作为视频生成的控制信号,并提出了“力提示”(force prompts),使用户能够通过局部点力(如轻触植物)和全局风力场(如风吹动织物)与图像进行交互。

  1. 通过利用原始预训练模型的视觉和运动先验,这些力提示能够使视频对物理控制信号做出逼真响应,且在推理过程中无需使用任何3D资产或物理模拟器。
  2. 作者发现,即使使用Blender生成的简单合成数据(如旗帜、球体的运动),模型仍能通过以下策略实现跨领域泛化。
  3. 仅需约15k合成样本(远低于传统方法的数百万级数据),单日训练即可完成(使用四张A100 GPU)。

主要贡献

  1. 通过两种模型将物理力作为视频生成的条件信号:一种用于局部点力(localized point forces),另一种用于全局风力(global wind forces)。
  2. 我们发现,视频模型即使在极少量训练数据(15k视频)和有限计算资源(四张A100 GPU一天)下,也能执行精确的力提示,并在不同场景、物体、几何形状和功能性(affordances)中表现出广泛泛化能力。我们还尝试理解这种泛化的来源,并对训练数据进行了仔细的消融实验,发现两个关键要素:与控制信号相关的视觉多样性,以及训练过程中特定文本关键词的使用,这些要素似乎有助于激发模型对力控制信号的理解。
  3. 我们展示了基于力条件的模型具有一定程度的质量理解能力:相同的力可以导致较轻物体移动得更远,而较重物体则移动得更近。 我们已在项目页面(https://force-prompting.github.io/)公开所有数据集、代码和模型。

主要方法

输入:

  • 文本提示 τ:描述场景或动作
  • 初始帧 ϕ:提供视觉上下文
  • 物理控制信号 π:
    • 风力模型:方向和强度
    • 点力模型:方向、强度及作用点坐标

输出:

  • 视频 v:f帧 × c通道 × h高度 × w宽度

合成训练数据

全局风力数据集:使用物理模拟器生成旗帜在风中飘动的视频
局部点力数据集 - 刚体:使用物理模拟器生成球体在地面上滚动的视频
局部点力数据集 - 弹性体:使用一个结合3D高斯分布和物理模拟器的模型PhysDreamer生成植物被轻触的视频

力的表示

全局力编码策略

输入:力 \( F \in [0, 1] \) 、角度 \( \theta \in [0, 360) \)
输出:\( \tilde{\pi} \in \mathbb{R}^{f \times c \times h \times w} \),其中 \( f = 49 \) 是帧数,\( c = 3 \) 是颜色通道数,\( h = 480 \) 和 \( w = 720 \) 是生成视频的高度和宽度。
编码方法:将\( \tilde{\pi} \) 的第一个通道定义为 \( -1 + 2 \cdot F \in [-1, 1]\),第二个通道为 \( \cos \theta \),第三个通道为 \( \sin \theta \)。

局部点力编码

输入:力的强度 \( F \in [0, 1] \) 、角度 \( \theta \in [0, 360) \) 、像素坐标 \( (x, y) \in {0, \dots, w-1} \times {0, \dots, h-1} \)
输出:\( \tilde{\pi} \in \mathbb{R}^{f \times c \times h \times w} \)
方法: 高斯斑点从像素位置 \( (x, y) \) 开始,并以恒定速度沿方向 \( \theta \) 移动,总位移与力 \( F \) 成仿射比例(详见附录A.3)。对于局部力,当力 \( F = 0 \) 时,高斯斑点的位移非零,因为训练数据集的约定是 \( F = 0 \) 表示微小力

点力提示与轨迹控制的区别:高斯斑点的初始化位置为受力点,但其随后的位置只是表明这个瞬时力的大小的方向。高斯斑点的后续移动既不表示物理持续受力,也不表示物体要移动的位置。

训练

基模型

CogVideo + ControlNet

实验

  1. 尽管模型仅在球体滚动(线性)和植物触碰(复杂)场景上训练,我们的力提示模型在所有运动类别中均表现出强大的泛化能力。
  2. 仅在束缚运动(旗杆上的旗帜飘动)标签视频上训练的全局风力控制模型,仍能对空气动力学和流体运动实现泛化控制
  3. 在单种康乃馨数据上训练后,能够显著泛化到其他植物。虽然不能替代基于物理的模拟方法,但这种纯神经方法提供了卓越的泛化能力,并生成符合“直观物理”的响应。