Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

研究背景与问题

现在有方法及其局限性

方法	核心技术	优势	局限性
振动模态建模（Davis et al., 2015）	2D振动序列	适合周期性运动	无法处理复杂运动（如线性运动）
物理求解器+生成模型（PhysGen/PhysMotion）	3D物理引擎+视频生成器	高物理精度	依赖3D几何，泛化能力差
Force Prompting	力提示（vector fields）+合成数据	无需3D模型，低成本	复杂物理现象建模不足

本文方法及优势

我们探索将物理力作为视频生成的控制信号，并提出了“力提示”（force prompts），使用户能够通过局部点力（如轻触植物）和全局风力场（如风吹动织物）与图像进行交互。

通过利用原始预训练模型的视觉和运动先验，这些力提示能够使视频对物理控制信号做出逼真响应，且在推理过程中无需使用任何3D资产或物理模拟器。
作者发现，即使使用Blender生成的简单合成数据（如旗帜、球体的运动），模型仍能通过以下策略实现跨领域泛化。
仅需约15k合成样本（远低于传统方法的数百万级数据），单日训练即可完成（使用四张A100 GPU）。

主要贡献

通过两种模型将物理力作为视频生成的条件信号：一种用于局部点力（localized point forces），另一种用于全局风力（global wind forces）。
我们发现，视频模型即使在极少量训练数据（15k视频）和有限计算资源（四张A100 GPU一天）下，也能执行精确的力提示，并在不同场景、物体、几何形状和功能性（affordances）中表现出广泛泛化能力。我们还尝试理解这种泛化的来源，并对训练数据进行了仔细的消融实验，发现两个关键要素：与控制信号相关的视觉多样性，以及训练过程中特定文本关键词的使用，这些要素似乎有助于激发模型对力控制信号的理解。
我们展示了基于力条件的模型具有一定程度的质量理解能力：相同的力可以导致较轻物体移动得更远，而较重物体则移动得更近。我们已在项目页面（https://force-prompting.github.io/）公开所有数据集、代码和模型。

主要方法

输入：

文本提示 τ：描述场景或动作
初始帧 ϕ：提供视觉上下文
物理控制信号 π：
- 风力模型：方向和强度
- 点力模型：方向、强度及作用点坐标

输出：

视频 v：f帧 × c通道 × h高度 × w宽度

合成训练数据

全局风力数据集：使用物理模拟器生成旗帜在风中飘动的视频
局部点力数据集 - 刚体：使用物理模拟器生成球体在地面上滚动的视频
局部点力数据集 - 弹性体：使用一个结合3D高斯分布和物理模拟器的模型PhysDreamer生成植物被轻触的视频

输入：力 \( F \in [0, 1] \) 、角度 \( \theta \in [0, 360) \)
输出：\( \tilde{\pi} \in \mathbb{R}^{f \times c \times h \times w} \)，其中 \( f = 49 \) 是帧数，\( c = 3 \) 是颜色通道数，\( h = 480 \) 和 \( w = 720 \) 是生成视频的高度和宽度。
编码方法：将\( \tilde{\pi} \) 的第一个通道定义为 \( -1 + 2 \cdot F \in [-1, 1]\)，第二个通道为 \( \cos \theta \)，第三个通道为 \( \sin \theta \)。

局部点力编码

输入：力的强度 \( F \in [0, 1] \) 、角度 \( \theta \in [0, 360) \) 、像素坐标 \( (x, y) \in {0, \dots, w-1} \times {0, \dots, h-1} \)
输出：\( \tilde{\pi} \in \mathbb{R}^{f \times c \times h \times w} \)
方法：高斯斑点从像素位置 \( (x, y) \) 开始，并以恒定速度沿方向 \( \theta \) 移动，总位移与力 \( F \) 成仿射比例（详见附录A.3）。对于局部力，当力 \( F = 0 \) 时，高斯斑点的位移非零，因为训练数据集的约定是 \( F = 0 \) 表示微小力。

点力提示与轨迹控制的区别：高斯斑点的初始化位置为受力点，但其随后的位置只是表明这个瞬时力的大小的方向。高斯斑点的后续移动既不表示物理持续受力，也不表示物体要移动的位置。

尽管模型仅在球体滚动（线性）和植物触碰（复杂）场景上训练，我们的力提示模型在所有运动类别中均表现出强大的泛化能力。
仅在束缚运动（旗杆上的旗帜飘动）标签视频上训练的全局风力控制模型，仍能对空气动力学和流体运动实现泛化控制
在单种康乃馨数据上训练后，能够显著泛化到其他植物。虽然不能替代基于物理的模拟方法，但这种纯神经方法提供了卓越的泛化能力，并生成符合“直观物理”的响应。

ReadPapers