Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
研究背景与问题
要解决的问题
模拟现实世界力的物理有意义交互的视频生成
现在有方法及其局限性
| 方法 | 核心技术 | 优势 | 局限性 |
|---|---|---|---|
| 振动模态建模(Davis et al., 2015) | 2D振动序列 | 适合周期性运动 | 无法处理复杂运动(如线性运动) |
| 物理求解器+生成模型(PhysGen/PhysMotion) | 3D物理引擎+视频生成器 | 高物理精度 | 依赖3D几何,泛化能力差 |
| Force Prompting | 力提示(vector fields)+合成数据 | 无需3D模型,低成本 | 复杂物理现象建模不足 |
本文方法及优势
我们探索将物理力作为视频生成的控制信号,并提出了“力提示”(force prompts),使用户能够通过局部点力(如轻触植物)和全局风力场(如风吹动织物)与图像进行交互。
- 通过利用原始预训练模型的视觉和运动先验,这些力提示能够使视频对物理控制信号做出逼真响应,且在推理过程中无需使用任何3D资产或物理模拟器。
- 作者发现,即使使用Blender生成的简单合成数据(如旗帜、球体的运动),模型仍能通过以下策略实现跨领域泛化。
- 仅需约15k合成样本(远低于传统方法的数百万级数据),单日训练即可完成(使用四张A100 GPU)。
主要贡献
- 通过两种模型将物理力作为视频生成的条件信号:一种用于局部点力(localized point forces),另一种用于全局风力(global wind forces)。
- 我们发现,视频模型即使在极少量训练数据(15k视频)和有限计算资源(四张A100 GPU一天)下,也能执行精确的力提示,并在不同场景、物体、几何形状和功能性(affordances)中表现出广泛泛化能力。我们还尝试理解这种泛化的来源,并对训练数据进行了仔细的消融实验,发现两个关键要素:与控制信号相关的视觉多样性,以及训练过程中特定文本关键词的使用,这些要素似乎有助于激发模型对力控制信号的理解。
- 我们展示了基于力条件的模型具有一定程度的质量理解能力:相同的力可以导致较轻物体移动得更远,而较重物体则移动得更近。 我们已在项目页面(https://force-prompting.github.io/)公开所有数据集、代码和模型。
主要方法
输入:
- 文本提示 τ:描述场景或动作
- 初始帧 ϕ:提供视觉上下文
- 物理控制信号 π:
- 风力模型:方向和强度
- 点力模型:方向、强度及作用点坐标
输出:
- 视频 v:f帧 × c通道 × h高度 × w宽度
合成训练数据
全局风力数据集:使用物理模拟器生成旗帜在风中飘动的视频
局部点力数据集 - 刚体:使用物理模拟器生成球体在地面上滚动的视频
局部点力数据集 - 弹性体:使用一个结合3D高斯分布和物理模拟器的模型PhysDreamer生成植物被轻触的视频
力的表示
全局力编码策略
输入:力 \( F \in [0, 1] \) 、角度 \( \theta \in [0, 360) \)
输出:\( \tilde{\pi} \in \mathbb{R}^{f \times c \times h \times w} \),其中 \( f = 49 \) 是帧数,\( c = 3 \) 是颜色通道数,\( h = 480 \) 和 \( w = 720 \) 是生成视频的高度和宽度。
编码方法:将\( \tilde{\pi} \) 的第一个通道定义为 \( -1 + 2 \cdot F \in [-1, 1]\),第二个通道为 \( \cos \theta \),第三个通道为 \( \sin \theta \)。
局部点力编码
输入:力的强度 \( F \in [0, 1] \) 、角度 \( \theta \in [0, 360) \) 、像素坐标 \( (x, y) \in {0, \dots, w-1} \times {0, \dots, h-1} \)
输出:\( \tilde{\pi} \in \mathbb{R}^{f \times c \times h \times w} \)
方法: 高斯斑点从像素位置 \( (x, y) \) 开始,并以恒定速度沿方向 \( \theta \) 移动,总位移与力 \( F \) 成仿射比例(详见附录A.3)。对于局部力,当力 \( F = 0 \) 时,高斯斑点的位移非零,因为训练数据集的约定是 \( F = 0 \) 表示微小力。
点力提示与轨迹控制的区别:高斯斑点的初始化位置为受力点,但其随后的位置只是表明这个瞬时力的大小的方向。高斯斑点的后续移动既不表示物理持续受力,也不表示物体要移动的位置。
训练
基模型
CogVideo + ControlNet
实验
- 尽管模型仅在球体滚动(线性)和植物触碰(复杂)场景上训练,我们的力提示模型在所有运动类别中均表现出强大的泛化能力。
- 仅在束缚运动(旗杆上的旗帜飘动)标签视频上训练的全局风力控制模型,仍能对空气动力学和流体运动实现泛化控制
- 在单种康乃馨数据上训练后,能够显著泛化到其他植物。虽然不能替代基于物理的模拟方法,但这种纯神经方法提供了卓越的泛化能力,并生成符合“直观物理”的响应。