FreeGave: 3D Physics Learning from Dynamic Videos by Gaussian Velocity
本文旨在仅从多视角视频中建模 3D 场景的几何结构、外观及底层物理规律。现有方法通常通过将各种控制方程 (PDE) 作为物理信息神经网络 (PINN) 损失函数,或将物理模拟引入神经网络来实现。然而,这些方法往往难以学习边界处的复杂物理运动,或者需要依赖物体先验信息(如掩码或类型)。本文提出 FreeGave 方法,能够在无需任何物体先验信息的情况下学习复杂动态 3D 场景的物理规律。我们方法的关键在于引入一个物理编码 (physics code),并辅以一个精心设计的无散度模块 (divergence-free module),用于估计每个高斯点的速度场,而无需依赖低效的 PINN 损失函数。在三个公开数据集和一个新收集的高难度真实世界数据集上进行的大量实验表明,我们的方法在未来帧外推和运动分割任务上具有优越性能。尤为值得注意的是,我们对学习到的物理编码的研究表明,在训练中完全未使用任何人工标注的情况下,它们确实学习到了有意义的 3D 物理运动模式。我们的代码和数据可在 https://github.com/vLAR-group/FreeGave 获取。