PIG: Physically-based Multi-Material Interaction with 3D Gaussians

3D高斯溅射技术在静态与动态3D场景重建领域取得了显著成功。然而,在由3D高斯基元表征的场景中,物体间的交互存在三大缺陷:三维分割精度不足、异质材质形变失准及严重渲染伪影。为应对这些挑战,我们提出PIG:基于物理的多材质3D高斯交互技术——这是一种融合三维物体分割与高精度交互仿真的创新方法。

首先,本方法实现了从二维像素到三维高斯基元的快速精准映射,从而达成精确的物体级三维分割。其次,我们为场景中分割后的物体赋予独特物理属性,以实现多材质耦合交互。最后,我们创新性地将约束尺度嵌入变形梯度,通过钳制高斯基元的缩放与旋转属性消除渲染伪影,达成几何保真度与视觉一致性。

实验结果表明,我们的方法不仅在视觉质量上显著超越现有最优方案(SOTA),更为物理真实感场景生成领域开辟了全新研究方向与技术路径。

研究背景与问题

任务

在由3D高斯基元表征的场景中的物体间的交互

现有方法及局限性

基于3D高斯泼溅的分割方法

  1. 从CLIP等二维预训练模型中提取特征,并将其蒸馏至3D高斯基元以进行点级分割。
  2. LangSplat训练自编码器在特征蒸馏前降维,将低维CLIP特征嵌入高斯模型中;
  3. Segment Any 3D Gaussians利用2D SAM掩码作为先验信息,训练场景专属特征
  4. Semantic Gaussians则借助高斯属性作为输入,训练具有二维预训练模型特征的3D语义特征;
  5. Feature Splatting通过渲染DINOv2与CLIP特征图,训练每个高斯基元的语义特征。

三维分割精度不足

驱动及渲染方法

  1. PhysGaussian提出将MPM与3DGS结合,在选定区域内生成单材料物理场景。这是首个将MPM引入3DGS的方法,但由于缺乏分割能力,难以在三维空间中精确定位仿真物体的包围盒。此外,当物体发生大变形时,直接使用MPM空间中粒子的变形梯度来调整对应高斯基元的协方差矩阵效果不佳。
  2. PhysDreamer通过集成生成模型来估计物理参数,再借助MPM进行仿真。该方法高度依赖生成模型的物理先验,且忽视了仿真与渲染间的差异——具体而言,它忽略了变形过程中高斯基元间相对位置的变化,导致渲染物体出现显著伪影。

异质材质形变失准及严重渲染伪影

本文方法及优势

本方法实现了从二维像素到三维高斯基元的快速精准映射,从而达成精确的物体级三维分割。
其次,我们为场景中分割后的物体赋予独特物理属性,以实现多材质耦合交互。
最后,我们创新性地将约束尺度嵌入变形梯度,通过钳制高斯基元的缩放与旋转属性消除渲染伪影,达成几何保真度与视觉一致性。

物体级三维分割

输入输出方法
多视角图像3D高斯场景
多视角图像具有一致性ID的多视角掩码DEVA
多视角图像表面深度图
表面深度图2D到3D的映射关系
2D到3D的映射关系
图像多视角掩码
GS分割结果

3.2.2 表面深度图渲染

为将掩码 \(M\) 中的 ID 映射到高斯场景 \(G\) 上,我们需要识别掩码中每个像素所对应的物体表面高斯元,并获取其深度信息,进而渲染成表面深度图。

[TODO] 图3

对于任意像素 \(p_{i,j}^t\),我们将其转换为齐次坐标 \(P_{i,j}^t\)。利用相机内参 \(K\) 和外参 \(E\),得到相机坐标系下的射线方程:

$$ r_{i,j}^t(d) = C + d E^{-1} K^{-1} P_{i,j}^t, $$

其中 (C) 为相机在世界坐标系中的位置,(d) 表示深度。

射线与物体表面相交处,公式(1)中的透射率 (T) 会急剧下降。当 (T) 低于我们设定的透射率阈值 (\tau_T) 时,即表明已找到该像素对应的物体表面,此时将深度值 \(d_{i,j}^t\) 记录到深度图 \(D_t \in \mathbb{R}^{H \times W}\) 中。