4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

论文信息

标题: 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering (用于实时动态场景渲染的4D高斯泼溅)
作者: Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, Xinggang Wang
单位: 华中科技大学、华为
arXiv: 2310.08528
代码: https://guanjunwu.github.io/4dgs/

一句话总结

提出 4D Gaussian Splatting (4D-GS) 方法，通过结合 3D 高斯表示和 4D 神经体素，在单个 RTX 3090 GPU 上实现动态场景的实时渲染（最高 82 FPS）。

背景知识（让零基础也能看懂）

什么是"新视角合成"(Novel View Synthesis)？

想象你有一组从不同角度拍摄的照片，比如一个跳舞的人。你想看到这个人从侧面或背后看到的样子——但你没有拍过那些角度的照片。新视角合成的任务就是用 AI 生成这些"不存在"的视角图片。

这项技术在 VR/AR、电影特效等领域非常重要。

什么是"动态场景"？

普通的 3D 重建只能处理静止不动的场景（比如一座雕塑）。但现实世界中大多数场景都是动态的——人在走动、物体在运动。

动态场景的难点在于：不仅要重建空间信息，还要捕捉时间维度上的变化。

什么是 NeRF？

NeRF (Neural Radiance Fields) 是 2020 年提出的一种革命性方法，用神经网络来隐式表示 3D 场景。它的工作原理是：

将 3D 空间中的每个点 $(x, y, z)$ 映射到颜色和密度
使用体素渲染（Volume Rendering）技术从任意视角"合成"图像

问题：NeRF 训练很慢（通常需要几小时甚至几天），渲染也很慢（每秒只能渲染几张图），无法实时应用。

什么是 3D Gaussian Splatting (3D-GS)？

2023 年提出的 3D Gaussian Splatting 是一种更高效的方法：

用高斯分布（Gaussian）来表示 3D 场景中的点
用可微分的泼溅（Differentiable Splatting）技术直接将 3D 高斯投影到 2D 平面
不需要耗时的体素渲染，可以实时渲染

但 3D-GS 只适用于静态场景，无法处理动态内容。

什么是 4D？

我们平时说的 3D 是三维空间 $(x, y, z)$。加上时间维度 $t$，就是 4D。

所以 "4D 场景" = "3D 空间 + 时间变化"

核心问题

现有的方法存在以下问题：

NeRF 类方法：训练慢、渲染慢，无法实时
3D-GS：只能处理静态场景
扩展 3D-GS 到动态场景：需要在每个时间点都构建一套 3D 高斯，存储成本呈线性增长（时间越长，存储越多）

核心挑战：如何在保持实时渲染能力的同时，处理动态场景？

方法详解

核心思想

不是为每个时间点都存储一套完整的 3D 高斯，而是：

维护一套canonical（标准）3D高斯
用一个变形网络来描述高斯如何随时间移动和变形

这样，存储成本就与时间无关了！

方法流程图

graph TB
    subgraph Input
        G[原始3D高斯 G]
        t[时间戳 t]
    end
    
    subgraph "时空结构编码器 H"
        G --> |"中心坐标 X"| R1["多分辨率HexPlane R(i,j)"]
        t --> |"时间信息"| R1
        R1 --> |"体素特征"| MLP["小型MLP φd"]
    end
    
    MLP --> |"融合特征 fd"| D["多头高斯变形解码器 D"]
    
    subgraph "多头解码器"
        D --> |"fd"| DX["ΔX 位置变形"]
        D --> |"fd"| DR["Δr 旋转变形"]
        D --> |"fd"| DS["Δs 缩放变形"]
    end
    
    DX --> |"X + ΔX"| GX["变形后的位置 X'"]
    DR --> |"r + Δr"| GR["变形后的旋转 r'"]
    DS --> |"s + Δs"| GS["变形后的缩放 s'"]
    
    GX --> |"X', r', s', α, C"| SG["变形后的3D高斯 G'"]
    
    SG --> |"可微分泼溅"| Output["渲染图像 I"]