NeRF: 将一个连续场景表示为一个神经网络。这个网络输入一个3D坐标和2D观察方向,输出该点的颜色和密度。通过体渲染技术,将无数个这样的点合成一张2D图像。其核心是隐式表示和基于辐射场的可微分渲染。

Nerf的优点与缺点

优点

1. 高质量的连续视图合成与平滑性

  • 优点描述: NeRF学习的是一个连续的场景函数,因此它可以在任意尺度下进行渲染,并且生成的结果非常平滑,没有明显的瑕疵或“孔洞”。对于光滑的表面、复杂的材质和精细的细节,NeRF往往能产生更“保真”和物理上更合理的结果。
  • 原因: 神经网络本身就是一个平滑的先验,它内在地填充了场景的空隙,并对输入数据进行了正则化。

2. 优秀的内存压缩能力

  • 优点描述: NeRF的模型(一个几MB到几十MB的神经网络权重文件)可以表示一个非常庞大的场景。它本质上是一个强大的压缩算法,将数十亿体素的信息压缩到一个紧凑的神经网络中。
  • 原因: 神经网络的权重共享和泛化能力使得它可以用相对较小的参数量拟合一个复杂函数。

3. 强大的泛化与先验知识

  • 优点描述: 这是NeRF一个潜力巨大的优势。通过在大规模数据集上预训练,NeRF模型可以学习到关于物体形状、材质、光照的通用先验知识。这使得它能够:
    • 在输入图像极少的情况下进行重建
    • 处理有遮挡物或不确定性的区域。
    • 实现语义编辑、风格迁移等任务。
  • 原因: 神经网络架构天然适合迁移学习和预训练。

4. 对噪声和异常值的鲁棒性更强

  • 优点描述: 由于神经网络的平滑性,NeRF对输入图像中的噪声和匹配错误(如SfM产生的错误点)不那么敏感。
  • 原因: 网络在训练过程中倾向于学习数据中的主要模式,而不是过拟合每一个噪声点。

缺点

1. 训练和渲染速度极慢

  • 缺点描述: 这是原始NeRF最大的痛点。训练一个高质量模型需要数小时甚至数天,渲染一张高分辨率图像也需要数秒到数分钟。
  • 原因: 需要为每条射线查询数百次神经网络,计算量巨大。

2. 容易陷入局部最优,出现“浮游物”瑕疵

  • 缺点描述: NeRF在优化过程中,有时会在空白空间错误地生成半透明的“浮游物”或伪几何,尤其是在缺少视角观察的区域。
  • 原因: 基于梯度的优化在复杂的、高维的损失空间中容易收敛到不完美的局部最优点。

3. 编辑和控制的困难

  • 缺点描述: 由于NeRF是隐式表示,场景信息被编码在神经网络的权重中,人类很难直观地理解和编辑它。例如,想要移动场景中的一个杯子,在NeRF中是非常困难的操作。
  • 原因: 隐式表示缺乏显式的几何和语义结构。
  • 3DGS对比: 3DGS是显式的点云,编辑相对直观。你可以直接选择、移动、删除或修改一组高斯球。这为场景编辑、动画和组合打开了大门。

4. 对初始化和超参数敏感

  • 缺点描述: 许多NeRF变体对相机位姿的准确性要求极高,并且其性能受学习率、网络结构等超参数的影响较大。
  • 原因: 神经网络的训练本身就是一个复杂的优化问题。
  • 3DGS对比: 3DGS虽然也依赖SfM初始化,但其优化过程相对鲁棒,且社区已经形成了比较固定的超参数设置,开箱即用性更好。

3D静态Nerf

基于Nerf的3D生成

IDYearNameNoteTagsLink
682022.9.29DreamFusion: Text-to-3D using 2D Diffusion利用2D扩散模型的先验知识,绕过3D数据限制,实现开放域文本到3D的高效生成,同时支持多视角一致性和几何细节。SDSlink

基于Nerf的单图3D场景重建

动态Nerf(基于NeRF的变体,实现动态场景重建)

核心思想: 扩展静态 NeRF(学习从空间位置和视角到颜色/密度的映射),增加时间维度或变形场来建模动态。
代表技术: 可变形 NeRF, 时变 NeRF。
优点: 理论上能建模非常复杂、连续的动态效果(如流体、布料)。
主要缺点:

  • 优化时间长: 训练/优化过程非常耗时。
  • 渲染效率低: 体渲染过程计算开销巨大。
  • 重建质量受限: 由于优化和渲染的挑战,最终重建或生成的质量(清晰度、细节)可能不如人意。
  • 与现代引擎兼容性差: 输出格式非标准网格/点云,难以集成到游戏/影视渲染管线。
IDYearNameNoteTagsLink
2025.6.17GAF: Gaussian Action Field as a Dvnamic World Model for Robotic Mlanipulationlink
2024Consistent4d: Consistent 360° dynamic object generation from monocular video引入了一个视频到4D的框架,通过优化一个级联动态NeRF (Cascaded DyNeRF) 来从静态捕获的视频生成4D内容。driving video
Animate124利用多种扩散先验,能够通过文本运动描述将单张野外图像动画化为3D视频。SDS
4D-fy使用混合分数蒸馏采样 (hybrid SDS),基于多个预训练扩散模型实现了引人注目的文本到4D生成。SDS