三种技术路径
| 路径 | 方法 | 可行性 | 代表工作 |
|---|---|---|---|
| ① 基于优化 | 文本+可微分渲染→优化高斯形变 | ✅ 已验证 | DreamGaussian, 4D Gaussian |
| ② 数据驱动大模型 | 文本→[LLM/多模态]→高斯参数 | ⚠️ 研究中 | - |
| ③ 层次化生成 | 文本→关键帧/动作语义→解码→高斯 | ✅ 最有希望 | - |
路径详解
① 基于优化的方法:
文本 + CLIP/VQA → [可微分渲染] → 优化高斯参数 难度:优化困难,语义对齐不精确
② 数据驱动大模型:
文本 → [大语言模型/多模态模型] → 高斯形变参数序列 难度:缺乏数据,直接预测维度太高
③ 层次化生成(推荐):
文本 → [动作语义/关键帧] → [解码] → 高斯运动 核心:引入中间表示,不是SMPL,而是更抽象的语义
直接预测动态高斯属性
| ID | Year | Name | Note | Tags | Link |
|---|---|---|---|---|---|
| 127 | 2025.7.31 | Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis | 直接对4D高斯进行diffusion生成数据量比较大,因此构建4D GS的VAE,并基于这个VAE进行隐空间的4G生成 | link | |
| 2025.6.5 | SinGS: Animatable Single-Image Human Gaussian Splats with Kinematic Priors | link | |||
| 2024.6.14 | L4gm: Large 4d gaussian reconstruction model | 单视角视频输入生成动态物体的4D大重建模型 | 1. 多视角视频数据集 2.基于预训练的3D大重建模型LGM, 通过低帧率采样的视频帧生成逐帧的3D高斯泼溅表征 | link | |
| 2023.22 | Stag4d: Spatial-temporal anchored generative 4d gaussians | 实现具有时空一致性的高保真4D生成 | 单目视频->多目视频,SDS优化出GS属性 | link | |
| 36 | 2023.4 | GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians | 1. 引入可动画化的 3D GS 来明确代表各种姿势和服装风格的人类。 2. 设计一个动态外观网络以及一个可优化的特征张量,用于实现运动到外观的映射。通过动态属性进一步增强3D GS表示。 3. 对运动和外观进行联合优化,缓解『单目视频中运动估计不准确』的问题。 | 开源、SMPLX、动态高斯 | link |