三种技术路径

路径方法可行性代表工作
① 基于优化文本+可微分渲染→优化高斯形变✅ 已验证DreamGaussian, 4D Gaussian
② 数据驱动大模型文本→[LLM/多模态]→高斯参数⚠️ 研究中-
③ 层次化生成文本→关键帧/动作语义→解码→高斯✅ 最有希望-

路径详解

① 基于优化的方法

文本 + CLIP/VQA → [可微分渲染] → 优化高斯参数 难度:优化困难,语义对齐不精确

② 数据驱动大模型

文本 → [大语言模型/多模态模型] → 高斯形变参数序列 难度:缺乏数据,直接预测维度太高

③ 层次化生成(推荐)

文本 → [动作语义/关键帧] → [解码] → 高斯运动 核心:引入中间表示,不是SMPL,而是更抽象的语义

直接预测动态高斯属性

IDYearNameNoteTagsLink
1272025.7.31Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis直接对4D高斯进行diffusion生成数据量比较大,因此构建4D GS的VAE,并基于这个VAE进行隐空间的4G生成link
2025.6.5SinGS: Animatable Single-Image Human Gaussian Splats with Kinematic Priorslink
2024.6.14L4gm: Large 4d gaussian reconstruction model单视角视频输入生成动态物体的4D大重建模型1. 多视角视频数据集
2.基于预训练的3D大重建模型LGM, 通过低帧率采样的视频帧生成逐帧的3D高斯泼溅表征
link
2023.22Stag4d: Spatial-temporal anchored generative 4d gaussians实现具有时空一致性的高保真4D生成单目视频->多目视频,SDS优化出GS属性link
362023.4GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians1. 引入可动画化的 3D GS 来明确代表各种姿势和服装风格的人类。
2. 设计一个动态外观网络以及一个可优化的特征张量,用于实现运动到外观的映射。通过动态属性进一步增强3D GS表示。
3. 对运动和外观进行联合优化,缓解『单目视频中运动估计不准确』的问题。
开源、SMPLX、动态高斯link