[2024.12.4]PDP: Physics-Based Character Animation via Diffusion Policy
核心方法
两阶段训练流程
阶段 1:RL 专家策略预训练
- 先训多个针对特定任务的小规模 RL 专家策略
- 每个 RL 专家输入当前物理状态,直接输出未来多帧 PD 控制目标(关节角度/旋转)
- 策略:指状态到 PD 目标的映射函数,网络参数是其存储形式
阶段 2:离线行为克隆蒸馏
- 将所有 RL 专家的控制知识通过离线行为克隆(BC)蒸馏到一个 Diffusion Policy 中
- Diffusion 输入:当前状态序列 + 任务条件标签
- Diffusion 输出:未来多帧 PD 目标序列,直接驱动 PD 控制器
与相关工作的核心区别
与 [2024.11.19]Maskedmimic 的核心区别
| 维度 | PDP | Maskedmimic |
|---|---|---|
| 专家设计 | 多个单任务 RL 专家 | 单个全能 RL 跟踪专家(仅需跟踪参考运动) |
| 蒸馏方式 | 多任务条件下的行为克隆 | 掩码运动补全 + 师生蒸馏,并将轨迹优化能力一并蒸馏到 CVAE 模型中 |
| 模型类型 | Diffusion | CVAE + Transformer |
与 [2025.10.15]UniPhys 的核心区别
| 维度 | PDP | UniPhys |
|---|---|---|
| 训练范式 | RL 专家蒸馏 + Diffusion BC,依赖 RL 预训练 | 直接在动捕数据上训练统一规划 + 控制 Diffusion,无 RL、无蒸馏 |
| 模型定位 | 纯控制器(短时域、无显式规划) | 统一规划 + 控制器(长时序、完整轨迹生成) |
| 数据来源 | 数据来自 RL 专家的纠正动作 | 数据来自预处理后的运动捕捉序列 |
核心贡献
- 提出了基于 Diffusion Policy 的多任务角色动画框架
- 通过离线行为克隆将多个 RL 专家的知识蒸馏到单一模型中
- 支持任务条件控制,实现灵活的多任务切换
有效性
- 能够生成物理合理的角色动画
- 支持多任务控制,无需为每个任务单独训练
缺陷
- 依赖 RL 预训练,训练流程复杂
- 需要多个专家策略,计算成本较高
- 纯控制器设计,缺乏显式的长时序规划能力
验证
在 locomotion 任务上进行验证,通过生成 + PD + 仿真的流程评估性能。
启发
PDP 提供了一种将多个专家知识蒸馏到单一 Diffusion 模型的有效方法,但与 Maskedmimic 和 UniPhys 相比,其训练流程更为复杂,且缺乏长时序规划能力。
遗留问题
- 如何减少对 RL 预训练的依赖?
- 如何实现更高效的单阶段训练?
- 如何扩展模型到更复杂的任务(如跳跃、翻滚等)?