[2024.12.4]PDP: Physics-Based Character Animation via Diffusion Policy

核心方法

两阶段训练流程

阶段 1:RL 专家策略预训练

  • 先训多个针对特定任务的小规模 RL 专家策略
  • 每个 RL 专家输入当前物理状态,直接输出未来多帧 PD 控制目标(关节角度/旋转)
  • 策略:指状态到 PD 目标的映射函数,网络参数是其存储形式

阶段 2:离线行为克隆蒸馏

  • 将所有 RL 专家的控制知识通过离线行为克隆(BC)蒸馏到一个 Diffusion Policy 中
  • Diffusion 输入:当前状态序列 + 任务条件标签
  • Diffusion 输出:未来多帧 PD 目标序列,直接驱动 PD 控制器

与相关工作的核心区别

与 [2024.11.19]Maskedmimic 的核心区别

维度PDPMaskedmimic
专家设计多个单任务 RL 专家单个全能 RL 跟踪专家(仅需跟踪参考运动)
蒸馏方式多任务条件下的行为克隆掩码运动补全 + 师生蒸馏,并将轨迹优化能力一并蒸馏到 CVAE 模型中
模型类型DiffusionCVAE + Transformer

与 [2025.10.15]UniPhys 的核心区别

维度PDPUniPhys
训练范式RL 专家蒸馏 + Diffusion BC,依赖 RL 预训练直接在动捕数据上训练统一规划 + 控制 Diffusion,无 RL、无蒸馏
模型定位纯控制器(短时域、无显式规划)统一规划 + 控制器(长时序、完整轨迹生成)
数据来源数据来自 RL 专家的纠正动作数据来自预处理后的运动捕捉序列

核心贡献

  • 提出了基于 Diffusion Policy 的多任务角色动画框架
  • 通过离线行为克隆将多个 RL 专家的知识蒸馏到单一模型中
  • 支持任务条件控制,实现灵活的多任务切换

有效性

  • 能够生成物理合理的角色动画
  • 支持多任务控制,无需为每个任务单独训练

缺陷

  • 依赖 RL 预训练,训练流程复杂
  • 需要多个专家策略,计算成本较高
  • 纯控制器设计,缺乏显式的长时序规划能力

验证

在 locomotion 任务上进行验证,通过生成 + PD + 仿真的流程评估性能。

启发

PDP 提供了一种将多个专家知识蒸馏到单一 Diffusion 模型的有效方法,但与 Maskedmimic 和 UniPhys 相比,其训练流程更为复杂,且缺乏长时序规划能力。

遗留问题

  • 如何减少对 RL 预训练的依赖?
  • 如何实现更高效的单阶段训练?
  • 如何扩展模型到更复杂的任务(如跳跃、翻滚等)?

相关工作