[2024.12.4]PDP: Physics-Based Character Animation via Diffusion Policy

PDP 架构图

核心方法

阶段 1：RL 专家策略预训练

阶段 2：离线行为克隆蒸馏

维度	PDP	Maskedmimic
专家设计	多个单任务 RL 专家	单个全能 RL 跟踪专家（仅需跟踪参考运动）
蒸馏方式	多任务条件下的行为克隆	掩码运动补全 + 师生蒸馏，并将轨迹优化能力一并蒸馏到 CVAE 模型中
模型类型	Diffusion	CVAE + Transformer

维度	PDP	UniPhys
训练范式	RL 专家蒸馏 + Diffusion BC，依赖 RL 预训练	直接在动捕数据上训练统一规划 + 控制 Diffusion，无 RL、无蒸馏
模型定位	纯控制器（短时域、无显式规划）	统一规划 + 控制器（长时序、完整轨迹生成）
数据来源	数据来自 RL 专家的纠正动作	数据来自预处理后的运动捕捉序列

在 locomotion 任务上进行验证，通过生成 + PD + 仿真的流程评估性能。

PDP 提供了一种将多个专家知识蒸馏到单一 Diffusion 模型的有效方法，但与 Maskedmimic 和 UniPhys 相比，其训练流程更为复杂，且缺乏长时序规划能力。