强化学习方法对比维度
仿真器
| 方法 | 仿真器 | 物理引擎 |
|---|---|---|
| DeepLoco (2017) | — | — |
| DeepMimic (2018) | — | — |
| DReCon (2019) | — | — |
| AMP (2021) | MuJoCo | — |
| ControlVAE (2023) | — | — |
| ASE (2022) | Isaac Gym | GPU 并行 |
| DiffuseLoco (2024) | Isaac Gym | GPU 并行 |
| PDP (2024) | Isaac Gym | GPU 并行 |
| UHMP | — | — |
| CLOSD (2025) | — | — |
| DARTControl (2025) | — | — |
| A-MDM (2024) | — | — |
| PARC (2025) | — | — |
| Gait-Conditioned RL (2025) | — | — |
需要逐一补充各方法使用的仿真器和物理引擎。仿真器选择直接影响训练效率(Isaac Gym GPU 并行 >> CPU 串行)和结果可复现性。
评估指标
| 维度 | 说明 | 常用量化方式 |
|---|---|---|
| 跟踪精度 | 生成动作与参考动作的相似度 | 关节位置 RMSE、末端效应器误差 |
| 物理合理性 | 动作是否符合物理规律 | 脚滑率、能量消耗、地面反作用力误差 |
| 任务成功率 | 完成指定任务的能力 | 到达目标距离、跌倒次数 |
| 泛化能力 | 应对新场景/新任务的能力 | 不规则地形通过性、外力鲁棒性 |
| 动作多样性 | 同一任务的不同执行方式 | 技能轨迹方差、用户研究 |
| 风格保真度 | 保留参考风格的能力 | 用户研究、风格分类器准确率 |
| 训练效率 | 达到目标质量所需的计算资源 | 训练时长、环境交互步数 |
| 推理延迟 | 在线运行时的计算开销 | 推理帧率 |
不同方法侧重的指标不同。跟踪类方法侧重跟踪精度和风格保真度,探索类方法侧重任务成功率和泛化能力。
地形处理
| 方法 | 平坦地面 | 不规则地形 | 动态障碍 |
|---|---|---|---|
| DeepLoco (2017) | ✅ | ✅ 台阶/斜坡 | ❌ |
| DeepMimic (2018) | ✅ | ✅ 简单斜坡 | ❌ |
| DReCon (2019) | ✅ | ✅ MM 动态选择 | ❌ |
| AMP (2021) | ✅ | ❌ | ❌ |
| ControlVAE (2023) | ✅ | ❌ | ❌ |
| ASE (2022) | ✅ | ✅ | ❌ |
| DiffuseLoco (2024) | ✅ | ✅ | ❌ |
| PDP (2024) | ✅ | ✅ | ❌ |
| UHMP | ✅ | ✅ | ❌ |
| CLOSD (2025) | ✅ | ✅ | ❌ |
| DARTControl (2025) | ✅ | ✅ | ✅ |
| A-MDM (2024) | ✅ | ❌ | ❌ |
| PARC (2025) | ✅ | ✅ 地形增强 | ❌ |
| Gait-Conditioned RL (2025) | ✅ | ✅ 步态切换 | ❌ |
地形处理能力是衡量泛化能力的关键维度。分层方法(DeepLoco、ASE)通常比端到端方法有更好的地形泛化性。
PD 控制参数
| 方法 | PD 频率 (Hz) | P 增益范围 | D 增益范围 | 关节限制 |
|---|---|---|---|---|
| DeepLoco (2017) | 50 | — | — | ✅ |
| DeepMimic (2018) | 50 | — | — | ✅ |
| AMP (2021) | 50 | — | — | ✅ |
| ASE (2022) | 60 | — | — | ✅ |
| ControlVAE (2023) | 60 | — | — | ✅ |
| DiffuseLoco (2024) | 60 | — | — | ✅ |
| PDP (2024) | 60 | — | — | ✅ |
| UHMP | 50 | — | — | ✅ |
| CLOSD (2025) | — | — | — | — |
| DARTControl (2025) | — | — | — | — |
| A-MDM (2024) | — | — | — | — |
| PARC (2025) | — | — | — | — |
| Gait-Conditioned RL (2025) | — | — | — | — |
PD 控制参数直接影响动作的物理合理性。增益过高导致抖动,过低导致无力感。频率通常是物理仿真频率的整数分频。