强化学习方法对比维度

仿真器

方法仿真器物理引擎
DeepLoco (2017)
DeepMimic (2018)
DReCon (2019)
AMP (2021)MuJoCo
ControlVAE (2023)
ASE (2022)Isaac GymGPU 并行
DiffuseLoco (2024)Isaac GymGPU 并行
PDP (2024)Isaac GymGPU 并行
UHMP
CLOSD (2025)
DARTControl (2025)
A-MDM (2024)
PARC (2025)
Gait-Conditioned RL (2025)

需要逐一补充各方法使用的仿真器和物理引擎。仿真器选择直接影响训练效率(Isaac Gym GPU 并行 >> CPU 串行)和结果可复现性。

评估指标

维度说明常用量化方式
跟踪精度生成动作与参考动作的相似度关节位置 RMSE、末端效应器误差
物理合理性动作是否符合物理规律脚滑率、能量消耗、地面反作用力误差
任务成功率完成指定任务的能力到达目标距离、跌倒次数
泛化能力应对新场景/新任务的能力不规则地形通过性、外力鲁棒性
动作多样性同一任务的不同执行方式技能轨迹方差、用户研究
风格保真度保留参考风格的能力用户研究、风格分类器准确率
训练效率达到目标质量所需的计算资源训练时长、环境交互步数
推理延迟在线运行时的计算开销推理帧率

不同方法侧重的指标不同。跟踪类方法侧重跟踪精度和风格保真度,探索类方法侧重任务成功率和泛化能力。

地形处理

方法平坦地面不规则地形动态障碍
DeepLoco (2017)✅ 台阶/斜坡
DeepMimic (2018)✅ 简单斜坡
DReCon (2019)✅ MM 动态选择
AMP (2021)
ControlVAE (2023)
ASE (2022)
DiffuseLoco (2024)
PDP (2024)
UHMP
CLOSD (2025)
DARTControl (2025)
A-MDM (2024)
PARC (2025)✅ 地形增强
Gait-Conditioned RL (2025)✅ 步态切换

地形处理能力是衡量泛化能力的关键维度。分层方法(DeepLoco、ASE)通常比端到端方法有更好的地形泛化性。

PD 控制参数

方法PD 频率 (Hz)P 增益范围D 增益范围关节限制
DeepLoco (2017)50
DeepMimic (2018)50
AMP (2021)50
ASE (2022)60
ControlVAE (2023)60
DiffuseLoco (2024)60
PDP (2024)60
UHMP50
CLOSD (2025)
DARTControl (2025)
A-MDM (2024)
PARC (2025)
Gait-Conditioned RL (2025)

PD 控制参数直接影响动作的物理合理性。增益过高导致抖动,过低导致无力感。频率通常是物理仿真频率的整数分频。