强化学习方法对比维度

仿真器

需要逐一补充各方法使用的仿真器和物理引擎。仿真器选择直接影响训练效率（Isaac Gym GPU 并行 >> CPU 串行）和结果可复现性。

不同方法侧重的指标不同。跟踪类方法侧重跟踪精度和风格保真度，探索类方法侧重任务成功率和泛化能力。

方法	平坦地面	不规则地形	动态障碍
DeepLoco (2017)	✅	✅ 台阶/斜坡	❌
DeepMimic (2018)	✅	✅ 简单斜坡	❌
DReCon (2019)	✅	✅ MM 动态选择	❌
AMP (2021)	✅	❌	❌
ControlVAE (2023)	✅	❌	❌
ASE (2022)	✅	✅	❌
DiffuseLoco (2024)	✅	✅	❌
PDP (2024)	✅	✅	❌
UHMP	✅	✅	❌
CLOSD (2025)	✅	✅	❌
DARTControl (2025)	✅	✅	✅
A-MDM (2024)	✅	❌	❌
PARC (2025)	✅	✅ 地形增强	❌
Gait-Conditioned RL (2025)	✅	✅ 步态切换	❌

地形处理能力是衡量泛化能力的关键维度。分层方法（DeepLoco、ASE）通常比端到端方法有更好的地形泛化性。

方法	PD 频率 (Hz)	P 增益范围	D 增益范围	关节限制
DeepLoco (2017)	50	—	—	✅
DeepMimic (2018)	50	—	—	✅
AMP (2021)	50	—	—	✅
ASE (2022)	60	—	—	✅
ControlVAE (2023)	60	—	—	✅
DiffuseLoco (2024)	60	—	—	✅
PDP (2024)	60	—	—	✅
UHMP	50	—	—	✅
CLOSD (2025)	—	—	—	—
DARTControl (2025)	—	—	—	—
A-MDM (2024)	—	—	—	—
PARC (2025)	—	—	—	—
Gait-Conditioned RL (2025)	—	—	—	—

PD 控制参数直接影响动作的物理合理性。增益过高导致抖动，过低导致无力感。频率通常是物理仿真频率的整数分频。