[2025.9.15] Gait-Conditioned Reinforcement Learning with Multi-Phase Curriculum for Humanoid Locomotion

摘要

我们提出了一个统一的步态条件强化学习框架，使人形机器人能够在单一递归策略内执行站立、行走、奔跑以及平滑的步态转换。紧凑的奖励路由机制基于独热编码的步态 ID 动态激活特定步态目标，缓解奖励干扰并支持稳定的多步态学习。受人类启发的奖励项促进了生物力学上自然的运动，如直膝站立和协调的手臂 - 腿部摆动，而无需运动捕捉数据。结构化的课程在多个阶段逐步引入步态复杂性和扩展命令空间。在仿真中，该策略成功实现了稳健的站立、行走、奔跑和步态转换。在真实的 Unitree G1 人形机器人上，我们验证了站立、行走和行走 - 站立转换，展示了稳定和协调的运动能力。这项工作为在不同模式和环境中实现多功能和自然的人形控制提供了一个可扩展的、无需参考的解决方案。

核心技术点

强化学习加 PD 控制，通过强化学习生成 PD 控制的目标轨迹，然后通过控制跟踪这些目标轨迹输出动画数据。生成 PD 控制的目标轨迹，这一步采用的是纯强化学习的方案，不需要任何训练数据。纯强化学习的方案非常难训，所以这篇文章主要是要解决这个问题。

它用"分步课程学习"降低难度，用"步态条件 + 奖励路由"避免任务冲突，用"RNN 记忆"自动学周期步态，用"稠密细粒度奖励"提供稳定学习信号，再靠"并行仿真 + 随机化"加速收敛、增强鲁棒性。最终把原本不可能训动的纯 RL，变得能稳、能收敛、能走能跑能切换。

核心设计：

分步课程学习：站立→行走→奔跑→步态切换
奖励路由机制：避免多步态奖励冲突
RNN 记忆：自动学习周期步态，无需相位