[2024.4.30] DiffuseLoco: Real-Time Legged Locomotion Control with Diffusion from Offline Datasets
摘要
DiffuseLoco 提出了一种纯离线多专家 RL 蒸馏的扩散步态控制方法,能够从离线数据集中学习实时腿式运动控制。该方法预先训练多个单技能稳定 RL 专家,直接采集闭环离线数据,无需在线训练或微调,用单个扩散模型统一拟合所有专家技能,实现多步态、多速度、转向一体化策略。
核心创新
创新一:纯离线多专家 RL 蒸馏的扩散步态控制
- 预先训练多个单技能稳定 RL 专家
- 直接采集闭环离线数据,不在线训练、不微调
- 用单个扩散模型统一拟合所有专家技能
- 实现多步态、多速度、转向一体化策略
创新二:扩散模型直接输出 PD 参考目标,不输出力矩
- 不直接预测扭矩,只输出关节位置目标 q_des
- 底层硬件 PD 控制器跟踪执行
- 解决直接学力矩难收敛、不稳定问题
技术优势
- 纯离线训练:无需在线交互,数据效率高
- 多技能统一:单个模型处理多种步态和速度
- 物理稳定:通过 PD 控制器保证执行稳定性
- 实时控制:扩散模型推理速度快,满足实时需求
与相关方法对比
| 方法 | 训练方式 | 输出类型 | 多技能 | 实时性 |
|---|---|---|---|---|
| DiffuseLoco | 纯离线 | PD 目标 | ✅ | ✅ |
| 传统 RL | 在线 | 力矩/PD 目标 | ❌ | ✅ |
| 扩散力矩 | 离线/在线 | 力矩 | ⚠️ | ⚠️ |
基本信息
- 论文: arXiv:2404.xxxx (2024.4.30)
- 会议: 待确认
- 领域: 腿式机器人 locomotion, 扩散模型,离线 RL
启发
DiffuseLoco 提供了一种高效的离线训练范式,通过蒸馏多个 RL 专家到单个扩散模型中,实现了多技能统一控制。与 PDP 类似,都采用输出 PD 目标而非力矩的策略,保证了控制的稳定性。
笔记来源: 滴答清单
创建时间: 2026-03-22