[2024.4.30] DiffuseLoco: Real-Time Legged Locomotion Control with Diffusion from Offline Datasets

摘要

DiffuseLoco 提出了一种纯离线多专家 RL 蒸馏的扩散步态控制方法,能够从离线数据集中学习实时腿式运动控制。该方法预先训练多个单技能稳定 RL 专家,直接采集闭环离线数据,无需在线训练或微调,用单个扩散模型统一拟合所有专家技能,实现多步态、多速度、转向一体化策略。

核心创新

创新一:纯离线多专家 RL 蒸馏的扩散步态控制

  • 预先训练多个单技能稳定 RL 专家
  • 直接采集闭环离线数据,不在线训练、不微调
  • 用单个扩散模型统一拟合所有专家技能
  • 实现多步态、多速度、转向一体化策略

创新二:扩散模型直接输出 PD 参考目标,不输出力矩

  • 不直接预测扭矩,只输出关节位置目标 q_des
  • 底层硬件 PD 控制器跟踪执行
  • 解决直接学力矩难收敛、不稳定问题

技术优势

  1. 纯离线训练:无需在线交互,数据效率高
  2. 多技能统一:单个模型处理多种步态和速度
  3. 物理稳定:通过 PD 控制器保证执行稳定性
  4. 实时控制:扩散模型推理速度快,满足实时需求

与相关方法对比

方法训练方式输出类型多技能实时性
DiffuseLoco纯离线PD 目标
传统 RL在线力矩/PD 目标
扩散力矩离线/在线力矩⚠️⚠️

基本信息

  • 论文: arXiv:2404.xxxx (2024.4.30)
  • 会议: 待确认
  • 领域: 腿式机器人 locomotion, 扩散模型,离线 RL

启发

DiffuseLoco 提供了一种高效的离线训练范式,通过蒸馏多个 RL 专家到单个扩散模型中,实现了多技能统一控制。与 PDP 类似,都采用输出 PD 目标而非力矩的策略,保证了控制的稳定性。


笔记来源: 滴答清单
创建时间: 2026-03-22