[2024.4.30] DiffuseLoco: Real-Time Legged Locomotion Control with Diffusion from Offline Datasets

摘要

DiffuseLoco 提出了一种纯离线多专家 RL 蒸馏的扩散步态控制方法，能够从离线数据集中学习实时腿式运动控制。该方法预先训练多个单技能稳定 RL 专家，直接采集闭环离线数据，无需在线训练或微调，用单个扩散模型统一拟合所有专家技能，实现多步态、多速度、转向一体化策略。

核心创新

创新一：纯离线多专家 RL 蒸馏的扩散步态控制

预先训练多个单技能稳定 RL 专家
直接采集闭环离线数据，不在线训练、不微调
用单个扩散模型统一拟合所有专家技能
实现多步态、多速度、转向一体化策略

创新二：扩散模型直接输出 PD 参考目标，不输出力矩

不直接预测扭矩，只输出关节位置目标 q_des
底层硬件 PD 控制器跟踪执行
解决直接学力矩难收敛、不稳定问题

技术优势

纯离线训练：无需在线交互，数据效率高
多技能统一：单个模型处理多种步态和速度
物理稳定：通过 PD 控制器保证执行稳定性
实时控制：扩散模型推理速度快，满足实时需求

与相关方法对比

方法	训练方式	输出类型	多技能	实时性
DiffuseLoco	纯离线	PD 目标	✅	✅
传统 RL	在线	力矩/PD 目标	❌	✅
扩散力矩	离线/在线	力矩	⚠️	⚠️

基本信息

论文: arXiv:2404.xxxx (2024.4.30)
会议: 待确认
领域: 腿式机器人 locomotion, 扩散模型，离线 RL

启发

DiffuseLoco 提供了一种高效的离线训练范式，通过蒸馏多个 RL 专家到单个扩散模型中，实现了多技能统一控制。与 PDP 类似，都采用输出 PD 目标而非力矩的策略，保证了控制的稳定性。

笔记来源: 滴答清单
创建时间: 2026-03-22