[2025.5.13] CLOSD: CLOSING THE LOOP BETWEEN SIMULATION AND DIFFUSION FOR MULTI-TASK CHARACTER CONTROL

摘要

运动扩散模型和基于强化学习(RL)的物理仿真控制在人体运动生成方面具有互补优势。前者能够生成多样化的运动,并遵循文本等直观控制,而后者提供物理上合理的运动和与环境的直接交互。在这项工作中,我们提出了一种结合各自优势的方法。CLoSD是一个文本驱动的RL物理控制器,由扩散生成指导完成各种任务。我们的关键见解是,运动扩散可以作为稳健RL控制器的实时通用规划器。为此,CLoSD在两个模块之间保持闭合循环交互——扩散规划器(DiP)和跟踪控制器。DiP是一个快速响应的自回归扩散模型,由文本提示和目标位置控制,而控制器是一个简单而稳健的运动模仿器,持续接收来自DiP的运动计划并提供环境反馈。CLoSD能够无缝执行一系列不同任务,包括导航到目标位置、按照文本提示用手或脚击打物体、坐下和起身。

技术分析

这篇文章使用diffusion生成模型作为规划器,使用强化学习进行轨迹跟踪,最后接pd控制器。这是locomotion动力学方法的经典架构。

CLOSD 是优秀的工程系统论文,不是开创范式的革命性论文。

CLOSD 的核心不是理论创新,而是工程整合:

  1. 用最简单的扩散做实时局部规划 ​
  2. 用最朴素的闭环做在线重规划 ​
  3. 把文本+目标双条件一起做稳定 ​
  4. 直接搭载PHC 这种超强鲁棒控制器

它的贡献是: 把已有的成熟零件,拼成一个完整、能打、多任务、实时跑的系统。