[2025.5.13] CLOSD: CLOSING THE LOOP BETWEEN SIMULATION AND DIFFUSION FOR MULTI-TASK CHARACTER CONTROL

摘要

运动扩散模型和基于强化学习（RL）的物理仿真控制在人体运动生成方面具有互补优势。前者能够生成多样化的运动，并遵循文本等直观控制，而后者提供物理上合理的运动和与环境的直接交互。在这项工作中，我们提出了一种结合各自优势的方法。CLoSD是一个文本驱动的RL物理控制器，由扩散生成指导完成各种任务。我们的关键见解是，运动扩散可以作为稳健RL控制器的实时通用规划器。为此，CLoSD在两个模块之间保持闭合循环交互——扩散规划器（DiP）和跟踪控制器。DiP是一个快速响应的自回归扩散模型，由文本提示和目标位置控制，而控制器是一个简单而稳健的运动模仿器，持续接收来自DiP的运动计划并提供环境反馈。CLoSD能够无缝执行一系列不同任务，包括导航到目标位置、按照文本提示用手或脚击打物体、坐下和起身。

技术分析

这篇文章使用diffusion生成模型作为规划器，使用强化学习进行轨迹跟踪，最后接pd控制器。这是locomotion动力学方法的经典架构。

CLOSD 是优秀的工程系统论文，不是开创范式的革命性论文。

CLOSD 的核心不是理论创新，而是工程整合：

用最简单的扩散做实时局部规划
用最朴素的闭环做在线重规划
把文本+目标双条件一起做稳定
直接搭载PHC 这种超强鲁棒控制器

它的贡献是：把已有的成熟零件，拼成一个完整、能打、多任务、实时跑的系统。