DARTControl: A Diffusion-based Autoregressive Motion Model for Real-time Text-driven Motion Control

论文信息: ICLR 2025, Kaifeng Zhao, Gen Li, Siyu Tang, ETH Zürich

一、核心问题

1.1 研究背景

文本条件的角色动作生成近年来变得非常流行，允许用户通过自然语言进行交互。然而，现有方法存在显著局限：

现有方法的局限：

短动作生成：大多生成短而孤立的动作片段
离线生成：需要预先知道整个动作时间线
缺乏空间控制：难以将文本语义与几何约束（如目标位置、3D 场景）对齐
生成速度慢：无法用于实时交互应用

1.2 核心问题

如何构建一个实时文本驱动的动作控制系统，能够：

生成连续的长序列复杂动作
精确响应流式文本描述
支持空间约束控制（目标位置、场景几何）
实现实时生成和交互

1.3 本文方法

论文提出了 DART (DARText Control) 框架：

核心思想：

Motion Primitive 表示 - 将长动作分解为重叠的短动作片段
Latent Diffusion - 在紧凑的 latent space 中学习文本条件的动作生成
自回归生成 - 基于历史动作和当前文本输入，实时生成动作
Latent Space Control - 通过优化或强化学习实现精确空间控制

二、核心贡献

DART 模型
- 基于扩散的自回归 motion primitive 模型
- 支持实时文本驱动的动作控制
- 生成连续长序列动作
Latent Space Control 框架
- 优化方法：latent noise optimization
- 学习方法：基于 MDP 的强化学习
全面实验验证
- 长序列生成、in-betweening、场景条件、目标到达
- 在真实性、效率、可控性上超越基线

三、方法详解

3.1 Motion Primitive 表示

表示形式：

每个 primitive $P^i = [H^i, X^i]$
$H^i$: H 帧历史动作（与前一 primitive 重叠）
$X^i$: F 帧未来动作
重叠设计保证时序连贯性

参数：

H=2 帧历史，F=8 帧未来
基于 SMPL-X 参数化人体模型
每帧 276 维向量

优势：

分解复杂序列为短 primitives
更适合在线生成
增强文本 - 动作对齐

3.2 Latent Diffusion 架构

┌─────────────────────────────────────────────────────────┐
│                  DART Architecture                       │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  VAE Encoder:                                          │
│  输入：History H + Future X                             │
│  输出：Latent z ~ N(μ, σ)                              │
│                                                         │
│  Latent Denoiser:                                       │
│  输入：Noisy z_t + Text c + History H + timestep t      │
│  输出：Clean z_0                                        │
│                                                         │
│  VAE Decoder:                                           │
│  输入：Latent z + History H                             │
│  输出：Future X                                         │
│                                                         │
└─────────────────────────────────────────────────────────┘

训练流程：

先训练 VAE 学习 latent motion primitive space
固定 VAE 权重，训练 latent denoiser

3.3 自回归生成

Algorithm 1: Autoregressive Rollout

输入：种子动作 H_seed, 文本序列 C=[c_1,...,c_N]
输出：连续动作序列 M

H ← H_seed
M ← H_seed
for i = 1 to N:
    采样噪声 z_T ~ N(0,I)
    去噪：z_0 = Denoiser(z_T, T, H, c_i)
    解码：X = Decoder(H, z_0)
    M ← Concat(M, X)
    H ← Canonicalize(X[-H:])  # 更新历史
return M

优势：

10x 加速相比离线方法（FlowMDM）
支持任意长度动作生成
实时响应文本输入

3.4 Latent Space Control

方法 1: 优化方法

问题：给定空间目标 g（如关键帧姿态、轨迹），找到合适的 latent noise

优化目标： $$\min_{z_T} \mathcal{L}_{spatial}(Dec(Denoise(z_T))) + \lambda ||z_T||^2$$

第一项：空间控制误差
第二项：latent 正则化

方法 2: 强化学习方法

MDP 定义：

状态：当前动作历史 + 文本 + 空间目标
动作：latent noise $z_T$
奖励：空间目标达成度 + 动作质量

训练：PPO 或其他 RL 算法

四、实验与结论

4.1 评估任务

长序列生成：从连续文本提示生成长动作
In-betweening：生成两个姿态间的过渡动作
场景条件：在 3D 场景中生成避障动作
目标到达：生成到达指定位置的动作

4.2 对比基线

MotionVAE: VAE-based 自回归模型
MDM: 标准扩散模型
FlowMDM: 最先进的时序组合方法

4.3 评估指标

指标	含义
FID	动作质量（越低越好）
Diversity	多样性（越高越好）
Multimodality	多模态能力
R-Precision	文本 - 动作对齐
Runtime	推理速度

4.4 主要结果

质量：FID 优于基线
多样性：与基线相当或更好
速度：10x 加速 vs FlowMDM
可控性：精确空间控制

五、局限性

Primitive 长度固定
- 当前 H=2, F=8
- 可能不适合所有动作类型
Latent space 容量
- 紧凑表示可能限制复杂性
优化方法收敛
- 可能需要多次迭代

六、启发

6.1 方法学启发

Motion Primitive 设计
- 重叠表示保证连贯性
- 短片段更适合扩散建模
Latent Space Control
- 在 latent space 操作更高效
- 统一优化和学习框架
自回归 + 扩散
- 结合实时性和质量

6.2 与相关工作对比

方法	实时	文本控制	空间控制	长序列
DART	✓	✓	✓	✓
FlowMDM	✗	✓	△	✓
MDM	✗	✓	✗	✗
MotionVAE	✓	△	△	✓

七、关键公式

$$z \sim \mathcal{N}(\mu, \sigma), \quad \hat{X} = Dec(z, H)$$

$$z_0 = Denoiser(z_t, t, H, c)$$

$$\min_{z_T} \mathcal{L}_{spatial} + \lambda ||z_T||^2$$

笔记说明：DART 是 ICLR 2025 工作，核心是实时文本驱动的动作控制，支持长序列生成和空间约束。与 AAMDM 相比，DART 更强调文本接口和 latent space control。

ReadPapers