DARTControl: A Diffusion-based Autoregressive Motion Model for Real-time Text-driven Motion Control

论文信息: ICLR 2025, Kaifeng Zhao, Gen Li, Siyu Tang, ETH Zürich


一、核心问题

1.1 研究背景

文本条件的角色动作生成近年来变得非常流行,允许用户通过自然语言进行交互。然而,现有方法存在显著局限:

现有方法的局限

  1. 短动作生成:大多生成短而孤立的动作片段
  2. 离线生成:需要预先知道整个动作时间线
  3. 缺乏空间控制:难以将文本语义与几何约束(如目标位置、3D 场景)对齐
  4. 生成速度慢:无法用于实时交互应用

1.2 核心问题

如何构建一个实时文本驱动的动作控制系统,能够

  1. 生成连续的长序列复杂动作
  2. 精确响应流式文本描述
  3. 支持空间约束控制(目标位置、场景几何)
  4. 实现实时生成和交互

1.3 本文方法

论文提出了 DART (DARText Control) 框架:

核心思想

  1. Motion Primitive 表示 - 将长动作分解为重叠的短动作片段
  2. Latent Diffusion - 在紧凑的 latent space 中学习文本条件的动作生成
  3. 自回归生成 - 基于历史动作和当前文本输入,实时生成动作
  4. Latent Space Control - 通过优化或强化学习实现精确空间控制

二、核心贡献

  1. DART 模型

    • 基于扩散的自回归 motion primitive 模型
    • 支持实时文本驱动的动作控制
    • 生成连续长序列动作
  2. Latent Space Control 框架

    • 优化方法:latent noise optimization
    • 学习方法:基于 MDP 的强化学习
  3. 全面实验验证

    • 长序列生成、in-betweening、场景条件、目标到达
    • 在真实性、效率、可控性上超越基线

三、方法详解

3.1 Motion Primitive 表示

表示形式

  • 每个 primitive \(P^i = [H^i, X^i]\)
  • \(H^i\): H 帧历史动作(与前一 primitive 重叠)
  • \(X^i\): F 帧未来动作
  • 重叠设计保证时序连贯性

参数

  • H=2 帧历史,F=8 帧未来
  • 基于 SMPL-X 参数化人体模型
  • 每帧 276 维向量

优势

  • 分解复杂序列为短 primitives
  • 更适合在线生成
  • 增强文本 - 动作对齐

3.2 Latent Diffusion 架构

┌─────────────────────────────────────────────────────────┐
│                  DART Architecture                       │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  VAE Encoder:                                          │
│  输入:History H + Future X                             │
│  输出:Latent z ~ N(μ, σ)                              │
│                                                         │
│  Latent Denoiser:                                       │
│  输入:Noisy z_t + Text c + History H + timestep t      │
│  输出:Clean z_0                                        │
│                                                         │
│  VAE Decoder:                                           │
│  输入:Latent z + History H                             │
│  输出:Future X                                         │
│                                                         │
└─────────────────────────────────────────────────────────┘

训练流程

  1. 先训练 VAE 学习 latent motion primitive space
  2. 固定 VAE 权重,训练 latent denoiser

3.3 自回归生成

Algorithm 1: Autoregressive Rollout

输入:种子动作 H_seed, 文本序列 C=[c_1,...,c_N]
输出:连续动作序列 M

H ← H_seed
M ← H_seed
for i = 1 to N:
    采样噪声 z_T ~ N(0,I)
    去噪:z_0 = Denoiser(z_T, T, H, c_i)
    解码:X = Decoder(H, z_0)
    M ← Concat(M, X)
    H ← Canonicalize(X[-H:])  # 更新历史
return M

优势

  • 10x 加速相比离线方法(FlowMDM)
  • 支持任意长度动作生成
  • 实时响应文本输入

3.4 Latent Space Control

方法 1: 优化方法

问题:给定空间目标 g(如关键帧姿态、轨迹),找到合适的 latent noise

优化目标: $$\min_{z_T} \mathcal{L}_{spatial}(Dec(Denoise(z_T))) + \lambda ||z_T||^2$$

  • 第一项:空间控制误差
  • 第二项:latent 正则化

方法 2: 强化学习方法

MDP 定义

  • 状态:当前动作历史 + 文本 + 空间目标
  • 动作:latent noise \(z_T\)
  • 奖励:空间目标达成度 + 动作质量

训练:PPO 或其他 RL 算法


四、实验与结论

4.1 评估任务

  1. 长序列生成:从连续文本提示生成长动作
  2. In-betweening:生成两个姿态间的过渡动作
  3. 场景条件:在 3D 场景中生成避障动作
  4. 目标到达:生成到达指定位置的动作

4.2 对比基线

  • MotionVAE: VAE-based 自回归模型
  • MDM: 标准扩散模型
  • FlowMDM: 最先进的时序组合方法

4.3 评估指标

指标含义
FID动作质量(越低越好)
Diversity多样性(越高越好)
Multimodality多模态能力
R-Precision文本 - 动作对齐
Runtime推理速度

4.4 主要结果

  • 质量:FID 优于基线
  • 多样性:与基线相当或更好
  • 速度:10x 加速 vs FlowMDM
  • 可控性:精确空间控制

五、局限性

  1. Primitive 长度固定

    • 当前 H=2, F=8
    • 可能不适合所有动作类型
  2. Latent space 容量

    • 紧凑表示可能限制复杂性
  3. 优化方法收敛

    • 可能需要多次迭代

六、启发

6.1 方法学启发

  1. Motion Primitive 设计

    • 重叠表示保证连贯性
    • 短片段更适合扩散建模
  2. Latent Space Control

    • 在 latent space 操作更高效
    • 统一优化和学习框架
  3. 自回归 + 扩散

    • 结合实时性和质量

6.2 与相关工作对比

方法实时文本控制空间控制长序列
DART
FlowMDM
MDM
MotionVAE

七、关键公式

$$z \sim \mathcal{N}(\mu, \sigma), \quad \hat{X} = Dec(z, H)$$

$$z_0 = Denoiser(z_t, t, H, c)$$

$$\min_{z_T} \mathcal{L}_{spatial} + \lambda ||z_T||^2$$


笔记说明:DART 是 ICLR 2025 工作,核心是实时文本驱动的动作控制,支持长序列生成和空间约束。与 AAMDM 相比,DART 更强调文本接口和 latent space control。