DARTControl: A Diffusion-based Autoregressive Motion Model for Real-time Text-driven Motion Control
论文信息: ICLR 2025, Kaifeng Zhao, Gen Li, Siyu Tang, ETH Zürich
一、核心问题
1.1 研究背景
文本条件的角色动作生成近年来变得非常流行,允许用户通过自然语言进行交互。然而,现有方法存在显著局限:
现有方法的局限:
- 短动作生成:大多生成短而孤立的动作片段
- 离线生成:需要预先知道整个动作时间线
- 缺乏空间控制:难以将文本语义与几何约束(如目标位置、3D 场景)对齐
- 生成速度慢:无法用于实时交互应用
1.2 核心问题
如何构建一个实时文本驱动的动作控制系统,能够:
- 生成连续的长序列复杂动作
- 精确响应流式文本描述
- 支持空间约束控制(目标位置、场景几何)
- 实现实时生成和交互
1.3 本文方法
论文提出了 DART (DARText Control) 框架:
核心思想:
- Motion Primitive 表示 - 将长动作分解为重叠的短动作片段
- Latent Diffusion - 在紧凑的 latent space 中学习文本条件的动作生成
- 自回归生成 - 基于历史动作和当前文本输入,实时生成动作
- Latent Space Control - 通过优化或强化学习实现精确空间控制
二、核心贡献
-
DART 模型
- 基于扩散的自回归 motion primitive 模型
- 支持实时文本驱动的动作控制
- 生成连续长序列动作
-
Latent Space Control 框架
- 优化方法:latent noise optimization
- 学习方法:基于 MDP 的强化学习
-
全面实验验证
- 长序列生成、in-betweening、场景条件、目标到达
- 在真实性、效率、可控性上超越基线
三、方法详解
3.1 Motion Primitive 表示
表示形式:
- 每个 primitive \(P^i = [H^i, X^i]\)
- \(H^i\): H 帧历史动作(与前一 primitive 重叠)
- \(X^i\): F 帧未来动作
- 重叠设计保证时序连贯性
参数:
- H=2 帧历史,F=8 帧未来
- 基于 SMPL-X 参数化人体模型
- 每帧 276 维向量
优势:
- 分解复杂序列为短 primitives
- 更适合在线生成
- 增强文本 - 动作对齐
3.2 Latent Diffusion 架构
┌─────────────────────────────────────────────────────────┐
│ DART Architecture │
├─────────────────────────────────────────────────────────┤
│ │
│ VAE Encoder: │
│ 输入:History H + Future X │
│ 输出:Latent z ~ N(μ, σ) │
│ │
│ Latent Denoiser: │
│ 输入:Noisy z_t + Text c + History H + timestep t │
│ 输出:Clean z_0 │
│ │
│ VAE Decoder: │
│ 输入:Latent z + History H │
│ 输出:Future X │
│ │
└─────────────────────────────────────────────────────────┘
训练流程:
- 先训练 VAE 学习 latent motion primitive space
- 固定 VAE 权重,训练 latent denoiser
3.3 自回归生成
Algorithm 1: Autoregressive Rollout
输入:种子动作 H_seed, 文本序列 C=[c_1,...,c_N]
输出:连续动作序列 M
H ← H_seed
M ← H_seed
for i = 1 to N:
采样噪声 z_T ~ N(0,I)
去噪:z_0 = Denoiser(z_T, T, H, c_i)
解码:X = Decoder(H, z_0)
M ← Concat(M, X)
H ← Canonicalize(X[-H:]) # 更新历史
return M
优势:
- 10x 加速相比离线方法(FlowMDM)
- 支持任意长度动作生成
- 实时响应文本输入
3.4 Latent Space Control
方法 1: 优化方法
问题:给定空间目标 g(如关键帧姿态、轨迹),找到合适的 latent noise
优化目标: $$\min_{z_T} \mathcal{L}_{spatial}(Dec(Denoise(z_T))) + \lambda ||z_T||^2$$
- 第一项:空间控制误差
- 第二项:latent 正则化
方法 2: 强化学习方法
MDP 定义:
- 状态:当前动作历史 + 文本 + 空间目标
- 动作:latent noise \(z_T\)
- 奖励:空间目标达成度 + 动作质量
训练:PPO 或其他 RL 算法
四、实验与结论
4.1 评估任务
- 长序列生成:从连续文本提示生成长动作
- In-betweening:生成两个姿态间的过渡动作
- 场景条件:在 3D 场景中生成避障动作
- 目标到达:生成到达指定位置的动作
4.2 对比基线
- MotionVAE: VAE-based 自回归模型
- MDM: 标准扩散模型
- FlowMDM: 最先进的时序组合方法
4.3 评估指标
| 指标 | 含义 |
|---|---|
| FID | 动作质量(越低越好) |
| Diversity | 多样性(越高越好) |
| Multimodality | 多模态能力 |
| R-Precision | 文本 - 动作对齐 |
| Runtime | 推理速度 |
4.4 主要结果
- 质量:FID 优于基线
- 多样性:与基线相当或更好
- 速度:10x 加速 vs FlowMDM
- 可控性:精确空间控制
五、局限性
-
Primitive 长度固定
- 当前 H=2, F=8
- 可能不适合所有动作类型
-
Latent space 容量
- 紧凑表示可能限制复杂性
-
优化方法收敛
- 可能需要多次迭代
六、启发
6.1 方法学启发
-
Motion Primitive 设计
- 重叠表示保证连贯性
- 短片段更适合扩散建模
-
Latent Space Control
- 在 latent space 操作更高效
- 统一优化和学习框架
-
自回归 + 扩散
- 结合实时性和质量
6.2 与相关工作对比
| 方法 | 实时 | 文本控制 | 空间控制 | 长序列 |
|---|---|---|---|---|
| DART | ✓ | ✓ | ✓ | ✓ |
| FlowMDM | ✗ | ✓ | △ | ✓ |
| MDM | ✗ | ✓ | ✗ | ✗ |
| MotionVAE | ✓ | △ | △ | ✓ |
七、关键公式
$$z \sim \mathcal{N}(\mu, \sigma), \quad \hat{X} = Dec(z, H)$$
$$z_0 = Denoiser(z_t, t, H, c)$$
$$\min_{z_T} \mathcal{L}_{spatial} + \lambda ||z_T||^2$$
笔记说明:DART 是 ICLR 2025 工作,核心是实时文本驱动的动作控制,支持长序列生成和空间约束。与 AAMDM 相比,DART 更强调文本接口和 latent space control。