Interactive Character Control with Auto-Regressive Motion Diffusion Models (A-MDM)

论文信息: ACM TOG 2024 (SIGGRAPH), Yi Shi et al., Shanghai AI Lab / Simon Fraser University / NVIDIA


一、核心问题

1.1 研究背景

实时角色控制是交互式体验(游戏、VR、物理仿真)的核心组件。扩散模型在动作合成中的应用越来越广泛,但现有方法存在局限:

现有扩散模型的局限

  1. 离线生成:大多数是 space-time 模型,同时生成整个序列
  2. 固定长度:需要预先指定序列长度
  3. 无法实时控制:不支持时变控制信号
  4. 计算成本高:通常需要 1000 步去噪

1.2 核心问题

如何构建一个实时动作合成框架,能够

  1. 支持时变控制输入
  2. 逐帧生成连续动作
  3. 在适度计算资源下实时运行
  4. 适应各种下游任务

1.3 本文方法

论文提出了 A-MDM (Auto-regressive Motion Diffusion Model) 框架:

核心思想

  1. 自重新设计扩散模型 - 从 space-time 改为 auto-regressive
  2. 轻量级设计 - 仅需 50 步去噪(vs 1000 步)
  3. 简单架构 - 使用 MLP 即可
  4. 控制套件 - task-oriented sampling, in-painting, hierarchical RL

二、核心贡献

  1. A-MDM 模型

    • 自回归扩散模型,适合实时交互
    • 比 VAE-based 模型更多样化
    • 仅需 50 步去噪
  2. 控制方法套件

    • Task-oriented sampling
    • Motion in-painting
    • Keyframe in-betweening
    • Hierarchical reinforcement learning
  3. 无需微调适配新任务

    • 预训练模型可直接用于下游任务
    • 无需额外训练或 fine-tuning

三、方法详解

3.1 自回归扩散公式

传统 Space-Time 模型: $$p(x_{1:T}) = \text{一次性生成所有帧}$$

A-MDM 自回归公式: $$p(x_{1:T}) = \prod_{t=1}^{T} p(x_t | x_{1:t-1})$$

每帧生成

  • 输入:前一帧姿态 \(x_{t-1}\)
  • 输出:当前帧 \(x_t\)
  • 去噪步数:50 步(vs 1000 步)

3.2 网络架构

┌─────────────────────────────────────────────────────────┐
│              A-MDM Architecture                          │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  输入:前一帧姿态 + 控制信号                              │
│              ↓                                          │
│  ┌─────────────────────────────────────────────────┐   │
│  │  MLP Backbone (简单但有效)                       │   │
│  │  - 3 层 MLP                                      │   │
│  │  - 条件输入:控制信号、时间步                     │   │
│  └─────────────────────────────────────────────────┘   │
│              ↓                                          │
│  输出:当前帧姿态                                       │
│                                                         │
└─────────────────────────────────────────────────────────┘

设计选择

  • 简单 MLP: 无需复杂 Transformer
  • 轻量级: 适合实时运行
  • 条件扩散: 支持多种控制信号

3.3 控制技术套件

(1) Task-Oriented Sampling

思想:在采样过程中引导生成符合任务目标

方法

  • 在去噪过程中添加引导项
  • 类似 classifier guidance

(2) Motion In-Painting

任务:填充动作序列中的缺失部分

方法

  • 固定已知帧
  • 对未知帧进行扩散采样
  • 迭代优化边界

(3) Keyframe In-Betweening

任务:生成两个关键帧之间的过渡动作

方法

  • 条件扩散,边界条件固定
  • 自回归生成中间帧

(4) Hierarchical Reinforcement Learning

框架

高层策略 (Policy)
      ↓ (latent code / control signal)
A-MDM (动作生成器)
      ↓ (动作序列)
底层控制器 (执行)

训练

  • A-MDM 固定(预训练)
  • 只训练高层策略
  • 减少训练成本

四、训练细节

4.1 数据集

AMASS: 大规模动作捕捉数据集

  • 包含多样化动作
  • 用于预训练基础模型

4.2 训练配置

参数
去噪步数50
网络架构3 层 MLP
隐藏层维度512
批大小根据 GPU 调整

4.3 加速技巧

  1. 减少去噪步数

    • 从 1000 步降至 50 步
    • 质量 - 速度权衡
  2. 简单架构

    • MLP vs Transformer
    • 更快推理
  3. 自回归生成

    • 每帧独立生成
    • 支持在线控制

五、实验与结论

5.1 评估任务

  1. Joystick Control:摇杆控制角色移动
  2. Target Reaching:到达指定目标
  3. Trajectory Tracking:跟踪轨迹
  4. In-painting:动作补全
  5. In-betweening:关键帧过渡

5.2 对比基线

  • MVAE [Ling et al. 2020]
  • Humor [Rempe et al. 2021]
  • MDM [Tevet et al. 2023]

5.3 评估指标

指标含义
FID动作质量
Diversity多样性
FC脚部滑动
Inference Time推理时间

5.4 主要结果

  • 质量:FID 优于或等于 SOTA
  • 多样性:超越 VAE-based 方法
  • 速度:实时运行(50 步去噪)
  • 可控性:支持多种下游任务

六、局限性

  1. 自回归误差累积

    • 长序列可能 drift
    • 需要误差校正机制
  2. 50 步去噪仍较慢

    • 对于超低延迟应用
    • 可进一步加速
  3. MLP 表达能力

    • 对于复杂动作可能不足
    • 可在需要时升级架构

七、启发

7.1 方法学启发

  1. 自回归扩散的价值

    • 支持实时交互
    • 比 space-time 更灵活
  2. 轻量级设计

    • 简单 MLP 也能有效
    • 不必追求复杂架构
  3. 预训练 + 控制范式

    • 基础模型固定
    • 通过控制适配任务
    • 减少训练成本

7.2 与相关工作对比

方法架构去噪步数实时控制
A-MDMMLP50多种
MDMTransformer1000文本
MVAEVAE1有限
AAMDMDD-GAN+ADM5轨迹

八、关键公式

自回归公式: $$p(x_{1:T}) = \prod_{t=1}^{T} p(x_t | x_{1:t-1})$$

去噪过程: $$x_t = \text{Denoiser}(x_{t-1}, \epsilon, T)$$

引导采样: $$\tilde{\epsilon} = \epsilon - \alpha \nabla \mathcal{L}_{task}$$


笔记说明:A-MDM 是 SIGGRAPH 2024 工作,核心是将扩散模型重新设计为自回归形式,实现实时角色控制。与 AAMDM 相比,A-MDM 强调控制套件和下游任务适配能力。