Motion Mamba: Efficient and Long Sequence Motion Generation

摘要：人体运动生成是生成式计算机视觉领域的重要研究方向，然而实现长序列且高效的运动生成仍面临挑战。近年来，状态空间模型（SSMs）尤其是Mamba的进展，通过硬件感知的高效设计在长序列建模中展现出巨大潜力，这为构建运动生成模型指明了重要方向。然而，由于缺乏针对运动序列建模的专用架构，将SSMs应用于运动生成仍存在障碍。为此，我们提出Motion Mamba——一种简单高效的方法，率先构建了基于SSMs的运动生成模型。具体而言，我们设计了分层时序Mamba（HTM）模块，通过在对称U-Net架构中集成不同数量的独立SSM模块来处理时序数据，以保持帧间运动一致性；同时开发了双向空间Mamba（BSM）模块，通过双向处理潜在姿态来增强时序帧内的运动生成精度。在HumanML3D和KIT-ML数据集上的实验表明，本方法相较于现有最佳扩散模型方法，FID指标提升最高达50%，推理速度提升达4倍，充分证明了其在高质量长序列运动建模与实时人体运动生成方面的强大能力。

状态空间模型SSN和Mamba

首先，需要区分两个概念：经典控制论中的状态空间模型 和 深度学习新模型（如Mamba）所指的状态空间模型。它们思想同源，但设计和目标不同。

1. 经典状态空间模型（控制论/时序分析）

在传统意义上，SSM是一个用于描述动态系统的数学模型，它由两个方程组成：

状态方程（过程模型）：描述系统内部状态如何随时间演变。 x(t) = A * x(t-1) + B * u(t) + w(t)
观测方程（测量模型）：描述我们如何从外部观测到系统的状态。 y(t) = C * x(t) + D * u(t) + v(t)

其中：

x(t)：系统在时刻 t 的内部状态（通常无法直接观测）。
u(t)：在时刻 t 的输入/控制信号。
y(t)：在时刻 t 的观测/输出信号。
A：状态转移矩阵，描述状态如何自行演变。
B：输入矩阵，描述输入如何影响状态。
C：输出矩阵，描述状态如何被我们观测到。
D：直通矩阵，描述输入如何直接影响输出（通常可忽略）。
w(t), v(t)：过程噪声和观测噪声。

应用场景：卡尔曼滤波、目标跟踪、经济预测、机器人导航等。其核心思想是通过嘈杂的观测数据，来估计一个动态系统的内部真实状态。

2. 深度学习中的状态空间模型（如Mamba, S4）

您论文中提到的SSM，特指的是一类近年来在深度学习领域复兴的序列模型。它们从经典SSM中汲取了核心思想，但将其重新设计为适用于通用序列建模（如自然语言、音频、运动）的可训练神经网络模块。

核心思想：

将这些模型看作一个将输入序列 u(t) 映射到输出序列 y(t) 的系统。它们通过一个隐含状态 x(t) 来记忆和整合过去的信息。

关键特点与优势：

连续系统离散化：
- 经典的SSM是定义在连续时间上的。为了处理离散的序列数据（如文本、运动帧），需要将其离散化。这会引入两个关键参数 ∆（步长）和 Ā, B̄（离散化后的状态矩阵）。
- Mamba的贡献之一是让 ∆ 和 B, C 成为输入依赖的，使得模型能够根据当前输入动态调整行为，从而更关注相关信息。
循环模式 vs. 卷积模式：
- 循环模式：按照时间步一步步计算，状态 x(t) 依赖于 x(t-1)。这非常高效（固定计算量/步），类似于RNN，但无法并行训练。
- 卷积模式：通过数学推导，可以将整个序列的输出 y 表示为输入 u 和一个卷积核 K 的卷积结果。这允许高效并行训练，但卷积核长度受限于训练长度，无法直接推广到更长的序列。
核心优势：
- 长序列建模：由于隐含状态的存在，理论上它可以记住非常长的上下文信息，避免了Transformer在长序列上的二次复杂度问题。
- 计算效率：无论是循环模式的高效推理，还是卷积模式的高效训练，SSM在计算和内存上都比Transformer更轻量。
- 硬件感知设计（Mamba的核心）：Mamba模型通过其选择性扫描机制，避免了 materializing 巨大的中间矩阵，实现了比其前身（S4模型）更快的速度，并保持了处理长序列的能力。

总结对比

特性	经典状态空间模型	深度学习状态空间模型（如Mamba）
目标	估计动态系统的内部状态	通用的序列建模与表示学习
应用领域	控制、滤波、预测	NLP、语音、视频、运动生成
参数	通常固定，由系统决定	可训练的神经网络参数
核心机制	卡尔曼滤波/平滑	离散化 + 并行化卷积 + 硬件优化
与Transformer关系	无关	替代/补充Transformer，解决其长序列、低效率问题

简单来说，在论文语境中：

状态空间模型（SSM）是一种新兴的深度学习架构，它通过一个可学习的、不断演变的“内部状态”来理解和处理序列信息。这种设计让它特别擅长处理像长序列运动数据这样的任务，因为它既能捕捉长距离依赖，又比传统的Transformer模型更高效。Mamba则是目前该系列中最先进的模型之一。

ReadPapers