Deterministic-to-Stochastic Diverse Latent Feature Mapping

核心问题是什么?

目的

人体运动合成的目标在于生成逼真的人体运动序列。

现有方法及局限性

score-based生成模型(SGMs)及difusion生成模型。

优势:在人体运动合成任务中展现出了令人瞩目的成果。
局限性:这类模型的训练过程涉及复杂的曲率轨迹,导致训练稳定性面临挑战。

本文方法

确定性-随机双阶段潜在特征映射(DSDFM)方法:

第一阶段通

目标:通过人体运动运动重建(VQVAE with transformer network),学习运动数据的潜在空间分布。

作者用transfomer重训练了一个transformer based VQVAE,而不是经典的CNN based VQVAE。

第二阶段

目标:使用确定性特征映射过程(DerODE)构建高斯分布与运动潜在空间分布之间的映射关系。(方法类似flow matching)

推断

生成时通过通过向确定性特征映射过程的梯度场中注入可控噪声(DivSDE)实现多样性。(方法类似score matching)

效果

有效提升生成运动的多样性和准确性。

核心贡献是什么?

  1. 提出了一种新的生成范式:确定性-随机双阶段潜在特征映射(DSDFM)方法。
  2. 在人体运动生成任务上证明其有效性。

实验与结论

实验一:人体运动合成的横向对比

实验二:仅将本文方法中的第二阶段替换为其它SDE方法的效果对比

同类方法对比

VQVAE based text-2-motion方法对比

  1. 本文,2025.5
  2. MotionGPT,2023.6,link
  3. T2m-gpt,2023a,link

相同点:

  1. T帧编码成一个lantent code

不同点:

本文MotionGPTT2m-gpt
VQVAEtransformer basedCNN based,复用3的训练结果CNN based
采样方法flow matching、score matching,非自回归方式,一次只能生成固定长度LLM + LoRA,同LLM,应该也是自回归的transformer,自回归方式
控制方式没有说明,同flow/score matching作为prompt,因此控制的注入方式更灵活编码成clip,作为自回归的起始数据
生成效果生成质量好,且动作丰富质量好,但多样性有提升空间在生成质量上没有很大优势,重在训练简单且控制注入更灵活

局限性

.
.
.

Loss

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

有效

.
.
.
.
.
.
.
.
.
.
.
.

局限性

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

启发

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

遗留问题

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

参考材料