Deterministic-to-Stochastic Diverse Latent Feature Mapping
核心问题是什么?
目的
人体运动合成的目标在于生成逼真的人体运动序列。
现有方法及局限性
score-based生成模型(SGMs)及difusion生成模型。
优势:在人体运动合成任务中展现出了令人瞩目的成果。
局限性:这类模型的训练过程涉及复杂的曲率轨迹,导致训练稳定性面临挑战。
本文方法

确定性-随机双阶段潜在特征映射(DSDFM)方法:
第一阶段通
目标:通过人体运动运动重建(VQVAE with transformer network),学习运动数据的潜在空间分布。
作者用transfomer重训练了一个transformer based VQVAE,而不是经典的CNN based VQVAE。
第二阶段
目标:使用确定性特征映射过程(DerODE)构建高斯分布与运动潜在空间分布之间的映射关系。(方法类似flow matching)
推断
生成时通过通过向确定性特征映射过程的梯度场中注入可控噪声(DivSDE)实现多样性。(方法类似score matching)
效果
有效提升生成运动的多样性和准确性。
核心贡献是什么?
- 提出了一种新的生成范式:确定性-随机双阶段潜在特征映射(DSDFM)方法。
- 在人体运动生成任务上证明其有效性。
实验与结论
实验一:人体运动合成的横向对比

实验二:仅将本文方法中的第二阶段替换为其它SDE方法的效果对比

同类方法对比
VQVAE based text-2-motion方法对比
相同点:
- T帧编码成一个lantent code
不同点:
| 本文 | MotionGPT | T2m-gpt | |
|---|---|---|---|
| VQVAE | transformer based | CNN based,复用3的训练结果 | CNN based |
| 采样方法 | flow matching、score matching,非自回归方式,一次只能生成固定长度 | LLM + LoRA,同LLM,应该也是自回归的 | transformer,自回归方式 |
| 控制方式 | 没有说明,同flow/score matching | 作为prompt,因此控制的注入方式更灵活 | 编码成clip,作为自回归的起始数据 |
| 生成效果 | 生成质量好,且动作丰富 | 质量好,但多样性有提升空间 | 在生成质量上没有很大优势,重在训练简单且控制注入更灵活 |
局限性
.
.
.
Loss
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
有效
.
.
.
.
.
.
.
.
.
.
.
.
局限性
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
启发
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
遗留问题
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.