MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model
核心问题是什么?

直接基于自然语言生成人体运动
现有方法及局限性
如何根据多样化文本输入实现细腻且精细的运动生成仍具挑战性。
本文方法及优势
MotionDiffuse——首个基于扩散模型的文本驱动运动生成框架,其展现出超越现有方法的三大特性:
1)概率性映射。通过注入变异的多步去噪过程生成运动,取代确定性语言-运动映射;
2)真实合成。擅长复杂数据分布建模并生成生动运动序列;
3)多级操控。支持身体部位的细粒度指令响应,以及基于时变文本提示的任意长度运动合成。
实验表明MotionDiffuse在文本驱动运动生成和动作条件运动生成方面显著优于现有SoTA方法。定性分析进一步证明框架在综合运动生成方面的强大可控性。项目主页:https://mingyuan-zhang.github.io/projects/MotionDiffuse.html
方法
[TODO] 图2
实验
KIT-ML, HumanML3D
效果SOTA
[TODO] 表1
[TODO] 表2