StableMoFusion: Towards Robust and Efficient Diffusion-based Motion Generation Framework

得益于扩散模型强大的生成能力,人体动作生成领域近年来发展迅速。现有的基于扩散模型的方法采用了各不相同的网络架构和训练策略,各个组件设计的具体影响尚不明确。此外,迭代去噪过程需要消耗大量计算资源,这对虚拟角色和人形机器人等实时应用场景而言难以承受。为此,我们首先对网络架构、训练策略及推理过程进行了全面研究,基于深入分析为高效高质量的人体动作生成量身优化每个组件。尽管优化后的模型表现出色,但仍存在脚部滑动现象——这是基于扩散的解决方案中普遍存在的问题。为消除脚部滑动,我们通过识别足地接触关系并在去噪过程中修正脚部运动,将这些精心设计的组件有机整合,提出了稳健高效的人体动作生成框架StableMoFusion。大量实验结果表明,我们的StableMoFusion在性能上优于当前最先进方法。项目页面:https://h-y1heng.github.io/StableMoFusionpage/。