Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation
基于文本引导的人体动作生成技术因其在动画与机器人领域的广泛应用而备受关注。近年来,扩散模型在动作生成中的应用显著提升了生成动作的质量。然而,现有方法受限于对较小规模动作捕捉数据的依赖,导致在面对多样化真实场景提示时表现不佳。本文提出Make-An-Animation这一文本条件化人体动作生成模型,通过从大规模图文数据集中学习更丰富的姿态与提示信息,实现了性能上的重大突破。
该模型采用两阶段训练策略:首先利用从图文数据集中提取的(文本,静态伪姿态)配对数据进行大规模预训练,随后在动作捕捉数据上通过新增时序建模层进行微调。与现有基于扩散模型的动作生成方法不同,Make-An-Animation采用类似最新文生视频模型的UNet架构。在动作真实性与文本契合度的人工评估中,本模型达到了文本驱动动作生成领域的最先进水平。生成样本可访问https://azadis.github.io/make-an-animation 查看。