Human Motion Diffusion as a Generative Prior

最近研究表明,去噪扩散模型在人体运动生成(包括文本驱动运动生成)方面具有巨大潜力。然而,现有方法受限于标注运动数据匮乏、仅关注单人动作生成以及缺乏精细控制能力。本文基于扩散先验提出三种组合模式:序列组合、并行组合与模型组合。通过序列组合,我们解决了长序列生成难题,提出DoubleTake推理方法——仅通过短片段训练的扩散先验,即可生成由提示区间及其过渡组成的长动画序列。借助并行组合,我们在双人生成任务上取得突破性进展:基于两个固定先验及少量双人训练样本,我们开发了轻量级通信模块ComMDM,用于协调两个生成动作间的交互。通过模型组合,我们首先训练独立先验模型以生成符合指定关节约束的动作,进而提出DiffusionBlending插值机制,有效融合多个此类模型,实现灵活高效的关节级与轨迹级精细控制与编辑。我们采用现成的运动扩散模型对三种组合方法进行评估,并将生成结果与针对特定任务专门训练的模型进行对比验证。