M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models

摘要:本文提出多动作离散扩散模型(M2D2M),这是一种利用离散扩散模型优势、从多动作文本描述生成人体运动的新方法。该方法巧妙解决了生成多动作序列的挑战,能确保动作间流畅过渡及系列动作的连贯性。M2D2M的核心优势在于其离散扩散模型中的动态转移概率机制——该机制根据运动标记的邻近性自适应调整转移概率,有效促进不同模态间的混合。结合包含独立去噪与联合去噪的两阶段采样策略,M2D2M仅需使用单动作生成训练的模型,即可有效生成长期、平滑且上下文连贯的人体运动序列。大量实验表明,M2D2M在文本描述生成运动任务上超越了当前最先进的基准模型,其在语言语义解析与动态逼真运动生成方面的效能得到了充分验证。