Text-driven Human Motion Generation with Motion Masked Diffusion Model
文本驱动的人体运动生成是一项多模态任务,旨在根据自然语言描述合成人体运动序列。该任务要求模型在多样化条件输入下满足文本描述,同时生成合理逼真且具有高度多样性的人类动作。基于扩散模型的方法在生成的多样性和多模态性方面表现突出,但与在推理前训练运动编码器的自回归方法相比,扩散方法在拟合人体运动特征分布方面存在不足,导致FID评分不理想。一个重要发现是,扩散模型缺乏通过上下文推理学习时空语义间运动关系的能力。为解决这一问题,本文提出运动掩码扩散模型(MMDM),通过新颖的人体运动掩码机制显式增强扩散模型从运动序列上下文关节中学习时空关系的能力。此外,针对人体运动数据具有动态时间特征和空间结构的特点,我们设计了两种掩码建模策略:时间帧掩码和身体部位掩码。在训练过程中,MMDM会对运动嵌入空间中的特定标记进行掩码处理,随后设计的扩散解码器在每个采样步骤中学习从掩码嵌入还原完整运动序列,使模型能够从不完整表征中恢复完整序列。在HumanML3D和KIT-ML数据集上的实验表明,我们的掩码策略能有效平衡运动质量与文本-运动一致性。