Priority-Centric Human Motion Generation in Discrete Latent Space
文本驱动动作生成是一项极具挑战的任务,其目标是生成既符合输入文本描述,又遵循人体运动规律与物理定律的人类动作。尽管扩散模型已取得显著进展,但其在离散空间中的应用仍待深入探索。现有方法往往忽视不同动作的重要性差异,对其进行均等处理。需要认识到的是,并非所有动作都与特定文本描述具有同等关联度——某些更具显著性和信息量的动作应在生成过程中被优先考虑。为此,我们提出了以优先级为核心的动作离散扩散模型(M2DM):该模型采用基于Transformer的VQ-VAE架构,通过全局自注意力机制与正则化项构建紧凑的离散动作表示,有效防止代码坍塌;同时设计了一种创新的运动离散扩散模型,通过分析动作令牌在整体序列中的重要性来制定噪声调度策略。这种方法在逆向扩散过程中保留最显著的动作特征,从而生成语义更丰富、多样性更强的动作序列。此外,我们融合文本与视觉指标提出两种动作令牌重要性评估策略。在HumanML3D和KIT-ML数据集上的综合实验表明,本模型在生成真实性与多样性方面均超越现有技术,尤其对于复杂文本描述场景具有显著优势。