MMM: Generative Masked Motion Model
基于扩散模型与自回归模型的文本驱动动作生成技术近期取得显著进展,但其性能往往难以兼顾实时性、高保真度与动作可编辑性。为突破这一局限,我们提出MMM——一种基于掩码动作模型的全新简易动作生成范式。该框架包含两个核心组件:(1)动作分词器:将三维人体动作转换为潜空间中的离散标记序列;(2)条件掩码动作变换器:基于预计算文本标记,学习预测随机掩码的动作标记。通过全方位感知动作与文本标记的关联,MMM显式捕获了动作标记间的内在依赖性及动作-文本标记间的语义映射关系。在推理阶段,这种机制支持并行迭代解码生成与细粒度文本描述高度契合的多个动作标记,从而同步实现高保真与高速率的动作生成。此外,MMM具备天然的动作编辑能力:只需在待编辑位置设置掩码标记,模型即可自动填充内容,并确保编辑与非编辑片段间的平滑过渡。在HumanML3D和KIT-ML数据集上的大量实验表明,MMM生成的动作质量超越当前主流方法(其FID分数分别达到0.08和0.429),同时支持身体局部编辑、动作插帧及长序列生成等高级功能。在单块中端GPU上,MMM的运算速度比可编辑动作扩散模型快两个数量级。项目页面详见:https://exitudio.github.io/MMM-page/