Seamless Human Motion Composition with Blended Positional Encodings

条件式人体运动生成是一个重要的研究课题,在虚拟现实、游戏和机器人技术等领域具有广泛应用。现有研究多集中于基于文本、音乐或场景引导的运动生成,但这些方法通常只能生成短时孤立的运动片段。本文致力于解决根据连续变化的文本描述生成长时间连续运动序列的问题。为此,我们提出了FlowMDM——首个基于扩散模型的、无需后处理或冗余去噪步骤即可生成无缝人体运动组合(HMC)的方法。我们创新性地提出了混合位置编码技术,在去噪链中同时利用绝对位置编码和相对位置编码。具体而言,绝对编码阶段重建全局运动一致性,而相对编码阶段则构建平滑逼真的动作过渡。在Babel和HumanML3D数据集上的实验表明,我们的方法在动作准确性、真实感和流畅度方面均达到了最先进水平。得益于其以动作为核心的交叉注意力机制,FlowMDM在仅使用单个描述训练的情况下,仍能有效应对推理时多变的文本输入。最后,针对现有HMC评估指标的局限性,我们提出了两个新指标:峰值加加速度和加加速度曲线下面积,用以检测运动中的突变转换。