LengthAware Motion Synthesis via Latent Diffusion
合成人体运动的时长是一个关键属性,需要对运动动力学和风格进行建模控制。加速动作执行并不仅仅是简单的快进播放。然而,目前最先进的人类行为合成技术在目标序列长度控制方面存在局限。我们提出了从文本描述生成长度感知的3D人体运动序列这一新课题,并提出了一种新颖模型来合成可变目标时长的运动,称之为"长度感知潜在扩散"(LADiff)。LADiff包含两个新模块:1)长度感知变分自编码器,通过长度相关的潜在代码学习运动表征;2)长度顺应潜在扩散模型,其生成运动的细节丰富度会随着所需目标序列长度的增加而提升。在HumanML3D和KIT-ML两个权威基准测试中,LADiff在大多数现有运动合成指标上显著超越了当前最先进技术。