AMD: Anatomical Motion Diffusion with Interpretable Motion Decomposition and Fusion

根据文本描述生成逼真的人体运动序列是一项具有挑战性的任务,需要同时捕捉自然语言和人体运动的丰富表现力。尽管扩散模型的最新进展推动了人体运动合成领域的重大突破,但现有方法在处理描述复杂或长时间运动的文本输入时仍存在困难。本文提出可适应运动扩散(AMD)模型,通过利用大语言模型(LLM)将输入文本解析为一系列与目标运动相对应的简洁可解释的解剖学脚本。该过程充分发挥了LLM为复杂运动合成提供解剖学指导的能力。我们设计了一种双分支融合方案,在反向扩散过程中平衡输入文本与解剖学脚本的影响,自适应地确保合成运动的语义保真度与多样性。我们的方法能有效处理包含复杂或长序列运动描述的文本,而现有方法在此类场景中往往表现不佳。在包含相对复杂运动的数据集(如CLCD1和CLCD2)上的实验表明,AMD模型显著优于现有最先进方法。