AvatarGPT: All-in-One Framework for Motion Understanding, Planning, Generation and Beyond
大型语言模型(LLM)在统一几乎所有自然语言处理任务方面展现出卓越的涌现能力。然而在与人体运动相关的研究领域,学者们仍在为每个任务开发孤立模型。受InstructGPT[16]与Gato[27]通用智能理念的启发,我们提出AvatarGPT——一个集运动理解、规划、生成以及中间帧合成等任务于一体的全能框架。该框架将各类任务视为基于共享大语言模型进行指令微调的不同变体,所有任务通过语言这一通用接口无缝衔接,形成闭环系统。
具体实现包含三个关键步骤:首先将人体运动序列编码为离散标记,作为大语言模型的扩展词汇表;随后开发无监督流程,从真实场景视频中自动生成人体动作序列的自然语言描述;最终进行多任务联合训练。大量实验表明,AvatarGPT在底层任务上达到顶尖水平,在高层任务中亦展现出良好性能,验证了所提一体化框架的有效性。更值得注意的是,AvatarGPT首次通过闭环系统内任务的迭代遍历,实现了无限长序列运动合成的理论突破。项目主页:https://zixiangzhou916.github.io/AvatarGPT/