MotionGPT: Human Motion as a Foreign Language

尽管预训练大语言模型不断发展,但如何构建一个能够统一处理语言与运动等多模态数据的模型至今仍是一个尚未探索的挑战性课题。值得庆幸的是,人类运动与人类语言具有相似的语义耦合特性,常被视为一种身体语言形式。通过将语言数据与大规模运动模型相融合,能够提升运动相关任务性能的运动-语言预训练技术已成为可能。受此启发,我们提出MotionGPT——一个统一、通用且用户友好的运动语言模型,用于处理多种运动相关任务。具体而言,我们采用离散向量量化技术将人体运动转化为运动标记,其生成过程类似于文本标记的生成。基于该"运动词汇表",我们以统一的方式对运动和文本进行语言建模,将人体运动视为特殊形式的语言。此外受提示学习启发,我们采用运动-语言混合数据对MotionGPT进行预训练,并基于提示问答任务进行微调。大量实验表明,MotionGPT在文本驱动运动生成、运动描述、运动预测及运动补全等多个任务上均达到了领先水平。