Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Action Generation

本文提出Action-GPT——一种即插即用框架,旨在将大语言模型(LLM)融入基于文本的动作生成模型。当前运动捕捉数据集中的动作短语通常只包含最精简的核心信息。通过为大语言模型精心设计提示模板,我们能够生成更丰富、更细粒度的动作描述。研究证明,使用这些详细描述替代原始动作短语可有效提升文本空间与动作空间的对齐效果。我们提出了一种通用方法,可同时兼容随机性(如基于VAE)与确定性(如MotionCLIP)的文生动作模型,并支持使用多个文本描述进行生成。实验结果表明:(1)合成动作质量在定性与定量评估中均有显著提升;(2)使用多个LLM生成描述具有增益效应;(3)提示函数设计合理有效;(4)所提方法具备零样本生成能力。相关代码、预训练模型及示例视频将发布于https://actiongpt.github.io。