PoseGPT: Quantization-based 3D Human Motion Generation and Forecasting

本文研究动作条件引导下的人体运动序列生成问题。现有研究主要分为两类:基于观测历史运动的预测模型,或仅依赖动作标签与时长的生成模型。与此不同,我们实现了任意观测长度(包括零观测)条件下的运动生成。针对这一广义问题,我们提出PoseGPT——一种基于自回归变换器的模型,其内部通过量化潜在序列对人体运动进行压缩编码。我们首先通过自编码器将人体运动映射至离散空间的潜在索引序列,并实现反向重构。受生成式预训练变换器(GPT)启发,我们训练了适用于该离散空间的类GPT模型进行索引预测,使PoseGPT能够输出未来运动的概率分布,且无需依赖历史运动观测。潜在序列的离散压缩特性使类GPT模型能聚焦长期运动特征,有效消除输入信号中的低频冗余。离散索引预测还规避了连续值回归中常见的“平均姿态”预测陷阱——因为离散目标的平均值本身并非有效目标。实验结果表明,我们所提方法在HumanAct12(标准小规模数据集)、BABEL(新兴大规模运动捕捉数据集)及GRAB(人物交互数据集)上均达到了最先进水平。