mindmap
基于学习的动作生成
    按生成方式分
        自回归生成
        非自回归生成
            Regression
            完形填空式(Bert Style)
    按动作表示分
        连续表示
            原始表示
            AE/VAE Latent Code
        离散表示
            VQ-VAE
    按生成模型分
        确定性映射
        离散空间采样
            离散分布采样(GPT Style)
            掩码语言模型(Bert Style)
            离散去噪扩散概率模型(D3PM)
        连续空间采样
            VAE
            GAN
            diffusion

无条件动作生成

GAN

IDYearName解决了什么痛点主要贡献是什么TagsLink
1332022.12.18Modi: Unconditional motion synthesis from diverse data.从给定分布中无条件合成运动1. MoDi——一种在无监督设置下,从极其多样化、非结构化和无标签的数据集中训练得到的生成模型。
2. 将StyleGAN风格控制引入运动生成实现风格化运动生成
控制条件:无
生成方式:Regression
表示方式:连续表示(可能是VAE)
生成模型:Style GAN
其它:模式崩溃/混合(生成动作重复或混乱)
2022Ganimator: Neural motion synthesis from a single sequence小样本生成

TEXT-CONDITIONED MOTION GENERATION

Action to Motion

VAE

IDYearNameNoteTagsLink
2021.10Action-Conditioned 3D Human Motion Synthesis with Transformer VAE生成多样且真实的3D人体动作,作为后续研究的基线
不可学习的可微分SMPL层,数据依赖性强
– 生成长序列计算密集
ACTOR、Transformer + VAE、潜在高斯分布对齐
2020Action2Motion– 动作条件运动生成的首个方法
– 基于李代数的VAE框架
– 构建新3D运动数据集:HumanAct12
– 泛化能力不足
– 仅能生成单一动作的简单运动

Normalizing Flows

IDYearNameNoteTagsLink
2024.7Stylevr: Stylizing character animations with normalizing flowsStyle Label

Text to Motion

潜在表征对齐

IDYearNameNoteTagsLink
1002025.5.16MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation一种代替CLIP的文本编码方式,其编码空间能跟Motion有更好的对齐,因此更适用于文生动作任务。
MoCLIP是CLIP的Motion版,不能独立使用,需结合基于CLIP的文生动作Pipeline。
link
2023TMR [120]改进自TEMOS,提升文本-动作对齐,支持检索与生成,根据文本输出3D动作/跨模态检索结果
对比损失优化联合潜在空间,过滤误导性负样本(MPNet)
引入CLIP式对比学习,优化负样本选择策略提升检索性能
TEMOS/TMR通过共享潜在空间实现跨模态对齐,TMR进一步引入对比损失提升检索能力。
VAE隐空间对比学习
文本描述相似性过滤策略
泛化能力不足
部分场景内存效率低
2022Motionclip: Exposing human motion generation to clip space将运动潜空间直接对齐CLIP的语义文本嵌入,实现零样本泛化能力。然而,CLIP嵌入主要捕获静态图文语义,难以完整表征真实运动合成所需的时序与运动学细节。此外,直接微调CLIP嵌入可能导致预训练语义知识的灾难性遗忘。
2022Temos: Generating diverse human motions from textual descriptions.改进自ACTOR
实现文本到SMPL动作的生成
共享潜在空间中文本与动作表征对齐(跨模态一致性)
对称编码器(动作序列+冻结DistilBERT文本编码器),共享潜在空间
虽然生成运动真实,但存在内存消耗大(二次内存消耗、不适于长运动)、长序列处理弱、多样性不足的问题。
– 跨模态嵌入相似性 –
– 文本拼写错误时易失效
– 多样性不足
Transformer VAE、潜在空间对齐,非自回归

VAE

IDYearNameNoteTagsLink
2022TEACH [118]扩展自TEMOS,处理连续文本指令生成连贯动作
分层生成:非自回归(单个动作内) + 自回归(动作间时序组合)
分层策略实现时序组合与平滑过渡
TEACH结合非自回归与自回归生成平衡质量与效率。
存在的问题: 动作过渡时易出现加速度峰值
2023ATOM [Zhai et al., 2023]– CVAE分解复杂动作为原子动作
– 基于掩码运动的课程学习策略
– 解释复杂文本能力有限
– 文本-运动特征融合策略不足
2023MultiAct [Lee et al., 2023]– 条件VAE架构
– 生成多动作长序列模型
– 生成不真实运动
– 无法生成复杂多样动作序列
2022ImplicitMotion [Cervantes et al., 2022]– 变分隐式神经表示
– 线性计算成本
– 参数更新导致性能不稳定
2022UM-CVAE [Zhong et al., 2022]– 解耦序列级CVAE
– 基于FiLM的动作感知调制
– 无法生成全新动作
– 生成运动质量有限(数据依赖)
2022aGenerating diverse and natural 3d human motions from text两阶段(卷积AE + 时序VAE)分阶段生成文本对应动作
预训练运动编码器提取片段;时序VAE生成运动代码序列
两阶段框架(先编码运动代码,再生成序列)
– text2length阶段确定运动时长
– text2motion阶段用时序VAE生成运动
– 无法处理罕见动作(如“跺脚”)
– 细粒度描述和复杂动作失败
– 生成运动不真实
T2M, Transformer VAE
1442023.3.7Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Action Generation当前运动捕捉数据集中的动作短语通常只包含最精简的核心信息。通过为大语言模型精心设计提示模板,我们能够生成更丰富、更细粒度的动作描述。
– 首个基于LLM的文本条件运动生成
– 兼容VAE模型的模块
– 无法生成长序列
– 不支持复杂身体运动(瑜伽/舞蹈)
– 无手指运动

Motion-Conditioned Motion Generation

IDYearNameNoteTagsLink
272024Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment2D轨迹生成3D Motionlink
192024WANDR: Intention-guided Human Motion Generation基于初始与结束状态控制的动作生成。link
1132017Phasefunctioned neural networks for character controlPFNNlink

Training Free

IDYearNameNoteTagsLink
2025.5.2TSTMotion: Training-free Scene-awarenText-to-motion Generation场景感知,文生动作link
2024“Move as you say, interact as you can: Language-guided human motion generation with scene affordanceAffordMotion
2023Synthesizing diverse human motions in 3d indoor scenes
2022Humanise: Language-conditioned human motion generation in
3d scenes

AUDIO-CONDITIONED MOTION GENERATION

Speech to Gesture

IDYearNameNoteTagsLink
2025.5.6PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model音频驱动上半身人体动画link, link
2025.5.14CyberHost: A One-stage Diffusion Framework for Audio-driven Talking Body Generation单阶段音频驱动的说话身体生成link
2025.6.1TRiMM: Transformer-Based Rich Motion Matching for Real-Time multi-modal Interaction in Digital Humans实时3D手势生成link
2025.5.29MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation利用音频,以及从音频信号生成的运动掩码运动特征,共同驱动生成同步的语音-手势视频link
2025.5.22MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation以自我为中心的手-物体运动生成link
2025.5.21Intentional Gesture: Deliver Your Intentions with Gestures for Speech意图驱动手势生成框架link
2025.5.14Robust Photo-Realistic Hand Gesture Generation: from Single View to Multiple View高保真手势生成link
2025.5.3Co$^{3}$Gesture: Towards Coherent Concurrent Co-speech 3D Gesture Generation with Interactive Diffusion语音生成手势、双人交互、数据集link
2024Diffsheg: A diffusion-based approach for real-time speech-driven holistic 3d expression and gesture generation
2024Emotional speech-driven 3d body animation via disentangled latent diffusion
2024Semantic gesticulator: Semantics-aware co-speech gesture synthesis
2023Gesturediffuclip: Gesture diffusion model with clip latents– 多模态提示控制风格(文本+语音)
– CLIP引导的语音同步手势合成
– 数据依赖性强
– CLIP对细节运动建模有限
2023DiffGesture [Zhu et al.]– 扩散音频-手势Transformer(多模态信息处理)
– 扩散手势稳定器消除时序不一致
– 数据多样性不足
– 计算成本高昂

SCENE-CONDITIONED MOTION GENERATION

确定性映射

IDYearName解决了什么痛点主要贡献是什么TagsLink
1312016A deep learning framework for character motion synthesis and editing自动生成角色动作数据深开创了Deep Learning Based运动生成的先河控制条件:轨迹条件、风格条件(风格迁移)生成方式:非自回归
表示方式:连续表示(AE)
生成模型:确定性映射
link

VAE Based

IDYearNameNoteTagsLink
2025.6.18HOIDiNi: Human-Object Interaction through Diffusion Noise Optimizationlink
292024PACER+: On-Demand Pedestrian Animation Controller in Driving Scenarios基于2D轨迹或视频的行人动作生成link

Diffusion

IDYearNameNoteTagsLink
2025.5.19UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes整合静态环境、可移动物体、自然语言提示和空间路径点等多模态信息的文生动作link
2024.3.26Move as you say, interact as you can: Language-guided human motion generation with scene affordance3D环境中的文生3D动作link

交互动作生成

IDYearNameNoteTagsLink
2025.5.20Large-Scale Multi-Character Interaction Synthesis生成大规模多角色交互的角色动画link

多人动作生成

IDYearName解决了什么痛点主要贡献是什么TagsLink
2025.5.23Multi-Person Interaction Generation from Two-Person Motion Priors利用现有双人运动扩散模型作为运动先验,生成逼真且多样化的多人交互动作link

3D人体运动生成与合成数据集

数据集名称关键统计模态链接/备注
Motion-X++ [301]1950万3D姿势,120,500序列,80,800视频,45,300音频,自由文本描述3D/点云、文本、音频、视频Motion-X++
HumanMM (ms-Motion) [308]120长序列(237分钟),600多视角视频重建,包含罕见交互动作3D/点云、视频HumanMM
Multimodal Anatomical [309]51,051姿势(53解剖标记),48虚拟视角,2000+病理运动变体3D/点云、文本Multimodal Anatomical Motion
AMASS [242]11,265动作片段(43小时),整合15个数据集(如CMU、KIT),SMPL格式,100+动作类别3D/点云AMASS
HumanML3D [119]14,616序列(28.6小时),44,970文本描述,200+动作类别3D/点云、文本HumanML3D
BABEL [307]43小时动作(AMASS数据),250+动词中心动作类别,13,220序列,含时序动作边界3D/点云、文本BABEL
AIST++ [246]1,408舞蹈序列(1010万帧),9摄像机视角,15小时多视角视频3D/点云、视频AIST++
3DPW [245]60序列(51,000帧),多样化室内/室外场景,挑战性姿势与物体交互3D/点云、视频3DPW
PROX [310]20受试者,12交互场景,180标注RGB帧,场景感知运动分析3D/点云、图像PROX
KIT-ML [304]3,911动作片段(11.23小时),6,278自然语言标注(52,903词),BVH/FBX格式3D/点云、文本KIT-ML
CMU MoCap2605试验,6大类23子类,140+受试者3D/点云、音频CMU MoCap

文本到动作生成评估指标

评估指标定义/计算方式用途典型基准
FID (Fréchet Inception Distance)比较生成与真实动作特征分布的Fréchet距离(低值表示更真实)真实性评估(如虚拟现实应用)HumanML3D, KIT Motion-Language
R-Precision [311]在共享嵌入空间中,正确文本在Top-k匹配中的比例(如Top-1/3)语义一致性(文本-动作对齐)HumanML3D, BABEL
MultiModal Distance [312]动作与文本嵌入的欧氏距离(低值表示强语义耦合)跨模态语义对齐量化ExpCLIP [41], TMR [120]
Diversity [313]随机采样动作对的平均距离(高值表示生成多样性)动作空间覆盖广度DiverseMotion [122], Motion Anything [125]
Multimodality [313]同一文本生成多动作的方差(高值表示单提示下的多样性)单提示多样性(避免重复)MoMask [123], TEACH [118]
用户研究 (User Studies)人工评分自然度、情感表达、上下文相关性主观质量评估(自动化指标补充)研究论文中常用(如[314])

Reference

  1. Generative AI for Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions
  2. Human Motion Generation Summary
  3. Text-driven Motion Generation: Overview, Challenges and Directions