20250903角色骨骼动作生成

核心问题定义

用一句话说清楚:这个技术主要想解决动画/仿真领域的什么经典痛点或瓶颈?

角色骨骼动作生成是为了解决动画领域制作动画数据时间长门槛高的痛点。

技术解析

它是什么

用直观的语言描述这项技术的核心思想

根据用户意图,自动地为某个角色骨骼生成动画数据。通过动画数据可以让这个角色真实地动起来。

关键论文

关键论文/算法:找到1-2篇最具代表性的开创性论文或关键改进论文。不必深究数学细节,但要看懂其核心架构图和主要贡献。

  1. 深开创了Deep Learning Based运动生成的先河,可完成动作生成、轨迹控制动作生、带约束动作生成、动作风格迁移等任务。
IDYearName解决了什么痛点主要贡献是什么TagsLink
1312016A deep learning framework for character motion synthesis and editing自动生成角色动作数据深开创了Deep Learning Based运动生成的先河轨迹条件,AE,风格迁移link
  1. 首个基于Diffusion的文生动作工作,提升了动作生成的多样性和动作质量。但diffusion的架构生成速度较慢。
IDYearName解决了什么痛点主要贡献是什么TagsLink
1322022.8.31MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model根据多样化文本输入实现细腻且精细的运动生成首个基于扩散模型的文本驱动运动生成框架,通过文本特征与noise的self attention,实现文本-动作的跨模态生成
在噪声空间对不同文本提示的融合,实现不同部分的细粒度控制
在噪声空间对不同片断的融合,实现长序列的生成
CLIP, DDPM, Transformer,开源link
  1. 对动作进行离散表示,结合VQVAE和GPT,使用动作生成质量有极大的提升。
IDYearName解决了什么痛点主要贡献是什么TagsLink
882023.9.24T2m-gpt: Generating human motion from textual descriptions with discrete representations基于VQ-VAE与GPT的文生人体运动框架1. 基于VQ-VAE的离散运动表示
2. VQ-VAE + Transformer(GPT)的文生动作框架**
3. 生成质量(FID)有明显提升
VQ-VAE + Transformer, CLIP, 开源,自回归link

所需数据

所需数据:它需要什么样的数据进行训练?(图像、3D模型、运动捕捉数据、仿真数据?)是监督学习、无监督还是自监督?

通常是监督学习,需要『条件-动作数据』的数据对。

应用场景与案例

学术界

在Siggraph等顶会上,这项技术最常被用在哪些方面?找1-2个论文中的例子。

除了动作生成任务本身,非生成类任务(例如动作迁移、动作编辑等)也会使用生成类方法来解决。
生成后的动作可用于Mesh的驱动。

工业界

是否有公司已经将其产品化?

无产品化。

  1. 目前的动作生成任务通常针对特定骨骼角色实现,需要该骨骼的大量数据,因此实际上使用成本较高。
  2. 动作生成算法生成的动作质量不稳定,往往不能直接使用,需要动作优化或cherry-pick。

电影/VFX:迪士尼、Weta等工作室如何用它?

游戏:哪些游戏引擎或大厂在探索它?

创业公司:是否有基于该技术的明星创业公司?

价值主张分析(战略家的核心思考)

效率提升:它能将某个环节的速度提升多少倍?能节省多少艺术家的人力成本?

动画师对手K动作通过是先制作关键帧,再进行关键帧之间的插值。
算生成骨骼动作数据,一段196帧(6秒)的动作数据的生成时间为1min以内。
动画数据的生产效率有很大的提升。

质量突破:它是否能实现传统方法无法达到的质量或逼真度?

质量上比动画师制作有较大的差距。

创新可能性:它是否开启了全新的创作范式或产品类型?(例如,实时虚拟制作、个性化内容生成)

目前动画师不倾向于使用这种技术。因其生成质量与动画师有较大的差距,而在一个质量较差的动画数据上修改,不如直接重新制作方便。

现状与挑战

当前局限性:这项技术目前最大的问题是什么?(计算成本高、训练慢、控制力不足、艺术导向性差?)

  1. 生成质量不可控,动作不自然
  2. 需要生成特定角色有大量的数据
  3. 一个算法只能用于特定角色的生成
  4. 需要对生成动作有更精确的可控性
  5. 生成速度较慢,不能实时控制
  6. 依赖于蒙皮绑定的质量,受限于LBS的驱动效果。

未来趋势:它的下一个突破点可能在哪里?

  1. 降低使用成本
  • 通过其它方向引入先验信息,减少对特定数据的依赖
  • 算法具有通用性,基于一个角色的生成模型,经过少量的调整即可适用于另一角色
  • 更多控制方式,适配多种场景
  1. 电影等高质量场景
  • 动作可以更精确地控制
  • 提升动作的pick率
  • 提升动作质量的自然性、合理性
  1. 游戏等实时场景
  • 保证生成质量的下限,避免出现不可接受的生成结果
  • 提升生成速度,实现可实时交互
  1. 可进行长序列生成

  2. 直接的Mesh驱动