Maskedmimic: Unified physics-based character control through masked motion

摘要

创建一个能够为各种场景中的交互式角色注入生命力的单一、多功能物理基础控制器,代表了角色动画领域的一个令人兴奋的前沿。理想的控制器应该支持多样化的控制模态,例如稀疏目标关键帧、文本指令和场景信息。虽然先前的工作提出了物理模拟的、场景感知的控制模型,但这些系统主要集中在开发专门针对狭窄任务集和控制模态的控制器。本文提出了MaskedMimic,这是一种将基于物理的角色控制表述为通用运动修复问题的新方法。我们的关键洞察是训练一个统一的模型,从部分(掩码)运动描述中合成运动,例如掩码关键帧、对象、文本描述或其任意组合。这是通过利用运动跟踪数据并设计可扩展的训练方法来实现的,该方法能够有效利用多样化的运动描述来产生连贯的动画。通过这一过程,我们的方法学习了一个物理基础控制器,提供了直观的控制界面,而无需为所有感兴趣的行为进行繁琐的奖励工程。所得到的控制器支持广泛的控制模态,并能够在不同任务之间实现无缝过渡。通过运动修复统一角色控制,MaskedMimic创造了多功能的虚拟角色。这些角色可以动态适应复杂场景并按需组合多样化运动,从而实现更具交互性和沉浸感的体验。

基本信息

  • 作者: Chen Tessler, Yunrong Guo, Ofir Nabati, Gal Chechik, Xue Bin Peng
  • 发表时间: 2024年9月22日
  • arXiv编号: arXiv:2409.14393 [cs.AI]
  • 期刊: ACM Transactions on Graphics (Proc. SIGGRAPH Asia 2024)
  • 项目页面: https://research.nvidia.com/labs/par/maskedmimic/

文章要解决的问题:

  • 多模态输入的运动实时控制

主要技术点:

  1. CVAE生成模型架构:以条件变分自编码器(CVAE)作为核心生成模型,输入多模态控制信号,输出物理一致的控制结果
  2. 掩码运动修复机制:CVAE的输入使用掩码方式,能够兼容各种任务的输入需求(关键帧、对象、文本描述等任意组合),通过运动补全达到统一多模态输入的目的
  3. 轨迹优化蒸馏:将轨迹优化功能蒸馏到生成模型中,输出的是PD控制的目标而不是动画数据,这使得控制器可以直接驱动物理仿真
  4. 训练数据预处理:为了让生成模型直接学到轨迹跟踪目标,先用轨迹跟踪算法处理mocap数据,得到PD控制目标作为CVAE的训练真值(GT)

创新点总结

  • 统一控制框架:通过运动修复范式统一了多种控制模态
  • 无需奖励工程:避免了为每个行为设计复杂奖励函数的需求
  • 实时响应能力:支持交互式应用场景的实时控制需求
  • 无缝任务切换:能够在不同任务之间实现平滑过渡

相关对比: