[2025.5.6] PARC: Physics-based Augmentation with Reinforcement Learning for Character Controllers
摘要
人类在多样复杂的环境中展现出卓越的敏捷运动技能,例如跑酷运动员能够执行攀爬墙壁和跨越间隙等动态动作。在模拟角色中重现这些敏捷动作仍然具有挑战性,部分原因是缺乏用于敏捷地形穿越行为的动作捕捉数据,且获取此类数据的成本很高。
在本研究中,我们提出了PARC(基于物理增强与强化学习的角色控制器框架),该框架利用机器学习和基于物理的仿真技术来迭代扩充动作数据集并扩展地形穿越控制器的能力。
PARC首先在一个包含核心地形穿越技能的小型数据集上训练动作生成器,然后使用该生成器为新地形生成合成数据。然而,这些生成的动作通常会出现伪影,如接触错误或不连续性。
为纠正这些伪影,我们训练了一个基于物理的跟踪控制器在仿真中模仿这些动作。校正后的动作随后被添加到数据集中,用于在下一次迭代中继续训练动作生成器。
PARC的迭代过程共同扩展了动作生成器和跟踪器的能力,创建出能够与复杂环境交互的敏捷且多功能的模型。PARC为开发敏捷地形穿越控制器提供了一种有效方法,弥合了动作数据稀缺性与多功能角色控制器需求之间的差距。
核心方法与关键技术
要解决的问题
用于敏捷地形穿越行为的动捕数据极度稀缺
核心框架:基于物理仿真的迭代数据扩增框架
- Motion Generator(扩散模型):从少量初始 mocap + 地形信息,学习地形感知的运动分布,生成新地形的合成轨迹
- Motion Tracker(RL 追踪控制器):在物理仿真中模仿生成轨迹,通过物理约束修正不可信部分,输出稳定可执行的轨迹
- 迭代循环:修正后的可信轨迹回炉训练生成器 → 生成器能力提升 → 生成更难地形的轨迹 → 再次物理修正 → 数据集与控制器能力同步扩张
核心挑战
如何在不断加入合成数据时,避免原始 mocap 分布漂移与动作风格异化?
PARC 的四项关键机制防止性能退化
- 固定采样比例:训练时始终保留原始 mocap 作为监督锚点,避免分布被稀释
- 物理约束修正:RL 控制器在物理约束下执行模仿,将生成轨迹修正为物理可信的稳定运动
- 质量筛选机制:仅保留控制器能成功跑完、无摔倒/穿模/滑步的高质量样本,失败样本直接丢弃
- 小步迭代策略:采用微调策略,每次仅扩增少量新数据,防止分布剧烈漂移
额外质量保障
新增数据需通过平滑性指标(关节速度/加速度/力矩变化幅度)过滤,仅保留自然流畅、无僵硬突变的样本。
基本信息
- 作者: Michael Xu, Yi Shi, KangKang Yin, Xue Bin Peng
- 会议: SIGGRAPH Conference Papers 2025
- 提交日期: Tue, 6 May 2025
- arXiv: arXiv:2505.04002
- DOI: 10.1145/3721238.3730616
- 分类: Graphics (cs.GR); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Robotics (cs.RO)