┌─────────────────────────────────────────────────────────────────┐
│                  MOCHA Framework                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  输入：Source Motion (中性动作)                                  │
│              ↓                                                  │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  Bodypart Encoder                                       │   │
│  │  - 将人体分为 6 个部分                                      │   │
│  │  - 捕捉运动依赖关系                                      │   │
│  │  输出：Source Feature                                   │   │
│  └─────────────────────────────────────────────────────────┘   │
│              ↓                                                  │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  Neural Context Matcher (NCM)                           │   │
│  │  - 生成 Target Character Feature                         │   │
│  │  - 最相似上下文匹配                                     │   │
│  │  - Conditioned VAE + Autoregressive                     │   │
│  └─────────────────────────────────────────────────────────┘   │
│              ↓                                                  │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │  Characterizer                                          │   │
│  │  - Transformer Decoder                                  │   │
│  │  - AdaIN + Cross-Attention                              │   │
│  │  - 注入角色特征到源特征                                 │   │
│  └─────────────────────────────────────────────────────────┘   │
│              ↓                                                  │
│  输出：Characterized Motion (带角色风格的动作)                    │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.2 动作表示

参考帧定义：

root_i：当前帧 i 的骨盆关节地面投影
对齐地面法线和骨盆朝前方向

两种表示： $$X_i = [x]{i-(T-1)}^i, \quad x = [x^t_j, x^r_j, \dot{x}^t_j, \dot{x}^r_j]$$ $$Y_i = [y]{i-(T-1)}^i, \quad y = [y^t_j, y^r_j, \dot{y}^t_j, \dot{y}^r_j]$$

$x$: 相对于 root 的关节位置/旋转/速度
$y$: 相对于父节点的关节位置/旋转/速度
$T=60$ 帧（1 秒）
维度：$R^{T \times n_{joint} \times 15}$

3.3 Neural Context Matcher (NCM)

目的：生成与源动作上下文匹配的目标角色动作特征

架构：Conditioned VAE + Autoregressive

训练阶段:
Source Context → Prior Net → Latent s_i
                                ↓
                    NCM Decoder → Target Character Feature

推理阶段:
Source Context → Prior Net → Sample s_i
                                ↓
                    NCM Decoder → Target Character Feature

Prior Network： $$p(s_i | z_{i-1}^{cha}, f(z_i^{src})) = \mathcal{N}(\mu, \sigma)$$

NCM Decoder： $$z_i^{cha} = D_v(s_i, z_{i-1}^{cha}, f(z_i^{src}))$$

自回归生成：

每次生成一帧
条件于前一帧特征和当前源上下文
保证时间连贯性

3.4 Context Mapping

目的：创建与角色无关的上下文空间

特点：

跨角色域共享上下文信息
实现不同角色间的上下文匹配
从无标签数据中学习

损失函数：

重建损失
Contrastive Loss（增强区分性）

3.5 Characterizer

目的：将目标角色特征的风格注入源特征

架构：Transformer Decoder + AdaIN + Cross-Attention

输入：Source Feature + Character Feature
        ↓
Transformer Decoder Block
  - Self-Attention: 源特征内部关系
  - Cross-Attention: 角色特征→源特征
  - AdaIN: 自适应实例归一化
        ↓
输出：Translated Feature
        ↓
De-STGCN Upsample
        ↓
输出：最终 Characterized Motion

AdaIN (Adaptive Instance Normalization)： $$\text{AdaIN}(z_{src}, z_{cha}) = \sigma(z_{cha}) \cdot \frac{z_{src} - \mu(z_{src})}{\sigma(z_{src})} + \mu(z_{cha})$$

$\mu, \sigma$: 均值和标准差
将源特征归一化后，用目标特征的统计量重新缩放

Cross-Attention：

Query: 源特征
Key, Value: 角色特征
实现风格注入

四、训练细节

4.1 数据集

自建高质量数据集：

6 个不同角色（Zombie, Princess, Clown 等）
多样化动作（行走、坐、跳等）
专业表演捕捉

4.2 训练配置

组件	架构	输入	输出
Bodypart Encoder	GCN + Temporal	动作序列	Source Feature
NCM	C-VAE + Transformer	Context + Prior	Character Feature
Characterizer	Transformer Decoder	Source + Character	Translated Feature

4.3 损失函数

总损失： $$\mathcal{L} = \mathcal{L}{recon} + \mathcal{L}{KL} + \mathcal{L}{contrastive} + \mathcal{L}{style}$$

重建损失：动作重建误差
KL 损失：VAE 正则化
Contrastive Loss：增强上下文区分性
风格损失：风格特征匹配

五、实验与结论

5.1 评估任务

实时角色表征
- 将中性动作转换为特定角色风格
- 60 FPS 实时运行
稀疏输入表征
- 仅使用 sparse tracker 输入
- VR 应用
风格转换质量
- 与 prior work 对比
- 用户研究

5.2 对比基线

Motion Style Transfer 方法
Learned Motion Matching
Retargeting 方法

5.3 评估指标

指标	含义
Style Similarity	风格相似度
Context Preservation	上下文保持
Temporal Coherence	时间连贯性
Runtime	运行时间
User Preference	用户偏好

5.4 主要结果

质量：风格转换自然，上下文保持良好
速度：实时运行（60 FPS）
多功能性：支持稀疏输入、实时直播表征
用户偏好：优于基线方法

5.5 消融实验

验证关键设计：

AdaIN：显著提升风格转换质量
Contrastive Loss：增强上下文区分性
自回归 NCM：保证时间连贯性

六、局限性

角色多样性
- 训练数据中的角色有限
- 新角色需要重新训练
极端风格
- 非常夸张的风格可能失真
稀疏输入质量
- tracker 数量影响重建质量

七、相关工作对比

7.1 与 Motion Matching 的关系

MOCHA 属于 Motion Matching 系，论文明确说明：

"Inspired by Learned Motion Matching (LMM) approach [Holden et al. 2020], we train the neural context matcher (NCM) to generate the best matching character feature."

Motion Matching 系的演进：

代数	方法	匹配方式	特点
第一代	Motion Matching (2019)	数据库搜索最近邻	需要存储完整数据库
第二代	Learned Motion Matching (2020)	神经网络预测	消除数据库依赖
第三代	MOCHA (2023)	C-VAE 生成匹配	每帧运行，时间连贯

MOCHA 与 LMM 的区别：

维度	LMM	MOCHA
运行频率	每隔几帧	每帧运行
匹配对象	动作特征	上下文特征
网络架构	简单神经网络	C-VAE + 自回归
应用目标	动作生成	风格转换 + 重定向

NCM 的训练方式 (Section 5.2)：

Ground truth 来自在目标特征数据库中搜索的结果
D_tar = [Z_tar, f(Z_tar)] 是目标角色的特征数据库
NCM 学习预测最近邻搜索的结果

NCM 的推理：

用训练好的 C-VAE decoder 生成匹配的特征
自回归保证时间连贯性

7.2 与 Humor 等生成模型的关系

MOCHA 不属于 Humor/A-MDM 等生成模型系，原因如下：

维度	Humor/A-MDM	MOCHA
核心问题	"下一帧应该是什么动作？"	"哪个动作与当前最匹配？"
训练数据	动作序列	(源动作，目标动作) 配对
学习目标	建模动作流形/去噪扩散	学习匹配函数
监督信号	动作序列本身	最近邻搜索结果
输出	生成的动作分布	匹配的目标特征

本质区别：

Humor/A-MDM：学习动作的时间演化 (dynamics)，从过去预测未来
MOCHA：学习跨角色的风格匹配 (correspondence)，从源角色到目标角色

为什么 MOCHA 使用 C-VAE 但不是生成模型：

C-VAE 在 MOCHA 中是可微分的最近邻搜索工具
目的是生成"与源动作最匹配的目标特征"，而非"合理的下一帧动作"
训练监督信号来自数据库搜索，而非动作序列本身

7.3 与风格转换方法的对比

方法	实时	风格转换	重定向	上下文相关
MOCHA	✓	✓	✓	✓
Motion Puzzle	✗	✓	✗	△
Style Transfer	✗	✓	✗	✗
Retargeting	△	✗	✓	✗
LMM	✓	△	△	△

九、启发

9.1 方法学启发

风格是上下文相关的
- 不能将风格与上下文分离
- 需要联合建模
同时风格转换 + 重定向
- 统一框架处理两个问题
- 减少 pipeline 复杂度
AdaIN 在动作上的应用
- 从图像迁移到动作
- 有效注入风格统计量

9.2 与风格转换方法的对比

方法	实时	风格转换	重定向	上下文相关
MOCHA	✓	✓	✓	✓
Motion Puzzle	✗	✓	✗	△
Style Transfer	✗	✓	✗	✗
Retargeting	△	✗	✓	✗
LMM	✓	△	△	△

十、关键公式

Context Mapping： $$f(z_i^{src}) \in \mathbb{R}^{(\frac{T}{4} \times n_{body}) \times C}$$

NCM Prior： $$p(s_i | z_{i-1}^{cha}, f(z_i^{src})) = \mathcal{N}(\mu, \sigma)$$

AdaIN： $$\text{AdaIN}(z_{src}, z_{cha}) = \sigma(z_{cha}) \cdot \frac{z_{src} - \mu(z_{src})}{\sigma(z_{src})} + \mu(z_{cha})$$

Characterizer： $$z_d = D_c(z_i^{src}, z_i^{cha})$$

笔记说明：MOCHA 是 SIGGRAPH Asia 2023 工作，核心贡献是首个实时角色表征框架，同时处理风格转换和身体比例适配。关键创新包括 Neural Context Matcher、AdaIN + Cross-Attention 的 Characterizer。MOCHA 属于 Motion Matching 系（继承自 Learned Motion Matching），而非生成模型系——其核心是学习跨角色的风格匹配，而非动作的时间演化。

ReadPapers