Global-to-Local Modeling for Video-based 3D Human Pose and Shape Estimation

缩写	英文	中文
GLoT	Global-to-Local Transformer
HSCR	Hierarchical Spatial Correlation Regressor	分层空间相关回归器
GMM	Global Motion Modeling	全局运动建模
LPC	Local Parameter Correction	局部参数校正

核心问题是什么?

video-based 3D HPE通过帧内精度和帧间平滑度进行评估。

帧内精度是指单帧动作的准确性。帧间平滑度是指一个动作序列的趋势一致性。

尽管这两个指标负责不同范围的时间一致性，但现有的最先进方法将它们视为一个统一的问题，并使用单调的建模结构（例如 RNN 或 attention-based block）来设计其网络。

然而，使用单一类型的建模结构很难平衡短期和长期时间相关性的学习，并且可能使网络偏向其中一种，导致不好的预测结果，例如：

为了解决这些问题，我们提出一种端到端框架称为 Global-to-Local Transformer (GLoT)，可以结构性地解耦“长期特征的建模”和“短期特征的建模”。

首先，引入了global transformer以及用于长期建模的Masked HPE策略。该策略通过随机屏蔽多个帧的特征来刺激global transformer学习更多的帧间相关性。

是否能用于流式？

其次，local transformer负责利用人体mesh上的局部细节，并通过利用cross-attention与global transformer进行交互。
此外，进一步引入了Hierarchical Spatial Correlation Regressor，通过解耦的全局-局部表示和隐式运动学约束来细化帧内估计。

我们的 GLoT 在流行基准（即 3DPW、MPI-INF-3DHP 和 Human3.6M）上以最低的模型参数超越了以前最先进的方法

解耦长期和短期相关性的建模。所提出的Global-to-Local Transformer（GLoT）融合了深层网络和人类先验结构的知识，提高了我们方法的准确性和效率。
GLoT中包含两个组件，即Global Motion Modeling和Local Parameter Correction，分别用于学习帧间全局局部上下文和帧内人体网格结构。
在三个数据集的实验表明，GLoT 优于之前最先进的方法 [44]，且模型参数更少。

GLoT包括两个分支，即全局运动建模（GMM）和局部参数校正（LPC）。

首先从预训练的 ResNet-50 [11] 中提取Static Features，参考 [5, 17, 44]。
然后，通过Random Masking(分支1)和Nearby Frame Selection（分支2）分别处理静态特征 S，以将它们（Sl，Ss）输入全局和局部transformer。
最后，分层空间相关回归器（HSCR）使用解耦的全局-局部表示\(f_{gl}\)和内部运动学结构来校正GMM获得的全局结果\(θ^l_{mid}\)。
请注意，我们的方法利用 T 帧来预测中间帧，参考[5,44]

GMM得到的SMPL参数表示如下：

形状参数和相机参数通常是耦合的

人体运动的在中间帧中受到附近帧的显著影响

择附近的帧进行short-term建模，w 是附近帧的长度
对选定的tokens使用local encoder。
local decoder不仅通过cross attention机制解码代表全局人类运动一致性的特征，还解码代表局部细粒度人类mesh结构的特征。cross attention函数定义如下，