AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation

研究背景与问题

根据文本驱动对任意3D网格进行动画化

采用了一种新颖的 DyMeshVAE 架构，通过将空间特征和时间特征解耦，并保留局部拓扑结构，从而有效地压缩并重建动态网格序列。
为了实现高质量的文本条件生成，我们在压缩后的潜在空间中采用了一种基于修正流（Rectified Flow）的训练策略。贡献了一个名为 DyMesh Dataset 的大规模数据集，包含超过400万个带有文本标注的多样化动态网格序列。

实验结果表明，AnimateAnyMesh能够在几秒钟内生成语义准确且时间连贯的网格动画，在质量和效率方面均显著优于现有方法。

给定一个动态网格序列 $ \mathcal{D} \subset { F \in \mathbb{R}^{M\times3},\ V \in \mathbb{R}^{T\times N\times3} } $

首先将顶点序列 $ V $ 分解为初始帧顶点 $ V_0 \in \mathbb{R}^{N\times3} $ 和相对运动轨迹 $ V_T \in \mathbb{R}^{N\times(T\cdot3)} $，满足以下关系：

$$ V^t = V^0_t + V^t_T,\quad \text{其中 } t = 1, 2, \dots, T $$

其中 $ t $ 表示时间序列的索引。

将顶点序列 V 拆分为 V0 和 VT 是DyMeshVAE 的关键建模思想之一。这种分解方式有助于实现形状与运动的解耦建模，同时使得运动分布更接近一个均值为零的正态分布。

目的：增强轨迹重建的稳定性并防止粘连效应

方法：对 $ V_0 $ 和 $ V_T $ 使用不同的位置编码策略，从而得到编码后的特征 $ \hat V_{0} $ 和 $ \hat V_{T} $。

从输入网格的面片信息 F 中构建一个邻接矩阵 Adj。该邻接矩阵随后作为自注意力层中的注意力掩码，使每个顶点能够聚合其相邻顶点的信息：

$$ \bar V_0 = \text{Softmax}\left( \frac{\hat V_{0} \cdot \hat V_{0}^T \odot \text{Adj}}{\sqrt{d_k}} \right)\hat V_{0} + \hat V_{0} \tag{2} $$

对拓扑感知顶点特征 $\bar \V_0$应用最远点采样（Farthest Point Sampling, FPS）55，得到$\bar \V_0^n$

目的：对相对轨迹 $\hat \V_T^n$ 的分布进行建模。

目的：在给定初始网格和文本提示的条件下估计相对轨迹的后验分布。

每个动态网格序列 $ \mathcal{D} $ 被编码为一对潜表示 $ {V_n^0, Z_n^T} $。

遵循修正流（Rectified Flow, RF）[42]的扩散范式，我们旨在最小化预测流与真实流之间的均方误差。

修正流：Flow straight and fast: Learning to generate and transfer data with rectified flow

基于流式的常微分方程（ODE）公式实现修正流的采样过程。
采样完成后，将生成的轨迹特征 $ Z_n^T $ 与拓扑感知顶点特征 $ V_n^0 $ 输入解码器生成相对轨迹，最终通过将解码的顶点位移应用于给定网格，生成动态网格序列。

方法	技术缺陷	本方案解决策略
DG4D	视频蒸馏导致3D表示退化 • 高斯球参数无法精确描述拓扑变化	✅ 直接操作网格顶点 • 保留显式几何结构
L4GM	视频生成依赖背景信息 • 孤立物体缺乏纹理线索 → 运动估计失真	✅ 端到端轨迹学习 • 无需中间视频表示
Animate3D	多阶段误差传递网格→高斯→视频→轨迹的转换损失	✅ 单阶段预测框架 • 消除累计误差