Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video

研究背景与问题

要解决的问题

对现有 3D Mesh进行动画化

本文方法及优势

输入 1：初始几何 - 一个表示目标物体的初始点云 P1。它包含 N 个三维点 (pi ∈ R³)，通常通过对用户提供的静态 3D 网格进行采样获得。P1 定义了物体的初始形状。
输入 2：运动参考 - 一个单目视频 V。它包含 T 帧图像 (It)，由固定相机拍摄。视频提供了期望的运动模式或姿态序列参考。
输出：运动轨迹序列 - 一个点云序列 P = {P1, P2, ..., PT}。
实现手段： 使用一个 4D 潜在扩散模型 来建模和学习这个条件分布 p(P|P1, V)。该模型的核心功能是进行条件去噪：从一个噪声版本的点云序列开始，在 P1 和 V 的引导下，逐步去噪，最终得到干净的、代表目标动画的点云轨迹序列 P。

主要贡献

一种新颖的 4D 生成方法，利用单目视频为 3D 资产生成动画；

一个大规模 4D 资产数据集，包含多视角视频和网格顶点序列；

一种新的基于潜在扩散模型的方法，配备了专为 4D 生成设计的新型 VAE 架构和扩散结构。

主要方法

数据准备

从庞大的 Objaverse 数据集 [5, 4] 中精心策划了一个新的 4D 数据集，该数据集包含大量带标注的 3D 对象。

基于点云轨迹的运动表示

核心思想：将物体的运动表示为其网格顶点随时间的移动路径（轨迹）。
优点：输出是显式的点云序列 {Pt}，其中 Pt 是时间 t 时的顶点位置。这种表示天然兼容所有现代渲染引擎，因为引擎可以直接读取和渲染顶点位置序列定义的网格动画。
关键挑战：不同 3D 网格模型的顶点数量 (N) 差异很大。
解决方案：潜在集 (Latent Sets)