TokenFlow: Consistent Diffusion Features for Consistent Video Editing

P179

TokenFlow

Consistent high-quality semantic edits

Main challenge using T2I to edit videos without finetuning: temporal consistency

✅ 视频编辑领域比较难的问题:怎么保持时序一致性。

P180

Key Idea

  • Achieve consistency by enforcing the inter-frame correspondences in the original video

P181

Main idea

✅ 在 UNet 中抽出 feature map 之后,找 correspondence 并记录下来。在 denoise 过程中把这个 correspondence 应用起来。
❓ 什么是 inter-frame correspondence? 例如每一帧的狗的眼睛的运动。要让生成视频的狗的眼晴具有相同的运动。

P182

During conditional denoising, use features from corresponding positions in preceding and following frames instead of the pixel's own feature at output of extended-attention


✅ 在 DDIM inversion 过程中,把 attention maps 保存下来了,在 denoise 时,把这个 map 结合进去。
✅ 在 attention map 上的演进。

P183

Result

✅ 逐帧编辑抖动严重,而 Token Flow 更稳定。