Prompt-to-Prompt Image Editing with Cross-Attention Control

核心问题是什么?

基于标题的图像编辑 (1) 修改某个单词的影响力;(2) 替换单词;(3) 添加单词;而那些不期望改变的部分能够保持不变。

核心贡献是什么?

大致方法是什么?

✅ 控制生成过程中的 attention maps。其具体方法为,在每个step中,把原始图像的 attention map 注入到 diffusion 过程中。
图中上面步骤描述正常的文生图的cross attention设计。
图中下面步骤描述了如何控制cross attention过程中的attention map。三种控制方式分别对应三种图像编辑方法。

P29

效果

缺陷

验证

启发

遗留问题

参考材料