FreeEdit:基于参考的无掩膜图像编辑与多模态指令
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有图像编辑方法中缺乏用户指定视觉概念的问题,提出了FreeEdit,一种新颖的参考图像编辑方法。该方法通过多模态指令编码器与解耦残差参考注意力模块,精确地根据语言指令指导编辑过程,并且实现了高质量的零-shot 编辑,展示了其在多个任务类型上的卓越性能。
该论文介绍了UltraEdit,一个大规模自动生成的图像编辑数据集,解决了现有数据集的不足。通过大型语言模型和人工评估,提供高质量的图像编辑样本。UltraEdit支持扩展编辑指令和区域编辑,实验显示其在MagicBrush和Emu-Edit基准上表现出色。分析证实了真实图像锚点和区域编辑数据的重要性。