基于增强驱动的度量方法:平衡文本导向图像编辑中的保留与修改
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对文本导向图像编辑中缺乏专门评估指标的问题,提出了一种新颖的评估方法AugCLIP,能够平衡图像的核心元素保留与目标文本要求的修改。通过引入多模态的大型语言模型,AugCLIP有效提高了对理想编辑图像表现的评估,与现有度量相比,其结果更贴近人类评估标准,有望推动文本导向图像编辑领域的进一步发展。
论文介绍了UltraEdit,一个大规模自动生成的图像编辑数据集,解决了现有数据集的不足。通过大型语言模型和人工评估,提供高质量的图像编辑样本。UltraEdit支持扩展编辑指令和区域编辑,实验显示其在MagicBrush和Emu-Edit基准上表现出色。分析强调了真实图像锚点和区域编辑数据的重要性。