Apple Machine Learning Research ·

GIE-Bench：面向文本引导图像编辑的基础评估

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了GIE-Bench，这是一个用于评估文本引导图像编辑模型的新基准。该基准通过功能正确性和图像内容保留两个维度进行评估，包含1000多个高质量编辑示例。研究发现，GPT-Image-1在指令遵循准确性上表现优异，但常常过度修改无关区域，揭示了当前模型行为的权衡。GIE-Bench为更准确的评估提供了可扩展的框架。

🎯

关键要点

GIE-Bench是一个用于评估文本引导图像编辑模型的新基准，评估维度包括功能正确性和图像内容保留。
该基准包含1000多个高质量编辑示例，涵盖20个不同内容类别，并附有详细的编辑指令和评估问题。
研究发现，GPT-Image-1在指令遵循准确性上表现优异，但常常过度修改无关区域，揭示了当前模型行为的权衡。
GIE-Bench提供了一个可扩展、可重复的框架，以推动对文本引导图像编辑的更准确评估。

🔎

延伸解读

评估方法的创新

GIE-Bench通过功能正确性和图像内容保留两个维度进行评估，提供了一种更为精准的评估框架。这种方法不仅关注模型是否能正确执行指令，还考虑了编辑后图像的整体一致性，避免了传统方法的局限性。

模型表现的权衡

研究显示，尽管GPT-Image-1在指令遵循准确性上表现优异，但其在处理无关区域时常常过度修改。这一现象揭示了当前文本引导图像编辑模型在准确性与内容保留之间的权衡，提示开发者在优化模型时需关注这一问题。

数据集的重要性

GIE-Bench包含1000多个高质量编辑示例，涵盖20个不同内容类别。这种多样性不仅增强了评估的全面性，也为未来的研究提供了丰富的数据基础，推动文本引导图像编辑技术的进一步发展。

❓

延伸问答

GIE-Bench的主要评估维度是什么？

GIE-Bench的主要评估维度包括功能正确性和图像内容保留。

GIE-Bench包含多少个编辑示例？

GIE-Bench包含超过1000个高质量编辑示例。

GPT-Image-1在评估中表现如何？

GPT-Image-1在指令遵循准确性上表现优异，但常常过度修改无关区域。

GIE-Bench如何确保图像内容的保留？

GIE-Bench使用对象感知掩膜技术和保留评分来确保非目标区域的视觉一致性。

GIE-Bench的可扩展性如何？

GIE-Bench提供了一个可扩展、可重复的框架，以推动对文本引导图像编辑的更准确评估。

GIE-Bench的编辑示例覆盖了多少个内容类别？

GIE-Bench的编辑示例覆盖了20个不同的内容类别。

🏷️