本文介绍了GIE-Bench,这是一个用于评估文本引导图像编辑模型的新基准。该基准通过功能正确性和图像内容保留两个维度进行评估,包含1000多个高质量编辑示例。研究发现,GPT-Image-1在指令遵循准确性上表现优异,但常常过度修改无关区域,揭示了当前模型行为的权衡。GIE-Bench为更准确的评估提供了可扩展的框架。
完成下面两步后,将自动完成登录并继续当前操作。