量子位 ·

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

💡 原文中文，约3700字，阅读约需9分钟。

📝

内容提要

上海AI实验室发布新基准RISEBench，评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务，开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理，显示当前模型在复杂指令理解上存在显著不足。

🎯

🔎

RISEBench的推出标志着图像编辑模型评测的重大进步。它不仅关注表面修改，还深入考察模型在时间、因果、空间和逻辑推理等复杂指令下的表现。这种全面的评估方式有助于推动模型的进一步发展，提升其理解能力。

评测结果显示，闭源模型如GPT-4o-Image在复杂任务中的表现远超开源模型BAGEL，后者仅完成5.8%的任务。这一差距反映了当前开源模型在视觉理解能力上的不足，未来需要更多的研究和改进以缩小这一鸿沟。

当前视觉编辑模型在复杂指令理解上普遍存在欠缺，尤其是在逻辑推理和因果关系的把握上。团队指出，未来模型的性能提升将依赖于更深层次的认知和推理能力，而不仅仅是技术实现。

❓

RISEBench是上海AI实验室发布的图像编辑评测基准，旨在评估视觉编辑模型的理解能力，特别是在复杂指令下的表现。

GPT-4o-Image在RISEBench上仅完成28.9%的任务，显示出在复杂视觉编辑任务中的不足。

RISEBench评测模型的三个关键维度为指令理解、外观一致性和视觉合理性。

开源模型BAGEL在RISEBench上仅能完成5.8%的任务，显示出与闭源模型的显著差距。

RISEBench设计了360道高难度问题，全部由人类专家仔细思考并校对，以确保问题的严谨性和挑战性。

未来视觉编辑模型发展的关键瓶颈在于更深层次的认知和推理能力。

🏷️