GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

最强的开源模型BAGEL仅能完成5.8%的任务

上海AI实验室发布新基准RISEBench，评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务，开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理，显示当前模型在复杂指令理解上存在显著不足。

RISEBench ai gpt 图像编辑复杂指令模型评测理解能力