GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题 最强的开源模型BAGEL仅能完成5.8%的任务 上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。 RISEBench ai gpt 图像编辑 复杂指令 模型评测 理解能力