GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
💡
原文中文,约3700字,阅读约需9分钟。
📝
内容提要
上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。
🎯
关键要点
- 上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。
- GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。
- RISEBench考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。
- RISEBench设计了360道高难度问题,确保问题的严谨性和挑战性。
- 评测模型的三个关键子维度为指令理解、外观一致性和视觉合理性。
- 当前视觉编辑模型在完成复杂指令方面仍存在相当大的欠缺。
- 闭源与开源模型在视觉理解能力上存在显著差距。
- 未来模型性能的关键瓶颈在于更深层次的认知和推理能力。
- RISEBench的发布标志着图像编辑评测标准的一次重大升级。
❓
延伸问答
RISEBench是什么?
RISEBench是上海AI实验室发布的图像编辑评测基准,旨在评估视觉编辑模型的理解能力,特别是在复杂指令下的表现。
GPT-4o-Image在RISEBench上的表现如何?
GPT-4o-Image在RISEBench上仅完成28.9%的任务,显示出在复杂视觉编辑任务中的不足。
RISEBench评测模型的关键维度有哪些?
RISEBench评测模型的三个关键维度为指令理解、外观一致性和视觉合理性。
开源模型BAGEL的表现如何?
开源模型BAGEL在RISEBench上仅能完成5.8%的任务,显示出与闭源模型的显著差距。
RISEBench如何确保评测问题的严谨性?
RISEBench设计了360道高难度问题,全部由人类专家仔细思考并校对,以确保问题的严谨性和挑战性。
未来视觉编辑模型发展的关键瓶颈是什么?
未来视觉编辑模型发展的关键瓶颈在于更深层次的认知和推理能力。
➡️