GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

💡 原文中文,约3700字,阅读约需9分钟。
📝

内容提要

上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。

🎯

关键要点

  • 上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。
  • GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。
  • RISEBench考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。
  • RISEBench设计了360道高难度问题,确保问题的严谨性和挑战性。
  • 评测模型的三个关键子维度为指令理解、外观一致性和视觉合理性。
  • 当前视觉编辑模型在完成复杂指令方面仍存在相当大的欠缺。
  • 闭源与开源模型在视觉理解能力上存在显著差距。
  • 未来模型性能的关键瓶颈在于更深层次的认知和推理能力。
  • RISEBench的发布标志着图像编辑评测标准的一次重大升级。

延伸问答

RISEBench是什么?

RISEBench是上海AI实验室发布的图像编辑评测基准,旨在评估视觉编辑模型的理解能力,特别是在复杂指令下的表现。

GPT-4o-Image在RISEBench上的表现如何?

GPT-4o-Image在RISEBench上仅完成28.9%的任务,显示出在复杂视觉编辑任务中的不足。

RISEBench评测模型的关键维度有哪些?

RISEBench评测模型的三个关键维度为指令理解、外观一致性和视觉合理性。

开源模型BAGEL的表现如何?

开源模型BAGEL在RISEBench上仅能完成5.8%的任务,显示出与闭源模型的显著差距。

RISEBench如何确保评测问题的严谨性?

RISEBench设计了360道高难度问题,全部由人类专家仔细思考并校对,以确保问题的严谨性和挑战性。

未来视觉编辑模型发展的关键瓶颈是什么?

未来视觉编辑模型发展的关键瓶颈在于更深层次的认知和推理能力。

➡️

继续阅读