小红花·文摘 - 小红花技术领袖俱乐部

从 WBench 看交互式世界模型：评测正在成为 AI 基础设施

从 WBench 看交互式世界模型：评测正在成为 AI 基础设施

mongona news ·

上海AI实验室发布新基准RISEBench，评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务，开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理，显示当前模型在复杂指令理解上存在显著不足。

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

量子位 ·

实测13个类Sora视频生成模型，8000多个案例，一次看个够

实测13个类Sora视频生成模型，8000多个案例，一次看个够

机器之心 ·