上海AI实验室发布新基准RISEBench,评测图像编辑模型的理解能力。GPT-4o-Image仅完成28.9%的任务,开源模型BAGEL仅5.8%。新基准考察时间、因果、空间和逻辑推理,显示当前模型在复杂指令理解上存在显著不足。
腾讯AI Lab与中科大发布了一份关于类SORA视频生成模型的评测报告,评估了13个主流模型的能力。报告指出视频生成在画质、动作自然度和视觉-语言对齐方面的进步,并通过多维度测试生成了8000多个视频案例。研究展示了模型在不同应用场景中的表现,鼓励社区深入研究。报告认为视频生成领域正快速发展,未来将有更多创新。
完成下面两步后,将自动完成登录并继续当前操作。