量子位 ·

知识类型视角切入，全面评测图像编辑模型推理能力：所有模型在「程序性推理」方面表现不佳

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

KRIS-Bench项目评测图像编辑模型的推理能力，发现所有模型在程序性推理上表现不佳。该项目从事实性、概念性和程序性知识三个层面进行系统评估，涵盖多种编辑任务。测试结果显示，闭源模型优于开源模型，尤其在深层推理能力上明显不足。团队希望推动AI向具备人类认知能力发展。

🎯

关键要点

KRIS-Bench项目评测图像编辑模型的推理能力，发现所有模型在程序性推理上表现不佳。
该项目从事实性、概念性和程序性知识三个层面进行系统评估，涵盖多种编辑任务。
闭源模型在深层推理能力上明显优于开源模型。
KRIS-Bench通过四个维度对编辑输出进行自动化评估，包括视觉一致性、视觉质量、指令跟随和知识合理性。
评估了10款模型，闭源旗舰GPT-Image-1表现最佳，开源模型BAGEL-Think有所进步，但仍落后于闭源模型。
所有模型在程序性推理和多步骤合成任务上普遍失分，显示出深层推理能力的不足。
团队希望推动AI向具备人类认知能力发展，未来编辑将涉及更复杂的知识与推理。

❓

延伸问答

KRIS-Bench项目的主要目标是什么？

KRIS-Bench项目旨在系统评测图像编辑模型的推理能力，特别是在程序性推理方面的表现。

KRIS-Bench如何评估图像编辑模型的推理能力？

KRIS-Bench从事实性、概念性和程序性知识三个层面进行评估，并细化出多个推理维度和编辑任务。

闭源模型和开源模型在推理能力上有什么区别？

闭源模型在深层推理能力上明显优于开源模型，尤其是在知识合理性方面表现更佳。

KRIS-Bench使用了哪些评估指标？

KRIS-Bench使用视觉一致性、视觉质量、指令跟随和知识合理性四个维度对编辑输出进行评估。

所有模型在程序性推理方面的表现如何？

所有模型在程序性推理和多步骤合成任务上普遍失分，显示出深层推理能力的不足。

未来KRIS-Bench项目的期望是什么？

团队希望推动AI向具备人类认知能力发展，使图像编辑不仅限于简单的操作，而是涉及更复杂的知识与推理。

🏷️

继续阅读

埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
AI Max迎来一周年，推出新方式以提升表现并扩展至更多广告客户
谷歌推出AI Max，旨在帮助零售商在顾客搜索前满足购物和旅游广告需求。该工具利用商户中心数据生成动态广告，能够捕捉复杂搜索。AI Brief功能允许用户...
OpenAI的新安全模型仅面向‘关键网络防御者’
OpenAI即将推出新的网络安全模型GPT-5.5-Cyber，首批仅向“可信的网络防御者”发布。CEO萨姆·阿尔特曼表示，此次有限发布旨在增强机构的网络...
大疆Osmo Pocket 4在各方面都是更好的相机
大疆的Osmo Pocket 4是一款小型稳定器，相比Pocket 3有显著升级，传感器、视频质量和电池续航均有所提升。新增加的按钮改善了操作体验，内置存...
2026 年 3 月和 4 月该入手的模型手办
2026年3月和4月的特别作品主要包括《光能使者》系列的光能使者和超级光能使者，以及记录孙悟空和库林修行的龟仙屋，但缺少布尔玛和朗琪，显得不太完整。