AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
SeePhys新基准显示,当前顶尖AI模型在物理图像理解方面的准确率仅为55%。该基准涵盖从初中到博士的多模态物理问题,强调视觉信息对模型推理的重要性,揭示了多模态推理的巨大挑战。
🎯
关键要点
- SeePhys新基准显示,顶尖AI模型在物理图像理解方面的准确率仅为55%。
- 该基准涵盖从初中到博士的多模态物理问题,强调视觉信息对模型推理的重要性。
- SeePhys由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队联合推出。
- 实验表明即使是SOTA模型如Gemini-2.5-Pro和o4-mini的准确率都不足55%。
- SeePhys填补了现有物理学基准的空白,旨在评估AI模型是否能理解物理图像。
- SeePhys的特点包括知识层级跨度大、强视觉依赖和跨模态耦合。
- SeePhys包含2000道题目和2245张图表,涵盖7大物理领域和8个知识层级。
- 实验发现,视觉-文本对齐能力存在缺陷,最佳模型的准确率未达70%。
- 模型在视觉依赖性较低的问题中表现优于视觉信息富集的问题。
- 知识注入对模型性能提升显现边际效应,较弱模型在高年级问题上表现较差。
- 研究团队归纳出9种错误推理模式,包括视觉误读、文本误读和建模错误等。
❓
延伸问答
SeePhys基准的主要目的是什么?
SeePhys基准旨在评估AI模型是否能理解物理图像,并结合图像进行思考。
当前顶尖AI模型在物理图像理解方面的准确率是多少?
当前顶尖AI模型在物理图像理解方面的准确率仅为55%。
SeePhys基准涵盖了哪些知识层级和领域?
SeePhys基准涵盖从初中到博士的多个知识层级,包括经典力学、电磁学和量子物理等7大领域。
实验中发现了哪些模型的视觉-文本对齐能力缺陷?
实验发现,最佳模型Gemini-2.5-Pro的准确率仅为54.9%,且在视觉依赖性较低的问题中表现优于视觉信息富集的问题。
SeePhys基准的独特之处是什么?
SeePhys基准的独特之处在于其知识层级跨度大、强视觉依赖和跨模态耦合。
研究团队总结了哪些错误推理模式?
研究团队总结了9种错误推理模式,包括视觉误读、文本误读和建模错误等。
➡️