量子位 ·

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55%

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

SeePhys新基准显示，当前顶尖AI模型在物理图像理解方面的准确率仅为55%。该基准涵盖从初中到博士的多模态物理问题，强调视觉信息对模型推理的重要性，揭示了多模态推理的巨大挑战。

🎯

🔎

SeePhys基准揭示了当前AI模型在处理物理图像时的显著不足，准确率仅为55%。这表明，尽管AI在语言处理上取得了进展，但在视觉信息的理解和推理方面仍面临巨大挑战，尤其是在复杂的物理图表中。

SeePhys涵盖从初中到博士的多种知识层级，实验结果显示，较弱模型在高年级问题上的表现显著下降。这提示我们，知识的深度和复杂性对AI模型的推理能力有直接影响，未来的研究需关注如何提升模型在高难度问题上的表现。

研究发现，视觉信息的有效整合能够显著提升模型的理解能力。即使是非必要的图表也能帮助模型更好地理解问题，这强调了在多模态学习中，视觉与文本信息的对齐是提升AI推理能力的关键因素。

❓

SeePhys基准旨在评估AI模型是否能理解物理图像，并结合图像进行思考。

当前顶尖AI模型在物理图像理解方面的准确率仅为55%。

SeePhys基准涵盖从初中到博士的多个知识层级，包括经典力学、电磁学和量子物理等7大领域。

实验发现，最佳模型Gemini-2.5-Pro的准确率仅为54.9%，且在视觉依赖性较低的问题中表现优于视觉信息富集的问题。

SeePhys基准的独特之处在于其知识层级跨度大、强视觉依赖和跨模态耦合。

研究团队总结了9种错误推理模式，包括视觉误读、文本误读和建模错误等。

🏷️