量子位 ·

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

Q: 多模态大模型在现代建筑领域的表现如何？

多模态大模型在现代建筑领域表现优异。

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

多模态大模型的事实正确性评估显示，o1模型表现最佳，但普遍过于自信。研究基于ChineseSimpleVQA基准，涵盖2200个问题，分析了模型的视觉识别能力和知识水平。模型在现代建筑和科学领域表现优异，但知识扩展能力有限，错误率较高。评测集经过严格质量控制，确保数据的高质量和安全性。

🎯

关键要点

多模态大模型事实正确性评估显示，o1模型表现最佳，但普遍过于自信。
研究基于ChineseSimpleVQA基准，涵盖2200个问题，分析了模型的视觉识别能力和知识水平。
模型在现代建筑和科学领域表现优异，但知识扩展能力有限，错误率较高。
评测集经过严格质量控制，确保数据的高质量和安全性。
Chinese SimpleVQA采用多跳评估策略，解耦视觉模型知识能力评估步骤。
评测集包含2200条高质量问答对，涵盖8个知识类别及56个细分主题。
研究团队通过自动验证、难度筛选和人工验证确保数据质量。
模型的知识能力随规模提升，且幻觉问题仍是重要挑战。
o1-preview在识别问题和知识扩展问题上表现最佳，其他模型表现相对较差。
Chinese SimpleVQA具有持久可用性和易于评估的特点。

🔎

延伸解读

模型自信心的风险

研究显示，尽管o1模型在视觉识别和知识扩展方面表现优异，但其普遍过于自信。这种过度自信可能导致模型在回答问题时提供错误信息，用户在依赖这些模型时需谨慎，尤其是在关键决策场景中。

知识扩展能力的局限

虽然o1模型在现代建筑和科学领域表现突出，但其知识扩展能力仍然有限。用户在使用这些模型时，应关注其在特定领域的知识深度，避免在知识要求较高的场景中依赖模型的回答。

评测集的质量控制

Chinese SimpleVQA的构建过程经过严格的质量控制，包括自动验证和人工审核。这确保了评测集的高质量和可靠性，用户在使用该基准进行模型评估时，可以更有信心地依赖其结果。

❓

延伸问答

o1模型在多模态大模型评估中表现如何？

o1模型在多模态大模型事实正确性评估中表现最佳，但普遍过于自信。

Chinese SimpleVQA基准测试包含多少个问题？

Chinese SimpleVQA基准测试包含2200个高质量问题。

多模态大模型在现代建筑领域的表现如何？

多模态大模型在现代建筑领域表现优异。

模型的知识能力如何影响其表现？

模型的知识能力随规模提升，且知识扩展能力有限，错误率较高。

Chinese SimpleVQA的质量控制流程是怎样的？

Chinese SimpleVQA的质量控制包括自动验证、难度筛选和人工验证。

多模态大模型的幻觉问题是什么？

幻觉问题是指模型倾向于自信地提供错误信息，错误率高于不尝试回答的比率。

🏷️