小红花·文摘

Mokeyjay's Blog ·

多模态大模型的事实正确性评估显示，o1模型表现最佳，但普遍过于自信。研究基于ChineseSimpleVQA基准，涵盖2200个问题，分析了模型的视觉识别能力和知识水平。模型在现代建筑和科学领域表现优异，但知识扩展能力有限，错误率较高。评测集经过严格质量控制，确保数据的高质量和安全性。

量子位 ·

OpenAI ·