人工智能仍然无法计数。我创建了一个数据集来证明这一点:VisQuant

人工智能仍然无法计数。我创建了一个数据集来证明这一点:VisQuant

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

作者测试了GPT-4V、Claude和Gemini,发现它们在艺术描述和解谜方面表现良好,但在简单视觉问题上表现不佳。为此,他创建了VisQuant基准,专注于评估模型的视觉智能,包括计数和空间关系。VisQuant使用100张合成图像,旨在揭示模型推理中的缺陷。

🎯

关键要点

  • 作者测试了GPT-4V、Claude和Gemini,发现它们在艺术描述和解谜方面表现良好。

  • 在简单视觉问题上,这些模型表现不佳,例如计数和空间关系。

  • 为此,作者创建了VisQuant基准,专注于评估模型的视觉智能。

  • VisQuant使用100张合成图像,涵盖40多种日常物体类型,标注了物体计数和空间布局。

  • 每张图像有2个推理问答对,注释以JSON和CSV格式提供。

  • VisQuant旨在隔离模型常常忽视的视觉智能原理,包括计数和空间关系推理。

  • 当前的基准如VQAv2或GQA存在杂乱和噪声,掩盖了模型的弱点。

  • VisQuant小巧、干净、专注,能够揭示模型推理中的真实缺陷。

  • 数据集可在HuggingFace上获取,论文即将发布,许可证为CC BY 4.0,适用于研究和微调。

  • 作者希望获得反馈、合作、其他基准的建议以及v2的想法。

延伸问答

VisQuant是什么?

VisQuant是一个基准数据集,专注于评估模型的视觉智能,特别是计数和空间关系。

VisQuant使用了什么样的图像?

VisQuant使用100张合成图像,涵盖40多种日常物体类型,并标注了物体计数和空间布局。

为什么需要VisQuant基准?

因为现有的基准如VQAv2或GQA存在杂乱和噪声,掩盖了模型在视觉智能方面的弱点。

VisQuant如何评估模型的视觉智能?

VisQuant通过隔离模型常常忽视的视觉智能原理,如计数和空间关系推理,来评估模型的表现。

VisQuant的数据集在哪里可以获取?

VisQuant的数据集可以在HuggingFace上获取,许可证为CC BY 4.0,适用于研究和微调。

作者对VisQuant的未来有什么期望?

作者希望获得反馈、合作、其他基准的建议以及VisQuant v2的想法。

➡️

继续阅读