DEV Community ·

人工智能仍然无法计数。我创建了一个数据集来证明这一点：VisQuant

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

作者测试了GPT-4V、Claude和Gemini，发现它们在艺术描述和解谜方面表现良好，但在简单视觉问题上表现不佳。为此，他创建了VisQuant基准，专注于评估模型的视觉智能，包括计数和空间关系。VisQuant使用100张合成图像，旨在揭示模型推理中的缺陷。

🎯

关键要点

作者测试了GPT-4V、Claude和Gemini，发现它们在艺术描述和解谜方面表现良好。
在简单视觉问题上，这些模型表现不佳，例如计数和空间关系。
为此，作者创建了VisQuant基准，专注于评估模型的视觉智能。
VisQuant使用100张合成图像，涵盖40多种日常物体类型，标注了物体计数和空间布局。
每张图像有2个推理问答对，注释以JSON和CSV格式提供。
VisQuant旨在隔离模型常常忽视的视觉智能原理，包括计数和空间关系推理。
当前的基准如VQAv2或GQA存在杂乱和噪声，掩盖了模型的弱点。
VisQuant小巧、干净、专注，能够揭示模型推理中的真实缺陷。
数据集可在HuggingFace上获取，论文即将发布，许可证为CC BY 4.0，适用于研究和微调。
作者希望获得反馈、合作、其他基准的建议以及v2的想法。

❓

延伸问答

VisQuant是什么？

VisQuant是一个基准数据集，专注于评估模型的视觉智能，特别是计数和空间关系。

VisQuant使用了什么样的图像？

VisQuant使用100张合成图像，涵盖40多种日常物体类型，并标注了物体计数和空间布局。

为什么需要VisQuant基准？

因为现有的基准如VQAv2或GQA存在杂乱和噪声，掩盖了模型在视觉智能方面的弱点。

VisQuant如何评估模型的视觉智能？

VisQuant通过隔离模型常常忽视的视觉智能原理，如计数和空间关系推理，来评估模型的表现。

VisQuant的数据集在哪里可以获取？

VisQuant的数据集可以在HuggingFace上获取，许可证为CC BY 4.0，适用于研究和微调。

作者对VisQuant的未来有什么期望？

作者希望获得反馈、合作、其他基准的建议以及VisQuant v2的想法。

🏷️

继续阅读

Neurovia AI以官方合作伙伴身份出席第三届阿联酋政府网络安全峰会
Neurovia AI作为阿联酋政府网络安全峰会的官方合作伙伴，专注于AI时代的视觉智能基础设施。首席技术官Mansoor Ali Khan将探讨数据架构...
MiniCPM5-1B采用RL+OPD训练，多项复杂任务达SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench
TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集，旨...
每家公司的首个人工智能战略都应该是技能库
企业在实施人工智能时，首要任务是建立“技能图书馆”，记录优秀员工的工作流程和经验，将其转化为可重复使用的技能，以提升AI的实用性和效率，帮助公司更好地利用人工智能。
英国通信管理局（Ofcom）制定人工智能战略，相关研究正在进行中
英国通信管理局（Ofcom）发布了更新的人工智能战略，旨在支持通信行业采用人工智能并应对消费者风险。该战略强调技术中立和结果导向，推动创新并确保安全，包括...
PATH计划提升与行业对接的人工智能培训和职业机会
麻省理工学院与乔治亚州立大学合作推出PATH计划，旨在通过建立州级中心，连接大学、社区学院、行业和政府，提供与行业对接的人工智能培训。该计划强调实践学习，...
亚马逊的新游戏计划：詹姆斯·邦德与人工智能史努比狗
亚马逊正在调整游戏战略，专注于云游戏和休闲游戏，特别是通过Luna平台。公司计划推出以詹姆斯·邦德为主题的游戏，并强调视频游戏与影视内容的结合，旨在吸引更...