人工智能仍然无法计数。我创建了一个数据集来证明这一点:VisQuant
I’ve been experimenting with GPT-4V, Claude, and Gemini and realized something strange: They can describe art. Solve riddles. Explain GPTs. But ask: “How many pencils are on the table?” Or “Which...
作者测试了GPT-4V、Claude和Gemini,发现它们在艺术描述和解谜方面表现良好,但在简单视觉问题上表现不佳。为此,他创建了VisQuant基准,专注于评估模型的视觉智能,包括计数和空间关系。VisQuant使用100张合成图像,旨在揭示模型推理中的缺陷。
