💡
原文中文,约5500字,阅读约需13分钟。
📝
内容提要
本文讨论了视觉语言模型(VLMs)在视觉测试中的表现,发现其在判断线条交点、识别被红圈圈出的字母、计算图形重叠等任务中表现不佳。文章指出VLMs的视觉能力可能与推理能力和对图像内容的理解方式有关,并建议对其视觉理解和推理能力进行深入研究。
🎯
关键要点
- 视觉语言模型(VLMs)在视觉测试中表现不佳,尤其在判断线条交点和识别被红圈圈出的字母等任务上。
- VLMs的视觉能力与推理能力和对图像内容的理解方式有关,当前基准测试集无法有效评估其视觉能力。
- 研究者设计了一套新的视力测试,测试结果显示VLMs在简单的视觉任务中表现不佳,显示出其视觉能力的局限性。
- 在数线条交点的测试中,所有VLMs的表现都不佳,最佳准确率仅为77.33%。
- 在判断两个圆之间的位置关系的测试中,没有一个VLM能够完美回答,最佳准确率为92.78%。
- 在识别被红圈圈出的字母的测试中,VLMs表现差,尤其在字母被遮挡时,准确率普遍低于随机猜测。
- 在计算重叠图形和嵌套正方形的任务中,VLMs的表现也不理想,准确率差异显著,最佳模型的表现仍低于预期。
- 在计数表格的行列数时,VLMs的表现不佳,通常存在1-2格的偏差,尤其在空表格中表现更差。
- 在跟随路径的能力测试中,所有模型的准确率均未达到100%,表现最好的模型准确率为95%。
- 研究表明,VLMs在视觉理解和推理方面的能力需要进一步探讨,而不仅仅是图像处理能力。
➡️