小红花·文摘

大语言模型在多步数学推理方面表现出色，但需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们评估了视觉语言模型的推理能力。创建了一个合成的几何问题数据集，进行系统评估。结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色。释放这个数据集供进一步研究使用。