GeomVerse:几何推理的大型模型的系统评估
原文中文,约400字,阅读约需1分钟。发表于: 。大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需...
大语言模型在多步数学推理方面表现出色,但需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们评估了视觉语言模型的推理能力。创建了一个合成的几何问题数据集,进行系统评估。结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色。释放这个数据集供进一步研究使用。