MathVerse: 您的多模式 LLM 真正看到视觉数学问题中的图表吗?
原文中文,约500字,阅读约需1分钟。发表于: 。通过引入 MathVerse 基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为 MLLMs 的未来发展提供独特的见解。
最近的LLMs和MMs在解决几何数学问题方面的能力尚未得到深入评估。研究人员通过GeoEval基准测试评估了十个模型的性能。结果显示WizardMath模型在主子集上的准确率为55.67%,在困难子集上为6.00%。研究发现GPT系列模型在重新表述问题上更有效。