We-Math: 您的大型多模型是否实现了类人数学推理?
原文中文,约500字,阅读约需1分钟。发表于: 。WE-MATH 是第一个旨在探索问题解决原则的基准测试,通过分解复合问题,并引入新的四维度评估指标,评估了 LMMs 在视觉数学推理中的固有问题,为知识获取与泛化提供支持,评估现有 LMMs 在视觉数学推理中的表现,揭示了求解步骤与问题特定表现之间的负相关,并指出 GPT-4o 的主要挑战由不足的知识转变为不足的泛化。
最近的大型语言模型和多模态模型在解决几何数学问题方面的能力尚未得到深入评估。研究人员引入了GeoEval基准测试,评估了十个模型,发现WizardMath模型在主子集上的准确率达到55.67%,但在困难子集上只有6.00%的准确率。研究结果表明,GPT系列模型在重新表述问题上表现更有效。