小红花·文摘

本文总结了多模态大型语言模型（MLLM）的最新进展，重点评估其在数学推理和视觉背景下的能力。研究提出了MathVista和Multi等基准测试，以评估模型在复杂任务中的表现。结果表明，现有模型在数学推理方面与人类存在差距，强调了进一步发展的必要性。同时，通过新方法生成的数学问题数据集和评估策略，推动了MLLM在视觉数学问题解决能力的提升。