小红花·文摘

本文探讨了多模态大型语言模型（MLLMs）在视觉数学问题上的能力，提出了链式思维评估策略和混合模态适应方法，以实现图像与语言模型的联合优化。研究表明，当前模型在数学推理上与人类存在差距，强调了进一步发展的必要性，并提出了多种数据生成策略和基准测试，以提升模型的视觉感知能力和训练效率。