MV-MATH: 评估多视觉环境中的多模态数学推理
📝
内容提要
本研究针对现有多模态数学基准仅限于单一视觉环境的不足,提出了MV-MATH数据集,包含2009个高质量数学问题。这些问题结合了多张图像与文本,来自真实K-12场景,旨在为评估多模态大型语言模型在多视觉环境中的数学推理能力提供全面严格的基准。实验表明,现有多模态大型语言模型在多视觉数学任务中面临显著挑战,表现与人类能力存在较大差距。
🏷️
标签
➡️