小红花·文摘

本研究提出M3SciQA基准，旨在评估基础模型在多模态和多文档科学问答中的表现。研究发现，当前基础模型在多模态信息检索和跨文档推理方面明显不及人类专家，指出了未来应用的挑战。