小红花·文摘

该研究提出了MicroVQA基准，评估科学研究中专家的图像理解和假设生成能力。通过1042道多项选择题，揭示了现有语言模型在多模态推理中的不足，强调感知错误是主要挑战，为AI驱动的生物医学研究提供了重要资源。