该研究提出了MicroVQA基准,评估科学研究中专家的图像理解和假设生成能力。通过1042道多项选择题,揭示了现有语言模型在多模态推理中的不足,强调感知错误是主要挑战,为AI驱动的生物医学研究提供了重要资源。
完成下面两步后,将自动完成登录并继续当前操作。