多粒度多图关系关联的标准基准 (MMRA)
原文中文,约400字,阅读约需1分钟。发表于: 。给定目前的大型视觉语言模型(LVLMs)在图像感知任务中取得的显著成功,使 LVLMs 像人类一样感知世界的努力引起了越来越多的关注。我们定义了一个多图像关联任务,精心策划了由 1026 个样本组成的多粒度多图像关联基准(MMRA),以系统全面评估当前主流 LVLMs 的性能,并发现空间感知相关的任务对于 LVLMs 来说相对较困难。
最近的研究发现,大型语言模型和大型多模态模型在医疗应用中具有潜力。研究引入了RJUA-MedDQA基准测试,用于解释医学报告的复杂性和推理能力。通过使用高效的结构恢复注释方法,提高了注释效率并提供了准确率改进。对多个LMMs进行了评估,发现现有的模型性能仍受限制,但LMMs在处理低质量和多样化结构的图像上更加稳健。希望该基准测试能推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。