小红花·文摘

本文探讨了多模态大型语言模型（MLLMs）在视觉识别和关系理解中的应用，提出了多模态关系理解数据集（MMRel）和多图像关系基准（MIRB），并评估了其在医学领域的潜力。研究表明，MLLMs在低质量图像上表现更为稳健，强调了进一步研究的必要性，以推动多模态模型的发展和医疗应用。