本研究提出了一种名为MedTrim的方法,通过元实体导向的三元组学习,解决了医疗视觉语言模型在图像与文本对齐中的不足,特别是在细粒度病理属性的区分上。这种方法显著提升了下游检索和分类任务的性能,对医疗影像解读具有重要影响。
MultiMedEval 是一个开源工具包,旨在公平评估大型医疗视觉语言模型(VLM)。它通过 23 个数据集和 6 个多模态任务综合评估模型性能,简化评估流程,推动统一基准测试。研究还介绍了 MM-Vet 和 Vibe-Eval 等评估工具,以提高多模态模型的评估可靠性和挑战性,促进未来研究进展。
完成下面两步后,将自动完成登录并继续当前操作。