小红花·文摘

本研究提出了一种名为MedTrim的方法，通过元实体导向的三元组学习，解决了医疗视觉语言模型在图像与文本对齐中的不足，特别是在细粒度病理属性的区分上。这种方法显著提升了下游检索和分类任务的性能，对医疗影像解读具有重要影响。

Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models

BriefGPT - AI 论文速递 ·

MultiMedEval 是一个开源工具包，旨在公平评估大型医疗视觉语言模型（VLM）。它通过 23 个数据集和 6 个多模态任务综合评估模型性能，简化评估流程，推动统一基准测试。研究还介绍了 MM-Vet 和 Vibe-Eval 等评估工具，以提高多模态模型的评估可靠性和挑战性，促进未来研究进展。

VLMEvalKit：评估大规模多模态模型的开源工具匠

BriefGPT - AI 论文速递 ·