本研究评估了三种视觉语言模型(RAD-DINO、CheXagent 和 BiomedCLIP)在胸部X光片气胸和心脏肥大任务中的表现。结果表明,RAD-DINO在分割任务中表现优异,而CheXagent在分类上更具优势。结合全局和局部特征的自定义模型显著提升了所有模型的性能,为选择基础模型提供了实用指导。
本文介绍了一种名为Score-CAM的新型可解释性模型,通过目标类的前向传递得分获得每个激活映射的权重,并通过线性组合得到最终结果。该方法在视觉性能、公平性、识别和定位任务以及调试工具方面表现出色,并通过测试验证了其独立性。
完成下面两步后,将自动完成登录并继续当前操作。