本研究提出了一种新策略,通过多模态微调方法显著改善OOD检测性能,关键在于正则化图像与文本嵌入间的距离,增强跨模态对齐。实验结果表明,该方法在ImageNet-1k OOD基准数据集上优于现有技术,达到最先进的检测表现。
基于BLIP-2框架,开发了一种视觉语言模型,将病理报告文本与切片图像配对,形成图像-文本嵌入空间。该模型在超过35万张去标识化数据上评估,78%的生成文本被病理医师认为准确,展示了语言与WSI嵌入结合的潜力。
完成下面两步后,将自动完成登录并继续当前操作。