面向医学图像的通用异常检测的视觉语言模型的适应

本文介绍了一种用于医学异常检测的轻量级多层次自适应对比框架，通过将多个残差适配器整合到预训练的视觉编码器中，通过多级像素级视觉 - 语言特征对齐损失函数引导多级适应，使其适用于医学图像。实验结果表明，我们的方法在医学异常检测基准上显著超越了当前最先进的模型，在零样本和少样本情况下分别实现了 6.24% 和 7.33% 的平均 AUC 提升用于异常分类，以及 2.03% 和 2.37%...

本研究探索了预训练视觉-语言模型在智能生成图像的检测中的潜力。通过基于CLIP特征的轻量级检测策略，发现不需要大量特定领域数据集训练，仅利用少量示例图像即可展现出泛化能力，并在商业工具中具有高鲁棒性。在分布内数据上与SoTA相匹配，并在分布外数据的泛化能力和鲁棒性上实现了显著改进。