CLIP 是否总是比 ImageNet 模型具有更好的泛化能力?
原文中文,约400字,阅读约需1分钟。发表于: 。在这篇研究中,通过构建一个包含真实背景上的动物照片的真实世界数据集 CounterAnimal,评估了大规模视觉语言模型 CLIPs 在应对背景引起的干扰时的性能。实验发现,CLIPs 在不同背景下的性能存在显著下降,而 ImageNet 上单模态模型的稳健性更高。研究结果提示 CLIPs 在分布转换下仍面临问题,同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。
本研究探索了预训练视觉-语言模型在智能生成图像的检测中的潜力。通过基于CLIP特征的轻量级检测策略,发现不需要大量特定领域数据集训练,仅利用少量示例图像即可展现出泛化能力,并在商业工具中具有高鲁棒性。在分布内数据上与SoTA相匹配,并在分布外数据和受损/清洗数据上实现了显著改进。