CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性，结果表明，保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略，使用较少的训练数据（20 万张图像，相较于 72 万张），在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中，该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。

本研究探索了预训练视觉-语言模型在智能生成图像的检测中的潜力。通过基于CLIP特征的轻量级检测策略，发现不需要大量特定领域数据集训练，仅利用少量示例图像即可展现出泛化能力，并在商业工具中具有高鲁棒性。在分布内数据上与SoTA相匹配，在分布外数据的泛化能力和受损/清洗数据的鲁棒性上有显著改进。