CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测
原文中文,约400字,阅读约需1分钟。发表于: 。该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性,结果表明,保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略,使用较少的训练数据(20 万张图像,相较于 72 万张),在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中,该模型展现了在包括基于 GANs、基于...
本研究探索了预训练视觉-语言模型在智能生成图像的检测中的潜力。通过基于CLIP特征的轻量级检测策略,发现不需要大量特定领域数据集训练,仅利用少量示例图像即可展现出泛化能力,并在商业工具中具有高鲁棒性。在分布内数据上与SoTA相匹配,在分布外数据的泛化能力和受损/清洗数据的鲁棒性上有显著改进。