假装直到破裂:关于AI生成图像检测器的对抗鲁棒性
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了当前法医分类器在现实场景中评估不足的问题,特别是在攻击者存在及社交媒体降质的影响下。通过评估最先进的AI生成图像检测器的性能,研究展示了在没有模型访问权限的情况下,攻击者依然能够有效攻击这些分类器,显著降低检测准确性。最终,本文还提出了一种简单的防御机制,以提高基于CLIP的检测器的对抗鲁棒性。
该研究提出了一种方法来识别对抗场景中的AI生成图像。论文收集了ARIA数据集,包含四种AI生成器的图像及其人工对应物。通过用户研究和基准测试,评估了用户和AI检测器的识别能力,并使用ResNet-50分类器测试其在ARIA数据集上的准确性和可迁移性。