针对潜在扩散模型的灰盒攻击:后验崩溃
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了潜在扩散模型(LDMs)在图像编辑中的数据滥用和知识产权侵犯问题。提出的后验崩溃攻击(PCA)不依赖于目标模型的白盒信息,通过利用VAE编码器的少量参数,显著降低了生成图像的语义质量和感知一致性。实验结果表明,PCA在生成图像的干扰效果上优于现有技术,为应对生成AI带来的社会技术挑战提供了更强大且通用的解决方案。
本文介绍了欺骗扩散的概念,即使用对抗性生成AI模型产生具有对抗性的图像。欺骗扩散模型能够创建大量被错误分类的图像,提供了规模化的对抗性训练数据以加强防御算法。实验还研究了在部分受攻击数据集上进行训练的效果。生成扩散模型存在一种新型漏洞,即攻击者秘密污染部分训练数据会导致生成的模型产生相似比例的误导输出。