针对潜在扩散模型的灰盒攻击:后验崩溃

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文介绍了欺骗扩散的概念,即使用对抗性生成AI模型产生具有对抗性的图像。欺骗扩散模型能够创建大量被错误分类的图像,提供了规模化的对抗性训练数据以加强防御算法。实验还研究了在部分受攻击数据集上进行训练的效果。生成扩散模型存在一种新型漏洞,即攻击者秘密污染部分训练数据会导致生成的模型产生相似比例的误导输出。

原文中文,约300字,阅读约需1分钟。
阅读原文