BriefGPT - AI 论文速递 ·

防御文本到图像扩散模型：文本扰动对后门攻击的惊人有效性

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文探讨了文本引导生成模型的后门攻击，提出了BadT2I攻击框架和T2IShield防御方法，评估了模型的鲁棒性，并展示了后门检测和定位的有效性。实验结果表明，后门攻击可通过少量恶意数据激活，强调了防御策略的重要性。

🎯

❓

BadT2I攻击框架是一种针对文本引导生成模型的后门攻击方法，通过正则化损失注入恶意输入进行实验。

T2IShield防御方法用于检测、定位和缓解文本到图像扩散模型中的后门攻击。

后门攻击可以通过仅污染训练数据而无需篡改原始扩散过程来实现，影响模型功能。

ATM方法通过Gumbel Softmax分布学习生成高效、多样的扰动样本，以提高模型的稳健性。

文本到图像扩散模型的鲁棒性问题在于其易受攻击，可能在多个语义层次上被后门攻击影响。

后门检测方法包括Frobenius Norm Threshold Truncation和Covariance Discriminant Analysis。

🏷️