T2IShield:防御文本到图像扩散模型上的后门攻击
📝
内容提要
本文中我们提出了名为 T2IShield 的全面防御方法,用于检测、定位和缓解文本到图像传播模型中的后门攻击。我们通过对交叉注意力图中由后门触发器引起的 “同化现象” 的发现,提出了两种有效的后门检测方法:Frobenius Norm Threshold Truncation 和 Covariance Discriminant...
🏷️
标签
➡️