T2IShield:防御文本到图像扩散模型上的后门攻击

📝

内容提要

本文中我们提出了名为 T2IShield 的全面防御方法,用于检测、定位和缓解文本到图像传播模型中的后门攻击。我们通过对交叉注意力图中由后门触发器引起的 “同化现象” 的发现,提出了两种有效的后门检测方法:Frobenius Norm Threshold Truncation 和 Covariance Discriminant...

🏷️

标签

➡️

继续阅读