FLARE:对抗后门攻击的通用数据集净化方法

📝

内容提要

本文研究了深度神经网络受到后门攻击时存在的数据集净化方法的不足,尤其是在一些复杂攻击场景下当前方法的假设无法成立。提出了FLARE,一个通用净化方法,通过整合所有隐藏层的异常激活来增强数据的分离性,能够有效识别和清除受到污染的数据样本,实验结果表明FLARE在多种后门攻击中表现出色。

🏷️

标签

➡️

继续阅读