通过自动神经分布约束来缓解后门问题
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入一种名为 UNIT 的后训练防御技术,本文针对深度神经网络 (DNNs) 中的后门攻击进行了研究,通过近似模型中每个神经元的独特且紧密的激活分布,并主动驱散超过近似边界的大激活值,可以有效消除各种攻击的后门效应,相较于其他 7 种流行的防御方法在 14 种现有的后门攻击中表现出更好的性能,包括 2 种先进攻击,仅使用 5%的清洁训练数据。
该论文研究了后门攻击的特性和缓解方法,发现成功攻击会改变后门触发实例的内部层激活分布。作者提出了一种高效的方法,通过逆向工程的触发器来纠正分布变化,实现后期训练的后门缓解。该方法不改变DNN的可训练参数,但缓解性能更好。同时,它还能有效检测带有触发器的测试实例,帮助发现恶意攻击。