通过自动神经分布约束来缓解后门问题

通过引入一种名为 UNIT 的后训练防御技术，本文针对深度神经网络 (DNNs) 中的后门攻击进行了研究，通过近似模型中每个神经元的独特且紧密的激活分布，并主动驱散超过近似边界的大激活值，可以有效消除各种攻击的后门效应，相较于其他 7 种流行的防御方法在 14 种现有的后门攻击中表现出更好的性能，包括 2 种先进攻击，仅使用 5％的清洁训练数据。

该论文研究了后门攻击的特性和缓解方法，发现成功攻击会改变后门触发实例的内部层激活分布。作者提出了一种高效的方法，通过逆向工程的触发器来纠正分布变化，实现后期训练的后门缓解。该方法不改变DNN的可训练参数，但缓解性能更好。同时，它还能有效检测带有触发器的测试实例，帮助发现恶意攻击。

后期训练后门攻击恶意攻击缓解方法逆向工程