先暴露再防御:通过暴露模型统一和增强后门防御
📝
内容提要
本研究解决了深度神经网络在背信攻击中易受隐藏后门触发器影响的问题。提出的两步防御框架“先暴露再防御”(EBYD)通过暴露易受影响模型的后门功能,并利用清洁反学习方法揭示后门特征,从而有效增强了现有后门防御技术的性能。实验证明,暴露的模型显著提升了多种下游防御任务的效果,具有重要的实际应用潜力。
➡️
本研究解决了深度神经网络在背信攻击中易受隐藏后门触发器影响的问题。提出的两步防御框架“先暴露再防御”(EBYD)通过暴露易受影响模型的后门功能,并利用清洁反学习方法揭示后门特征,从而有效增强了现有后门防御技术的性能。实验证明,暴露的模型显著提升了多种下游防御任务的效果,具有重要的实际应用潜力。