弱到强的后门攻击:基于对比知识蒸馏的LLM攻击研究
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
研究发现,参数高效微调(PEFT)策略在权重污染后门攻击下更易受攻击。即使微调后,预定义触发器仍可被利用。为此,研究者开发了基于PEFT的有毒样本识别模块(PSIM),通过置信度识别有毒样本,有效防御攻击。实验显示,PEFT攻击成功率接近100%,但PSIM能有效缓解攻击。
🎯
关键要点
- 参数高效微调(PEFT)策略在权重污染后门攻击下更易受攻击。
- PEFT方法只更新有限模型参数,可能构成安全漏洞。
- 预定义触发器在微调后依然可以被滥用,保持高置信度。
- 研究者开发了基于PEFT的有毒样本识别模块(PSIM)。
- PSIM通过置信度识别有毒样本,有效防御权重污染后门攻击。
- 实验显示,PEFT攻击成功率接近100%,但PSIM能有效缓解攻击。
➡️