BriefGPT - AI 论文速递 ·

弱到强的后门攻击：基于对比知识蒸馏的LLM攻击研究

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文研究了大语言模型（LLM）中的后门攻击，提出了POISONPROMPT方法，揭示了PEFT策略在权重污染攻击下的脆弱性。开发了有毒样本识别模块（PSIM），有效防御此类攻击。实验结果显示，后门攻击成功率接近100%，强调了多语言LLM的安全风险和防护需求。

🎯

❓

POISONPROMPT是一种新型的后门攻击方法，针对大语言模型中的安全威胁，具有较高的有效性和鲁棒性。

PEFT策略在权重污染后门攻击下更易受攻击，预定义的触发器仍可被滥用，攻击成功率接近100%。

PSIM通过置信度识别有毒样本，提供针对权重污染后门攻击的防御，利用PEFT训练并随机重置样本标签。

多语言LLM面临跨语言背门攻击的风险，攻击成功率超过95%，尤其是对大型模型更易受攻击。

研究提出了覆盖式监督微调（OSFT）和SANDE框架，以有效去除已知和未知触发器，增强LLM的安全性。

后门攻击对基于大型语言模型的决策系统构成重大威胁，研究提供了全面框架以探索不同攻击机制的有效性和隐蔽性。

🏷️