本文研究了大语言模型(LLM)中的后门攻击,提出了POISONPROMPT方法,揭示了PEFT策略在权重污染攻击下的脆弱性。开发了有毒样本识别模块(PSIM),有效防御此类攻击。实验结果显示,后门攻击成功率接近100%,强调了多语言LLM的安全风险和防护需求。
本文探讨了大型语言模型的后门攻击脆弱性,提出了组合后门攻击(CBA)和新型后门攻击方法POISONPROMPT,强调安全性研究的重要性。研究表明,后门攻击在多种任务中有效,并提出了防御机制以降低攻击成功率。
本研究提出了新型后门攻击方法ProAttack和POISONPROMPT,旨在提高攻击的隐蔽性和有效性。研究表明,这些方法在不同模型和任务上均表现出高成功率,强调了深入研究后门攻击的重要性。
完成下面两步后,将自动完成登录并继续当前操作。