小红花·文摘

本文研究了大语言模型（LLM）中的后门攻击，提出了POISONPROMPT方法，揭示了PEFT策略在权重污染攻击下的脆弱性。开发了有毒样本识别模块（PSIM），有效防御此类攻击。实验结果显示，后门攻击成功率接近100%，强调了多语言LLM的安全风险和防护需求。

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型的后门攻击脆弱性，提出了组合后门攻击（CBA）和新型后门攻击方法POISONPROMPT，强调安全性研究的重要性。研究表明，后门攻击在多种任务中有效，并提出了防御机制以降低攻击成功率。

BriefGPT - AI 论文速递 ·

本研究提出了新型后门攻击方法ProAttack和POISONPROMPT，旨在提高攻击的隐蔽性和有效性。研究表明，这些方法在不同模型和任务上均表现出高成功率，强调了深入研究后门攻击的重要性。

BriefGPT - AI 论文速递 ·