小红花·文摘

本研究探讨了多目标后门攻击及其防御机制，提出了一种新方法以提高模型的鲁棒性。研究表明，后门攻击对大型语言模型构成严重威胁，现有防御措施效果有限，强调了开发有效防御的必要性。