本文探讨了大型语言模型(LLM)面临的回溯攻击威胁,并提出了 Chain-of-Scrutiny(CoS)解决方案以确保推理一致性。同时,研究了新型后门攻击方法 POISONPROMPT,强调了定制化语言模型的脆弱性。通过全球 prompt 黑客竞赛,分析了对抗性攻击的类型和效果,提出了新的威胁模型,探讨了安全和隐私问题。
完成下面两步后,将自动完成登录并继续当前操作。