小红花·文摘

本文探讨了大型语言模型（LLM）面临的回溯攻击威胁，并提出了 Chain-of-Scrutiny（CoS）解决方案以确保推理一致性。同时，研究了新型后门攻击方法 POISONPROMPT，强调了定制化语言模型的脆弱性。通过全球 prompt 黑客竞赛，分析了对抗性攻击的类型和效果，提出了新的威胁模型，探讨了安全和隐私问题。