小红花·文摘

本研究探讨了大型语言模型（LLM）的“思考停止”漏洞，提出了一种新颖的“推理中断攻击”方法。该方法通过自适应令牌压缩简化提示词结构，实验表明能有效减少提示词长度并保持攻击效果，对提升LLM安全性具有重要意义。