小红花·文摘

本文探讨了大型语言模型在多轮对话中的漏洞，提出拼图策略（JSP）来有效分解有害问题。实验表明，JSP在189个有害查询中的攻击成功率达93.76%，并在多种防御下表现出强抗性，具有重要的安全意义。