提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
一篇最新论文揭示了突破大模型安全措施的新漏洞。只要将请求中的时间改成过去,就能让GPT-4o泄露敏感信息。实验结果显示,GPT-4o的越狱成功率最高,达到88%。对于Llama-3的攻击效果稍弱,但成功率也有所增加。作者还发现,将来时间的效果不如过去明显。作者建议使用拒绝数据微调来防御攻击。这些发现对当前的语言模型对齐技术提出了新的挑战。
🎯
关键要点
- 通过将请求中的时间改为过去,可以轻松突破大模型的安全防线。
- GPT-4o的攻击成功率从1%提升至88%,是最易被攻击的模型。
- 实验中使用了六种不同的模型进行测试,结果显示大多数模型的攻击成功率都有显著提高。
- Llama-3的攻击效果相对较弱,但成功率也有所增加。
- 攻击次数增加时,成功率也随之上升,但在达到一定次数后增长放缓。
- 与特定事件或实体相关的请求攻击成功率较低,而通识内容更容易成功。
- 将请求时间改为将来时的效果不如过去时明显。
- Claude模型相对较难攻击,作者认为可以通过复杂提示词实现。
- 当前的语言模型对齐技术存在局限性,模型的拒绝能力依赖于特定的语法和词汇模式。
- 使用拒绝数据微调可以有效防御此类攻击,需设计更全面的安全评估方案。
➡️