提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

一篇最新论文揭示了突破大模型安全措施的新漏洞。只要将请求中的时间改成过去,就能让GPT-4o泄露敏感信息。实验结果显示,GPT-4o的越狱成功率最高,达到88%。对于Llama-3的攻击效果稍弱,但成功率也有所增加。作者还发现,将来时间的效果不如过去明显。作者建议使用拒绝数据微调来防御攻击。这些发现对当前的语言模型对齐技术提出了新的挑战。

🎯

关键要点

  • 通过将请求中的时间改为过去,可以轻松突破大模型的安全防线。
  • GPT-4o的攻击成功率从1%提升至88%,是最易被攻击的模型。
  • 实验中使用了六种不同的模型进行测试,结果显示大多数模型的攻击成功率都有显著提高。
  • Llama-3的攻击效果相对较弱,但成功率也有所增加。
  • 攻击次数增加时,成功率也随之上升,但在达到一定次数后增长放缓。
  • 与特定事件或实体相关的请求攻击成功率较低,而通识内容更容易成功。
  • 将请求时间改为将来时的效果不如过去时明显。
  • Claude模型相对较难攻击,作者认为可以通过复杂提示词实现。
  • 当前的语言模型对齐技术存在局限性,模型的拒绝能力依赖于特定的语法和词汇模式。
  • 使用拒绝数据微调可以有效防御此类攻击,需设计更全面的安全评估方案。
🏷️

标签

➡️

继续阅读