💡 原文中文,约6700字,阅读约需16分钟。
📝

内容提要

研究发现,通过写诗可以有效绕过大型语言模型的安全机制,意大利ICaro实验室的实验显示,使用诗歌的越狱成功率达到62%,远高于普通提示词的8%。这种方法利用隐喻和单轮对话,突破了模型的三层安全防护。

🎯

关键要点

  • 通过写诗可以绕过大型语言模型的安全机制,成功率达到62%。
  • 意大利ICaro实验室的研究显示,使用诗歌的越狱成功率远高于普通提示词的8%。
  • 实验选择了25个大模型进行测试,包括OpenAI、Anthropic、谷歌等。
  • 实验采用单轮对话方式,通过写诗让模型输出违规内容。
  • 人工编写的诗歌成功率为62%,而AI生成的诗歌成功率为43%。
  • 诗歌的隐喻性使得安全模型无法识别,从而突破了三层安全防护。
  • 谷歌的Gemini 2.5 Pro在越狱测试中表现最差,人工诗歌的越狱成功率为100%。
  • Anthropic的“宪法AI”在安全性上并不比ChatGPT强,诗歌越狱比例为40%。
  • 中美欧的政府监管主要针对平台,开源模型的安全性难以监管。
  • 未来各大厂商将增加更多安全措施以应对越狱问题。
➡️

继续阅读