💡
原文中文,约6700字,阅读约需16分钟。
📝
内容提要
研究发现,通过写诗可以有效绕过大型语言模型的安全机制,意大利ICaro实验室的实验显示,使用诗歌的越狱成功率达到62%,远高于普通提示词的8%。这种方法利用隐喻和单轮对话,突破了模型的三层安全防护。
🎯
关键要点
- 通过写诗可以绕过大型语言模型的安全机制,成功率达到62%。
- 意大利ICaro实验室的研究显示,使用诗歌的越狱成功率远高于普通提示词的8%。
- 实验选择了25个大模型进行测试,包括OpenAI、Anthropic、谷歌等。
- 实验采用单轮对话方式,通过写诗让模型输出违规内容。
- 人工编写的诗歌成功率为62%,而AI生成的诗歌成功率为43%。
- 诗歌的隐喻性使得安全模型无法识别,从而突破了三层安全防护。
- 谷歌的Gemini 2.5 Pro在越狱测试中表现最差,人工诗歌的越狱成功率为100%。
- Anthropic的“宪法AI”在安全性上并不比ChatGPT强,诗歌越狱比例为40%。
- 中美欧的政府监管主要针对平台,开源模型的安全性难以监管。
- 未来各大厂商将增加更多安全措施以应对越狱问题。
➡️