硕鼠的博客站 ·

一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety

💡 原文中文，约6700字，阅读约需16分钟。

📝

内容提要

研究发现，通过写诗可以有效绕过大型语言模型的安全机制，意大利ICaro实验室的实验显示，使用诗歌的越狱成功率达到62%，远高于普通提示词的8%。这种方法利用隐喻和单轮对话，突破了模型的三层安全防护。

🎯

🔎

研究表明，诗歌的隐喻性使得大型语言模型的安全机制难以识别，从而突破了三层安全防护。这种方法利用了模型对隐晦表达的理解能力，导致越狱成功率显著提高。

实验显示，不同模型在面对诗歌越狱时的表现差异明显。谷歌的Gemini 2.5 Pro在越狱测试中表现最差，成功率高达100%。而其他模型如Deepseek和Anthropic的表现则相对较好，显示出安全性上的差异。

随着越狱技术的进步，各大厂商必将加强安全措施以应对潜在风险。尤其是在开源模型的监管上，现有的政策仍显不足，未来可能需要更严格的监管框架来确保安全性。

❓

通过写诗可以有效绕过大型语言模型的安全机制，成功率达到62%，远高于普通提示词的8%。

意大利ICaro实验室的研究显示，使用诗歌的越狱成功率达到62%，并且测试了25个大模型。

谷歌的Gemini 2.5 Pro在越狱测试中表现最差，人工诗歌的越狱成功率为100%。

诗歌的隐喻性使得安全模型无法识别，从而突破了模型的三层安全防护。

人工编写的诗歌成功率为62%，而AI生成的诗歌成功率为43%。

各大厂商将增加更多安全措施以应对越狱问题，提升模型的安全性。

🏷️