一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety

一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety

硕鼠的博客站 硕鼠的博客站 ·

研究发现,通过写诗可以有效绕过大型语言模型的安全机制,意大利ICaro实验室的实验显示,使用诗歌的越狱成功率达到62%,远高于普通提示词的8%。这种方法利用隐喻和单轮对话,突破了模型的三层安全防护。

原文中文,约6700字,阅读约需16分钟。
阅读原文