一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety

硕鼠的博客站 ·

一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety

💡 原文中文，约6700字，阅读约需16分钟。

📝

内容提要

研究发现，通过写诗可以有效绕过大型语言模型的安全机制，意大利ICaro实验室的实验显示，使用诗歌的越狱成功率达到62%，远高于普通提示词的8%。这种方法利用隐喻和单轮对话，突破了模型的三层安全防护。

🎯

关键要点

通过写诗可以绕过大型语言模型的安全机制，成功率达到62%。
意大利ICaro实验室的研究显示，使用诗歌的越狱成功率远高于普通提示词的8%。
实验选择了25个大模型进行测试，包括OpenAI、Anthropic、谷歌等。
实验采用单轮对话方式，通过写诗让模型输出违规内容。
人工编写的诗歌成功率为62%，而AI生成的诗歌成功率为43%。
诗歌的隐喻性使得安全模型无法识别，从而突破了三层安全防护。
谷歌的Gemini 2.5 Pro在越狱测试中表现最差，人工诗歌的越狱成功率为100%。
Anthropic的“宪法AI”在安全性上并不比ChatGPT强，诗歌越狱比例为40%。
中美欧的政府监管主要针对平台，开源模型的安全性难以监管。
未来各大厂商将增加更多安全措施以应对越狱问题。

🏷️

继续阅读

科研AI出了个狠角色：开源30B小模型，硬刚Gemini和Claude
UniScientist是一个开源的30B参数AI模型，能够实现科研闭环，包括提出假设、收集证据和验证。通过动态系统建模和人类专家的验证，该模型提升了科研...
数据分析显示谷歌AI概览功能抢占网站自然搜索流量部分网站流量暴跌97%
谷歌的AI概览功能导致部分网站自然搜索流量下降高达97%。虽然AI能节省用户时间，但也可能提供错误信息。流量下降的原因包括用户搜索频率降低和Reddit排...
将AI应用从原型转向生产需要企业级Postgres基础设施
AI应用在数据库限制、集成复杂性和合规性方面面临挑战，尤其在金融和医疗等受监管行业。pgEdge推出企业级Postgres基础设施，以支持AI应用的安全性...
AI编码代理可以编写代码，Crafting希望帮助他们交付
Crafting CEO Sumeet Vaidya表示，六到九个月前，大家关注AI代理的快速代码生成，但他和联合创始人意识到，工程组织在扩展时面临协调和资源使用等挑战。
Mermaid+AI，告别“手搓”画流程图
本文提出了一种基于VMD-BiLSTM的电力负荷预测模型，通过变分模态分解提高预测精度。VMD将负荷数据分解为平稳成分，BiLSTM进行时序建模，最终合成...
2026年人们利用AI赚钱的7种方式
越来越多的人利用代理AI工具自动化工作并创造收入。到2026年，个人可通过小型系统轻松开展自由职业，常见收入模式包括工作流自动化、微型SaaS和AI辅助写...

一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety

内容提要

关键要点

标签

继续阅读