量子位 ·

提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

一篇最新论文揭示了突破大模型安全措施的新漏洞。只要将请求中的时间改成过去，就能让GPT-4o泄露敏感信息。实验结果显示，GPT-4o的越狱成功率最高，达到88%。对于Llama-3的攻击效果稍弱，但成功率也有所增加。作者还发现，将来时间的效果不如过去明显。作者建议使用拒绝数据微调来防御攻击。这些发现对当前的语言模型对齐技术提出了新的挑战。

🎯

关键要点

通过将请求中的时间改为过去，可以轻松突破大模型的安全防线。
GPT-4o的攻击成功率从1%提升至88%，是最易被攻击的模型。
实验中使用了六种不同的模型进行测试，结果显示大多数模型的攻击成功率都有显著提高。
Llama-3的攻击效果相对较弱，但成功率也有所增加。
攻击次数增加时，成功率也随之上升，但在达到一定次数后增长放缓。
与特定事件或实体相关的请求攻击成功率较低，而通识内容更容易成功。
将请求时间改为将来时的效果不如过去时明显。
Claude模型相对较难攻击，作者认为可以通过复杂提示词实现。
当前的语言模型对齐技术存在局限性，模型的拒绝能力依赖于特定的语法和词汇模式。
使用拒绝数据微调可以有效防御此类攻击，需设计更全面的安全评估方案。

❓

延伸问答

如何通过时间设置突破大模型的安全限制？

只需将请求中的时间改为过去式，就能轻松突破大模型的安全防线。

GPT-4o的攻击成功率有多高？

GPT-4o的攻击成功率从1%提升至88%，是最易被攻击的模型。

Llama-3模型的攻击效果如何？

Llama-3的攻击效果相对较弱，但成功率也有所增加。

攻击次数对成功率有什么影响？

随着攻击次数的增加，成功率也逐渐提高，但在达到一定次数后增长放缓。

如何防御这种攻击？

可以使用拒绝数据微调来有效防御此类攻击，需设计更全面的安全评估方案。

将来时的攻击效果如何？

将请求时间改为将来时的效果不如过去时明显，成功率约为60%。

🏷️

继续阅读

如何理解JavaScript中的安全整数限制
JavaScript的安全整数限制为9007199254740991，超出此值会导致精度错误。为了解决这个问题，JavaScript引入了BigInt，允...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
研究人员不满微软安全团队的做法公开爆出VS Code漏洞可窃取私有凭证
安全研究员Ammar Askar披露了Visual Studio Code中的高危漏洞，该漏洞可窃取GitHub OAuth Token，导致开发者仓库受...
Inspektor Gadget：首次安全审计结果
Inspektor Gadget是一个基于eBPF的开源工具，专注于Kubernetes可观察性和Linux主机检查。最近完成的安全审计发现三处漏洞，已全...
介绍Gemma 4 12B：一个统一的无编码多模态模型
Gemma 4 12B是最新的多模态智能模型，专为笔记本电脑设计，具备强大的推理能力和音频输入。它采用无编码架构，减少延迟和内存使用，支持在16GB内存的...