宪法分类器:抵御普遍越狱的防御机制

📝

内容提要

本研究解决了大型语言模型(LLMs)易受普遍越狱攻击的问题,这种攻击可系统性地绕过模型的安全防护。提出了宪法分类器的创新方法,通过自然语言规则生成合成数据,以训练模型的安全防护。在超过3000小时的红队测试中,未能找到能够从受限模型中提取信息的普遍越狱,显示出新分类器在防御性能和实际部署中的可行性。

🏷️

标签

➡️

继续阅读