机器之心 ·

网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

AIxiv专栏报道了香港科技大学等机构提出的SelfDefend框架，旨在提高大语言模型的安全性，抵御越狱攻击。该框架通过引入影子模型，显著降低攻击成功率，同时保持低延迟，展示了AI系统自我保护的潜力。

🎯

🔎

越狱攻击的形式多样，包括人工设计、优化、生成等多种方式，且不断演化。这使得传统防御机制难以应对，尤其是间接攻击和多语言攻击。了解这些攻击形式的复杂性，有助于更好地评估防御框架的有效性。

SelfDefend框架通过引入影子模型，形成双重保护层，显著提高了对越狱攻击的防御成功率。同时，该框架在保持低延迟的情况下，几乎不影响正常查询的响应速度。这一设计为AI系统的安全性与效率提供了新的解决方案。

实验表明，SelfDefend在多种越狱攻击场景中表现优异，尤其是将攻击成功率大幅降低至接近零。这一成果不仅展示了该框架的有效性，也为未来AI安全防护提供了重要的参考依据，值得关注其后续应用。

❓

SelfDefend框架旨在提高大语言模型的安全性，能够有效识别和抵御越狱攻击，同时保持低延迟。

SelfDefend通过引入影子模型并行检测有害查询，形成双重保护层，从而显著降低越狱攻击的成功率。

SelfDefend在应对多种越狱攻击时表现优异，且额外延迟远低于其他防御方法，兼容开源和闭源模型。

实验表明，基于GPT-3.5和GPT-4的SelfDefend显著降低了多种越狱攻击的成功率，正常查询的影响微乎其微。

越狱攻击包括基于人工设计、优化、生成的攻击，以及间接攻击和多语言攻击等多种形式。

SelfDefend展示了AI系统自我守护的潜力，未来将实现高效服务与主动识别威胁的结合。

🏷️