通过引导攻击绕过开源 LLM 的安全培训
原文中文,约500字,阅读约需1分钟。发表于: 。本文展示了对 SOTA 开源 LLMs 的 $extit {priming attacks}$ 的易于执行且有效绕过安全训练对齐的简单、无需优化的攻击,我们的攻击成功率提高了 3.3 倍,通过对比基准测试,测量了有害行为。
大型语言模型的快速发展使得开源模型成为专有模型的替代选择。然而,缺乏适当的引导和保障,大型语言模型容易产生安全风险。SimpleSafetyTests是一套测试套件,用于鉴定大型语言模型的安全风险。测试结果显示,多数模型存在安全弱点,需要加强安全性的提示。建议开发者将此类提示作为防范安全风险的第一层防线。