什么会影响大模型安全?NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系
💡
原文中文,约3900字,阅读约需10分钟。
📝
内容提要
香港科技大学USAIL团队提出了新的大语言模型(LLMs)越狱攻击基准JailTrackBench,分析影响模型安全的因素,如攻击者能力、模型规模和安全对齐等。研究表明,模型规模与防御能力不成正比,而安全提示显著增强模型安全性。此外,团队开发了JAILJUDGE评估框架,以系统化评估模型脆弱性并提升防御能力。
🎯
关键要点
- 香港科技大学USAIL团队提出了新的大语言模型越狱攻击基准JailTrackBench。
- JailTrackBench分析了攻击者能力、模型规模和安全对齐等因素对模型安全的影响。
- 研究表明,模型规模与防御能力不成正比,安全提示显著增强模型安全性。
- 团队开发了JAILJUDGE评估框架,以系统化评估模型脆弱性并提升防御能力。
- 越狱攻击通过恶意指令诱导模型生成有害内容,构成安全挑战。
- 实验显示,较大的模型并不总是更具防御能力,安全能力受微调影响。
- 包含安全提示的系统消息能显著增强模型安全性,减少攻击成功率。
- 攻击者能力越强,越狱攻击成功率越高,攻击预算越大,成功率也越高。
- 不同攻击意图显著影响攻击成功率,某些意图更容易成功。
- JAILJUDGE引入多Agent评估框架,提供明确的评估结果和解释。
- JAILJUDGE Guard提供细粒度的越狱评分,评估精度超越现有顶级模型。
- 未来计划扩展JAILJUDGE功能,包括动态场景测试和跨领域应用。
➡️