小红花·文摘

香港科技大学USAIL团队提出了新的大语言模型（LLMs）越狱攻击基准JailTrackBench，分析影响模型安全的因素，如攻击者能力、模型规模和安全对齐等。研究表明，模型规模与防御能力不成正比，而安全提示显著增强模型安全性。此外，团队开发了JAILJUDGE评估框架，以系统化评估模型脆弱性并提升防御能力。