SG-Bench: Evaluating the Generalization of Large Language Model Safety Across Diverse Tasks and Prompt Types
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出SG-Bench方法,评估大型语言模型(LLM)在不同任务和提示类型下的安全性。结果表明,LLM在判别任务中的表现不如生成任务,且对提示依赖性高,安全性对齐的泛化能力较差,为未来研究提供了重要见解。
🎯
关键要点
-
本研究提出SG-Bench方法,旨在综合评估大型语言模型(LLM)在不同任务和提示类型下的安全性。
-
研究发现,大多数LLM在判别任务中的表现不如生成任务。
-
LLM对提示的依赖性较高,显示出安全性对齐的泛化能力较差。
-
这些发现为未来的研究提供了重要的见解,强调了当前安全评估的局限性。
➡️