SG-Bench: Evaluating the Generalization of Large Language Model Safety Across Diverse Tasks and Prompt Types

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出SG-Bench方法,评估大型语言模型(LLM)在不同任务和提示类型下的安全性。结果表明,LLM在判别任务中的表现不如生成任务,且对提示依赖性高,安全性对齐的泛化能力较差,为未来研究提供了重要见解。

🎯

关键要点

  • 本研究提出SG-Bench方法,旨在综合评估大型语言模型(LLM)在不同任务和提示类型下的安全性。

  • 研究发现,大多数LLM在判别任务中的表现不如生成任务。

  • LLM对提示的依赖性较高,显示出安全性对齐的泛化能力较差。

  • 这些发现为未来的研究提供了重要的见解,强调了当前安全评估的局限性。

➡️

继续阅读