本研究提出SG-Bench方法,评估大型语言模型(LLM)在不同任务和提示类型下的安全性。结果表明,LLM在判别任务中的表现不如生成任务,且对提示依赖性高,安全性对齐的泛化能力较差,为未来研究提供了重要见解。
完成下面两步后,将自动完成登录并继续当前操作。