小红花·文摘

本研究提出SG-Bench方法，评估大型语言模型（LLM）在不同任务和提示类型下的安全性。结果表明，LLM在判别任务中的表现不如生成任务，且对提示依赖性高，安全性对齐的泛化能力较差，为未来研究提供了重要见解。