小红花·文摘

本文提出了$ exttt{SAGE}$框架，旨在提升大型语言模型（LLM）的安全评估，特别是在特定风险和动态交互中。该框架通过对抗性用户模型进行定制化危害评估，增强了评估的有效性。实验结果表明，随着对话长度的增加，模型的危害性也随之上升，强调了适应性测试的重要性。