本文提出了$ exttt{SAGE}$框架,旨在提升大型语言模型(LLM)的安全评估,特别是在特定风险和动态交互中。该框架通过对抗性用户模型进行定制化危害评估,增强了评估的有效性。实验结果表明,随着对话长度的增加,模型的危害性也随之上升,强调了适应性测试的重要性。
完成下面两步后,将自动完成登录并继续当前操作。