大型语言模型(LLMs)的安全管理引发关注。自动红队测试是替代方案,提供一致和可扩展的评估方法。DiveR-CT通过放宽限制,增强多样性,表现优于基准。同时,提高蓝队模型的适应性和攻击成功率的动态控制,减少对奖励过度优化的敏感性。
完成下面两步后,将自动完成登录并继续当前操作。