小红花·文摘

大型语言模型（LLMs）的安全管理引发关注。自动红队测试是替代方案，提供一致和可扩展的评估方法。DiveR-CT通过放宽限制，增强多样性，表现优于基准。同时，提高蓝队模型的适应性和攻击成功率的动态控制，减少对奖励过度优化的敏感性。