小红花·文摘

自动红队测试对识别和减轻大型语言模型的风险非常重要，但缺乏标准化评估框架。为此，HarmBench被引入用于标准化评估，通过对18种测试方法和33种模型的比较，提供了新见解。还提出了一种高效对抗训练方法，增强模型鲁棒性，展示了攻击和防御的共同发展。HarmBench已开源。

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）的安全管理引发关注。自动红队测试是替代方案，提供一致和可扩展的评估方法。DiveR-CT通过放宽限制，增强多样性，表现优于基准。同时，提高蓝队模型的适应性和攻击成功率的动态控制，减少对奖励过度优化的敏感性。

BriefGPT - AI 论文速递 ·