自动红队测试对于发现和减轻与大型语言模型(LLMs)恶意使用相关的风险具有重要意义。为解决这个问题,研究人员引入了HarmBench,一个用于自动化红队测试的标准化评估框架。使用HarmBench,对18种红队测试方法和33种目标LLMs和防御进行了比较,得出了新的见解。同时,引入了一种高效的对抗训练方法,增强了LLMs对各种攻击的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。