通过自上而下的测试用例生成和多轮交互实现大型语言模型的全局自动化红队测试
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了当前大型语言模型在红队测试中存在的测试用例覆盖不全面和单轮互动不足的问题。通过提出HARM方法,利用自上而下的风险分类法扩展测试用例的多样性,并结合新的微调策略和强化学习技术,实现多轮 adversarial 交互。实验结果表明,该框架能够更系统地理解模型的脆弱性,并为对齐过程提供更有针对性的指导。
自动红队测试对识别和减轻大型语言模型的风险非常重要,但缺乏标准化评估框架。为此,HarmBench被引入用于标准化评估,通过对18种测试方法和33种模型的比较,提供了新见解。还提出了一种高效对抗训练方法,增强模型鲁棒性,展示了攻击和防御的共同发展。HarmBench已开源。