越狱的奖励错配问题
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种新的观点,认为大型语言模型的脆弱性是由于在对齐过程中奖励错误规定所导致的,并引入了一种度量奖励错误规定程度的指标 ReGap。我们在此基础上提出了一种自动红队测试系统 ReMiss,用于生成针对各种目标对齐的大型语言模型的对抗性提示。ReMiss 在 AdvBench...
该文章认为大型语言模型的脆弱性是由于奖励错误规定导致的。作者提出了度量奖励错误规定程度的指标ReGap,并引入了自动红队测试系统ReMiss。ReMiss在AdvBench基准测试中表现出最先进的攻击成功率和人类可读性。作者分析了奖励错误规定目标的独特优势。