用猫干扰推理大模型:面向推理模型的查询无关对抗触发方法
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文探讨了大型推理模型在无关文本干扰下的脆弱性,提出了自动化攻击方法CatAttack,通过添加无关“触发文本”导致模型输出错误答案。研究表明,添加无关文本显著提高了错误率,且蒸馏模型更易受到攻击,呼吁关注模型的鲁棒性并开发防御机制。
🎯
关键要点
- 研究探讨大型推理模型在无关文本干扰下的脆弱性。
- 提出自动化攻击方法CatAttack,通过添加无关触发文本误导模型。
- 即使添加无关文本也可能导致模型错误率显著上升。
- CatAttack方法通过代理模型攻击和迭代优化生成触发文本。
- 添加无关文本可使错误率最高增加700%。
- 蒸馏模型比原版模型更容易受到攻击。
- 示例触发类型包括误导性提问和无关事实。
- 监督微调对部分攻击有效,但无法泛化到新触发。
- 研究揭示推理模型的安全漏洞,影响金融、医疗等领域应用。
- 呼吁关注模型鲁棒性并开发有效防御机制。
➡️