通用对抗触发器并非通用
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究发现,对齐的偏好优化模型(APO)难以破解,对齐的微调模型(AFT)对对抗触发器敏感,优化的触发器可泛化到不同领域的新不安全指令。需要全面评估对齐语言模型的安全性。
🎯
关键要点
- 研究了通过优化模型找到的诱发不安全响应的标记序列,即对抗触发器。
- 发现对齐的偏好优化模型(APO)极难被破解。
- 对齐的微调模型(AFT)对对抗触发器非常敏感。
- 大部分针对 AFT 模型优化的触发器可以泛化到来自五个不同领域的新不安全指令。
- 强调了对对齐语言模型进行更全面安全评估的必要性。
➡️