本研究提出了一种增强目标的对抗触发器学习方法(ATLA),通过改进负对数似然损失,实现了基于查询-响应的对抗触发器学习。ATLA展现出接近100%的攻击成功率,具有良好的迁移和泛化能力,并显著减少了查询需求。
研究发现,对齐的偏好优化模型(APO)难以破解,对齐的微调模型(AFT)对对抗触发器敏感,优化的触发器可泛化到不同领域的新不安全指令。需要全面评估对齐语言模型的安全性。
完成下面两步后,将自动完成登录并继续当前操作。