研究发现,对齐的偏好优化模型(APO)难以破解,对齐的微调模型(AFT)对对抗触发器敏感,优化的触发器可泛化到不同领域的新不安全指令。需要全面评估对齐语言模型的安全性。
完成下面两步后,将自动完成登录并继续当前操作。