小红花·文摘

研究发现，对齐的偏好优化模型（APO）难以破解，对齐的微调模型（AFT）对对抗触发器敏感，优化的触发器可泛化到不同领域的新不安全指令。需要全面评估对齐语言模型的安全性。