通过对控制性合成环境中的解释性工具进行分析,研究发现微调很少改变模型的基础能力,而是在现有能力的基础上学习了一个“包装器”来执行新任务。进一步微调可以“唤醒”隐藏的能力,对微调模型的安全性和鲁棒性有重要影响。研究者还提出了更多关于微调的机制分析和潜在陷阱的思考。
完成下面两步后,将自动完成登录并继续当前操作。