小红花·文摘

通过对控制性合成环境中的解释性工具进行分析，研究发现微调很少改变模型的基础能力，而是在现有能力的基础上学习了一个“包装器”来执行新任务。进一步微调可以“唤醒”隐藏的能力，对微调模型的安全性和鲁棒性有重要影响。研究者还提出了更多关于微调的机制分析和潜在陷阱的思考。