Mitigating Forgetting in Supervised Fine-Tuning and Preference Learning of Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
研究探讨大型语言模型中监督微调与偏好学习的相互影响,提出新的联合后训练框架。理论证明顺序训练效果不佳,实验显示新框架在相同计算成本下优于传统方法。
🎯
关键要点
- 研究探讨大型语言模型中监督微调与偏好学习的相互影响。
- 提出新的联合后训练框架。
- 理论证明顺序训练效果不佳。
- 实验显示新框架在相同计算成本下优于传统方法。
➡️