微小SFT损失用于大语言模型微调以提高性能和减少模型偏差
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文介绍了监督微调(SFT)和从人类反馈中进行强化学习(RLHF)这两种增强语言模型(LMs)能力的基本过程。通过将它们统一到马尔可夫决策过程(MDP)框架中的偏好估计和转移优化两个子过程中,我们发现SFT只是RLHF的一个特例,估计和优化能力较差。因此,SFT过高估计了模型的能力,导致优化结果不佳。基于这个观点,我们引入了直观微调(IFT)来将SFT和RLHF整合成一个单一过程。IFT通过时间残差连接捕捉LMs对整个答案的直观感知,同时使用相同数量的非偏好标记数据和单一策略作为SFT。我们的实验表明,IFT在需要生成、推理和事实遵循能力的任务上表现出与SFT和一些典型对齐方法相当甚至更好的性能。一个可解释的Frozen Lake游戏进一步验证了IFT的有效性。
🎯
关键要点
-
监督微调(SFT)和从人类反馈中进行强化学习(RLHF)是增强语言模型能力的两个基本过程。
-
当前常见做法是简单按顺序应用SFT和RLHF,未统一优化目标,导致适应不同目标之间存在权衡。
-
在马尔可夫决策过程(MDP)框架中,SFT被发现是RLHF的一个特殊情况,其估计和优化能力较差。
-
SFT高估了模型的能力,导致优化效果不佳。
-
引入直观微调(IFT)将SFT和RLHF整合为一个单一过程。
-
IFT通过时间残差连接捕捉LMs对整个答案的直观感知,使用与SFT相同数量的非偏好标记数据和单一策略。
-
实验表明,IFT在生成、推理和遵循事实能力的任务上表现优于SFT和一些典型对齐方法。
-
可解释的Frozen Lake游戏进一步验证了IFT的有效性。
➡️