本文介绍了监督微调(SFT)和从人类反馈中进行强化学习(RLHF)这两种增强语言模型(LMs)能力的基本过程。通过将它们统一到马尔可夫决策过程(MDP)框架中的偏好估计和转移优化两个子过程中,我们发现SFT只是RLHF的一个特例,估计和优化能力较差。因此,SFT过高估计了模型的能力,导致优化结果不佳。基于这个观点,我们引入了直观微调(IFT)来将SFT和RLHF整合成一个单一过程。IFT通过时间残差连接捕捉LMs对整个答案的直观感知,同时使用相同数量的非偏好标记数据和单一策略作为SFT。我们的实验表明,IFT在需要生成、推理和事实遵循能力的任务上表现出与SFT和一些典型对齐方法相当甚至更好的性能。一个可解释的Frozen Lake游戏进一步验证了IFT的有效性。
完成下面两步后,将自动完成登录并继续当前操作。