小红花·文摘

本文介绍了监督微调（SFT）和从人类反馈中进行强化学习（RLHF）这两种增强语言模型（LMs）能力的基本过程。通过将它们统一到马尔可夫决策过程（MDP）框架中的偏好估计和转移优化两个子过程中，我们发现SFT只是RLHF的一个特例，估计和优化能力较差。因此，SFT过高估计了模型的能力，导致优化结果不佳。基于这个观点，我们引入了直观微调（IFT）来将SFT和RLHF整合成一个单一过程。IFT通过时间残差连接捕捉LMs对整个答案的直观感知，同时使用相同数量的非偏好标记数据和单一策略作为SFT。我们的实验表明，IFT在需要生成、推理和事实遵循能力的任务上表现出与SFT和一些典型对齐方法相当甚至更好的性能。一个可解释的Frozen Lake游戏进一步验证了IFT的有效性。