基于边际的语言模型对齐的共同陷阱:梯度纠缠

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

SFT和RLHF通常顺序应用,未统一优化目标,导致权衡问题。通过MDP框架分析,SFT是RLHF的特殊情况,能力较弱。为解决此问题,引入直观微调(IFT),将两者整合为单一过程,利用时间残差连接和非偏好标记数据。实验显示,IFT在生成和推理任务上表现优异,并通过Frozen Lake游戏验证其有效性。

🎯

关键要点

  • SFT和RLHF是增强语言模型能力的两个基本过程。
  • 当前做法是按顺序应用SFT和RLHF,未统一优化目标,导致权衡问题。
  • 在马尔可夫决策过程框架中,SFT被视为RLHF的特殊情况,其能力较弱。
  • SFT高估了模型能力,导致优化效果不佳。
  • 引入直观微调(IFT)将SFT和RLHF整合为单一过程。
  • IFT通过时间残差连接捕捉LMs对答案的直观感知,使用非偏好标记数据。
  • 实验表明,IFT在生成、推理和遵循事实能力的任务上表现优异。
  • Frozen Lake游戏验证了IFT的有效性。
➡️

继续阅读