基于边际的语言模型对齐的共同陷阱:梯度纠缠
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
SFT和RLHF通常顺序应用,未统一优化目标,导致权衡问题。通过MDP框架分析,SFT是RLHF的特殊情况,能力较弱。为解决此问题,引入直观微调(IFT),将两者整合为单一过程,利用时间残差连接和非偏好标记数据。实验显示,IFT在生成和推理任务上表现优异,并通过Frozen Lake游戏验证其有效性。