基于边际的语言模型对齐的共同陷阱:梯度纠缠
原文中文,约600字,阅读约需2分钟。发表于: 。本研究针对基于边际的损失在语言模型对齐中的局限性,揭示了理想语言模型行为在偏好与非偏好响应中的不足描述。这种不足导致了两种意外后果:不安全响应的概率增加,以及理想响应的概率减少。我们的研究进一步表明,梯度纠缠效应是导致这种问题的关键因素,并提供了理论和实证分析,针对算法设计提出了改进建议。
SFT和RLHF通常顺序应用,未统一优化目标,导致权衡问题。通过MDP框架分析,SFT是RLHF的特殊情况,能力较弱。为解决此问题,引入直观微调(IFT),将两者整合为单一过程,利用时间残差连接和非偏好标记数据。实验显示,IFT在生成和推理任务上表现优异,并通过Frozen Lake游戏验证其有效性。