基于边际的语言模型对齐的共同陷阱：梯度纠缠

本研究针对基于边际的损失在语言模型对齐中的局限性，揭示了理想语言模型行为在偏好与非偏好响应中的不足描述。这种不足导致了两种意外后果：不安全响应的概率增加，以及理想响应的概率减少。我们的研究进一步表明，梯度纠缠效应是导致这种问题的关键因素，并提供了理论和实证分析，针对算法设计提出了改进建议。

SFT和RLHF通常顺序应用，未统一优化目标，导致权衡问题。通过MDP框架分析，SFT是RLHF的特殊情况，能力较弱。为解决此问题，引入直观微调（IFT），将两者整合为单一过程，利用时间残差连接和非偏好标记数据。实验显示，IFT在生成和推理任务上表现优异，并通过Frozen Lake游戏验证其有效性。

Frozen Lake IFT MDP框架 RLHF SFT 语言模型