RLHF(基于人类反馈的强化学习)并未为大型语言模型(LLM)提供真正的强化学习,因为缺乏持续的环境交互和长期目标追求。RLHF主要通过单步优化调整模型输出,缺乏实时反馈和动态策略更新。尽管RLHF能改善模型对齐性,但LLM仍然是基于上下文预测的统计系统,缺乏内在目标和意图。
本文研究了大型语言模型的奖励功能和决策过程不透明的问题。通过逆向强化学习,恢复了隐性奖励功能,分析模型大小与可解释性的关系,并揭示RLHF过程中的潜在问题。结果表明,IRL衍生的奖励模型在新模型微调中表现出色,有助于提高模型对齐性。
完成下面两步后,将自动完成登录并继续当前操作。