探索基于强化学习的正式语言任务的大型语言模型训练与编程奖励

本文研究了使用近端策略优化（PPO）算法进行大型语言模型（LLM）的直接强化学习，特别是在正式语言任务中应用显式编程奖励信号的可行性。研究表明，尽管提出了新颖的批量熵正则化方法来促进探索，但对正式语言任务的纯强化学习训练仍然面临挑战，这表明直接强化学习更适合任务的微调，而不仅仅是学习新任务。

人类反馈强化学习（RLHF）是对齐大型语言模型（LLM）输出与人类偏好的主要方法。研究显示，Expert Iteration在多种算法中表现最佳，其样本复杂度与PPO相似，均需约$10^6$个样本。RL训练提升了SFT模型性能，影响未来RLHF和LLM微调中的RL角色。

Expert Iteration LLM RLHF SFT模型大型语言模型强化学习样本复杂度