VinePPO：通过精细的信贷分配释放RL在LLM推理中的潜力

本研究针对现有大语言模型（LLM）在复杂推理任务中的信贷分配不足进行了深入分析，发现传统的值网络在此过程中表现不佳。我们提出VinePPO，一种利用语言环境灵活性进行无偏蒙特卡洛估计的新方法，显著提升了模型在MATH和GSM8K数据集上的性能，且更新频率和计算时间较传统方法减少。研究结果强调了精确信贷分配在LLM的强化学习微调中的重要性。

研究探讨了人类反馈学习（RLHF）对大型语言模型推理能力的影响。通过多种算法如Expert Iteration和PPO，结合不同奖励模型，分析了不同模型尺寸和初始化状态下的性能。结果显示，各算法表现相近，Expert Iteration最佳。RL训练未能显著超越SFT模型，并讨论了训练期间的性能取舍及改进。最后，分析了RLHF在未来微调中的角色。

Expert Iteration PPO RLHF llm 大型语言模型微调