RL-STaR：自学推理者的强化学习框架的理论分析

本研究解决了大语言模型在推理能力上对人类标注数据依赖过大的问题，通过强化学习框架自学推理者（STaR）自动生成推理步骤。研究提出了STaR的理论基础，分析了强化学习如何逐步改善推理，定义了收敛条件及其鲁棒性，并指出了高质量预训练模型对推理改进的必要性，从而为强化学习在推理中的应用提供了理论支持。

研究表明，从人类反馈中进行强化学习（RLHF）能有效提升大型语言模型（LLM）的推理能力。多种算法（如Expert Iteration和PPO）表现相似，其中Expert Iteration在大多数情况下效果最佳。研究还发现，模型在RL训练中未能有效探索新解，但RL训练同时改善了多个性能指标。这些发现对未来RLHF和LLM微调研究具有重要意义。

Expert Iteration 人类反馈大型语言模型强化学习性能指标