量子位 ·

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

字节与MAP团队提出的FR3E算法旨在解决大语言模型在强化学习中的探索不足问题。该算法通过“先返回、再探索”的框架，动态平衡利用与探索，显著提升模型的推理能力和多样性。实验结果表明，FR3E在多个数学基准上表现优异。

🎯

🔎

FR3E算法通过‘先返回、再探索’的框架，解决了传统强化学习中探索不足的问题。这一创新不仅提升了大语言模型的推理能力，还为未来的强化学习研究提供了新的思路，可能推动更复杂任务的解决方案。

FR3E算法强调在训练过程中动态平衡探索与利用，避免模型过早收敛。这种平衡机制有助于提升模型的多样性生成能力，确保在复杂推理任务中能够持续优化性能，值得研究者关注其在实际应用中的效果。

实验表明，FR3E在多个数学推理基准上显著优于传统方法，尤其在提升探索多样性和长程推理稳定性方面表现突出。这提示我们，未来的模型训练可以借鉴FR3E的结构化反馈与自适应调节思想，以实现更高的性能上限。

❓

FR3E算法旨在解决大语言模型在强化学习中的探索不足问题。

FR3E通过'先返回、再探索'的框架，动态平衡利用与探索，从而提升模型的推理能力和多样性。

FR3E算法分为两个阶段：First Return和Entropy-Eliciting Explore。

实验结果表明，FR3E在多个数学推理基准上显著优于强基线GRPO++，展现出更强的泛化与推理能力。

FR3E有效延缓了模型的过早收敛，提升了复杂推理任务中的性能上限。

FR3E的探索机制具备良好的可扩展性，结合高熵锚点识别与动态优势调制机制。

🏷️