量子位 ·

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

LLaMA版o1项目由上海AI Lab发布，结合蒙特卡洛树搜索与强化学习，开源代码引发关注。该模型在数学奥赛测试中表现优异，优化后正确率显著提升。团队还推出了包含长思维链的预训练数据集，支持进一步训练。同时，上交大团队的O1-Journey项目也在推进中。

🎯

🔎

LLaMA版o1的开源不仅为开发者提供了强大的数学推理工具，也促进了AI领域的合作与创新。开源代码的发布使得更多研究者能够在此基础上进行改进和应用，推动了整个行业的发展。

该项目结合了蒙特卡洛树搜索和强化学习等先进技术，特别是在数学推理方面表现突出。预训练数据集中的长思维链数据为模型提供了丰富的学习素材，能够有效提升其推理能力，适用于教育和科研等多个领域。

LLaMA版o1在AIME2024基准测试中的表现优于许多商业闭源方案，显示出其在数学推理方面的潜力。与上交大的O1-Journey项目相比，LLaMA-O1在技术实现和数据集构建上有不同的侧重点，值得关注各自的进展与应用场景。

❓

LLaMA版o1项目结合了蒙特卡洛树搜索、Self-Play强化学习、PPO算法和AlphaGo Zero的双重策略范式。

在AIME2024基准测试中，优化后的LLaMA版o1模型正确率显著提升，从原版的2道题提升到8道题，超过了其他商业闭源方案。

开源内容包括预训练数据集、预训练模型和强化学习训练代码，数据集包含10万+条长思维链数据。

O1-Journey项目介绍了创新的Journey Learning范式，并成功将搜索和学习整合到数学推理中。

训练过程中使用了LoRA、PPO和GAE等关键技术，以提高训练效率和模型性能。

LLaMA-O1的代码发布在名为SimpleBerry的GitHub账号下。

🏷️