量子位 ·

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

LLaMA版o1项目由上海AI Lab发布，结合蒙特卡洛树搜索与强化学习，开源代码引发关注。该模型在数学奥赛测试中表现优异，优化后正确率显著提升。团队还推出了包含长思维链的预训练数据集，支持进一步训练。同时，上交大团队的O1-Journey项目也在推进中。

🎯

关键要点

LLaMA版o1项目由上海AI Lab发布，结合蒙特卡洛树搜索与强化学习。
开源代码引发关注，模型在数学奥赛测试中表现优异。
优化后正确率显著提升，团队推出包含长思维链的预训练数据集。
O1-Journey项目由上交大团队推进，介绍了创新的Journey Learning范式。
LLaMA-O1项目使用了AlphaGo Zero的双重策略范式。
在AIME2024基准测试中，优化后的模型表现超过其他商业闭源方案。
开源内容包括预训练数据集、预训练模型和强化学习训练代码。
预训练数据集包含10万+条长思维链数据，支持进一步训练。
训练过程中使用了LoRA、PPO和GAE等关键技术。
LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下。

🏷️

继续阅读

如何在PaaS平台上部署AI生成的代码
Vibe编码强调快速开发与反馈，简化部署流程为代码到上线的自然延续。使用PaaS（如Sevalla）可避免复杂基础设施，自动化部署，提高开发效率。关键在于...
OpenAI GPT-5.4发布，AI迎来就业报告，Anthropic在美国禁令后激增
Anthropic的新研究提出了“观察到的曝光”指标，结合理论LLM能力与实际使用数据。结果显示，AI尚未达到理论能力，实际任务覆盖率远低于可行范围。程序...
AI 时代的人类处境：科技、宗教与生命意义的重构
在AI时代，科技与宗教的关系需重新审视。科技改变人与世界的互动，但无法消解人类对意义和死亡的思考。宗教应超越消费，关注真实修行。科学与宗教的关系可视为对立...
央视点赞千问APP，“AI办事”让人工智能走进日常生活
央视点赞千问APP，推动AI办事进入日常生活。该APP通过语音交互满足个性化需求，受到大众，尤其是老年群体的欢迎。春节期间，1.3亿人体验AI下单，显示中...
早报｜小米发布手机版龙虾/M5 Max跑分曝光：或登顶Mac性能榜/魏建军就魏牌海报抄袭道歉
M5 Max芯片的早期跑分显示其单核和多核性能超越前代，可能成为Mac性能之最。甲骨文因AI数据中心扩张面临现金流压力，计划裁员数千人。苹果MacBook...
一分钟读论文：《生成式AI重构软件工程，开发者生产力提升55.8%》
软件开发范式正经历变革，从 Software 1.0 和 2.0 迈向 Software 3.0。自然语言将成为编程接口，AI 模型将负责实现，开发者需专...

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

内容提要

关键要点

标签

继续阅读