量子位 ·

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

开源Llama版o1通过逆向工程复现了OpenAI的新Scaling Law，3B模型在数学测试中超越80B模型，甚至超过计算机科学博士生的平均分。Hugging Face团队提出了多样化验证器树搜索等新方法，显著提升了模型性能和多样性，尤其在算力充足时。实验结果表明，动态分配策略在不同问题难度下表现最佳，未来仍有探索空间。

🎯

关键要点

开源Llama版o1通过逆向工程复现了OpenAI的新Scaling Law。
3B模型在数学测试中超越80B模型，甚至超过计算机科学博士生的平均分。
Hugging Face团队提出了多样化验证器树搜索等新方法，显著提升了模型性能和多样性。
动态分配策略在不同问题难度下表现最佳，未来仍有探索空间。
Hugging Face团队基于DeepMind的研究进行了改进，提出了多种搜索策略。
Best-of-N策略和Beam Search策略在不同情况下表现各异，DVTS方法提高了答案的多样性。
实验结果显示，动态分配策略能够取得最佳成绩，尤其在算力充足时。
未来的研究方向包括更强大的验证器和自我验证机制的实现。

🏷️

继续阅读

Anthropic与OpenAI争夺最佳开源维护者
如果Anthropic项目招募到10,000名开发者，预计价值约1200万美元。对于刚融资300亿美元的公司而言，这笔费用不算高，但能获得维护者的支持，推...
游戏版大数据杀熟？索尼PS游戏商店面向不同用户会提供不同的折扣价格
索尼在PS游戏商店实施动态定价策略，针对不同国家和用户提供5%至17.5%的折扣，导致同款游戏价格差异。这一举措旨在刺激购买，但可能影响用户满意度和品牌声誉。
搞色色就这么难？OpenAI确认ChatGPT成人模式继续推迟需要做其他工作
OpenAI确认ChatGPT的成人模式将继续推迟，当前专注于优化用户体验。尽管计划在2026年3月前推出，但尚无明确时间表。其他AI聊天机器人对成人话题...
OpenAI GPT-5.4发布，AI迎来就业报告，Anthropic在美国禁令后激增
Anthropic的新研究提出了“观察到的曝光”指标，结合理论LLM能力与实际使用数据。结果显示，AI尚未达到理论能力，实际任务覆盖率远低于可行范围。程序...
OpenAI也向开源项目开发者/维护者推出福利计划免费领取半年ChatGPT Pro订阅
OpenAI 向开源项目开发者提供 6 个月的 ChatGPT Pro 订阅，无需硬性要求，只要项目具有广泛使用或重要性即可申请，包含 Codex 安全功...
OpenClaw创始人建议用户不要使用小模型跑高风险任务因为提示词注入防护非常弱
OpenClaw创始人建议用户避免在高风险任务中使用小模型或旧模型，因为这些模型的提示词注入防护较弱，存在安全隐患。用户应选择最新、指令对齐更强的模型，并...

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

内容提要

关键要点

标签

继续阅读