机器之心 ·

让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞

💡 原文中文，约5000字，阅读约需12分钟。

📝

内容提要

OpenAI的o1模型在大规模推理上取得了突破，但成本较高。微软研究院提出的rStar-Math小模型经过自我进化，数学推理能力超越o1，且成本低，展现出强大潜力。

🎯

关键要点

OpenAI的o1模型在大规模推理上取得突破，但成本高昂。
微软研究院提出的rStar-Math小模型经过自我进化，数学推理能力超越o1，且成本低。
rStar-Math模型规模在1.5B到7B之间，证明无需从更大模型蒸馏即可实现强大数学推理能力。
rStar-Math经过4轮自我进化，吸纳747k数学问题数据，提升了数学推理能力。
在MATH基准测试中，rStar-Math的成绩显著提升，超越o1-preview。
rStar-Math在美国数学奥林匹克（AIME）中表现优异，能做对8道题。
该模型仅使用60块A100 GPU实现了强大效果，项目和代码即将开源。
rStar-Math引入自我进化的System 2推理方法，通过蒙特卡洛树搜索实现深度思考能力。
MCTS方法将数学问题分解为简单的单步生成任务，降低了策略模型的难度。
研究探索使用两个7B小模型生成高质量训练数据，克服了自生成数据能力弱的问题。
rStar-Math在多个数学基准上表现优异，超越了最先进的System 2基线。
自我进化的有效性显著提高了模型的数学推理能力。
rStar-Math展现出自我反思能力，能够识别错误并主动纠正。
奖励模型（PPM）成为决定性能上限的关键因素，而非基础模型的大小。

🔎

延伸解读

rStar-Math的创新之处

rStar-Math模型通过引入自我进化的System 2推理方法，利用蒙特卡洛树搜索（MCTS）实现深度思考。这种方法将复杂的数学问题分解为简单的单步生成任务，降低了推理难度，提升了模型的数学推理能力。

成本效益的潜力

与OpenAI的o1模型相比，rStar-Math在数学推理能力上表现优异，但成本却显著降低。这一特性使得rStar-Math成为创业公司和研究机构的理想选择，可能推动更多经济高效的AI应用落地。

自我反思能力的突破

rStar-Math展现出自我反思能力，能够识别并纠正错误。这一特性在开源LLM中较为罕见，表明该模型在深度推理方面的潜力，可能为未来的AI系统设计提供新的思路。

❓

延伸问答

rStar-Math模型的主要优势是什么？

rStar-Math模型在数学推理能力上超越了OpenAI的o1模型，同时成本更低，且无需从更大模型蒸馏。

rStar-Math是如何提升数学推理能力的？

rStar-Math通过四轮自我进化，吸纳747k数学问题数据，提升了数学推理能力。

rStar-Math在MATH基准测试中的表现如何？

在MATH基准测试中，rStar-Math的成绩显著提升，超越了o1-preview，达到了90.0%的正确率。

rStar-Math模型的计算资源需求是什么？

rStar-Math仅使用60块A100 GPU就实现了强大的数学推理效果。

rStar-Math如何实现深度思考能力？

rStar-Math引入了蒙特卡洛树搜索（MCTS）方法，通过分解数学问题为简单的单步生成任务来实现深度思考能力。

rStar-Math的自我反思能力有什么特点？

rStar-Math展现出自我反思能力，能够识别错误并主动纠正，表明其具备内在的自省能力。

🏷️

标签

math o1 o1模型 rStar-Math 千问微软成本数学推理自我进化

➡️

继续阅读

不是模型变慢了，是任务变大了 - 肘子的 Swift 周报 #146
最近，即便是一些我认为并不算复杂的工作，AI 交付结果也常常需要几分钟，甚至几十分钟。这让我产生了一种错觉：难道随着模型能力不断增强，速度只能越来越慢？
Black Forest Labs发布FLUX 3：用于图像、视频、音频和机器人动作预测的多模态流模型
Black Forest Labs (BFL) 发布了FLUX 3，这是一个多模态基础模型，可在单一架构内学习图像、视频和音频。它也是首个仅使用一组权重即...
微软改进Windows 11资源管理器性能删除大量碎片化文件时速度更快
#系统资讯微软优化 Windows 11 资源管理器性能，删除大量碎片化文件时速度更快，例如开发者们遇到的某些软件包产生的海量小文件。在 NTFS 系统...
什么是对齐？团队对齐率仅60%，三种权力模型让决策效率翻倍
会议室里，十个人点头说“明白”；散会后，八个方向分头干；这不叫协作，这是集体迷路。企业最贵的成本不是工资，是信息不对称。高层定下策略，中层转达任务，基层...
AI 写了 75% 的代码，工程师却越来越慌：“黑灯软件工厂”的问题不在 harness，而在模型本身
本文基于 HumanLayer 创始人 Dex Horthy 在 AI Engineer World's Fair 的演讲《Harness Eng...
Dart 线程模型和异步 - SharpCJ
目录一、Dart 的线程模型1.1 单线程事件循环1.2 事件队列与微任务队列1.3 async 函数的执行机制1.4 Zone -- 异步代码的执行上下...