量子位 ·

让Qwen2.5 7B超越o1，微软干的！MSRA推出小模型数学推理自我进化新方法

💡 原文中文，约5300字，阅读约需13分钟。

📝

内容提要

微软研究院推出的rStar-Math算法使Qwen2.5 7B模型在数学推理上超越o1-preview。通过蒙特卡洛树搜索和自我进化，rStar-Math显著提高了模型的准确率，解决了53.3%的AIME 2024难题，成为顶尖数学模型之一。

🎯

关键要点

微软研究院推出的rStar-Math算法使Qwen2.5 7B模型在数学推理上超越o1-preview。
rStar-Math通过蒙特卡洛树搜索和自我进化显著提高了模型的准确率。
在AIME 2024测试中，rStar-Math平均解决了53.3%的难题，超过OpenAI o1-preview的44.6%。
rStar-Math将Qwen2.5-Math-7B的准确率从58.8%提升至90.0%。
rStar-Math采用了代码增强CoT、过程奖励模型训练和四轮自我思维深度进化等创新方法。
通过MCTS生成逐步验证的推理轨迹，确保每一步推理的正确性。
PPM通过构建步骤级的正负偏好对来训练模型，提供细粒度的步骤级反馈。
四轮自我思维深度进化显著提升了模型的推理能力，最终在747k数学题上取得90.25%的成绩。
rStar-Math在多个数学基准测试中表现出强大的通用性，验证了自进化和PPM的有效性。

❓

延伸问答

rStar-Math算法的主要创新点是什么？

rStar-Math算法的主要创新点包括代码增强CoT、过程奖励模型训练和四轮自我思维深度进化。

Qwen2.5 7B模型在AIME 2024测试中的表现如何？

在AIME 2024测试中，Qwen2.5 7B模型通过rStar-Math算法平均解决了53.3%的难题，超过了OpenAI o1-preview的44.6%。

rStar-Math如何提高模型的推理准确率？

rStar-Math通过蒙特卡洛树搜索和自我进化显著提高了模型的推理准确率，将Qwen2.5-Math-7B的准确率从58.8%提升至90.0%。

rStar-Math在数学基准测试中的表现如何？

rStar-Math在多个数学基准测试中表现出强大的通用性，验证了自进化和过程奖励模型的有效性。

rStar-Math是如何处理数学推理中的步骤反馈问题的？

rStar-Math通过构建步骤级的正负偏好对来训练过程偏好模型，提供细粒度的步骤级反馈，帮助模型做出更优选择。

微软研究院推出rStar-Math的背景是什么？

微软研究院推出rStar-Math是为了让小语言模型在数学推理能力上与大模型相媲美，甚至超越，而无需依赖高级教师模型。

🏷️

继续阅读

解决“打地鼠困境”：一种更智能的去偏见AI视觉模型的方法
WRING是一种新型去偏见技术，通过调整模型中特定坐标的表示方式，减少目标概念的偏见，同时不增加其他领域的偏见。该方法高效且无需重新训练模型，适用于视觉语...
微软报告Xbox收入下滑，云业务持续增长
微软的Xbox硬件收入下降33%，Xbox内容和服务也下降5%。尽管如此，整体收入达到829亿美元。公司高管频繁更换，但AI和云业务持续增长，云收入同比增...
微软将为Xbox员工提供Xbox电子邮件地址
微软将Xbox员工的电子邮件地址更改为以“@xbox.com”结尾，取代原有的“@microsoft.com”，以强化Xbox品牌形象。所有员工将默认使用...
面向电商直播场景的全模态大模型推理加速方案
本文介绍了电商直播场景下的全模态理解大模型TLiveOmni在vLLM框架下的推理部署与量化优化。通过自定义插件和修复多模态Token排布，解决了vLLM...
Vim 替代者？微软开源命令行编辑器 Edit 2.0.0 发布，新增语法高亮功能，大小不到 300kB
微软开源的命令行编辑器 Edit 2.0.0 版本新增语法高亮功能，支持多种编程语言，体积轻巧，适用于 Windows、Linux 和 macOS，提供查...
微软推出新型嵌入式 AI 代理，加速迈向“智能代理联络中心”
微软在Dynamics 365联系中心新增了三个AI代理：客户协助代理、质量保证代理和服务运营代理。这些代理利用数据和上下文推理，自动处理客户咨询、监控对...