机器之心 ·

自动学会工具解题，RL扩展催化奥数能力激增17%

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

研究团队提出了ToRL框架，通过强化学习使大模型自主探索工具使用策略，突破传统限制。实验表明，ToRL在数学推理任务中显著提高了准确率，展现了模型的自我修正和动态切换能力，推动了大语言模型的发展。

🎯

❓

ToRL框架允许模型直接从基座模型开始，通过强化学习自主探索最优工具使用策略，打破了传统的工具使用限制。

ToRL-7B在AIME24上达到了43.3%的准确率，比不使用工具的基线模型提高了14%，比现有的工具集成大模型提高了17%。

ToRL通过强化学习使模型自主探索工具使用策略，模型自发涌现出工具选择直觉、自我修正能力和动态切换能力。

随着训练步骤的增加，模型解决问题使用代码的比例和可正确执行的代码比例持续增长，显示出模型的编码能力增强。

ToRL的研究结果为需要精确计算、模拟或算法推理的领域开辟了新可能性，如科学计算和经济建模。

ToRL设计了基于规则的奖励函数，正确答案获得+1奖励，错误答案获得-1奖励，同时尝试了基于执行的惩罚。

🏷️

欢迎来到2026年Perl工具链峰会！
2026年Perl工具链峰会将在维也纳举行，感谢当地团队的组织。会议旨在为参与者提供低成本的参与机会，赞助商包括Perl和Raku基金会。活动将吸引新成员...
OpenLess — 开源跨平台语音输入与提示词生成工具
OpenLess 是一个开源的跨平台语音输入工具，基于 Rust、Tauri、React 和 TypeScript 构建，支持 macOS、Windows...
第6章：工具篇——使用 RunningHub（ComfyUI）生成短剧
本章介绍了使用RunningHub（ComfyUI）生成短剧的工具和流程。ComfyUI是一个开源的AI视频创作引擎，支持多种主流模型，并允许用户灵活调整...
Claude Mythos Preview 模型能力解析：大模型攻防实测与企业应对建议
绿盟科技的报告分析了Anthropic的Claude Mythos模型，指出其在0day漏洞挖掘和网络攻击中的高效能，可能增加开源供应链的风险。报告建议企...
iStat Menus 7 – macOS 必备，优雅的系统监控工具
iStat Menus 7 是一款强大的 macOS 系统监控工具，实时监控 CPU、内存、磁盘和网络信息，界面优雅且可高度定制。单用户许可证58元，家庭...
火速吃瓜：Kimi K2.6设计能力超越Claude Design
Kimi K2.6凭借强大的设计能力和低廉的价格，迅速超越Claude Design，成为开源领域的新王。用户通过简单的提示词可以快速生成完整的网站设计，...