量子位 ·

超低成本复现QwQ！数学推理模型训练迎来RL暴击，数据代码全开源 | 蚂蚁&清华出品

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

蚂蚁与清华合作推出开源强化学习框架AReaL-boba，显著降低数学推理模型的训练成本与时间。仅需200条数据和200美元即可复现QwQ-32B模型，其推理能力可与顶尖模型媲美。该框架全面开源，包含训练代码、数据及技术笔记，推动AI训练的普惠化。

🎯

关键要点

蚂蚁与清华合作推出开源强化学习框架AReaL-boba，显著降低数学推理模型的训练成本与时间。
仅需200条数据和200美元即可复现QwQ-32B模型，其推理能力可与顶尖模型媲美。
AReaL-boba全面开源，包含训练代码、数据及技术笔记，推动AI训练的普惠化。
AReaL-boba集成SGLang推理框架，提升训练效率，支持单机和大规模分布式训练。
在数学推理领域，AReaL-boba基于Qwen-R1-Distill-7B模型实现SOTA水平，推理能力显著提升。
团队开源了所有训练数据、训练脚本和评估脚本，确保人人可以复现。
使用创新性蒸馏技术，AReaL-boba仅需200条数据和200美元即可复现顶尖模型。
AReaL团队致力于实现AI训练的普惠，推动强化学习大规模训练的发展。
后续计划包括异步训练、更快的训练吞吐和更好的数据集及算法支持。

🏷️

继续阅读

那个让马斯克点赞的男人，为什么还是离开了阿里？ - 蝈蝈俊
林俊旸于3月4日辞职，标志着中国AI界的重大变革。他的离开反映了开源与商业之间的矛盾，以及技术理想与管理体制的冲突。作为Qwen的核心人物，他推动了该模型...
一分钟读论文：《ICLR2026新CAGE技术破解跨文化AI安全测试难题》
CAGE技术由韩国SelectStar公司研发，旨在解决AI安全测试中的文化偏见问题。它通过“语义模具”方法自动生成适应不同文化的红队测试数据，显著提升小...
CNCF毕业Dragonfly，标志着云原生图像分发的重要里程碑
云原生计算基金会（CNCF）宣布开源图像和文件分发系统Dragonfly已达到毕业状态，标志着其生产就绪和行业广泛采用。Dragonfly利用P2P加速技...
开发者有两种，一种注定要失败。Justin Searls访谈 [播客 #210]
Quincy Larson采访了软件工程师Justin Searls，他15年前共同创办了一家软件公司。尽管38岁时已退休，Searls现在专注于开源软件...
Transformer作者重造龙虾，Rust搓出钢铁版，告别OpenClaw裸奔
Transformer作者菠萝哥重构了安全版龙虾IronClaw，使用Rust语言修复OpenClaw的安全漏洞。IronClaw通过四层防御机制保护用户...
常用 Excel「奇技淫巧」，助你在新的一年处理数据事半功倍，「马到成功」
在 WPS 中删除换行符很简单。打开「查找和替换」窗口，输入 ^l 代表换行符，替换栏留空，点击确定即可。

超低成本复现QwQ！数学推理模型训练迎来RL暴击，数据代码全开源 | 蚂蚁&清华出品

内容提要

关键要点

标签

继续阅读