超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。该框架全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。
🎯
关键要点
- 蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。
- 仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。
- AReaL-boba全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。
- AReaL-boba集成SGLang推理框架,提升训练效率,支持单机和大规模分布式训练。
- 在数学推理领域,AReaL-boba基于Qwen-R1-Distill-7B模型实现SOTA水平,推理能力显著提升。
- 团队开源了所有训练数据、训练脚本和评估脚本,确保人人可以复现。
- 使用创新性蒸馏技术,AReaL-boba仅需200条数据和200美元即可复现顶尖模型。
- AReaL团队致力于实现AI训练的普惠,推动强化学习大规模训练的发展。
- 后续计划包括异步训练、更快的训练吞吐和更好的数据集及算法支持。
❓
延伸问答
AReaL-boba框架的主要优势是什么?
AReaL-boba框架显著降低了数学推理模型的训练成本和时间,同时提升了训练效率和推理能力。
复现QwQ-32B模型需要多少数据和成本?
复现QwQ-32B模型仅需200条数据和200美元的成本。
AReaL-boba如何支持大规模分布式训练?
AReaL-boba支持单机和大规模分布式训练,显著提升了训练效率,适配各种计算资源。
AReaL-boba的开源内容包括哪些?
AReaL-boba的开源内容包括训练代码、数据、模型参数和详细的技术笔记。
AReaL-boba在数学推理领域的表现如何?
AReaL-boba在数学推理领域实现了SOTA水平,特别是在AIME 2024和2025的评分上有显著提升。
AReaL团队的目标是什么?
AReaL团队致力于实现AI训练的普惠,推动强化学习大规模训练的发展。
➡️