超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
💡
原文中文,约2500字,阅读约需6分钟。
📝
内容提要
蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。该框架全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。
🎯
关键要点
- 蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。
- 仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。
- AReaL-boba全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。
- AReaL-boba集成SGLang推理框架,提升训练效率,支持单机和大规模分布式训练。
- 在数学推理领域,AReaL-boba基于Qwen-R1-Distill-7B模型实现SOTA水平,推理能力显著提升。
- 团队开源了所有训练数据、训练脚本和评估脚本,确保人人可以复现。
- 使用创新性蒸馏技术,AReaL-boba仅需200条数据和200美元即可复现顶尖模型。
- AReaL团队致力于实现AI训练的普惠,推动强化学习大规模训练的发展。
- 后续计划包括异步训练、更快的训练吞吐和更好的数据集及算法支持。
➡️