超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。该框架全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。

🎯

关键要点

  • 蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。
  • 仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。
  • AReaL-boba全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。
  • AReaL-boba集成SGLang推理框架,提升训练效率,支持单机和大规模分布式训练。
  • 在数学推理领域,AReaL-boba基于Qwen-R1-Distill-7B模型实现SOTA水平,推理能力显著提升。
  • 团队开源了所有训练数据、训练脚本和评估脚本,确保人人可以复现。
  • 使用创新性蒸馏技术,AReaL-boba仅需200条数据和200美元即可复现顶尖模型。
  • AReaL团队致力于实现AI训练的普惠,推动强化学习大规模训练的发展。
  • 后续计划包括异步训练、更快的训练吞吐和更好的数据集及算法支持。

延伸问答

AReaL-boba框架的主要优势是什么?

AReaL-boba框架显著降低了数学推理模型的训练成本和时间,同时提升了训练效率和推理能力。

复现QwQ-32B模型需要多少数据和成本?

复现QwQ-32B模型仅需200条数据和200美元的成本。

AReaL-boba如何支持大规模分布式训练?

AReaL-boba支持单机和大规模分布式训练,显著提升了训练效率,适配各种计算资源。

AReaL-boba的开源内容包括哪些?

AReaL-boba的开源内容包括训练代码、数据、模型参数和详细的技术笔记。

AReaL-boba在数学推理领域的表现如何?

AReaL-boba在数学推理领域实现了SOTA水平,特别是在AIME 2024和2025的评分上有显著提升。

AReaL团队的目标是什么?

AReaL团队致力于实现AI训练的普惠,推动强化学习大规模训练的发展。

➡️

继续阅读