超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。该框架全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。

🎯

关键要点

  • 蚂蚁与清华合作推出开源强化学习框架AReaL-boba,显著降低数学推理模型的训练成本与时间。
  • 仅需200条数据和200美元即可复现QwQ-32B模型,其推理能力可与顶尖模型媲美。
  • AReaL-boba全面开源,包含训练代码、数据及技术笔记,推动AI训练的普惠化。
  • AReaL-boba集成SGLang推理框架,提升训练效率,支持单机和大规模分布式训练。
  • 在数学推理领域,AReaL-boba基于Qwen-R1-Distill-7B模型实现SOTA水平,推理能力显著提升。
  • 团队开源了所有训练数据、训练脚本和评估脚本,确保人人可以复现。
  • 使用创新性蒸馏技术,AReaL-boba仅需200条数据和200美元即可复现顶尖模型。
  • AReaL团队致力于实现AI训练的普惠,推动强化学习大规模训练的发展。
  • 后续计划包括异步训练、更快的训练吞吐和更好的数据集及算法支持。
➡️

继续阅读