量子位 ·

超低成本复现QwQ！数学推理模型训练迎来RL暴击，数据代码全开源 | 蚂蚁&清华出品

💡 原文中文，约2500字，阅读约需6分钟。

📝

内容提要

蚂蚁与清华合作推出开源强化学习框架AReaL-boba，显著降低数学推理模型的训练成本与时间。仅需200条数据和200美元即可复现QwQ-32B模型，其推理能力可与顶尖模型媲美。该框架全面开源，包含训练代码、数据及技术笔记，推动AI训练的普惠化。

🎯

🔎

AReaL-boba的全面开源不仅降低了数学推理模型的训练门槛，还推动了AI技术的普惠化。通过共享训练代码、数据和技术笔记，任何人都可以在较低成本下复现顶尖模型，这为中小团队和技术小白提供了宝贵的机会，促进了创新和技术传播。

AReaL-boba通过集成SGLang推理框架，显著提升了训练效率。相比于传统模型，训练吞吐量在不同模型尺寸上都有显著提升，这意味着开发者可以在更短的时间内完成模型训练，快速迭代，适应市场需求变化。

AReaL-boba采用创新的蒸馏技术，使得仅需200条数据和200美元即可复现QwQ-32B模型。这一突破性进展改变了以往对大模型训练的认知，表明在数据稀缺的情况下，依然可以实现高效的模型训练，推动了小数据驱动大模型的研究方向。

❓

AReaL-boba框架显著降低了数学推理模型的训练成本和时间，同时提升了训练效率和推理能力。

复现QwQ-32B模型仅需200条数据和200美元的成本。

AReaL-boba支持单机和大规模分布式训练，显著提升了训练效率，适配各种计算资源。

AReaL-boba的开源内容包括训练代码、数据、模型参数和详细的技术笔记。

AReaL-boba在数学推理领域实现了SOTA水平，特别是在AIME 2024和2025的评分上有显著提升。

AReaL团队致力于实现AI训练的普惠，推动强化学习大规模训练的发展。

🏷️