机器之心 ·

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

蚂蚁技术研究院与清华大学推出开源强化学习框架AReaL，旨在简化大语言模型训练。最新版本AReaL-boba在训练速度和推理能力上表现优异，仅需200条数据即可高效训练，降低成本。该项目完全开源，支持社区复现与改进，推动AI训练的普惠发展。

🎯

🔎

AReaL-boba的开源特性不仅降低了强化学习的入门门槛，还促进了社区的共同进步。开发者可以自由使用和改进该框架，推动AI技术的普及与创新。

AReaL-boba在训练速度上显著提升，尤其是在大规模分布式训练中，能够有效利用计算资源。这意味着更多的研究者和开发者可以在更短时间内完成高质量的模型训练。

通过创新的数据蒸馏技术，AReaL-boba仅需200条数据即可实现高效训练。这一特性使得小型团队和个人开发者也能参与到高水平的AI模型训练中，降低了成本和资源的需求。

❓

AReaL-boba框架以其快速的训练速度和高效的推理能力著称，仅需200条数据即可实现高效训练，且完全开源，支持社区复现与改进。

AReaL-boba通过使用仅200条数据和创新的数据蒸馏技术，使得训练成本降至200美金，显著降低了大语言模型训练的门槛。

AReaL-boba在训练吞吐量上相比初代AReaL有显著提升，1.5B模型速度提升35%，7B模型提升60%，32B模型提升73%。

AReaL-boba开源了所有训练数据、训练脚本和评估脚本，确保用户可以完全复现训练过程。

AReaL-boba在数学推理能力上刷新了开源社区记录，AIME 2024得分为61.9，AIME 2025得分为48.3，显著超越了同类模型。

AReaL团队希望实现AI训练的普惠，计划持续发布开源项目和优化方案，推动社区的发展。

🏷️