💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

阿里开源了新推理模型QwQ-32B,参数量320亿,性能可与6710亿参数的DeepSeek-R1媲美。该模型通过强化学习提升数学和编程任务的表现,已在Hugging Face和ModelScope上发布。团队希望通过结合强化学习与基础模型,推动人工通用智能的发展。

🎯

关键要点

  • 阿里开源了新推理模型QwQ-32B,参数量320亿,性能可与6710亿参数的DeepSeek-R1媲美。
  • QwQ-32B通过强化学习提升数学和编程任务的表现,已在Hugging Face和ModelScope上发布。
  • 该模型采用Apache 2.0开源协议,用户可通过Qwen Chat直接体验。
  • 大规模强化学习(RL)在提升模型性能方面具有潜力,超越传统的预训练和后训练方法。
  • QwQ-32B集成了与智能体相关的能力,能够进行批判性思考并根据环境反馈调整推理过程。
  • QwQ-32B在数学推理、编程和通用能力的基准测试中表现出色,甚至在某些测试中超过了DeepSeek-R1。
  • QwQ-32B的强化学习训练分为两个阶段,初期专注于数学和编程任务,后期增加通用能力的训练。
  • 未来计划包括将更强大的基础模型与规模化计算资源的RL结合,以实现人工通用智能(AGI)。
  • QwQ-32B发布后获得了广泛好评,用户反馈运行速度快,适合高内存设备。
➡️

继续阅读