英伟达开源9B参数小模型,比Qwen3快6倍

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

英伟达推出了新型小型语言模型Nemotron Nano v2,参数为90亿,速度比Qwen3快6倍,准确率相当。该模型在20万亿token上预训练,并开源大部分数据集,支持复杂推理和思考预算控制。

🎯

关键要点

  • 英伟达推出新型小型语言模型Nemotron Nano v2,参数为90亿。
  • Nemotron Nano v2在复杂推理基准测试上的准确率与Qwen3-8B相当或更高,速度快6倍。
  • 模型在20万亿token上进行预训练,并开源大部分数据集。
  • 模型支持复杂推理和思考预算控制,用户可指定模型思考的token数量。
  • Nemotron Nano v2经过预训练和后训练,使用多种优化技术提升性能。
  • 英伟达发布了66万亿token的预训练数据集,包含多种类型的数据。
  • Nemotron-Pre-Training-Dataset-v1分为四个类别,涵盖网络爬取、数学、代码等数据。
  • 英伟达的开源策略与其他科技巨头形成对比,积极推动开源生态。
➡️

继续阅读